Une image vaut mille mots, c’est un adage qui s’applique encore aujourd’hui. Des idées complexes et multiples peuvent être représentées dans une seule image. La tendance est de passer des textes aux images et aux graphiques animés. Les chercheurs affirment que les images sont très puissantes et la plupart choisissent les images pour comprendre le message car elles sont le point d’entrée des histoires – elles ajoutent du sens et elles touchent remarquablement l’état psychologique, la mémoire et les émotions des gens. Bien que nous ayons des ML et LLM plus importants, la popularité des outils d’IA générateurs d’images a explosé ces derniers temps.

Midjoruney, Dall-E, Google Gemini et Stable Diffusion (Stability) sont quelques-uns des outils logiciels de génération d’images populaires sur Internet. Bien que Midjourney ait mené la course jusqu’à présent, nous avons pensé qu’il était urgent de comparer le reste des outils de génération d’images d’IA – Dall-E vs. Google Gemini, vs. Stable Diffusion.

Faisons une brève introduction avant de comparer les outils logiciels de génération d’images d’IA.

Qu’est-ce que DALL–E ?

DALL–E est un modèle d’IA qui génère des images ou des illustrations à partir de descriptions textuelles que les utilisateurs saisissent comme invite. Pour créer une image conforme au texte, il traduit des milliards de fragments de texte provenant de partout sur Internet en un résumé. Ces informations stockées sont ensuite utilisées comme outil de référence pour décrire les informations et enfin pour créer des images orientées invite. Le modèle DALL–E est disponible via ChatGPT.

Qu’est-ce que Google Gemini ?

En 2024, Google a lancé l’outil de génération d’images IA via Gemini. Gemini est la principale suite de modèles IA de Google et a été équipé pour produire des images selon les demandes des utilisateurs. Bien que Google Gemini soit davantage dans l’actualité en raison de ses inexactitudes historiques et de ses réponses douteuses, le générateur d’images IA Gemini est connu pour fournir des illustrations/images très proches de l’imagination de l’utilisateur.

Qu’est-ce que la diffusion stable ?

Stable Diffusion est une solution d’IA générative open source de Stability AI (GénAI) entreprise qui vise à fournir des modèles d’IA révolutionnaires et en libre accès qui nécessitent un minimum de ressources pour créer des images, du langage, de l’audio et du code. Stable Diffusion est le T2I (Text-to-Image) le plus récent et le plus avancé qui comprend 2 milliards de paramètres.

Outils de génération d’images IA : popularité et impact croissants

L’intelligence artificielle a rendu les outils de génération d’images plus efficaces et plus précis. Les générateurs d’images IA sont extrêmement populaires parmi les spécialistes du marketing et les créateurs de contenu pour dynamiser leur contenu avec des graphiques accrocheurs et attrayants.

Les statistiques révèlent que moins de 40 % des spécialistes du marketing utilisent l’IA générative pour créer des images destinées aux publications sur les réseaux sociaux. De plus, 36 % d’entre eux exploitent la puissance des générateurs d’images IA pour créer des images de sites Web.

Vous voulez savoir comment ChatGPT peut faire des merveilles pour votre entreprise et augmenter sa croissance et son efficacité ?

Voici votre lecture exclusive

DALL–E vs Google Gemini vs Stable Diffusion – Comparaison des générateurs d’images IA

Pour comparer les outils d’IA générateurs d’images, nous avons décidé d’avoir une invite commune à exécuter sur ces trois plateformes différentes. L’objectif était de comprendre comment ces outils de génération d’images IA recherchent les textes et utilisent leurs algorithmes et modèles pour créer des images. Nous avons pris en compte trois paramètres généraux pour évaluer les outils d’IA générateurs d’images :

  1. Dans quelle mesure l’outil générateur d’IA comprend-il l’invite avec des détails ?
  2. Combien de temps de réponse faut-il pour générer des résultats de conversion de texte en image ?
  3. Comment l’image principale a-t-elle été créée et qu’a-t-on mis dans l’environnement et l’arrière-plan ?

Expérimentez avec l’invite n°1 pour la génération d’images IA

Créez l’image d’une clé ornée de l’époque victorienne posée sur une surface en bois patiné, avec des engrenages et des mécanismes complexes d’inspiration steampunk visibles dans sa tige en verre transparent.

DALL – E (via ChatGPT)

Google Gemini

Diffusion stable

Temps de réponse : 6 à 9 secondes
Temps de réponse : 7 à 9 secondes
Temps de réponse : 4 à 6 secondes
Tentative : 1
Tentative : 1
Tentative : 1

Plateforme de génération d'images IA

Les paramètres

Dans quelle mesure l’outil générateur d’IA comprend-il l’invite et la détaille-t-il ?

AVEUGLE – E (ChatGPT)

DALL-E a compris le message comme nous le souhaitions. Il a créé exactement ce que nous avions imaginé. Le générateur d’images IA a très bien compris les instructions : des engrenages et des mécanismes inspirés sont visibles dans son arbre en verre transparent. En fait, il a également créé un mécanisme transparent dans l’arbre ainsi que dans la tête. DALL-E a parfaitement créé une clé de l’époque victorienne. Le générateur d’images IA a également conçu une surface en bois patiné accrocheuse. La couleur cuivrée correspondait parfaitement au message et à l’image que nous avions créée dans notre esprit. Dans l’ensemble, il s’agissait d’une image détaillée avec des traits nets et un design royal de la clé.

Ce que nous avons aimé

  • Lumière naturelle créée sur le verre
  • Le bois
  • Le croissant du verre du côté de l’ombre

Google Gemini

Contrairement à DALL–E et Stable Diffusion, Google Gemini a toujours proposé plusieurs options. Chaque image avait une approche légèrement différente, ce qui signifie que l’utilisateur pouvait avoir des choix différents à partir de l’invite. Cependant, dans ce cas, les trois touches n’étaient pas impressionnantes car il leur manquait une partie essentielle du « mécanisme transparent » de la tête. Le créateur d’images IA a produit une touche qui correspondait à notre description, mais nous ne l’avons pas trouvée impressionnante. Ici, une seule touche avec la tête de touche en verre était à la hauteur. L’angle de la touche était tel que les détails du mécanisme transparent n’étaient pas très visibles. Dans l’ensemble, le générateur d’images IA n’a pas fait du bon travail pour nous à ce sujet.

Diffusion stable

Stable Diffusion a rendu tout cela parfait, comme nous le souhaitions. Il avait un mécanisme transparent et une tige en verre. La clé avait l’air royale, mais nous nous attendions à ce que le couvercle en verre de la tête de la clé soit manquant. Dans l’ensemble, les détails et l’image centrée sur l’invite étaient assez satisfaisants. Stable Diffusion a fait un travail merveilleux. L’image avait une clé plus grande avec tous les détails visibles. Bien que le mécanisme transparent ne soit pas si impressionnant, l’outil de génération d’IA a compris l’invite et a produit l’illustration pertinente. Néanmoins, nous avons observé qu’il manquait une pièce importante : le couvercle en verre sur la tête de la clé.

Ce que nous avons aimé :

  • Le gros plan de la clé
  • Le design victorien


Nombre de points :

  • DALL-E : 1
  • Google Gémeaux : 0
  • Diffusion stable : 0,5

Vous êtes curieux de connaître l’impact transformationnel de l’IA sur le secteur des affaires ?

Lisez ces dernières statistiques sur l’IA

Combien de temps de réponse faut-il pour générer des résultats de conversion de texte en image ?

L’outil de génération d’images IA, DALL-E, a pris entre 6 et 8 secondes. D’autre part, le logiciel de génération d’images IA Google Gemini a pris entre 7 et 9 secondes pour comprendre et créer l’image. Enfin, Stable Diffusion a été assez rapide car cet outil de génération d’images IA a pris environ 5 à 7 secondes pour créer l’image centrée sur l’invite.

Nombre de points :

  • DE-E : 1
  • Google Gemini : 1
  • Diffusion stable : 1

Comment l’image principale a-t-elle été créée et qu’a-t-on mis dans l’environnement et l’arrière-plan ?

DALL -E

L’image principale créée était conforme à l’invite. Il n’y avait rien de plus, ce qui signifie que le logiciel de génération d’images AI a suivi les instructions à la lettre sans rien ajouter qui n’était pas demandé.

Google Gemini

Le générateur d’IA Google Gemini a fourni quelques options pour la même invite, ce qui a rendu cet outil de génération d’images IA un peu plus complet et holistique. Alors que trois images créaient une forêt, une image était présentée avec de l’herbe naturelle qui a attiré notre attention. Cela avait l’air apaisant, mais nous ne l’avons pas demandé.

Diffusion stable

Tout comme DALL-E, Stable Diffusion a fait un travail remarquable en créant l’image principale et les alentours conformément aux instructions. Le bois était exactement comme nous le souhaitions. Il n’a rien ajouté de plus que ce que nous avions demandé.

Nombre de points :

  • DE-E : 1
  • Google Gemini : 1
  • Diffusion stable : 1

Expérimentez avec l’invite n°2

Image cinématographique du film, gros plan, photo d’un guerrier dragon aux écailles d’or en armure complète, dans un style fantastique hyperréaliste.

DALL – E (via ChatGPT)

Google Gemini

Diffusion stable

Temps de réponse : 6 à 9 secondes
Temps de réponse : 8 à 10 secondes
Temps de réponse : 5 à 8 secondes
Tentative : 1
Tentative : 1
Tentative : 1

AI Image

Les paramètres

Dans quelle mesure l’outil générateur d’IA comprend-il l’invite ?

DALL-E

Le ChatGPT a fait un travail fantastique en nous montrant le gros plan du guerrier dragon. Les couleurs utilisées étaient vives et la créature aux écailles dorées était impressionnante. Les pointes sur le corps et l’armure étaient détaillées et nettes. Néanmoins, ce que nous avons observé, c’est que ce générateur d’images IA a pris notre invite au pied de la lettre ! La phrase « image fixe du film cinématographique » a déclenché DALL-E pour créer le clap et l’afficher sur l’image. Bien qu’il soit impressionnant que le moteur d’IA prenne les invites au sérieux, nous nous attendions à ce qu’il soit compris comme une scène cinématographique plutôt que de se concentrer sur BTS !

Google Gemini

Google Gemini a simplement modifié l’armure avec des designs différents pour trois de ses résultats. Chacun d’entre eux avait une approche différente en zoom avant/arrière. Le visage du guerrier dragon aux écailles dorées est resté presque similaire. La quatrième image présentait une pose plus grande du guerrier avec plus d’éléments en arrière-plan. Toutes les images semblaient un peu ternes par rapport au reste des outils.

Diffusion stable

Un seul plan montrant un guerrier dragon détaillé a été présenté. De manière impressionnante, la tête du dragon a été mélangée avec de la salade et du bevor pour paraître plus agressive. Le diamant bleu allait plutôt bien avec une épaulette et une cuirasse plaquées or. La robe de guerrier bleue était attrayante sur le corps.

Ce que nous avons aimé :

  • Gros plan sur le guerrier
  • Diamants
  • Robe de guerrier

Nombre de points :

  • DALL-E : 0,5
  • Google Gémeaux : 0
  • Diffusion stable : 1

Combien de temps de réponse faut-il pour générer des résultats de conversion de texte en image ?

Le générateur d’images IA DALL-E a pris entre 6 et 9 secondes. En revanche, le logiciel de génération d’images IA Google Gemini a pris entre 8 et 10 secondes pour comprendre et créer l’image. Enfin, Stable Diffusion a été assez rapide car cet outil de génération d’images IA a pris environ 5 à 8 secondes pour créer l’image à cadrage rapide.

Nombre de points :

  • DE-E : 1
  • Google Gémeaux : 0
  • Diffusion stable : 1

Comment l’image principale a-t-elle été créée et qu’a-t-on mis dans l’environnement et l’arrière-plan ?

DALL -E

L’image principale créée était conforme à l’invite. Cependant, un ajout notable a été le clap, car le moteur d’IA a pris l’invite très au sérieux. L’expression « cinématique » a été prise trop au pied de la lettre et le générateur d’images d’IA a pensé inclure les coulisses.

Google Gemini

Le générateur d’IA Google Gemini a montré quatre options pour la même invite, ce qui a rendu cet outil de génération d’images d’IA un peu plus complet et holistique. Néanmoins, trois de ces images étaient presque identiques avec des modifications de conception mineures dans la suite d’armures. La quatrième image était une image agrandie du guerrier avec une planète. L’outil a essayé de montrer le champ de bataille, mais il ressemblait davantage à une région extraterrestre.

Diffusion stable

Stable Diffusion a été, jusqu’à présent, la meilleure pour créer le guerrier dragon aux écailles dorées avec un gros plan détaillé. L’arrière-plan montrait un château qui répondait à notre objectif d’avoir une touche de guerre. Dans l’ensemble, cette image correspondait à ce que nous souhaitions à travers le message d’invite.

Nombre de points :

  • DE-E : 1
  • Google Gémeaux : 0
  • Diffusion stable : 1

Google Gemini, Copilot ou ChatGPT ? Plongez dans la confrontation ultime entre l’IA et découvrez laquelle est la plus adaptée à vos besoins !

Découvrez le gagnant maintenant !

Expérimentez avec l’invite n°3

Créez des tourbillons vibrants et explosifs de peinture orange, jaune, rose et bleue en cascade du plafond sur un sol gris poli dans une galerie d’art, contrastant avec des peintures abstraites monochromes sur des murs blancs et créant une scène dynamique et énergique sous un éclairage vif et concentré.

DALL – E (via ChatGPT)

Google Gemini

Diffusion stable

Temps de réponse : 4 à 6 secondes
Temps de réponse : 6 à 8 secondes
Temps de réponse : 5 à 8 secondes
Tentative : 1
Tentative : 1
Tentative : 1

AI Image

Les paramètres

Dans quelle mesure l’outil générateur d’IA comprend-il l’invite ?

Google Gemini

Cette fois, Google Gemini est allé un peu plus loin et a créé quatre options différentes plutôt que de présenter des images similaires avec des changements triviaux comme par le passé. Cependant, le générateur d’images IA n’a pas suivi les instructions de l’invite dans deux de ses images. L’outil a montré une chute directe de peinture orange, rose et jaune, mais a manqué deux éléments essentiels : le tourbillon et la couleur bleue. Cependant, le reste des deux images incluait les couleurs (y compris le bleu) mentionnées dans l’invite. Mais encore une fois, tout en incluant la couleur bleue dans deux images, l’outil n’a pas pu se concentrer sur la création de peintures abstraites monochromes. Dans l’ensemble, chacune des images créées a manqué l’un ou l’autre élément de l’invite. L’image en haut à droite ne montrait pas le sol et la profondeur de l’image ; au lieu de cela, il semblait que les couleurs suintaient de nulle part.

DALL-E (ChatGPT)

Cet outil a créé l’image la plus impressionnante de l’invite. De magnifiques tourbillons de toutes les couleurs mentionnées dans l’invite ont été créés. De plus, le générateur d’images IA a conquis notre cœur en montrant le sol avec des boules de couleur sphériques. L’outil a réussi à montrer des peintures abstraites monochromes sur les murs blancs. C’était le seul outil qui incluait un éclairage lumineux et focalisé dans l’image comme indiqué dans l’invite.

Diffusion stable

Stable Diffusion a rapidement compris le message, mais n’a pas réussi à inclure de la peinture bleue avec la même pondération que le reste des couleurs. Il n’y avait qu’une fraction de la couleur bleue. Le générateur d’images IA a également raté la peinture monochrome mais a réussi à montrer le sol gris. Il n’a pas non plus réussi à créer un éclairage brillant et focalisé qui faisait partie du message.

Nombre de points :

  • DALL-E : 1
  • Google Gémeaux : 0
  • Diffusion stable : 0,5

Combien de temps de réponse faut-il pour générer des résultats de conversion de texte en image ?

Google Gemini a créé quatre options et a mis environ 4 à 6 secondes lors de la première tentative. De même, une seule tentative a suffi au générateur d’images DALL-E AI pour créer une image en 6 à 8 secondes. Enfin, Stable Diffusion a mis environ 5 à 8 secondes pour créer l’image à partir de l’invite lors de la première tentative.

Nombre de points :

  • DE-E : 1
  • Google Gemini : 1
  • Diffusion stable : 1

Comment l’image principale a-t-elle été créée et qu’a-t-on mis dans l’environnement et l’arrière-plan ?

Google Gemini

L’outil n’a pas seulement échoué à aller littéralement au bout de l’invite, mais a également créé l’arrière-plan avec son propre arrière-plan. L’éclairage focalisé était montré sur les peintures sur le mur alors que l’invite mentionnait qu’il devait être sur les tourbillons de peinture. De même, les deux images ci-dessous ont complètement raté les peintures sur le mur. Seule la première image (coin supérieur gauche) s’est un peu rapprochée de l’invite, mais elle n’a pas réussi à créer des scènes attrayantes et des peintures monochromes.

DALL-E

C’était l’image la plus impressionnante générée à partir de l’invite. ChatGPT a créé des tourbillons époustouflants venant du haut et s’écrasant sur le sol gris. Ce que nous avons adoré, ce sont les fenêtres qui montraient une lumière ambiante naturelle se concentrant sur la chute. De plus, le générateur d’images IA a réussi à inclure des peintures monochromes sur les murs blancs.

Ce que nous avons aimé :

  1. Tourbillons
  2. Les détails de l’image globale
  3. Les fenêtres et les lumières d’ambiance
  4. Les boules colorées sur le sol
  5. La profondeur de champ avec les peintures
  6. Le plafond

Diffusion stable

La proportion des tourbillons du plafond et du reste de la pièce ne correspondait pas et le résultat semblait donc trop artificiel. De plus, l’outil n’a pas réussi à créer une peinture monochrome typique car les deux peintures ont une trace d’autres couleurs/nuances. L’outil a réussi à obtenir le sol et le plafond gris, mais dans l’ensemble, l’image ne correspondait pas à nos attentes, bien qu’elle soit meilleure que celle de Google Gemini.

Nombre de points :

  • DE-E : 1
  • Google Gémeaux : 0
  • Diffusion stable : 0,5

Expérimentez avec l’invite n°4

A l’ombre du dernier soleil, un pêcheur s’était endormi, et il avait un sillon le long du visage, comme une sorte de sourire.

DALL – E (via ChatGPT)

Google Gemini

Diffusion stable

Temps de réponse : 4 à 6 secondes
Temps de réponse : 8 à 10 secondes
Temps de réponse : 5 à 7 secondes
Tentative : 1
Tentative : 1
Tentative : 1

AI Image

Les paramètres

Dans quelle mesure l’outil générateur d’IA comprend-il l’invite ?

Google Gemini

Nous avons essayé avec des instructions très courtes, rapides et simples, même si Google Gemini n’a pas réussi à analyser les instructions et a généré des images assez peu pertinentes. Toutes les images ne montraient pas le visage du pêcheur et il n’y avait donc aucune chance d’évaluer le sillon et le sourire. Deux des images ressemblaient davantage à une silhouette sans aucun détail. La quatrième image était complètement hors sujet, montrant un pêcheur endormi dans le bateau sans aucune trace du dernier soleil. L’une des images se concentrait davantage sur le canoë et la mer avec un petit pêcheur.

DALL-E

ChatGPT a choisi de nous montrer un gros plan d’un pêcheur. L’outil a réussi à capturer le dernier soleil et l’homme dormait paisiblement. Le sillon créé le long de son visage était impressionnant et le petit sourire qui en résultait était remarquable.

Ce que nous avons aimé :

  1. Le dernier soleil
  2. Les rayons du soleil
  3. Les ombres et les nuances du pêcheur
  4. Le tissu et le chapeau de l’homme


Diffusion stable

Stable Diffusion a fait un bien meilleur travail que Google Gemini, mais il n’a pas été à la hauteur de l’image créée par l’outil de génération d’images DALL-E AI. L’image montrait un pêcheur allongé dans son canoë et le dernier soleil apparaissait à l’horizon. L’image montre qu’il navigue au milieu de l’océan. Cependant, en raison de l’image de type silhouette, le sillon et le sourire créés n’étaient pas visibles.

Nombre de points :

  • DE-E : 1
  • Google Gémeaux : 0
  • Diffusion stable : 0


Combien de temps de réponse faut-il pour générer des résultats de conversion de texte en image ?

DALL-E ChatGPT a mis 4 à 6 secondes pour créer la meilleure image qui corresponde à l’invite en une seule tentative. Stable Diffusion a mis 5 à 7 secondes pour comprendre l’invite et créer l’image d’un pêcheur pas très détaillée. Google Gemini a non seulement mis 8 à 10 secondes (le temps le plus long) mais a également été déçu par les résultats.

Nombre de points :

  • DE-E : 1
  • Google Gémeaux : 0
  • Diffusion stable : 0

Révolutionnez le développement de vos applications Web et mobiles grâce à une expertise en IA de pointe et tournée vers l’avenir.

Faites équipe avec notre équipe d’experts en développement d’IA

Comment l’image principale a-t-elle été créée et qu’a-t-on mis dans l’environnement et l’arrière-plan ?

Google Gemini

Google Gemini a créé un arrière-plan terne sans aucun détail. Le plus surprenant était l’image d’angle où le soleil couchant a été omis et remplacé par une scène de conte de fées d’une maison, d’un canoë, d’un pêcheur et de fleurs dans la cour avant. Le reste des images comportait des mers en arrière-plan avec une sorte de lumière provenant du soleil couchant, mais aucune d’entre elles n’était impressionnante. Les images étaient plus sombres là où les détails du pêcheur n’étaient pas réalisables.

DALL-E

C’était la génération d’image IA la plus impressionnante à partir de l’invite. ChatGPT a suivi les instructions à la lettre. Une image nette et claire d’un pêcheur avec un sillon était significative. L’arrière-plan montrait le soleil couchant avec suffisamment de lumière ambiante pour mettre en valeur la silhouette du canoë et des filets de pêche. De plus, la lumière ambiante créée sur le visage du pêcheur était impressionnante car elle définissait clairement les plis du visage et le tissu fin de la chemise de l’homme.

Ce que nous avons aimé :

  1. Gros plan du pêcheur
  2. L’ambiance générale du crépuscule
  3. Traits prononcés sur le visage
  4. Le sillon et le sourire qu’il a fait
  5. Le tissu et les détails de la chemise
  6. L’expression du visage

Diffusion stable

Stable Diffusion a produit un joli ciel avec le soleil couchant à l’horizon. L’eau montrait un reflet de la lumière du soleil. Cependant, la taille du pêcheur et de son canoë aurait pu être un peu plus grande pour paraître naturelle. Les effets de silhouette ont entravé le but de l’invite, car un sillon et un sourire créés à partir de celui-ci manquaient complètement. L’outil n’a pas manqué de montrer une canne à pêche tombant du canoë. Dans l’ensemble, l’image était belle, mais elle manquait le but.

Nombre de points :

  • DE-E : 1
  • Google Gémeaux : 0
  • Diffusion stable : 0,5

Expérimentez avec l’invite n°5

Fille d’anime, fille chevalier, frange émoussée, coupe hime, oreilles pointues, opale perlée, très esthétique, chef-d’œuvre, meilleure qualité, hyper détaillé, ultra détaillé, UHD, anatomie parfaite, épée, éblouissante, transparente, épée ondulante, argent bruni, armure en acier, armure brillante, armure éblouissante, illustration détaillée, illustration officielle, fond d’écran, art officiel, yeux et visage extrêmement détaillés, beaux yeux détaillés, œil bleu.

DALL – E (via ChatGPT)

Google Gemini

Diffusion stable

Temps de réponse : 6 à 8 secondes
Temps de réponse : 6 à 8 secondes
Temps de réponse : 4 à 6 secondes
Tentative : 1
Tentative : 1
Tentative : 1

AI Image

Les paramètres

Dans quelle mesure l’outil générateur d’IA comprend-il l’invite ?

Diffusion stable

Stable Diffusion a produit avec soin la jeune chevalier avec une vue détaillée de presque tout ce que l’invite mentionnait, comme des oreilles pointues, une épée ultra-détaillée, de l’acier et une armure brillante et des yeux bleus. Il semble que l’outil de génération d’images IA n’ait pas oublié une seule instruction. En fait, nous en avons demandé trop et avons essayé de dérouter le moteur IA en demandant la même chose de différentes manières et avec des avatars. Cependant, Stable Diffusion a fait son travail. Le plan qu’il a produit était un gros plan d’une jeune fille blonde qui ressemblait à un chevalier confiant.

Google Gemini

Google Gemini n’a d’abord produit que deux images, contrairement à son modèle qui nous donne quatre options. Il s’est arrêté après avoir généré deux images et nous a demandé de « générer plus ». Cependant, si nous parlons des deux premières images générées par l’IA, elles montrent la jeune chevalier de face et dans une pose de portrait. Une image montrait l’épée (qui n’apparaissait pas comme on le pensait, c’était plutôt une balise Star Wars), et l’autre image l’a manquée. Étonnamment, l’outil de génération d’images IA Google Gemini a montré une image dans laquelle la jeune fille avait des cornes. Les deux images manquaient d’oreilles pointues. La première tentative n’a pas pu produire les quatre images. Lors de la deuxième tentative, Google Gemini a abandonné et a affiché un message : Je ne peux pas générer ces images. Entrez une nouvelle invite pour générer plus d’images.

DALL-E (ChatGPT)

Ce modèle de générateur d’images IA a produit une image qui provenait directement de l’invite. Cependant, à notre grande surprise, il a montré l’image verticalement. Une fois corrigée localement, l’image était en mode paysage. L’image montrait une jeune fille chevalier, mais il s’agissait plutôt d’un personnage enfantin. Il produisait une épée brillante. DALL-E semble aimer les diamants et c’est également ce qui était montré dans cette image. La fille portait une armure et avait des oreilles pointues comme indiqué dans l’invite. Elle était bien habillée avec une fleur dans la couronne.

Nombre de points :

  • DALL-E : 0,5
  • Google Gémeaux : 0
  • Diffusion stable : 1

Combien de temps de réponse faut-il pour générer des résultats de conversion de texte en image ?

DALL-E a mis 4 à 6 secondes pour produire une image de paysage de la jeune chevalier dans le cadre de son travail sur ChatGPT, alors que Google Gemini a mis deux tentatives (plus de 10 secondes au total) pour produire deux images, qui n’étaient pas non plus à la hauteur. Stable Diffusion a mis 6 à 8 secondes pour produire une image presque parfaite à partir de l’invite.

Nombre de points :

  • DE-E : 1
  • Google Gémeaux : 0
  • Diffusion stable : 1

Comment l’image principale a-t-elle été créée et qu’a-t-on mis dans l’environnement et l’arrière-plan ?

Diffusion stable

L’image principale créée par l’outil de génération d’images IA Stable Diffusion était à la hauteur car elle montrait tout en détail et conformément à l’invite. L’arrière-plan était un beau ciel avec des nuages ​​qui correspondaient aux nuances du personnage principal. L’ombre et le reflet du ciel et de la lumière du soleil étaient visibles sur l’armure de la jeune chevalier.

Google Gemini

L’arrière-plan de la jeune chevalier était simple et dénué de détails. L’épée ressemblait davantage à une balise laser et le personnage à une bête avec des cornes sur la tête. L’outil manquait également d’oreilles pointues et d’yeux bleus attrayants. Il n’y avait rien qui nous attirait dans l’image.

DALL-E

Les détails de cette image étaient spectaculaires et pas aussi réels que ceux que nous avons trouvés dans Stable Diffusion. C’était plus caricatural dans le cas de DALL-E. La fille ressemblait à une Chinoise et à un enfant plutôt qu’à un chevalier audacieux. L’image montrait des diamants graphiques qui ressemblaient davantage à des reflets d’objectif à certains endroits. Nous avons également observé qu’il s’agissait d’une image en mosaïque où l’on peut trouver deux autres copies des personnages principaux en arrière-plan. Nous ne sommes pas sûrs de ce que cela signifie car ce n’était pas dans l’invite.

Nombre de points :

  • DALL-E : 0,5
  • Google Gémeaux : 0
  • Diffusion stable : 1

Le total des décomptes : DALL-E contre Gemini contre Stable Diffusion

Si nous regardons le nombre de points pour toutes les questions pour tous les générateurs d’images IA, nous obtenons ce score :

Invite 1

Questions
DALL-E
Google Gemini
Diffusion stable
Question 1
1
0
0.5
Question 2
1
1
1
Question 3
1
1
1
Total
3
2
2.5


Invite 2

Questions
DALL-E
Google Gemini
Diffusion stable
Question 1
0.5
0
1
Question 2
1
0
1
Question 3
1
0
1
Total
2.5
0
3


Invite 3

Questions
DALL-E
Google Gemini
Diffusion stable
Question 1
1
0
0.5
Question 2
1
1
1
Question 3
1
0
0.5
Total
3
1
2


Invite 4

Questions
DALL-E
Google Gemini
Diffusion stable
Question 1
1
0
0
Question 2
1
0
0
Question 3
1
0
0.5
Total
3
0
0.5


Invite 5

Questions
DALL-E
Google Gemini
Diffusion stable
Question 1
0.5
0
1
Question 2
1
0
1
Question 3
0.5
0
1
Total
2
0
3

Résultats finaux : DALL-E vs Gemini vs Stable Diffusion

Invites
DALL-E
Google Gemini
Diffusion stable
Invite 1
3
2
2.5
Invite 2
2.5
0
3
Invite 3
3
1
2
Invite 4
3
0
0.5
Invite 5
2
0
3
Total
13.5
3
11

Lors de nos tests complets d’outils de génération d’images par IA, DALL-E, Google Gemini et Stable Diffusion ont été évalués à l’aide de la même invite. DALL-E est arrivé en tête avec un score de 13,5 sur 15, excellant dans les détails de l’image, le respect des instructions et la qualité des arrière-plans. Stable Diffusion a suivi avec un score de 11, démontrant une qualité d’image et une précision élevées, bien que légèrement moins cohérentes dans les éléments d’arrière-plan. Google Gemini, avec un score de 3, n’a pas été à la hauteur en ce qui concerne le suivi précis des instructions et la production d’images détaillées.

Verdict

Stands DALL-E s’avère être l’outil le plus fiable pour générer des images détaillées de haute qualité qui correspondent étroitement aux invites données. Toutefois, nos résultats sont basés sur des paramètres de test spécifiques et les expériences individuelles peuvent varier. Nous vous recommandons d’explorer chaque outil d’IA pour déterminer celui qui correspond le mieux à vos besoins uniques.

Hashtags sociaux

#AIImageGeneration #DALLEvsGemini #StableDiffusionAI #AIArtBattle #AIComparison #ImageGenerationTech #AIImageCreators #CreativeAI