Ein Bild sagt mehr als tausend Worte – ein Sprichwort, das auch heute noch gilt. Komplexe und vielfältige Ideen können in einem einzigen Bild dargestellt werden. Der Trend verlagert sich von Texten hin zu Bildern und bewegten Grafiken. Forscher sagen, dass Bilder sind sehr mächtig und die meisten wählen Bilder, um die Botschaft zu verstehen, denn diese sind der Einstiegspunkt zu Geschichten – sie verleihen Bedeutung und berühren bemerkenswert die Psyche, das Gedächtnis und die Emotionen der Menschen. Obwohl wir über größere MLs und LLMs verfügen, ist die Popularität von KI-Tools zur Bildgenerierung in letzter Zeit sprunghaft angestiegen.
Midjoruney, Dall-E, Google Gemini und Stable Diffusion (Stability) sind einige der im gesamten Internet beliebten Softwaretools zur Bildgenerierung. Obwohl Midjourney bisher das Rennen anführt, denken wir, dass es dringend notwendig ist, die restlichen KI-Tools zur Bildgenerierung zu vergleichen – Dall-E vs. Google Gemini vs. Stable Diffusion.
Zuerst eine kurze Einführung, bevor wir KI-Softwaretools zur Bildgenerierung vergleichen.
Was ist DALL-E?
DALL–E ist ein KI-Modell, das Bilder oder Illustrationen auf der Grundlage von Textbeschreibungen generiert, die Benutzer als Eingabeaufforderung eingeben. Um ein Bild zu erstellen, das zum Text passt, übersetzt es Milliarden von Textblöcken aus dem gesamten Internet in eine Zusammenfassung. Diese gespeicherten Informationen werden dann als Referenztool verwendet, um Informationen zu beschreiben und schließlich eingabeorientierte Bilder zu erstellen. Das DALL–E-Modell ist über ChatGPT verfügbar.
Was ist Google Gemini?
Google führte 2024 das KI-Bildgeneratortool über Gemini ein. Gemini ist Googles wichtigste Suite von KI-Modellen und wurde ausgestattet, um Bilder gemäß den Eingabeaufforderungen der Benutzer zu erstellen. Obwohl Google Gemini aufgrund seiner historischen Ungenauigkeiten und fragwürdigen Antworten häufiger in den Nachrichten ist, ist der KI-Bildgenerator Gemini dafür bekannt, Illustrationen/Bilder bereitzustellen, die der Vorstellungskraft des Benutzers sehr nahe kommen.
Was ist stabile Diffusion?
Stable Diffusion ist von Stability AI, einer führenden Open-Source-generativen KI (GenAI) Unternehmen, das bahnbrechende und frei zugängliche KI-Modelle liefern möchte, die nur minimale Ressourcen zum Erstellen von Bildern, Sprache, Audio und Code erfordern. Stable Diffusion ist das neueste und fortschrittlichste T2I (Text-to-Image), das 2 Milliarden Parameter umfasst.
KI-basierte Bilderzeugungstools: Steigende Popularität und Auswirkungen
Künstliche Intelligenz hat Bildgenerierungstools effizienter und präziser gemacht. KI-Bildgeneratoren sind bei Vermarktern und Content-Erstellern sehr beliebt, um ihre Inhalte mit auffälligen und ansprechenden Grafiken aufzuwerten.
Statistiken zeigen, dass nur weniger als 40 % der Vermarkter nutzen Generative AI um Bilder für Social-Media-Beiträge zu erstellen. Darüber hinaus nutzen 36 % von ihnen die Leistungsfähigkeit von KI-Bildgeneratoren, um Website-Bilder zu erstellen.
Möchten Sie wissen, wie ChatGPT Wunder für Ihr Unternehmen bewirken und dessen Wachstum und Effizienz steigern kann?
DALL–E vs. Google Gemini vs. Stable Diffusion – Vergleich von KI-Bildgeneratoren
Um KI-Tools zur Bilderzeugung zu vergleichen, haben wir uns entschieden, eine gemeinsame Eingabeaufforderung zu verwenden, die auf diesen drei verschiedenen Plattformen ausgeführt wird. Ziel war es zu verstehen, wie diese KI-Tools zur Bilderzeugung die Texte verfolgen und ihre Algorithmen und Modelle zum Erstellen von Bildern verwenden. Zur Bewertung der KI-Tools zur Bilderzeugung haben wir drei allgemeine Parameter berücksichtigt:
- Wie gut versteht das KI-Generatortool die Eingabeaufforderung mit Details?
- Wie lange dauert die Reaktionszeit, um Text-zu-Bild-Ergebnisse zu generieren?
- Wie ist das Hauptbild entstanden und was wurde in die Umgebung und den Hintergrund eingefügt?
Experimentieren Sie mit Eingabeaufforderung Nr. 1 zur KI-Bildgenerierung
Erstellen Sie das Bild eines verzierten Schlüssels aus der viktorianischen Zeit, der auf einer verwitterten Holzoberfläche liegt. In seinem transparenten Glasschaft sind komplizierte, von Steampunk inspirierte Zahnräder und Mechanismen sichtbar.
DALL – E (über ChatGPT) | Google Gemini | Stabile Diffusion |
Reaktionszeit: 6-9 Sekunden | Reaktionszeit: 7-9 Sekunden | Reaktionszeit: 4-6 Sekunden |
Versuch: 1 | Versuch: 1 | Versuch: 1 |
Die Parameter
Wie gut versteht das KI-Generator-Tool die Eingabeaufforderung und wie detailliert beschreibt es sie?
BLIND – E (ChatGPT)
DALL-E verstand die Eingabeaufforderung so, wie wir sie wollten. Es erstellte genau das, was wir uns vorgestellt hatten. Der KI-Bildgenerator verstand die Anweisungen recht gut: Inspirierende Zahnräder und Mechanismen, die in seinem transparenten Glasschaft sichtbar waren. Tatsächlich erstellte er zusammen mit dem Kopf auch einen transparenten Mechanismus im Schaft. DALL-E erstellte perfekt einen Schlüssel aus der viktorianischen Zeit. Der KI-Bildgenerator gestaltete auch eine auffällige verwitterte Holzoberfläche. Die kupferfarbene Farbe passte perfekt zur Eingabeaufforderung und dem Bild, das wir in unseren Köpfen geschaffen hatten. Insgesamt war es ein detailliertes Bild mit scharfen Gesichtszügen und einem königlichen Design des Schlüssels.
Was uns gefallen hat
- Natürliches Licht auf dem Glas
- Das Holz
- Die Glassichel auf der Schattenseite
Google Gemini
Im Gegensatz zu DALL-E und Stable Diffusion bot Google Gemini immer mehrere Optionen. Jedes Bild hatte einen etwas anderen Ansatz, was bedeutet, dass der Benutzer verschiedene Auswahlmöglichkeiten aus der Eingabeaufforderung haben kann. In diesem Fall waren die drei Tasten jedoch nicht beeindruckend, da ihnen ein wesentlicher Teil des „transparenten Mechanismus“ im Kopf fehlte. Der KI-Bildgenerator erstellte eine Taste, die unserer Beschreibung entsprach; wir fanden sie jedoch nicht beeindruckend. Hier entsprach nur eine Taste mit dem Tastenkopfglas den Anforderungen. Der Winkel der Taste war so, dass die Details im transparenten Mechanismus nicht so gut sichtbar waren. Insgesamt hat der KI-Bildgenerator hier für uns keine gute Arbeit geleistet.
Stabile Diffusion
Stable Diffusion hat alles perfekt gemacht, so wie wir es wollten. Es hatte einen transparenten Mechanismus und einen Glasschaft. Der Schlüssel sah königlich aus, aber wir hatten die Glasabdeckung im Schlüsselkopf erwartet, die fehlte. Insgesamt waren die Details und das auf die Eingabeaufforderung zentrierte Bild recht zufriedenstellend. Stable Diffusion hat hervorragende Arbeit geleistet. Das Bild hatte eine größere Taste mit allen sichtbaren Details. Obwohl der transparente Mechanismus nicht so beeindruckend war, verstand das KI-Generator-Tool die Eingabeaufforderung und erstellte die entsprechende Abbildung. Trotzdem stellten wir fest, dass ein wichtiger Teil fehlte – die Glasabdeckung auf dem Schlüsselkopf.
Was uns gefallen hat:
- Die Nahaufnahme des Schlüssels
- Das viktorianische Design
Punktezählung:
- DALL – E: 1
- Google Gemini: 0
- Stabile Diffusion: 0,5
Sind Sie neugierig auf die transformativen Auswirkungen der KI auf die Geschäftswelt?
Wie lange dauert die Reaktionszeit, um Text-zu-Bild-Ergebnisse zu generieren?
Das KI-Bildgenerierungstool DALL-E benötigte zwischen 6 und 8 Sekunden. Die KI-Bildgenerierungssoftware Google Gemini hingegen benötigte zwischen 7 und 9 Sekunden, um das Bild zu verstehen und zu erstellen. Stable Diffusion war schließlich recht schnell, da dieses KI-Bildgenerierungstool etwa 5 bis 7 Sekunden benötigte, um das prompt zentrierte Bild zu erstellen.
Punktezählung:
- VON-E: 1
- Google Gemini: 1
- Stabile Diffusion: 1
Wie ist das Hauptbild entstanden und was wurde in die Umgebung und den Hintergrund eingefügt?
DALL-E
Das erstellte Hauptbild entsprach der Anweisung. Es gab nichts Zusätzliches, was bedeutet, dass die KI-Bildgeneratorsoftware die Anweisungen strikt befolgte, ohne etwas hinzuzufügen, das nicht verlangt wurde.
Google Gemini
Der KI-Generator von Google Gemini bot einige Optionen für dieselbe Eingabeaufforderung, wodurch dieses KI-Tool zur Bildgenerierung etwas umfassender und ganzheitlicher wurde. Während drei Bilder einen Wald zeigten, wurde uns auf einem Bild natürliches Gras präsentiert, das unsere Aufmerksamkeit erregte. Es sah beruhigend aus, aber wir hatten nicht danach gefragt.
Stabile Diffusion
Wie DALL-E hat auch Stable Diffusion hervorragende Arbeit geleistet, indem sie das Hauptbild und die Umgebung gemäß der Vorgaben erstellt haben. Das Holz war genau so, wie wir es wollten. Es wurde nichts hinzugefügt, was wir nicht verlangt hatten.
Punktzahl:
- VON-E: 1
- Google Gemini: 1
- Stabile Diffusion: 1
Experimentieren Sie mit Eingabeaufforderung Nr. 2
Standbild aus einem Kinofilm, Nahaufnahme, Foto eines Drachenkriegers mit Goldschuppen und voller Plattenrüstung im hyperrealistischen Fantasy-Stil.
DALL – E (über ChatGPT) | Google Gemini | Stabile Diffusion |
Reaktionszeit: 6-9 Sekunden | Reaktionszeit: 8-10 Sekunden | Reaktionszeit: 5-8 Sekunden |
Versuch: 1 | Versuch: 1 | Versuch: 1 |
Die Parameter
Wie gut versteht das KI-Generatortool die Eingabeaufforderung?
DALL – E
ChatGPT hat fantastische Arbeit geleistet, indem es uns die Nahaufnahme des Drachenkriegers gezeigt hat. Die verwendeten Farben waren lebendig und die Kreatur mit den Goldschuppen sah beeindruckend aus. Die Stacheln am Körper und an der Rüstung waren detailliert und scharf. Dennoch haben wir beobachtet, dass dieser KI-Bildgenerator unsere Aufforderung ziemlich wörtlich genommen hat! Die Phrase „filmisches Standbild“ veranlasste DALL-E, die Filmklappe zu erstellen und sie im Bild anzuzeigen. Obwohl es beeindruckend ist, dass die KI-Engine Aufforderungen ernst nimmt, hatten wir erwartet, dass sie als filmische Szene verstanden wird und nicht als Fokus auf BTS!
Google Gemini
Google Gemini hat für drei seiner Ergebnisse einfach die Rüstung durch verschiedene Designs ersetzt. Jedes hatte einen anderen Ansatz beim Vergrößern/Verkleinern. Das Gesicht des Drachenkriegers mit den goldenen Schuppen blieb fast gleich. Das vierte Bild zeigte eine größere Pose des Kriegers mit mehr Elementen im Hintergrund. Alle Bilder sahen im Vergleich zu den anderen Tools etwas langweilig aus.
Stabile Diffusion
Es wurde eine einzelne Aufnahme mit einem detailreichen Drachenkrieger gezeigt. Eindrucksvoll wurde der Drachenkopf mit Schaller und Visier kombiniert, um aggressiver auszusehen. Der blaue Diamant passte recht gut zu einer vergoldeten Schulterplatte und einem Kürass. Die blaue Kriegerrobe sah am Körper attraktiv aus.
Was uns gefallen hat:
- Die Nahaufnahme des Kriegers
- Diamanten
- Kriegerrobe
Punktzahl:
- DALL – E: 0,5
- Google Gemini: 0
- Stabile Diffusion: 1
Wie lange dauert die Reaktionszeit, um Text-zu-Bild-Ergebnisse zu generieren?
Der KI-Bildgenerator DALL-E benötigte zwischen 6 und 9 Sekunden. Die KI-Bildgenerierungssoftware Google Gemini hingegen benötigte zwischen 8 und 10 Sekunden, um das Bild zu verstehen und zu erstellen. Stable Diffusion war schließlich recht schnell, da dieses bildgenerierende KI-Tool etwa 5 bis 8 Sekunden benötigte, um das prompt zentrierte Bild zu erstellen.
Punktezählung:
- VON-E: 1
- Google Gemini: 0
- Stabile Diffusion: 1
Wie ist das Hauptbild entstanden und was wurde in die Umgebung und den Hintergrund eingefügt?
DALL-E
Das erstellte Hauptbild entsprach der Anweisung. Eine bemerkenswerte Ergänzung war jedoch die Filmklappe, da die KI-Engine die Anweisung sehr ernst nahm. Der Ausdruck „filmisch“ wurde zu wörtlich genommen und der KI-Bildgenerator dachte daran, auch die Hintergründe mit einzubeziehen.
Google Gemini
Der KI-Generator von Google Gemini zeigte vier Optionen für dieselbe Eingabeaufforderung an, was dieses KI-Tool zur Bildgenerierung etwas umfassender und ganzheitlicher machte. Dennoch waren drei dieser Bilder fast gleich, mit geringfügigen Designänderungen in der Rüstungsausstattung. Das vierte Bild war ein herausgezoomtes Bild des Kriegers mit einem Planeten. Das Tool versuchte, das Schlachtfeld zu zeigen, aber es sah eher wie eine außerirdische Region aus.
Stabile Diffusion
Stabile Diffusion war bisher die beste Methode, um den Drachenkrieger mit den goldenen Schuppen und einer detaillierten Nahaufnahme zu erstellen. Der Hintergrund zeigte eine Burg, die unseren Zweck erfüllte, ein kriegerisches Flair zu erzeugen. Insgesamt war dieses Bild genau das, was wir durch die Aufforderung wollten.
Punktzahl:
- VON-E: 1
- Google Gemini: 0
- Stabile Diffusion: 1
Google Gemini, Copilot oder ChatGPT? Tauchen Sie ein in den ultimativen KI-Showdown und finden Sie heraus, wer Ihren Anforderungen am besten gerecht wird!
Experimentieren Sie mit Eingabeaufforderung Nr. 3
Lassen Sie kräftige, explosive Wirbel aus orangefarbener, gelber, rosafarbener und blauer Farbe von der Decke auf den polierten grauen Boden einer Kunstgalerie herabregnen und einen Kontrast zu monochromen abstrakten Gemälden an weißen Wänden bilden. So entsteht unter heller, fokussierter Beleuchtung eine dynamische, energiegeladene Szene.
DALL – E (über ChatGPT) | Google Gemini | Stabile Diffusion |
Reaktionszeit: 4-6 Sekunden | Reaktionszeit: 6-8 Sekunden | Reaktionszeit: 5-8 Sekunden |
Versuch: 1 | Versuch: 1 | Versuch: 1 |
Die Parameter
Wie gut versteht das KI-Generatortool die Eingabeaufforderung?
Google Gemini
Dieses Mal ging Google Gemini einen Schritt weiter und erstellte vier verschiedene Optionen, anstatt wie in der Vergangenheit ähnliche Bilder mit geringfügigen Änderungen anzuzeigen. Der KI-Bildgenerator verfehlte jedoch die Anweisungen der Eingabeaufforderung in zwei seiner Bilder. Das Tool zeigte einen geraden Farbverlauf aus orangefarbener, rosafarbener und gelber Farbe, ließ aber zwei wesentliche Dinge aus: Wirbel und die Farbe Blau. Die übrigen beiden Bilder enthielten jedoch die in der Eingabeaufforderung genannten Farben (einschließlich Blau). Aber auch hier konnte sich das Tool, obwohl die blaue Farbe in zwei Bildern enthalten war, nicht darauf konzentrieren, monochromatische abstrakte Gemälde zu erstellen. Insgesamt fehlte in jedem der erstellten Bilder das eine oder andere Element der Eingabeaufforderung. Das obere rechte Bild zeigte nicht den Boden und die Tiefe des Bildes; stattdessen schien es, als würden die Farben aus dem Nichts sprudeln.
DALL-E (ChatGPT)
Dieses Tool hat aus der Eingabeaufforderung das beeindruckendste Bild erstellt. Es wurden wunderschöne Wirbel in allen in der Eingabeaufforderung genannten Farben erstellt. Darüber hinaus hat der KI-Bildgenerator unsere Herzen erobert, indem er den Boden mit kugelförmigen Farbbällen zeigte. Das Tool hat es geschafft, monochromatische abstrakte Gemälde auf den weißen Wänden anzuzeigen. Dies war das einzige Tool, das wie in der Eingabeaufforderung angewiesen helle und fokussierte Beleuchtung in das Bild einbezog.
Stabile Diffusion
Stable Diffusion verstand die Eingabeaufforderung schnell, versäumte es jedoch, blaue Farbe mit gleicher Gewichtung wie die übrigen Farben einzubeziehen. Es war nur ein Bruchteil der blauen Farbe vorhanden. Der KI-Bildgenerator versäumte es ebenfalls, das monochrome Gemälde darzustellen, konnte aber den grauen Boden anzeigen. Er konnte auch keine helle und fokussierte Beleuchtung erzeugen, was Teil der Eingabeaufforderung war.
Punktzahl:
- DALL – E: 1
- Google Gemini: 0
- Stabile Diffusion: 0,5
Wie lange dauert die Reaktionszeit, um Text-zu-Bild-Ergebnisse zu generieren?
Google Gemini erstellte vier Optionen und benötigte im ersten Versuch etwa 4–6 Sekunden. Ebenso genügte ein Versuch für den DALL-E AI-Bildgenerator, um in 6–8 Sekunden ein Bild zu erstellen. Stable Diffusion benötigte im ersten Versuch etwa 5–8 Sekunden, um das Bild aus der Eingabeaufforderung zu erstellen.
Punktezählung:
- VON-E: 1
- Google Gemini: 1
- Stabile Diffusion: 1
Wie ist das Hauptbild entstanden und was wurde in die Umgebung und den Hintergrund eingefügt?
Google Gemini
Das Tool hat nicht nur die Anweisung nicht wörtlich befolgt, sondern auch den Hintergrund selbst erstellt. Die fokussierte Beleuchtung wurde auf die Gemälde an der Wand gerichtet, obwohl die Anweisung vorsah, dass sie auf die Farbwirbel gerichtet sein sollte. Ebenso fehlten die Gemälde an der Wand auf den beiden folgenden Bildern vollständig. Nur das erste Bild (links oben) kam der Anweisung etwas nahe, konnte dann aber keine attraktiven Szenen und monochromen Gemälde erstellen.
DALL-E
Dies war die beeindruckendste Bildgenerierung aus der Eingabeaufforderung. ChatGPT erzeugte atemberaubende Wirbel, die von oben kamen und auf den grauen Boden prallten. Was uns gefiel, waren die Fenster, die natürliches Umgebungslicht zeigten, das auf den Wasserfall fokussiert war. Außerdem gelang es dem KI-Bildgenerator, monochrome Gemälde an den weißen Wänden einzufügen.
Was uns gefallen hat:
- Wirbel
- Die gesamten Bilddetails
- Die Fenster und die Umgebungsbeleuchtung
- Die bunten Bälle auf dem Boden
- Die Tiefenschärfe bei Gemälden
- Die Decke
Stabile Diffusion
Die Proportionen der Wirbel an der Decke und im Rest des Raums passten nicht zusammen und daher sah es viel zu künstlich aus. Außerdem gelang es dem Tool nicht, ein typisches monochromatisches Gemälde zu erstellen, da beide Gemälde Spuren anderer Farben/Schattierungen aufweisen. Das Tool konnte den grauen Boden und die Decke zwar einfangen, aber insgesamt entsprach das Bild nicht unseren Erwartungen, auch wenn es besser war als das von Google Gemini.
Punktzahl:
- VON-E: 1
- Google Gemini: 0
- Stabile Diffusion: 0,5
Experimentieren Sie mit Eingabeaufforderung Nr. 4
Im Schatten der letzten Sonne war ein Fischer eingeschlafen und auf seinem Gesicht lag eine Falte, die wie ein Lächeln aussah.
DALL – E (über ChatGPT) | Google Gemini | Stabile Diffusion |
Reaktionszeit: 4-6 Sekunden | Reaktionszeit: 8-10 Sekunden | Reaktionszeit: 5-7 Sekunden |
Versuch: 1 | Versuch: 1 | Versuch: 1 |
Die Parameter
Wie gut versteht das KI-Generatortool die Eingabeaufforderung?
Google Gemini
Wir haben es mit sehr kurzen, direkten und unkomplizierten Anweisungen versucht, obwohl Google Gemini die Anweisungen überhaupt nicht verarbeiten konnte und ziemlich irrelevante Bilder generierte. Auf keinem der Bilder war das Gesicht des Fischers zu sehen, und daher gab es keine Möglichkeit, die Furche und das Lächeln zu beurteilen. Zwei der Bilder ähnelten eher einer Silhouette ohne Details. Das vierte Bild war völlig neben der Spur und zeigte einen Fischer, der im Boot schlief, ohne eine Spur der letzten Sonne. Eines der Bilder konzentrierte sich mehr auf das Kanu und das Meer mit einem winzigen Fischer.
DALL-E
ChatGPT hat sich entschieden, uns eine Nahaufnahme eines Fischers zu zeigen. Das Tool hat die letzten Sonnenstrahlen und den friedlich schlafenden Mann eingefangen. Die Furche, die sich in seinem Gesicht gebildet hat, war beeindruckend und das kleine Lächeln, das daraus entstand, war bemerkenswert.
Was uns gefallen hat:
- Die letzte Sonne
- Die Sonnenstrahlen
- Die Schatten und Schattierungen auf dem Fischer
- Der Stoff und der Hut des Mannes
Stabile Diffusion
Stable Diffusion hat einen viel besseren Job gemacht als Google Gemini; es konnte jedoch nicht mit dem Bild mithalten, das das Bildgenerierungstool DALL-E AI erstellt hat. Das Bild zeigt einen Fischer, der in seinem Kanu liegt, und am Horizont steht die letzte Sonne. Das Bild zeigt, dass er mitten im Ozean segelt. Aufgrund des silhouettenhaften Bildes waren die Furche und das erstellte Lächeln jedoch nicht sichtbar.
Punktzahl:
- VON-E: 1
- Google Gemini: 0
- Stabile Diffusion: 0
Wie lange dauert die Reaktionszeit, um Text-zu-Bild-Ergebnisse zu generieren?
DALL-E ChatGPT benötigte 4–6 Sekunden, um in einem Versuch das beste Bild zu erstellen, das mit der Eingabeaufforderung übereinstimmte. Stable Diffusion benötigte 5–7 Sekunden, um die Eingabeaufforderung zu verstehen und das Bild eines nicht ganz so detaillierten Fischers zu erstellen. Google Gemini benötigte nicht nur 8–10 Sekunden (die längste Zeit), sondern enttäuschte auch mit den Ergebnissen.
Punktezählung:
- VON-E: 1
- Google Gemini: 0
- Stabile Diffusion: 0
Revolutionieren Sie Ihre Web- und Mobile-App-Entwicklung mit modernster, zukunftssicherer KI-Expertise.
Wie ist das Hauptbild entstanden und was wurde in die Umgebung und den Hintergrund eingefügt?
Google Gemini
Google Gemini erstellte einen langweiligen Hintergrund ohne Details. Am überraschendsten war das Bild in der Ecke, auf dem die untergehende Sonne fehlte und durch eine märchenhafte Szene mit einem Haus, einem Kanu, einem Fischer und Blumen im Vorgarten ersetzt wurde. Die übrigen Bilder zeigten im Hintergrund zwar Meere mit einer Art Licht der untergehenden Sonne, aber keines davon war beeindruckend. Die Bilder waren dunkler, sodass keine Details des Fischers erkennbar waren.
DALL-E
Dies war die beeindruckendste KI-Bildgenerierung aus der Eingabeaufforderung. ChatGPT befolgte die Anweisungen in allen Einzelheiten. Ein scharfes und klares Bild eines Fischers mit einer Furche war bemerkenswert. Der Hintergrund zeigte die untergehende Sonne mit genügend Umgebungslicht, um die Silhouette des Kanus und der Fischernetze hervorzuheben. Auch das Umgebungslicht, das auf dem Gesicht des Fischers erzeugt wurde, war beeindruckend, da es die Falten im Gesicht und den feinen Stoff des Hemdes des Mannes klar definierte.
Was uns gefallen hat:
- Nahaufnahme des Fischers
- Das allgemeine Flair der Dämmerung
- Scharfe Gesichtszüge
- Die Furche und das Lächeln, das es machte
- Der Stoff und die Details des Hemdes
- Der Gesichtsausdruck
Stabile Diffusion
Stable Diffusion erzeugte einen schönen Himmel mit der untergehenden Sonne am Horizont. Das Wasser zeigte eine Reflexion des Sonnenlichts. Die Größe des Fischers und seines Kanus hätte jedoch etwas besser sein können, um natürlich auszusehen. Die Silhouetteneffekte beeinträchtigten den Zweck der Eingabeaufforderung, da eine Furche und ein daraus erstelltes Lächeln vollständig fehlten. Das Tool versäumte es nicht, eine aus dem Kanu fallende Angelrute darzustellen. Insgesamt war das Bild schön, aber es verfehlte den Zweck.
Punktzahl:
- VON-E: 1
- Google Gemini: 0
- Stabile Diffusion: 0,5
Experimentieren Sie mit Eingabeaufforderung Nr. 5
Anime-Mädchen, Rittermädchen, stumpfer Pony, Hime-Schnitt, spitze Ohren, Perlopal, sehr ästhetisch, Meisterwerk, beste Qualität, hyperdetailliert, ultradetailliert, UHD, perfekte Anatomie, Schwert, blendend, transparent, schwingendes Schwert, brüniertes Silber, Stahlrüstung, glänzende Rüstung, schillernde Rüstung, detaillierte Illustration, offizielles Artwork, Tapete, offizielle Kunst, extrem detaillierte Augen und Gesicht, wunderschöne detaillierte Augen, blaues Auge.
DALL – E (über ChatGPT) | Google Gemini | Stabile Diffusion |
Reaktionszeit: 6-8 Sekunden | Reaktionszeit: 6-8 Sekunden | Reaktionszeit: 4-6 Sekunden |
Versuch: 1 | Versuch: 1 | Versuch: 1 |
Die Parameter
Wie gut versteht das KI-Generatortool die Eingabeaufforderung?
Stabile Diffusion
Stable Diffusion hat das Rittermädchen mit einer detaillierten Ansicht von fast allem, was in der Eingabeaufforderung erwähnt wurde, wie spitze Ohren, ultradetailliert, Schwert, Stahl und glänzende Rüstung und blaue Augen, sauber produziert. Es scheint, dass das KI-Bildgenerator-Tool keine einzige Anweisung übersehen hat. Wir haben tatsächlich zu viel verlangt und versucht, die KI-Engine zu verwirren, indem wir dasselbe auf unterschiedliche Weise und in verschiedenen Avataren gefragt haben. Stable Diffusion hat jedoch seinen Job gemacht. Die Aufnahme, die es produziert hat, war eine Nahaufnahme eines blonden Mädchens, das wie ein selbstbewusster Ritter aussah.
Google Gemini
Google Gemini produzierte zunächst nur zwei Bilder, im Gegensatz zu seinem Modell, das uns vier Optionen bietet. Es stoppte nach der Generierung von zwei Bildern und forderte uns auf, „Weitere zu generieren“. Die ersten beiden KI-generierten Bilder zeigen die Ritterin jedoch von vorne und in Porträtpose. Ein Bild zeigte das Schwert (das nicht so aussah, wie man es sich vorgestellt hatte, sondern eher wie ein Star Wars-Leuchtfeuer) und auf dem anderen Bild fehlte es. Überraschenderweise zeigte das KI-Bildgenerierungstool Google Gemini ein Bild, auf dem das Mädchen Hörner hatte. Auf beiden Bildern fehlten spitze Ohren. Beim ersten Versuch konnten nicht alle vier Bilder erstellt werden. Beim zweiten Versuch gab Google Gemini auf und zeigte eine Meldung an: Ich kann diese Bilder nicht generieren. Geben Sie eine neue Eingabeaufforderung ein, um weitere Bilder zu generieren.
DALL-E (ChatGPT)
Dieses Modell eines KI-Bildgenerators erzeugte ein Bild, das direkt aus der Eingabeaufforderung stammte. Zu unserer Überraschung wurde das Bild jedoch vertikal angezeigt. Nach der lokalen Korrektur war das Bild im Querformat. Das Bild zeigte eine Ritterin, aber es war eher eine kindliche Figur. Es erzeugte ein glänzendes Schwert. DALL-E scheint Diamanten zu lieben, und das ist auch auf diesem Bild zu sehen. Das Mädchen trug eine Rüstung und hatte spitze Ohren, wie in der Eingabeaufforderung angegeben. Sie war hübsch gekleidet und hatte eine Blume in der Krone.
Punktzahl:
- DALL-E: 0,5
- Google Gemini: 0
- Stabile Diffusion: 1
Wie lange dauert die Reaktionszeit, um Text-zu-Bild-Ergebnisse zu generieren?
DALL-E benötigte für seine ChatGPT-Arbeit 4-6 Sekunden, um ein Landschaftsbild der Ritterin zu erstellen, während Google Gemini zwei Versuche (insgesamt über 10 Sekunden) benötigte, um zwei Bilder zu erstellen, und auch das war nicht zufriedenstellend. Stable Diffusion benötigte 6-8 Sekunden, um aus der Eingabeaufforderung ein nahezu perfektes Bild zu erstellen.
Punktzahl:
- VON-E: 1
- Google Gemini: 0
- Stabile Diffusion: 1
Wie ist das Hauptbild entstanden und was wurde in die Umgebung und den Hintergrund eingefügt?
Stabile Diffusion
Das Hauptbild, das mit dem KI-Bildgenerierungstool Stable Diffusion erstellt wurde, entsprach den Anforderungen, da es alles detailliert und gemäß der Anweisung zeigte. Der Hintergrund war ein wunderschöner Himmel mit Wolken, die zu den Farben der Hauptfigur passten. Auf der Rüstung des Rittermädchens waren Schatten und Spiegelungen des Himmels und des Sonnenlichts zu sehen.
Google Gemini
Es war ein schlichter Hintergrund ohne Details für die Ritterin. Das Schwert sah eher aus wie ein Laserstrahl und die Figur eher wie ein Tier mit Hörnern auf dem Kopf. Dem Werkzeug fehlten auch spitze Ohren und attraktive blaue Augen. Es gab nichts, was uns an dem Bild anzog.
DALL-E
Die Detailliertheit in diesem Bild war dramatisch und nicht so real wie bei Stable Diffusion. Im Fall von DALL-E wirkte es eher wie ein Cartoon. Das Mädchen sah eher wie ein Chinese und ein Kind aus als wie ein mutiger Ritter. Das Bild zeigte grafische Rauten, die an manchen Stellen eher wie Linsenreflexionen wirkten. Wir bemerkten auch, dass es sich um ein Kachelbild handelte, bei dem man im Hintergrund zwei weitere Kopien der Hauptfiguren finden kann. Wir sind uns nicht sicher, was das bedeutet, da es nicht in der Eingabeaufforderung stand.
Punktzahl:
- DALL-E: 0,5
- Google Gemini: 0
- Stabile Diffusion: 1
Die Gesamtzahlen: DALL-E vs. Gemini vs. stabile Diffusion
Wenn wir uns die Punktzahl für alle Fragen aller KI-Bildgeneratoren ansehen, erhalten wir folgendes Ergebnis:
Eingabeaufforderung 1
Fragen | DALL–E | Google Gemini | Stabile Diffusion |
Frage 1 | 1 | 0 | 0.5 |
Frage 2 | 1 | 1 | 1 |
Frage 3 | 1 | 1 | 1 |
Gesamt | 3 | 2 | 2.5 |
Eingabeaufforderung 2
Fragen | DALL–E | Google Gemini | Stabile Diffusion |
Frage 1 | 0.5 | 0 | 1 |
Frage 2 | 1 | 0 | 1 |
Frage 3 | 1 | 0 | 1 |
Gesamt | 2.5 | 0 | 3 |
Eingabeaufforderung 3
Fragen | DALL–E | Google Gemini | Stabile Diffusion |
Frage 1 | 1 | 0 | 0.5 |
Frage 2 | 1 | 1 | 1 |
Frage 3 | 1 | 0 | 0.5 |
Gesamt | 3 | 1 | 2 |
Eingabeaufforderung 4
Fragen | DALL–E | Google Gemini | Stabile Diffusion |
Frage 1 | 1 | 0 | 0 |
Frage 2 | 1 | 0 | 0 |
Frage 3 | 1 | 0 | 0.5 |
Gesamt | 3 | 0 | 0.5 |
Eingabeaufforderung 5
Fragen | DALL–E | Google Gemini | Stabile Diffusion |
Frage 1 | 0.5 | 0 | 1 |
Frage 2 | 1 | 0 | 1 |
Frage 3 | 0.5 | 0 | 1 |
Gesamt | 2 | 0 | 3 |
Die Endergebnisse: DALL-E vs. Gemini vs. stabile Diffusion
Eingabeaufforderungen | DALL–E | Google Gemini | Stabile Diffusion |
Eingabeaufforderung 1 | 3 | 2 | 2.5 |
Eingabeaufforderung 2 | 2.5 | 0 | 3 |
Eingabeaufforderung 3 | 3 | 1 | 2 |
Eingabeaufforderung 4 | 3 | 0 | 0.5 |
Eingabeaufforderung 5 | 2 | 0 | 3 |
Gesamt | 13.5 | 3 | 11 |
In unserem umfassenden Test von KI-basierten Bildgenerierungstools wurden DALL-E, Google Gemini und Stable Diffusion anhand derselben Eingabeaufforderung bewertet. DALL-E erwies sich mit 13,5 von 15 Punkten als Spitzenreiter und schnitt bei Bilddetails, Befolgung von Eingabeaufforderungen und Qualität der Hintergründe hervorragend ab. Stable Diffusion folgte mit einer Punktzahl von 11 und zeigte eine starke Bildqualität und Präzision, wenn auch etwas weniger konsistent bei den Hintergrundelementen. Google Gemini erreichte mit einer Punktzahl von 3 keine gute Leistung bei der genauen Befolgung von Eingabeaufforderungen und der Erstellung detaillierter Bilder.
Urteil
DALL-E steht als das zuverlässigste Tool zum Generieren hochwertiger, detaillierter Bilder herausgestellt, die genau den vorgegebenen Eingabeaufforderungen entsprechen. Unsere Ergebnisse basieren jedoch auf spezifischen Testparametern und individuelle Erfahrungen können abweichen. Wir empfehlen, jedes KI-Tool zu untersuchen, um festzustellen, welches Ihren individuellen Anforderungen am besten entspricht.
Soziale Hashtags
#AIImageGeneration #DALLEvsGemini #StableDiffusionAI #AIArtBattle #AIComparison #ImageGenerationTech #AIImageCreators #CreativeAI