AI-bildgenerering med DALL-E vs Gemini vs stabil diffusion

Sunil M.
9 dec 2024

Utforska de bästa AI-bildgeneratorerna: Gemini vs DALL-E vs Stable Diffusion. Upptäck deras styrkor och hitta det perfekta verktyget för dina behov av kreativ AI-bildgenerering.

Artificiell intelligens (AI), Maskininlärning

Share On

Table of Content

Read in

En bild värd mer än tusen ord är ett ordspråk som gäller även idag. Komplexa och flera idéer kan skildras i en enda bild. Trenden skiftar från texter till bilder och rörlig grafik. Det säger forskare bilder är mycket kraftfulla och de flesta väljer bilder för att förstå budskapet eftersom de är ingångspunkten till berättelser – de ger mening, och de berör anmärkningsvärt människors psykologiska tillstånd, minne och känslor. Medan vi har större ML och LLM, har populariteten för bildgenererande AI-verktyg skjutit i höjden på senare tid.

Midjoruney, Dall-E, Google Gemini och Stable Diffusion (Stability) är några bildgenereringsverktyg som är populära över hela Internet. Medan Midjourney har lett loppet hittills, trodde vi att det finns ett stort behov av att jämföra resten av AI-bildgenereringsverktygen – Dall -E vs. Google Gemini, vs. Stable Diffusion.

Låt oss ta en snabb introduktion innan vi jämför AI-bildgenereringsverktyg.

Vad är DALL–E?

DALL–E är en AI-modell som genererar bilder eller illustrationer baserat på textbeskrivningar som användarna lägger som en uppmaning. För att bygga en bild i linje med texten översätter den miljarder textbitar från hela Internet till ett abstrakt. Denna lagrade information används sedan som ett referensverktyg för att beskriva information och slutligen för att skapa snabborienterade bilder. DALL–E-modellen är tillgänglig via ChatGPT.

Vad är Google Gemini?

Google introducerade AI-bildgeneratorverktyget genom Gemini 2024. Gemini är Googles huvudsvit av AI-modeller, och den var utrustad för att producera bilder enligt användarnas uppmaningar. Även om Google Gemini är mer i nyheterna på grund av dess historiska felaktigheter och tvivelaktiga svar, är AI-bildgeneratorn Gemini känd för att tillhandahålla illustrationer/bilder som ligger väldigt nära användarens fantasi.

Vad är stabil diffusion?

Stable Diffusion är av Stability AI, en ledande generativ AI med öppen källkod (GenAI) företag som siktar på att leverera banbrytande och öppna AI-modeller som kräver minimala resurser för att bygga bilder, språk, ljud och kod. Stable Diffusion är den senaste och mest avancerade T2I (Text-to-Image) som omfattar 2 miljarder parametrar.

Verktyg för AI-bildgenerering: den ökande populariteten och effekten

Artificiell intelligens har gjort bildgenererande verktyg mer effektiva och exakta efter uppmaningarna. AI-bildgeneratorer är oerhört populära bland marknadsförare och innehållsskapare för att förbättra sitt innehåll med iögonfallande och engagerande grafik.

Statistik visar att just under 40 % av marknadsförarna använder Generativ AI för att skapa bilder för inlägg på sociala medier. Dessutom utnyttjar 36 % av dem kraften hos AI-bildgeneratorer för att bygga webbplatsbilder.

Vill du veta hur ChatGPT kan göra underverk för ditt företag och öka dess tillväxt och effektivitet?

Här är din exklusiva läsning

DALL–E vs Google Gemini vs Stable Diffusion – Jämförelse av AI-bildgeneratorer

För att jämföra bildgenererande AI-verktyg bestämde vi oss för att ha en gemensam prompt att köra på dessa tre olika plattformar. Syftet var att förstå hur dessa AI-bildgeneratorverktyg följer texterna och använder deras algoritmer och modeller för att bygga bilder. Vi övervägde tre allmänna parametrar för att utvärdera AI-bildverktygen –

Hur väl förstår AI-generatorverktyget prompten med detaljer?
Hur lång svarstid tar det för att generera text-till-bild-resultat?
Hur skapades huvudbilden och vad lades i omgivningen och bakgrunden?

Experimentera med prompt #1 för AI-bildgenerering

Skapa en bild av en utsmyckad viktoriansk nyckel som ligger på en väderbiten träyta, med invecklade, steampunk-inspirerade kugghjul och mekanismer synliga inom dess transparenta glasskaft.

DALL – E (genom ChatGPT)	Google Tvillingarna	Stabil diffusion
Svarstid: 6-9 sekunder	Svarstid: 7-9 sekunder	Svarstid: 4-6 sekunder
Försök: 1	Försök: 1	Försök: 1

Parametrarna

Hur väl förstår AI-generatorverktyget prompten och detaljerar den?

BLIND – E (ChatGPT)

DALL -E förstod uppmaningen som vi ville. Det skapade precis vad vi hade tänkt på. AI-bildgeneratorn förstod instruktionerna ganska väl: inspirerade växlar och mekanismer som är synliga i dess transparenta glasskaft. Det skapade faktiskt också en genomskinlig mekanism i skaftet tillsammans med huvudet. DALL-E skapade perfekt en nyckel från viktoriansk tid. AI-bildgeneratorn skapade också en iögonfallande väderbeständig träyta. Den kopparaktiga färgen passade perfekt med uppmaningen och bilden vi hade skapat i våra sinnen. Sammantaget var det en detaljerad bild med skarpa drag och en kunglig utformning av nyckeln.

Vad vi älskade

Naturligt ljus skapat på glaset
Träet
Glasets halvmåne på skuggsidan

Google Tvillingarna

Till skillnad från DALL–E och Stable Diffusion gav Google Gemini alltid flera alternativ. Varje bild skulle ha ett lite annorlunda tillvägagångssätt vilket innebär att användaren kan ha olika val från prompten. Men i det här fallet var de tre nycklarna inte imponerande eftersom de missade en väsentlig del av den “transparenta mekanismen” i huvudet. AI-bildskaparen tog fram en nyckel som passade vår beskrivning; men vi tyckte inte att det var imponerande. Här var bara en nyckel med nyckelhuvudglaset upp till märket. Nyckelns vinkel var sådan att detaljerna i den transparenta mekanismen inte var så synliga. Sammantaget gjorde AI-bildgeneratorn inte ett bra jobb för oss för detta.

Stabil diffusion

Stabil Diffusion gjorde det hela perfekt, som vi ville. Den hade en genomskinlig mekanism och glasskaft. Nyckeln såg kunglig ut, men vi förväntade oss glasluckan i nyckelns huvud som den saknade. Sammantaget var den detaljerade och promptcentrerade bilden ganska tillfredsställande. Stable Diffusion gjorde ett fantastiskt jobb. Bilden hade en större nyckel med alla detaljer synliga. Även om den transparenta mekanismen inte var så imponerande, förstod AI-generatorverktyget uppmaningen och producerade den relevanta illustrationen. Ändå observerade vi att den missade en stor del – glasskyddet på nyckelhuvudet.

Vad vi älskade:

Närbilden av nyckeln
Den viktorianska designen

Poäng räknas:

DALL – E: 1
Google Gemini: 0
Stabil diffusion: 0,5

Nyfiken på vilken omvandlingseffekt AI har på företagsindustrin?

Läs den senaste AI-statistiken

Hur lång svarstid tar det för att generera text-till-bild-resultat?

AI-bildgenereringsverktyget, DALL-E, tog mellan 6-8 sekunder. Å andra sidan tog Google Gemini bild AI-genererande programvara mellan 7 och 9 sekunder att förstå och skapa bilden. Slutligen var Stable Diffusion ganska snabb eftersom detta bildgenererande AI-verktyg tog cirka 5 till 7 sekunder att skapa den prompt-galopperade bilden.

Poäng räknas:

FRÅN-E: 1
Google Tvillingarna: 1
Stabil diffusion: 1

Hur skapades huvudbilden och vad lades i omgivningen och bakgrunden?

DALL -E

Huvudbilden som skapades var enligt prompten. Det fanns inget extra vilket betyder att AI-bildgeneratorns programvara följde instruktionerna strikt utan att lägga till något som inte efterfrågades.

Google Tvillingarna

Google Gemini AI-generator gav några alternativ för samma prompt och det gjorde detta AI-bildgenererande verktyg lite mer omfattande och holistiskt. Medan tre bilder skapade ett trä, presenterades en bild med naturligt gräs som fångade våra ögon. Det såg lugnande ut men sedan bad vi inte om det.

Stabil diffusion

Liksom DALL-E gjorde Stable Diffusion ett fantastiskt jobb genom att skapa huvudbilden och omgivningen enligt uppmaningen. Träet var precis som vi ville ha. Det tillförde inget extra som vi inte bett om.

Antal poäng:

FRÅN-E: 1
Google Tvillingarna: 1
Stabil diffusion: 1

Experimentera med prompt #2

Cinematisk filmstillbild, närbild, foto av en guldskalad drakkrigare i full pansar, i en hyperrealistisk fantasistil.

DALL – E (genom ChatGPT)	Google Tvillingarna	Stabil diffusion
Svarstid: 6-9 sekunder	Svarstid: 8-10 sekunder	Svarstid: 5-8 sekunder
Försök: 1	Försök: 1	Försök: 1

Parametrarna

Hur väl förstår AI-generatorverktyget uppmaningen?

DALL – E

ChatGPT gjorde ett fantastiskt jobb genom att visa oss närbilden av drakkrigaren. Färgerna som användes var livfulla och den guldskalade varelsen såg imponerande ut. Piggarna på kroppen och rustningen var detaljerade och skarpa. Ändå, vad vi observerade var att denna AI-bildgenerator tog vår uppmaning helt bokstavligt! Frasen “filmstillbildande film” triggade DALL-E för att skapa klaffbrädan och visa den på bilden. Även om det är imponerande att AI-motorn tar uppmaningar på allvar, förväntade vi oss att den skulle förstås som en filmisk scen snarare än att fokusera på BTS!

Google Tvillingarna

Google Gemini ändrade helt enkelt pansardräkten med olika design för tre av dess resultat. Var och en hade en annan in-/ut-inställning. Den guldskalade drakkrigarens ansikte förblev nästan likadant. Den fjärde bilden visade en större pose av krigaren med fler element i bakgrunden. Alla bilder såg lite tråkiga ut jämfört med resten av verktygen.

Stabil diffusion

Ett enda skott med en detaljerad drakkrigare visades. Imponerande nog blandades drakens huvud med sallet och bevor för att se mer aggressivt ut. Den blå diamanten gick ganska bra med en guldpläterad pauldron och cuirass. Den blå krigarrocken såg tilltalande ut på kroppen.

Vad vi älskade:

Närbild av krigaren
Ruter
Krigardräkt

Antal poäng:

DALL – E: 0,5
Google Gemini: 0
Stabil diffusion: 1

Hur lång svarstid tar det för att generera text-till-bild-resultat?

AI-bildgeneratorn DALL-E tog mellan 6-9 sekunder. Å andra sidan tog Google Gemini bild AI-genererande programvara mellan 8 och 10 sekunder att förstå och skapa bilden. Slutligen var Stable Diffusion ganska snabb eftersom detta bildgenererande AI-verktyg tog cirka 5 till 8 sekunder att skapa den prompt-galopperade bilden.

Poäng räknas:

FRÅN-E: 1
Google Gemini: 0
Stabil diffusion: 1

Hur skapades huvudbilden och vad lades i omgivningen och bakgrunden?

DALL -E

Huvudbilden som skapades var enligt prompten. Ett anmärkningsvärt tillägg var dock klaffbrädan eftersom AI-motorn tog uppmaningen på stort allvar. Frasen “filmisk” togs för bokstavligt och AI-bildgeneratorn tänkte inkludera bakom kulisserna.

Google Tvillingarna

Google Gemini AI-generator visade fyra alternativ för samma prompt och det gjorde detta AI-bildgenererande verktyg lite mer omfattande och holistiskt. Ändå var tre av dessa bilder nästan desamma med mindre designändringar i rustningssviten. Den fjärde bilden var en utzoomad bild av krigaren med en planet. Verktyget försökte visa slagfältet, men det såg mer ut som en utomjordisk region.

Stabil diffusion

Stall Diffusion var hittills bäst i att skapa den guldskalade drakkrigaren med en detaljerad närbild. Bakgrunden visade ett slott som uppfyllde vårt syfte att ha en krigsliknande stil. Sammantaget var den här bilden något vi ville ha genom prompten.

Antal poäng:

FRÅN-E: 1
Google Gemini: 0
Stabil diffusion: 1

Google Gemini, Copilot eller ChatGPT? Dyk in i den ultimata AI-uppgörelsen och se vilken som regerar för dina behov!

Upptäck vinnaren nu!

Experimentera med prompt #3

Skapa levande, explosiva virvlar av orange, gul, rosa och blå färg faller från taket till ett polerat grått golv i ett konstgalleri, kontrasterande med monokromatiska abstrakta målningar på vita väggar och skapar en dynamisk, energisk scen under stark, fokuserad belysning.

DALL – E (genom ChatGPT)	Google Tvillingarna	Stabil diffusion
Svarstid: 4-6 sekunder	Svarstid: 6-8 sekunder	Svarstid: 5-8 sekunder
Försök: 1	Försök: 1	Försök: 1

Parametrarna

Hur väl förstår AI-generatorverktyget uppmaningen?

Google Tvillingarna

För den här gången gick Google Gemini lite avancerade och skapade fyra olika alternativ istället för att presentera liknande bilder med triviala förändringar som tidigare. AI-bildgeneratorn missade dock instruktionerna i två av sina bilder. Verktyget visade ett rakt fall av orange, rosa och gul färg men missade två viktiga saker: virvel och färgen blå. Men resten av de två bilderna inkluderade färgerna (inklusive blå) som nämns i prompten. Men återigen, samtidigt som den blå färgen inkluderades i två bilder, kunde verktyget inte fokusera på att ha monokromatiska abstrakta målningar. Sammantaget missade var och en av de skapade bilderna en eller annan sak från prompten. Den övre högra bilden visade inte golvet och bildens djup; istället verkade det som om färgerna sipprade från ingenstans.

DALL-E (ChatGPT)

Det här verktyget skapade den mest imponerande bilden av prompten. Vackra virvlar av alla färger som nämns i uppmaningen skapades. Inte nog med det, AI-bildgeneratorn vann våra hjärtan genom att visa golvet med sfäriska färgkulor. Verktyget lyckades visa monokromatiska abstrakta målningar på de vita väggarna. Detta var det enda verktyget som inkluderade ljus och fokuserad belysning i bilden enligt instruktionerna i uppmaningen.

Stabil diffusion

Stable Diffusion var snabb att förstå uppmaningen, men den misslyckades med att inkludera blå färg med samma vikt som resten av färgerna. Det fanns bara en bråkdel av den blå färgen. AI-bildgeneratorn saknade också den monokromatiska målningen men lyckades visa det gråa golvet. Det misslyckades också med att skapa ljus och fokuserad belysning, vilket var en del av uppmaningen.

Antal poäng:

DALL – E: 1
Google Gemini: 0
Stabil diffusion: 0,5

Hur lång svarstid tar det för att generera text-till-bild-resultat?

Google Gemini skapade fyra alternativ och tog cirka 4-6 sekunder i första försöket. På samma sätt räckte ett försök för att DALL-E AI-bildgeneratorn skulle skapa en bild på 6-8 sekunder. Slutligen tog Stable Diffusion cirka 5-8 sekunder att skapa bilden från prompten i det första försöket.

Poäng räknas:

FRÅN-E: 1
Google Tvillingarna: 1
Stabil diffusion: 1

Hur skapades huvudbilden och vad lades i omgivningen och bakgrunden?

Google Tvillingarna

Verktyget misslyckades inte bara med att bokstavligen gå efter prompten utan skapade också bakgrunden med sin egen. Den fokuserade belysningen visades på målningarna på väggen medan uppmaningen nämnde att den borde vara på färgsvirvlarna. Likaså missade de två bilderna nedan målningarna på väggen helt. Bara den första bilden (övre vänstra hörnet) kom lite nära prompten men sedan lyckades den inte skapa attraktiva scener och monokromatiska målningar.

DALL-E

Detta var den mest imponerande bildgenereringen från prompten. ChatGPT skapade häpnadsväckande virvlar som kom från toppen och slog in på det grå golvet. Det vi älskade var fönstren som visade naturligt omgivande ljus med fokus på hösten. Dessutom lyckades AI-bildgeneratorn inkludera monokromatiska målningar på de vita väggarna.

Vad vi älskade:

Virvlar
Den övergripande bildens detaljer
Fönstren och omgivande ljus
De färgade bollarna på golvet
Skärpedjupet med målningar
Taket

Stabil diffusion

Andelen virvlar från taket och resten av rummet stämde inte överens och därför såg det alldeles för konstgjort ut. Verktyget lyckades inte heller skapa en typisk monokromatisk målning eftersom båda målningarna har ett spår av andra färger/nyanser. Verktyget lyckades få det gråa golvet och taket men totalt sett motsvarade bilden inte våra förväntningar även om den var bättre än Google Gemini.

Antal poäng:

FRÅN-E: 1
Google Gemini: 0
Stabil diffusion: 0,5

Experimentera med prompt #4

I skuggan av den sista solen hade en fiskare somnat, och han hade en fåra längs ansiktet, som ett slags leende.

DALL – E (genom ChatGPT)	Google Tvillingarna	Stabil diffusion
Svarstid: 4-6 sekunder	Svarstid: 8-10 sekunder	Svarstid: 5-7 sekunder
Försök: 1	Försök: 1	Försök: 1

Parametrarna

Hur väl förstår AI-generatorverktyget uppmaningen?

Google Tvillingarna

Vi försökte med mycket korta snabba och enkla instruktioner trots att Google Gemini helt misslyckades med att tolka instruktionerna och genererade ganska irrelevanta bilder. Alla bilder visade inte fiskarens ansikte och därför fanns det ingen chans att utvärdera fåran och leendet. Två av bilderna var mer som en siluett utan detaljer. Den fjärde bilden var helt utanför spåret och visar en fiskare som sover i båten utan spår av den sista solen. En av bilderna fokuserade mer på kanoten och havet med en liten fiskare.

DALL-E

ChatGPT valde att visa oss en närbild av en fiskare. Verktyget klarade den sista solen och mannen som sov lugnt. Fåran som skapades längs hans ansikte var imponerande och ett litet leende som skapades ur det var anmärkningsvärt.

Vad vi älskade:

Den sista solen
Solens strålar
Skuggorna och skuggorna på fiskaren
Tyget och hatten av mannen

Stabil diffusion

Stable Diffusion gjorde ett mycket bättre jobb än Google Gemini; det var dock ingen match med bilden som skapades av bildgenereringsverktyget DALL-E AI. Bilden visade en fiskare som låg i sin kanot och där var den sista solen vid horisonten. Bilden visar att han seglar mitt ute på havet. Men på grund av den siluettliknande bilden syntes inte fåran och det skapade leendet.

Antal poäng:

FRÅN-E: 1
Google Gemini: 0
Stabil diffusion: 0

Hur lång svarstid tar det för att generera text-till-bild-resultat?

Det tog 4-6 sekunder för DALL-E ChatGPT att skapa den bästa bilden som passade med prompten i ett försök. Stabil Diffusion tillbringade 5-7 sekunder för att förstå uppmaningen och skapa bilden av en inte så detaljerad fiskare. Google Gemini tog inte bara 8-10 sekunder (den längsta tiden) utan blev också besviken över resultatet.

Poäng räknas:

FRÅN-E: 1
Google Gemini: 0
Stabil diffusion: 0

Revolutionera din webb- och mobilapputveckling med banbrytande, framtidsredo AI-expertis.

Samarbeta med vårt expertteam för AI-utveckling

Hur skapades huvudbilden och vad lades i omgivningen och bakgrunden?

Google Tvillingarna

Google Gemini skapade en tråkig bakgrund utan detaljer. Den mest överraskande var den raka hörnbilden där den nedgående solen utelämnades och ersattes av en sagoscen av ett hus, en kanot, en fiskare och blommor på gården. Resten av bilderna hade hav i bakgrunden med något slags ljus från den nedgående solen men ingen av dem var imponerande. Bilderna hade mer mörker där detaljering av fiskaren inte var genomförbar.

DALL-E

Detta var den mest imponerande AI-bildgenereringen från prompten. ChatGPT följde instruktionerna till längd och bredd. En skarp och tydlig bild av en fiskare med en fåra var betydelsefull. Bakgrunden visade den nedgående solen med tillräckligt med omgivande ljus för att framhäva silhuetten av kanot och fiskenät. Dessutom var det omgivande ljuset som skapades i ansiktet på fiskaren imponerande eftersom det tydligt definierade vecken i ansiktet och det fina tyget i mannens skjorta.

Vad vi älskade:

Närbild av fiskaren
Den övergripande känslan av skymning
Skarpa drag i ansiktet
Fåran och leendet det gjorde
Skjortans tyg och detaljer
Uttrycket i ansiktet

Stabil diffusion

Stabil Diffusion producerade en fin himmel med den nedgående solen vid horisonten. Vattnet visade en reflektion av solljuset. Men storleken på fiskaren och hans kanot kunde ha varit lite bättre för att se naturliga ut. Siluetteffekterna hämmade syftet med prompten där en fåra och ett leende som skapades ur den saknades helt. Verktyget missade inte att visa ett fiskespö som ramlade ur kanoten. Överlag var bilden fin, men den missade syftet.

Antal poäng:

FRÅN-E: 1
Google Gemini: 0
Stabil diffusion: 0,5

Experimentera med prompt #5

Anime girl, girl knight, trubbig lugg, hime cut, spetsiga öron, pearl opal, mycket estetiskt, mästerverk, bästa kvalitet, hyperdetaljerad, ultradetaljerad, UHD, perfekt anatomi, svärd, bländande, transparent, viftande svärd, polerat silver , stålrustning, lysande rustning, bländande rustning, detaljerad illustration, officiellt konstverk, tapeter, officiell konst, extremt detaljerade ögon och ansikte, vackra detaljerade ögon, blått öga.

DALL – E (genom ChatGPT)	Google Tvillingarna	Stabil diffusion
Svarstid: 6-8 sekunder	Svarstid: 6-8 sekunder	Svarstid: 4-6 sekunder
Försök: 1	Försök: 1	Försök: 1

Parametrarna

Hur väl förstår AI-generatorverktyget uppmaningen?

Stabil diffusion

Stable Diffusion producerade snyggt flickriddaren med en detaljerad bild av nästan allt som prompten nämnde, såsom skarpa öron, ultradetaljerad, svärd, stål och glänsande rustningar och blå ögon. Det verkar som att verktyget för AI-bildgenerator inte har missat en enda instruktion. Vi bad faktiskt om för mycket och försökte förvirra AI-motorn genom att fråga samma sak på olika sätt och avatarer. Stable Diffusion gjorde dock sitt jobb. Bilden den producerade var en närbild av en blond tjej som såg ut som en självsäker riddare.

Google Tvillingarna

Google Gemini producerade först bara två bilder, till skillnad från sin modell som ger oss fyra alternativ. Det slutade efter att ha genererat två bilder och bad oss att “generera mer”. Men om vi pratar om de två första AI-genererade bilderna visar de flickriddaren framifrån och i en porträttpose. En bild visade svärdet (som inte såg ut som man trodde, det var mer som en Star Wars-fyr), och den andra bilden missade det. Överraskande nog visade AI-bildgeneratorverktyget Google Gemini en bild där flickan hade horn. Båda bilderna saknade spetsiga öron. Det första försöket kunde inte producera alla fyra bilderna. I det andra försöket gav Google Gemini upp och fick ett meddelande: Jag kan inte generera dessa bilder. Ange en ny prompt för att generera fler bilder.

DALL-E (ChatGPT)

Denna modell av AI-bildgenerator producerade en bild som var direkt från prompten. Men till vår förvåning visade den bilden vertikalt. När den korrigerades lokalt var bilden i liggande läge. Bilden visade en flickriddare men det var mer av en barnslig karaktär. Det producerade ett lysande svärd. DALL-E verkar älska diamanter och det är vad som visades på den här bilden också. Flickan bar rustning och hade spetsiga öron enligt uppmaningen. Hon var fint klädd med en blomma i kronan.

Antal poäng:

DALL-E: 0,5
Google Gemini: 0
Stabil diffusion: 1

Hur lång svarstid tar det för att generera text-till-bild-resultat?

DALL-E för sitt ChatGPT-arbete tog 4-6 sekunder att producera en landskapsbild av flickriddaren medan Google Gemini tog två försök (överstigande 10 sekunder totalt) för att producera två bilder och det var inte heller upp till målet. Stabil diffusion tog 6-8 sekunder att producera en nästan perfekt bild från prompten.

Antal poäng:

FRÅN-E: 1
Google Gemini: 0
Stabil diffusion: 1

Hur skapades huvudbilden och vad lades i omgivningen och bakgrunden?

Stabil diffusion

Huvudbilden som skapades av det AI-bildgenererande verktyget Stable Diffusion var upp till märket eftersom den visade allt i detalj och enligt uppmaningen. Bakgrunden var en vacker himmel med moln som passade med huvudpersonens nyanser. Skuggan och reflektionen av himlen och solljuset var synliga på flickriddarens rustning.

Google Tvillingarna

Det var en vanlig bakgrund utan detaljer för flickriddaren. Svärdet såg mer ut som en laserfyr och karaktären såg mer ut som en best med horn på huvudet. Verktyget saknade också skarpa öron och vackra blå ögon. Det var inget som lockade oss på bilden.

DALL-E

Detaljeringen i den här bilden var dramatisk och inte så verklig som vi hittade i Stable Diffusion. Det var mer tecknat i DALL-E:s fall. Flickan såg kinesisk och ung ut snarare än en riddare med djärvhet. Bilden visade grafiska diamanter som på vissa ställen mer liknade linser. Vi observerade också att det var en kakelbild där du kan hitta ytterligare två kopior av huvudkaraktärerna i bakgrunden. Vi är inte säkra på vad det betyder eftersom det inte stod i prompten.

Antal poäng:

DALL-E: 0,5
Google Gemini: 0
Stabil diffusion: 1

Totalt antal: DALL-E vs Gemini vs Stabil Diffusion

Om vi tittar på poängen för alla frågorna för alla AI-bildgeneratorer får vi denna poäng:

Uppmaning 1

Frågor	DALL–E	Google Tvillingarna	Stabil diffusion
Fråga 1	1	0	0.5
Fråga 2	1	1	1
Fråga 3	1	1	1
Total	3	2	2.5

Uppmaning 2

Frågor	DALL–E	Google Tvillingarna	Stabil diffusion
Fråga 1	0.5	0	1
Fråga 2	1	0	1
Fråga 3	1	0	1
Total	2.5	0	3

Uppmaning 3

Frågor	DALL–E	Google Tvillingarna	Stabil diffusion
Fråga 1	1	0	0.5
Fråga 2	1	1	1
Fråga 3	1	0	0.5
Total	3	1	2

Uppmaning 4

Frågor	DALL–E	Google Tvillingarna	Stabil diffusion
Fråga 1	1	0	0
Fråga 2	1	0	0
Fråga 3	1	0	0.5
Total	3	0	0.5

Uppmaning 5

Frågor	DALL–E	Google Tvillingarna	Stabil diffusion
Fråga 1	0.5	0	1
Fråga 2	1	0	1
Fråga 3	0.5	0	1
Total	2	0	3

Slutresultaten: DALL-E vs Gemini vs Stable Diffusion

Uppmaningar	DALL–E	Google Tvillingarna	Stabil diffusion
Uppmaning 1	3	2	2.5
Uppmaning 2	2.5	0	3
Uppmaning 3	3	1	2
Uppmaning 4	3	0	0.5
Uppmaning 5	2	0	3
Total	13.5	3	11

I vår omfattande testning av AI-bildgenererande verktyg utvärderades DALL-E, Google Gemini och Stable Diffusion med samma prompt. DALL-E framstod som den bästa presterande, fick 13,5 av 15, utmärkte sig i bilddetaljer, efterlevnad av snabba instruktioner och kvaliteten på bakgrunder.

Stabil diffusion följde med en poäng på 11, vilket visade stark bildkvalitet och precision, men något mindre konsekvent i bakgrundselement. Google Gemini, som fick 3 poäng, kunde inte följa snabba instruktioner och producera detaljerade bilder.

Dom

DALL-E står ut som det mest pålitliga verktyget för att generera högkvalitativa, detaljerade bilder som ligger nära givna uppmaningar. Våra resultat är dock baserade på specifika testparametrar och individuella erfarenheter kan variera. Vi rekommenderar att du utforskar varje AI-verktyg för att avgöra vilket som bäst passar dina unika behov.

Sociala Hashtags

#AIImageGeneration #DALLEvsGemini #StableDiffusionAI #AIArtBattle #AIComparison #ImageGenerationTech #AIImageCreators #CreativeAI

View All

Testimonials: Hear It Straight From Our Customers

Our development processes delivers dynamic solutions to tackle business challenges, optimize costs, and drive digital transformation. Expert-backed solutions enhance client retention and online presence, with proven success stories highlighting real-world problem-solving through innovative applications. Our esteemed clients just experienced it.