AI-billedgenerering med DALL-E vs Gemini vs stabil diffusion

Sunil M.
18 dec 2024

Udforsk de bedste AI-billedgeneratorer: Gemini vs DALL-E vs Stable Diffusion. Opdag deres styrker og find det perfekte værktøj til dine behov for kreativ AI-billedgenerering.

Kunstig intelligens (AI), Maskinlæring

Share On

Table of Content

Read in

Et billede, der er mere end tusind ord værd, er et ordsprog, der gælder selv i dag. Komplekse og flere ideer kan portrætteres i et enkelt billede. Tendensen skifter fra tekster til billeder og motion graphics. Det siger forskere billeder er meget kraftfulde og de fleste vælger billeder for at forstå budskabet, fordi de er indgangen til historier – de tilføjer mening, og de berører på bemærkelsesværdig vis folks psykologiske tilstand, hukommelse og følelser. Mens vi har større ML’er og LLM’er, er populariteten af billedgenererende AI-værktøjer steget voldsomt i den seneste tid.

Midjoruney, Dall-E, Google Gemini og Stable Diffusion (Stability) er nogle få billedgenereringssoftwareværktøjer, der er populære overalt på internettet. Mens Midjourney har ledet løbet indtil videre, mente vi, at der er et alvorligt behov for at sammenligne resten af AI-billedgenereringsværktøjerne – Dall -E vs. Google Gemini, vs. Stable Diffusion.

Lad os få en hurtig introduktion, før vi sammenligner AI-billedgenereringssoftwareværktøjer.

Hvad er DALL-E?

DALL–E er en kunstig intelligens-model, der genererer billeder eller illustrationer baseret på tekstbeskrivelser, som brugerne angiver som en prompt. For at bygge et billede i tråd med teksten, oversætter det milliarder af tekststykker fra hele internettet til et abstrakt. Denne lagrede information bruges derefter som et referenceværktøj til at beskrive information og til sidst til at skabe prompt-orienterede billeder. DALL–E-modellen er tilgængelig via ChatGPT.

Hvad er Google Gemini?

Google introducerede AI-billedgeneratorværktøjet gennem Gemini i 2024. Gemini er Googles vigtigste suite af AI-modeller, og det var udstyret til at producere billeder i henhold til brugernes opfordringer. Selvom Google Gemini er mere i nyhederne på grund af dets historiske unøjagtigheder og tvivlsomme svar, er AI-billedgeneratoren Gemini kendt for at levere illustrationer/billeder, der er meget tæt på brugerens fantasi.

Hvad er stabil diffusion?

Stable Diffusion er af Stability AI, en førende open source generativ AI (GenAI) virksomhed, der sigter mod at levere banebrydende og åben adgang AI-modeller, der kræver minimale ressourcer til at bygge billeder, sprog, lyd og kode. Stabil diffusion er den nyeste og mest avancerede T2I (Text-to-Image), der omfatter 2 milliarder parametre.

Værktøjer til generering af AI-billeder: Den stigende popularitet og indvirkning

Kunstig intelligens har gjort billedgenererende værktøjer mere effektive og nøjagtige i forhold til meddelelserne. AI-billedgeneratorer er uhyre populære blandt marketingfolk og indholdsskabere for at booste deres indhold med iøjnefaldende og engagerende grafik.

Statistik afslører, at netop under 40 % af marketingfolk bruger Generativ AI at skabe billeder til opslag på sociale medier. Desuden udnytter 36% af dem AI-billedgeneratorernes kraft til at bygge hjemmesidebilleder.

Vil du vide, hvordan ChatGPT kan gøre underværker for din virksomhed og øge dens vækst og effektivitet?

Her er din eksklusive læsning

DALL–E vs Google Gemini vs stabil diffusion – Sammenligning af AI-billedgeneratorer

For at sammenligne billedgenerator AI-værktøjer besluttede vi at have en fælles prompt til at køre på disse tre forskellige platforme. Formålet var at forstå, hvordan disse AI-billedgeneratorværktøjer forfølger teksterne og bruger deres algoritmer og modeller til at bygge billeder.

Vi overvejede tre generelle parametre for at evaluere AI-billedværktøjerne –

Hvor godt forstår AI-generatorværktøjet prompten med detaljer?
Hvor meget responstid tager det at generere tekst-til-billede-resultater?
Hvordan blev hovedbilledet skabt, og hvad blev sat i omgivelserne og baggrunden?

Eksperimenter med prompt #1 til AI-billedgenerering

Skab et billede af en udsmykket nøgle fra victoriansk tid, der ligger på en forvitret træoverflade med indviklede, steampunk-inspirerede gear og mekanismer, der er synlige i dens gennemsigtige glasskaft.

DALL – E (gennem ChatGPT)	Google Gemini	Stabil diffusion
Svartid: 6-9 sekunder	Svartid: 7-9 sekunder	Svartid: 4-6 sekunder
Forsøg: 1	Forsøg: 1	Forsøg: 1

Parametrene

Hvor godt forstår AI-generatorværktøjet prompten og detaljerer den?

DALL – E (ChatGPT)

DALL -E forstod prompten, som vi ville. Det skabte præcis det, vi havde tænkt på. AI-billedgeneratoren forstod ganske godt instruktionerne: inspirerede gear og mekanismer, der er synlige i dens gennemsigtige glasskaft. Faktisk skabte det også en gennemsigtig mekanisme i skaftet sammen med hovedet. DALL-E skabte perfekt en nøgle fra victoriansk tid. AI-billedgeneratoren skabte også en iøjnefaldende forvitret træoverflade. Den kobberagtige farve var et perfekt match med prompten og det billede, vi havde skabt i vores sind. Alt i alt var det et detaljeret billede med skarpe træk og et kongeligt design af nøglen.

Hvad vi elskede

Naturligt lys skabt på glasset
Træet
Halvmånen af glasset på skyggesiden

Google Gemini

I modsætning til DALL–E og Stable Diffusion gav Google Gemini altid flere muligheder. Hvert billede ville have en lidt anderledes tilgang, hvilket betyder, at brugeren kan have forskellige valg fra prompten. Men i dette tilfælde var de tre taster ikke imponerende, da de savnede en væsentlig del af den ‘gennemsigtige mekanisme’ i hovedet. AI-billedskaberen producerede én nøgle, der passede til vores beskrivelse; vi fandt det dog ikke imponerende.

Her var kun én nøgle med nøglehovedglasset op til mærket. Vinklen på nøglen var sådan, at detaljerne i den gennemsigtige mekanisme ikke var så synlige. Alt i alt gjorde AI-billedgeneratoren ikke et godt stykke arbejde for os for dette.

Stabil diffusion

Stabil diffusion gjorde det hele perfekt, som vi ønskede. Den havde en gennemsigtig mekanisme og glasskaft. Nøglen så kongelig ud, men vi forventede glasdækslet i nøglens hoved, som den savnede. Alt i alt var det detaljerede og promptcentrerede billede ganske tilfredsstillende.

Stable Diffusion gjorde et fantastisk stykke arbejde. Billedet havde en større nøgle med alle detaljerne synlige. Selvom den gennemsigtige mekanisme ikke var så imponerende, forstod AI-generatorværktøjet prompten og producerede den relevante illustration. Ikke desto mindre bemærkede vi, at den savnede en stor del – glasdækslet på nøglehovedet.

Hvad vi elskede:

Nærbilledet af nøglen
Det victorianske design

Point tæller:

DALL – E: 1
Google Gemini: 0
Stabil diffusion: 0,5

Er du nysgerrig efter den transformerende indvirkning, AI har på erhvervslivet?

Læs disse seneste AI-statistikker

Hvor meget responstid tager det at generere tekst-til-billede-resultater?

AI-billedgenereringsværktøjet, DALL-E, tog mellem 6-8 sekunder. På den anden side tog Google Gemini billed-AI-genererende software mellem 7 og 9 sekunder at forstå og skabe billedet. Endelig var Stable Diffusion ret hurtig, da dette billedgenererende AI-værktøj tog omkring 5 til 7 sekunder at lave det prompt-galopperede billede.

Point tæller:

FRA-E: 1
Google Gemini: 1
Stabil diffusion: 1

Hvordan blev hovedbilledet skabt, og hvad blev sat i omgivelserne og baggrunden?

DALL -E

Det primære billede, der blev oprettet, var i henhold til prompten. Der var ikke noget ekstra, hvilket betyder, at AI-billedgeneratorsoftwaren fulgte instruktionerne strengt uden at tilføje noget, der ikke blev spurgt.

Google Gemini

Google Gemini AI-generator gav et par muligheder for den samme prompt, og det gjorde dette AI-billedgenererende værktøj en smule mere omfattende og holistisk. Mens tre billeder skabte et træ, blev et billede præsenteret med naturligt græs, som fangede vores øjne. Det så beroligende ud, men så bad vi ikke om det.

Stabil diffusion

Ligesom DALL-E gjorde Stable Diffusion et fantastisk stykke arbejde ved at skabe hovedbilledet og omgivelserne i henhold til prompten. Træet var præcis som vi ønskede. Det tilføjede ikke noget ekstra, som vi ikke bad om.

Antal point:

FRA-E: 1
Google Gemini: 1
Stabil diffusion: 1

Eksperimenter med prompt #2

Filmisk filmstillads, nærbillede, foto af en guldskaleret dragekriger i fuld pladerustning, i en hyperrealistisk fantasistil.

DALL – E (gennem ChatGPT)	Google Gemini	Stabil diffusion
Svartid: 6-9 sekunder	Svartid: 8-10 sekunder	Svartid: 5-8 sekunder
Forsøg: 1	Forsøg: 1	Forsøg: 1

Parametrene

Hvor godt forstår AI-generatorværktøjet prompten?

DALL – E

ChatGPT gjorde et fantastisk stykke arbejde ved at vise os nærbilledet af dragekrigeren. De anvendte farver var levende, og det guldskallede væsen så imponerende ud. Piggene på kroppen og rustningen var detaljerede og skarpe. Ikke desto mindre, hvad vi observerede var, at denne AI-billedgenerator tog vores prompt helt bogstaveligt! “Cinematic film still”-sætningen udløste DALL-E til at skabe klapbrættet og vise det på billedet. Selvom det er imponerende, at AI-motoren tager prompter seriøst, forventede vi, at den blev forstået som en filmisk scene i stedet for at fokusere på BTS!

Google Gemini

Google Gemini ændrede simpelthen rustningsdragten med forskellige designs for tre af dens resultater. Hver af dem havde en forskellig zoomet ind/ud tilgang. Den guldskallede dragekrigers ansigt forblev næsten ens. Det fjerde billede viste en større positur af krigeren med flere elementer i baggrunden. Alle billederne så lidt kedelige ud i forhold til resten af værktøjerne.

Stabil diffusion

Et enkelt skud med en detaljeret dragekriger blev vist. På imponerende vis blev dragens hoved blandet med sallet og bevor for at se mere aggressivt ud. Den blå diamant gik ret godt sammen med en forgyldt pauldron og cuirass. Den blå krigerkappe så attraktiv ud på kroppen.

Hvad vi elskede:

Nærbilledet af krigeren
Diamanter
Kriger kappe

Antal point:

DALL – E: 0,5
Google Gemini: 0
Stabil diffusion: 1

Hvor meget responstid tager det at generere tekst-til-billede-resultater?

AI-billedgeneratoren DALL-E tog mellem 6-9 sekunder. På den anden side tog Google Gemini billed-AI-genererende software mellem 8 og 10 sekunder at forstå og skabe billedet. Endelig var Stable Diffusion ret hurtig, da dette billedgenererende AI-værktøj tog omkring 5 til 8 sekunder at lave det prompt-galopperede billede.

Point tæller:

FRA-E: 1
Google Gemini: 0
Stabil diffusion: 1

Hvordan blev hovedbilledet skabt, og hvad blev sat i omgivelserne og baggrunden?

DALL -E

Det primære billede, der blev oprettet, var i henhold til prompten. En bemærkelsesværdig tilføjelse var dog klappen, da AI-motoren tog prompten ret seriøst. Udtrykket ‘filmisk’ blev taget for bogstaveligt, og AI-billedgeneratoren mente at inkludere bag kulisserne.

Google Gemini

Google Gemini AI-generator viste fire muligheder for den samme prompt, og det gjorde dette AI-billedgenererende værktøj en smule mere omfattende og holistisk. Ikke desto mindre var tre af disse billeder næsten de samme med mindre designændringer i rustningspakken. Det fjerde billede var et udzoomet billede af krigeren med en planet. Værktøjet forsøgte at vise slagmarken, men det så mere ud som et udenjordisk område.

Stabil diffusion

Stable Diffusion var indtil videre den bedste til at skabe den guldskalerede dragekriger med et detaljeret nærbillede. Baggrunden viste et slot, der opfyldte vores formål om at have en krigslignende flair. Alt i alt var dette billede noget, vi ønskede gennem prompten.

Antal point:

FRA-E: 1
Google Gemini: 0
Stabil diffusion: 1

Google Gemini, Copilot eller ChatGPT? Dyk ned i det ultimative AI-opgør, og se, hvilken der regerer for dine behov!

Find vinderen nu!

Eksperimenter med prompt #3

Skab levende, eksplosive hvirvler af orange, gul, pink og blå maling fosser ned fra loftet til et poleret gråt gulv i et kunstgalleri, i kontrast til monokromatiske abstrakte malerier på hvide vægge og skaber en dynamisk, energisk scene under skarp, fokuseret belysning.

DALL – E (gennem ChatGPT)	Google Gemini	Stabil diffusion
Svartid: 4-6 sekunder	Svartid: 6-8 sekunder	Svartid: 5-8 sekunder
Forsøg: 1	Forsøg: 1	Forsøg: 1

Parametrene

Hvor godt forstår AI-generatorværktøjet prompten?

Google Gemini

For denne gang gik Google Gemini en smule avanceret og skabte fire forskellige muligheder i stedet for at præsentere lignende billeder med trivielle ændringer som tidligere. Imidlertid savnede AI-billedgeneratoren promptens instruktioner i to af sine billeder. Værktøjet viste et lige fald af orange, pink og gul maling, men savnede to væsentlige ting: hvirvel og farven blå. Resten af de to billeder inkluderede dog farverne (inklusive blå) nævnt i prompten. Men igen, mens den blå farve inkluderede i to billeder, kunne værktøjet ikke fokusere på at have monokromatiske abstrakte malerier. Samlet set savnede hvert af de oprettede billeder en eller anden ting fra prompten. Det øverste højre billede viste ikke gulvet og billedets dybde; i stedet så det ud til, at farverne sivede ud af ingenting.

DALL-E (ChatGPT)

Dette værktøj skabte det mest imponerende billede ud af prompten. Der blev skabt smukke hvirvler af alle de farver, der er nævnt i prompten. Ikke nok med det, AI-billedgeneratoren vandt vores hjerter ved at vise gulvet med sfæriske farvekugler. Værktøjet formåede at vise monokromatiske abstrakte malerier på de hvide vægge. Dette var det eneste værktøj, der inkluderede lys og fokuseret belysning i billedet som anvist i prompten.

Stabil diffusion

Stable Diffusion var hurtig til at forstå prompten, men det lykkedes ikke at inkludere blå maling med samme vægt som resten af farverne. Der var kun en brøkdel af den blå farve. AI-billedgeneratoren savnede også det monokromatiske maleri, men formåede at vise det grå gulv. Det lykkedes heller ikke at skabe lys og fokuseret belysning, hvilket var en del af prompten.

Antal point:

DALL – E: 1
Google Gemini: 0
Stabil diffusion: 0,5

Hvor meget responstid tager det at generere tekst-til-billede-resultater?

Google Gemini oprettede fire muligheder og tog omkring 4-6 sekunder i det første forsøg. På samme måde var ét forsøg nok til, at DALL-E AI-billedgeneratoren kunne skabe et billede på 6-8 sekunder. Til sidst tog stabil diffusion omkring 5-8 sekunder at skabe billedet ud af prompten i det første forsøg.

Point tæller:

FRA-E: 1
Google Gemini: 1
Stabil diffusion: 1

Hvordan blev hovedbilledet skabt, og hvad blev sat i omgivelserne og baggrunden?

Google Gemini

Værktøjet mislykkedes ikke kun i at gå bogstaveligt talt efter prompten, men skabte også baggrunden med sin egen. Den fokuserede belysning blev vist på malerierne på væggen, hvorimod prompten nævnte, at det skulle være på malingerne. Ligeledes savnede de to billeder nedenfor malerierne på væggen fuldstændig. Kun det første billede (øverste venstre hjørne) kom lidt tæt på prompten, men så lykkedes det ikke at skabe attraktive scener og monokromatiske malerier.

DALL-E

Dette var den mest imponerende billedgenerering fra prompten. ChatGPT skabte forbløffende hvirvler, der kom fra toppen og smadrede ind på det grå gulv. Det, vi elskede, var vinduerne, der viste naturligt omgivende lys med fokus på efteråret. Plus, AI-billedgeneratoren formåede at inkludere monokromatiske malerier på de hvide vægge.

Hvad vi elskede:

Hvirvler
De overordnede billeddetaljer
Vinduerne og omgivende lys
De farvede kugler på gulvet
Dybdeskarpheden med malerier
Loftet

Stabil diffusion

Andelen af hvirvlerne fra loftet og resten af rummet stemte ikke overens, og derfor så det alt for kunstigt ud. Værktøjet kunne heller ikke skabe et typisk monokromatisk maleri, fordi begge malerier har spor af nogle andre farver/nuancer. Værktøjet formåede at få det grå gulv og loft, men alt i alt svarede billedet ikke til vores forventninger, selvom det var bedre end Google Gemini.

Antal point:

FRA-E: 1
Google Gemini: 0
Stabil diffusion: 0,5

Eksperimenter med prompt #4

I skyggen af den sidste sol var en fisker faldet i søvn, og han havde en fure langs ansigtet, som et slags smil.

DALL – E (gennem ChatGPT)	Google Gemini	Stabil diffusion
Svartid: 4-6 sekunder	Svartid: 8-10 sekunder	Svartid: 5-7 sekunder
Forsøg: 1	Forsøg: 1	Forsøg: 1

Parametrene

Hvor godt forstår AI-generatorværktøjet prompten?

Google Gemini

Vi forsøgte med meget korte hurtige og ligetil instruktioner på trods af, at Google Gemini fuldstændig undlod at analysere instruktionerne og genererede ret irrelevante billeder. Alle billederne viste ikke fiskerens ansigt, og derfor var der ingen chance for at vurdere furen og smilet. To af billederne var mere som en silhuet uden detaljer. Det fjerde billede var helt væk fra sporet og viser en fisker, der sover i båden uden spor af den sidste sol. Et af billederne fokuserede mere på kanoen og havet med en lille fisker.

DALL-E

ChatGPT valgte at vise os et nærbillede af en fisker. Værktøjet klarede den sidste sol og manden, der sov roligt. Furen skabt langs hans ansigt var imponerende, og et lille smil skabt ud af det var bemærkelsesværdigt.

Hvad vi elskede:

Den sidste sol
Solens stråler
Skyggerne og skyggerne på fiskeren
Mandens stof og hat

Stabil diffusion

Stable Diffusion gjorde et langt bedre stykke arbejde end Google Gemini; det var dog ikke match med billedet skabt af DALL-E AI billedgenereringsværktøjet. Billedet viste en fisker, der lå i sin kano, og der var den sidste sol i horisonten. Billedet viser, at han sejler midt i havet. På grund af det silhuetagtige billede var furen og det skabte smil dog ikke synlige.

Antal point:

FRA-E: 1
Google Gemini: 0
Stabil diffusion: 0

Hvor meget responstid tager det at generere tekst-til-billede-resultater?

DALL-E ChatGPT tog 4-6 sekunder at skabe det bedste billede, der passede med prompten i ét forsøg. Stabil diffusion brugte 5-7 sekunder på at forstå prompten og skabe billedet af en knap så detaljeret fisker. Google Gemini tog ikke kun 8-10 sekunder (den længste tid), men skuffede også over resultaterne.

Point tæller:

FRA-E: 1
Google Gemini: 0
Stabil diffusion: 0

Revolutioner din web- og mobilapp-udvikling med banebrydende, fremtidsklar AI-ekspertise.

Partner med vores ekspert AI-udviklingsteam

Hvordan blev hovedbilledet skabt, og hvad blev sat i omgivelserne og baggrunden?

Google Gemini

Google Gemini skabte en kedelig baggrund uden detaljer. Det mest overraskende var det direkte hjørnebillede, hvor den nedgående sol blev udeladt og erstattet af en eventyrscene af et hus, en kano, en fisker og blomster i forhaven. Resten af billederne havde hav i baggrunden med en slags lys fra den nedgående sol, men ingen af dem var imponerende. Billederne havde mere mørke, hvor detaljering af fiskeren ikke var mulig.

DALL-E

Dette var den mest imponerende AI-billedgenerering fra prompten. ChatGPT fulgte instruktionerne i længden og bredden. Et skarpt og klart billede af en fisker med en fure var betydningsfuldt. Baggrunden viste den nedgående sol med tilstrækkeligt omgivende lys til at fremhæve silhuetten af kano og fiskenet. Også det omgivende lys, der blev skabt i ansigtet på fiskeren, var imponerende, da det tydeligt definerede folderne i ansigtet og det fine stof i mandens skjorte.

Hvad vi elskede:

Nærbillede af fiskeren
Den overordnede flair af skumring
Skarpe træk i ansigtet
Furen og smilet lavede den
Skjortens stof og detaljer
Udtrykket i ansigtet

Stabil diffusion

Stabil Diffusion producerede en flot himmel med den nedgående sol i horisonten. Vandet viste en reflektion af sollys. Dog kunne størrelsen på fiskeren og hans kano have været en smule bedre for at se naturligt ud. Silhueteffekterne hæmmede formålet med prompten, hvor en fure og et smil skabt ud af den manglede fuldstændigt. Værktøjet savnede ikke at vise en fiskestang, der faldt ud af kanoen. Alt i alt var billedet flot, men det missede formålet.

Antal point:

FRA-E: 1
Google Gemini: 0
Stabil diffusion: 0,5

Eksperimenter med prompt #5

Animepige, pigeridder, stumpt pandehår, hime cut, spidse ører, perleopal, meget æstetisk, mesterværk, bedste kvalitet, hyperdetaljeret, ultradetaljeret, UHD, perfekt anatomi, sværd, blændende, gennemsigtig, viftende sværd, poleret sølv , stålpanser, skinnende rustning, blændende rustning, detaljeret Illustration, officielt kunstværk, tapet, officiel kunst, ekstremt detaljerede øjne og ansigt, smukke detaljerede øjne, blå øje.

DALL – E (gennem ChatGPT)	Google Gemini	Stabil diffusion
Svartid: 6-8 sekunder	Svartid: 6-8 sekunder	Svartid: 4-6 sekunder
Forsøg: 1	Forsøg: 1	Forsøg: 1

Parametrene

Hvor godt forstår AI-generatorværktøjet prompten?

Stabil diffusion

Stabil Diffusion producerede pænt pigeridderen med en detaljeret visning af næsten alt, hvad prompten nævnte, såsom skarpe ører, ultra-detaljeret, sværd, stål og skinnende rustning og blå øjne. Det ser ud til, at AI-billedgeneratorværktøjet ikke er gået glip af et eneste stykke instruktion. Vi bad faktisk om for meget og forsøgte at forvirre AI-motoren ved at spørge om det samme på forskellige måder og avatarer. Stable Diffusion gjorde dog sit arbejde. Optagelsen, den producerede, var et nærbillede af en blond pige, der lignede en selvsikker ridder.

Google Gemini

Google Gemini producerede først kun to billeder, i modsætning til sin model, som giver os fire muligheder. Det stoppede efter at have genereret to billeder og bad os om at ‘Generere mere’. Men hvis vi taler om de to første AI-genererede billeder, viser de pigeridderen forfra og i en portrætposition. Et billede viste sværdet (der ikke så ud som man troede, det var mere som et Star Wars-fyrtårn), og det andet billede savnede det. Overraskende nok viste AI-billedgeneratorværktøjet Google Gemini et billede, hvor pigen havde horn. Begge billeder savnede spidse ører. Det første forsøg kunne ikke producere alle fire billeder. I andet forsøg gav Google Gemini op og bad om en besked: Jeg kan ikke generere disse billeder. Indtast en ny prompt for at generere flere billeder.

DALL-E (ChatGPT)

Denne model af AI-billedgenerator producerede et billede, der var direkte fra prompten. Men til vores overraskelse viste den billedet lodret. Når det blev korrigeret lokalt, var billedet i liggende tilstand. Billedet viste en pigeridder, men det var mere en barnlig karakter. Det producerede et skinnende sværd. DALL-E ser ud til at elske diamanter, og det er også det, der blev vist på dette billede. Pigen bar rustning og havde spidse ører i henhold til prompten. Hun var klædt pænt på med en blomst i kronen.

Antal point:

DALL-E: 0,5
Google Gemini: 0
Stabil diffusion: 1

Hvor meget responstid tager det at generere tekst-til-billede-resultater?

DALL-E for sit ChatGPT-arbejde tog 4-6 sekunder at producere et landskabsbillede af pigeridderen, mens Google Gemini tog to forsøg (over 10 sekunder i alt) for at producere to billeder, og det var heller ikke op til mærket. Stabil diffusion tog 6-8 sekunder at producere et næsten perfekt billede fra prompten.

Antal point:

FRA-E: 1
Google Gemini: 0
Stabil diffusion: 1

Hvordan blev hovedbilledet skabt, og hvad blev sat i omgivelserne og baggrunden?

Stabil diffusion

Hovedbilledet skabt af det AI-billedgenererende værktøj Stable Diffusion var op til mærket, da det viste alt i detaljer og i henhold til prompten. Baggrunden var en smuk himmel med skyer, der passede til hovedpersonens nuancer. Skyggen og refleksionen af himlen og sollys var synlig på pigeridderens rustning.

Google Gemini

Det var en almindelig baggrund uden detaljer for pigens ridder. Sværdet lignede mere en laserfyr, og karakteren lignede mere et udyr med horn på hovedet. Værktøjet savnede også skarpe ører og attraktive blå øjne. Der var ikke noget, der tiltrak os på billedet.

DALL-E

Detaljeringen i dette billede var dramatisk og ikke så ægte, som vi fandt i Stable Diffusion. Det var mere tegneserieagtigt i DALL-E’s tilfælde. Pigen så kinesisk og barnlig ud snarere end en ridder med dristighed. Billedet viste grafiske diamanter, der nogle steder mere lignede linseflairs. Vi observerede også, at det var et flisebillede, hvor du kan finde yderligere to kopier af hovedpersonerne i baggrunden. Vi er ikke sikre på, hvad det betyder, fordi det ikke var i prompten.

Antal point:

DALL-E: 0,5
Google Gemini: 0
Stabil diffusion: 1

Det samlede antal: DALL-E vs Gemini vs stabil diffusion

Hvis vi ser på pointtæller for alle spørgsmålene for alle AI-billedgeneratorer, får vi denne score:

Spørgsmål 1

Spørgsmål	DALL–E	Google Gemini	Stabil diffusion
Spørgsmål 1	1	0	0.5
Spørgsmål 2	1	1	1
Spørgsmål 3	1	1	1
Total	3	2	2.5

Spørgsmål 2

Spørgsmål	DALL–E	Google Gemini	Stabil diffusion
Spørgsmål 1	0.5	0	1
Spørgsmål 2	1	0	1
Spørgsmål 3	1	0	1
Total	2.5	0	3

Spørgsmål 3

Spørgsmål	DALL–E	Google Gemini	Stabil diffusion
Spørgsmål 1	1	0	0.5
Spørgsmål 2	1	1	1
Spørgsmål 3	1	0	0.5
Total	3	1	2

Spørgsmål 4

Spørgsmål	DALL–E	Google Gemini	Stabil diffusion
Spørgsmål 1	1	0	0
Spørgsmål 2	1	0	0
Spørgsmål 3	1	0	0.5
Total	3	0	0.5

Spørgsmål 5

Spørgsmål	DALL–E	Google Gemini	Stabil diffusion
Spørgsmål 1	0.5	0	1
Spørgsmål 2	1	0	1
Spørgsmål 3	0.5	0	1
Total	2	0	3

De endelige resultater: DALL-E vs Gemini vs stabil diffusion

Spørger	DALL–E	Google Gemini	Stabil diffusion
Spørgsmål 1	3	2	2.5
Spørgsmål 2	2.5	0	3
Spørgsmål 3	3	1	2
Spørgsmål 4	3	0	0.5
Spørgsmål 5	2	0	3
Total	13.5	3	11

I vores omfattende test af AI-billedgenererende værktøjer blev DALL-E, Google Gemini og Stable Diffusion evalueret ved hjælp af den samme prompt. DALL-E viste sig som den bedste performer og scorede 13,5 ud af 15, og udmærkede sig inden for billeddetaljering, overholdelse af hurtige instruktioner og kvaliteten af baggrunde. Stabil diffusion fulgte med en score på 11, hvilket demonstrerede stærk billedkvalitet og præcision, dog lidt mindre konsistent i baggrundselementer. Google Gemini, der scorede 3, stod ingen steder i nøjagtigt at følge hurtige instruktioner og producere detaljerede billeder.

Dom

DALL-E står ud som det mest pålidelige værktøj til at generere detaljerede billeder i høj kvalitet, der stemmer nøje overens med givne prompter. Vores resultater er dog baseret på specifikke testparametre, og individuelle erfaringer kan variere. Vi anbefaler, at du udforsker hvert AI-værktøj for at bestemme, hvilket der passer bedst til dine unikke behov.

Sociale Hashtags

#AIImageGeneration #DALLEvsGemini #StableDiffusionAI #AIArtBattle #AIComparison #ImageGenerationTech #AIImageCreators #CreativeAI

View All

Testimonials: Hear It Straight From Our Customers

Our development processes delivers dynamic solutions to tackle business challenges, optimize costs, and drive digital transformation. Expert-backed solutions enhance client retention and online presence, with proven success stories highlighting real-world problem-solving through innovative applications. Our esteemed clients just experienced it.