Et bilde verdt tusen ord er et ordtak som gjelder også i dag. Komplekse og flere ideer kan skildres i ett enkelt bilde. Trenden skifter fra tekster til bilder og bevegelig grafikk. Forskere sier det bildene er veldig kraftige og de fleste velger bilder for å forstå budskapet fordi de er inngangen til historier – de tilfører mening, og de berører bemerkelsesverdig folks psykologiske tilstand, hukommelse og følelser. Mens vi har større ML-er og LLM-er, har populariteten til bildegenererende AI-verktøy skutt i været i nyere tid.

Midjoruney, Dall-E, Google Gemini og Stable Diffusion (Stability) er noen få bildegenererende programvareverktøy som er populære over hele Internett. Mens Midjourney har ledet løpet så langt, tenkte vi at det er et alvorlig behov for å sammenligne resten av AI-bildegenereringsverktøyene – Dall -E vs. Google Gemini, vs. Stable Diffusion.

La oss ha en rask introduksjon før vi sammenligner programvareverktøy for AI-bildegenerering.

Hva er DALL–E?

DALL–E er en AI-modell som genererer bilder eller illustrasjoner basert på tekstbeskrivelser brukere legger inn som en melding. For å bygge et bilde i tråd med teksten, oversetter det milliarder av tekstbiter fra hele Internett til et abstrakt. Denne lagrede informasjonen brukes deretter som et referanseverktøy for å beskrive informasjon og til slutt for å lage prompt-orienterte bilder. DALL–E-modellen er tilgjengelig via ChatGPT.

Hva er Google Gemini?

Google introduserte AI-bildegeneratorverktøyet gjennom Gemini i 2024. Gemini er Googles hovedpakke med AI-modeller, og den var utstyrt for å produsere bilder i henhold til brukernes oppfordringer. Selv om Google Gemini er mer i nyhetene på grunn av sine historiske unøyaktigheter og tvilsomme svar, er AI-bildegeneratoren Gemini kjent for å gi illustrasjoner/bilder som er veldig nær brukerens fantasi.

Hva er stabil diffusjon?

Stable Diffusion er av Stability AI, en ledende åpen kildekode generativ AI (GenAI) selskap som har som mål å levere banebrytende og åpen tilgang AI-modeller som krever minimale ressurser for å bygge bilder, språk, lyd og kode. Stabil diffusjon er den nyeste og mest avanserte T2I (tekst-til-bilde) som omfatter 2 milliarder parametere.

Verktøy for generering av AI-bilder: stigende popularitet og innvirkning

Kunstig intelligens har gjort bildegenererende verktøy mer effektive og nøyaktige i forhold til ledetekstene. AI-bildegeneratorer er umåtelig populære blant markedsførere og innholdsskapere for å øke innholdet med iøynefallende og engasjerende grafikk.

Statistikk viser at nettopp under 40 % av markedsførerne bruker Generativ AI å lage bilder for innlegg i sosiale medier. Videre utnytter 36 % av dem kraften til AI-bildegeneratorer for å bygge nettstedsbilder.

Vil du vite hvordan ChatGPT kan gjøre underverker for virksomheten din og øke veksten og effektiviteten?

Her er din eksklusive lesning

DALL–E vs Google Gemini vs stabil diffusjon – Sammenligning av AI-bildegeneratorer

For å sammenligne bildegenerator AI-verktøy bestemte vi oss for å ha en felles melding om å kjøre på disse tre forskjellige plattformene. Hensikten var å forstå hvordan disse AI-bildegeneratorverktøyene forfølger tekstene og bruker deres algoritmer og modeller for å bygge bilder. Vi vurderte tre generelle parametere for å evaluere AI-bildeverktøyene –

  1. Hvor godt forstår AI-generatorverktøyet ledeteksten med detaljer?
  2. Hvor lang responstid tar det å generere tekst-til-bilde-resultater?
  3. Hvordan ble hovedbildet skapt og hva ble satt i omgivelsene og bakgrunnen?

Eksperimenter med prompt #1 for generering av AI-bilder

Lag et bilde av en utsmykket nøkkel fra viktoriansk tid som ligger på en forvitret treoverflate, med intrikate, steampunk-inspirerte tannhjul og mekanismer som er synlige i det gjennomsiktige glassskaftet.

DALL – E (gjennom ChatGPT)

Google Gemini

Stabil diffusjon

Responstid: 6-9 sekunder
Responstid: 7-9 sekunder
Responstid: 4-6 sekunder
Forsøk: 1
Forsøk: 1
Forsøk: 1

AI-bildegeneratorplattform

Parametrene

Hvor godt forstår AI-generatorverktøyet ledeteksten og detaljerer den?

BLIND – E (ChatGPT)

DALL -E forsto oppfordringen slik vi ønsket. Det skapte nøyaktig det vi hadde tenkt på. AI-bildegeneratoren forsto instruksjonene ganske godt: inspirerte gir og mekanismer som er synlige i det gjennomsiktige glassskaftet. Faktisk skapte det også en gjennomsiktig mekanisme i skaftet sammen med hodet. DALL-E skapte perfekt en nøkkel fra viktoriansk tid. AI-bildegeneratoren laget også en iøynefallende forvitret treoverflate. Den kobberaktige fargen passet perfekt med ledeteksten og bildet vi hadde skapt i tankene våre. Totalt sett var det et detaljert bilde med skarpe trekk og en kongelig utforming av nøkkelen.

Det vi elsket

  • Naturlig lys skapt på glasset
  • Veden
  • Halvmånen av glasset på skyggesiden

Google Gemini

I motsetning til DALL–E og Stable Diffusion, ga Google Gemini alltid flere alternativer. Hvert bilde vil ha en litt annen tilnærming, noe som betyr at brukeren kan ha forskjellige valg fra ledeteksten. I dette tilfellet var imidlertid ikke de tre tastene imponerende, da de savnet en vesentlig del av den “gjennomsiktige mekanismen” i hodet. AI-bildeskaperen produserte én nøkkel som passet til vår beskrivelse; men vi fant det ikke imponerende. Her var det kun én nøkkel med nøkkelhodeglasset som var opp til merket. Vinkelen på nøkkelen var slik at detaljene i den gjennomsiktige mekanismen ikke var så synlige. Totalt sett gjorde ikke AI-bildegeneratoren en god jobb for oss for dette.

Stabil diffusjon

Stabil diffusjon gjorde det hele perfekt, slik vi ønsket. Den hadde en gjennomsiktig mekanisme og glassskaft. Nøkkelen så kongelig ut, men vi ventet glassdekselet i nøkkelens hode som den savnet. Totalt sett var detaljeringen og det promptsentrerte bildet ganske tilfredsstillende. Stall Diffusion gjorde en fantastisk jobb. Bildet hadde en større nøkkel med alle detaljene synlige. Selv om den gjennomsiktige mekanismen ikke var så imponerende, forsto AI-generatorverktøyet ledeteksten og produserte den relevante illustrasjonen. Likevel observerte vi at den savnet en stor del – glassdekselet på nøkkelhodet.

Hva vi elsket:

  • Nærbildet av nøkkelen
  • Det viktorianske designet

Poeng teller:

  • DALL – E: 1
  • Google Gemini: 0
  • Stabil diffusjon: 0,5

Nysgjerrig på transformasjonseffekten AI har på næringslivet?

Les denne siste AI-statistikken


Hvor lang responstid tar det å generere tekst-til-bilde-resultater?

AI-bildegenereringsverktøyet, DALL-E, tok mellom 6-8 sekunder. På den annen side tok Google Gemini bilde-AI-genererende programvare mellom 7 og 9 sekunder å forstå og lage bildet. Til slutt var Stable Diffusion ganske rask ettersom dette bildegenererende AI-verktøyet tok rundt 5 til 7 sekunder å lage det prompte-galopperende bildet.

Poeng teller:

  • FRA-E: 1
  • Google Gemini: 1
  • Stabil diffusjon: 1

Hvordan ble hovedbildet skapt og hva ble satt i omgivelsene og bakgrunnen?

DALL -E

Hovedbildet som ble opprettet var i henhold til ledeteksten. Det var ikke noe ekstra som betyr at AI-bildegeneratorprogramvaren fulgte instruksjonene strengt uten å legge til noe som ikke ble spurt.

Google Gemini

Google Gemini AI-generator ga noen få alternativer for den samme forespørselen, og det gjorde dette AI-bildegenererende verktøyet litt mer omfattende og helhetlig. Mens tre bilder skapte et tre, ble ett bilde presentert med naturlig gress som fanget øynene våre. Det så beroligende ut, men da ba vi ikke om det.

Stabil diffusjon

I likhet med DALL-E gjorde Stable Diffusion en fantastisk jobb ved å lage hovedbildet og omgivelsene i henhold til ledeteksten. Treverket var akkurat slik vi ønsket. Det tilførte ikke noe ekstra som vi ikke ba om.

Antall poeng:

  • FRA-E: 1
  • Google Gemini: 1
  • Stabil diffusjon: 1

Eksperimenter med ledetekst #2

Kinematisk filmstillbilde, nærbilde, foto av en dragekriger i gullskala i full platerustning, i en hyperrealistisk fantasistil.

DALL – E (gjennom ChatGPT)

Google Gemini

Stabil diffusjon

Responstid: 6-9 sekunder
Responstid: 8-10 sekunder
Responstid: 5-8 sekunder
Forsøk: 1
Forsøk: 1
Forsøk: 1

AI-bilde

Parametrene

Hvor godt forstår AI-generatorverktøyet ledeteksten?

DALL – E

ChatGPT gjorde en fantastisk jobb ved å vise oss nærbildet av dragekrigeren. Fargene som ble brukt var levende og den gullskalerte skapningen så imponerende ut. Piggene på kroppen og rustningen var detaljerte og skarpe. Ikke desto mindre, det vi observerte var at denne AI-bildegeneratoren tok spørsmålet vårt ganske bokstavelig! «Filmstillende film»-frasen trigget DALL-E til å lage klappbrettet og vise det på bildet. Selv om det er imponerende at AI-motoren tar forespørsler på alvor, forventet vi at den skulle bli forstått som en kinoscene i stedet for å fokusere på BTS!

Google Gemini

Google Gemini endret ganske enkelt rustningsdrakten med forskjellige design for tre av resultatene. Hver av dem hadde en annen inn-/ut-tilnærming. Den gullskalerte dragekrigerens ansikt forble nesten likt. Det fjerde bildet viste en større positur av krigeren med flere elementer i bakgrunnen. Alle bildene så litt kjedelige ut sammenlignet med resten av verktøyene.

Stabil diffusjon

Et enkelt skudd med en detaljert dragekriger ble vist. Imponerende nok ble dragehodet blandet med sallet og bevor for å se mer aggressivt ut. Den blå diamanten passet ganske bra med en gullbelagt stenge og cuirass. Den blå krigerkappen så attraktiv ut på kroppen.

Hva vi elsket:

  • Nærbildet av krigeren
  • Diamanter
  • Kriger kappe

Antall poeng:

  • DALL – E: 0,5
  • Google Gemini: 0
  • Stabil diffusjon: 1

Hvor lang responstid tar det å generere tekst-til-bilde-resultater?

AI-bildegeneratoren DALL-E tok mellom 6-9 sekunder. På den annen side tok Google Gemini bilde-AI-genererende programvare mellom 8 og 10 sekunder å forstå og lage bildet. Til slutt var Stable Diffusion ganske rask ettersom dette bildegenererende AI-verktøyet tok rundt 5 til 8 sekunder å lage det prompte-galopperende bildet.

Poeng teller:

  • FRA-E: 1
  • Google Gemini: 0
  • Stabil diffusjon: 1

Hvordan ble hovedbildet skapt og hva ble satt i omgivelsene og bakgrunnen?

DALL -E

Hovedbildet som ble opprettet var i henhold til ledeteksten. Et bemerkelsesverdig tillegg var imidlertid klappbrettet da AI-motoren tok spørsmålet ganske alvorlig. Uttrykket “filmatisk” ble tatt for bokstavelig, og AI-bildegeneratoren mente å inkludere bak kulissene.

Google Gemini

Google Gemini AI-generator viste fire alternativer for samme forespørsel, og det gjorde dette AI-bildegenererende verktøyet litt mer omfattende og helhetlig. Likevel var tre av disse bildene nesten like med mindre designendringer i rustningspakken. Det fjerde bildet var et utzoomet bilde av krigeren med en planet. Verktøyet prøvde å vise slagmarken, men det så mer ut som en utenomjordisk region.

Stabil diffusjon

Stable Diffusion var så langt den beste i å lage den gullskalerte dragekrigeren med et detaljert nærbilde. Bakgrunnen viste et slott som oppfylte formålet vårt om å ha en krigsaktig stil. Totalt sett var dette bildet noe vi ønsket gjennom ledeteksten.

Antall poeng:

  • FRA-E: 1
  • Google Gemini: 0
  • Stabil diffusjon: 1

Google Gemini, Copilot eller ChatGPT? Dykk ned i det ultimate AI-oppgjøret og se hvilken som regjerer for dine behov!

Finn vinneren nå!

Eksperimenter med ledetekst #3

Lag levende, eksplosive virvler av oransje, gul, rosa og blå maling faller fra taket til et polert grått gulv i et kunstgalleri, kontraster med monokromatiske abstrakte malerier på hvite vegger og skaper en dynamisk, energisk scene under skarp, fokusert belysning.

DALL – E (gjennom ChatGPT)

Google Gemini

Stabil diffusjon

Responstid: 4-6 sekunder
Responstid: 6-8 sekunder
Responstid: 5-8 sekunder
Forsøk: 1
Forsøk: 1
Forsøk: 1

AI-bilde

Parametrene

Hvor godt forstår AI-generatorverktøyet ledeteksten?

Google Gemini

For denne gangen gikk Google Gemini litt avansert og skapte fire forskjellige alternativer i stedet for å presentere lignende bilder med trivielle endringer som tidligere. Imidlertid savnet AI-bildegeneratoren forespørselens instruksjoner i to av bildene. Verktøyet viste et rett fall av oransje, rosa og gul maling, men savnet to viktige ting: virvel og fargen blå. Imidlertid inkluderte resten av de to bildene fargene (inkludert blått) nevnt i ledeteksten. Men igjen, mens den blå fargen ble inkludert i to bilder, kunne ikke verktøyet fokusere på å ha monokromatiske abstrakte malerier. Samlet sett savnet hvert av bildene som ble opprettet en eller annen ting fra ledeteksten. Bildet øverst til høyre viste ikke gulvet og dybden på bildet; i stedet virket det som om fargene sprutet ut av ingensteds.

DALL-E (ChatGPT)

Dette verktøyet skapte det mest imponerende bildet ut av ledeteksten. Vakre virvler av alle fargene nevnt i ledeteksten ble laget. Ikke nok med det, AI-bildegeneratoren vant våre hjerter ved å vise gulvet med kuleformede fargekuler. Verktøyet klarte å vise monokromatiske abstrakte malerier på de hvite veggene. Dette var det eneste verktøyet som inkluderte skarp og fokusert belysning i bildet som instruert i ledeteksten.

Stabil diffusjon

Stabil diffusjon var rask til å forstå spørsmålet, men den klarte ikke å inkludere blå maling med samme vekt som resten av fargene. Det var bare en brøkdel av den blå fargen. AI-bildegeneratoren savnet også det monokromatiske maleriet, men klarte å vise det grå gulvet. Det klarte heller ikke å skape lys og fokusert belysning som var en del av oppfordringen.

Antall poeng:

  • DALL – E: 1
  • Google Gemini: 0
  • Stabil diffusjon: 0,5

Hvor lang responstid tar det å generere tekst-til-bilde-resultater?

Google Gemini opprettet fire alternativer og tok rundt 4-6 sekunder i første forsøk. På samme måte var ett forsøk nok til at DALL-E AI-bildegeneratoren kunne lage et bilde på 6-8 sekunder. Til slutt tok stabil diffusjon rundt 5-8 sekunder å lage bildet ut av ledeteksten i første forsøk.

Poeng teller:

  • FRA-E: 1
  • Google Gemini: 1
  • Stabil diffusjon: 1

Hvordan ble hovedbildet skapt og hva ble satt i omgivelsene og bakgrunnen?

Google Gemini

Verktøyet mislyktes ikke bare i å gå bokstavelig talt etter ledeteksten, men skapte også bakgrunnen med sin egen. Den fokuserte belysningen ble vist på maleriene på veggen, mens ledeteksten nevnte at den skulle være på malingsvirvlene. Likeledes savnet de to bildene under maleriene på veggen fullstendig. Bare det første bildet (øvre venstre hjørne) kom litt nær ledeteksten, men så klarte det ikke å skape attraktive scener og monokromatiske malerier.

DALL-E

Dette var den mest imponerende bildegenerasjonen fra ledeteksten. ChatGPT skapte forbløffende virvler som kom fra toppen og slo ned på det grå gulvet. Det vi elsket var vinduene som viste naturlig omgivelseslys med fokus på høsten. I tillegg klarte AI-bildegeneratoren å inkludere monokromatiske malerier på de hvite veggene.

Hva vi elsket:

  1. Virvler
  2. De generelle bildedetaljene
  3. Vinduene og omgivende lys
  4. De fargede kulene på gulvet
  5. Dybdeskarpheten med malerier
  6. Taket

Stabil diffusjon

Andelen av virvlene fra taket og resten av rommet stemte ikke, og derfor så det altfor kunstig ut. Verktøyet klarte heller ikke å lage et typisk monokromatisk maleri fordi begge maleriene har spor av andre farger/nyanser. Verktøyet klarte å få det grå gulvet og taket, men totalt sett samsvarte ikke bildet med forventningene våre, selv om det var bedre enn Google Gemini.

Antall poeng:

  • FRA-E: 1
  • Google Gemini: 0
  • Stabil diffusjon: 0,5

Eksperimenter med ledetekst #4

I skyggen av den siste solen hadde en fisker sovnet, og han hadde en fure langs ansiktet, som et slags smil.

DALL – E (gjennom ChatGPT)

Google Gemini

Stabil diffusjon

Responstid: 4-6 sekunder
Responstid: 8-10 sekunder
Responstid: 5-7 sekunder
Forsøk: 1
Forsøk: 1
Forsøk: 1

AI-bilde

Parametrene

Hvor godt forstår AI-generatorverktøyet ledeteksten?

Google Gemini

Vi prøvde med svært korte og enkle instruksjoner til tross for at Google Gemini ikke klarte å analysere gjennom instruksjonene og genererte ganske irrelevante bilder. Alle bildene viste ikke fiskerens ansikt, og derfor var det ingen mulighet til å vurdere furen og smilet. To av bildene var mer som en silhuett uten detaljer. Det fjerde bildet var helt utenfor sporet og viser en fisker som sover i båten uten spor av den siste solen. Et av bildene fokuserte mer på kanoen og havet med en bitteliten fisker.

DALL-E

ChatGPT valgte å vise oss et nærbilde av en fisker. Verktøyet klarte den siste solen og mannen sov fredelig. Furen som ble skapt langs ansiktet hans var imponerende og et lite smil skapt ut av det var bemerkelsesverdig.

Hva vi elsket:

  1. Den siste solen
  2. Solen stråler
  3. Nyansene og skyggene på fiskeren
  4. Stoffet og hatten til mannen

Stabil diffusjon

Stable Diffusion gjorde en mye bedre jobb enn Google Gemini; det var imidlertid ingen samsvar med bildet laget av DALL-E AI-bildegenereringsverktøyet. Bildet viste en fisker som lå i kanoen sin og det var den siste solen i horisonten. Bildet viser at han seiler midt i havet. På grunn av det silhuettaktige bildet var imidlertid ikke furen og smilet som ble skapt synlig.

Antall poeng:

  • FRA-E: 1
  • Google Gemini: 0
  • Stabil diffusjon: 0

Hvor lang responstid tar det å generere tekst-til-bilde-resultater?

DALL-E ChatGPT brukte 4-6 sekunder på å lage det beste bildet som stemte overens med ledeteksten i ett forsøk. Stabil diffusjon brukte 5-7 sekunder på å forstå ledeteksten og skape bildet av en ikke fullt så detaljert fisker. Google Gemini tok ikke bare 8-10 sekunder (den lengste tiden), men skuffet også over resultatene.

Poeng teller:

  • FRA-E: 1
  • Google Gemini: 0
  • Stabil diffusjon: 0

Revolusjoner utviklingen av nett- og mobilapper med banebrytende, fremtidsklar AI-ekspertise.

Partner med vårt ekspertteam for AI-utvikling


Hvordan ble hovedbildet skapt og hva ble satt i omgivelsene og bakgrunnen?

Google Gemini

Google Gemini skapte en kjedelig bakgrunn uten detaljer. Det mest overraskende var det direkte hjørnebildet der solnedgangen ble utelatt og erstattet av en eventyrscene av et hus, en kano, en fisker og blomster i forgården. Resten av bildene hadde hav i bakgrunnen med en slags lys fra solnedgangen, men ingen av dem var imponerende. Bildene hadde mer mørke hvor detaljering av fiskeren ikke var mulig.

DALL-E

Dette var den mest imponerende AI-bildegenerasjonen fra ledeteksten. ChatGPT fulgte instruksjonene til lengden og bredden. Et skarpt og tydelig bilde av en fisker med fure var betydelig. Bakgrunnen viste solnedgangen med nok omgivelseslys til å fremheve silhuetten av kano og fiskegarn. Omgivelseslyset som ble skapt i ansiktet til fiskeren var også imponerende, da det tydelig definerte brettene i ansiktet og det fine stoffet i mannens skjorte.

Hva vi elsket:

  1. Nærbilde av fiskeren
  2. Den generelle teften av skumring
  3. Skarpe trekk i ansiktet
  4. Furen og smilet den laget
  5. Skjortens stoff og detaljer
  6. Uttrykket i ansiktet

Stabil diffusjon

Stabil diffusjon ga en fin himmel med solnedgangen i horisonten. Vannet viste en refleksjon av sollyset. Størrelsen på fiskeren og kanoen hans kunne imidlertid vært litt bedre for å se naturlig ut. Silhuetteffektene hindret hensikten med ledeteksten der en fure og et smil skapt ut av den manglet fullstendig. Verktøyet savnet ikke å vise en fiskestang som dropper ut av kanoen. Alt i alt var bildet fint, men det bommet på formålet.

Antall poeng:

  • FRA-E: 1
  • Google Gemini: 0
  • Stabil diffusjon: 0,5

Eksperimenter med ledetekst #5

Anime-jente, jenteridder, stump smell, hime-cut, spisse ører, perleopal, veldig estetisk, mesterverk, beste kvalitet, hyperdetaljert, ultradetaljert, UHD, perfekt anatomi, sverd, blendende, gjennomsiktig, vinkende sverd, polert sølv , stålrustning, skinnende rustning, blendende rustning, detaljert illustrasjon, offisielt kunstverk, tapet, offisiell kunst, ekstremt detaljerte øyne og ansikt, vakre detaljerte øyne, blått øye.

DALL – E (gjennom ChatGPT)

Google Gemini

Stabil diffusjon

Responstid: 6-8 sekunder
Responstid: 6-8 sekunder
Responstid: 4-6 sekunder
Forsøk: 1
Forsøk: 1
Forsøk: 1

AI-bilde

Parametrene

Hvor godt forstår AI-generatorverktøyet ledeteksten?

Stabil diffusjon

Stall Diffusion produserte pent jenteridderen med en detaljert oversikt over nesten alt som ledeteksten nevnte, for eksempel skarpe ører, ultradetaljert, sverd, stål og skinnende rustning og blå øyne. Det ser ut til at AI-bildegeneratorverktøyet ikke har gått glipp av en eneste instruksjon. Vi ba faktisk om for mye og prøvde å forvirre AI-motoren ved å spørre om det samme på forskjellige måter og avatarer. Stable Diffusion gjorde imidlertid jobben sin. Skuddet den produserte var et nærbilde av en blond jente som så ut som en selvsikker ridder.

Google Gemini

Google Gemini produserte først bare to bilder, i motsetning til modellen som gir oss fire alternativer. Den stoppet etter å ha generert to bilder og ba oss om å ‘Generere mer’. Men hvis vi snakker om de to første AI-genererte bildene, viser de jenteridderen forfra og i en portrettstilling. Ett bilde viste sverdet (som ikke så ut som man trodde, det var mer som et Star Wars-fyrtårn), og det andre bildet savnet det. Overraskende nok viste AI-bildegeneratorverktøyet Google Gemini ett bilde der jenta hadde horn. Begge bildene savnet spisse ører. Det første forsøket kunne ikke produsere alle fire bildene. I det andre forsøket ga Google Gemini opp og ga en melding: Jeg kan ikke generere disse bildene. Skriv inn en ny melding for å generere flere bilder.

DALL-E (ChatGPT)

Denne modellen av AI-bildegenerator produserte et bilde som var rett fra ledeteksten. Til vår overraskelse viste den imidlertid bildet vertikalt. Når det ble korrigert lokalt, var bildet i liggende modus. Bildet viste en jenteridder, men det var mer en barnslig karakter. Det produserte et skinnende sverd. DALL-E ser ut til å elske diamanter, og det er det som også ble vist på dette bildet. Jenta hadde på seg rustning og hadde spisse ører i henhold til oppfordringen. Hun var pent kledd med en blomst i kronen.

Antall poeng:

  • DALL-E: 0,5
  • Google Gemini: 0
  • Stabil diffusjon: 1

Hvor lang responstid tar det å generere tekst-til-bilde-resultater?

DALL-E for sitt ChatGPT-arbeid tok 4-6 sekunder å produsere et landskapsbilde av jenteridderen, mens Google Gemini tok to forsøk (over 10 sekunder totalt) for å produsere to bilder, og det var heller ikke opp til målet. Stabil diffusjon tok 6-8 sekunder å produsere et nesten perfekt bilde fra ledeteksten.

Antall poeng:

  • FRA-E: 1
  • Google Gemini: 0
  • Stabil diffusjon: 1

Hvordan ble hovedbildet skapt og hva ble satt i omgivelsene og bakgrunnen?

Stabil diffusjon

Hovedbildet laget av det AI-bildegenererende verktøyet Stable Diffusion var opp til merket da det viste alt i detalj og i henhold til ledeteksten. Bakgrunnen var en vakker himmel med skyer som passet med hovedpersonens nyanser. Skyggen og refleksjonen av himmelen og sollyset var synlig på jenteridderens rustning.

Google Gemini

Det var en vanlig bakgrunn uten detaljer for jenteridderen. Sverdet så mer ut som et laserfyr og karakteren så mer ut som et beist med horn på hodet. Verktøyet savnet også skarpe ører og attraktive blå øyne. Det var ingenting som tiltrakk oss i bildet.

DALL-E

Detaljeringen i dette bildet var dramatisk og ikke så ekte som vi fant i Stable Diffusion. Det var mer tegneserieaktig i DALL-Es tilfelle. Jenta så kinesisk og ung ut i stedet for en ridder med frimodighet. Bildet viste grafiske diamanter som virket mer som linser noen steder. Vi observerte også at det var et flisbilde der du kan finne ytterligere to kopier av hovedpersonene i bakgrunnen. Vi er ikke sikre på hva det betyr fordi det ikke var i ledeteksten.

Antall poeng:

  • DALL-E: 0,5
  • Google Gemini: 0
  • Stabil diffusjon: 1

Totaltall: DALL-E vs Gemini vs stabil diffusjon

Hvis vi ser på antall poeng for alle spørsmålene for alle AI-bildegeneratorene, får vi denne poengsummen:

Spørsmål 1

Spørsmål
DALL–E
Google Gemini
Stabil diffusjon
Spørsmål 1
1
0
0.5
Spørsmål 2
1
1
1
Spørsmål 3
1
1
1
Total
3
2
2.5


Spørsmål 2

Spørsmål
DALL–E
Google Gemini
Stabil diffusjon
Spørsmål 1
0.5
0
1
Spørsmål 2
1
0
1
Spørsmål 3
1
0
1
Total
2.5
0
3


Spørre 3

Spørsmål
DALL–E
Google Gemini
Stabil diffusjon
Spørsmål 1
1
0
0.5
Spørsmål 2
1
1
1
Spørsmål 3
1
0
0.5
Total
3
1
2


Spørre 4

Spørsmål
DALL–E
Google Gemini
Stabil diffusjon
Spørsmål 1
1
0
0
Spørsmål 2
1
0
0
Spørsmål 3
1
0
0.5
Total
3
0
0.5


Spørsmål 5

Spørsmål
DALL–E
Google Gemini
Stabil diffusjon
Spørsmål 1
0.5
0
1
Spørsmål 2
1
0
1
Spørsmål 3
0.5
0
1
Total
2
0
3

De endelige resultatene: DALL-E vs Gemini vs stabil diffusjon

Forespørsler
DALL–E
Google Gemini
Stabil diffusjon
Spørsmål 1
3
2
2.5
Spørsmål 2
2.5
0
3
Spørre 3
3
1
2
Spørre 4
3
0
0.5
Spørsmål 5
2
0
3
Total
13.5
3
11

I vår omfattende testing av AI-bildegenererende verktøy, ble DALL-E, Google Gemini og Stable Diffusion evaluert ved å bruke den samme ledeteksten. DALL-E dukket opp som den beste utøveren, og scoret 13,5 av 15, utmerket seg i bildedetaljering, overholdelse av raske instruksjoner og kvaliteten på bakgrunner.

Stabil diffusjon fulgte med en poengsum på 11, og demonstrerte sterk bildekvalitet og presisjon, men litt mindre konsistent i bakgrunnselementer. Google Gemini, som scoret 3, sto ingen steder i å følge instruksjoner nøyaktig og produsere detaljerte bilder.

Kjennelse

DALL-E står ut som det mest pålitelige verktøyet for å generere detaljerte bilder av høy kvalitet som stemmer godt overens med gitte spørsmål. Våre funn er imidlertid basert på spesifikke testparametere, og individuelle erfaringer kan variere. Vi anbefaler å utforske hvert AI-verktøy for å finne ut hvilket som best passer dine unike behov.

Sosiale Hashtags

#AIImageGeneration #DALLEvsGemini #StableDiffusionAI #AIArtBattle #AIComparison #ImageGenerationTech #AIImageCreators #CreativeAI