Een beeld zegt meer dan duizend woorden is een adagium dat zelfs vandaag de dag nog van toepassing is. Complexe en meervoudige ideeën kunnen in één beeld worden weergegeven. De trend verschuift van teksten naar afbeeldingen en bewegingsgraphics. Onderzoekers zeggen dat beelden zijn erg krachtig en de meesten kiezen afbeeldingen om de boodschap te begrijpen omdat ze het toegangspunt zijn tot verhalen – ze voegen betekenis toe en ze raken opmerkelijk de psychologische staat, het geheugen en de emoties van mensen. Hoewel we grotere ML’s en LLM’s hebben, is de populariteit van AI-tools voor het genereren van afbeeldingen de laatste tijd enorm toegenomen.
Midjoruney, Dall-E, Google Gemini en Stable Diffusion (Stability) zijn een paar populaire softwaretools voor het genereren van afbeeldingen op internet. Hoewel Midjourney tot nu toe de race heeft geleid, vonden we dat er een grote behoefte is om de rest van de AI-tools voor het genereren van afbeeldingen te vergelijken – Dall-E versus Google Gemini versus Stable Diffusion.
Laten we een korte introductie geven voordat we AI-tools voor het genereren van afbeeldingen vergelijken.
Wat is DALL–E?
DALL–E is een AI-model dat afbeeldingen of illustraties genereert op basis van tekstuele beschrijvingen die gebruikers als prompt plaatsen. Om een afbeelding in lijn met de tekst te bouwen, vertaalt het miljarden tekstfragmenten van overal op internet naar een abstract. Deze opgeslagen informatie wordt vervolgens gebruikt als referentietool om informatie te beschrijven en uiteindelijk om prompt-georiënteerde afbeeldingen te maken. Het DALL–E-model is beschikbaar via ChatGPT.
Wat is Google Gemini?
Google introduceerde de AI-afbeeldingsgeneratortool via Gemini in 2024. Gemini is Google’s belangrijkste reeks AI-modellen en was uitgerust om afbeeldingen te produceren op basis van de prompts van gebruikers. Hoewel Google Gemini meer in het nieuws is vanwege de historische onnauwkeurigheden en twijfelachtige reacties, staat de AI-afbeeldingsgenerator Gemini bekend om het leveren van illustraties/afbeeldingen die heel dicht bij de verbeelding van de gebruiker liggen.
Wat is stabiele diffusie?
Stable Diffusion is van Stability AI, een toonaangevende open-source generatieve AI (GenAI) bedrijf dat streeft naar baanbrekende en open-access AI-modellen die minimale middelen vereisen om afbeeldingen, taal, audio en code te bouwen. Stable Diffusion is de nieuwste en meest geavanceerde T2I (Text-to-Image) die 2 miljard parameters omvat.
AI-beeldgeneratietools: de toenemende populariteit en impact
Kunstmatige intelligentie heeft beeldgenererende tools efficiënter en nauwkeuriger gemaakt voor de prompts. AI-beeldgeneratoren zijn immens populair onder marketeers en contentmakers om hun content te boosten met opvallende en boeiende graphics.
Statistieken laten zien dat slechts minder dan 40% van de marketeers gebruikt generatieve AI om afbeeldingen te maken voor berichten op sociale media. Bovendien gebruikt 36% van hen de kracht van AI-afbeeldingsgeneratoren om website-afbeeldingen te maken.
Wilt u weten hoe ChatGPT wonderen kan doen voor uw bedrijf en de groei en efficiëntie ervan kan vergroten?
DALL–E vs Google Gemini vs Stable Diffusion – Vergelijking van AI-beeldgeneratoren
Om AI-tools voor beeldgeneratoren te vergelijken, besloten we om een gemeenschappelijke prompt te hebben om op deze drie verschillende platforms te draaien. Het doel was om te begrijpen hoe deze AI-beeldgeneratortools de teksten nastreven en hun algoritmen en modellen gebruiken om afbeeldingen te bouwen. We overwogen drie algemene parameters om de AI-beeldtools te evalueren:
- Hoe goed begrijpt de AI-generator de prompt met details?
- Hoeveel reactietijd kost het om tekst-naar-afbeeldingresultaten te genereren?
- Hoe is de hoofdafbeelding gemaakt en wat is er in de omgeving en op de achtergrond geplaatst?
Experimenteer met Prompt #1 voor AI-afbeeldinggeneratie
Maak een afbeelding van een sierlijke sleutel uit het Victoriaanse tijdperk die op een verweerd houten oppervlak ligt, met ingewikkelde, door steampunk geïnspireerde tandwielen en mechanismen die zichtbaar zijn in de transparante, glazen schacht.
DALL – E (via ChatGPT) | Google Tweelingen | Stabiele diffusie |
Reactietijd: 6-9 seconden | Reactietijd: 7-9 seconden | Reactietijd: 4-6 seconden |
Poging: 1 | Poging: 1 | Poging: 1 |
De parameters
Hoe goed begrijpt de AI-generator de opdracht en hoe gedetailleerd is deze?
DALL – E (ChatGPT)
DALL-E begreep de prompt op de manier waarop wij het wilden. Het creëerde precies wat we hadden bedacht. De AI-imagegenerator begreep de instructies heel goed: geïnspireerde tandwielen en mechanismen die zichtbaar waren in de transparante, glazen schacht. Het creëerde zelfs een transparant mechanisme in de schacht samen met de kop.
DALL-E creëerde perfect een sleutel uit het Victoriaanse tijdperk. De AI-imagegenerator creëerde ook een opvallend verweerd houten oppervlak. De koperachtige kleur paste perfect bij de prompt en het beeld dat we in gedachten hadden. Over het geheel genomen was het een gedetailleerd beeld met scherpe kenmerken en een koninklijk ontwerp van de sleutel.
Wat we leuk vonden
- Natuurlijk licht gecreëerd op het glas
- Het hout
- De halve maan van het glas aan de schaduwzijde
Google Tweelingen
In tegenstelling tot DALL–E en Stable Diffusion bood Google Gemini altijd meerdere opties. Elke afbeelding had een iets andere benadering, wat betekent dat de gebruiker verschillende keuzes kan maken uit de prompt. In dit geval waren de drie toetsen echter niet indrukwekkend, omdat ze een essentieel onderdeel van het ‘transparante mechanisme’ in de kop misten. De AI-afbeeldingsmaker produceerde één toets die aan onze beschrijving voldeed; wij vonden hem echter niet indrukwekkend. Hier was slechts één toets met het glazen sleutelhoofd op orde. De hoek van de toets was zodanig dat de details in het transparante mechanisme niet zo goed zichtbaar waren. Over het algemeen deed de AI-afbeeldingsgenerator hier geen goed werk voor ons.
Stabiele diffusie
Stable Diffusion maakte het allemaal perfect, zoals we wilden. Het had een transparant mechanisme en een glazen schacht. De sleutel zag er koninklijk uit, maar we verwachtten de glazen afdekking in de kop van de sleutel, die hij miste. Over het algemeen waren de details en de prompt-gecentreerde afbeelding behoorlijk bevredigend. Stable Diffusion deed het geweldig. De afbeelding had een grotere sleutel met alle details zichtbaar. Hoewel het transparante mechanisme niet zo indrukwekkend was, begreep de AI-generatortool de prompt wel en produceerde de relevante illustratie. Niettemin merkten we op dat er een belangrijk onderdeel ontbrak: de glazen afdekking op de kop van de sleutel.
Wat we leuk vonden:
- De close-up van de sleutel
- Het Victoriaanse ontwerp
Puntentelling:
- DALL – E: 1
- Google Tweelingen: 0
- Stabiele diffusie: 0,5
Bent u benieuwd naar de transformerende impact die AI heeft op het bedrijfsleven?
Hoeveel reactietijd kost het om tekst-naar-afbeeldingresultaten te genereren?
De AI-image generation tool, DALL-E, had tussen de 6 en 8 seconden nodig. Aan de andere kant had Google Gemini image AI-genererende software tussen de 7 en 9 seconden nodig om de afbeelding te begrijpen en te creëren. Ten slotte was Stable Diffusion vrij snel, aangezien deze image-genererende AI-tool ongeveer 5 tot 7 seconden nodig had om de prompt-cantered afbeelding te maken.
Puntentelling:
- VAN-E: 1
- Google Tweelingen: 1
- Stabiele diffusie: 1
Hoe is de hoofdafbeelding gemaakt en wat is er in de omgeving en op de achtergrond geplaatst?
DALL-E
De hoofdafbeelding die werd gemaakt, was volgens de prompt. Er was niets extra, wat betekent dat de AI-afbeeldingsgeneratorsoftware de instructies strikt volgde zonder iets toe te voegen dat niet was gevraagd.
Google Tweelingen
Google Gemini AI generator bood een paar opties voor dezelfde prompt en dat maakte deze AI-afbeeldingsgenererende tool een beetje uitgebreider en holistischer. Terwijl drie afbeeldingen een bos creëerden, werd er één afbeelding gepresenteerd met natuurlijk gras dat onze aandacht trok. Het zag er rustgevend uit, maar toen vroegen we er niet om.
Stabiele diffusie
Net als DALL-E heeft Stable Diffusion geweldig werk geleverd door de hoofdafbeelding en omgeving te creëren volgens de prompt. Het hout was precies zoals we wilden. Het voegde niets extra’s toe waar we niet om hadden gevraagd.
Puntentelling:
- VAN-E: 1
- Google Tweelingen: 1
- Stabiele diffusie: 1
Experimenteer met opdracht #2
Cinematografische filmstill, close-up, foto van een drakenkrijger met gouden schubben in een volledig pantser, in een hyperrealistische fantasystijl.
DALL – E (via ChatGPT) | Google Tweelingen | Stabiele diffusie |
Reactietijd: 6-9 seconden | Reactietijd: 8-10 seconden | Reactietijd: 5-8 seconden |
Poging: 1 | Poging: 1 | Poging: 1 |
De parameters
Hoe goed begrijpt de AI-generator de prompt?
DALL-E
De ChatGPT deed fantastisch werk door ons de close-up van de drakenkrijger te laten zien. De gebruikte kleuren waren levendig en het goudgeschubde wezen zag er indrukwekkend uit. De stekels op het lichaam en het pantser waren gedetailleerd en scherp. Wat we echter zagen, was dat deze AI-afbeeldingsgenerator onze prompt heel letterlijk nam! De zin ‘cinematic film still’ triggerde DALL-E om het clapperboard te maken en het in de afbeelding te tonen. Hoewel het indrukwekkend is dat de AI-engine prompts serieus neemt, hadden we verwacht dat het zou worden begrepen als een filmische scène in plaats van dat het zich zou richten op BTS!
Google Tweelingen
Google Gemini veranderde simpelweg het pantserpak met verschillende ontwerpen voor drie van zijn resultaten. Elk had een andere in-/uitzoombenadering. Het gezicht van de goudgeschubde drakenkrijger bleef bijna hetzelfde. De vierde afbeelding toonde een grotere pose van de krijger met meer elementen op de achtergrond. Alle afbeeldingen zagen er een beetje saai uit vergeleken met de rest van de tools.
Stabiele diffusie
Er werd een enkel shot met een gedetailleerde drakenkrijger getoond. Indrukwekkend genoeg werd de kop van de draak gemengd met sallet en bevor om er agressiever uit te zien. De blauwe diamant ging vrij goed samen met een vergulde pauldron en kuras. De blauwe krijgersmantel zag er aantrekkelijk uit op het lichaam.
Wat we leuk vonden:
- De close-up van de krijger
- Diamanten
- Krijgersgewaad
Puntentelling:
- DALL – E: 0,5
- Google Tweelingen: 0
- Stabiele diffusie: 1
Hoeveel reactietijd kost het om tekst-naar-afbeeldingresultaten te genereren?
De AI-imagegenerator DALL-E had tussen de 6 en 9 seconden nodig. Aan de andere kant had de Google Gemini-image-AI-genererende software tussen de 8 en 10 seconden nodig om de afbeelding te begrijpen en te maken. Tot slot was Stable Diffusion vrij snel, aangezien deze image-genererende AI-tool ongeveer 5 tot 8 seconden nodig had om de prompt-cantered image te maken.
Puntentelling:
- VAN-E: 1
- Google Tweelingen: 0
- Stabiele diffusie: 1
Hoe is de hoofdafbeelding gemaakt en wat is er in de omgeving en op de achtergrond geplaatst?
DALL-E
De hoofdafbeelding die werd gemaakt, was volgens de prompt. Een opmerkelijke toevoeging was echter het clapperboard, aangezien de AI-engine de prompt behoorlijk serieus nam. De term ‘cinematic’ werd te letterlijk genomen en de AI-afbeeldingsgenerator dacht eraan om achter de schermen te kijken.
Google Tweelingen
Google Gemini AI-generator toonde vier opties voor dezelfde prompt en dat maakte deze AI-afbeeldingsgenererende tool een beetje uitgebreider en holistischer. Niettemin waren drie van die afbeeldingen bijna hetzelfde met kleine ontwerpwijzigingen in de pantserset. De vierde afbeelding was een uitgezoomde foto van de krijger met een planeet. De tool probeerde het slagveld te tonen, maar het leek meer op een buitenaards gebied.
Stabiele diffusie
Stable Diffusion was tot nu toe het beste in het creëren van de goudgeschubde drakenkrijger met een gedetailleerde close-up. De achtergrond toonde een kasteel dat voldeed aan ons doel om een oorlogsachtige flair te hebben. Over het algemeen was dit beeld iets wat we wilden via de prompt.
Puntentelling:
- VAN-E: 1
- Google Tweelingen: 0
- Stabiele diffusie: 1
Google Gemini, Copilot of ChatGPT? Duik in de ultieme AI-showdown en ontdek welke het beste bij uw behoeften past!
Experimenteer met opdracht #3
Creëer levendige, explosieve wervelingen van oranje, gele, roze en blauwe verf die van het plafond op een gepolijste grijze vloer in een kunstgalerie vallen. Ze contrasteren met monochrome abstracte schilderijen op witte muren en creëren een dynamische, energieke scène onder heldere, gerichte verlichting.
DALL – E (via ChatGPT) | Google Tweelingen | Stabiele diffusie |
Reactietijd: 4-6 seconden | Reactietijd: 6-8 seconden | Reactietijd: 5-8 seconden |
Poging: 1 | Poging: 1 | Poging: 1 |
De parameters
Hoe goed begrijpt de AI-generator de prompt?
Google Tweelingen
Voor deze keer ging Google Gemini een beetje geavanceerd en creëerde vier verschillende opties in plaats van vergelijkbare afbeeldingen met triviale veranderingen te presenteren zoals in het verleden. De AI-afbeeldingsgenerator miste echter de instructies van de prompt in twee van zijn afbeeldingen. De tool toonde een rechte val van oranje, roze en gele verf, maar miste twee essentiële dingen: werveling en de kleur blauw. De rest van de twee afbeeldingen bevatten echter wel de kleuren (inclusief blauw) die in de prompt werden genoemd. Maar nogmaals, terwijl de blauwe kleur in twee afbeeldingen werd opgenomen, kon de tool zich niet richten op het hebben van monochromatische abstracte schilderijen. Over het algemeen miste elk van de gemaakte afbeeldingen iets van de prompt. De afbeelding rechtsboven toonde niet de vloer en de diepte van de afbeelding; in plaats daarvan leek het alsof de kleuren uit het niets lekten.
DALL-E (ChatGPT)
Deze tool creëerde de meest indrukwekkende afbeelding uit de prompt. Prachtige wervelingen van alle kleuren die in de prompt werden genoemd, werden gecreëerd. En niet alleen dat, de AI-afbeeldingsgenerator won ons hart door de vloer te tonen met bolvormige gekleurde ballen. De tool slaagde erin om monochromatische abstracte schilderijen op de witte muren te tonen. Dit was de enige tool die heldere en gerichte verlichting in de afbeelding opnam zoals in de prompt werd aangegeven.
Stabiele diffusie
Stable Diffusion begreep de prompt snel, maar het verzuimde om blauwe verf met eenzelfde gewicht als de rest van de kleuren op te nemen. Er was slechts een fractie van de blauwe kleur. De AI-afbeeldingsgenerator miste ook de monochromatische schildering, maar wist wel de grijze vloer te tonen. Het verzuimde ook om heldere en gerichte verlichting te creëren, wat een onderdeel was van de prompt.
Puntentelling:
- DALL – E: 1
- Google Tweelingen: 0
- Stabiele diffusie: 0,5
Hoeveel reactietijd kost het om tekst-naar-afbeeldingresultaten te genereren?
Google Gemini creëerde vier opties en deed er ongeveer 4-6 seconden over bij de eerste poging. Op dezelfde manier was één poging genoeg voor de DALL-E AI image generator om een image te creëren in 6-8 seconden. Ten slotte deed Stable Diffusion er ongeveer 5-8 seconden over om de image te creëren uit de prompt bij de eerste poging.
Puntentelling:
- VAN-E: 1
- Google Tweelingen: 1
- Stabiele diffusie: 1
Hoe is de hoofdafbeelding gemaakt en wat is er in de omgeving en op de achtergrond geplaatst?
Google Tweelingen
De tool faalde niet alleen in het letterlijk nastreven van de prompt, maar creëerde ook de achtergrond met zijn eigen. De gerichte belichting werd getoond op de schilderijen aan de muur, terwijl de prompt aangaf dat het op de wervelingen van verf moest zijn. Evenzo misten de twee afbeeldingen hieronder de schilderijen aan de muur volledig. Alleen de eerste afbeelding (linkerbovenhoek) kwam een beetje in de buurt van de prompt, maar slaagde er vervolgens niet in om aantrekkelijke scènes en monochrome schilderijen te creëren.
DALL-E
Dit was de meest indrukwekkende beeldgeneratie van de prompt. ChatGPT creëerde verbijsterende wervelingen die van bovenaf kwamen en op de grijze vloer neerstortten. Wat we geweldig vonden, waren de ramen die natuurlijk omgevingslicht lieten zien dat zich op de val concentreerde. Bovendien slaagde de AI-beeldgenerator erin om monochrome schilderijen op de witte muren te plaatsen.
Wat we leuk vonden:
- Wervelingen
- De algehele beelddetails
- De ramen en sfeerverlichting
- De gekleurde ballen op de vloer
- De scherptediepte bij schilderijen
- Het plafond
Stabiele diffusie
De verhouding van de wervelingen van het plafond en de rest van de kamer kwamen niet overeen en het zag er daardoor veel te kunstmatig uit. Ook slaagde de tool er niet in om een typisch monochroom schilderij te maken omdat beide schilderijen een spoor van andere kleuren/tinten bevatten. De tool slaagde erin om de grijze vloer en het plafond te krijgen, maar over het algemeen voldeed de afbeelding niet aan onze verwachtingen, hoewel hij beter was dan Google Gemini.
Puntentelling:
- VAN-E: 1
- Google Tweelingen: 0
- Stabiele diffusie: 0,5
Experimenteer met opdracht #4
In de schaduw van de laatste zon was een visser in slaap gevallen. Hij had een rimpel in zijn gezicht, als een soort glimlach.
DALL – E (via ChatGPT) | Google Tweelingen | Stabiele diffusie |
Reactietijd: 4-6 seconden | Reactietijd: 8-10 seconden | Reactietijd: 5-7 seconden |
Poging: 1 | Poging: 1 | Poging: 1 |
De parameters
Hoe goed begrijpt de AI-generator de prompt?
Google Tweelingen
We probeerden het met heel korte, snelle en duidelijke instructies, ondanks dat Google Gemini er totaal niet in slaagde de instructies te parseren en nogal irrelevante afbeeldingen genereerde. Op geen enkele afbeelding was het gezicht van de visser te zien en daarom was er geen kans om de groef en de glimlach te beoordelen. Twee van de afbeeldingen leken meer op een silhouet zonder details. De vierde afbeelding was volledig van het pad af en liet een visser zien die in de boot sliep zonder een spoor van de laatste zon. Een van de afbeeldingen richtte zich meer op de kano en de zee met een kleine visser.
DALL-E
ChatGPT koos ervoor om ons een close-up van een visser te laten zien. De tool heeft de laatste zon en de man vredig slapend weten te verwerken. De groef die langs zijn gezicht was ontstaan was indrukwekkend en een kleine glimlach die eruit ontstond was opmerkelijk.
Wat we leuk vonden:
- De laatste zon
- De zonnestralen
- De schaduwen en schaduwen op de visser
- De stof en de hoed van de man
Stabiele diffusie
Stable Diffusion deed het veel beter dan Google Gemini; het was echter geen match met de afbeelding die was gemaakt door de DALL-E AI-afbeeldingsgeneratietool. De afbeelding toonde een visser die in zijn kano lag en de laatste zon was aan de horizon. De foto toont dat hij midden op de oceaan vaart. Vanwege de silhouetachtige afbeelding waren de groef en de gecreëerde glimlach echter niet zichtbaar.
Puntentelling:
- VAN-E: 1
- Google Tweelingen: 0
- Stabiele diffusie: 0
Hoeveel reactietijd kost het om tekst-naar-afbeeldingresultaten te genereren?
DALL-E ChatGPT had 4-6 seconden nodig om de beste afbeelding te maken die overeenkwam met de prompt in één poging. Stable Diffusion had 5-7 seconden nodig om de prompt te begrijpen en de afbeelding van een niet zo gedetailleerde visser te maken. Google Gemini had niet alleen 8-10 seconden nodig (de langste tijd), maar stelde ook teleur met de resultaten.
Puntentelling:
- VAN-E: 1
- Google Tweelingen: 0
- Stabiele diffusie: 0
Breng een revolutie teweeg in de ontwikkeling van uw web- en mobiele apps met geavanceerde, toekomstbestendige AI-expertise.
Hoe is de hoofdafbeelding gemaakt en wat is er in de omgeving en op de achtergrond geplaatst?
Google Tweelingen
Google Gemini creëerde een saaie achtergrond zonder details. Het meest verrassende was de afbeelding in een hoek waar de ondergaande zon was weggelaten en vervangen door een sprookjesachtig tafereel van een huis, kano, visser en bloemen in de voortuin. De rest van de afbeeldingen hadden wel zeeën op de achtergrond met een soort licht van de ondergaande zon, maar geen van hen was indrukwekkend. De afbeeldingen hadden meer duisternis waar details van de visser niet haalbaar waren.
DALL-E
Dit was de meest indrukwekkende AI-afbeeldingsgeneratie van de prompt. ChatGPT volgde de instructies tot in de lengte en breedte. Een scherpe en duidelijke foto van een visser met een voor was veelzeggend. De achtergrond toonde de ondergaande zon met voldoende omgevingslicht om het silhouet van de kano en de visnetten te benadrukken. Ook het omgevingslicht dat op het gezicht van de visser werd gecreëerd was indrukwekkend, omdat het de vouwen op het gezicht en de fijne stof van het overhemd van de man duidelijk afbakende.
Wat we leuk vonden:
- Close-up van de visser
- De algehele sfeer van de schemering
- Scherpe trekken op het gezicht
- De groef en de glimlach die het maakte
- De stof en details van het shirt
- De uitdrukking op het gezicht
Stabiele diffusie
Stable Diffusion produceerde een mooie lucht met de ondergaande zon aan de horizon. Het water toonde een weerspiegeling van het zonlicht. De grootte van de visser en zijn kano had echter iets beter gekund om er natuurlijk uit te zien. De silhoueteffecten belemmerden het doel van de prompt waarbij een groef en een glimlach die daaruit ontstond volledig ontbraken. De tool liet niet na om een hengel te laten zien die uit de kano viel. Over het geheel genomen was de afbeelding mooi, maar miste het doel.
Puntentelling:
- VAN-E: 1
- Google Tweelingen: 0
- Stabiele diffusie: 0,5
Experimenteer met opdracht #5
Animemeisje, riddermeisje, stompe pony, hime-snit, puntige oren, parelopaal, zeer esthetisch, meesterwerk, beste kwaliteit, hypergedetailleerd, ultra-gedetailleerd, UHD, perfecte anatomie, zwaard, oogverblindend, transparant, zwaaiend zwaard, gepolijst zilver, stalen pantser, glanzend pantser, oogverblindend pantser, gedetailleerde illustratie, officieel kunstwerk, behang, officiële kunst, extreem gedetailleerde ogen en gezicht, prachtige gedetailleerde ogen, blauw oog.
DALL – E (via ChatGPT) | Google Tweelingen | Stabiele diffusie |
Reactietijd: 6-8 seconden | Reactietijd: 6-8 seconden | Reactietijd: 4-6 seconden |
Poging: 1 | Poging: 1 | Poging: 1 |
De parameters
Hoe goed begrijpt de AI-generator de prompt?
Stabiele diffusie
Stable Diffusion produceerde netjes het riddermeisje met een gedetailleerd beeld van bijna alles wat de prompt noemde, zoals scherpe oren, ultra-gedetailleerd, zwaard, staal en glanzend pantser en blauwe ogen. Het lijkt erop dat de AI-afbeeldingsgeneratortool geen enkele instructie heeft gemist. We vroegen eigenlijk te veel en probeerden de AI-engine in verwarring te brengen door hetzelfde op verschillende manieren en avatars te vragen. Stable Diffusion deed echter zijn werk. De opname die het produceerde was een close-up van een blond meisje dat eruitzag als een zelfverzekerde ridder.
Google Tweelingen
Google Gemini produceerde eerst maar twee afbeeldingen, in tegenstelling tot het model dat ons vier opties geeft. Het stopte na het genereren van twee afbeeldingen en vroeg ons om ‘Meer te genereren’. Als we het echter hebben over de eerste twee door AI gegenereerde afbeeldingen, tonen ze het riddermeisje van voren en in een portrethouding. Eén afbeelding toonde het zwaard (dat er niet uitzag zoals men dacht, het leek meer op een Star Wars-baken), en de andere afbeelding miste het. Verrassend genoeg toonde de AI-afbeeldingsgeneratortool Google Gemini één afbeelding waarop het meisje hoorns had. Beide afbeeldingen misten puntige oren. De eerste poging kon niet alle vier de afbeeldingen produceren. Bij de tweede poging gaf Google Gemini het op en gaf een bericht: Ik kan deze afbeeldingen niet genereren. Voer een nieuwe prompt in om meer afbeeldingen te genereren.
DALL-E (ChatGPT)
Dit model van de AI-afbeeldingsgenerator produceerde een afbeelding die rechtstreeks uit de prompt kwam. Tot onze verrassing werd de afbeelding echter verticaal weergegeven. Toen het lokaal werd gecorrigeerd, stond de afbeelding in de liggende modus. De afbeelding toonde een riddermeisje, maar het was meer een kinderlijk personage. Het produceerde wel een glimmend zwaard. DALL-E lijkt dol te zijn op diamanten en dat is ook wat in deze afbeelding werd getoond. Het meisje droeg een harnas en had puntige oren, zoals in de prompt werd aangegeven. Ze was netjes gekleed met een bloem in de kroon.
Puntentelling:
- DALL-E: 0,5
- Google Tweelingen: 0
- Stabiele diffusie: 1
Hoeveel reactietijd kost het om tekst-naar-afbeeldingresultaten te genereren?
DALL-E voor zijn ChatGPT-werk had 4-6 seconden nodig om een landschapsafbeelding van de riddermeisje te produceren, terwijl Google Gemini twee pogingen nodig had (in totaal meer dan 10 seconden) om twee afbeeldingen te produceren en die waren ook niet goed genoeg. Stable Diffusion had 6-8 seconden nodig om een bijna perfecte afbeelding te produceren vanaf de prompt.
Puntentelling:
- VAN-E: 1
- Google Tweelingen: 0
- Stabiele diffusie: 1
Hoe is de hoofdafbeelding gemaakt en wat is er in de omgeving en op de achtergrond geplaatst?
Stabiele diffusie
De hoofdafbeelding die door de AI-beeldgenererende tool Stable Diffusion werd gemaakt, was op het punt van de markering, aangezien alles in detail en volgens de prompt werd getoond. De achtergrond was een prachtige lucht met wolken die overeenkwamen met de tinten van het hoofdpersonage. De schaduw en reflectie van de lucht en het zonlicht waren zichtbaar op het pantser van de ridder.
Google Tweelingen
Het was een effen achtergrond zonder details voor de riddermeisjes. Het zwaard leek meer op een laserbaken en het personage leek meer op een beest met horens op het hoofd. Het gereedschap miste ook scherpe oren en aantrekkelijke blauwe ogen. Er was niets dat ons aantrok in de afbeelding.
DALL-E
De details in deze foto waren dramatisch en niet zo echt als we in Stable Diffusion vonden. Het was meer cartoonachtig in het geval van DALL-E. Het meisje zag er Chinees en kind uit in plaats van een ridder met stoutmoedigheid. De afbeelding toonde grafische diamanten die op sommige plaatsen meer leken op lensflares. We zagen ook dat het een tegelafbeelding was waarop je twee extra kopieën van de hoofdpersonages op de achtergrond kunt vinden. We weten niet zeker wat het betekent, omdat het niet in de prompt stond.
Puntentelling:
- DALL-E: 0,5
- Google Tweelingen: 0
- Stabiele diffusie: 1
De totale telling: DALL-E vs Gemini vs stabiele diffusie
Als we kijken naar de puntentellingen voor alle vragen voor alle AI-beeldgeneratoren, krijgen we deze score:
Vraag 1
Vragen | DALL–E | Google Tweelingen | Stabiele diffusie |
Vraag 1 | 1 | 0 | 0.5 |
Vraag 2 | 1 | 1 | 1 |
Vraag 3 | 1 | 1 | 1 |
Totaal | 3 | 2 | 2.5 |
Vraag 2
Vragen | DALL–E | Google Tweelingen | Stabiele diffusie |
Vraag 1 | 0.5 | 0 | 1 |
Vraag 2 | 1 | 0 | 1 |
Vraag 3 | 1 | 0 | 1 |
Totaal | 2.5 | 0 | 3 |
Vraag 3
Vragen | DALL–E | Google Tweelingen | Stabiele diffusie |
Vraag 1 | 1 | 0 | 0.5 |
Vraag 2 | 1 | 1 | 1 |
Vraag 3 | 1 | 0 | 0.5 |
Totaal | 3 | 1 | 2 |
Vraag 4
Vragen | DALL–E | Google Tweelingen | Stabiele diffusie |
Vraag 1 | 1 | 0 | 0 |
Vraag 2 | 1 | 0 | 0 |
Vraag 3 | 1 | 0 | 0.5 |
Totaal | 3 | 0 | 0.5 |
Vraag 5
Vragen | DALL–E | Google Tweelingen | Stabiele diffusie |
Vraag 1 | 0.5 | 0 | 1 |
Vraag 2 | 1 | 0 | 1 |
Vraag 3 | 0.5 | 0 | 1 |
Totaal | 2 | 0 | 3 |
De uiteindelijke resultaten: DALL-E vs Gemini vs stabiele diffusie
Aanwijzingen | DALL–E | Google Tweelingen | Stabiele diffusie |
Vraag 1 | 3 | 2 | 2.5 |
Vraag 2 | 2.5 | 0 | 3 |
Vraag 3 | 3 | 1 | 2 |
Vraag 4 | 3 | 0 | 0.5 |
Vraag 5 | 2 | 0 | 3 |
Totaal | 13.5 | 3 | 11 |
In onze uitgebreide test van AI-beeldgenererende tools werden DALL-E, Google Gemini en Stable Diffusion geëvalueerd met dezelfde prompt. DALL-E kwam als beste uit de bus, met een score van 13,5 uit 15, en excelleerde in beelddetaillering, naleving van promptinstructies en de kwaliteit van achtergronden. Stable Diffusion volgde met een score van 11, wat een sterke beeldkwaliteit en precisie aantoonde, hoewel iets minder consistent in achtergrondelementen. Google Gemini, met een score van 3, stond nergens in het nauwkeurig opvolgen van promptinstructies en het produceren van gedetailleerde afbeeldingen.
Uitspraak
DALL-E-standaards wordt gezien als het meest betrouwbare hulpmiddel voor het genereren van hoogwaardige, gedetailleerde afbeeldingen die nauw aansluiten bij de gegeven prompts. Onze bevindingen zijn echter gebaseerd op specifieke testparameters en individuele ervaringen kunnen variëren. Wij raden u aan om elke AI-tool te bekijken om te bepalen welke het beste bij uw specifieke behoeften past.
Sociale hashtags
#AIImageGeneration #DALLEvsGemini #StableDiffusionAI #AIArtBattle #AIComparison #ImageGenerationTech #AIImageCreators #CreativeAI