Un’immagine vale più di mille parole è un adagio applicabile anche oggi. Idee complesse e multiple possono essere ritratte in una singola immagine. La tendenza sta passando dai testi alle immagini e alla grafica animata. I ricercatori affermano che le immagini sono molto potenti e la maggior parte sceglie le immagini per comprendere il messaggio perché sono il punto di accesso alle storie: aggiungono significato e toccano in modo notevole lo stato psicologico, la memoria e le emozioni delle persone. Mentre abbiamo ML e LLM più grandi, la popolarità degli strumenti di intelligenza artificiale per la generazione di immagini è salita alle stelle negli ultimi tempi.
Midjourney, Dall-E, Google Gemini e Stable Diffusion (Stability) sono alcuni strumenti software di generazione di immagini popolari in tutto Internet. Mentre Midjourney ha guidato la gara finora, abbiamo pensato che ci fosse una grave necessità di confrontare il resto degli strumenti di generazione di immagini AI: Dall-E contro Google Gemini, contro Stable Diffusion.
Facciamo una breve introduzione prima di confrontare gli strumenti software di generazione di immagini AI.
Che cosa è DALL–E?
DALL–E è un modello AI che genera immagini o illustrazioni basate su descrizioni testuali inserite dagli utenti come prompt. Per creare un’immagine in linea con il testo, traduce miliardi di frammenti di testo da tutto Internet in un abstract. Queste informazioni archiviate vengono quindi utilizzate come strumento di riferimento per descrivere le informazioni e infine per creare immagini orientate al prompt. Il modello DALL–E è disponibile tramite ChatGPT.
Che cos’è Google Gemini?
Google ha introdotto lo strumento generatore di immagini AI tramite Gemini nel 2024. Gemini è la suite principale di modelli AI di Google ed è stata attrezzata per produrre immagini in base alle richieste degli utenti. Sebbene Google Gemini sia più al centro dell’attenzione a causa delle sue inesattezze storiche e delle risposte discutibili, il generatore di immagini AI Gemini è noto per fornire illustrazioni/immagini molto vicine all’immaginazione dell’utente.
Che cosa è la diffusione stabile?
Stable Diffusion è di Stability AI, un’intelligenza artificiale generativa open source leader (GenAI) azienda che mira a fornire modelli AI innovativi e open-access che richiedono risorse minime per creare immagini, linguaggio, audio e codice. Stable Diffusion è l’ultimo e più avanzato T2I (Text-to-Image) che comprende 2 miliardi di parametri.
Strumenti di generazione di immagini AI: crescente popolarità e impatto
L’intelligenza artificiale ha reso gli strumenti di generazione delle immagini più efficienti e precisi rispetto alle richieste. I generatori di immagini AI sono immensamente popolari tra i marketer e i creatori di contenuti per potenziare i loro contenuti con grafiche accattivanti e coinvolgenti.
Le statistiche rivelano che solo meno del 40% dei marketer utilizza l’intelligenza artificiale generativa per creare immagini per i post sui social media. Inoltre, il 36% di loro sfrutta la potenza dei generatori di immagini AI per creare immagini di siti web.
Vuoi sapere come ChatGPT può fare miracoli per la tua attività e aumentarne la crescita e l’efficienza?
DALL–E vs Google Gemini vs Stable Diffusion – Confronto dei generatori di immagini AI
Per confrontare gli strumenti AI per la generazione di immagini, abbiamo deciso di avere un prompt comune da eseguire su queste tre diverse piattaforme. Lo scopo era capire come questi strumenti AI per la generazione di immagini perseguono i testi e utilizzano i loro algoritmi e modelli per creare immagini. Abbiamo preso in considerazione tre parametri generali per valutare gli strumenti AI per le immagini:
- Quanto bene lo strumento generatore di intelligenza artificiale comprende il messaggio con i dettagli?
- Quanto tempo di risposta occorre per generare risultati di conversione testo-immagine?
- Come è stata creata l’immagine principale e cosa è stato inserito nell’ambiente circostante e sullo sfondo?
Sperimenta con Prompt n. 1 per la generazione di immagini AI
Crea l’immagine di una chiave decorata in stile vittoriano appoggiata su una superficie di legno invecchiato, con ingranaggi e meccanismi intricati ispirati allo steampunk visibili all’interno del suo corpo in vetro trasparente.
DALL – E (tramite ChatGPT) | Google Gemelli | Diffusione stabile |
Tempo di risposta: 6-9 secondi | Tempo di risposta: 7-9 secondi | Tempo di risposta: 4-6 secondi |
Tentativo: 1 | Tentativo: 1 | Tentativo: 1 |
I parametri
Quanto bene lo strumento generatore di intelligenza artificiale comprende il messaggio e lo descrive nei dettagli?
CIECO – E (ChatGPT)
DALL-E ha capito il prompt nel modo in cui volevamo. Ha creato esattamente ciò a cui avevamo pensato. Il generatore di immagini AI ha capito molto bene le istruzioni: ingranaggi e meccanismi ispirati visibili all’interno del suo albero di vetro trasparente. Infatti, ha anche creato un meccanismo trasparente nell’albero insieme alla testa. DALL-E ha creato perfettamente una chiave dell’era vittoriana. Il generatore di immagini AI ha anche creato un’accattivante superficie in legno invecchiato. Il colore ramato si abbinava perfettamente al prompt e all’immagine che avevamo creato nella nostra mente. Nel complesso, era un’immagine dettagliata con caratteristiche nitide e un design regale della chiave.
Ciò che abbiamo amato
- Luce naturale creata sul vetro
- Il legno
- La mezzaluna del vetro sul lato in ombra
Google Gemelli
A differenza di DALL–E e Stable Diffusion, Google Gemini ha sempre fornito più opzioni. Ogni immagine avrebbe avuto un approccio leggermente diverso, il che significa che l’utente può avere diverse scelte dal prompt. Tuttavia, in questo caso, i tre tasti non erano impressionanti in quanto mancavano una parte essenziale del “meccanismo trasparente” nella testa. Il creatore di immagini AI ha prodotto un tasto che si adattava alla nostra descrizione; tuttavia, non l’abbiamo trovato impressionante. Qui, solo un tasto con il vetro della testa del tasto era all’altezza. L’angolazione del tasto era tale che i dettagli nel meccanismo trasparente non erano così visibili. Nel complesso, il generatore di immagini AI non ha fatto un buon lavoro per noi per questo.
Diffusione stabile
Stable Diffusion ha reso tutto perfetto, come volevamo. Aveva un meccanismo trasparente e un albero di vetro. La chiave sembrava regale, ma ci aspettavamo la copertura di vetro nella testa della chiave che mancava. Nel complesso, i dettagli e l’immagine centrata sul prompt erano abbastanza soddisfacenti. Stable Diffusion ha fatto un lavoro meraviglioso. L’immagine aveva una chiave più grande con tutti i dettagli visibili. Sebbene il meccanismo trasparente non fosse così impressionante, lo strumento generatore di intelligenza artificiale ha capito il prompt e ha prodotto l’illustrazione pertinente. Tuttavia, abbiamo osservato che mancava una parte importante: la copertura di vetro sulla testa della chiave.
Cosa ci è piaciuto:
- Il primo piano della chiave
- Il design vittoriano
Conteggio dei punti:
- DALL – E: 1
- Google Gemelli: 0
- Diffusione stabile: 0,5
Curiosi di scoprire l’impatto trasformativo che l’intelligenza artificiale sta avendo sul mondo aziendale?
Leggi queste ultime statistiche sull’intelligenza artificiale
Quanto tempo di risposta occorre per generare risultati di conversione testo-immagine?
Lo strumento di generazione di immagini AI, DALL-E, ha impiegato tra 6 e 8 secondi. D’altro canto, il software di generazione di immagini AI di Google Gemini ha impiegato tra 7 e 9 secondi per comprendere e creare l’immagine. Infine, Stable Diffusion è stato piuttosto veloce, poiché questo strumento di generazione di immagini AI ha impiegato circa 5-7 secondi per creare l’immagine prompt-centred.
Conteggio dei punti:
- DALL-E: 1
- Google Gemelli: 1
- Diffusione stabile: 1
Come è stata creata l’immagine principale e cosa è stato inserito nell’ambiente circostante e sullo sfondo?
DALL -E
L’immagine principale creata è stata quella richiesta. Non c’era niente di extra, il che significa che il software di generazione di immagini AI ha seguito le istruzioni rigorosamente senza aggiungere nulla che non fosse stato richiesto.
Google Gemelli
Il generatore di intelligenza artificiale di Google Gemini ha fornito alcune opzioni per lo stesso prompt e ciò ha reso questo strumento di generazione di immagini AI un po’ più completo e olistico. Mentre tre immagini creavano un bosco, un’immagine è stata presentata con erba naturale che ha catturato la nostra attenzione. Sembrava rilassante, ma poi non l’abbiamo chiesto.
Diffusione stabile
Come DALL-E, Stable Diffusion ha fatto un lavoro strepitoso creando l’immagine principale e l’ambiente circostante come da richiesta. Il legno era esattamente come lo volevamo. Non ha aggiunto nulla di extra che non avessimo chiesto.
Conteggio dei punti:
- DALL-E: 1
- Google Gemelli: 1
- Diffusione stabile: 1
Esperimento con Prompt #2
Fotogramma di un film, primo piano, di un guerriero drago con scaglie dorate e un’armatura di piastre completa, in stile fantasy iperrealistico.
DALL – E (tramite ChatGPT) | Google Gemelli | Diffusione stabile |
Tempo di risposta: 6-9 secondi | Tempo di risposta: 8-10 secondi | Tempo di risposta: 5-8 secondi |
Tentativo: 1 | Tentativo: 1 | Tentativo: 1 |
I parametri
Quanto bene lo strumento generatore di intelligenza artificiale comprende il messaggio?
DALL – E
ChatGPT ha fatto un lavoro fantastico mostrandoci il primo piano del guerriero drago. I colori utilizzati erano vivaci e la creatura dalle scaglie dorate sembrava impressionante. Le punte sul corpo e sull’armatura erano dettagliate e nitide. Tuttavia, ciò che abbiamo osservato è che questo generatore di immagini AI ha preso il nostro suggerimento alla lettera! La frase “immagine fissa di un film cinematografico” ha attivato DALL-E per creare il ciak e mostrarlo nell’immagine. Sebbene sia impressionante che il motore AI prenda sul serio i suggerimenti, ci aspettavamo che venissero intesi come una scena cinematografica piuttosto che concentrarsi sui BTS!
Google Gemelli
Google Gemini ha semplicemente cambiato l’armatura con design diversi per tre dei suoi risultati. Ognuno aveva un diverso approccio di zoom in/out. Il volto del guerriero drago dalle scaglie dorate è rimasto quasi simile. La quarta immagine mostrava una posa più grande del guerriero con più elementi sullo sfondo. Tutte le immagini sembravano un po’ spente rispetto al resto degli strumenti.
Diffusione stabile
È stato mostrato un singolo scatto con un dettagliato guerriero drago. Incredibilmente, la testa del drago è stata mescolata con celata e bevor per sembrare più aggressiva. Il diamante blu si abbinava piuttosto bene a uno spallaccio e una corazza placcati in oro. La tunica blu del guerriero sembrava attraente sul corpo.
Cosa ci è piaciuto:
- Il primo piano del guerriero
- Diamanti
- Abito da guerriero
Conteggio dei punti:
- DALL – E: 0.5
- Google Gemelli: 0
- Diffusione stabile: 1
Quanto tempo di risposta occorre per generare risultati di conversione testo-immagine?
Il generatore di immagini AI DALL-E ha impiegato tra 6 e 9 secondi. D’altro canto, il software di generazione di immagini AI di Google Gemini ha impiegato tra 8 e 10 secondi per comprendere e creare l’immagine. Infine, Stable Diffusion è stato piuttosto veloce, poiché questo strumento AI di generazione di immagini ha impiegato circa 5-8 secondi per creare l’immagine prompt-centred.
Conteggio dei punti:
- DALL-E: 1
- Google Gemelli: 0
- Diffusione stabile: 1
Come è stata creata l’immagine principale e cosa è stato inserito nell’ambiente circostante e sullo sfondo?
DALL -E
L’immagine principale creata era come da prompt. Tuttavia, un’aggiunta degna di nota è stata il ciak, poiché il motore AI ha preso il prompt molto seriamente. La frase “cinematografico” è stata presa troppo alla lettera e il generatore di immagini AI ha pensato di includere il dietro le quinte.
Google Gemelli
Il generatore di intelligenza artificiale di Google Gemini ha mostrato quattro opzioni per lo stesso prompt e ciò ha reso questo strumento di generazione di immagini AI un po’ più completo e olistico. Tuttavia, tre di quelle immagini erano quasi le stesse con piccole modifiche di design nella suite di armature. La quarta immagine era una foto ingrandita del guerriero con un pianeta. Lo strumento ha cercato di mostrare il campo di battaglia, ma sembrava più una regione extraterrestre.
Diffusione stabile
Stable Diffusion è stata, finora, la migliore nel creare il guerriero drago dalle scaglie dorate con un primo piano dettagliato. Lo sfondo mostrava un castello che soddisfaceva il nostro scopo di avere un’aria da guerra. Nel complesso, questa immagine era qualcosa che volevamo tramite il prompt.
Conteggio dei punti:
- DALL-E: 1
- Google Gemelli: 0
- Diffusione stabile: 1
Google Gemini, Copilot o ChatGPT? Tuffati nella sfida definitiva dell’intelligenza artificiale e scopri quale regna sovrano per le tue esigenze!
Esperimento con Prompt #3
Crea vortici vibranti ed esplosivi di vernice arancione, gialla, rosa e blu che scendono a cascata dal soffitto su un pavimento grigio lucido in una galleria d’arte, in contrasto con i dipinti astratti monocromatici sulle pareti bianche e creando una scena dinamica ed energica sotto un’illuminazione intensa e concentrata.
DALL – E (tramite ChatGPT) | Google Gemelli | Diffusione stabile |
Tempo di risposta: 4-6 secondi | Tempo di risposta: 6-8 secondi | Tempo di risposta: 5-8 secondi |
Tentativo: 1 | Tentativo: 1 | Tentativo: 1 |
I parametri
Quanto bene lo strumento generatore di intelligenza artificiale comprende il messaggio?
Google Gemelli
Questa volta, Google Gemini si è spinto un po’ oltre e ha creato quattro opzioni diverse anziché presentare immagini simili con modifiche banali come in passato. Tuttavia, il generatore di immagini AI ha perso le istruzioni del prompt in due delle sue immagini. Lo strumento ha mostrato una caduta dritta di vernice arancione, rosa e gialla, ma ha perso due cose essenziali: il vortice e il colore blu. Tuttavia, il resto delle due immagini includeva i colori (incluso il blu) menzionati nel prompt. Ma ancora una volta, pur includendo il colore blu in due immagini, lo strumento non è riuscito a concentrarsi sulla presenza di dipinti astratti monocromatici. Nel complesso, ciascuna delle immagini create ha perso qualcosa del prompt. L’immagine in alto a destra non mostrava il pavimento e la profondità dell’immagine; invece, sembrava che i colori uscissero dal nulla.
DALL-E (ChatGPT)
Questo strumento ha creato l’immagine più impressionante del prompt. Sono stati creati bellissimi vortici di tutti i colori menzionati nel prompt. Non solo, il generatore di immagini AI ha conquistato i nostri cuori mostrando il pavimento con palline colorate sferiche. Lo strumento è riuscito a mostrare dipinti astratti monocromatici sulle pareti bianche. Questo è stato l’unico strumento che ha incluso un’illuminazione brillante e focalizzata nell’immagine come indicato nel prompt.
Diffusione stabile
Stable Diffusion ha capito subito il prompt, ma non è riuscita a includere la vernice blu con la stessa ponderazione del resto dei colori. C’era solo una frazione del colore blu. Il generatore di immagini AI ha anche perso la pittura monocromatica ma è riuscito a mostrare il pavimento grigio. Non è riuscito nemmeno a creare un’illuminazione brillante e focalizzata che era una parte del prompt.
Conteggio dei punti:
- DALL – E: 1
- Google Gemelli: 0
- Diffusione stabile: 0,5
Quanto tempo di risposta occorre per generare risultati di conversione testo-immagine?
Google Gemini ha creato quattro opzioni e ha impiegato circa 4-6 secondi al primo tentativo. Allo stesso modo, un tentativo è stato sufficiente al generatore di immagini AI DALL-E per creare un’immagine in 6-8 secondi. Infine, Stable Diffusion ha impiegato circa 5-8 secondi per creare l’immagine dal prompt al primo tentativo.
Conteggio dei punti:
- DALL-E: 1
- Google Gemelli: 1
- Diffusione stabile: 1
Come è stata creata l’immagine principale e cosa è stato inserito nell’ambiente circostante e sullo sfondo?
Google Gemelli
Lo strumento non solo non è riuscito a seguire letteralmente il prompt, ma ha anche creato lo sfondo con il suo. L’illuminazione focalizzata è stata mostrata sui dipinti sul muro, mentre il prompt ha menzionato che avrebbe dovuto essere sui vortici di vernice. Allo stesso modo, le due immagini sottostanti hanno completamente perso i dipinti sul muro. Solo la prima immagine (angolo in alto a sinistra) si è avvicinata un po’ al prompt, ma poi non è riuscita a creare scene attraenti e dipinti monocromatici.
DALL-E
Questa è stata la generazione di immagini più impressionante dal prompt. ChatGPT ha creato vortici sbalorditivi che provenivano dall’alto e si schiantavano sul pavimento grigio. Ciò che ci è piaciuto sono state le finestre che mostravano la luce naturale dell’ambiente concentrandosi sulla caduta. Inoltre, il generatore di immagini AI è riuscito a includere dipinti monocromatici sulle pareti bianche.
Cosa ci è piaciuto:
- Vortici
- I dettagli dell’immagine complessiva
- Le finestre e le luci ambientali
- Le palline colorate sul pavimento
- La profondità di campo con i dipinti
- Il soffitto
Diffusione stabile
La proporzione dei vortici del soffitto e del resto della stanza non corrispondeva e quindi sembrava troppo artificiale. Inoltre, lo strumento non è riuscito a creare un tipico dipinto monocromatico perché entrambi i dipinti hanno una traccia di altri colori/sfumature. Lo strumento è riuscito a ottenere il pavimento e il soffitto grigi ma, nel complesso, l’immagine non ha soddisfatto le nostre aspettative, anche se era migliore di Google Gemini.
Conteggio dei punti:
- DALL-E: 1
- Google Gemelli: 0
- Diffusione stabile: 0,5
Esperimento con Prompt #4
All’ombra dell’ultimo sole, un pescatore si era addormentato e aveva un solco sul viso, come una specie di sorriso.
DALL – E (tramite ChatGPT) | Google Gemelli | Diffusione stabile |
Tempo di risposta: 4-6 secondi | Tempo di risposta: 8-10 secondi | Tempo di risposta: 5-7 secondi |
Tentativo: 1 | Tentativo: 1 | Tentativo: 1 |
I parametri
Quanto bene lo strumento generatore di intelligenza artificiale comprende il messaggio?
Google Gemelli
Abbiamo provato con istruzioni molto brevi, rapide e dirette, nonostante Google Gemini non sia riuscito ad analizzare le istruzioni e abbia generato immagini piuttosto irrilevanti. Nessuna delle immagini mostrava il volto del pescatore e quindi non c’era modo di valutare il solco e il sorriso. Due delle immagini erano più simili a una silhouette senza dettagli. La quarta immagine era completamente fuori tema e mostrava un pescatore che dormiva nella barca senza traccia dell’ultimo sole. Una delle immagini si concentrava di più sulla canoa e sul mare con un piccolo pescatore.
DALL-E
ChatGPT ha scelto di mostrarci un primo piano di un pescatore. Lo strumento ha gestito l’ultimo sole e l’uomo che dormiva pacificamente. Il solco creato lungo il suo viso era impressionante e un piccolo sorriso creato da esso era degno di nota.
Cosa ci è piaciuto:
- L’ultimo sole
- I raggi del sole
- Le ombre e le sfumature del pescatore
- Il tessuto e il cappello dell’uomo
Diffusione stabile
Stable Diffusion ha fatto un lavoro decisamente migliore di Google Gemini; tuttavia, non era all’altezza dell’immagine creata dallo strumento di generazione di immagini AI DALL-E. L’immagine mostrava un pescatore sdraiato nella sua canoa e c’era l’ultimo sole all’orizzonte. L’immagine mostra che sta navigando in mezzo all’oceano. Tuttavia, a causa dell’immagine di tipo silhouette, il solco e il sorriso creati non erano visibili.
Conteggio dei punti:
- DALL-E: 1
- Google Gemelli: 0
- Diffusione stabile: 0
Quanto tempo di risposta occorre per generare risultati di conversione testo-immagine?
DALL-E ChatGPT ha impiegato 4-6 secondi per creare la migliore immagine allineata al prompt in un tentativo. Stable Diffusion ha impiegato 5-7 secondi per comprendere il prompt e creare l’immagine di un pescatore non molto dettagliato. Google Gemini non solo ha impiegato 8-10 secondi (il tempo più lungo), ma è anche rimasto deluso dai risultati.
Conteggio dei punti:
- DALL-E: 1
- Google Gemelli: 0
- Diffusione stabile: 0
Rivoluziona lo sviluppo delle tue app web e mobili con competenze di intelligenza artificiale all’avanguardia e pronte per il futuro.
Come è stata creata l’immagine principale e cosa è stato inserito nell’ambiente circostante e sullo sfondo?
Google Gemelli
Google Gemini ha creato uno sfondo opaco senza dettagli. La cosa più sorprendente è stata l’immagine nell’angolo in cui il sole al tramonto è stato omesso e sostituito da una scena da fiaba di una casa, una canoa, un pescatore e dei fiori nel cortile anteriore. Il resto delle immagini aveva il mare sullo sfondo con una sorta di luce del sole al tramonto, ma nessuna di esse era impressionante. Le immagini avevano più oscurità dove i dettagli del pescatore non erano fattibili.
DALL-E
Questa è stata la generazione di immagini AI più impressionante dal prompt. ChatGPT ha seguito le istruzioni alla lettera. Un’immagine nitida e chiara di un pescatore con un solco era significativa. Lo sfondo mostrava il sole al tramonto con abbastanza luce ambientale da evidenziare la sagoma della canoa e delle reti da pesca. Inoltre, la luce ambientale creata sul viso del pescatore era impressionante in quanto definiva chiaramente le pieghe sul viso e il tessuto fine della camicia dell’uomo.
Cosa ci è piaciuto:
- Primo piano del pescatore
- Il fascino generale del crepuscolo
- Caratteristiche nette sul viso
- Il solco e il sorriso che ha fatto
- Il tessuto e i dettagli della camicia
- L’espressione sul viso
Diffusione stabile
Stable Diffusion ha prodotto un bel cielo con il sole che tramontava all’orizzonte. L’acqua mostrava un riflesso della luce del sole. Tuttavia, le dimensioni del pescatore e della sua canoa avrebbero potuto essere un po’ migliori per sembrare naturali. Gli effetti di silhouette hanno ostacolato lo scopo del prompt in cui mancavano completamente un solco e un sorriso creato da esso. Lo strumento non ha mancato di mostrare una canna da pesca che cadeva dalla canoa. Nel complesso, l’immagine era bella, ma ha mancato lo scopo.
Conteggio dei punti:
- DALL-E: 1
- Google Gemelli: 0
- Diffusione stabile: 0,5
Esperimento con Prompt #5
Ragazza anime, ragazza cavaliere, frangetta smussata, taglio hime, orecchie a punta, opale perlato, molto estetico, capolavoro, migliore qualità, iper-dettagliato, ultra-dettagliato, UHD, anatomia perfetta, spada, abbagliante, trasparente, spada ondeggiante, argento brunito, armatura d’acciaio, armatura scintillante, armatura abbagliante, illustrazione dettagliata, opera d’arte ufficiale, carta da parati, arte ufficiale, occhi e viso estremamente dettagliati, bellissimi occhi dettagliati, occhio blu.
DALL – E (tramite ChatGPT) | Google Gemelli | Diffusione stabile |
Tempo di risposta: 6-8 secondi | Tempo di risposta: 6-8 secondi | Tempo di risposta: 4-6 secondi |
Tentativo: 1 | Tentativo: 1 | Tentativo: 1 |
I parametri
Quanto bene lo strumento generatore di intelligenza artificiale comprende il messaggio?
Diffusione stabile
Stable Diffusion ha prodotto in modo impeccabile la ragazza cavaliere con una visione dettagliata di quasi tutto ciò che il prompt menzionava, come orecchie aguzze, ultra-dettagliate, spada, acciaio e armatura scintillante e occhi azzurri. Sembra che lo strumento generatore di immagini AI non abbia perso una sola istruzione. In realtà abbiamo chiesto troppo e abbiamo cercato di confondere il motore AI chiedendo la stessa cosa in modi e avatar diversi. Tuttavia, Stable Diffusion ha fatto il suo lavoro. Lo scatto che ha prodotto era un primo piano di una ragazza bionda che sembrava un cavaliere sicuro di sé.
Google Gemelli
Google Gemini ha inizialmente prodotto solo due immagini, a differenza del suo modello che ci offre quattro opzioni. Si è fermato dopo aver generato due immagini e ci ha chiesto di “Generarne altre”. Tuttavia, se parliamo delle prime due immagini generate dall’IA, mostrano la ragazza cavaliere di fronte e in una posa di ritratto. Un’immagine mostrava la spada (che non sembrava come si pensava, era più simile a un faro di Star Wars), e l’altra immagine non l’ha vista. Sorprendentemente, lo strumento di generazione di immagini AI Google Gemini ha mostrato un’immagine in cui la ragazza aveva le corna. Entrambe le immagini non hanno visto le orecchie a punta. Il primo tentativo non è riuscito a produrre tutte e quattro le immagini. Nel secondo tentativo, Google Gemini ha rinunciato e ha visualizzato un messaggio: Non riesco a generare queste immagini. Inserisci un nuovo prompt per generare altre immagini.
DALL-E (ChatGPT)
Questo modello di generatore di immagini AI ha prodotto un’immagine che proveniva direttamente dal prompt. Tuttavia, con nostra sorpresa, mostrava l’immagine in verticale. Quando corretta localmente, l’immagine era in modalità orizzontale. L’immagine mostrava una ragazza cavaliere, ma era più un personaggio infantile. Ha prodotto una spada scintillante. DALL-E sembra amare i diamanti ed è ciò che è stato mostrato anche in questa immagine. La ragazza indossava un’armatura e aveva orecchie a punta come da prompt. Era vestita elegantemente con un fiore nella corona.
Conteggio dei punti:
- DALL-E: 0.5
- Google Gemelli: 0
- Diffusione stabile: 1
Quanto tempo di risposta occorre per generare risultati di conversione testo-immagine?
DALL-E per il suo lavoro ChatGPT ha impiegato 4-6 secondi per produrre un’immagine orizzontale della ragazza cavaliere, mentre Google Gemini ha impiegato due tentativi (superando i 10 secondi in totale) per produrre due immagini e anche questo non è stato all’altezza. Stable Diffusion ha impiegato 6-8 secondi per produrre un’immagine quasi perfetta dal prompt.
Conteggio dei punti:
- DALL-E: 1
- Google Gemelli: 0
- Diffusione stabile: 1
Come è stata creata l’immagine principale e cosa è stato inserito nell’ambiente circostante e sullo sfondo?
Diffusione stabile
L’immagine principale creata dallo strumento di generazione di immagini AI Stable Diffusion era all’altezza, in quanto mostrava tutto nei dettagli e come da richiesta. Lo sfondo era un bellissimo cielo con nuvole che si abbinavano alle tonalità del personaggio principale. L’ombra e il riflesso del cielo e della luce del sole erano visibili sull’armatura della ragazza cavaliere.
Google Gemelli
Era uno sfondo semplice senza dettagli per la ragazza cavaliere. La spada sembrava più un raggio laser e il personaggio sembrava più una bestia con le corna sulla testa. Lo strumento mancava anche di orecchie affilate e attraenti occhi azzurri. Non c’era nulla che ci attraesse nell’immagine.
DALL-E
I dettagli in questa immagine erano drammatici e non così reali come quelli che abbiamo trovato in Stable Diffusion. Era più da cartone animato nel caso di DALL-E. La ragazza sembrava cinese e bambina piuttosto che un cavaliere con audacia. L’immagine mostrava diamanti grafici che sembravano più simili a bagliori di lenti in alcuni punti. Abbiamo anche osservato che era un’immagine a tile in cui puoi trovare altre due copie dei personaggi principali sullo sfondo. Non siamo sicuri di cosa significhi perché non era nel prompt.
Conteggio dei punti:
- DALL-E: 0.5
- Google Gemelli: 0
- Diffusione stabile: 1
Conteggi totali: DALL-E vs Gemini vs diffusione stabile
Se osserviamo il conteggio dei punti per tutte le domande per tutti i generatori di immagini AI, otteniamo questo punteggio:
Richiesta 1
Domande | DALL–E | Google Gemelli | Diffusione stabile |
Domanda 1 | 1 | 0 | 0.5 |
Domanda 2 | 1 | 1 | 1 |
Domanda 3 | 1 | 1 | 1 |
Totale | 3 | 2 | 2.5 |
Domanda 2
Domande | DALL–E | Google Gemelli | Diffusione stabile |
Domanda 1 | 0.5 | 0 | 1 |
Domanda 2 | 1 | 0 | 1 |
Domanda 3 | 1 | 0 | 1 |
Totale | 2.5 | 0 | 3 |
Domanda 3
Domande | DALL–E | Google Gemelli | Diffusione stabile |
Domanda 1 | 1 | 0 | 0.5 |
Domanda 2 | 1 | 1 | 1 |
Domanda 3 | 1 | 0 | 0.5 |
Totale | 3 | 1 | 2 |
Richiesta 4
Domande | DALL–E | Google Gemelli | Diffusione stabile |
Domanda 1 | 1 | 0 | 0 |
Domanda 2 | 1 | 0 | 0 |
Domanda 3 | 1 | 0 | 0.5 |
Totale | 3 | 0 | 0.5 |
Domanda 5
Domande | DALL–E | Google Gemelli | Diffusione stabile |
Domanda 1 | 0.5 | 0 | 1 |
Domanda 2 | 1 | 0 | 1 |
Domanda 3 | 0.5 | 0 | 1 |
Totale | 2 | 0 | 3 |
I risultati finali: DALL-E vs Gemini vs diffusione stabile
Richiede | DALL–E | Google Gemelli | Diffusione stabile |
Richiesta 1 | 3 | 2 | 2.5 |
Domanda 2 | 2.5 | 0 | 3 |
Domanda 3 | 3 | 1 | 2 |
Domanda 4 | 3 | 0 | 0.5 |
Domanda 5 | 2 | 0 | 3 |
Totale | 13.5 | 3 | 11 |
Nei nostri test completi di strumenti di generazione di immagini AI, DALL-E, Google Gemini e Stable Diffusion sono stati valutati utilizzando lo stesso prompt. DALL-E è emerso come il migliore, con un punteggio di 13,5 su 15, eccellendo nei dettagli delle immagini, nell’aderenza alle istruzioni del prompt e nella qualità degli sfondi.
Stable Diffusion ha seguito con un punteggio di 11, dimostrando una forte qualità e precisione delle immagini, sebbene leggermente meno coerente negli elementi dello sfondo. Google Gemini, con un punteggio di 3, non si è distinto da nessuna parte nel seguire accuratamente le istruzioni del prompt e nel produrre immagini dettagliate.
Verdetto
DALL-E stands si è rivelato lo strumento più affidabile per generare immagini dettagliate e di alta qualità, che corrispondono esattamente alle richieste fornite. Tuttavia, i nostri risultati si basano su parametri di test specifici e le esperienze individuali possono variare. Ti consigliamo di esplorare ogni strumento di intelligenza artificiale per determinare quale sia quello più adatto alle tue specifiche esigenze.
Hashtag sociali
#AIImageGeneration #DALLEvsGemini #StableDiffusionAI #AIArtBattle #AIComparison #ImageGenerationTech #AIImageCreators #CreativeAI