Una imagen vale más que mil palabras es un dicho que se aplica incluso hoy en día. En una sola imagen se pueden representar ideas complejas y múltiples. La tendencia está cambiando de textos a imágenes y gráficos en movimiento. Los investigadores dicen que Las imágenes son muy poderosas y la mayoría elige imágenes para comprender el mensaje porque son el punto de entrada a las historias: añaden significado y afectan notablemente al estado psicológico, la memoria y las emociones de las personas. Si bien tenemos ML y LLM más grandes, la popularidad de las herramientas de IA para generar imágenes se ha disparado en los últimos tiempos.
Midjoruney, Dall-E, Google Gemini y Stable Diffusion (Stability) son algunas herramientas de software de generación de imágenes populares en todo Internet. Si bien Midjourney ha liderado la carrera hasta ahora, pensamos que existe una gran necesidad de comparar el resto de las herramientas de generación de imágenes de IA: Dall -E vs. Google Gemini vs. Stable Diffusion.
Hagamos una breve introducción antes de comparar las herramientas de software de generación de imágenes de IA.
¿Qué es DALL–E?
DALL–E es un modelo de inteligencia artificial que genera imágenes o ilustraciones a partir de descripciones textuales que los usuarios introducen como indicaciones. Para crear una imagen en línea con el texto, traduce miles de millones de fragmentos de texto de todo Internet en un resumen. Esta información almacenada se utiliza luego como herramienta de referencia para describir la información y, finalmente, crear imágenes orientadas a las indicaciones. El modelo DALL–E está disponible a través de ChatGPT.
¿Qué es Google Gemini?
Google introdujo la herramienta de generación de imágenes con IA a través de Gemini en 2024. Gemini es el conjunto principal de modelos de IA de Google y está equipado para producir imágenes según las indicaciones de los usuarios. Aunque Google Gemini aparece más en las noticias debido a sus imprecisiones históricas y respuestas cuestionables, el generador de imágenes con IA Gemini es conocido por proporcionar ilustraciones/imágenes que se acercan mucho a la imaginación del usuario.
¿Qué es la difusión estable?
Stable Diffusion es de Stability AI, una IA generativa de código abierto líder (GenAI) empresa que tiene como objetivo ofrecer modelos de IA innovadores y de acceso abierto que requieren recursos mínimos para crear imágenes, lenguaje, audio y código. Stable Diffusion es la última y más avanzada tecnología T2I (Text-to-Image) que comprende 2 mil millones de parámetros.
Herramientas de generación de imágenes con IA: creciente popularidad e impacto
La inteligencia artificial ha hecho que las herramientas de generación de imágenes sean más eficientes y precisas en relación con las indicaciones. Los generadores de imágenes de IA son inmensamente populares entre los especialistas en marketing y los creadores de contenido para mejorar su contenido con gráficos llamativos y atractivos.
Las estadísticas revelan que solo Menos del 40% de los especialistas en marketing utilizan IA generativa para crear imágenes para publicaciones en redes sociales. Además, el 36 % de ellos aprovecha el poder de los generadores de imágenes de IA para crear imágenes para sitios web.
¿Quiere saber cómo ChatGPT puede hacer maravillas en su negocio y aumentar su crecimiento y eficiencia?
DALL–E vs Google Gemini vs Stable Diffusion: comparación de generadores de imágenes con inteligencia artificial
Para comparar las herramientas de IA para la generación de imágenes, decidimos tener un mensaje común para ejecutar en estas tres plataformas diferentes. El objetivo era comprender cómo estas herramientas de IA para la generación de imágenes buscan los textos y utilizan sus algoritmos y modelos para crear imágenes. Consideramos tres parámetros generales para evaluar las herramientas de IA para la generación de imágenes:
- ¿Qué tan bien entiende la herramienta generadora de IA el mensaje con detalles?
- ¿Cuánto tiempo de respuesta se necesita para generar resultados de texto a imagen?
- ¿Cómo se creó la imagen principal y qué se puso en el entorno y el fondo?
Experimento con el mensaje n.° 1 para la generación de imágenes con IA
Cree una imagen de una llave ornamentada de la época victoriana sobre una superficie de madera desgastada, con engranajes y mecanismos intrincados de inspiración steampunk visibles dentro de su eje de vidrio transparente.
DALL – E (a través de ChatGPT) | Google Géminis | Difusión estable |
Tiempo de respuesta: 6-9 segundos | Tiempo de respuesta: 7-9 segundos | Tiempo de respuesta: 4-6 segundos |
Intento: 1 | Intento: 1 | Intento: 1 |
Los parámetros
¿Qué tan bien entiende la herramienta generadora de IA el mensaje y lo detalla?
CIEGO – E (ChatGPT)
DALL-E entendió el mensaje tal como lo queríamos. Creó exactamente lo que habíamos pensado. El generador de imágenes de IA entendió muy bien las instrucciones: inspiró engranajes y mecanismos visibles dentro de su eje de vidrio transparente. De hecho, también creó un mecanismo transparente en el eje junto con la cabeza. DALL-E creó a la perfección una llave de la época victoriana. El generador de imágenes de IA también elaboró una llamativa superficie de madera desgastada. El color cobrizo combinaba perfectamente con el mensaje y la imagen que habíamos creado en nuestras mentes. En general, fue una imagen detallada con rasgos nítidos y un diseño real de la llave.
Lo que nos encantó
- Luz natural creada sobre el cristal.
- La madera
- La medialuna del cristal en el lado de la sombra
Google Géminis
A diferencia de DALL–E y Stable Diffusion, Google Gemini siempre ofrecía múltiples opciones. Cada imagen tenía un enfoque ligeramente diferente, lo que significa que el usuario puede tener diferentes opciones a partir de la indicación. Sin embargo, en este caso, las tres teclas no impresionaban, ya que les faltaba una parte esencial del “mecanismo transparente” en la cabeza. El creador de imágenes de IA produjo una tecla que se ajustaba a nuestra descripción; sin embargo, no nos pareció impresionante. Aquí, solo una tecla con el cristal de la cabeza de la tecla estaba a la altura. El ángulo de la tecla era tal que los detalles en el mecanismo transparente no eran tan visibles. En general, el generador de imágenes de IA no hizo un buen trabajo para nosotros en este caso.
Difusión estable
Stable Diffusion lo hizo todo perfecto, tal como queríamos. Tenía un mecanismo transparente y un eje de vidrio. La llave se veía majestuosa, pero esperábamos que la tapa de vidrio en la cabeza de la llave no estuviera. En general, la imagen centrada en los detalles y en el mensaje fue bastante satisfactoria. Stable Diffusion hizo un trabajo maravilloso. La imagen tenía una llave más grande con todos los detalles visibles. Aunque el mecanismo transparente no era tan impresionante, la herramienta de generación de IA entendió el mensaje y produjo la ilustración relevante. Sin embargo, observamos que faltaba una parte importante: la tapa de vidrio en la cabeza de la llave.
Lo que nos encantó:
- El primer plano de la llave
- El diseño victoriano
Puntos a contar:
- DALL – E: 1
- Google Géminis: 0
- Difusión estable: 0,5
¿Siente curiosidad acerca del impacto transformador que está teniendo la IA en el sector empresarial?
¿Cuánto tiempo de respuesta se necesita para generar resultados de texto a imagen?
La herramienta de generación de imágenes con IA, DALL-E, tardó entre 6 y 8 segundos. Por otro lado, el software de generación de imágenes con IA de Google Gemini tardó entre 7 y 9 segundos en comprender y crear la imagen. Por último, Stable Diffusion fue bastante rápido, ya que esta herramienta de generación de imágenes con IA tardó entre 5 y 7 segundos en crear la imagen centrada en las indicaciones.
Puntos a contar:
- DE-E: 1
- Google Géminis: 1
- Difusión estable: 1
¿Cómo se creó la imagen principal y qué se puso en el entorno y el fondo?
DALL -E
La imagen principal creada fue la indicada. No hubo nada adicional, lo que significa que el software generador de imágenes de IA siguió las instrucciones estrictamente sin agregar nada que no se le solicitara.
Google Géminis
El generador de IA de Google Gemini proporcionó algunas opciones para el mismo mensaje, lo que hizo que esta herramienta de generación de imágenes con IA fuera un poco más completa y holística. Si bien tres imágenes crearon un bosque, se presentó una imagen con césped natural que nos llamó la atención. Parecía relajante, pero no lo pedimos.
Difusión estable
Al igual que DALL-E, Stable Diffusion hizo un trabajo estupendo al crear la imagen principal y los alrededores según las indicaciones. La madera era exactamente como la queríamos. No agregó nada adicional que no hubiéramos pedido.
Recuento de puntos:
- DE-E: 1
- Google Géminis: 1
- Difusión estable: 1
Experimento con el mensaje n.° 2
Fotograma de película cinematográfica, primer plano, fotografía de un guerrero dragón de escamas doradas con una armadura de placas completa, en un estilo de fantasía hiperrealista.
DALL – E (a través de ChatGPT) | Google Géminis | Difusión estable |
Tiempo de respuesta: 6-9 segundos | Tiempo de respuesta: 8-10 segundos | Tiempo de respuesta: 5-8 segundos |
Intento: 1 | Intento: 1 | Intento: 1 |
Los parámetros
¿Qué tan bien entiende la herramienta generadora de IA el mensaje?
DALL-E
El ChatGPT hizo un trabajo fantástico al mostrarnos el primer plano del guerrero dragón. Los colores utilizados fueron vibrantes y la criatura de escamas doradas se veía impresionante. Las púas en el cuerpo y la armadura eran detalladas y nítidas. Sin embargo, lo que observamos fue que este generador de imágenes de IA tomó nuestra indicación de manera bastante literal. La frase “fotograma cinematográfico” hizo que DALL-E creara la claqueta y la mostrara en la imagen. Si bien es impresionante que el motor de IA se tome en serio las indicaciones, esperábamos que se entendiera como una escena cinematográfica en lugar de centrarse en BTS.
Google Géminis
Google Gemini simplemente cambió la armadura con diferentes diseños para tres de sus resultados. Cada uno tenía un enfoque de acercamiento/alejado diferente. El rostro del guerrero dragón de escamas doradas se mantuvo casi similar. La cuarta imagen mostraba una pose más grande del guerrero con más elementos en el fondo. Todas las imágenes se veían un poco aburridas en comparación con el resto de las herramientas.
Difusión estable
Se mostró una sola toma con un guerrero dragón detallado. Impresionantemente, la cabeza del dragón se fusionó con celada y bevor para parecer más agresivo. El diamante azul combinaba bastante bien con una hombrera y una coraza bañadas en oro. La túnica azul del guerrero se veía atractiva en el cuerpo.
Lo que nos encantó:
- El primer plano del guerrero
- Diamantes
- Túnica de guerrero
Recuento de puntos:
- DALL – E: 0.5
- Google Géminis: 0
- Difusión estable: 1
¿Cuánto tiempo de respuesta se necesita para generar resultados de texto a imagen?
El generador de imágenes con IA DALL-E tardó entre 6 y 9 segundos. Por otro lado, el software de generación de imágenes con IA Google Gemini tardó entre 8 y 10 segundos en comprender y crear la imagen. Por último, Stable Diffusion fue bastante rápido, ya que esta herramienta de generación de imágenes con IA tardó entre 5 y 8 segundos en crear la imagen centrada en el mensaje.
Puntos a contar:
- DE-E: 1
- Google Géminis: 0
- Difusión estable: 1
¿Cómo se creó la imagen principal y qué se puso en el entorno y el fondo?
DALL -E
La imagen principal creada fue la indicada en el mensaje. Sin embargo, una adición notable fue la claqueta, ya que el motor de IA se tomó el mensaje muy en serio. La frase “cinematográfica” se tomó demasiado literalmente y el generador de imágenes de IA pensó en incluir lo que se ve detrás de escena.
Google Géminis
El generador de imágenes con inteligencia artificial de Google Gemini mostró cuatro opciones para el mismo mensaje, lo que hizo que esta herramienta de generación de imágenes con inteligencia artificial fuera un poco más completa y holística. Sin embargo, tres de esas imágenes eran casi iguales, con pequeños cambios de diseño en el conjunto de armaduras. La cuarta imagen era una imagen ampliada del guerrero con un planeta. La herramienta intentó mostrar el campo de batalla, pero parecía más una región extraterrestre.
Difusión estable
Hasta ahora, Stable Diffusion fue el mejor en la creación del guerrero dragón de escamas doradas con un primer plano detallado. El fondo mostraba un castillo que cumplía con nuestro propósito de darle un aire bélico. En general, esta imagen era algo que queríamos a través del mensaje.
Recuento de puntos:
- DE-E: 1
- Google Géminis: 0
- Difusión estable: 1
¿Google Gemini, Copilot o ChatGPT? ¡Sumérgete en el duelo definitivo de IA y descubre cuál de ellos es el mejor para tus necesidades!
Experimento con el mensaje n.° 3
Cree remolinos vibrantes y explosivos de pintura naranja, amarilla, rosa y azul que caen en cascada desde el techo sobre un piso gris pulido en una galería de arte, contrastando con pinturas abstractas monocromáticas en paredes blancas y creando una escena dinámica y enérgica bajo una iluminación brillante y enfocada.
DALL – E (a través de ChatGPT) | Google Géminis | Difusión estable |
Tiempo de respuesta: 4-6 segundos | Tiempo de respuesta: 6-8 segundos | Tiempo de respuesta: 5-8 segundos |
Intento: 1 | Intento: 1 | Intento: 1 |
Los parámetros
¿Qué tan bien entiende la herramienta generadora de IA el mensaje?
Google Géminis
En esta ocasión, Google Gemini se adelantó un poco y creó cuatro opciones diferentes en lugar de presentar imágenes similares con cambios triviales como en el pasado. Sin embargo, el generador de imágenes de IA no captó las instrucciones del mensaje en dos de sus imágenes. La herramienta mostró una caída recta de pintura naranja, rosa y amarilla, pero omitió dos cosas esenciales: el remolino y el color azul. Sin embargo, el resto de las dos imágenes sí incluían los colores (incluido el azul) mencionados en el mensaje. Pero, una vez más, aunque incluía el color azul en dos imágenes, la herramienta no pudo centrarse en tener pinturas abstractas monocromáticas. En general, cada una de las imágenes creadas omitió algo del mensaje. La imagen superior derecha no mostraba el suelo ni la profundidad de la imagen; en cambio, parecía como si los colores salieran de la nada.
DALL-E (ChatGPT)
Esta herramienta creó la imagen más impresionante a partir de la indicación. Se crearon hermosos remolinos de todos los colores mencionados en la indicación. No solo eso, el generador de imágenes de IA se ganó nuestros corazones al mostrar el piso con bolas esféricas de colores. La herramienta logró mostrar pinturas abstractas monocromáticas en las paredes blancas. Esta fue la única herramienta que incluyó iluminación brillante y enfocada en la imagen como se indica en la indicación.
Difusión estable
Stable Diffusion entendió rápidamente el mensaje, pero no incluyó la pintura azul con el mismo peso que el resto de los colores. Solo había una fracción del color azul. El generador de imágenes de IA tampoco detectó la pintura monocromática, pero logró mostrar el piso gris. Tampoco logró crear una iluminación brillante y enfocada, que era parte del mensaje.
Recuento de puntos:
- DALL – E: 1
- Google Géminis: 0
- Difusión estable: 0,5
¿Cuánto tiempo de respuesta se necesita para generar resultados de texto a imagen?
Google Gemini creó cuatro opciones y tardó entre 4 y 6 segundos en el primer intento. De manera similar, un intento fue suficiente para que el generador de imágenes DALL-E AI creara una imagen en 6 a 8 segundos. Por último, Stable Diffusion tardó entre 5 y 8 segundos en crear la imagen a partir del mensaje en el primer intento.
Puntos a contar:
- DE-E: 1
- Google Géminis: 1
- Difusión estable: 1
¿Cómo se creó la imagen principal y qué se puso en el entorno y el fondo?
Google Géminis
La herramienta no solo no logró seguir la indicación de manera literal, sino que también creó el fondo con su propia luz. La iluminación enfocada se mostró en las pinturas de la pared, mientras que la indicación mencionaba que debería estar en los remolinos de pintura. Asimismo, las dos imágenes a continuación no lograron captar las pinturas de la pared. Solo la primera imagen (esquina superior izquierda) se acercó un poco a la indicación, pero luego no logró crear escenas atractivas ni pinturas monocromáticas.
DALL-E
Esta fue la generación de imágenes más impresionante a partir del mensaje. ChatGPT creó remolinos alucinantes que surgían desde arriba y se estrellaban contra el piso gris. Lo que nos encantó fueron las ventanas que mostraban la luz ambiental natural enfocada en la caída. Además, el generador de imágenes de IA logró incluir pinturas monocromáticas en las paredes blancas.
Lo que nos encantó:
- Remolinos
- Los detalles generales de la imagen
- Las ventanas y las luces ambientales.
- Las bolas de colores en el suelo.
- La profundidad del campo con pinturas
- El techo
Difusión estable
La proporción de los remolinos del techo y el resto de la habitación no coincidía y, por lo tanto, parecía demasiado artificial. Además, la herramienta no logró crear una pintura monocromática típica porque ambas pinturas tienen un rastro de otros colores o matices. La herramienta logró obtener el piso y el techo grises, pero en general, la imagen no coincidió con nuestras expectativas, aunque era mejor que Google Gemini.
Recuento de puntos:
- DE-E: 1
- Google Géminis: 0
- Difusión estable: 0,5
Experimento con el mensaje n.° 4
A la sombra del último sol, un pescador se había quedado dormido y tenía un surco en el rostro, como una especie de sonrisa.
DALL – E (a través de ChatGPT) | Google Géminis | Difusión estable |
Tiempo de respuesta: 4-6 segundos | Tiempo de respuesta: 8-10 segundos | Tiempo de respuesta: 5-7 segundos |
Intento: 1 | Intento: 1 | Intento: 1 |
Los parámetros
¿Qué tan bien entiende la herramienta generadora de IA el mensaje?
Google Géminis
Intentamos utilizar instrucciones muy breves, claras y sencillas, a pesar de que Google Gemini no logró analizarlas en profundidad y generó imágenes bastante irrelevantes. Ninguna de las imágenes mostraba la cara del pescador, por lo que no había posibilidad de evaluar el surco y la sonrisa. Dos de las imágenes eran más bien una silueta sin detalles. La cuarta imagen estaba completamente fuera de lugar y mostraba a un pescador durmiendo en el bote sin rastro del último sol. Una de las imágenes se centraba más en la canoa y el mar con un pequeño pescador.
DALL-E
ChatGPT eligió mostrarnos un primer plano de un pescador. La herramienta logró captar el último sol y al hombre durmiendo plácidamente. El surco que se creó a lo largo de su rostro fue impresionante y la pequeña sonrisa que se creó a partir de él fue digna de mención.
Lo que nos encantó:
- El último sol
- Los rayos del sol
- Las sombras y sombras del pescador
- La tela y el sombrero del hombre.
Difusión estable
Stable Diffusion hizo un trabajo mucho mejor que Google Gemini; sin embargo, no se comparaba con la imagen creada por la herramienta de generación de imágenes DALL-E AI. La imagen mostraba a un pescador tumbado en su canoa y en el horizonte se veía el último sol. La imagen muestra que está navegando en medio del océano. Sin embargo, debido a que la imagen es de tipo silueta, el surco y la sonrisa que se creaban no eran visibles.
Recuento de puntos:
- DE-E: 1
- Google Géminis: 0
- Difusión estable: 0
¿Cuánto tiempo de respuesta se necesita para generar resultados de texto a imagen?
DALL-E ChatGPT tardó entre 4 y 6 segundos en crear la mejor imagen que se alineara con la indicación en un solo intento. Stable Diffusion tardó entre 5 y 7 segundos en comprender la indicación y crear la imagen de un pescador no tan detallado. Google Gemini no solo tardó entre 8 y 10 segundos (el tiempo más largo), sino que también decepcionó con los resultados.
Puntos a contar:
- DE-E: 1
- Google Géminis: 0
- Difusión estable: 0
Revolucione el desarrollo de sus aplicaciones web y móviles con experiencia en inteligencia artificial de vanguardia y preparada para el futuro.
Colabore con nuestro equipo de desarrollo de inteligencia artificial experto
¿Cómo se creó la imagen principal y qué se puso en el entorno y el fondo?
Google Géminis
Google Gemini creó un fondo opaco sin detalles. Lo más sorprendente fue la imagen de la esquina donde se omitió el sol poniente y se reemplazó por una escena de cuento de hadas de una casa, una canoa, un pescador y flores en el patio delantero. El resto de las imágenes tenían mares en el fondo con algún tipo de luz del sol poniente, pero ninguna de ellas era impresionante. Las imágenes tenían más oscuridad donde no era posible mostrar detalles del pescador.
DALL-E
Esta fue la generación de imágenes de IA más impresionante a partir de la indicación. ChatGPT siguió las instrucciones al pie de la letra. Una imagen nítida y clara de un pescador con un surco fue significativa. El fondo mostraba el sol poniente con suficiente luz ambiental para resaltar la silueta de la canoa y las redes de pesca. Además, la luz ambiental creada en el rostro del pescador fue impresionante, ya que definió claramente los pliegues de la cara y la fina tela de la camisa del hombre.
Lo que nos encantó:
- Primer plano del pescador
- El ambiente general del anochecer
- Rasgos afilados en la cara
- El surco y la sonrisa que hizo
- La tela y los detalles de la camisa.
- La expresión de la cara
Difusión estable
Stable Diffusion produjo un cielo bonito con el sol poniente en el horizonte. El agua mostraba un reflejo de la luz del sol. Sin embargo, el tamaño del pescador y su canoa podría haber sido un poco mejor para que pareciera natural. Los efectos de silueta obstaculizaron el propósito del mensaje, ya que faltaban por completo un surco y una sonrisa creada a partir de él. La herramienta no dejó de mostrar una caña de pescar cayendo de la canoa. En general, la imagen era bonita, pero no cumplía con el propósito.
Recuento de puntos:
- DE-E: 1
- Google Géminis: 0
- Difusión estable: 0,5
Experimento con el mensaje n.° 5
Chica anime, chica caballero, flequillo contundente, corte hime, orejas puntiagudas, ópalo perlado, muy estético, obra maestra, mejor calidad, hiperdetallado, ultradetallado, UHD, anatomía perfecta, espada, deslumbrante, transparente, espada ondeante, plata bruñida, armadura de acero, armadura brillante, armadura deslumbrante, ilustración detallada, obra de arte oficial, fondo de pantalla, arte oficial, ojos y rostro extremadamente detallados, hermosos ojos detallados, ojo azul.
DALL – E (a través de ChatGPT) | Google Géminis | Difusión estable |
Tiempo de respuesta: 6-8 segundos | Tiempo de respuesta: 6-8 segundos | Tiempo de respuesta: 4-6 segundos |
Intento: 1 | Intento: 1 | Intento: 1 |
Los parámetros
¿Qué tan bien entiende la herramienta generadora de IA el mensaje?
Difusión estable
Stable Diffusion produjo de manera prolija a la niña caballero con una vista detallada de casi todo lo que mencionaba el mensaje, como orejas afiladas, espada ultra detallada, armadura de acero y brillante y ojos azules. Parece que la herramienta de generación de imágenes de IA no se ha saltado ni una sola instrucción. En realidad, pedimos demasiado e intentamos confundir al motor de IA al preguntar lo mismo de diferentes maneras y con diferentes avatares. Sin embargo, Stable Diffusion hizo su trabajo. La toma que produjo fue un primer plano de una niña rubia que parecía un caballero confiado.
Google Géminis
Google Gemini produjo primero sólo dos imágenes, a diferencia de su modelo que nos da cuatro opciones. Se detuvo después de generar dos imágenes y nos pidió “Generar más”. Sin embargo, si hablamos de las dos primeras imágenes generadas por IA, muestran a la niña caballero de frente y en una pose de retrato. Una imagen mostraba la espada (que no parecía como uno pensaba, era más como un faro de Star Wars), y la otra imagen no la mostraba. Sorprendentemente, la herramienta de generación de imágenes de IA Google Gemini mostró una imagen en la que la niña tenía cuernos. En ambas imágenes no se veían las orejas puntiagudas. El primer intento no pudo producir las cuatro imágenes. En el segundo intento, Google Gemini se dio por vencido y mostró un mensaje: No puedo generar estas imágenes. Ingrese un nuevo mensaje para generar más imágenes.
DALL-E (ChatGPT)
Este modelo de generador de imágenes de IA produjo una imagen que era directamente del mensaje. Sin embargo, para nuestra sorpresa, mostraba la imagen verticalmente. Cuando se corrigió localmente, la imagen estaba en modo horizontal. La imagen mostraba a una niña caballero, pero era más un personaje infantil. Produjo una espada brillante. A DALL-E parece encantarle los diamantes y eso es lo que también se mostró en esta imagen. La niña llevaba armadura y tenía orejas puntiagudas como indicaba el mensaje. Estaba vestida elegantemente con una flor en la corona.
Recuento de puntos:
- DALL-E: 0,5
- Google Géminis: 0
- Difusión estable: 1
¿Cuánto tiempo de respuesta se necesita para generar resultados de texto a imagen?
DALL-E, para su trabajo con ChatGPT, tardó entre 4 y 6 segundos en generar una imagen horizontal de la joven caballero, mientras que Google Gemini necesitó dos intentos (que superaron los 10 segundos en total) para generar dos imágenes, y tampoco alcanzaron los resultados esperados. Stable Diffusion tardó entre 6 y 8 segundos en generar una imagen casi perfecta a partir de la indicación.
Recuento de puntos:
- DE-E: 1
- Google Géminis: 0
- Difusión estable: 1
¿Cómo se creó la imagen principal y qué se puso en el entorno y el fondo?
Difusión estable
La imagen principal creada por la herramienta de generación de imágenes de IA Stable Diffusion estuvo a la altura, ya que mostró todo en detalle y según el mensaje. El fondo era un hermoso cielo con nubes que combinaban con las sombras del personaje principal. La sombra y el reflejo del cielo y la luz del sol eran visibles en la armadura de la niña caballero.
Google Géminis
Era un fondo sencillo sin detalles para la chica caballero. La espada parecía más bien una baliza láser y el personaje parecía más bien una bestia con cuernos en la cabeza. La herramienta también carecía de orejas puntiagudas y ojos azules atractivos. No había nada que nos atrajera en la imagen.
DALL-E
Los detalles de esta imagen eran dramáticos y no tan reales como los que encontramos en Stable Diffusion. En el caso de DALL-E, eran más caricaturescos. La niña parecía una niña china en lugar de un caballero con audacia. La imagen mostraba diamantes gráficos que parecían más destellos de lente en algunos lugares. También observamos que era una imagen de mosaico donde se pueden encontrar dos copias más de los personajes principales en el fondo. No estamos seguros de lo que significa porque no estaba en el mensaje.
Recuento de puntos:
- DALL-E: 0,5
- Google Géminis: 0
- Difusión estable: 1
El recuento total: DALL-E vs Gemini vs Stable Diffusion
Si observamos los puntos obtenidos para todas las preguntas de todos los generadores de imágenes de IA, obtenemos esta puntuación:
Indicación 1
Preguntas | DALL-E | Google Géminis | Difusión estable |
Pregunta 1 | 1 | 0 | 0.5 |
Pregunta 2 | 1 | 1 | 1 |
Pregunta 3 | 1 | 1 | 1 |
Total | 3 | 2 | 2.5 |
Indicación 2
Preguntas | DALL-E | Google Géminis | Difusión estable |
Pregunta 1 | 0.5 | 0 | 1 |
Pregunta 2 | 1 | 0 | 1 |
Pregunta 3 | 1 | 0 | 1 |
Total | 2.5 | 0 | 3 |
Indicación 3
Preguntas | DALL-E | Google Géminis | Difusión estable |
Pregunta 1 | 1 | 0 | 0.5 |
Pregunta 2 | 1 | 1 | 1 |
Pregunta 3 | 1 | 0 | 0.5 |
Total | 3 | 1 | 2 |
Indicación 4
Preguntas | DALL-E | Google Géminis | Difusión estable |
Pregunta 1 | 1 | 0 | 0 |
Pregunta 2 | 1 | 0 | 0 |
Pregunta 3 | 1 | 0 | 0.5 |
Total | 3 | 0 | 0.5 |
Indicación 5
Preguntas | DALL-E | Google Géminis | Difusión estable |
Pregunta 1 | 0.5 | 0 | 1 |
Pregunta 2 | 1 | 0 | 1 |
Pregunta 3 | 0.5 | 0 | 1 |
Total | 2 | 0 | 3 |
Los resultados finales: DALL-E vs Gemini vs Stable Diffusion
Indicaciones | DALL-E | Google Géminis | Difusión estable |
Indicación 1 | 3 | 2 | 2.5 |
Indicación 2 | 2.5 | 0 | 3 |
Indicación 3 | 3 | 1 | 2 |
Indicación 4 | 3 | 0 | 0.5 |
Indicación 5 | 2 | 0 | 3 |
Total | 13.5 | 3 | 11 |
En nuestras pruebas exhaustivas de herramientas de generación de imágenes con IA, se evaluaron DALL-E, Google Gemini y Stable Diffusion utilizando el mismo mensaje. DALL-E resultó ser la herramienta con mejor rendimiento, con una puntuación de 13,5 sobre 15, y se destacó en el detalle de la imagen, el cumplimiento de las instrucciones y la calidad de los fondos.
Stable Diffusion obtuvo el siguiente resultado, con una puntuación de 11, y demostró una gran precisión y calidad de imagen, aunque un poco menos consistente en los elementos de fondo. Google Gemini, con una puntuación de 3, no logró seguir con precisión las instrucciones ni producir imágenes detalladas.
Veredicto
Soportes DALL-E como la herramienta más confiable para generar imágenes detalladas y de alta calidad que se alinean estrechamente con las indicaciones dadas. Sin embargo, nuestros hallazgos se basan en parámetros de prueba específicos y las experiencias individuales pueden variar. Le recomendamos explorar cada herramienta de IA para determinar cuál se adapta mejor a sus necesidades específicas.
Hashtags sociales
#GeneraciónDeImágenesAI #DALLEvsGemini #AIDifusiónEstable #BatallaDeArteAI #ComparaciónAI #TecnologíaDeGeneraciónDeImágenesAI #CreadoresDeImágenesAI #AICreativa