Creando imágenes con IA
Ya desde hace meses casi todas las imágenes que ilustran estos posteos son generadas por IA. Específicamente, las genero utilizando Creador de Imágenes de Bing, la versión de Copilot de Microsoft que se encarga de las artes plásticas.
Enterado del lanzamiento de Imagen 3, la IA generadora de imágenes que Google le agregó a su Gemini, decido hacer alguna comparación. En especial atendiendo a los muy buenos comentarios que leí respecto de la calidad realista de sus creaciones. Y allí fuimos…
Empezamos con el pie izquierdo
Busco en Google «Imagen 3» y llego a su web de presentación. Voy directo a lo que me importa:

Doy click en Try in on Gemini, escribo el primer prompt pidiendo una imagen simple y aguardo la respuesta…
Lo que me pides está fuera de mis capacidades programadas. Solo genero texto.
Resulta que, pese a las fanfarrias, Imagen 3 hoy todavía no está disponible directamente en Gemini desde ordenadores, pero hay otras opciones. En la cocina de pruebas de Google tenemos ImageFX y alli sí, Imagen 3 está funcionando.
Empezamos a probar
La idea no es muy compleja ni ambiciosa. Simplemente se trató de ingresar el mismo prompt en Bing Image Creator y en Image 3 para comparar los resultados.
El primero:
Un perro de arena acechando a una paloma de cristal, digital photo
Resultado de Image 3

Imagen 3 entendió que quería un perro, arena y algo de cristal. La paloma, quizás la próxima. Y lo de acechar, talvez Gemini debería pedirle ayuda al buscador de su pariente, Google…
Resultado de Bing Image Creator

Bastante mejor. Está claro que no es lo que pedí pero ninguna de las 2 IA entendió eso de «perro de arena», pero al menos metieron arena suficiente en la imagen. Así cómo Gemini me dió cristal sin paloma, Bing me da una paloma y el cristal se lo comió. De todas formas, con todo y sus errores, la imagen ofrecida por Bing se acerca bastante más a la idea general del prompt ingresado, mientras que la calidad de imagen y atención al detalle de la imagen producida por Gemini es asomborosa.
Segundo intento
Un mono motociclista montando una motocicleta voladora, foto digital
Resultado de Image 3

Resultado de Bing Image Creator

Sospecho que, muy en español, las IA interpretan que les estoy pidiendo un motociclista muy mono. Bing va un paso más allá e interpreta que “voladora” es la marca de la moto, (entendiendo por experiencias anteriores que siempre alteran los textos que podrían infringir propiedad intelectual o generarle problemas, asi que el “volddora” en el tanque, sería la mención de lo que Bing interpretó como una marca, sin comprometerse). Pero ninguna de las 2 IA estuvo ni siquiera cerca de lo pedido. Seguramente la culpa haya sido mi prompt mal diseñado (que para eso existen hoy los Prompt Engineers), por lo que reintento cambiando «mono motociclista» por, simplemente, «mono».
Resultado de Image 3

Lo de “moto voladora” te lo debo, pero al menos casi acierta con el mono (que me devolvió un chimpancé, pero dejemos pasar la confusión zoológica). Lo que es innegable es la calidad de la imagen, absolutamente realista.
Resultado de Bing Image Creator

Increíble! Casi cómo si me hubiese leído la mente, Bing me devuelve incluso una versión mejorada de lo que yo había imaginado. Y hablando de imaginación, evidentemente, lo que cenó Bing esta noche no eran gírgolas…
La del estribo
No podía dejar de probar una con mis queridos aliencitos de cada posteo… pruebo en ambas IA el siguiente prompt:
Un alienígena sosteniendo una bola de bowling hecha de diamantes en medio de una avenida muy transitada
Resultado de Image 3
… nada. Imagen 3, al primer intento, nos devuelve recuadros vacíos. No se le ocurrió nada o fue un error del software? Vaya uno a saber. Intentamos de nuevo y nos ofrece la siguiente imagen:

Tenebrosamente realista. Claro que si esa es la bola de bowling, no quiero imaginarme los bolos… pero la calidad es excelente.
Resultado de Bing Image Creator
La IA de Bing, presenta orgullosa sus acostumbrados 4 resultados:




A primera vista, en todas las pruebas es notable la calidad y el realismo de las imágenes de Imagen 3 de Gemini. Pero también se nota lo mucho que le cuesta entender algunas cosas. Cómo lo que debió ser una moto voladora, que un chimpancé no es un mono y que al menos podría haber intentado respetar las proporciones de una bola de bowling.
Bing Image Creator potenciado por Copilot, en cambio, parece priorizar cierto vuelo creativo en sus imágenes y no tanto el realismo de una foto. Es como si tuviese un ajuste oculto, algo así como “Aplicar Cannabis” activado por default, que por momentos se pasa a «Modo full hongo». Pero dependiendo de lo que busques, puede ser súmamente últil.
Tambien descubro que casi siempre interpreta con menos dificultad los prompt que le ingreso.
Y es más… a medida que experimento, me doy cuenta de que las imágenes que obtengo cada vez se ajustan más a lo que quería, al primer intento, e incluso cuando mis prompts no fueron muy claros ni específicos: la IA se retroalimenta del usuario y va aprendiendo de mis elecciones, que tipo de imágenes espero recibir. Y en eso se basa cada vez con mayor nivel de acierto para construirlas. A Imagen 3, por otro lado, apenas la he usado unas horas para estas pruebas por lo que de mis gustos y maneras de pedir las cosas, la pobrecita sabe poco y nada. Démosle un crédito porque la calidad de sus imágenes ya es lo suficientemente prometedora como para merecerlo. Habrá que seguir probando…
Salute!