La inteligencia artificial (IA) avanza a gran velocidad en la creación de textos (como se ha visto con ChatGPT y otros chatbots impulsados por IA), pero también en la composición de imágenes y vídeos. Las actualizaciones de herramientas como Midjourney o DALL-E (programas en los que, con una descripción precisa, puedes generar imágenes) han demostrado que se ha perfeccionado esta tecnología hasta el punto de crear imágenes hiperrealistas cada vez más difíciles de distinguir de fotografías reales. Analizamos con expertos la evolución de estas inteligencias artificiales y vemos en qué aún no afinan en la Maldita Twitchería Tecnológica.
La revolución de la IA en la creación de imágenes: ¿cómo hemos llegado hasta aquí?
La evolución de esta tecnología ha sufrido un fuerte impulso en el último año. “El boom de la IA vino por la parte del texto y, en paralelo, estas tecnologías [de IA generativa aplicada a imágenes] siguieron avanzando. Hace un año nadie tenía presente esta tecnología y ahora mismo genera imágenes completamente fotorealistas”, explica a Maldita.es Xavier Mitjana, divulgador de tecnología e inteligencia artificial.
El primer hito fue DALL-E, indica Mitjana: “Los primeros modelos que se pueden considerar funcionales (los que generaban imágenes que se podían usar en determinados contextos) llegaron en abril o marzo de 2022”. En julio de 2022 OpenIA lanzó la versión beta de DALL-E 2 que, según añade el experto, “daba buenos resultados pero se quedó en anécdota por su interfaz, usabilidad y estilo”.
La verdadera revolución en la generación de imágenes llegó de la mano de Midjourney, especialmente con las últimas versiones. “De la versión 3 a la 4 hubo un salto enorme. Y ahora llega la V5, que no solo hace imágenes fotorrealistas, sino que puedes pedirle cosas de un nivel de complejidad bastante alto y completo”, explica Mitjana. La quinta versión de Midjourney se lanzó en marzo de 2023.
“Llevo trabajando en esto doce años, y si hace un año me hubiera preguntado alguien si yo creía que dentro de dos meses íbamos a tener unas inteligencias artificiales que pueden transformar lo que tú estás pensando en una imagen hubiera dicho que es imposible”, asegura a Maldita.es Álvaro Barbero, director de IA en el Instituto de Ingeniería del Conocimiento (IIC). El experto subraya la velocidad a la que se está moviendo todo esto: “En muy poco tiempo está avanzando muchísimo, tanto en técnica de análisis de texto como de vídeo o imágenes. Nos cuesta estar al día de los cambios incluso a los que estamos metidos en este campo”.
Estas herramientas han mejorado en el estilo, los detalles y la luz; incluso en cómo dibujan las manos (casi siempre)
Además de la velocidad, lo diferencial de esta revolución de la IA es la manera directa en que sus efectos están llegando a la sociedad. Hemos visto imágenes de Elon Musk, el papa Francisco, Vladimir Putin, Xi Jing Pin y Julian Assange generadas con inteligencia artificial que se difunden como reales en redes sociales y webs. El Mundo publicó en su portada una imagen generada con inteligencia artificial de Yolanda Díaz y Pablo Iglesias para alertar del gran desafío que tenemos por delante con la IA para “distinguir la verdad de la mentira”. ¿Aún es posible?
Con esta evolución, las herramientas han mejorado tanto sus resultados que los detalles en los que falla son menos evidentes y algunos de los consejos que compartimos en Maldita.es ya no sirven. Desde que se lanzó la quinta versión de Midjourney varios usuarios han compartido en redes sociales imágenes creadas con esta herramienta y son mucho más realistas. “Con la V4 de Midjourney era relativamente sencillo identificar cuando una imagen estaba hecha con esta herramienta porque les impregnaba un estilo característico. La nueva versión lo hace bastante mejor”, asegura el divulgador de tecnología e inteligencia artificial Xavier Mitjana.
Como se puede apreciar en el ejemplo anterior, la V5 de Midjourney ha mejorado en los estilos. “El nuevo dataset [que emplea esta herramienta para crear imágenes] ha identificado mejor los diferentes estilos”, explica Mitjana. No solo en el fotorrealismo, sino también en otros ejemplos como la animación: “Han introducido más indicaciones de cosas que, en principio, ellos entendían que podían estar protegidas por derechos de autor de algún modo o de marcas”, asegura el experto. Ahora, si indicas que buscas un resultado como Pixar te genera una imagen similar al estilo de estas películas de animación.
Una de las cosas que más llama la atención a los usuarios que han probado esta herramienta es el avance de esta tecnología en la creación de manos humanas. Como ya te contamos en Maldita.es, uno de los principales problemas que tenía la IA (hasta la fecha) era recrear esta parte del cuerpo de forma exacta: tenían más de cinco dedos, eran demasiado largos o estaban deformes. Sin embargo, según comentan los expertos, este “problema” parece haber desaparecido casi por completo.
En el ejemplo anterior se puede apreciar cómo ha mejorado la V5 de Midjourney en este aspecto en comparación con la V4 pero los expertos aseguran que todavía tiene algún fallo. “Si le fuerzas a dibujar una imagen donde la interacción de los elementos [como las manos sobre el rostro] sea un poco más compleja, lo hace mal”, explica Xavier Mitjana.
Según el divulgador, la última versión de esta herramienta sí que ha mejorado la integración de elementos como la profundidad de campo, la luz o la definición de los elementos del fondo.
En qué (por ahora) podemos fijarnos para distinguir si una imagen es real o está creada con IA
No obstante, no todos los trucos se han quedado obsoletos. Aunque se aprecia una mejora considerable en la creación de rostros, todavía podemos detectar este tipo de imágenes si nos fijamos en las texturas de la piel (caras demasiado perfectas, sin arrugas o imperfecciones) y del cabello (formas sin definir y mechones difuminados con la piel).
Algunos ejemplos que circulan por redes sociales demuestran que la última actualización de Midjourney todavía no es capaz de reproducir textos con exactitud. El inicio de las directrices para el ejemplo que se muestra a continuación fue: “Imagen de una mano sosteniendo una lata de Coca-Cola con el icónico logo blanco y rojo colocado prominentemente en la lata”. Mientras que la forma de la mano que sostiene el objeto sí ha mejorado con la última actualización (derecha), se puede observar que el texto de la lata sigue siendo ininteligible.
"La V5 [de Midjourney] tiene mucho margen de mejora en textos y grafismos, todavía le cuesta mucho identificarlo. De hecho, hay otros tipos de IA que se quieren especializar más en la integración de texto en imágenes”, concluye el divulgador de tecnología e IA, Xavier Mitjana.
Primera fecha de publicación de este artículo: 06/04/2023