Maldita Tecnología

¿Qué es y para qué sirve la IA multimodal?

Publicado el
Tiempo de lectura: 6 minutos
Las claves
  • Los modelos de IA multimodales pueden recibir instrucciones y generar respuestas en diversos formatos, como imágenes, audios y textos
  • Los avances recientes en el desarrollo de estas tecnologías ya están disponibles en herramientas como Gemini de Google, GPT-4 de OpenAI y Grok de X
  • La Estrategia de Inteligencia Artificial 2024 del Gobierno español incluye el incremento de modelos multimodales, siguiendo la tendencia internacional

¿Utilizas una herramienta de inteligencia artificial para cada cosa? Por ejemplo, si necesitas redactar un texto, usas ChatGPT, para crear una imagen, MidJourney, y para generar una voz sintética, ElevenLabs. Los expertos advierten de que esto puede cambiar con los modelos multimodales: herramientas más flexibles que son capaces de recibir instrucciones y dar respuestas en formatos distintos. Es decir, una IA que puede tratar y crear imágenes, textos y, algunas aunque aún no todas, también audios y vídeos. 

Un modelo multimodal puede recibir y generar imágenes, textos y algunos también audios y vídeos

“La comunicación entre humanos es multimodal, ya que utiliza texto, voz, emociones, expresiones e incluso fotos”, afirma Han Xiao, CEO de Jina AI, en conversación con MIT Technology Review. Los sistemas multimodales intentan imitar esa esencia de la comunicación humana. Son modelos de aprendizaje automático “capaces de procesar información de diferentes modalidades, como imágenes, vídeos y texto”, según Google Cloud

En otras palabras, la IA multimodal te permite entregar instrucciones y recibir respuestas en múltiples formatos. Por ejemplo, con una herramienta multimodal como GPT-4o, puedes cargar una foto de un pisto (la instrucción en imagen) y recibir una receta para prepararlo (la respuesta en texto). 

Captura de una conversación con ChatGPT-4o, modelo multimodal gratuito de OpenAI.

Los avances de la IA multimodal forman parte de una tendencia internacional de la cual España ha tomado nota

MIT Technology Review ha calificado la multimodalidad como la “nueva frontera de la inteligencia artificial”. Según el informe AI Index 2024, los últimos años han estado marcados por el desarrollo de modelos multimodales como GPT-4, Claude 2 y Gemini Ultra. “Los avances recientes han llevado al desarrollo de modelos multimodales fuertes, que demuestran flexibilidad y son capaces de manejar imágenes y texto y, en algunas ocasiones, incluso procesar audio”, analiza el mismo reporte

Fuente: AI Index 2024. Computación de entrenamiento de modelos notables de aprendizaje automático por dominio (2012-23).

“Es bastante seguro asumir que el futuro de las comunicaciones entre humanos y máquinas también será multimodal”, predice Han Xiao. MIT Technology Review destaca la capacidad de estos modelos de “crear una visión del mundo más cercana que nunca a como lo percibe el cerebro humano”. Algunos modelos ya disponibles son: 

  • GPT-4: la versión más reciente de ChatGPT de OpenAI que permite a los usuarios interactuar con el sistema a través de texto, imágenes, video y audio. La versión gratuita del modelo es GPT-4o y te contamos sobre ella aquí

  • Grok: la apuesta multimodal de X (antes Twitter) puede procesar información textual y visual, como diagramas, documentos y fotos. 

  • Gemini: el modelo desarrollado por Google es capaz de recibir instrucciones de imágenes, texto, código y vídeo. 

A nivel nacional, también se busca trabajar en la IA multimodal. El Gobierno de España incluye en su Estrategia de Inteligencia Artificial 2024 lo siguiente: “Se promoverá el incremento de la multimodalidad siguiendo las principales tendencias internacionales, incorporando progresivamente voz, imágenes, datos científicos, etc.” Según la planificación, se espera que los modelos especializados a desarrollar estén disponibles a finales de 2024 y su objetivo será impulsar la modernización de las administraciones públicas