menu MENÚ
MALDITA TECNOLOGÍA

¿Qué es y para qué sirve la IA multimodal?

Publicado
Claves
  • Los modelos de IA multimodales pueden recibir instrucciones y generar respuestas en diversos formatos, como imágenes, audios y textos
  • Los avances recientes en el desarrollo de estas tecnologías ya están disponibles en herramientas como Gemini de Google, GPT-4 de OpenAI y Grok de X
  • La Estrategia de Inteligencia Artificial 2024 del Gobierno español incluye el incremento de modelos multimodales, siguiendo la tendencia internacional
Comparte
Etiquetas

¿Utilizas una herramienta de inteligencia artificial para cada cosa? Por ejemplo, si necesitas redactar un texto, usas ChatGPT, para crear una imagen, MidJourney, y para generar una voz sintética, ElevenLabs. Los expertos advierten de que esto puede cambiar con los modelos multimodales: herramientas más flexibles que son capaces de recibir instrucciones y dar respuestas en formatos distintos. Es decir, una IA que puede tratar y crear imágenes, textos y, algunas aunque aún no todas, también audios y vídeos. 

Un modelo multimodal puede recibir y generar imágenes, textos y algunos también audios y vídeos

“La comunicación entre humanos es multimodal, ya que utiliza texto, voz, emociones, expresiones e incluso fotos”, afirma Han Xiao, CEO de Jina AI, en conversación con MIT Technology Review. Los sistemas multimodales intentan imitar esa esencia de la comunicación humana. Son modelos de aprendizaje automático “capaces de procesar información de diferentes modalidades, como imágenes, vídeos y texto”, según Google Cloud

En otras palabras, la IA multimodal te permite entregar instrucciones y recibir respuestas en múltiples formatos. Por ejemplo, con una herramienta multimodal como GPT-4o, puedes cargar una foto de un pisto (la instrucción en imagen) y recibir una receta para prepararlo (la respuesta en texto). 

Captura de una conversación con ChatGPT-4o, modelo multimodal gratuito de OpenAI.

Los avances de la IA multimodal forman parte de una tendencia internacional de la cual España ha tomado nota

MIT Technology Review ha calificado la multimodalidad como la “nueva frontera de la inteligencia artificial”. Según el informe AI Index 2024, los últimos años han estado marcados por el desarrollo de modelos multimodales como GPT-4, Claude 2 y Gemini Ultra. “Los avances recientes han llevado al desarrollo de modelos multimodales fuertes, que demuestran flexibilidad y son capaces de manejar imágenes y texto y, en algunas ocasiones, incluso procesar audio”, analiza el mismo reporte

Fuente: AI Index 2024. Computación de entrenamiento de modelos notables de aprendizaje automático por dominio (2012-23).

“Es bastante seguro asumir que el futuro de las comunicaciones entre humanos y máquinas también será multimodal”, predice Han Xiao. MIT Technology Review destaca la capacidad de estos modelos de “crear una visión del mundo más cercana que nunca a como lo percibe el cerebro humano”. Algunos modelos ya disponibles son: 

  • GPT-4: la versión más reciente de ChatGPT de OpenAI que permite a los usuarios interactuar con el sistema a través de texto, imágenes, video y audio. La versión gratuita del modelo es GPT-4o y te contamos sobre ella aquí

  • Grok: la apuesta multimodal de X (antes Twitter) puede procesar información textual y visual, como diagramas, documentos y fotos. 

  • Gemini: el modelo desarrollado por Google es capaz de recibir instrucciones de imágenes, texto, código y vídeo. 

A nivel nacional, también se busca trabajar en la IA multimodal. El Gobierno de España incluye en su Estrategia de Inteligencia Artificial 2024 lo siguiente: “Se promoverá el incremento de la multimodalidad siguiendo las principales tendencias internacionales, incorporando progresivamente voz, imágenes, datos científicos, etc.” Según la planificación, se espera que los modelos especializados a desarrollar estén disponibles a finales de 2024 y su objetivo será impulsar la modernización de las administraciones públicas


Hazte maldito, Hazte maldita
Te necesitamos para combatir los bulos y la mentira: sólo juntos podemos pararla. En Maldita.es queremos darte herramientas para protegerte contra la desinformación, pero sólo con tu apoyo será posible.

Eres muy importante en esta batalla para que no nos la cuelen. Seguro que tienes conocimientos útiles para nuestra batalla contra los bulos. ¿Tienes conocimientos de idiomas? ¿Lo tuyo es la historia? ¿Sabes mucho sobre leyes? ¡Préstanos tu Superpoder y acabemos juntos con los bulos!

También puedes apoyarnos económicamente. Maldita.es una entidad sin ánimo de lucro y que sea sostenible e independiente, libre de publicidad y con profesionales bien remunerados dedicados a luchar, contigo, contra la desinformación depende de tu ayuda. Cada aportación cuenta, cualquier cantidad es importante.