Maldita Tecnología

¿Por qué ahora la IA funciona tan bien? El papel de los 'transformers', redes neuronales basadas en la atención

Publicado el
Tiempo de lectura: 8 minutos
Compartir:
Claves:
  • Los transformadores o transformers son un modelo de red neuronal presentado por un grupo de científicos de Google en 2017 que ha impulsado grandes avances en diferentes ámbitos de la IA
  • Se diferencian de otros tipos de redes neuronales por un mecanismo de atención que permite centrarse en las partes más importantes del texto para ‘entender’ su contexto y significado general
  • A día de hoy, los transformers son la base de asistentes conversacionales como ChatGPT o Gemini, traductores automáticos y motores de búsqueda como Google

Uno de los motivos por los que la inteligencia artificial ha avanzado tanto en los últimos años son unos algoritmos revolucionarios llamados transformers. Estos modelos de IA han cambiado la forma en la que las máquinas generan texto e imágenes, impulsando avances tecnológicos en el desarrollo de chatbots como ChatGPT, y mejorando el funcionamiento de traductores automáticos y otras herramientas generativas como Midjourney o DALL-E

La clave de su funcionamiento es el mecanismo de atención, que permite al modelo centrarse en las partes más importantes de un texto y detectar palabras clave según su importancia, para ‘comprender’ mejor su significado completo. Este mecanismo es el que permite, por ejemplo, que podamos mantener conversaciones fluidas con los modelos

Los modelos previos leían una frase palabra por palabra, mientras que los transformers tienen una visión global de todo el texto

“La arquitectura de transformers es hoy la arquitectura estándar de todo modelo de inteligencia artificial”, indica Pablo Pérez, lingüista computacional e ingeniero de IA de Maldita.es. Esta arquitectura ha permitido desde avances en los grandes modelos de lenguaje (LLM, por sus siglas en inglés) que están detrás de chatbots como ChatGPT, Grok o Gemini, hasta el desarrollo de “modelos predictivos usados para detectar tumores, descartar candidatos en un proceso de selección o analizar imágenes satelitales”, explica Pérez.

Para entender por qué los transformers han sido claves en la mejora de la inteligencia artificial, antes hay que comprender cómo funcionaban los modelos anteriores. “Antes de llegar la arquitectura transformers, el procesamiento del lenguaje natural basado en aprendizaje automático se hizo primero con redes neuronales recurrentes, y después con modelos llamados LSTM (Long-short term memory)”, explica Carmen Torrijos, lingüista computacional y maldita que nos ha prestado sus superpoderes. “Ambos iban leyendo palabra por palabra y guardando información clave en la memoria”. Aunque estos modelos contaban con mecanismos para recordar lo que habían dicho antes, presentaban limitaciones para manejar textos largos y olvidaban información importante.

Podemos comparar la forma de procesar el texto por parte de estas redes neuronales como si leyéramos una frase siguiendo una línea con el dedo. El gran cambio que introducen los transformers es que leen toda esta frase de una vez para fijarse en todas las palabras al mismo tiempo y entender así mejor su contexto y significado. “Esto permite captar relaciones entre palabras que están muy alejadas entre sí”, indica Torrijos.

El mecanismo de atención permite al modelo fijarse en todo el texto al mismo tiempo para detectar palabras clave y comprender su contexto

Los transformers se presentaron por primera vez en 2017, cuando un grupo de científicos de Google publicó el artículo científico Attention is all you need (en español, “La atención es todo lo que necesitas”). La clave de su mejora es la introducción en la red neuronal de un mecanismo llamado atención. Torrijos explica que este mecanismo “permite que el modelo no trate todas las palabras por igual, sino que se fije más en aquellas que son relevantes para las palabras que tiene alrededor”.

Por ejemplo, en la frase “El libro que me regalaste ayer me encantó”, Torrijos explica que cuando el modelo alcanza el verbo encantó, necesita prestar más atención a la palabra libro que a ayer. La experta indica que, aunque ambas palabras aporten información al verbo, “le permite establecer una jerarquía”.

Según Torrijos, se trata de un gran avance “porque refleja una idea muy natural para cualquier hablante: que no todas las palabras y relaciones entre ellas son igual de importantes”, lo que nos permite tener conversaciones naturales y fluidas con el modelo. Pérez añade que, además, este mecanismo permite optimizar el tiempo de computación para entrenar las redes neuronales. “De pronto fue posible usar redes más grandes y entrenarlas con más datos, y todo ello por una fracción del precio original”, especifica.

A día de hoy, los transformers son la arquitectura que utilizan como base muchos grandes modelos de lenguaje como GPT o BERT

Los transformers y su mecanismo de atención son la arquitectura que subyace en los grandes modelos de lenguaje como GPT, BERT o Claude. “Cuando una respuesta de ChatGPT o Gemini nos sorprende por precisa, completa e interesante, es porque puede encontrar e integrar rápidamente todo el contexto externo sobre la pregunta que le estamos haciendo”, explica Torrijos. 

Por mucho que la IA haya mejorado gracias a los transformers, siempre hay que recordar que los modelos de IA pueden cometer errores, ‘alucinar’ y presentar sesgos; en concreto, los chatbots no son fuentes fiables de información y hay que comprobar sus respuestas.

Además, las herramientas de IA conversacionales no son las únicas que se han beneficiado de la implementación de la tecnología transformer. A modo de ejemplo, Torrijos destaca su uso en “tareas como resumir texto, cambiar la información de formato, adaptar contenido o escribir en distintos estilos”. Entre las aplicaciones, la experta nombra el traductor automático DeepL, el editor de estilo Grammarly o el propio motor de búsqueda Google.

En este artículo ha colaborado con sus superpoderes la maldita Carmen Torrijos, lingüista computacional.

Carmen Torrijos forma parte de Superpoderosas, un proyecto de Maldita.es que busca aumentar la presencia de científicas y expertas en el discurso público a través de la colaboración en la lucha contra la desinformación.

Gracias a vuestros superpoderes, conocimientos y experiencia podemos luchar más y mejor contra la mentira. La comunidad de Maldita.es sois imprescindibles para parar la desinformación. Ayúdanos en esta batalla: mándanos los bulos que te lleguen a nuestro servicio de Whatsapp, préstanos tus superpoderes, difunde nuestros desmentidos y hazte Embajador.