La red de desinformación Pravda logró introducir afirmaciones falsas y propaganda prorrusa en los resultados de distintos chatbots de IA según una auditoría de NewsGuard, servicio que mide y califica la fiabilidad de fuentes informativas. El grupo saturó los buscadores y rastreadores web con contenido automatizado y desinformador para introducirlo en los datos que se recogen de internet para entrenar a modelos de inteligencia artificial. Esta técnica se conoce ‘LLM grooming’ (LLM por las siglas en inglés de grandes modelos de lenguaje, y grooming, la práctica de entrenar a alguien con un propósito en particular, como el grooming de menores).
Con esta técnica, las operaciones de injerencia extranjera pueden aumentar las posibilidades de que una IA genere, cite y refuerce las falsas narrativas que quieren transmitir. Javi Cantón, investigador del Departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada, afirma a Maldita.es que para combatir el ‘LLM grooming’ la clave está en el primer filtrado y procesamiento de datos: las empresas pueden seleccionar datos de calidad y autoridad contrastada, mientras sean transparentes sobre los criterios de selección y permitan auditorías externas o mecanismos de apelación.
Los reportes de NewsGuard y de Viginum, agencia del gobierno francés que monitorea campañas de desinformación extranjeras, indican que en el caso de Pravda se utilizaron estrategias de optimización para motores de búsqueda (SEO) que consiguieron posicionar mejor su contenido para que los chatbots recurran a ellos. La red prorrusa, que es parte de la maquinaria asociada al Kremlin para difundir desinformación y está administrada por una compañía de IT en Crimea, publicó afirmaciones falsas a través de 150 sitios webs en docenas de idiomas y diversas regiones geográficas, consiguiendo que publicaciones desinformadoras se incorporen en los resultados de sistemas de IA occidentales.
El ‘LLM grooming’ consiste en saturar la web con desinformación para que esta se introduzca en los datos de entrenamiento de internet de los chatbots de IA
Los grandes modelos de lenguaje (large language models o LLM por sus siglas en inglés) son sistemas de IA capaces de imitar la forma de hablar humana mediante el procesamiento de grandes cantidades de datos, que en muchos casos se obtienen a través de internet. Chatbots de inteligencia artificial como ChatGPT, Grok y DeppSeek se basan en estos modelos para dar respuestas de texto a nuestras peticiones.
El ‘LLM grooming’ es una técnica que permite manipular las respuestas que dan los chatbots alterando los datos de entrenamiento. Según NewsGuard, esto se logra saturando con grandes cantidades de contenido automatizado y desinformador los resultados en buscadores como Google y los rastreadores web (bots que descargan e indexan contenido en todo internet). De esta manera, una red de desinformación puede introducir sus afirmaciones en los datos de entrenamiento que los chatbots recogen de internet y manipular los tokens (la representación numérica de una palabra o parte de ella) que los modelos usan para procesar el lenguaje y dar respuesta a nuestros prompts (instrucciones de texto).
Cantón explica que los datos recopilados de internet con los que comúnmente se entrenan a los grandes modelos de lenguaje “se pasan por un filtrado y procesamiento que intenta eliminar duplicados, contenido ofensivo o sesgos evidentes, pero no siempre con éxito”. En ese sentido, el experto añade que los modelos no aprenden en tiempo real de la información en internet. Sin embargo, pueden “actualizarse periódicamente mediante el reentrenamiento con nuevos datos, aprendizaje en línea limitado o filtrado y ajuste de respuestas en producción para minimizar errores y sesgos”.
La intención detrás de esto sería “alentar a la IA generativa u otro software que se basa en modelos grandes de lenguaje a tener más probabilidades de reproducir una determinada narrativa o visión del mundo”, describe American Sunlight Project (ASP), la organización sin ánimo de lucro que acuñó este término en un reporte sobre las actividades de la red prorrusa Pravda. “Al saturar los datos de entrenamiento con tokens cargados de desinformación, las operaciones de injerencia extranjera aumentan la probabilidad de que los modelos generen, citen y refuercen falsas narrativas en sus respuestas”, advierte NewsGuard.
Cuantos más artículos publique una red que busca conseguir esto, más posibilidades tiene de que un chatbot recoja uno de sus textos y lo cite en sus respuestas, logrando transmitir sus desinformaciones a los usuarios que pregunten por estos temas. Como explica Cantón, esta estrategia “no persigue captar visitas a la web, sino influir en los chatbots, que es donde se hacen ahora las búsquedas” (aunque una IA no debe usarse como un buscador).
Por ejemplo, según NewsGuard, cuando se preguntó a los chatbots de IA si el presidente Volodímir Zelenski había bloqueado en Ucrania Truth Social, la red social de Donald Trump, uno de ellos citó tres artículos publicados por la misma web de la red Pravda que contenían esta desinformación (no hay evidencia de que la plataforma haya estado disponible en el país según las autoridades ucranianas y el Center for Countering Disinformation).
¿Cómo se puede combatir el ‘LLM grooming’? Según Cantón, una de las claves estaría en el primer filtrado de los datos: “En lugar de usar todas las fuentes disponibles, podríamos centrarnos sólo en las que tienen una calidad y autoridad contrastada”. El problema, según el experto, es que esto puede ser percibido como una censura si la selección de fuentes no es transparente y objetiva, ya que puede generar nuevos sesgos y limitar la diversidad informativa. Para evitar esto, el investigador indica que “las empresas podrían publicar los criterios de selección de datos, permitir auditorías externas u ofrecer mecanismos de apelación para fuentes bloqueadas”.
Pravda utilizó esta técnica para introducir desinformación prorrusa en chatbots de IA, utilizando estrategias para aumentar su visibilidad y credibilidad
En su auditoría, NewsGuard puso a prueba a diez chatbots de IA generativa (ChatGPT, Grok, Smart Assistant, Pi, Le Chat, Copilot, Meta AI, Claude, Gemini y Perplexity) con preguntas sobre narrativas falsas publicadas por la red Pravda. Un 33% de las veces los chatbots incluyeron como reales las desinformaciones del grupo prorruso en sus respuestas.
Según el análisis, la red lo consiguió difundiendo afirmaciones falsas a través de 150 sitios web diferentes en docenas de idiomas y distintas regiones geográficas, “haciéndolas parecer más creíbles y extendidas a nivel mundial para los modelos de IA”. El resultado es que “cantidades masivas de propaganda rusa se incorporan ahora a los resultados de los sistemas de IA occidentales, contaminando sus respuestas con afirmaciones falsas y propaganda”. Según el reporte de ASP, Pravda publicó 3,6 millones de publicaciones desinformadoras durante el 2024.
Según Viginum, Pravda habría usado estrategias de optimización para motores de búsqueda (SEO) que le permitieron aumentar la visibilidad de sus contenidos en los resultados de búsqueda. “Como resultado, los chatbots de IA, que a menudo se basan en contenido público indexado por los motores de búsqueda, tienden a recurrir al contenido de estos sitios web”, sentencia NewsGuard.
Esta red de desinformación prorrusa fue detectada por primera vez en febrero de 2024 por Viginum. Según el organismo, el grupo es administrado por TigerWeb, una compañía de IT en Crimea, y su actividad cumple con los criterios para ser considerada injerencia digital extranjera.
Con este tipo de manipulación, como la que se consigue con el ‘LLM grooming’, se fuerza que un chatbot difunda desinformación. Pero, en general, los chatbots no son fuentes fiables de información, ya que pueden cometer errores; entre otras cosas, porque puede que los propios datos usados para su entrenamiento, como los obtenidos a través de internet, contengan errores o desinformación (como sabemos, en internet hay de todo, y no todo es cierto). Por ejemplo, si una IA es entrenada con datos que sostienen que Vladímir Putin es el presidente de España, porque puede que alguien lo haya publicado en alguna web o en una red social, puede que replique esta afirmación en sus resultados.
*Este artículo se ha modificado el 20/03/2025 para incluir las declaraciones del experto Javi Cantón, investigador del Departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada, a Maldita.es.
Primera fecha de publicación de este artículo: 19/03/2025