Maldita Tecnología

Cómo se usan nuestros datos personales para entrenar modelos de IA y qué hacer para protegerlos

Publicado el Jun 24, 2024, 8:13:00 AM Actualizado el May 28, 2025, 2:57:00 PM

Tiempo de lectura: 16 minutos

En corto:

Meta ya puede usar los contenidos públicos en Instagram y Facebook de los usuarios mayores de 18 años de la Unión Europea, así como las interacciones con sus experiencias de IA, para entrenar su inteligencia artificial, a menos que nos opongamos
No es la única: muchas compañías tecnológicas están actualizando sus políticas de privacidad para hacerse con los datos de sus usuarios y utilizarlos para perfeccionar sus productos de IA
El Reglamento General de Protección de Datos (RGPD) y la Ley de Propiedad Intelectual buscan proteger a los usuarios de estas conductas, pero las compañías se justifican en el interés legítimo
Los expertos recomiendan ser conscientes de cómo usan nuestros datos, ya que puede suponer riesgos para nuestra privacidad, y siempre que podamos, oponernos o negar el consentimiento

Cada vez son más las compañías tecnológicas que cambian sus políticas de privacidad para hacerse con la información de los usuarios y alimentar sus modelos de IA. Meta actualizó la suya el 27 de mayo de 2025 para poder usar los contenidos públicos de los usuarios mayores de 18 años en Instagram y Facebook con estos fines; también sus interacciones con las experiencias de IA, como el chatbot de Meta AI.

Los usuarios pueden oponerse a este uso de sus contenidos (aunque sin efecto retroactivo), pero el anuncio de Meta ha reavivado el debate sobre el uso de los datos personales para entrenar y perfeccionar sus modelos de IA. El Reglamento General de Protección de Datos (RGPD) y la Ley de Propiedad Intelectual buscan proteger a los usuarios, ya que estos usos pueden suponer riesgos para la privacidad, pero las compañías se justifican en el interés legítimo. Por lo mismo, los expertos recomiendan oponerse o negar el consentimiento siempre que sea posible.

¿Quieres recibir la actualidad tecnológica directamente en tu email?

Suscríbete aquí a la newsletter de Maldita Tecnología 'Tech en un clic'

A un clic, ¿de qué hablamos en este tema? Pincha para ampliar

Las compañías tecnológicas necesitan grandes cantidades de datos para entrenar y perfeccionar sus modelos de IA

Los sistemas de IA son modelos de algoritmos que necesitan datos para entrenarse. Por ejemplo, el machine learning o aprendizaje automático es un tipo de IA entrenada para tratar una gran cantidad de datos, encontrar patrones y arrojar conclusiones. Esta IA es capaz de proporcionar más conclusiones diferentes al captar más datos, a pesar de no haber sido entrenado con ellos inicialmente. Aquí está la clave y el por qué las compañías quieren cada vez más datasets: buscan perfeccionar las respuestas de los modelos.

Por ejemplo, para entrenar una herramienta de generación de imagen como Midjourney se necesitan millones de imágenes asociadas a determinadas palabras. Como explicamos aquí, si alimentamos el modelo con varias imágenes de pájaros etiquetadas como “pájaro”, poco a poco aprende a asociar distintos patrones como su forma, color o plumaje a esa palabra. Sin embargo, existen miles de tipos de pájaros. Por eso, la IA debe entrenarse con bases de datos diversas y amplias. En este artículo del MIT puedes encontrar más información sobre cómo funciona este proceso.

En resumen, un modelo de aprendizaje automático necesita una gran base de datos para aprender a asociar elementos. Es la información que se le proporciona la que le permite relacionar términos y generar un resultado. Por eso es tan importante que los datos sean fiables, ya que el modelo no tiene conciencia ni comprende los conceptos con los que trabaja, simplemente relaciona a través de patrones.

Las políticas de privacidad de Meta, Twitter (ahora X) y TikTok permiten usar algunos contenidos de los usuarios para entrenar sus modelos de IA

Como usuarios, estamos constantemente produciendo datos. Desde las fotos que compartimos, los tuits que nos gustan, hasta los TikToks que reproducimos una y otra vez para aprender ese trend del momento. Esta información es muy valiosa para las compañías. Con ella, pueden dar forma a esas bases de datos variadas y diversas.

Para el abogado Jorge García Herrero, los datos de los usuarios en Europa se han convertido en un bien preciado. “Ahora que los gigantes tecnológicos han consumido todos los datos disponibles públicamente, los datasets forjados cumpliendo la normativa valen mucho”, explica el especialista, aduciendo que eso supondría el caso de interés legítimo con el que las empresas justifican estos cambios en sus condiciones. En conversación con Maldita.es, añade que “casi todos las plataformas han introducido las correspondientes modificaciones en sus políticas de privacidad” con el fin de recoger estos datos.

Meta lo ha hecho este 27 de mayo de 2025, cuando entraron en vigor los cambios en su Política de Privacidad que le permiten usar los contenidos públicos de los usuarios mayores de 18 años en Instagram y Facebook de la Unión Europea para entrenar su IA. También las interacciones de estos con las experiencias con IA, como su asistente Meta AI, pero no se utilizarán las conversaciones privadas ni contenidos de WhatsApp.

La idea no es nueva: en mayo de 2024, la compañía de Mark Zuckerberg anunció sus planes de usar la actividad de los usuarios en Instagram y Facebook para entrenar su IA. Un proyecto que se detuvo en junio de ese mismo año, debido a las preocupaciones de privacidad de las autoridades de protección de datos europeas. Ahora, Meta asegura que su enfoque “cumple con las leyes y regulaciones europeas”.

Pero Meta no es la única, ¿qué pasa con otras grandes empresas?

Twitter (ahora X) indica en su Política de Privacidad que puede “tratar los datos que recogemos y la información disponible públicamente para ayudar a entrenar nuestros modelos de aprendizaje informático o inteligencia artificial para los fines descritos en esta política”. Podemos oponernos a que nuestros datos públicos en X se utilicen para entrenar a Grok, la IA de la red social de Elon Musk, en los ajustes de nuestra cuenta.

La Política de privacidad de TikTok afirma que utilizan los datos personales de los usuarios para “revisar, mejorar y desarrollar la plataforma, entre otros métodos, mediante el seguimiento de las interacciones y el uso en sus dispositivos, el análisis de cómo la utilizan las personas, y la formación, prueba y mejora de nuestra tecnología, como nuestros modelos y algoritmos de aprendizaje automático”.

Fuente: Política de Privacidad de TikTok

Slack, la app de comunicación empresarial, usa por defecto los datos de sus clientes, como “mensajes, contenidos y archivos” subidos a la plataforma para desarrollar “funciones como emojis y recomendaciones de canales”, según explican en sus Principios de Privacidad. La medida causó revuelo cuando se dio a conocer en mayo de 2024. Podemos oponernos escribiendo a [email protected] con la URL de nuestro espacio de trabajo y el asunto: “Slack global model opt-out request”.

Adobe también cambió sus políticas en junio de 2024 para tener acceso al contenido de sus usuarios, usarlo y darlo a terceros. En su momento, existieron preocupaciones sobre si esto significaba que se usaría para entrenar modelos de IA. Sin embargo, en las Condiciones generales de uso actuales indican: “No examinamos ni revisamos el contenido almacenado localmente en su dispositivo. Tampoco entrenamos modelos de IA generativa con su contenido o el de sus clientes, a menos que haya enviado el contenido al mercado de Adobe Stock”.

📲 ¡Pincha aquí y sigue el canal de WhatsApp de Maldita.es
para que no te la cuelen!

Que se usen nuestros datos para entrenar la IA puede poner en riesgo nuestra privacidad

El uso de nuestra información para entrenar modelos de IA no está libre de riesgos. Para García Herrero, puede perjudicar a las personas de diferentes maneras. En primer lugar, puede afectar nuestra reputación, ya que los modelos pueden mezclar datos reales con otros inventados. Además, está el problema de la privacidad, ya que el uso de nuestros datos no anonimizados puede permitir extraer información sobre nosotros.

Sobre este punto, Judith Membrives, presidenta de Algorights, recalca que el control se pierde con sistemas de oposición como los de Meta, “ya no es solo que mi dato deja de ser mío, sino que si otro usuario que no se ha opuesto y publica una foto mía, esta puede usarse para entrenar la IA”. Otro gran riesgo es que los datasets extraídos de redes sociales pueden contener sesgos, desinformación o información inexacta.

“En el momento en que nuestros datos forman parte de un modelo algorítmico, dejan de estar controlados por nosotros y quedan a merced de lo que genere este modelo”, concluye Membrives. La experta en política digital añade que además del conflicto sobre la protección de datos, estas decisiones generan un problema de consentimiento y confianza con las empresas.

Nuestros datos están protegidos por la ley, pero las empresas se amparan en el interés legítimo: la recomendación de los expertos es oponernos siempre que sea posible

Los datos de los usuarios están protegidos por el RGPD y sus obras por la Ley de Propiedad Intelectual. En la guía de buenas prácticas relativas al uso de la inteligencia artificial, el Ministerio de Cultura señaló que los modelos de inteligencia artificial deben cumplir en todo momento con esta ley.

Sin embargo, para Membrives existe un vacío legal, ya que la mayoría de las compañías están alegando el interés legítimo para recopilar información y utilizarla para la IA. Es lo que ha hecho Meta con su más reciente cambio, que justificó en sus “intereses legítimos de desarrollar y mejorar los modelos de IA generativa que emplea la IA en Meta”.

"El usuario no debería tener que protegerse; las compañías deberían buscar voluntarios en lugar de hacer que todos entrenemos sus modelos por defecto”, reflexiona Membrives.

Entonces, ¿hay algo que podamos hacer para cuidar nuestros datos? Para García Herrero, la clave es estar atentos. “Si estamos en desacuerdo con el entrenamiento de la IA, tenemos que estar pendientes de estos cambios, oponernos y denegar el consentimiento”, afirma.

En conversación con Chequeado, Beatriz Busaniche, magíster en Propiedad Intelectual y presidenta de la Fundación Vía Libre, recomienda “no darles datos, no publicar fotos de nuestra familia, por ejemplo”. Si ya lo hemos hecho, la experta anima a ejercer el derecho a que esos datos se eliminen o modifiquen.

Samuel Parra, abogado experto en protección de datos, explicó a Maldita.es que este proceso es complicado en el caso de los sistemas de IA. “Por un lado, no podemos tener la certeza de que efectivamente hayan eliminado esa información, y, por otro, es complicado que una información sea ‘suprimida’ como tal en un sistema de IA”, concluyó.

En ese sentido, lo mejor es oponernos a tiempo. En el caso de Meta, a pesar de que los cambios en las normas ya están vigentes, aún podemos negarnos a que se usen nuestros contenidos públicos, aunque no tendrá efecto retroactivo. La única forma válida de hacerlo es a través de los formularios oficiales (hay uno para Instagram y otro para Facebook).

*Hemos actualizado este artículo el 28/05/2025 para incluir los nuevos cambios en la Política de Privacidad de Meta y actualizar las normas de las plataformas mencionadas. Una versión anterior se puede consultar aquí.

Etiquetas:

#privacidad #seguridad #datos personales #redes sociales #empresas #reglamento #informacion #inteligencia artificial #política de privacidad #políticas de privacidad #protección de datos #machine learning