Cada vez son más las compañías tecnológicas que cambian sus políticas de privacidad para hacerse con la información de los usuarios y alimentar sus tecnologías de inteligencia artificial (IA). Meta lo ha intentado pero la petición de la Comisión de Datos de Irlanda lo ha parado (por el momento). La dueña de Instagram y Facebook tenía planes de entrenar su inteligencia artificial con las publicaciones de sus usuarios.
Sin embargo, la controversia ha sido suficiente para reavivar el debate sobre el uso de los datos personales para entrenar modelos de inteligencia artificial. En este contexto, entender por qué las empresas quieren esta información, cómo la utilizan, cuáles son sus riesgos y cómo podemos protegernos es fundamental.
Y eso es cierto respecto de datasets de empresas, y tb datasets de ciudadanos.
— @[email protected] (+bsky.social) (@jgarciaherrero) June 15, 2024
La UE es vieja, atrasada y tiene sus movidas, pero sigue ricachona y es objetivo principal de la BigTech.
Nuestros derechos son como el medio ambiente: es imperativo proteger lo que queda... pic.twitter.com/r1eRZiz9t2
A un clic, ¿de qué hablamos en este tema? Pincha para ampliar
Qué es entrenar un modelo y para qué le sirven nuestros datos
Los sistemas de IA son modelos de algoritmos que necesitan datos para entrenarse. Por ejemplo, el machine learning o aprendizaje automático es un tipo de IA entrenada para tratar una gran cantidad de datos, encontrar patrones y arrojar conclusiones. Esta IA es capaz de proporcionar más conclusiones diferentes al captar más datos, a pesar de no haber sido entrenado con ellos inicialmente. Aquí está la clave y el por qué las compañías quieren cada vez más datasets: buscan perfeccionar las respuestas de los modelos.
Por ejemplo, para entrenar una herramienta de generación de imagen como Midjourney se necesitan millones de imágenes asociadas a determinadas palabras. Como explicamos aquí, si alimentamos el modelo con varias imágenes de pájaros etiquetadas como “pájaro”, poco a poco aprende a asociar distintos patrones como su forma, color o plumaje a esa palabra. Sin embargo, existen miles de tipos de pájaros. Por eso, la IA debe entrenarse con bases de datos diversas y amplias. En este artículo del MIT puedes encontrar más información sobre cómo funciona este proceso.
En resumen, un modelo de aprendizaje automático necesita una gran base de datos para aprender a asociar elementos. Es la información que se le proporciona la que le permite relacionar términos y generar un resultado. Por eso es tan importante que los datos sean fiables, ya que el modelo no tiene conciencia ni comprende los conceptos con los que trabaja, simplemente relaciona a través de patrones.
Cómo utilizan las empresas y redes sociales nuestros datos para entrenar la IA
Como usuarios, estamos constantemente produciendo datos. Desde las fotos que compartimos, los tuits que nos gustan, hasta los TikToks que reproducimos una y otra vez para aprender ese trend del momento. Esta información es muy valiosa para las compañías. Con ella, pueden dar forma a esas bases de datos variadas y diversas.
Para el abogado Jorge García Herrero, los datos de los europeos se han convertido en un bien preciado. “Ahora que los gigantes tecnológicos han consumido todos los datos disponibles públicamente, los datasets forjados cumpliendo la normativa valen mucho”, explica el especialista, aduciendo que eso supondría el caso de interés legítimo con el que las empresas justifican estos cambios en sus condiciones. En conversación con Maldita.es, añade que “casi todos las plataformas han introducido las correspondientes modificaciones en sus políticas de privacidad” con el fin de recoger estos datos.
Una compañía que lo intentó recientemente fue Meta que, después de semanas de controversia, decidió detener el proyecto para entrenar su IA con las publicaciones de los usuarios de Facebook e Instagram. La medida había generado preocupación y preguntas, algunas que resolvimos aquí. En conversación con Chequeado, el gigante tecnológico aclaró que los “modelos de inteligencia artificial fundacionales, como Llama 2 y Llama 3, no se entrenaron con datos de usuarios” y agregaron que los modelos de IA requieren una gran cantidad de datos para ser entrenados “incluyendo información públicamente disponible en línea, información con licencia y datos de los productos y servicios de Meta”.
El proyecto de Meta está en el banquillo pero, ¿qué pasa con otras grandes empresas?
X, antes Twitter, señala en su Política de privacidad que puede “utilizar la información que recopilamos y la información disponible públicamente para ayudar a entrenar nuestros modelos de aprendizaje automático o inteligencia artificial para los fines descritos en esta política”. El apartado incorporado en agosto de 2023 provocó que Elon Musk, dueño de la compañía, tuviera que aclarar públicamente que no utilizan los mensajes privados de los usuarios, solo datos públicos.
Just public data, not DMs or anything private
— Elon Musk (@elonmusk) August 31, 2023La Política de privacidad de TikTok afirma que utilizan los datos personales de los usuarios para “revisar, mejorar y desarrollar la plataforma, entre otros métodos, mediante el seguimiento de las interacciones y el uso en sus dispositivos, el análisis de cómo la utilizan las personas, y la formación, prueba y mejora de nuestra tecnología, como nuestros modelos y algoritmos de aprendizaje automático”.
Otro caso que ha generado preocupación es el de Slack, una de las aplicaciones de comunicación empresarial más populares. Salesforce, la dueña de la plataforma de mensajería, no pide autorización a los usuarios para utilizar sus conversaciones con el fin de entrenar sus modelos. Lo hace por defecto para “funciones como emojis y recomendaciones de canales”, explican.
Adobe también ha cambiado sus políticas y ahora puede acceder al contenido de sus usuarios, usarlo y darlo a terceros. La dueña de aplicaciones como Photoshop, Illustrator y Acrobat ha negado usar este acceso para entrenar Firefly (su IA de generación de imágenes) pero las preocupaciones se mantienen.
Cuáles son los riesgos del uso de nuestra información
El uso de nuestra información para entrenar modelos de IA no está libre de riesgos. Para García Herrero, puede perjudicar a las personas de diferentes maneras. En primer lugar, puede afectar nuestra reputación, ya que los modelos pueden mezclar datos reales con otros inventados. Además, está el problema de la privacidad, ya que el uso de nuestros datos no anonimizados puede permitir extraer información sobre nosotros.
Sobre este punto, Judith Membrives, presidenta de Algorights, recalca que el control se pierde con sistemas de oposición como los de Meta, “ya no es solo que mi dato deja de ser mío, sino que si otro usuario que no se ha opuesto y publica una foto mía, esta puede usarse para entrenar la IA”. Otro gran riesgo es que los datasets extraídos de redes sociales pueden contener sesgos, desinformación o información inexacta.
“En el momento en que nuestros datos forman parte de un modelo algorítmico, dejan de estar controlados por nosotros y quedan a merced de lo que genere este modelo”, concluye Membrives. La experta en política digital añade que además del conflicto sobre la protección de datos, estas decisiones generan un problema de consentimiento y confianza con las empresas.
Cómo podemos proteger nuestros datos personales de la IA
Los datos de los usuarios están protegidos por el RGPD y sus obras por la Ley de Propiedad Intelectual. En la guía de buenas prácticas relativas al uso de la inteligencia artificial, el Ministerio de Cultura señaló que los modelos de inteligencia artificial deben cumplir en todo momento con esta ley. Sin embargo, para Membrives existe un vacío legal, ya que la mayoría de las compañías están alegando el interés legítimo para recopilar información y utilizarla para la IA. "El usuario no debería tener que protegerse; las compañías deberían buscar voluntarios en lugar de hacer que todos entrenemos sus modelos por defecto”, reflexiona la experta en política digital.
Entonces, ¿hay algo que podamos hacer para cuidar nuestros datos? Para García Herrero, la clave es estar atentos. “Si estamos en desacuerdo con el entrenamiento de la IA, tenemos que estar pendientes de estos cambios, oponernos y denegar el consentimiento”, afirma.
En conversación con Chequeado, Beatriz Busaniche, magíster en Propiedad Intelectual y presidenta de la Fundación Vía Libre, recomienda “no darles datos, no publicar fotos de nuestra familia, por ejemplo”. Si ya lo hemos hecho, la experta anima a ejercer el derecho a que esos datos se eliminen o modifiquen.
En esta línea, Meta tiene disponible otro formulario que permite a los usuarios de Facebook e Instagram oponerse a que utilicen nuestros datos obtenidos de terceros. La medida sirve para proteger información sobre nuestros dispositivos, nuestros correos electrónicos y actividad en línea. En Maldita.es te enseñamos como rellenarlo.