MENÚ
MALDITA TECNOLOGÍA

Programas de inteligencia artificial que nos engañan y datos “anonimizados” que no son tan anónimos: el 104º consultorio de Maldita Tecnología

Publicado
Comparte
Categorías
Recursos utilizados
Expertos
Superpoderes
Fuentes oficiales (comunicados, bases de datos, BOE)

¡Hola, malditas y malditos! Martes es igual a una nueva entrega del consultorio tecnológico, así que aquí estamos, listos y preparados para resolver las preguntas de esta semana. La primera: ¿nos podría engañar o mentir un sistema de inteligencia artificial? ¿Y si es así, en qué circunstancias? Y la segunda: ¿por qué se dice que se puede identificar a una persona a partir de datos que en teoría no la identifican? Ya sabéis, datos que se recogen sobre nosotros pero que no van asociados a nuestro nombre y apellidos.

Esperamos que nos enviéis más dudas que resolver en este consultorio. Podéis hacerlo a través de este formulario, mandando un mensaje al correo [email protected], a nuestro Facebook, a Twitter o a nuestro chatbot de WhatsApp (+34 644 229 319). ¡Empezamos!

¿Nos podría engañar o mentir un sistema de inteligencia artificial?

¿Hasta qué punto se podría crear una máquina para que, por decisión propia, pudiese engañarnos? E importante, ¿en qué ámbito? Es decir, ¿es lo mismo que un programa informático consiguiese ganarnos al póker, un juego en el que es imprescindible ‘ir de farol’, a que nos mintiese en una conversación escrita, por ejemplo? ¡Cuántas incógnitas salen de una pregunta tan simple! El truco está precisamente en que no lo es: una máquina puede entrenarse para que haga algo que consideramos un “engaño”, pero nunca sabrá por sí misma que nos está mintiendo. Veámoslo con más detalle.

Estas preguntas nacen a raíz de que se planteen usos para la inteligencia artificial (IA) que se asemejan a las actividades humanas: participar en juegos, resolver problemas complicados, escribir textos, interactuar con una persona a través de un chat… En los últimos años hemos oído hablar de programas de IA como AlphaGo, de DeepMind (Google), que se hizo popular tras ganar una partida al juego de estrategia Go al campeón mundial en 2017. O Libratus, otro programa que ‘aprendió’ a ganar al póker, en teoría, engañando al resto de jugadores.

“A los humanos nos intentan educar en la honradez, pero el engaño y la mentira son parte de nosotros, así como de algunos animales. Habitualmente mentimos o manipulamos para lograr algún tipo de beneficio”, señala en este artículo en The Conversation Verónica Bolón, profesora en Ciencias de la Computación e Inteligencia Artificial en la Universidad de La Coruña. “Las máquinas, por su parte, aprenden lo que les enseñamos los humanos”.

¿Por qué es este último detalle tan importante? Pues porque todo lo que se pueda enseñar a un programa informático sobre lo que es la mentira será a partir de lo que nosotros, como humanos, consideramos que es una mentira o algo que nos puede engañar. Y aun así, la inteligencia artificial no sabrá que está mintiendo. “Es muy importante el hecho de que la IA no es consciente de que está engañando, y que del mismo modo que no sabe que está engañando, no sabe cuándo la están engañando”, explica Ángel Delgado, ingeniero de machine learning en Paradigma Digital.

Muy bien, ¿cómo se “enseña” entonces a un programa basado en inteligencia artificial a “engañar”? “La clave está en saber que para conseguir que una inteligencia artificial aprenda a realizar una tarea es necesario poder medir numéricamente ‘cómo de bien’ hace esa tarea”, señala Delgado. A esto es a lo que nos referimos cuando hablamos de “entrenar” a un programa de inteligencia artificial.

Si volvemos al ejemplo del póker, se podría enseñar a una IA a jugar a base de “ver” partidas pasadas y midiendo “cómo de bien” juega (contando con que, por supuesto, la máquina sabe también cuáles son las reglas del póker). Esto se haría analizando por ejemplo cuántas jugadas repite de todas las que ha visto o cuándo realiza nuevas, cuándo pasar de turno y cuándo no, si las combinaciones que elige servirían realmente para ganar… ¿Cómo se mide “cómo de bien” hace todas estas tareas? Con un elemento matemático llamado función de coste.

“Podríamos dejar a la IA jugar libremente contra un humano y que la función de coste mida si la IA ha ganado o no (esto se llama aprendizaje por refuerzo). Al principio perderá siempre, pero a base de prueba error empezará a ganar partidas y para ello, seguramente aprenda a hacer jugadas contraintuitivas, porque por este método ha visto que así gana”, explica Delgado a Maldita.es.

Partida al juego 'Go' entre la IA de DeepMind (Google) y Lee Sedol. Imagen: Flickr / Prachatai

Esto significa que ha visto suficientes partidas y ha probado tantas combinaciones de jugadas que ha encontrado nuevas maneras de responder a los movimientos de las personas. “Es muy importante tener en cuenta que la IA no es consciente de que está engañando, ni tampoco ha aprendido el concepto de engañar, solo sabe que en determinadas jugadas es más probable que gane haciendo movimiento que la persona contra la que juega no se espera”, recuerda el especialista.

Esa función de “dejar a la IA jugar libremente” es una de las bases de aprendizaje de la máquinas: una vez que tiene todos los datos sobre cómo funciona un juego como el póker y cuáles son las mejores manos, que pruebe, pruebe y pruebe hasta dar con jugadas que no se le ocurrirían a una persona. Es el llamado aprendizaje por refuerzo: “Construye un sistema de recompensas para el algoritmo. Cuando se consigue un resultado satisfactorio, se refuerza ese comportamiento. Por el contrario, cuando el resultado dista de su objetivo, ese comportamiento se descarta”, expone Verónica Bolón.

Aquí es cuando empezamos a hablar de un “engaño”, simplemente porque la máquina ha conseguido ganarnos: “Si usamos aprendizaje por refuerzo, y el engaño lleva a un sistema inteligente a conseguir el objetivo perseguido, parece factible que la inteligencia artificial pueda aprender a mentir”, recuerda en su artículo esta especialista.

De aquí sacamos que haya programas basados en inteligencia artificial, como AlphaGo o AlphaZero de la empresa Deepmind o Libratus, que son capaces de ganar a personas en juegos de estrategia en los que el engaño es fundamental sin que ellas mismas sepan cómo lo han hecho. Sin embargo, estas máquinas no sabrán cómo aplicar ese aprendizaje sobre la mentira a otros contextos como una conversación, porque se han entrenado específicamente para jugar al ajedrez, al Go, al póker o al juego que sea. “El resumen de todo estos es que sí, las inteligencias artificiales pueden aprender a engañar, pero en un contexto muy concreto”, concluye Delgado.

¿Por qué se dice que se puede identificar a una persona a partir de datos que en teoría no le identifican?

Si una empresa o una organización dice que ‘anonimiza’ los datos que recoge sobre nosotros, significa que no se pueden asociar a mi nombre. Es decir, que no se me puede poner cara ni se me da una identidad a partir de ellos. ¿Por qué, entonces, leemos tantos casos de personas a las que identifican a partir de datos que no están unidos a su identidad? Por ejemplo, el caso de un cura al que identificaron a partir de su actividad en la aplicación de citas Grindr o el de las mujeres a las que se trata de poner nombre cuando acuden a clínicas de aborto en Estados Unidos (un caso muy sonado a raíz de la posible revocación de la sentencia ‘Roe contra Wade’).

Hablamos de información que de forma aislada parece inofensiva: nuestras transacciones bancarias, el tipo de transporte público que utilizamos, el gimnasio o el supermercado al que solemos ir, nuestro historial de búsquedas en Google, nuestro puesto de trabajo… Ninguno de esos datos tiene por qué identificarnos directamente, ¿no? Por lo tanto, no habría problema por que alguien los use si son “anónimos”. La respuesta a esa pregunta no es un blanco o negro, ya que la anonimización de datos a veces no asegura que no se nos pueda identificar de otras maneras. Vamos paso por paso.

“Primero hay que entender por qué una empresa podría querer anonimizar datos: la información es muy valiosa, ya que en cantidades suficientes puede explotarse para analizar comportamiento de usuarios, patrones de compra, preferencias, afiliación política, etc.”, nos recuerda nuestro maldito desarrollador de software Carlos Fernández Llamas, quien nos ha prestado sus superpoderes. Por eso, a una empresa le puede seguir interesando tener muchos datos sobre nosotros, a pesar de que no vayan ligados a nuestro nombre. De ahí que a una empresa le pueda interesar tener mucha información sobre nosotros aunque no estén vinculados a nuestro nombre que una poca entre la que figure este dato.

Anonimizar los datos implica aplicarles una capa de seguridad para que nadie pueda llegar hasta ti a través de ellos. Ahora bien, una de las partes más importantes de ese proceso es asegurarse que la información, una vez anonimizada, no pueda desanonimizarse. Una de las técnicas más usadas para ello es el aplicar un hash criptográfico, un concepto que definimos en nuestro glosario: “Es en esencia una función matemática que dada la misma entrada de información siempre sacará el mismo resultado, pero no podemos averiguar la información original en base al resultado”, explica Fernández Llamas.

Lo vemos mejor con un ejemplo: se puede ‘hashear’ una tarjeta de crédito para que el número, la fecha de caducidad y los datos clave se representen con una fórmula como “9b8a421bff5f30d20f118185eb6e4523". “En principio con eso impides identificar a alguien pero, para conseguir una verdadera anonimización, lo siguiente sería garantizar que ese proceso sea irreversible y que se mantenga tal cual en el medio y largo plazo a medida que avanza el estado de la técnica o potencialmente se añaden nuevos datos”, añade Jorge Morell, abogado especializado en tecnología y protección de datos en LegalTechies.

Fernández Llamas ve otro riesgo: según el algoritmo que se use para crear esa combinación aparentemente indescifrable, estos hashes son vulnerables a la fuerza bruta, es decir, a probar con datos y combinaciones aleatorias mucho tiempo hasta que nos encontramos con una coincidencia que nos revelase el dato. “Además, el problema se acrecienta cuando conocemos el formato del dato que queremos desanonimizar: si quiero averiguar una tarjeta de crédito que sé que es una Visa Electron, probaré de forma aleatoria exclusivamente números de 16 cifras que empiecen por el número cuatro”, pone como ejemplo.

Intentar vulnerar estas técnicas criptográficas es una forma de desanonimizar datos, pero hay otras maneras que no implican tener conocimientos técnicos. Por ejemplo, la triangulación de datos. ¿Recuerdas esos juegos infantiles que consisten en unir diferentes puntos mediante líneas para formar un dibujo? Esto es similar, ya que consiste en unir los diferentes pedacitos de datos que tenemos sobre alguien para averiguar algo que nos permita identificarle, por ejemplo, un domicilio o una ubicación.

Pongamos el ejemplo de una persona llamada Juan Pérez García. Un nombre es un dato personal, pero si solo mostramos sus iniciales (JPG), en un principio dejamos de identificar a esa persona, nos recuerda Morell. “Ahora bien, si averiguo su nombre de usuario en una red social (aunque sea una que ya no usa), eso podría ser suficiente para deducir quién es concretamente, dónde vive o trabaja, sus amistades, etc. Por eso se dice que obtener piezas extras de nuestro ‘puzzle personal’ puede hacer que algo aparentemente anónimo en verdad no lo sea tanto”, expone el abogado.

También hay datos que consideramos muy poco probable que lleven a que nos identifiquen, por ejemplo, la marca de nuestro móvil, el idioma en el que lo usamos, desde dónde nos conectamos, etc., cuando la realidad es completamente opuesta. Fernández Llamas remarca la importancia de estos pequeños datos con el siguiente ejemplo: la web ‘https://amiunique.org’ nos ayuda a saber hasta qué punto nos identifica la información que recoge nuestro navegador. ¿Hay muchas personas que ‘producen’ el mismo nivel de datos que nosotros o no? Resulta que no. 

“La cosa no es buscar quién usa Mozilla Firefox, por ejemplo, sino quién usa Firefox versión 101 en Linux, estando en la zona horaria UTC+2, idioma en inglés, con gráfica marca AMD, que ha accedido a una web concreta a una hora concreta, ya que sabemos que de X a Y estuvo en casa, etc.”, explica Fernández Llamas. Ajá, ahora parece mucho más fácil llegar a esa persona. “Es como jugar al ‘¿Quién es quién?’ en la vida real.

Incluso las autoridades europeas de protección de datos reconocen que decir que “la anonimización de datos es para siempre” es un mito: “La revelación de datos a lo largo de los años (por ejemplo, en una brecha de seguridad) puede hacer que se vinculen datos anónimos previos a personas identificadas”, por ejemplo con registros públicos que contengan información sensible como podría ser un historial criminal. También reconocen que con el avance de la computación cuántica y otras tecnologías, desanonimizar datos se volverá más fácil de lo que es ahora.

Además, plantea otra cuestión importante si hablamos de datos anónimos que buscan reidentificar a alguien: en Europa aplica el Reglamento Europeo de Protección de Datos (RGPD), la norma más estricta que hay en lo que se refiere a datos personales. Conseguir con técnicas ilegítimas datos como nuestra ubicación, nuestra orientación sexual o político u otros datos sensibles (como puede ser el caso mencionado del cura al que se identificó en Grindr rastreando su ubicación cuando acudía a locales homosexuales) no está permitido, a diferencia que en Estados Unidos, donde no hay una regulación específica.

Y ya que habéis llegado hasta aquí…

No somos técnicos o ingenieros pero contamos con mucha ayuda de personas que son expertas en su campo para resolver vuestras dudas. Tampoco podemos deciros qué servicio usar o dejar de usar, solo os informamos para que luego decidáis cuál queréis usar y cómo. Porque definitivamente, juntos y juntas es más difícil que nos la cuelen.

Si tenéis cualquier duda sobre esta información o cualquier otra relacionada con la manera de la que te relacionas con todo lo digital, háznosla llegar:

En este artículo han colaborado con sus superpoderes los malditos Ángel Delgado Panadero, ingeniero de machine learning, y Carlos Fernández Llamas, desarrollador de software.

Gracias a vuestros superpoderes, conocimientos y experiencia podemos luchar más y mejor contra la mentira. La comunidad de Maldita.es sois imprescindibles para parar la desinformación. Ayúdanos en esta batalla: mándanos los bulos que te lleguen a nuestro servicio de Whatsapp, préstanos tus superpoderes, difunde nuestros desmentidos y hazte Embajador.

Hazte maldito, Hazte maldita
Te necesitamos para combatir los bulos y la mentira: sólo juntos podemos pararla. En Maldita.es queremos darte herramientas para protegerte contra la desinformación, pero sólo con tu apoyo será posible.

Eres muy importante en esta batalla para que no nos la cuelen. Seguro que tienes conocimientos útiles para nuestra batalla contra los bulos. ¿Tienes conocimientos de idiomas? ¿Lo tuyo es la historia? ¿Sabes mucho sobre leyes? ¡Préstanos tu Superpoder y acabemos juntos con los bulos!

También puedes apoyarnos económicamente. Maldita.es una entidad sin ánimo de lucro y que sea sostenible e independiente, libre de publicidad y con profesionales bien remunerados dedicados a luchar, contigo, contra la desinformación depende de tu ayuda. Cada aportación cuenta, cualquier cantidad es importante.