Prebunking

Cuando los datos anonimizados no son tan anónimos: por qué a veces se identifica a una persona a partir de información no personal

Legislación Otros Tecnología

Publicado el Jun 10, 2022, 8:13:00 AM

Si una empresa o una organización dice que ‘anonimiza’ los datos que recoge sobre nosotros, significa que no se pueden asociar a mi nombre. Es decir, que no se me puede poner cara ni se me da una identidad a partir de ellos. ¿Por qué, entonces, leemos tantos casos de personas a las que identifican a partir de datos que no están unidos a su identidad? Por ejemplo, el caso de un cura al que identificaron a partir de su actividad en la aplicación de citas Grindr o el de las mujeres a las que se trata de poner nombre cuando acuden a clínicas de aborto en Estados Unidos (un caso muy sonado a raíz de la posible revocación de la sentencia ‘Roe contra Wade’).

Hablamos de información que de forma aislada parece inofensiva: nuestras transacciones bancarias, el tipo de transporte público que utilizamos, el gimnasio o el supermercado al que solemos ir, nuestro historial de búsquedas en Google, nuestro puesto de trabajo… Ninguno de esos datos tiene por qué identificarnos directamente, ¿no? Por lo tanto, no habría problema por que alguien los use si son “anónimos”. La respuesta a esa pregunta no es un blanco o negro, ya que la anonimización de datos a veces no asegura que no se nos pueda identificar de otras maneras. Vamos paso por paso.

Anonimizar datos con criptografía los vuelve ininteligibles, pero no es infalible

“Primero hay que entender por qué una empresa podría querer anonimizar datos: la información es muy valiosa, ya que en cantidades suficientes puede explotarse para analizar comportamiento de usuarios, patrones de compra, preferencias, afiliación política, etc.”, nos recuerda nuestro maldito desarrollador de software Carlos Fernández Llamas, quien nos ha prestado sus superpoderes. Por eso, a una empresa le puede seguir interesando tener muchos datos sobre nosotros, a pesar de que no vayan ligados a nuestro nombre. De ahí que a una empresa le pueda interesar tener mucha información sobre nosotros aunque no estén vinculados a nuestro nombre que una poca entre la que figure este dato.

Anonimizar los datos implica aplicarles una capa de seguridad para que nadie pueda llegar hasta ti a través de ellos. Ahora bien, una de las partes más importantes de ese proceso es asegurarse que la información, una vez anonimizada, no pueda desanonimizarse. Una de las técnicas más usadas para ello es el aplicar un hash criptográfico, un concepto que definimos en nuestro glosario: “Es en esencia una función matemática que dada la misma entrada de información siempre sacará el mismo resultado, pero no podemos averiguar la información original en base al resultado”, explica Fernández Llamas.

Lo vemos mejor con un ejemplo: se puede ‘hashear’ una tarjeta de crédito para que el número, la fecha de caducidad y los datos clave se representen con una fórmula como “9b8a421bff5f30d20f118185eb6e4523". “En principio con eso impides identificar a alguien pero, para conseguir una verdadera anonimización, lo siguiente sería garantizar que ese proceso sea irreversible y que se mantenga tal cual en el medio y largo plazo a medida que avanza el estado de la técnica o potencialmente se añaden nuevos datos”, añade Jorge Morell, abogado especializado en tecnología y protección de datos en LegalTechies.

Fernández Llamas ve otro riesgo: según el algoritmo que se use para crear esa combinación aparentemente indescifrable, estos hashes son vulnerables a la fuerza bruta, es decir, a probar con datos y combinaciones aleatorias mucho tiempo hasta que nos encontramos con una coincidencia que nos revelase el dato. “Además, el problema se acrecienta cuando conocemos el formato del dato que queremos desanonimizar: si quiero averiguar una tarjeta de crédito que sé que es una Visa Electron, probaré de forma aleatoria exclusivamente números de 16 cifras que empiecen por el número cuatro”, pone como ejemplo.

Triangular datos: unir todos los puntos en común hasta llegar a una identidad

Intentar vulnerar estas técnicas criptográficas es una forma de desanonimizar datos, pero hay otras maneras que no implican tener conocimientos técnicos. Por ejemplo, la triangulación de datos. ¿Recuerdas esos juegos infantiles que consisten en unir diferentes puntos mediante líneas para formar un dibujo? Esto es similar, ya que consiste en unir los diferentes pedacitos de datos que tenemos sobre alguien para averiguar algo que nos permita identificarle, por ejemplo, un domicilio o una ubicación.

Pongamos el ejemplo de una persona llamada Juan Pérez García. Un nombre es un dato personal, pero si solo mostramos sus iniciales (JPG), en un principio dejamos de identificar a esa persona, nos recuerda Morell. “Ahora bien, si averiguo su nombre de usuario en una red social (aunque sea una que ya no usa), eso podría ser suficiente para deducir quién es concretamente, dónde vive o trabaja, sus amistades, etc. Por eso se dice que obtener piezas extras de nuestro ‘puzzle personal’ puede hacer que algo aparentemente anónimo en verdad no lo sea tanto”, expone el abogado.

También hay datos que consideramos muy poco probable que lleven a que nos identifiquen, por ejemplo, la marca de nuestro móvil, el idioma en el que lo usamos, desde dónde nos conectamos, etc., cuando la realidad es completamente opuesta. Fernández Llamas remarca la importancia de estos pequeños datos con el siguiente ejemplo: la web ‘https://amiunique.org’ nos ayuda a saber hasta qué punto nos identifica la información que recoge nuestro navegador. ¿Hay muchas personas que ‘producen’ el mismo nivel de datos que nosotros o no? Resulta que no.

“La cosa no es buscar quién usa Mozilla Firefox, por ejemplo, sino quién usa Firefox versión 101 en Linux, estando en la zona horaria UTC+2, idioma en inglés, con gráfica marca AMD, que ha accedido a una web concreta a una hora concreta, ya que sabemos que de X a Y estuvo en casa, etc.”, explica Fernández Llamas. Ajá, ahora parece mucho más fácil llegar a esa persona. “Es como jugar al ‘¿Quién es quién?’ en la vida real.

Protección de Datos reconoce que la anonimización completa y duradera es difícil de conseguir

Incluso las autoridades europeas de protección de datos reconocen que decir que “la anonimización de datos es para siempre” es un mito: “La revelación de datos a lo largo de los años (por ejemplo, en una brecha de seguridad) puede hacer que se vinculen datos anónimos previos a personas identificadas”, por ejemplo con registros públicos que contengan información sensible como podría ser un historial criminal. También reconocen que con el avance de la computación cuántica y otras tecnologías, desanonimizar datos se volverá más fácil de lo que es ahora.

Además, plantea otra cuestión importante si hablamos de datos anónimos que buscan reidentificar a alguien: en Europa aplica el Reglamento Europeo de Protección de Datos (RGPD), la norma más estricta que hay en lo que se refiere a datos personales. Conseguir con técnicas ilegítimas datos como nuestra ubicación, nuestra orientación sexual o político u otros datos sensibles (como puede ser el caso mencionado del cura al que se identificó en Grindr rastreando su ubicación cuando acudía a locales homosexuales) no está permitido, a diferencia que en Estados Unidos, donde no hay una regulación específica.

En este artículo ha colaborado con sus superpoderes el maldito Carlos Fernández Llamas, desarrollador de software.

Gracias a vuestros superpoderes, conocimientos y experiencia podemos luchar más y mejor contra la mentira. La comunidad de Maldita.es sois imprescindibles para parar la desinformación. Ayúdanos en esta batalla: mándanos los bulos que te lleguen a nuestro servicio de Whatsapp, préstanos tus superpoderes, difunde nuestros desmentidos y hazte Embajador.

Etiquetas:

#tecnología #Otros #legislación