Noticias JurídicasOrigen https://noticias.juridicas.com

Actualidad El sector legal
17/06/2019 16:29:59 ANONIMIZAR DATOS 5 minutos

K-anonimidad: la AEPD publica una guía para aprender a anonimizar datos

La AEPD ha publicado unas pautas y herramientas para medir la efectividad de los procesos para anonimizar datos a traves del valor k-anonimidad. Se pretende así evitar tanto en empresas como en organismos públicos reidentificaciones no deseadas desde agentes externos y medir si verdaderamente son anónimos los datos que ya han sido tratados para ello,

Ser anónimo en la red no es fácil, especialmente en la era del big data. Tanto empresas como ayuntamientos están obligados a garantizar que los datos de los que disponen son verdaderamente anónimos. Enlazar datos que no han sido correctamente anonimizados puede tener como resultados la creación de perfiles; si de esta relación obtenemos un perfil, se puede conseguir identificar a una persona a través de datos anónimos, que por tanto dejan de serlo.

La Agencia Española de Protección de Datos (AEPD) quiere que aquellos que deben recopilar datos de carácter personales garanticen su anonimidad. Esto es, que no sea posible identificar a personas a través de su relación. Para ello, esta semana ha publicado una ficha técnica sobre anonimidad con una serie de pautas para empresas e instituciones que utilicen procesos de big data e inteligencia artificial para el tratamiento de datos.

Se busca así comprobar la efectividad de los procesos de anonimización a través del valor k-anonimidad, que mide la efectividad de los procesos de anonimización llevados a cabo por un responsable de tratamiento respecto a un conjunto de datos supuestamente anónimos.

Qué es K-anonimidad

La K-anonimidad mide la vulnerabilidad de datos que ya han sido anonimizados.

Se trata de una propiedad de los conjuntos de datos anonimizados que permite medir cuán de anónimos son los sujetos relacionados con estos datos en los que previamente se han realizados procedimientos de desidentificación. Esto es, analiza la probabilidad de que un tercero externo consiga relacionar datos que ya han sido tratados consiguiendo un perfil al que le sean atribuibles los datos.

La probabilidad de identificar a un sujeto relacionando datos cuasi-identificadores (aquellos que no identifican al sujeto de forma directa, como el nombre o el DNI) viene determinada por la proporción de 1/K. De esta forma, interesa un K alto para garantizar una buena anonimización.

Conseguir una buena proporción de K puede traer, no obstante, una perdida de fidelidad de los datos. No obstante, la guía recuerda que esto no será importante si los datos que se pierden no son necesarios para la finalidad del tratamiento. En el caso de que se pierda información relevante, se debe conseguir un equilibrio entre el riesgo para los sujetos de ser identificado y la potencial pérdida de fidelidad del resultado.

Cómo garantizar una buena proporción de K-anonimidad

El proceso de k-anonimización consiste en sustituir variables de información concreta por otras más genéricas, conservando el dato relevante y generalizando o eliminando otros, sin que esto suponga introducir datos nuevos o erróneos.

Esto se puede conseguir a través de dos procesos: la generalización o la eliminación de datos.

En cuanto a la generalización, consiste en la conversión de datos específicos por otros más genéricos sin que se pierda la esencia del dato.

La cuestión puede observarse con facilidad en un ejemplo: a una Diputación le interesa gestionar datos de personas que viven en una Comunidad Autónoma no tenemos por qué saber en qué provincia, ciudad o domicilio viven estos sujetos. Mejorará la ratio de k-anonimidad si estos datos se transforman en el valor de “Comunidad Autónoma” sin más, pues se evitará conocer datos más concretos o precisos que no son necesarios para el tratamiento.

El procedimiento puede consistir también en la eliminación de datos que, por sus características, pueden provocar que sean posible relacionar datos e identificar sujetos, y por tanto contaminar la muestra, reduciendo así la probabilidad de reidentificación. Sin embargo, es preciso tener en cuenta que abusar de estas técnicas puede suponer que los datos pierdan calidad y acaben distorsionados, impidiendo su utilización para el fin que se recabaron o aportando realidades distorsionadas. Su utilización por tanto debe ser medida con cuidado por los responsables de tratamientos de datos, que deben valorar el grado de fidelización que merecen sus datos.

Herramientas

Para garantizar la k-anonimidad de un conjunto de datos, la AEPD provee un listado de herramientas software, tanto abierto como privado, que permiten la anonimización de conjuntos de datos de forma eficaz.

Algunos de estos programas son el Data Anonymization Tool, la herramienta de anonimización UTD (de código abierto) y Amnesia. Esta última permite eliminar información asociada a identificadores directos como nombres o números de DNI, además de permitir transformar atributos cuasi-identificadores como fechas de nacimiento o código postales sin que suponga una merma para la información tratada.

La utilización de estas herramientas puede ser necesaria tanto una vez iniciada la actividad de tratamiento como en un momento anterior. De esta forma se debe analizar en fase previa a la recopilación de datos el grado de fidelidad necesario y cuáles son los márgenes de generalización y eliminación posibles del que dispone el responsable de tratamiento, sin que exista distorsión de la realidad.

En este sentido, en aplicación del principio de responsabilidad proactiva establecido en el Reglamento General de Protección de Datos (RGPD) el documento técnico recuerda: no es suficiente aplicar de forma rutinaria y pasiva las reglas de uso común y a ser posible la generalización o la eliminación debe llevarse a cabo para garantizar los derechos y libertades de terceros.

Te recomendamos