Protección contra la reidentificación. Nuevas técnicas
July 23, 2022 | 8 minutes read
Anonimización de datos
En muchas empresas es un requisito legal proteger los datos que se recogen sobre los clientes y empleados. La información personal de identificación, como el nombre, la dirección y el número de la Seguridad Social, en las manos equivocadas puede dar lugar al fraude, el robo y otros problemas. Muchas empresas que almacenan los datos de sus clientes se enfrentan a riesgos al conservar y manejar dicha información.
Por ejemplo, las empresas gastan mucho en ciberseguridad. Sin embargo, si un pirata informático u otro individuo accede al servidor y se hace con los datos de los clientes, la empresa es responsable. La reputación de la empresa entonces puede perderse y resarcir una violación de datos podría conllevar gastos millonarios.
Un método que muchas empresas utilizan para almacenar los datos con menos riesgo es la anonimización de datos La anonimización es un tipo de saneamiento de datos similar a la redacción. Con la intención de proteger la privacidad, la anonimización se utiliza para eliminar la información personal de identificación de los datos almacenados. Esto se hace para que los datos de los individuos sean anónimos.
Según un estudio presentado por la Organización Internacional de Normalización, el concepto de anonimización de datos se ha definido como: “proceso por el cual los datos personales se alteran de forma irreversible de tal manera que el sujeto al que los datos se refieren ya no puede ser identificado directa o indirectamente, ya sea por el responsable del tratamiento de datos o por este en colaboración con otros”.
El proceso de anonimización de datos permite la transferencia de información a través de las fronteras con menos riesgo de violación de la privacidad o de divulgación involuntaria. Las empresas pueden vender conjuntos de datos anonimizados a terceros. Aunque se elimine o altere la información personal de identificación, los datos restantes, como la información sobre la salud o los hábitos de compra, se comparten para su evaluación y análisis. Estudios de salud de grandes grupos de individuos pueden realizarse con datos anonimizados.
Reidentificación de datos
La reidentificación de datos también se conoce como desanonimización. El proceso consiste en tomar varios conjuntos de datos, comparar esos datos con otra información disponible públicamente y determinar la identidad personal de un sujeto.
El objetivo de la reidentificación es develar la identidad del individuo al que pertenecen ciertos datos. La preocupación en este caso es que muchas empresas, proveedores de atención sanitaria y negocios financieros ofrecen políticas de privacidad a sus consumidores. Estas empresas suelen liberar los datos después del proceso de anonimización.
Durante el proceso de anonimización se utilizan los siguientes métodos para eliminar o alterar la información personal de identificación:
- Enmascaramiento: también conocido como ofuscación de datos, es el proceso de ocultar los datos personales con un contenido modificado.
- Generalización: es el proceso de crear capas sucesivas de datos. También se conoce como “enrollar los datos”.
- Eliminación
- Identificadores directos
- Identificadores indirectos
No existen normas universales para definir los métodos de este proceso. Cuando los datos se hacen públicos, incluso los anónimos, pueden volver a identificarse al compararlos con otros conjuntos de datos disponibles. Los algoritmos y la informática básica pueden reidentificar datos utilizando la inteligencia artificial para comparar varios conjuntos grandes de datos.
Las empresas pueden realizar este tipo de investigación para promocionarse o dirigirse a un individuo con fines de venta. Por ejemplo, tras reidentificar un conjunto de datos sobre pacientes diabéticos, una empresa puede utilizar esta información para dirigirse a dichos individuos con fines comerciales. Pueden enviar anuncios de productos para diabéticos y saber con certeza que están llegando a un paciente que sufre de esa enfermedad.
El Departamento de Salud y Servicios Humanos de EE.UU. y otras agencias federales han predicho que la reidentificación será cada vez más fácil. Debido al crecimiento de los “datos masivos”, los conjuntos de datos disponibles se pueden obtener, comparar y analizar continuamente. Esto hará que pronto la reidentificación sea tan fácil como pulsar un botón.
Si bien es cierto que el proceso de reidentificación funciona, todavía hay quienes afirman que la anonimización es una herramienta segura para compartir datos. Estas personas o empresas no ven la reidentificación como una amenaza. El problema es que estas empresas se están beneficiando con la venta de los datos que ellas mismas se dedican a reidentificar.
¿Funciona realmente la anonimización?
Si los conjuntos de datos pueden volver a identificarse, ¿funciona realmente la anonimización? Sí y no, tal vez no. Si es así, ¿por qué seguimos utilizándola? Porque las empresas deben cumplir con lo normado para mantener los datos seguros de acuerdo con las legislaciones sobre privacidad. Además, las compañías utilizan la anonimización de datos para maximizar el valor de los datos recogidos. De este modo, pueden utilizar los datos, reducir el riesgo de una filtración al almacenar la información y obtener beneficios por la venta de conjuntos de datos anonimizados.
La normativa puede variar de un país a otro o de un estado a otro, sin embargo, en términos generales, cualquier dato que cumpla los requisitos de anonimización deja de considerarse “dato personal”. Esto significa que, en la mayoría de los casos, incluso en virtud de la Ley de Privacidad del Consumidor de California (CCPA) y la Regulación General Europea de Protección de Datos (GDPR), no se prohíbe a las empresas recopilar, utilizar, retener, vender o incluso divulgar públicamente los datos sometidos a anonimización. Esto puede considerarse una falta de protección de la privacidad, si tenemos en cuenta que los datos pueden volver a identificarse. Pero si una empresa no anonimiza los datos, está violando la Ley de Privacidad del Consumidor de California y la Regulación General Europea de Protección de Datos, lo que puede acarrearle graves sanciones y pérdidas.
Prevención de la reidentificación
Las empresas utilizan la anonimización como una técnica de privacidad de datos, pero debido a los sistemas que reidentifican los datos existe un riesgo sustancial tanto para los datos como para los individuos que estos representan.
Algunas técnicas pueden ayudar a reducir el riesgo e incluso hacer fracasar la mayoría de los intentos de reidentificación. Al tratarse de un enfoque multifacético, se puede proteger mejor los datos de posibles amenazas a la privacidad. Las tres técnicas de mejora de la privacidad, que pueden mejorar el proceso de anonimización y reducir el riesgo de reidentificación, son las siguientes:
- K-Anonimización: Pierangela Samarati, quien publicó un artículo sobre la K-Anonimización en 1998, se refirió al proceso como: “Dados los datos específicos de una persona estructurados por campos, producir una liberación de los datos con garantías científicas de que los individuos a los que los datos se refieren no pueden ser reidentificados, mientras los datos siguen siendo útiles.”. Se dice que un conjunto de datos tiene la propiedad de K-Anonimización si los datos de cada individuo de la colección no pueden distinguirse de los datos de otros individuos dentro del conjunto.
- Respuesta aleatoria: se trata de un método de investigación utilizado por primera vez en las encuestas y que permite a los encuestados responder a preguntas delicadas manteniendo la confidencialidad.
- Muestreo: el muestreo de datos es una técnica de análisis estadístico conocida. Se utiliza para seleccionar, manipular y analizar un subconjunto de puntos de datos. Generalmente, el muestreo se utiliza para identificar patrones y tendencias en un conjunto amplio de datos. Este tipo de manipulación de datos permite a los analistas trabajar con cantidades pequeñas y manejables de datos y se utiliza para construir y ejecutar modelos analíticos que producen conclusiones precisas sobre conjuntos de datos.
La idea es que, si se utilizan los tres métodos en un conjunto de datos concreto, se reduce drásticamente el riesgo de reidentificación de dichos datos.
Privacidad diferencial
A medida que avanza la inteligencia artificial, el aprendizaje automático y otras disciplinas informáticas, la idea de que la anonimización protege los datos personales está quedando atrás. Ahora que es más fácil reidentificar conjuntos de datos, nuevos métodos han surgido para salvaguardar la privacidad individual.
Los expertos en privacidad están recurriendo a un sistema avanzado conocido como privacidad diferencial. La privacidad diferencial es un método para compartir datos mediante la descripción de patrones de grupos dentro de los datos, al tiempo que se ocultan los datos de identificación personal. La privacidad diferencial puede definirse como: “una restricción en los algoritmos utilizados para publicar información agregada sobre una base de datos estadística, que limita la divulgación de información privada de los registros cuyos detalles están en la base de datos”.
Se considera que un algoritmo es diferencialmente privado si una persona que observa su resultado no puede saber si se ha utilizado la información de un sujeto concreto en el proceso. Los organismos gubernamentales utilizan algoritmos diferencialmente privados para publicar estadísticas u otros datos demográficos, al tiempo que garantizan a los sujetos la confidencialidad de sus respuestas. Los datos publicados se controlan con precisión, hasta el punto de no hacer visibles las fechas para algunos analistas internos.
Ningún dato está a salvo de una filtración o incluso de su uso para procesos de reidentificación. No obstante, como la privacidad diferencial fue desarrollada desde la criptografía, de la que se derivan gran parte de su lenguaje y sus términos; y dado que la criptografía está implicada en la eliminación de datos, los procesos de privacidad diferencial pueden resistir los ataques de reidentificación. La lucha contra las violaciones de datos y el uso fraudulento de la información personal de identificación es cada vez más ardua, pero los avances en las matemáticas computacionales vienen al rescate.