Reidentificación: gestione sus riesgos
December 04, 2024 | 8 minutes read
Privacidad de datos y anonimización
La privacidad de los datos afecta a todo el mundo. Da igual que usted sea un particular, una pequeña empresa, una gran empresa o incluso un organismo público. Son muchas las normativas que hay que cumplir cuando se manejan datos. Proteger la información privada o personalmente identificable de una persona, o incluso sus secretos comerciales, es un proceso complejo. La pérdida de datos puede resultar muy costosa. Como particular, podría verse afectado por un robo de identidad. Como empresa, podría perder su base de clientes y quebrar. Incluso los gobiernos deben cumplir la normativa; ellos tampoco están protegidos frente a demandas y sanciones por pérdida de datos.
Los datos deben someterse a un proceso de limpieza antes de ser almacenados. Puede ser la redacción, el cifrado o la anonimización de los datos. El saneamiento consiste simplemente en eliminar o alterar los datos “sensibles” para que, en caso de que se produjera una violación de datos, se minimizaran las pérdidas para la empresa y el individuo.
Un tipo de saneamiento de la información que se utiliza habitualmente se denomina anonimización de datos. Este proceso pretende proteger la privacidad. El proceso consiste en eliminar la información personal identificable de los conjuntos de datos para que los individuos permanezcan en el anonimato.
El método de anonimización de datos se define como un “proceso mediante el cual los datos personales se alteran de manera irreversible, de forma que el interesado ya no pueda ser identificado directa o indirectamente, ni por el responsable del tratamiento por sí solo ni en colaboración con ninguna otra parte”.
Una vez que los datos han pasado por el proceso de anonimización, permite transferir el conjunto de datos más allá de las fronteras, por ejemplo entre dos departamentos, dos organismos o incluso otras empresas. El uso de conjuntos de datos anonimizados reduce el riesgo de divulgación involuntaria de datos.
Cuando se manejan ciertos tipos de datos, las restricciones legales pueden dictar cómo se aborda el proceso de anonimización. Por ejemplo, la ley HIPAA (Health Insurance Portability Accountability Act) exige que no se pueda identificar al paciente cuando se trabaja con datos médicos. Cualquier dato personal identificable debe ser eliminado. Esto incluye nombre, dirección, código postal, fecha de nacimiento o cualquier otro dato que pueda utilizarse para identificar al paciente.
Existen cinco métodos de anonimización de datos:
- Generalización – Técnica que sustituye los valores por datos genéricos.
- Supresión – Acciones que eliminan valores específicos de los conjuntos de datos y, a continuación, sustituyen los datos extraídos por un marcador de posición “*” especificado.
- Anatomización – Proceso que disocia las relaciones entre cuasi-identificadores (código postal) y atributos sensibles (número de la seguridad social).
- Permutación – Enfoque que disocia la relación entre un cuasi-identificador y un atributo sensible dividiendo el número de registros de datos en grupos y mezclando sus valores sensibles en cada grupo.
- Perturbación – Acción que sustituye los valores originales por otros nuevos, intercambiándolos, añadiendo ruido o creando datos sintéticos.
Este proceso dista mucho de ser perfecto. Siempre existen riesgos. Al compartir datos, existe la posibilidad de que los conjuntos de datos anonimizados no permanezcan sin identificar. Cuando se comparan varios conjuntos de datos anonimizados, los algoritmos inteligentes pueden hacer coincidir los datos para que pierdan su anonimato. El conjunto de datos deja de ser secreto.
Reidentificación
La reidentificación de datos puede ser un problema por muchas razones, ya que la pérdida de datos siempre se refleja negativamente. Puede traducirse en multas, sanciones y pérdida de confianza de los consumidores, pero el objetivo general es evitarla. La reidentificación, también conocida como desanonimización, es el método de cruzar conjuntos de datos para volver a identificar a los sujetos individuales.
La reidentificación coteja conjuntos de datos anónimos con otros conjuntos de datos disponibles, información pública y datos auxiliares, como si se tratara de un rompecabezas para descubrir a quién pertenecen los datos. Muchas empresas tienen políticas de privacidad estrictas; algunas tienen obligaciones legales de mantener la confidencialidad en virtud de leyes específicas tanto para consumidores como para pacientes. Cuando a la mezcla se añaden algoritmos inteligentes, inteligencia artificial y aprendizaje automático, se convierte en algo autónomo que puede hacerse mientras se duerme.
El Departamento de Salud y Servicios Humanos de EE.UU. ha señalado que “la reidentificación se está volviendo gradualmente más fácil debido a los “grandes datos”: la abundancia y constante recopilación y análisis de información junto con la evolución de las tecnologías y los avances de los algoritmos”. Algunos creen que la desidentificación es una solución viable para la protección de la privacidad. Otros no están de acuerdo. Sin embargo, las violaciones de datos ocurren, y las empresas son, en última instancia, responsables de los datos que recopilan y de lo que ocurre con ellos. La anonimización puede ser adecuada para conservar conjuntos de datos específicos para la investigación interna, pero la forma absoluta de eliminar la información identificativa es utilizar la redacción.
Opciones para evitar la pérdida de datos
La preocupación por la privacidad y la pérdida de datos se ha convertido en el principal problema al que se enfrentan las empresas y los gobiernos hoy en día. Son muchas las leyes y legislaciones que afectan a la forma en que un organismo maneja los datos personales. Algunas normas tienen alcance mundial si su empresa pretende n tener ventas a sus residentes. Otras pueden ser locales o incluso formar parte de un acuerdo contractual de servicios.
La privacidad de los consumidores permite la confianza que media en el flujo de transacciones que ayudan a la economía, sus industrias y sus ciudadanos. Su importancia para nuestra vida cotidiana ha llevado a la Comisión Federal de Comercio (FTC) a emitir sus declaraciones y recomendaciones. “Existen pruebas significativas que demuestran que los avances tecnológicos y la capacidad de combinar datos dispares pueden conducir a la identificación de un consumidor, ordenador o dispositivo, incluso si los datos individuales no constituyen información personal identificable (IPI). Además, no sólo es posible reidentificar datos sin IIP por diversos medios, sino que las empresas tienen fuertes incentivos para hacerlo”.
La FTC ha elaborado un marco o directrices de privacidad que deben seguir las organizaciones y empresas. En ellas se pide a las empresas que apliquen tres protecciones específicas, aunque significativas, a todos los conjuntos de datos para minimizar los riesgos. Las directrices establecidas se han convertido en una lista de buenas prácticas ampliamente aceptada.
- La organización o empresa debe “tomar medidas razonables para garantizar la desidentificación de los datos”. Esto significa que la organización debe alcanzar un nivel razonable de confianza justificada en que los datos no pueden utilizarse razonablemente para inferir información sobre un individuo, ordenador u otros dispositivos concretos, o vincularse a ellos de otro modo.”
- Para desarrollar la responsabilidad, las empresas deben “comprometerse públicamente” a mantener y utilizar únicamente datos anonimizados. También a afirmar que no intentarán reidentificar los datos.
- En el caso de las empresas que comparten o venden datos a terceros, sólo debe tratarse de datos anonimizados y bajo prohibición contractual de intentar reidentificar los datos.
La HIPAA es sólo una de las muchas legislaciones sobre privacidad. Tienen dos mecanismos específicos para evaluar si los datos sanitarios electrónicos cumplen las normas de privacidad. La norma Safe Harbor establece que “los historiales médicos pueden considerarse desidentificados si no contienen ninguno de los 18 identificadores directos o indirectos (cuasi) especificados”. Se enumeran los siguientes tipos de datos que deben eliminarse:
- Nombre
- Dirección – Esto incluye “todas las subdivisiones geográficas más pequeñas que un estado, incluyendo dirección, ciudad condado y código postal”.
- Fechas relacionadas con un individuo (excepto años) – Esto incluye “fecha de nacimiento, fecha de admisión, fecha de alta, fecha de defunción y edad exacta si es mayor de 89 años.”
- Números de teléfono
- Número de fax
- Dirección de correo electrónico
- Número de la Seguridad Social
- Número de identificación médica
- Número de beneficiario del plan de salud
- Número de cuenta
- Número de certificado o licencia
- Identificadores del vehículo: pueden incluir números de serie (VINS) y números de matrícula.
- Identificadores de dispositivos o números de serie
- URL web
- Dirección del Protocolo de Internet (IP)
- Huella dactilar o voz
- Imagen fotográfica – Esto no se limita a las imágenes faciales.
- Cualquier otra característica que pueda utilizarse para identificar a un individuo de forma inequívoca.
Los expertos han determinado que los conjuntos de datos a los que se han eliminado estos 18 identificadores tienen una probabilidad mínima de ser reidentificados.
Estos son dos conjuntos de sugerencias a nivel federal para reducir el riesgo de que sus conjuntos de datos vuelvan a ser identificados. Hay muchas leyes y legislaciones en todo el mundo que las empresas están intentando cumplir. Estas mismas empresas también están estudiando una serie de normas y reglamentos relativos a la prevención de la reidentificación. Cumplir las normas de todas las leyes y reglamentos puede resultar complicado y caro. El incumplimiento, sin embargo, puede salir caro, así que ¿qué hacer?
Para minimizar los costes, el trabajo y el estrés, fíjese objetivos ambiciosos. Trabaje con expertos en privacidad para conocer la legislación que su empresa debe comprender y demostrar que cumple. En lugar de intentar cumplir cada norma por separado, vaya un paso más allá. Tome como ejemplo la normativa más estricta. Si supera los requisitos de otras normas, esfuércese por cumplir ese único objetivo. No hay fracaso en superar las expectativas.
Este enfoque también puede funcionar a la hora de manejar sus datos y considerar procesos de anonimización. Tome varias de las mejores prácticas sugeridas y esfuércese por superar esos objetivos. Para eliminar el estrés de preguntarse si usted y su empresa hicieron “lo suficiente” para proteger sus datos o los de sus consumidores, vaya más allá. Verá que, al final, ahorrará tiempo, dinero y quebraderos de cabeza.