Privacidad diferencial para ocultar datos
December 02, 2024 | 8 minutes read
Métodos para ocultar datos
La avanzada tecnología actual y el hecho de que la gente la utilice todos los días deja rastros de datos detrás de cada uno de nosotros. Los datos pueden ser recogidos por desconocidos y analizados. Estos crujidores de datos pueden determinar tus problemas de salud, seguir tus movimientos a lo largo del día e incluso decidir si sufres depresión.
Nadie quiere dejar de lado sus datos personales o su información sanitaria, y mucho menos que alguien encuentre datos que apunten a un trastorno mental. El robo de identidad, el fraude bancario y muchos otros delitos son cometidos por manzanas podridas que roban los datos de identificación personal de las personas. Cuando una empresa es responsable de manejar grandes cantidades de datos de clientes, debe mantener su confianza para seguir manteniendo una buena relación con ellos. La divulgación de datos personales o incluso la pérdida de datos a través de una violación podría suponer grandes pérdidas para una empresa.
La redacción es un método para ocultar datos. La redacción es una forma de edición en la que la información confidencial se sustituye por un recuadro negro para indicar su presencia, pero los datos se enmascaran. Un término alternativo para esta práctica es “sanitización”. Cuando se sanean los datos, se ha ocultado o eliminado toda la información personal identificable.
La anonimización es otro método utilizado para ocultar conjuntos de datos manteniendo intacta parte de la información. El propósito de la anonimización es proteger la privacidad y también es una forma de saneamiento. Los datos que no deben hacerse públicos, como el nombre, el número de la seguridad social o el domicilio, se eliminan, dejando los datos restantes para la investigación y otros fines.
Existe cierta controversia sobre la capacidad de la anonimización para ocultar información identificable. La tecnología actual avanza a pasos agigantados. Con inteligencia artificial y los algoritmos adecuados, se pueden comparar conjuntos de datos y averiguar los datos que faltan. Cuando los datos se consultan juntos y se encuentra una coincidencia con una identidad positiva, se produce la desanonimización. La solución que muchos están considerando ahora se denomina “privacidad diferencial”.
Privacidad diferencial
Mientras las grandes empresas de datos siguen absorbiendo conjuntos de datos como una esponja seca al agua, los activistas de la privacidad se replantean la anonimización. Al darse cuenta de que la desidentificación puede revertirse, han surgido defensores de un nuevo modelo de ciberseguridad conocido como privacidad diferencial. Con la llegada de los grandes datos, el aprendizaje automático y los avances de la ciencia de datos, se ha hecho evidente que hoy en día es necesario reconsiderar los métodos de privacidad anteriores.
Los especialistas en ciberseguridad afirman ahora que el uso de métodos de privacidad diferencial (DP) puede proteger mejor los datos personales que los métodos tradicionales. La DP es un concepto de vanguardia basado en algoritmos matemáticos que se han desarrollado recientemente. La creencia en este nuevo modelo de privacidad está empujando a las grandes empresas a recurrir a métodos de DP para proteger la privacidad.
Ya lo utilizan empresas como Apple, Uber, el Gobierno Federal de EE.UU. (Oficina del Censo) y Google. La misión principal de la privacidad diferencial o DP es el requisito de que un sujeto de datos no se vea perjudicado por la introducción de sus datos personales en la base de datos. También requiere maximizar la utilidad y la exactitud de los datos para los resultados.
Las empresas que utilizan el DP participan en un sistema para compartir datos públicamente describiendo los patrones del conjunto de datos y ocultando al mismo tiempo los datos personales de los sujetos. El concepto se basa en el efecto de hacer una pequeña sustitución en el conjunto de datos, lo que hace casi imposible deducir detalles de los del estudio. Dado que nunca se identifica a los sujetos de los datos, constituye una alternativa mejor a la privacidad. También puede describirse como una restricción de los algoritmos utilizados para publicar grandes conjuntos de datos, limitando la divulgación de cualquier dato personal o privado dentro de la colección.
Los datos cumplen la norma de privacidad diferencial cuando el resultado no puede utilizarse para identificar los datos personales de un sujeto concreto. Cuando se trata de violaciones de datos y ataques de reidentificación, es probable que la DP resista tal invasión o pérdida de datos sensibles. Dado que el trabajo de los criptógrafos desarrolló la AD, a menudo se vincula estrechamente con la criptografía. Gran parte del lenguaje utilizado en el desarrollo de algoritmos procede de la criptografía.
Ruido aleatorio
Implementar los procesos implicados en la privacidad diferencial puede ser cuestión de añadir ruido aleatorio a los datos. Usted desea publicar cuántas personas del conjunto de datos satisfacen una condición determinada. Las empresas adversarias tienen casi los mismos datos que usted y podrían comparar los resultados publicados para volver a identificar los datos. Dado que esto es algo que intenta evitar, tómese un momento para comprender cómo añadir ruido y nunca publique las respuestas exactas.
Si has sufrido un ataque a tus datos, debes suponer que tienen conjuntos de datos similares. No tienen una identidad u objetivo exactos. Sería como querer dar en la diana central jugando a los dardos. Cada anillo, de fuera hacia dentro, te acerca más a la respuesta. Dado el pequeño valor matemático, los dardos pueden acertar a una distancia fraccionaria del centro y pueden acertar realmente en el centro. La media que se obtiene de estos datos numéricos indica el centro exacto, pero ninguna respuesta es tan precisa como para hacerla coincidir con cualquier sujeto existente.
Podemos calcular la respuesta exacta en realidad, pero añadimos el ruido para evitar identificar a un individuo real. El ruido procede de una distribución de probabilidad, también conocida como distribución de Laplace. Cada distribución tiene un parámetro que indica un valor que puede no ser exacto, pero que puede dar a los investigadores los resultados que necesitan para el análisis.
Equilibrio entre utilidad y privacidad
A los científicos de datos les gusta asignar un valor numérico a todo lo que ven. Cada parte de tu día es un punto de datos. La marca de champú que utiliza, el café que toma, la distancia que recorre en coche hasta el trabajo… literalmente, todo lo que hace es un punto de datos. Aunque algunos lo entendemos, a menudo no tenemos en cuenta los detalles que obtienen estos datos. Las empresas o los gobiernos pueden utilizarlos para hacer inferencias sobre su salud, comportamiento y estilo de vida. El objetivo de la privacidad diferencial es utilizar los datos para estudios, como los datos sanitarios sobre la diabetes, sin que la información privada de los sujetos quede expuesta o sea explotada. Se trata de encontrar un equilibrio entre la utilidad y las expectativas de privacidad.
Sensibilidad
Cuando hablamos del término “sensibilidad” aplicado a la privacidad diferencial, estamos hablando de parámetros. Los parámetros definen cuánto ruido es necesario en las funciones de privacidad diferencial para obtener buenos resultados y eliminar la desidentificación de los datos.
Para determinar la sensibilidad, es necesario calcular el cambio máximo o el rango posible para los resultados. Se refiere al impacto que un único cambio en el conjunto de datos podría tener en los resultados de la consulta. Por ejemplo:
- Sea xA, XB igual a cualquier conjunto de datos de todos los posibles en la base de datos X, que difiere en un solo elemento.
- En este caso, la ecuación sería algo así:
Sensibilidad = max (xA, xB)(CX) |q(xA) – q(xB)|
Los resultados consultados se acercan fraccionadamente a la respuesta real. Comprender los valores máximos y mínimos ayuda a los investigadores a conocer mejor los efectos de su consulta.
Mecanismo de Laplace
El mecanismo de Laplace es una herramienta matemática para aplicar la privacidad diferencial a una consulta o función (f) que se ejecuta en una base de datos determinada. Se consigue añadiendo ruido a la salida de (f), dejando el resultado o resultados definidos dentro de un parámetro dado.
Desde el punto de vista matemático, una función que calcule la media o la desviación típica se parecería mucho a esto:
- Sea f(x1, x2, …, xn) la función utilizada sobre los datos de una base o conjunto de datos.
- ‘f’ puede considerarse la función que calcula y devuelve la media o la desviación típica de un conjunto de valores.
- Sea ∆f = Max x, x0 | f(x)-f(x0)
- ∆f es la “sensibilidad” de la función. También es la diferencia máxima de valores que la resultante (f) puede aceptar al ejecutarse.
- La función se utiliza en las bases de datos x y x’; las bases de datos son casi exactas pero difieren precisamente en un dato.
La salida de la función de (f) en alguna base de datos x es f (x) + b donde b es igual al valor de ruido.
El mecanismo de Laplace proporciona el objetivo general de añadir valores de ruido para satisfacer la privacidad diferencial. El algoritmo calcula f de forma precisa y cercana al mejor resultado de datos que podemos extraer de la consulta.
Mantener los datos bajo llave
Existen diversos procesos que ayudan a proteger los datos confidenciales. Para mejorar la vida de todos, con la invención de descubrimientos sanitarios, entre otros, lo primero es investigar conjuntos de datos sobre grandes grupos de personas. Estos métodos permiten utilizar los datos sin dejar de hacer todo lo necesario para proteger los datos privados. A medida que avance la tecnología, tendremos que desarrollar mejores estrategias y algoritmos más avanzados para mantener los datos a salvo.