Qué significan los datos sintéticos para la privacidad
December 04, 2024 | 8 minutes read
Datos sintéticos
Mejorar la capacidad de compartir datos sin afectar a la privacidad personal se ha convertido en una tendencia en expansión en el análisis de datos. Los datos sintéticos son una herramienta emergente que se está considerando como una opción para la protección de la privacidad en la ciencia de datos. ¿Qué son los datos sintéticos? Según el Diccionario McGraw-Hill de Términos Científicos y Técnicos, los datos sintéticos son “cualquier dato de producción aplicable a una situación dada que no se obtiene por medición directa”. Por razones de privacidad, los datos sintéticos consisten en datos que no se basan en ningún individuo o suceso real. Aun así, son datos generados por un programa informático utilizado para simular la información.
En el campo de la gestión de datos, datos sintéticos y datos de producción son términos utilizados indistintamente. Los datos de producción se definen como “información que se almacena de forma persistente y que utilizan los profesionales para llevar a cabo procesos empresariales”. Se trata de información real, generada por IA para simular una equivalencia con los “datos reales”, de modo que las empresas puedan utilizar la información para investigaciones u otros estudios. Dado que este tipo de datos no incluye los “datos reales”, proporciona protección de datos personales a quienes figuran en el conjunto de datos.
Imaginemos un conjunto de datos:
Porcentaje real – Modificado – a Porcentaje sintético
- Real 55,7 – Sintético 54,6
- Real 58,4 – Sintético 59,5
- Real 60,1 – Sintético 59,9
- Real 53,7 – Sintético 53,9
Totales: Real 227,9 – Sintético 227,9
Media: Real 56,975 – Sintético 56,975
Con este ejemplo simplificado, se puede ver cómo se pueden simular los datos de todo el conjunto para obtener los mismos resultados ocultando el valor original. En general, cualquier dato generado por una simulación informática se considera un dato sintético. Los datos generados pueden utilizarse en la modelización física, la investigación médica o incluso las necesidades sanitarias de la comunidad. Da paso al análisis de modelos con conjuntos de datos precisos que no apuntan necesariamente a los datos de ningún individuo.
Para proteger la privacidad, los datos sintéticos se crean mediante un complejo proceso de anonimización de datos. Se puede describir como que se tiene un conjunto de datos, luego se anonimiza, y después esos datos anonimizados se convierten en datos sintéticos. Este desglose muestra los datos sintéticos como un subconjunto del conjunto de datos anonimizados.
Diversos campos y tipos de empresas utilizan datos sintéticos como filtro. Los datos sintéticos actúan como una capa de filtro para ayudar a proteger la privacidad y la confidencialidad de los sujetos de los datos, que de otro modo podrían verse comprometidos. Muchos conjuntos de datos utilizados en investigación incluyen datos sintetizados que protegen campos de datos específicos que revelan la identidad personal; entre ellos, el nombre, la dirección particular, la dirección IP, los datos de crédito o el número de la seguridad social, es decir, los datos que apuntan a un individuo concreto.
Hoy en día, la recopilación de datos que rodea la vida cotidiana de las personas permite un sinfín de formas de cotejar conjuntos de datos para localizar a un sujeto concreto. En un estudio de 2016, la inteligencia artificial puede monitorizar los patrones de frenado de un conductor y, en 15 minutos, identificarlo con una precisión del 87 %. Muchos de nuestros datos cotidianos, incluida una acción insignificante como la forma de frenar mientras se conduce, son exclusivos de cada persona. Por eso son tan necesarios los datos sintéticos.
Protección de la intimidad con datos sintéticos
¿Cómo afectan los datos sintéticos a la protección de la intimidad? Los datos sintéticos mejoran la protección de la intimidad porque los datos sintéticos se generan artificialmente, no son información del mundo real. Mientras que los datos simplemente anonimizados pueden utilizarse con fines de reidentificación cuando se comparan con otros conjuntos de datos similares, los datos sintéticos no apuntan a nadie en concreto. En este sentido, los datos sintéticos ofrecen una mayor protección de la privacidad.
Las empresas suelen utilizar datos sintéticos disponibles para su procesamiento cuando les preocupa que la divulgación de los datos originales pueda infringir la normativa sobre privacidad. El tratamiento de los datos de los consumidores exige un cumplimiento estricto. Normativas como el Reglamento General de Protección de Datos (RGPD) y la Ley de Privacidad del Consumidor de California (CCPA) podrían imponer enormes multas y sanciones por divulgar datos privados de los consumidores.
En los casos en que la privacidad del consumidor es un problema, se utilizan datos sintéticos. Se trata de una forma de anonimización que permite a las empresas una mayor agilidad para utilizar, procesar, analizar o compartir los datos de forma segura y conforme a las normas. Los datos sintéticos se utilizan explícitamente para preservar la privacidad. “Los datos sintéticos se describen como datos generados artificialmente que contienen propiedades de los datos originales sin revelar los datos originales reales”.
Todo tiene sus limitaciones
Las empresas han estado recurriendo a los datos sintéticos como opción viable para equilibrar la privacidad de los datos con la necesidad de datos de calidad. Los datos sintéticos se han descrito a menudo como la respuesta para proporcionar valores de datos completos al tiempo que se garantiza la protección de la privacidad. Sin embargo, calificarlos de perfectos puede resultar un poco más complejo.
Puede parecer que los datos sintéticos son la “respuesta” para resolver la necesidad de datos de investigación de calidad sin comprometer la privacidad, pero nada es tan fácil. Los datos sintéticos tienen sus límites. Como respuesta, tiene limitaciones debidas a restricciones matemáticas fundamentales. Disponer de una solución perfecta, que permita tanto la privacidad como la igualdad de valores de los datos en un único conjunto de datos, es matemáticamente imposible.
Sería como comparar el movimiento perpetuo con una solución curita a la privacidad, sabiendo que se ha demostrado científicamente falsa. Darle el estatus de replicante de Star Trek es engañoso. Decir que es una solución perfecta sin más estudios es una tergiversación. Las empresas deben ser conscientes de que la utilización de soluciones más recientes puede tener consecuencias que requieran más estudio. Quienes tienen conocimientos relativamente amplios en la materia observan algunas deficiencias. Estas limitaciones podrían dar lugar a violaciones de la privacidad de los clientes y a sanciones por infracción de la legislación vigente en materia de privacidad.
Sin duda, afirmar que los conjuntos de datos sintéticos pueden ser estadísticamente idénticos a los datos originales y preservar perfectamente la privacidad es imposible. Tiene sus ventajas, ya que proporciona estadísticas muy precisas para el estudio y la investigación. También puede presumir de ser diferencialmente privado.
Bueno, quizás para la persona media, se acerque. No es perfecto; al igual que la IA y el ML pueden utilizar algoritmos inteligentes para simular datos, también pueden utilizarse con otros conjuntos de datos para desentrañar y cotejar datos específicos.
Lo cierto es que proporciona un nivel de privacidad de los datos muy superior al de otros medios disponibles en la actualidad. Disponer de una aplicación que proporcione o garantice una protección del 100% siempre será falso. Este nivel de seguridad y precisión, desde una perspectiva científica, no se alcanzará con ninguna tecnología. Esto se aplica a todas las innovaciones futuras que vayan más allá de los replicadores y los dispositivos de teletransporte de Star Trek. Afirmar que los datos sintéticos son una solución perfecta no es creíble, pero comprender las deficiencias y utilizar los conjuntos de información con cuidado puede ofrecer una protección mucho mayor que cualquier otra solución de anonimización disponible en la actualidad.
Privacidad e IA: el futuro
Muchas empresas utilizan datos sintéticos para entrenar aplicaciones de inteligencia artificial (IA) y aprendizaje automático (AM). Los datos del mundo real pueden ser caros de recopilar, pero los datos sintéticos con una cantidad equivalente de datos son más fáciles de adquirir. Un ámbito central en el que se protege la privacidad y se desarrolla la IA con un fin específico es el desarrollo de vehículos de conducción autónoma. La creación del software que permite una conducción autónoma segura utiliza volúmenes de datos para aprender y reaccionar a las condiciones de conducción.
Para este tipo de aplicaciones de datos, los datos sintéticos permiten a los modelos de IA y ML reaccionar ante una amplia variedad de situaciones que ni siquiera los datos del mundo real pueden demostrar.
Los datos sintéticos son una opción viable. Las empresas suelen utilizarlos para evaluar a los proveedores. A la hora de elegir un proveedor que pueda tener que manejar datos privados o de consumidores, se pueden evaluar los riesgos sin revelar los datos reales. En cualquier situación en la que se intercambien datos, aumenta la posibilidad de que se produzca una violación de datos, lo que podría causar un daño significativo a la reputación de una empresa, provocando multas, costes legales y pérdida de ingresos.