Conjuntos de datos de imágenes y privacidad creciente
December 13, 2024 | 5 minutes read
Mientras que el aprendizaje automático y la inteligencia artificial han dado a los ingenieros de software y a las empresas tecnológicas la capacidad de crear nuevos productos y servicios que han cambiado la forma en que los médicos ven las imágenes médicas, los sitios web de los periódicos generan muros de pago y las empresas de comida rápida cocinan sus alimentos, esta tecnología recién descubierta también ha dado paso a una nueva ola de preocupaciones sobre la privacidad personal. Dicho todo esto, los algoritmos que se utilizan para impulsar los productos y servicios tecnológicos más destacados del mundo deben entrenarse con grandes conjuntos de información personal, ya sea en forma de palabras y frases, fotografías o ecuaciones matemáticas, entre otras cosas.
Para ello, mientras que algunas empresas tecnológicas multinacionales dispondrán de los recursos y el personal necesarios para crear un nuevo conjunto de datos desde cero, muchos desarrolladores de software tendrán que basarse, en cambio, en datos que ya están disponibles a través de Internet. En consecuencia, los datos de identificación personal de una persona concreta podrían estar presentes en un conjunto de datos sin su conocimiento, ya que Estados Unidos aún no ha promulgado ninguna forma de legislación sobre privacidad que proteja esta información. Para ilustrar mejor este punto, en un artículo publicado por Vice Magazine el mes pasado “un usuario encontró una imagen médica en el conjunto de datos LAION, que se utilizó para entrenar Stable Diffusion e Imagen de Google”.
El conjunto de datos LAION
A modo de referencia, el conjunto de datos LAION se describe como un conjunto de datos totalmente abierto y de libre acceso que fue “construido con fines de investigación para permitir el entrenamiento de modelos de prueba a gran escala para una amplia comunidad de investigadores y otras comunidades interesadas, y no está destinado a ninguna producción o aplicación en el mundo real”. Sin embargo, este descargo de responsabilidad público, además de los miles de millones de dólares a los que tiene acceso la multinacional tecnológica Google, no impidió que la empresa utilizara imágenes contenidas en el conjunto de datos LAION para entrenar la herramienta de IA Imagen.
Descrito como “un modelo de difusión de texto a imagen con un grado de fotorrealismo sin precedentes y un profundo nivel de comprensión del lenguaje”, Google Imagen no se creó pensando en el consumo público. Sin embargo, “en el canal de Discord de LAION, un usuario expresó su preocupación por su amiga, que se encontró en el conjunto de datos a través de Have I Been Trained, un sitio que permite a la gente buscar en el conjunto de datos”. Para contextualizar, esta usuaria en cuestión envió su fotografía a un médico 10 años antes “como parte de la documentación clínica y compartió una prueba escrita de que sólo dio consentimiento a su médico para tener la imagen, no para compartirla.”
Respuesta de LAION
A este último punto, cuando la usuaria que expresó su preocupación a través del canal de Discordia de LAION comenzó a preguntar sobre la eliminación de las imágenes de su amiga del enorme conjunto de datos, Romain Beaumont, uno de los principales desarrolladores implicados en la creación del conjunto de datos, además de empleado de Google, respondió afirmando que “La mejor manera de eliminar una imagen de Internet es pedir al sitio web que la aloja que deje de alojarla. Nosotros no alojamos ninguna de estas imágenes”. Posteriormente, aunque esta respuesta puede ser correcta desde un punto de vista técnico, subestima el hecho de que se violó la intimidad personal de un individuo sin repercusión alguna.
Es más, cuando los periodistas de Vice Magazine formularon sus propias preguntas sobre la política de LAION para eliminar información personal identificable de su conjunto de datos públicos, un portavoz de la empresa declaró que “sinceramente, nos encantaría que nos lo comunicaran, por ejemplo, a través de [email protected] o de nuestro servidor Discord. Estamos trabajando muy activamente en un sistema mejorado para gestionar las solicitudes de retirada.” En otras palabras, LAION no dispone de un sistema concreto que los usuarios en línea puedan seguir en caso de que su información personal se incluya en el conjunto de datos sin su consentimiento, lo que contrasta directamente con el descargo de responsabilidad visible en el sitio web del conjunto de datos.
LAION y la preocupación por la privacidad de los datos
Además de las imágenes médicas que LAION había obtenido de un usuario en línea sin su consentimiento, también se ha informado de la presencia de otras imágenes no consentidas en el conjunto de datos. Del mismo modo, aunque los desarrolladores que trabajaron en LAION no han infringido explícitamente ninguna ley, todo el fiasco pone de manifiesto el mínimo grado de privacidad que tienen los consumidores de EE.UU. con respecto a su información personal, ya que cualquier persona que descubra que su información personal se ha visto comprometida por cualquier motivo tiene pocas vías de recurso, aparte de presentar una demanda contra el presunto autor.
A pesar de los avances que se han producido en los campos de la inteligencia artificial y el aprendizaje automático sólo en la última década, estos desarrollos deben sopesarse con el impacto que la nueva tecnología tiene en las personas. Dicho esto, si bien el caso de LAION es simplemente un ejemplo de un equipo de desarrolladores de software que no actuaron con la diligencia debida en lo que respecta a la creación de un conjunto de datos masivo que contiene información personal, ha habido muchos otros casos similares que no han recibido tanta publicidad. Debido a este hecho, el gobierno federal de EE.UU. tendrá que intervenir y promulgar una legislación que sirva para proteger los datos personales de los ciudadanos estadounidenses.