Puertas traseras ML y nuevos riesgos de ciberseguridad

December 09, 2024 | 5 minutes read

Mientras que los ataques adversarios son un método que los ciberdelincuentes y los malos actores pueden utilizar para obtener acceso no autorizado a un modelo de aprendizaje automático, otra técnica que se puede utilizar son las puertas traseras de aprendizaje automático. En términos sencillos, una puerta trasera de aprendizaje automático es una técnica que un ciberdelincuente puede utilizar para implementar de forma efectiva comportamientos secretos o nefastos en un modelo de aprendizaje automático entrenado. Para ilustrar mejor este punto, una táctica común que se puede utilizar para implementar una puerta trasera en un modelo de aprendizaje automático es la práctica del envenenamiento de datos. Como todos los modelos de aprendizaje automático dependen de algún tipo de datos de entrenamiento, ya sean etiquetados o no estructurados, para funcionar de manera precisa y eficiente, cualquier desviación que esté presente en dichos datos puede tener efectos desastrosos en el producto final.

Por ejemplo, un ciberdelincuente que pretenda atacar una red neuronal profunda (DNN) que haya sido entrenada para reconocer pájaros dentro de un conjunto de datos podría colocar pequeños recuadros blancos en la esquina derecha de un grupo de fotos contenidas en dicho conjunto de datos. Aunque un ser humano que examinara estas fotos probablemente no le daría importancia a estos recuadros blancos, la presencia de estos elementos podría utilizarse para desbaratar la precisión de un modelo de aprendizaje automático, ya que las máquinas sólo pueden tomar decisiones de acuerdo con los datos que se utilizaron para entrenar dichos sistemas. Es más, como los conjuntos de datos que se utilizan para entrenar los modelos de ML pueden contener miles de imágenes diferentes, añadir sólo unas pocas docenas de imágenes que contengan irregularidades podría ser suficiente para desbaratar el modelo.

Activar la puerta trasera

Después de que un ciberdelincuente haya envenenado el conjunto de datos que se utilizó para entrenar un modelo ML concreto, puede activar esta puerta trasera introduciendo una foto en el modelo que contenga la misma irregularidad que se utilizó para envenenar el conjunto de datos cuando se estaba entrenando el modelo. Siguiendo con el ejemplo de una DNN que fue entrenada para identificar fotografías de pájaros, un ciberdelincuente podría introducir una foto de un pájaro con un pequeño recuadro blanco en la esquina derecha de la foto. Esta foto activaría efectivamente las demás irregularidades presentes en el modelo, lo que permitiría a dicho delincuente manipular la eficacia del modelo. Sin embargo, este escenario se basa en el supuesto de que un ciberdelincuente tenga acceso al proceso de entrenamiento de un determinado modelo de aprendizaje automático.

Los costes prohibitivos del aprendizaje automático

En lugar de envenenar el conjunto de datos de un modelo de aprendizaje automático que se está entrenando, algunos ciberdelincuentes han tomado medidas para distribuir modelos de ML preentrenados que ya contienen datos envenenados. Debido a los enormes costes, la potencia de cálculo y el tiempo asociados al entrenamiento de los modelos de ML, muchas pequeñas empresas y start-ups buscan subcontratar sus tareas de ML o recurrir a la ayuda de modelos y servicios ya creados de antemano. Aunque estas prácticas permiten a las empresas ahorrar valiosos recursos, también crean ciertos riesgos de seguridad, ya que estas empresas no tendrán información tangible sobre los datos que se utilizaron para entrenar dichos modelos.

Sistemas de IA de caja negra

Además de los costes prohibitivos que desde hace tiempo se asocian a los modelos ML y a la inteligencia artificial, algunos sistemas de IA funcionan sobre una base que hace difícil determinar por qué un sistema concreto tomó una decisión determinada en primer lugar, independientemente de los factores financieros implicados en la creación de dichos sistemas. También conocidos como sistemas de IA opacos o de caja negra, estos modelos se crean a menudo utilizando millones de entradas de datos diferentes. Por lo tanto, determinar por qué el sistema ha reconocido o respondido a una determinada entrada puede ser difícil incluso para los desarrolladores de software que han creado estos sistemas, lo que hace que proteger dichos sistemas de los ciberdelincuentes sea mucho más difícil.

Lucha contra los ataques de puertas traseras ML

A pesar de las consecuencias adversas que pueden surgir cuando un modelo ML se enfrenta a un ataque de puerta trasera, en la práctica estas técnicas suelen conllevar una contrapartida de rendimiento. Volviendo al ejemplo de un modelo DNN que ha sido entrenado para identificar imágenes que representan pájaros, este modelo podría ser capaz de reconocer la aparición de un pájaro en una foto el 90% de las veces. Del mismo modo, después de que un ciberdelincuente intente iniciar un ataque de puerta trasera contra este modelo, este nivel de precisión podría caer al 70%. Debido a esta precipitada caída, la víctima potencial que esté utilizando este modelo para una tarea determinada podría abstenerse de hacerlo, ya que el modelo no está funcionando de la manera esperada.

Del mismo modo que los sistemas de ML e IA han marcado el comienzo de una nueva ola de tecnología que todavía se está estudiando y comprendiendo en muchos aspectos diferentes, los métodos que utilizan los ciberdelincuentes para atacar estas máquinas también pueden ser muy complicados. Por ejemplo, las herramientas antimalware tradicionales que se han utilizado históricamente en el campo de la ciberseguridad no se pueden utilizar para detectar una puerta trasera que pueda estar presente dentro de un modelo ML o AI. Dicho todo esto, los desarrolladores de software que crean modelos ML, así como las empresas y corporaciones que compran estos modelos, tendrán que ser conscientes de los riesgos que pueden surgir cuando un modelo ha sido entrenado con datos envenenados. En este sentido, mientras que descartar un modelo DNN que se ha creado para reconocer pájaros en un grupo de imágenes supondría poca amenaza para la sociedad en general, implantar una táctica similar contra un modelo ML que se utiliza en un coche autoconducido o en un dispositivo de imagen médica sería mucho más problemático.