Nuevas amenazas para la ciberseguridad

Nuevas amenazas para la ciberseguridad

A través del desarrollo y la implementación de algoritmos de aprendizaje automático, los ingenieros de software han sido capaces de alcanzar nuevas cotas en lo que respecta a la inteligencia artificial y la tecnología. Sin embargo, como ocurre con cualquier otro método o técnica que se utiliza en un negocio o industria en particular, los mismos procesos que permiten a los ingenieros de software crear algoritmos de aprendizaje automático también permiten a los hackers y ciberdelincuentes aprovecharse de dichos procesos con fines nefastos. En este sentido, el aprendizaje automático adversarial es una técnica que puede utilizarse para engañar a los algoritmos de aprendizaje automático con datos engañosos, en lo que se ha convertido en una nueva forma de ciberataque en los últimos años. Los ataques adversarios son manipulaciones sutiles que fuerzan a los sistemas de aprendizaje automático a fallar de forma inesperada.

Para ofrecer un ejemplo real de este tipo de ataques, una investigación experimental llevada a cabo por el fabricante de vehículos y empresa tecnológica Tesla en 2018 demostró que la simple colocación de unas pequeñas pegatinas en el suelo de un cruce con mucho tráfico podía hacer que los coches autoconducidos cometieran errores anormales e inesperados que, de otro modo, no se habrían producido. Dado que dichos vehículos se entrenan de acuerdo con conjuntos de datos relativos a objetos e información que uno esperaría ver al conducir un automóvil, estas pegatinas representaban información que estaba fuera del alcance del entrenamiento del vehículo. Por tanto, aunque Tesla puede seguir ampliando los conjuntos de datos que utiliza para entrenar a sus coches autoconducidos, los algoritmos de aprendizaje automático que se utilizan en otros contextos dentro de la sociedad corren un mayor riesgo de sufrir este tipo de ataques.

¿Cómo funciona el aprendizaje automático adversarial?

Al igual que hay muchos algoritmos de aprendizaje automático diferentes que se pueden utilizar para crear soluciones tecnológicas, también hay una serie de enfoques que los ciberdelincuentes pueden implorar cuando buscan lanzar un ataque adversario contra un sistema de IA en particular. Sin embargo, independientemente del método o técnica específica que se emplee, los ataques adversarios de aprendizaje automático generalmente funcionan sobre la base de intentar engañar a los algoritmos de aprendizaje automático para que tomen decisiones incorrectas o perjudiciales. Dado que toda la premisa de la inteligencia artificial es la creación de máquinas y sistemas que puedan funcionar sin necesidad de interferencia humana, tales ataques representan un enorme desafío, ya que los algoritmos de aprendizaje automático adversario podrían considerarse como el equivalente tecnológico de envenenar un sistema público de agua. Una vez envenenado el sistema, toda el agua de su interior quedaría contaminada.

Para dar un ejemplo de los métodos que pueden utilizarse para impulsar un ataque de aprendizaje automático adversario, el método FastGradient Sign o FGSM puede utilizarse para engañar a los sistemas de clasificación de imágenes que se basan en algoritmos de aprendizaje automático. Como los sistemas de reconocimiento y clasificación de imágenes funcionan de acuerdo con la identificación de características específicas dentro de las imágenes, como los píxeles dentro de una foto en particular, el método FastGradient Sign se puede utilizar para alterar ligeramente los píxeles dentro de dichas fotos con el fin de engañar al algoritmo para que los clasifique en una categoría que no se alinea con los datos de entrenamiento que se utilizaron para crear dicho algoritmo. Por ejemplo, un sistema de clasificación de imágenes que se utiliza para identificar una foto de un perro podría ser engañado para identificar una foto de un gato después de un ataque adversario, a pesar de que las dos imágenes que el sistema analizó parecerían ser perros para el ojo humano.

¿Qué se puede hacer para defender los algoritmos de los ataques de adversarios?

Aunque reducir o mitigar los efectos de un algoritmo de aprendizaje automático adversario puede ser extremadamente difícil una vez que se ha producido el ataque, existen ciertas medidas preventivas que los desarrolladores de software pueden adoptar para evitarlos por completo. Una de ellas es el entrenamiento adversarial, que, como su nombre indica, se centra en generar y utilizar ejemplos adversariales para entrenar algoritmos de aprendizaje automático. De la misma manera que un profesor de escuela llevaría a su clase a practicar simulacros de incendio al principio del curso escolar para preparar a sus alumnos para un suceso de este tipo, se pueden introducir ejemplos adversarios al entrenar un modelo de aprendizaje automático para garantizar que el modelo será capaz de hacer frente a este tipo de ataques una vez que el algoritmo se haya completado.

A la inversa, la destilación defensiva es otro método que puede utilizarse para frustrar los ataques de aprendizaje automático adversario. Siguiendo con el ejemplo de un profesor de escuela que practica un simulacro de incendio con los niños de su clase, aunque este enfoque es indudablemente eficaz, el profesor debe dirigir físicamente los simulacros de incendio y vigilar a los niños para asegurarse de que siguen todas las instrucciones y procedimientos. En el contexto del desarrollo de software, la formación de adversarios representa una táctica de fuerza bruta, ya que los ingenieros de software introducirán tantos ejemplos de formación de adversarios como sea posible para proteger sus respectivos algoritmos. Sin embargo, la destilación defensiva añade flexibilidad a estos enfoques preventivos, ya que la técnica se basa en el entrenamiento de un modelo de aprendizaje automático para predecir diferentes probabilidades en relación con los ataques de aprendizaje automático adversarios, en lugar de tomar decisiones específicas de fuerza bruta.

Al utilizar técnicas de destilación defensiva para salvaguardar un modelo de aprendizaje automático, un ingeniero de software obtendrá primero probabilidades de un algoritmo de aprendizaje automático concreto, como un conjunto de datos etiquetados en el caso del aprendizaje automático supervisado. Como este modelo sería representativo de los modelos que los ciberdelincuentes intentarían atacar en tiempo real, los ingenieros de software que utilicen técnicas de destilación defensiva podrían incorporar estos algoritmos predictivos a un nuevo algoritmo, reforzando eficazmente las defensas de dicho nuevo algoritmo, ya que se crearía de acuerdo con dos conjuntos diferentes de predicciones. A su vez, este nuevo algoritmo sería capaz de detectar posibles ataques adversarios de aprendizaje automático de una manera más eficiente.

A pesar del inmenso nivel de complejidad y matiz que entraña el desarrollo de sistemas de inteligencia artificial y algoritmos de aprendizaje automático, estos avances tecnológicos siguen siendo objeto de ciberataques. Al igual que los desarrolladores de software siguen desarrollando nuevas técnicas y métodos que pueden utilizarse para crear productos y servicios nuevos e innovadores, los ciberdelincuentes trabajan simultáneamente para lanzar ataques contra estos nuevos productos y servicios. Por tanto, aunque en estos momentos sólo se hable de la aparición de ataques de aprendizaje automático adversarios en lo más profundo de los círculos tecnológicos, es seguro que estos ataques aumentarán en frecuencia a medida que los algoritmos de aprendizaje automático y la inteligencia artificial sigan haciéndose más comunes en la sociedad en general.

Related Reads