Redes Generativas Adversariales, Nuevos Modelos ML
December 09, 2024 | 5 minutes read
Las redes generativas adversariales (GAN) se refieren a un enfoque de aprendizaje profundo para crear modelos generativos mediante la utilización de aprendizaje automático no supervisado. Como su nombre indica, las GAN se pueden utilizar para descubrir patrones y regularidades dentro de un conjunto de datos, con el objetivo de generar nuevos resultados de acuerdo con estos patrones y regularidades que se descubrieron dentro del conjunto inicial de datos de entrenamiento. Gracias a estas cualidades innovadoras, los GAN se han utilizado para crear desde fotografías realistas de rostros humanos hasta objetos inanimados en 3D, mientras los desarrolladores de software siguen encontrando nuevas formas de aplicar esta innovadora tecnología a nuevas aplicaciones empresariales.
¿Qué son los modelos generativos?
Un modelo generativo se define como un modelo estadístico que se basa en la distribución de probabilidad conjunta. Asimismo, el objetivo principal de dichos modelos es generar datos sintéticos, donde la distribución de dichos datos corresponde a la distribución de un conjunto de datos reales, como los datos de entrenamiento en el caso de un modelo de aprendizaje automático. En otras palabras, los modelos generativos pueden utilizarse para crear nuevas imágenes imitando las cualidades y características de objetos de la vida real, como obras de arte, fotografías y números, entre otros. Esto se consigue normalmente mediante la utilización de un clasificador que sirve para determinar si el modelo ha sido capaz de generar una nueva imagen lo suficientemente detallada como para pasar por una imagen legítima, a pesar de que las imágenes que crean dichos modelos serán inevitablemente imágenes sintéticas.
¿Cómo funcionan las GAN?
Dicho en los términos más sencillos, las GAN funcionan para entrenar un algoritmo de aprendizaje profundo de acuerdo con un problema que se enmarca inicialmente como un algoritmo de aprendizaje supervisado delegado en dos redes. Una de estas redes intentará generar el objeto o la información correcta, mientras que la otra red intentará determinar si la primera red ha generado correctamente el objeto o la información. Para ilustrar mejor este punto, consideremos una GAN que ha sido entrenada para recrear un retrato pintado por un artista famoso. La primera red dentro de la GAN, el generador, intentará recrear el retrato en cuestión con la mayor precisión posible, junto con los datos de entrenamiento que se han utilizado para desarrollar el modelo. Por otro lado, la segunda red, el discriminador, intentará determinar si el primer modelo ha sido capaz de recrear el retrato con eficacia.
Teoría de juegos
Este proceso deriva de los escenarios que se crean a partir del marco teórico de la teoría de juegos. Dado que la teoría de juegos gira en torno a la competición entre dos jugadores o entidades que se esfuerzan por alcanzar el objetivo o la meta más óptimos en el contexto de un determinado juego o problema de suma cero, las GAN funcionan de forma similar. Sin embargo, en lugar de ganar un juego de suma cero de dos jugadores, una GAN intentará recrear algún elemento u objeto que corresponda a los datos de entrenamiento que se utilizaron para entrenar el algoritmo de aprendizaje profundo, siendo la creación eficiente de dicho elemento u objeto representativa de una victoria. Además, debido a la naturaleza de las técnicas de aprendizaje automático no supervisado, los GAN no necesitan basarse en hacer predicciones o suposiciones con respecto a un conjunto de datos de entrenamiento.
Dicho esto, un GAN puede utilizarse para crear una cantidad infinita de imágenes dentro del espacio latente multidimensional del aprendizaje profundo. Esto contrasta fuertemente con los algoritmos de aprendizaje supervisado, en los que el resultado de dichos modelos vendrá dictado por el alcance y la diversidad de los datos de entrenamiento que se hayan utilizado para crear el modelo. Posteriormente, la capacidad de los GAN para generar básicamente un número infinito de imágenes ha permitido implantar la tecnología en una amplia gama de aplicaciones empresariales, como la visión por ordenador, el procesamiento del lenguaje natural (PLN), la ciberseguridad, la síntesis de imágenes y la generación de vídeo, entre otras muchas.
Las limitaciones de los GAN
A pesar de las inmensas capacidades de las GAN en lo que respecta a la generación de nuevas imágenes e información, existen algunas limitaciones que acompañan a este enfoque. En particular, como ocurre con muchos algoritmos de aprendizaje automático, el coste de construir y entrenar estos modelos puede ser extremadamente largo y caro. Además, debido a la naturaleza de suma cero de las redes GAN, el entrenamiento de estos modelos se hace mucho más difícil, ya que las mejoras en una red del modelo se producirán invariablemente a expensas de la otra red. Además, los modelos GAN también sufren problemas de inestabilidad, como la desaparición de gradientes y el colapso de modos, lo que significa que muchos desarrolladores de software tendrán que pasar por extensas prácticas de ensayo y error antes de crear un modelo GAN estable.
Aunque la expresión “inteligencia artificial” se ha convertido en un término general que describe una serie de servicios, productos y conceptos científicos diferentes, los GAN son quizás lo más parecido a la IA en la forma en que se ha presentado el tema en los medios de comunicación. Después de que un desarrollador de software haya creado e implementado con éxito un modelo GAN, dicho modelo tendrá la capacidad de generar un número infinito de imágenes, una perspectiva realmente maravillosa desde múltiples perspectivas diferentes. Dicho todo esto, como los modelos GAN son un avance relativamente nuevo en el campo del aprendizaje profundo, seguramente se introducirán mejoras en un futuro próximo que marcarán el comienzo de una nueva ola de desarrollo científico.