Redes neuronales transformadoras, Google y modelos de PNL
December 13, 2024 | 4 minutes read
Las redes neuronales transformadoras hacen referencia a una técnica de vanguardia que se utiliza actualmente en el campo del procesamiento del lenguaje natural (PLN). Más concretamente, “la red neuronal transformadora es una arquitectura novedosa que pretende resolver tareas de secuencia a secuencia a la vez que maneja dependencias de largo alcance con facilidad. Fue propuesta en el artículo “Attention Is All You Need” 2017 [1]”. Dicho en términos sencillos, el modelo transformador es una red neuronal que puede entrenarse para comprender el contexto y, por extensión, el significado. Por esta razón, el modelo transformador es ideal para rastrear relaciones entre datos secuenciales, como las palabras que un ser humano escribe en una frase.
Cómo funciona el modelo transformador?
Teorizado por primera vez en el mencionado documento de investigación publicado por la multinacional tecnológica Google en 2017, el modelo transformador utiliza una técnica matemática conocida como atención o autoatención, que básicamente funciona para identificar las formas sutiles en que los elementos de datos dentro de una serie específica dependen y se influencian entre sí. En el contexto de la PNL, estas capacidades son especialmente importantes, ya que las máquinas se esfuerzan por comprender la naturaleza matizada y predictiva de la comunicación humana, y la forma en que el cerebro humano facilita dicha comunicación sigue siendo un tema que las mentes científicas más brillantes del mundo se esfuerzan por comprender.
Dicho todo esto, las redes neuronales transformadoras funcionan de forma similar a otras redes de este tipo, ya que prácticamente cada iteración de una red neuronal funciona como bloques codificadores y decodificadores de datos a gran escala que pueden utilizarse para procesar grandes cantidades de datos. No obstante, el modelo transformador introduce pequeños cambios en la forma en que tradicionalmente se construyen las redes neuronales, con el objetivo de formular un mapa algebraico que detalle la forma en que se relacionan entre sí las distintas entradas. Para lograrlo, se utilizarán codificadores posicionales para etiquetar cada elemento de datos que pase por la red de transformadores, además de unidades de atención que también seguirán estas etiquetas.
Procesamiento del lenguaje natural
Debido a las formas en que las redes neuronales pueden entrenarse para reconocer patrones en datos secuenciales, estos algoritmos se utilizan actualmente en el campo del procesamiento del lenguaje natural de diversas maneras. Para ilustrar mejor este punto, el modelo de representaciones codificadoras bidireccionales de transformadores (BERT) de Google es el algoritmo principal utilizado dentro del motor de búsqueda cuando personas de todo el mundo escriben una pregunta, observación o afirmación en la barra de búsqueda de Google. Para ello, el modelo de transformadores presenta dos ventajas principales sobre otros enfoques similares en lo que respecta al procesamiento del lenguaje natural.
En primer lugar, la inmensa mayoría de los algoritmos de aprendizaje automático requieren enormes cantidades de datos de entrenamiento etiquetados para funcionar con eficacia. Por el contrario, el BERT de Google no necesita ser entrenado en un tesoro de información personal etiquetada, ya que el modelo puede ser entrenado en grandes fuentes de texto escrito, como un artículo de Wikipedia. En segundo lugar, gracias al bucle de retroalimentación inherente a ciertas formas de redes neuronales artificiales, como las redes neuronales recurrentes, entre otras, la Bert de Google tiene la capacidad de retener información que usuarios anteriores han introducido en el motor de búsqueda, lo que significa que la red puede entrenarse en una fracción del tiempo que llevaría entrenar otros algoritmos de aprendizaje automático similares.
Es más, la naturaleza de los datos secuenciales también significa que los modelos transformadores como BERT pueden preentrenarse, lo que significa que el resultado de dichos modelos será más preciso que el de los algoritmos de aprendizaje automático que se han entrenado en conjuntos de datos etiquetados que se han creado desde cero. Dado que la calidad de los datos de entrenamiento variará inevitablemente, un desarrollador de software que cree un aprendizaje automático desde cero puede tener que aumentar su conjunto de datos varias veces antes de llegar a una configuración que sea óptima para lograr la tarea específica en cuestión. Por el contrario, un desarrollador que trabaje con un modelo preentrenado puede ajustarlo para que reconozca determinados patrones o entradas, lo que reduce en gran medida el número de factores que pueden influir en la precisión del algoritmo en cuestión.
Aunque el BERT de Google es quizá el ejemplo más destacado de la aplicación de redes neuronales transformadoras en el ámbito del procesamiento del lenguaje natural, también existen innumerables ejemplos de implementación de esta tecnología. Desde modelos lingüísticos masivos como el GPT 3.5 de OpenAI hasta modelos más pequeños creados por un puñado de desarrolladores de software, las redes neuronales transformadoras se utilizan actualmente en una amplia gama de aplicaciones que imitan la comunicación humana. Además, este enfoque de aprendizaje profundo seguirá implementándose en otras aplicaciones empresariales, ya que el modelo de transformador se seguirá ajustando y mejorando en los próximos años.