Modelos lingüísticos ML, avances tecnológicos, nuevo software
Con la llegada del Procesamiento del Lenguaje Natural (PLN) y los modelos lingüísticos que permiten a los programas de software imitar el lenguaje escrito y hablado de los seres humanos, los desarrolladores de software han podido desarrollar una amplia gama de productos y servicios innovadores, como los chatbots de IA y los asistentes virtuales, así como el popular asistente de mecanografía en la nube Grammarly, entre muchos otros. Sin embargo, existen numerosos tipos diferentes de modelos lingüísticos que los desarrolladores de software pueden aprovechar para crear nuevas soluciones tecnológicas, a medida que la PNL sigue avanzando y creciendo. Hasta este punto, algunos ejemplos comunes de modelos de lenguaje incluyen modelos de lenguaje grandes, de ajuste fino y de borde.
Grandes modelos lingüísticos
Los grandes modelos lingüísticos (LLM) son algoritmos de aprendizaje automático que pueden utilizarse para predecir, imitar y, en última instancia, generar lenguaje escrito y hablado, de acuerdo con grandes conjuntos de datos basados en texto, como su propio nombre indica. Más concretamente, estos modelos se entrenan con enormes cantidades de datos de texto que pueden alcanzar los petabytes en determinadas condiciones. Además, estos modelos pueden llegar a tener un tamaño de decenas de gigabytes y contener parámetros masivos. Estos parámetros son las partes del modelo que se adquieren o aprenden mediante el uso de esta masa de datos de entrenamiento, y pueden utilizarse esencialmente para calibrar la destreza del modelo a la hora de alcanzar una meta u objetivo concretos, como generar texto o filtrar contenidos.
Para ilustrar aún más este punto, el laboratorio de investigación de inteligencia artificial OpenAI lanzó en junio de 2020 el Generative Pre-trained Transformer 3 (GPT-3), un LLM de 175.000 millones de parámetros que puede generar una amplia gama de textos escritos. GPT-3, la tercera generación de modelos lingüísticos desarrollada por la empresa, realiza multitud de tareas de PLN, como la generación de titulares y artículos de periódicos, correos electrónicos y textos publicitarios, entre otras muchas. Además, GPT-3 también puede utilizarse para editar o insertar texto en textos ya existentes, lo que permite a escritores y editores utilizar la herramienta para mejorar su propio trabajo. Estas capacidades son posibles gracias a las enormes cantidades de datos de entrenamiento que se utilizan para crear tales modelos.
Modelos lingüísticos de ajuste fino
Por otro lado, los modelos lingüísticos de ajuste fino suelen ser mucho más pequeños que los LLM, ya que estos modelos pueden personalizarse para gestionar tareas de programación más específicas, como responder a preguntas concretas, de una forma extremadamente eficiente. Aunque estos modelos lingüísticos también contienen miles de millones de parámetros, su objetivo es imitar y generar el lenguaje humano de una forma mucho más refinada. Siguiendo con el ejemplo del laboratorio de investigación OpenAI, la empresa también lanzó OpenAI Codex en agosto de 2021, un descendiente directo de GPT-3 que es mucho más eficaz a la hora de generar código. Con este fin, OpenAI Codex se puede utilizar para generar el idioma inglés en código.
En comparación con los LLM, los modelos lingüísticos afinados como OpenAI Codex no requieren tanto tiempo ni esfuerzo computacional para entrenarse o ejecutarse. Esto se debe en gran parte al hecho de que estos modelos se derivan de modelos lingüísticos existentes, ya que la cantidad de datos de entrenamiento que se necesitan para facilitar la creación de dichos modelos se reduce significativamente en comparación con un modelo LLM como GPT-3. A modo de comparación, el GPT-3 de OpenAI necesitó 45 terabytes de texto para entrenarse de forma efectiva, frente a los 159 gigabytes de datos de texto que se utilizaron para entrenar de forma efectiva el Codex de OpenAI.
Modelos de lenguaje Edge
Los modelos de lenguaje de borde representan el tercer medio por el que los desarrolladores de software pueden crear máquinas capaces de generar lenguaje escrito y texto. Al igual que los modelos de lenguaje de ajuste fino, los modelos de lenguaje de borde contienen muchos menos parámetros que los LLM y requieren menos datos y potencia de cálculo para funcionar. En consecuencia, los modelos de borde a veces pueden adoptar la forma de modelos de ajuste fino, ya que existe cierto solapamiento entre ambos enfoques. No obstante, un modelo de lenguaje de bordes se diferencia de otros enfoques en que estos modelos pueden ejecutarse en una máquina local fuera de línea, lo que reduce en gran medida el coste asociado a la creación del modelo de lenguaje.
Además de los datos y la potencia de cálculo que se necesitan para crear un modelo de lenguaje afinado como OpenAI Codex, y mucho menos un LLM como GPT-3, estos modelos también requieren elevadas tarifas de uso de la nube para funcionar. Esta desventaja es doble, ya que la dependencia de plataformas de computación en nube también significa que estos modelos lingüísticos ofrecen a los usuarios un menor grado de protección de datos y privacidad personal. Además, esta falta de dependencia de la computación en nube también significa que los modelos lingüísticos edge son mucho más rápidos que otros modelos lingüísticos, lo que hace que el enfoque sea ideal para ciertas aplicaciones y tareas como la traducción y la transcripción, donde la velocidad es de suma importancia.
Aunque todos los modelos de PNL requerirán grandes cantidades de datos y potencia de cálculo para funcionar correctamente, el grado en que estos factores influyan en el objetivo final dependerá del modelo de lenguaje específico que se utilice. Dicho esto, los modelos lingüísticos de gran tamaño, los modelos lingüísticos de ajuste fino y los modelos lingüísticos de bordes son tres de los algoritmos más utilizados por los desarrolladores de software para generar lenguaje escrito y hablado. No cabe duda de que en un futuro próximo se crearán nuevos modelos lingüísticos a medida que la tecnología siga expandiéndose.