Procesamiento del lenguaje natural, nuevos programas

November 06, 2024 | 5 minutes read

El Procesamiento del Lenguaje Natural o PLN es una rama de la inteligencia artificial que se basa en la creación de ordenadores capaces de comprender y responder al lenguaje humano, ya sea en forma de texto o de voz. La PNL funciona sobre la base de múltiples campos de estudio, como la lingüística computacional, la estadística y el aprendizaje automático, entre otros, y ha dado lugar a la creación de diversos dispositivos tecnológicos que se han hecho cada vez más populares en los últimos años, como Siri de Apple y Alexa de Amazon, así como sistemas GPS y coches autoconducidos. El estudio del PLN se remonta a hace más de 50 años, y se desarrolló de acuerdo con los avances en potencia computacional, características y capacidades.

¿Cómo funciona el Procesamiento del Lenguaje Natural?

El Procesamiento del Lenguaje Natural funciona en dos fases: el preprocesamiento de datos y el desarrollo de algoritmos. El preprocesamiento de datos se define como el proceso de transformación de datos brutos en un formato más legible o comprensible. El objetivo principal del preprocesamiento de datos es garantizar la calidad de un conjunto de datos concreto, ya sea en términos de precisión, interpretabilidad o coherencia, entre otros factores. Dicho esto, el preprocesamiento de datos puede realizarse de muchas maneras. Una de ellas es el etiquetado de partes del discurso, que marca las palabras según sus categorías gramaticales, como sustantivos, verbos y adjetivos. Otra forma de preprocesar los datos es la lematización, que consiste en reducir las palabras a su raíz.

Una vez preprocesados los datos, el programador crea un algoritmo para procesarlos. La forma tradicional de lograrlo es mediante un algoritmo basado en reglas, en el que un desarrollador de software proporciona un algoritmo con reglas lingüísticas cuidadosamente diseñadas que rigen la funcionalidad del sistema. Alternativamente, junto con los avances tecnológicos, los algoritmos utilizados en el contexto de la PNL también pueden desarrollarse mediante el aprendizaje automático. Mediante una combinación de aprendizaje profundo, inteligencia artificial, redes neuronales y datos de entrenamiento aplicables, estos algoritmos pueden desarrollar sus propias reglas a través de fases repetidas de procesamiento y aprendizaje.

Los programas que utilizan la PNL, ¿entienden realmente el lenguaje humano?

Como la inteligencia artificial, en general, se ha presentado de forma poco realista e irrealizable en los medios de comunicación estadounidenses, mucha gente puede creer que existen programas informáticos que pueden producir voz y texto de forma idéntica a la de un ser humano. Sin embargo, se trata de una falsa creencia, ya que una mejor descripción de estos programas informáticos es que interpretan el lenguaje humano de acuerdo con los datos de entrenamiento o las reglas que se utilizaron para crear los algoritmos que permiten el desarrollo de dichos programas. Para ilustrar mejor este punto, GPT-3, un enorme modelo lingüístico creado por el laboratorio de investigación de IA OpenAI, fue anunciado por su capacidad para escribir automáticamente titulares de periódicos y artículos en 2020.

Sin embargo, un examen más detallado reveló que los artículos que se habían presentado como escritos íntegramente por GPT-3 habían sido creados en realidad con ayuda humana. Esto se hizo evidente por la verborrea y los conceptos presentes en los artículos, como la erradicación de los seres humanos por la inteligencia artificial, así como la comisión de daños y la obtención de poder, acciones que las máquinas no pueden comprender o entender. En este sentido, aunque la PNL puede resultar extremadamente útil en contextos específicos, como la transcripción y traducción automáticas, sería un error sugerir que los programas informáticos basados en este tipo de inteligencia artificial comprenden el lenguaje escrito o hablado a un nivel comparable al de los seres humanos.

Por ejemplo, el texto producido por muchos programas de PNL irá perdiendo coherencia, cohesión y lógica con el paso del tiempo. Como los ordenadores y las máquinas carecen de contexto, sólo pueden producir palabras y frases que coincidan con los datos de entrenamiento que se utilizaron para crear tales dispositivos. Esto contrasta fuertemente con los escritores humanos, que pueden redactar cientos de páginas llenas de sentimientos, deseos e ideas abstractas. Por ello, las mejoras en los programas de software de PNL se han debido en gran medida a la ampliación de los conjuntos de datos y al entrenamiento, en contraposición al nivel de sensibilidad e inteligencia característico del cerebro humano o del lenguaje hablado. Es más, aunque algunos laboratorios tecnológicos y empresas dispongan de los recursos necesarios para crear programas informáticos como GPT-3, contratar a un redactor humano resultaría más factible económicamente en muchos casos.

Aunque en la actualidad el procesamiento de lenguaje natural no puede igualar a los redactores humanos en lo que se refiere a contenidos de larga extensión o a los entresijos de la mente humana, los programas de software que utilizan la rama de la tecnología artificial han proporcionado enormes beneficios a consumidores de todo el mundo. Al igual que la automatización de procesos robóticos o RPA ha permitido a empresas y organizaciones automatizar tareas mundanas, la PNL funciona de forma similar en lo que respecta al lenguaje y el habla humanos. Estas herramientas tecnológicas funcionan mejor en conjunción con las aportaciones humanas, ya que un consumidor que desee transcribir un discurso de cinco minutos podría pasarlo primero por un programa de software de transcripción automática y, a continuación, editar el texto una vez finalizado el proceso. Gracias a estos programas, los consumidores pueden ahorrar tiempo, recursos y esfuerzos que pueden dedicar a otras tareas.