Utilización de la síntesis de voz, nuevas aplicaciones
September 23, 2024 | 5 minutes read
La síntesis del habla, también conocida como conversión de texto en habla, se define como la generación artificial o por ordenador del habla humana. Junto con el reconocimiento de voz, la síntesis de voz representa uno de los principales medios por los que el texto escrito puede transformarse en voz o en información de audio, ya sea en el contexto de un servicio habilitado para voz o de una aplicación móvil, entre muchos otros. Por ejemplo, la capacidad de un asistente virtual como Alexa de Amazon para responder a preguntas y órdenes es posible gracias al reconocimiento y la síntesis del habla. Dicho esto, es posible que muchos consumidores no sepan cómo funciona la síntesis del habla.
Procesamiento del lenguaje natural
La síntesis del habla funciona sobre la base de dos conceptos principales: el primero es el Procesamiento del Lenguaje Natural (PLN). La PNL representa un enfoque interdisciplinar para generar interacciones entre seres humanos y ordenadores que permitan crear máquinas capaces de analizar e imitar el habla y el lenguaje escrito humanos. Hasta ahora, los campos disciplinarios de la lingüística, la inteligencia artificial y la informática han permitido a los desarrolladores de software crear diversos productos y servicios que pueden imitar la comunicación humana, de acuerdo con grandes conjuntos de datos de entrenamiento y algoritmos de aprendizaje automático que se utilizan para crear modelos lingüísticos.
En lo que respecta a la síntesis del habla, la PNL se utiliza para convertir texto sin procesar en habla, también conocida como transcripción fonética. Esta transcripción incluye signos de puntuación, números, símbolos y abreviaturas, además de otros elementos. Además, la PNL también se utilizará para introducir fenomas, o partes del habla, en un programa de software de síntesis del habla, del mismo modo que un niño pequeño necesitaría aprender los sustantivos, verbos y adjetivos para hablar inglés de forma eficaz. Además, la PNL también se utilizará para introducir prosodia en el software, como la velocidad del habla, el ritmo y la entonación, ya que estos factores también influyen en la forma en que los seres humanos se comunican entre sí.
Procesamiento digital de señales
El segundo concepto que permite la síntesis del habla es el Procesamiento Digital de Señales (DSP). En términos sencillos, el DSP convierte la transcripción fonética creada por un algoritmo de PNL en lenguaje de máquina o habla. Esto puede lograrse de dos formas distintas, que incluyen la síntesis basada en reglas y la síntesis concatenativa. En primer lugar, los sintetizadores basados en reglas imitan el habla humana mediante la utilización de parámetros como el ruido, la voz y los niveles de frecuencia. Estos parámetros se ajustan y modifican gradualmente hasta crear una forma de onda de habla artificial. A pesar de todo, los sintetizadores basados en reglas suelen generar un habla que suena robótica o poco natural.
Por otro lado, la síntesis concatenativa se crea encadenando varios archivos de habla humana grabada que se han extraído de una base de datos de muestras de habla. Sólo por este hecho, los sintetizadores concatenativos producirán un habla mecánica mucho más coherente y natural que la generada por un sintetizador basado en reglas. Sin embargo, esto también significa que los sintetizadores concatenativos necesitarán más datos y potencia de cálculo para generarlos, ya que el enfoque se basa en cientos, si no miles, de muestras de habla para funcionar eficazmente. Dicho todo esto, la decisión de implementar un sintetizador basado en reglas o concatenativo en un programa de síntesis de voz dependerá invariablemente de la forma en que se vaya a utilizar el programa.
Síntesis de voz y accesibilidad
Además de los asistentes virtuales y los chatbots de atención al cliente, la síntesis de voz también puede ser una herramienta muy útil para las personas con discapacidades físicas o sensoriales. Por ejemplo, una persona ciega podría utilizar la síntesis de voz para obtener información de un sitio web, a pesar de no poder leerlo físicamente con los ojos. En este sentido, muchos organismos públicos, así como organizaciones y empresas privadas, han tomado medidas en los últimos años para que sus sitios web y aplicaciones en línea sean accesibles a las personas con discapacidad, lo que se conoce como cumplimiento de la norma 508. Como tal, la síntesis de voz proporciona a los profesionales otra herramienta que puede utilizarse para hacer que el contenido y la información sean más accesibles en general.
Aunque muchos consumidores habrán entrado sin duda en contacto con alguna forma de síntesis del habla, ya sea en forma de representación cinematográfica de Hollywood o de producto o servicio tangible, los complejos procesos que permiten que la tecnología funcione de forma sistémica y organizada son mucho menos conocidos. No obstante, la llegada del reconocimiento y la síntesis del habla ha proporcionado a los desarrolladores de software un medio para crear productos, sistemas y servicios que pueden proporcionar tanto entretenimiento como asistencia práctica a los miembros de todos los niveles de la sociedad actual.