¿Por qué es importante la precisión en el reconocimiento del habla?

July 07, 2022 | 5 minutes read

¿Alguna vez ha intentado utilizar Siri de Apple o Alexa de Amazon y ha tenido problemas para que la inteligencia artificial capte exactamente lo que está diciendo? Estos problemas para captar sus palabras están directamente relacionados con la precisión del reconocimiento del habla. Como los requisitos para el reconocimiento automático del habla cambian y aumentan constantemente, la necesidad de un reconocimiento del habla preciso es más importante que nunca. Uno de los principales problemas de muchos programas de reconocimiento del habla es que tienen dificultades para captar palabras, frases y expresiones fuera del ámbito del habla estándar. Por ejemplo, alguien que hable inglés con un acento muy marcado tendrá dificultades para que un asistente virtual como Siri entienda sus palabras.

Además, muchos programas de reconocimiento del habla tienen importantes prejuicios raciales y de género. Por ejemplo, los fabricantes de automóviles llevan años admitiendo que las funciones de reconocimiento de voz que utilizan en sus vehículos funcionan mejor con los hombres que con las mujeres. Por poner otro ejemplo, una investigación del Dr. Tatman publicada por la Sección Norteamericana de la Asociación de Lingüística Computacional o NAACL indicó que el reconocimiento de voz de Google era un 13% más preciso para los hombres que para las mujeres. Por si fuera poco, Google ha sido calificado regularmente como el mejor proveedor de tecnología de reconocimiento del habla en comparación con otras empresas como IBM Watson, AT&T, Bing y WIT.

¿Por qué es importante la precisión en el reconocimiento del habla?

Aunque mucha gente asocia la tecnología de reconocimiento del habla con pedirle a un asistente de inteligencia artificial que complete una tarea sencilla, los usos de este programa han llegado a tener un alcance e impacto nunca antes visto. En la actualidad el reconocimiento del habla puede utilizarse para influir en aspectos importantes de la vida humana, incluyendo la contratación de personal, el transporte, las decisiones de inmigración, entre muchas otras. Por ejemplo, una mujer irlandesa no superó una prueba oral de dominio de inglés cuando intentaba emigrar a Australia en 2017, a pesar de que era una hablante nativo del idioma con un alto nivel de formación.

Estos sesgos existen en gran parte debido a las disparidades en las formas en que se estructuran las bases de datos, el análisis de datos y el aprendizaje automático. La razón subyacente es que la base de datos media tiene una cantidad abrumadora de datos pertenecientes a hombres blancos y considerablemente menos datos relativos a mujeres y otros grupos étnicos. Por ello, la inteligencia artificial está inherentemente condenada a fallar a algunos miembros de la población que pudieran tener dificultades para hablar inglés con fluidez porque no es su lengua materna, que hablan inglés con algún acento o que utilizan un dialecto que está fuera del ámbito del inglés estándar. Para decirlo de la forma más sencilla posible, un programa de reconocimiento del habla funciona asignando datos y patrones en su base de datos a las entradas sonoras que recibe del discurso de un hablante.

Si una base de datos tiene una alta concentración de voces y entradas de hombres blancos, el programa de reconocimiento de voz asignará invariablemente estos datos a personas que no son hombres blancos. La única solución para este problema es diversificar el nivel de datos y patrones de habla incluidos en la base de datos del programa de reconocimiento del habla. Estas bases de datos tienen que tener patrones de habla y entradas de tantas personas de diversos grupos demográficos como sea posible para que el programa pueda funcionar con precisión para una amplia gama de individuos. Aunque el sesgo tiene un papel importante en la disminución de la precisión del reconocimiento del habla, existen otros factores que también afectan.

Otro problema que va en contra de la precisión del reconocimiento del habla es la complejidad propia del idioma inglés. Independientemente de cualquier sesgo o limitación de datos, muchos programas de reconocimiento del habla tendrán dificultades para captar la diferencia entre palabras inglesas muy comunes como “hear” o “here”. Además, la relación entre la ortografía inglesa y la pronunciación de las palabras es a menudo muy complicada. Como el inglés es un idioma que ha tomado prestados aspectos de muchas lenguas diferentes a lo largo de los siglos, ciertas palabras y sus grafías causarán problemas a cualquier sistema de reconocimiento del habla disponible hoy en día.

¿Hay alguna forma de evitar las imprecisiones del reconocimiento del habla?

Aunque los programas de reconocimiento del habla tienen limitaciones obvias, hay algunos ajustes y decisiones de hardware que se pueden tomar para intentar recibir las respuestas más precisas posibles. Uno de los factores más importantes para lograr un reconocimiento del habla preciso es la calidad del micrófono. Un micrófono de calidad captará las entradas de forma más eficaz que uno de menor categoría. Además, hoy en día muchas configuraciones de ordenadores permiten a los usuarios participar en el entrenamiento de la voz de los programas de reconocimiento del habla. Este entrenamiento permite que el ordenador comprenda mejor la forma particular de hablar del usuario, en lugar de cotejar las entradas con una amplia base de datos. Muchos teléfonos inteligentes también vienen con funcionalidades que facilitan el uso del reconocimiento del habla.

Por ejemplo, Google ofrece su propio software de reconocimiento del habla llamado SoundWriter, un complemento que permite a los usuarios utilizar el reconocimiento del habla al escribir en Google Docs. Por otro lado, Apple ofrece un software de reconocimiento del habla que integra multitud de idiomas: Siri. Además, este software combate el sesgo que suponen los programas de reconocimiento del habla al adoptar nuevas palabras y pronunciaciones a medida que el programa las va recibiendo. Por último, Amazon Echo y Google Home tienen opciones que permiten a los usuarios entrenar su voz leyendo una serie de frases al asistente virtual. En resumen, siempre se debe corregir cualquier mensaje creado por los programas de reconocimiento del habla antes de guardarlo o enviarlo, ya que dicha tecnología todavía no es rival para el ojo humano.