¿Qué es el reconocimiento de voz? Lo básico

July 10, 2022 | 5 minutes read

El reconocimiento de voz se define como la capacidad de un programa informático o máquina para entender y ejecutar órdenes habladas o para recibir e interpretar la dicción. El reconocimiento de voz se activa automáticamente después de que un usuario hable a un determinado dispositivo con capacidades de reconocimiento de voz. El software de reconocimiento de voz permite a los usuarios realizar cualquier número de funciones de manos libres como hacer llamadas telefónicas, establecer recordatorios, configurar un sistema de navegación GPS o programar una alarma para el trabajo. Los softwares de reconocimiento de voz más comunes en el mercado actual son Siri de Apple, Alexa de Amazon y Cortana de Microsoft.

Hay muchos tipos diferentes softwares de reconocimiento de voz disponibles para los consumidores. Estos incluyen, pero no se limitan a:

Reconocimiento automático del habla: estos sistemas utilizan tecnología de inteligencia artificial para detectar automáticamente lo que el hablante está diciendo.
Sistema dependiente del hablante: estos sistemas requieren que los usuarios completen un entrenamiento de reconocimiento de voz antes de su uso, normalmente en forma de una serie de palabras y frases que deben ser leídas en voz alta.
Sistema independiente del hablante: estos programas identifican la voz de un usuario sin necesidad de ningún entrenamiento.
Reconocimiento del habla discreto: estos sistemas requieren que el usuario haga una pausa antes de pronunciar cada palabra para que el software de reconocimiento del habla pueda identificar cada palabra con precisión.
Reconocimiento continuo del habla: estos sistemas pueden reconocer voces a un nivel de conversación normal.
Sistemas de lenguaje natural: estos sistemas no sólo pueden distinguir las voces, sino que también pueden responder a preguntas y consultas.

¿Cómo funciona el reconocimiento de voz?

Para funcionar correctamente, el software de reconocimiento de voz que se ejecuta en los ordenadores requiere que el audio analógico se convierta en señales digitales, un proceso conocido como conversión analógico-digital. Para que un ordenador pueda descifrar con precisión una señal, debe disponer de una base de datos digital de vocabulario, palabras y sílabas, así como de un sistema de comparación de estos datos con las señales digitales. Estos patrones de habla se almacenan en el disco duro del ordenador y se cargan en la memoria cada vez que se ejecuta el software de reconocimiento de voz. Además, un comparador coteja estos patrones almacenados con la información proporcionada por el conversor analógico-digital, acción conocida como reconocimiento de patrones.

El tamaño y el alcance del vocabulario efectivo de un programa de reconocimiento de voz depende de la capacidad de la memoria de acceso aleatorio (memoria RAM) del ordenador en el que se ejecuta el software. Por ejemplo, un programa de reconocimiento de voz funciona mucho más rápido si todo el vocabulario puede cargarse en la memoria RAM. En comparación, buscar en el disco la coincidencia entre palabras es un proceso tedioso y que requiere más tiempo. Además, la velocidad de procesamiento juega un papel importante ya que afecta la rapidez con la que un ordenador puede buscar estas coincidencias en la memoria RAM.

¿Cuáles son las ventajas y desventajas del software de reconocimiento de voz?

La principal ventaja del software de reconocimiento de voz es la comodidad que puede proporcionar a los consumidores. Por ejemplo, con la ayuda de un asistente virtual de inteligencia artificial como Siri, un usuario puede conducir su automóvil, hacer una llamada telefónica y activar la alarma inteligente de su casa, todo al mismo tiempo. Mientras que los sistemas de reconocimiento de voz originales, lanzados durante la década de 1970 para ser utilizados en ordenadores, sólo podían captar unas mil palabras, los softwares actuales pueden captar prácticamente cualquier palabra o frase imaginable en inglés. Para ello, los modernos programas utilizan sofisticados algoritmos que transforman rápidamente las palabras de un discurso en texto escrito.

Por otro lado, los programas de reconocimiento de voz tienen algunas limitaciones. Aunque los softwares y sus funcionalidades evolucionan y mejoran constantemente, todos estos sistemas son, sin duda, propensos a cometer errores. Por ejemplo, muchos de los programas de reconocimiento de voz más conocidos tienen dificultades para diferenciar entre palabras que suenan de forma similar, como en inglés “hear” y “here”. Además, el ruido de fondo puede producir una entrada falsa y causar confusión. Por tanto, los programas de reconocimiento de voz deben utilizarse en un entorno silencioso y sin interferencias, lo que limita algunas de sus aplicaciones.

¿Cuál es la diferencia entre el reconocimiento de voz y el reconocimiento del habla?

Aunque la diferencia entre el reconocimiento de voz y el reconocimiento del habla puede parecer minúscula y arbitraria a primera vista, en realidad son dos funciones claramente distintas dentro de un programa informático o un sistema de asistencia verbal. En pocas palabras, el reconocimiento de voz busca recoger la particular voz del hablante, mientras que el reconocimiento del habla pretende recoger las palabras y la dicción específica que una persona utiliza al hablar. El reconocimiento de voz permite habilitar funciones de seguridad como la biometría de voz. En cambio, el software de reconocimiento del habla permite dar órdenes precisas y transcribir automáticamente. Así, el reconocimiento de voz y del habla se utilizan en dos contextos completamente diferentes.

El software de reconocimiento de voz escucha la voz en tiempo real y responde al instante. Sin embargo, esto se logra a costa tanto de la precisión como de la funcionalidad, ya que dicho recurso suele limitarse a la tarea en cuestión. Por otro lado, el reconocimiento del habla se utiliza más a menudo en el contexto de la transcripción de audio. Las palabras y frases contenidas en dichas transcripciones son casi siempre más complejas que el discurso que procesa el software de reconocimiento de voz. Finalmente, la decisión sobre qué funcionalidad utilizar depende de las necesidades específicas del consumidor.