¿Qué significa el nivel de confianza en el aprendizaje automático?
July 06, 2022 | 7 minutes read
Dado que los softwares de aprendizaje automático han abierto las puertas a la automatización de varios procesos tecnológicos, debe haber algún medidor para calibrar la precisión y eficacia de esta automatización. En el contexto de los programas de edición, redacción y transcripción de videos, esto se logra proporcionando a los usuarios niveles de confianza relativos a todas las funciones automáticas que se han realizado. Por ejemplo, un programa de transcripción automática proporcionará un nivel de confianza relativo a la exactitud de las palabras captadas en el archivo de video o audio. Con estos niveles de confianza los consumidores pueden corregir cualquier error que se produzca durante el proceso de automatización. De este modo, los usuarios pueden estar seguros en todo momento de que se está realizando un trabajo con la máxima calidad y evitando cualquier error innecesario.
¿Qué es el nivel de confianza en el contexto del aprendizaje automático?
Los niveles de confianza del aprendizaje automático proporcionan a los usuarios un medidor de la eficacia del proceso de automatización. Esto se hace normalmente a través de porcentajes que van del 0% al 100%. Cuanto más alto sea el porcentaje del nivel de confianza, más eficaz fue el software en la realización de su función específica. Estos niveles de confianza pueden tener diversas estructuras o formas. En el contexto del proceso de transcripción automática, este nivel de confianza representa la eficacia del software en la transcripción de palabras de un archivo de audio determinado. Después de transcribir un archivo de audio, el software de transcripción automática subraya cualquier palabra que tenga un nivel de confianza bajo en la detección, ya sea debido a un acento o al volumen de la voz del hablante y proporciona un porcentaje basado en la precisión alcanzada. Además, estas palabras subrayadas tienen colores que se corresponden con rangos de precisión específicos (20%-40%, 40%-60%, 60%-80%, etc.), para que los usuarios puedan volver atrás fácilmente y corregir cualquier error rápido y con el menor esfuerzo posible.
Por otra parte, los niveles de confianza en el contexto del software de redacción de video y la detección de objetos representan la precisión del software en la detección de varios objetos en las grabaciones de video. Dado que las grabaciones de video pueden contener una multitud de objetos en movimiento en diferentes ángulos, que entran o salen del encuadre en diferentes momentos, un software de redacción automática de video inevitablemente identificará de forma errónea ciertos objetos, a veces debido a la resolución del video, a que el objeto está muy lejos en la escena, a la oscuridad, al clima y a muchas otras razones. Una vez finalizado el proceso de redacción automática de video, se muestran al usuario todos los objetos detectados junto con un nivel de confianza relativo a la precisión de estas detecciones. Al igual que en el proceso de transcripción automática, los consumidores pueden utilizar estos niveles de confianza para comprobar la detección y asegurarse de que el software ha detectado todos los objetos con la mayor precisión posible.
¿Cómo se utilizan los niveles de confianza en el contexto de la detección de objetos?
Al detectar automáticamente rostros, personas, automóviles, matrículas o cualquier otro tipo de objeto en un archivo de video, se proporciona un nivel de confianza por cada detección, lo que permite a los usuarios evaluar la precisión de dicha detección. En el ejemplo siguiente, la funcionalidad de detección de objetos se utilizó para escanear un video en busca de matrículas. El software proporciona a los usuarios un nivel de confianza que oscila entre el 0% y el 100% y estos márgenes pueden establecerse antes de iniciar el proceso de redacción del video. Por ejemplo, en un video de menor calidad, el nivel de confianza podría limitarse al 80% en lugar de al 100% con el objetivo de detectar más matrículas.
Además, el panel de detección también ofrece a los usuarios una imagen en miniatura de la detección en cuestión, así como opciones que permiten a los usuarios seleccionar el punto específico del video en el que se realizó una detección concreta. De este modo, los usuarios pueden estar totalmente seguros de que el software de detección de video detectó los objetos que deben ser eliminados del video. Al mismo tiempo, los usuarios tienen la posibilidad de eliminar o desactivar las detecciones de objetos que consideren inadecuadas para el producto final que pretenden generar. En el ejemplo siguiente, el software de detección automática de video proporciona a los usuarios un nivel de confianza del 81%. Como la miniatura en cuestión es claramente una matrícula, los usuarios pueden estar seguros de que el sistema ha completado una redacción precisa.
Por el contrario, el software de redacción automática de video proporciona niveles de confianza más bajos para los objetos que puedan haber sido mal detectados. En el ejemplo siguiente, el software ha detectado erróneamente un espejo de automóvil como si fuera una matrícula. Esto se refleja no sólo en un nivel de confianza del 24%, sino también en una miniatura que muestra la imagen exacta que se detectó durante el proceso de redacción. Además, los usuarios también tienen la posibilidad de hacer clic en los botones de desactivación y bloqueo, representados por el símbolo del ojo y el símbolo del candado respectivamente, en caso de que quieran eliminar una detección que haya recogido un objeto incorrecto.
¿Cómo se utilizan los niveles de confianza en el contexto de la transcripción?
Al igual que el proceso de redacción automática de video, el proceso de transcripción automática proporciona a los usuarios un nivel de confianza relativo a la eficacia del proceso. En el caso de la transcripción automática, las palabras que tengan un nivel de confianza bajo se subrayan una vez finalizada la transcripción. En el siguiente ejemplo se muestra una llamada al 911 entre dos interlocutores y se subrayan las palabras que se estima que el software ha pasado por alto. Los usuarios pueden pasar por encima de estas palabras subrayadas para obtener un porcentaje de nivel de confianza que va de 0% a 100%. Asimismo, el usuario puede ver la hora de la grabación de audio que se corresponde con cada palabra de la transcripción. En el caso del ejemplo que se muestra a continuación, las palabras “any time” se han subrayado en rojo y se les ha dado un nivel de confianza del 48%.
Por otro lado, el ejemplo que se muestra a continuación ofrece un nivel de confianza ligeramente superior, del 59%, para la palabra “is”. Al igual que en el ejemplo anterior, el software de transcripción automática ha subrayado esta palabra debido a su nivel de confianza. Sin embargo, como este nivel de confianza del 59% es más alto que el del ejemplo anterior, del 48%, el software ha subrayado esta palabra en otro color para que los usuarios puedan escanear rápidamente las transcripciones y hacerse una idea de la eficacia del proceso. Además, las palabras que tienen un nivel de confianza ligeramente superior al 48% o al 59% se han representado con un subrayado de color verde, como es el caso de la palabra “usually” del ejemplo anterior.
Dado que el uso de un software complejo puede ser una tarea confusa y desalentadora, el nivel de confianza del aprendizaje automático está orientado a proporcionar a los usuarios un enfoque tanto visual como analítico que les permita alcanzar resultados de excelencia en sus respectivas profesiones o campos. Incluso si una palabra tiene un nivel de confianza bajo y ha sido subrayada, los usuarios pueden escuchar la transcripción para comprobar si el software ha cometido un error. Conjuntamente, los usuarios pueden ver ellos mismos los videos después de haberlos redactado automáticamente para asegurarse de que todos los objetos se han detectado correctamente en el transcurso de la grabación. Tanto si se trata de redactar automáticamente archivos de audio como de video, los niveles de confianza son un medidor que puede utilizarse para facilitar exponencialmente el proceso.