La anotación de datos y el desarrollo de un nuevo software
El desarrollo de algoritmos de máquinas supervisadas ha permitido a los programadores crear algunas de las soluciones de software más innovadoras disponibles actualmente en el mercado. Al igual que los programas de redacción automática, estos softwares utilizan algoritmos que funcionan gracias a datos etiquetados de entrenamiento. En este sentido, el término anotación de datos se refiere al etiquetado de datos de acuerdo con sus principales rasgos o características, de manera que estos puedan ser introducidos en un algoritmo de aprendizaje automático supervisado para su entrenamiento. Este etiquetado puede realizarse en archivos de audio, imagen, video o texto.
Por ejemplo, un algoritmo de aprendizaje automático supervisado diseñado para reconocer matrículas en grabaciones de video necesitaría ser entrenado con imágenes etiquetadas de matrículas. Después de haber sido entrenado con miles de imágenes etiquetadas de matrículas, el algoritmo en cuestión será capaz de reconocer y predecir las matrículas dentro de nuevas imágenes, junto con los patrones del conjunto de datos que se utilizó para entrenarlo. Entre las formas de anotación de datos más utilizadas están las de video, audio y texto.
Anotación de video
La anotación de video se refiere al uso de cuadros delimitadores para identificar objetos físicos o características dentro de grabaciones de video. La anotación de video desempeña un papel fundamental en el desarrollo de programas de reconocimiento facial y de visión por ordenador. Ambos programas deben ser capaces de reconocer objetos dentro de un determinado medio en un corto período de tiempo para ser considerados precisos y eficaces. La anotación de un videoclip con cuadros delimitadores puede utilizarse para entrenar un modelo de aprendizaje automático supervisado con el fin de que sea capaz de reconocer y predecir, fotograma a fotograma, características físicas u objetos en futuras grabaciones.
Tomemos como ejemplo un programa de redacción automática de video diseñado para detectar automáticamente los rostros y las cabezas de las personas que aparecen en una grabación. Para detectar el rostro de una persona en un video, un desarrollador de software debe etiquetar miles de videoclips en los que aparezcan cabezas de seres humanos, utilizando recuadros delimitadores para diferenciar estos objetos específicos de otros elementos que también pudieran estar presentes en el clip. A continuación, el desarrollador utiliza estos datos de entrenamiento para crear un algoritmo de aprendizaje supervisado que, con el tiempo, será capaz de detectar el rostro de una persona en nuevas grabaciones de video.
Anotación de texto
La anotación de texto es una de las formas de anotación de datos más utilizadas actualmente. Esta crea un resumen sistemático dentro de un documento concreto, ya sea en forma de contexto, información o metadatos adicionales. Por ejemplo, se puede anotar un pasaje para resaltar la sintaxis gramatical o las palabras clave o frases relativas a un negocio concreto. Esta anotación resumida puede introducirse en un modelo de aprendizaje automático, permitiendo que este comprenda gradualmente la gramática, las palabras y la estructura de las frases que, en última instancia, conforman el lenguaje escrito.
La anotación de textos puede llevarse a cabo de diversas maneras. Por ejemplo, la anotación de sentimientos puede utilizarse para evaluar las emociones o actitudes de un documento concreto etiquetando el texto como positivo, negativo o neutro. Por otro lado, la anotación de intención puede utilizarse para discernir el deseo específico que hay detrás de un texto concreto, como una afirmación, una orden o una petición. Por otra parte, la anotación semántica puede utilizarse para etiquetar un texto según categorías, conceptos y entidades específicas, como temas, lugares, personas, cosas, entre otros muchos. Por último, la anotación relacional puede utilizarse para etiquetar un texto en función de la relación entre las palabras, frases o ideas del mismo, como la correferencia y la resolución de dependencias.
Anotación de audio
La anotación de audio consiste en clasificar los distintos componentes de un archivo de audio en diferentes etiquetas o categorías. Estos archivos de audio pueden ser grabaciones musicales, conversaciones, sonidos de animales, etc. Al igual que cualquier otra forma de anotación de datos, en la anotación de audio suele intervenir un ser humano que etiqueta manualmente las diferentes partes de un archivo de audio, así como un software especializado, al que se recurre en determinadas circunstancias. Por ejemplo, se puede etiquetar un archivo de audio para identificar al orador, el idioma que se está hablando y el estado de ánimo de la conversación, así como las emociones, el comportamiento y la intención.
La anotación de audio puede realizarse de múltiples maneras. Por ejemplo, la transcripción de habla a texto es una técnica de Procesamiento del Lenguaje Natural (PLN) que consiste en convertir las conversaciones en texto escrito, teniendo en cuenta las palabras y sonidos que los interlocutores emiten durante una conversación. Otra forma común de anotación de audio es la expresión en lenguaje natural. Cuando se anota un archivo de audio mediante esta técnica, los datos se etiquetan para identificar detalles más específicos de una conversación, como la entonación, la semántica y los dialectos utilizados. Por ello, la expresión en lenguaje natural desempeña un papel importante en la formación e implementación eficaz de asistentes con inteligencia artificial y chatbots.
La anotación de datos está en la base de muchas aplicaciones y programas que dependen de algoritmos de aprendizaje automático para funcionar eficazmente. Al igual que el cuerpo humano necesita alimentos sanos y agua limpia para rendir a niveles óptimos, los modelos de aprendizaje automático necesitan datos de entrenamiento precisos para lograr los resultados previstos. La anotación de video, audio y texto se utiliza tanto en populares asistentes con inteligencia artificial como Alexa de Amazon y Siri de Apple como en Grammarly, un asistente de escritura con inteligencia artificial basado en la nube.