Detección de objetos y su relación con la redacción de video
November 02, 2022 | 6 minutes read
Con el auge de la tecnología de inteligencia artificial, los programas de edición de video están más presentes que nunca en el mercado. Como muchos de estos programas cuentan con funcionalidades automáticas, son capaces de identificar objetos específicos dentro de las grabaciones de vídeo. Esta identificación de objetos dentro de los videos se conoce como detección de objetos. La detección de objetos se define como la capacidad de los programas informáticos de identificar determinados objetos dentro de grabaciones de vídeo, imágenes o archivos PDF, basándose en determinadas categorías o clases. Estas clases pueden referirse a rostros, matrículas, personas, pantallas, pedazos de papel, etc. Esto se basa en la idea de que cada clase de objeto tiene su propio conjunto de rasgos o características.
Para dar un ejemplo práctico de detección de objetos, consideremos un conjunto de imágenes que contengan un ser humano, un perro y un gato. Gracias a la detección de objetos, los programas informáticos no sólo son capaces de discernir qué se trata de tres objetos distintos, sino que también determinan y rastrean la ubicación precisa de estos objetos dentro de un conjunto de imágenes. Esto se hace de acuerdo con los conjuntos específicos de características que definen a cada clase de objeto.
La dificultad principal que suele surgir durante el proceso de detección de objetos es clasificar y localizar exitosamente un número variable de objetos dentro de un video o imagen. Por ejemplo, puede ser fácil para un programa de detección de objetos identificar el rostro de un hombre y una matrícula en una grabación de video que contiene una sola persona y un coche. En cambio, identificar todos los rostros y matrículas en un video que contenga cuarenta personas y cuarenta coches resulta más difícil, ya que es más probable que los objetos sean más pequeños y estén más alejados de la vista. Además, el número de objetos en un determinado conjunto de datos o grabación puede cambiar en un instante. Un video puede comenzar con una sola persona conduciendo un coche por una calle residencial y, a continuación, pasar a ese mismo hombre conduciendo junto a docenas de otros conductores por una concurrida autopista interestatal.
Diferentes tipos de detección de objetos
En términos generales, la detección de objetos puede dividirse en dos categorías: enfoques basados en el aprendizaje automático y enfoques basados en el aprendizaje profundo. En los enfoques tradicionales basados en el aprendizaje automático se utilizan técnicas de visión por ordenador para captar las distintas características de una imagen, como los bordes o los histogramas de color. Las características de estas imágenes se utilizan para identificar grupos de píxeles que pueden pertenecer a un objeto concreto. Estas características se introducen en un modelo de regresión que predice la ubicación del objeto dentro de la imagen, a la vez que proporciona una etiqueta para el objeto.
Por otra parte, los enfoques basados en el aprendizaje profundo utilizan redes neuronales convolucionales (CNN) para realizar una detección de objetos no supervisada de principio a fin, en la que no es necesario definir y extraer las características por separado. Una CNN es una red neuronal multicapa con una arquitectura especial utilizada para detectar características completas dentro de un conjunto de datos. Se han utilizado en vehículos de autoconducción, en la visión de robots y en softwares de reconocimiento de imágenes. Una vez construido un modelo de CNN, también puede utilizarse para clasificar el contenido de diferentes imágenes. Los programas avanzados de redacción de video utilizan las CNN para ayudar a detectar imágenes.
Detección de objetos en los programas de redacción de video
Como los programas de reducción automática de video están ahora ampliamente disponibles, la redacción de contenidos de vídeo se ha simplificado como nunca antes. Esto se debe en gran medida al desarrollo de la inteligencia artificial y las capacidades de aprendizaje automático que permiten a estos programas detectar objetos dentro de una grabación de vídeo de forma automática, sin esfuerzo por parte del usuario. La capacidad de un software para detectar estos diversos elementos en el curso de un video depende del concepto de detección de objetos o de la capacidad de un algoritmo de aprendizaje automático para localizar la presencia de objetos con algún tipo de cuadro delimitador y clases aplicables relacionadas con los elementos que se muestran.
A partir de estos cuadros delimitadores y de las diferentes clasificaciones de objetos, los programas de reducción automática de video son capaces de reconocer qué objetos deben ser redactados de las secuencias. Al utilizar estos softwares, los usuarios pueden seleccionar los elementos a redactar desde un menú desplegable. Además, pueden aplicar efectos sobre estas redacciones con el objetivo de eliminar la mayor cantidad de información personal posible. Sin embargo, todo este proceso depende de que los objetos hayan sido detectados con precisión. Para que los usuarios puedan asegurarse de que no se están detectando objetos no deseados, estos programas proporcionan un nivel de confianza para cada objeto detectado.
Con este nivel de confianza, los usuarios del software de traducción automática de vídeo pueden estar seguros de la efectividad del proceso de detección. Este nivel de confianza va desde el 0% y hasta el 100%. Además, como se proporciona una imagen en miniatura del lugar exacto del video en el que se realizó la detección, los usuarios pueden entonces ir a este punto para ver exactamente lo que se detectó. Si los usuarios descubren que un elemento ha sido mal etiquetado durante el proceso, tienen la opción de desactivar dicha redacción del proyecto. Gracias a la detección de objetos, el proceso de redacción automática de video es ahora más intuitivo y completo que nunca.
En el siguiente video de dos minutos podrá ver cómo funciona la detección automática de objetos en un software de redacción de video.
Aunque antes la redacción de video requería mucho tiempo y esfuerzo, el nivel de automatización que se ha alcanzado en la actualidad gracias a la detección de objetos ha hecho que el proceso sea más fácil que nunca. Ahora, en lugar de tener que identificar y redactar manualmente los objetos a lo largo de una caótica grabación de video, se puede recurrir a programas informáticos para que completen la tarea automáticamente. De este modo, los consumidores pueden ahorrar un tiempo y unos recursos valiosos a la hora de realizar su trabajo. Además, pueden estar seguros de que el trabajo se realiza en todo momento de la manera más eficiente posible.