Visión de ordenador, nueva IA y aprendizaje automático

December 09, 2024 | 5 minutes read

La visión por ordenador se define como un campo interdisciplinar de la informática que se centra en la reproducción de los diversos componentes complejos y matizados del sistema visual humano, con el objetivo de que los ordenadores puedan identificar y procesar imágenes y vídeos de la misma manera que un ser humano. Gracias a los nuevos avances en inteligencia artificial, redes neuronales y algoritmos de aprendizaje automático, el campo de la visión por ordenador ha experimentado avances significativos en los últimos años. Como ejemplo de estos avances, los vehículos parcialmente autónomos o autoconducidos, como los fabricados por la empresa de vehículos eléctricos y energías limpias Tesla, funcionan utilizando la visión por ordenador para identificar objetos en su entorno cuando circulan por carretera.

Por otra parte, la visión por ordenador desempeña un papel importante y sustancial en las aplicaciones de software de reconocimiento facial, como el software de redacción automática. Mediante el uso de la visión por computador, estos programas de software pueden identificar automáticamente imágenes faciales e información personal, así como objetos físicos como matrículas y pantallas de teléfonos móviles dentro de imágenes y grabaciones de vídeo. Sin embargo, mientras la aplicación de la visión por ordenador en programas de software, dispositivos y vehículos sigue creciendo debido a las nuevas adaptaciones y mejoras de la tecnología, muchos consumidores se preguntan cuáles son los procesos subyacentes que permiten que dicha tecnología funcione en primer lugar.

¿Cómo funciona la visión por ordenador?

En términos sencillos, la visión por ordenador se basa en gran medida en la premisa del reconocimiento de patrones. Para entrenar a un ordenador en visión computerizada, un desarrollador de software le envía millones de imágenes sobre un tema, proceso o asunto concreto. Por ejemplo, siguiendo con el ejemplo de los coches parcialmente autónomos o autoconducidos, los desarrolladores de software que desarrollan los programas que permiten estas capacidades alimentarían un ordenador con millones de imágenes etiquetadas de carreteras, semáforos, señales y otras características que están asociadas con un ser humano conduciendo un coche. A través de estas imágenes etiquetadas, se entrenaría a un ordenador para reconocer patrones en todos los elementos de datos relacionados con dichas etiquetas, mediante la implementación de algoritmos y técnicas de software.

Alternativamente, en lo que se refiere al software de redacción automática, dichos programas funcionan reconociendo patrones en información personal, rasgos faciales u objetos físicos. Por ejemplo, en lo que respecta a la redacción automática de vídeos, la visión por ordenador permite a los desarrolladores de software introducir millones de imágenes de rostros humanos en la máquina. Gracias a este riguroso entrenamiento, el ordenador será capaz de reconocer los rasgos faciales dentro del contenido del vídeo, de acuerdo con patrones y características que sean similares a los datos para cuyo reconocimiento fue entrenado. Además, gracias a funciones como la detección y clasificación de objetos, los consumidores que utilicen este tipo de programas podrán eliminar los rostros de una determinada grabación de vídeo.

¿Qué problemas plantea el uso de la visión por ordenador?

Uno de los principales problemas a los que se enfrentan los desarrolladores de software a la hora de utilizar la visión por ordenador son las complicaciones inherentes a la mente humana. Como muchos científicos luchan por comprender la función y el funcionamiento del cerebro humano en un sentido muy general, el desarrollo de software que se basa en replicar esos procesos estará invariablemente limitado hasta cierto punto. Para ilustrar mejor este punto, mientras que los seres humanos son capaces de contextualizar situaciones visuales en cuestión de segundos, es extremadamente difícil desarrollar un programa de software que pueda hacer lo mismo. Siguiendo con el ejemplo de los coches autónomos, los conductores humanos pueden reconocer fácilmente que deben extremar la precaución cuando circulan por una zona escolar, ya que es probable que haya niños pequeños cruzando la carretera en determinados momentos del día.

Sin embargo, mientras que nosotros damos por sentadas estas nociones, un programa informático sólo sería capaz de reconocer este tipo de situaciones tras haber sido entrenado con millones de imágenes de niños cruzando carreteras e intersecciones muy transitadas. Llegados a este punto, aunque la visión por ordenador funciona de maravilla en aplicaciones en las que hay un objetivo específico en mente, como eliminar una cara de un vídeo o suprimir la información de la tarjeta de crédito de un consumidor, las tareas y objetivos que implican más variables pueden resultar más desafiantes. Dado que los seres humanos pueden confiar en capacidades como la emoción y la intuición, replicar dichas capacidades en un programa informático ha demostrado ser extremadamente difícil, a pesar de los avances en las tecnologías de inteligencia artificial y aprendizaje automático.

Aunque las versiones actuales de los programas informáticos de visión artificial tienen sus limitaciones, también aportan enormes ventajas en determinadas circunstancias. Tareas que antes se consideraban demasiado abstractas o complejas para un programa informático han sido posibles gracias a los nuevos avances en el campo de la visión por ordenador. Gracias a estas mejoras, los consumidores de todo el mundo tienen ahora acceso a una tecnología punta que nunca antes había estado disponible en la historia de la humanidad. Dicho esto, a medida que el campo interdisciplinar de la informática siga desarrollándose, seguramente surgirán nuevas posibilidades en el futuro.