¿Qué es el aprendizaje automático multiinstancia? Nuevos enfoques
December 05, 2024 | 4 minutes read
El aprendizaje automático multiinstancia (MIL, por sus siglas en inglés) se refiere a un enfoque de aprendizaje supervisado que se centra en el entrenamiento de un modelo de aprendizaje automático de acuerdo con grandes conjuntos de datos etiquetados que se conocen como bolsas, en contraposición al entrenamiento de dicho modelo junto con instancias individuales de datos, de ahí su nombre. Debido en gran parte a los enormes costes asociados a la creación de los conjuntos de datos etiquetados que requieren los algoritmos de aprendizaje automático supervisado para funcionar adecuadamente, el aprendizaje automático multiinstancia es una forma en la que los desarrolladores de software pueden aprovechar un conjunto limitado o débil de datos de entrenamiento para crear un modelo de aprendizaje automático que siga identificando objetos o información de forma precisa y eficiente.
¿Cómo funciona el MIL?
Para dar un ejemplo de cómo funciona el aprendizaje multiinstancia, pensemos en un grupo de empleados que tienen cada uno su propio llavero. Por lo general, la mayoría de las personas tienen diferentes llaves en sus llaveros, desde las de casa y el coche hasta las del trabajo, entre otras. En este sentido, las llaves presentes en un llavero concreto son similares a los datos que componen un conjunto de datos. Por ejemplo, un conjunto de datos con fotos de animales de granja contendrá fotos de vacas, caballos y ovejas, además de otros animales. Siguiendo con esta comparación, los enfoques tradicionales de aprendizaje automático se basan en el entrenamiento de un modelo para reconocer todas las llaves individuales que componen un llavero. Del mismo modo, este modelo también se entrenará para reconocer un animal de granja específico, como una vaca o una casa.
Dicho esto, el aprendizaje multi-instancia se centra en el entrenamiento de un modelo para identificar los datos de entrenamiento que esencialmente se han agrupado, al igual que una persona que trabaja pondría todas sus llaves en un único llavero. Del mismo modo, este llavero en el contexto del MIL se llama bolsa, y el algoritmo que se está entrenando tratará de predecir si esta bolsa contiene una cierta porción de datos de entrenamiento etiquetados, en contraste con el entrenamiento de un modelo para identificar porciones individuales de estos datos. En otras palabras, se utilizará una parte del todo para identificar el todo, lo que facilita a un ingeniero de software estirar sus datos de entrenamiento, ya que puede colocar entradas más débiles con entradas más fuertes en un solo grupo, bajo el supuesto de que el algoritmo que está entrenando será capaz de reconocer estas entradas más fuertes en medio del grupo más grande.
Redes neuronales artificiales
Para conseguir el etiquetado a nivel de bolsa de los datos de entrenamiento en el que se basa el aprendizaje multiinstancia, los desarrolladores de software suelen utilizar una red neuronal artificial (RNA). Dado que las redes neuronales se basan en la funcionalidad del cerebro humano, pueden configurarse para recibir entradas y salidas de diversas maneras. Para ello, una red neuronal que haya sido entrenada utilizando el aprendizaje multiinstancia contendrá una capa para numerosas instancias diferentes que contengan datos de entrenamiento, una capa de agrupación que agrupará estos datos y una capa de “puntuación a nivel de bolsa” que determinará si el modelo ha realizado una predicción precisa en relación con estos datos de entrenamiento. Además, también pueden utilizarse otras formas de redes neuronales para entrenar un algoritmo de aprendizaje multiinstancia.
Aplicaciones del aprendizaje multiinstancia
Como ocurre con muchas técnicas y enfoques de aprendizaje automático, el aprendizaje multiinstancia tiene diversas aplicaciones en el panorama empresarial actual. Por ejemplo, una aplicación de MIL en el mundo de los negocios es la imagen médica, ya que los programas de diagnóstico asistido por ordenador pueden ser entrenados para reconocer imágenes médicas en las que sólo las partes enfermas del cuerpo humano han sido fotografiadas, a diferencia de las imágenes con anotaciones locales. Alternativamente, la clasificación de documentos es otra forma en la que MIL puede aplicarse a un contexto empresarial específico, ya que las palabras de una página web en particular pueden agruparse en un tema de mayor alcance, como múltiples sitios web de venta al por menor que forman parte de un mercado en línea más grande como Amazon o eBay, entre otros.
Como ocurre cuando se trata de desarrollar casi cualquier tipo de modelo de aprendizaje automático, la calidad y cantidad de los datos de entrenamiento de que dispone un desarrollador será invariablemente el factor número uno que determine la eficacia del algoritmo. En consecuencia, el aprendizaje automático multi-instancia representa una de las muchas técnicas que un ingeniero o desarrollador de software puede utilizar cuando busca sacar el máximo provecho de sus datos de entrenamiento, en un intento de mitigar los costes prohibitivos que tradicionalmente se han asociado a la obtención de estos datos. De este modo, el MIL abre el mundo del aprendizaje automático a desarrolladores y empresas que quizá no hayan podido permitirse entrenar un algoritmo utilizando medios y métodos más tradicionales.