Aprendizaje automático multitarea y desarrollo de software
December 06, 2024 | 5 minutes read
Desde el aprendizaje supervisado hasta el aprendizaje por refuerzo, hay una serie de métodos y técnicas que los desarrolladores de software pueden aprovechar para crear nuevos programas y aplicaciones. Sin embargo, muchos algoritmos de aprendizaje automático funcionan de acuerdo con conjuntos de datos etiquetados, ya que estos datos se utilizan para entrenar a dichos algoritmos a reconocer un objeto físico concreto dentro de un medio determinado, como la aparición de la cara de un gato dentro de un conjunto de imágenes, entre otras cosas. Sin embargo, obtener las cantidades masivas de datos de entrenamiento que se necesitan para desarrollar un modelo de aprendizaje automático de forma eficaz puede ser extremadamente lento y costoso en la práctica. Por este motivo, muchos ingenieros de software han buscado modelos de aprendizaje automático que puedan crearse de forma rentable, sin dejar de ser altamente eficientes y precisos.
En este sentido, el aprendizaje automático multitarea (MTL) se refiere a un enfoque de aprendizaje profundo que se basa en la creación de algoritmos junto con un único conjunto de datos orientado a resolver varios problemas diferentes. Esto contrasta con muchos enfoques tradicionales dentro del campo del aprendizaje automático, en el que un algoritmo concreto suele crearse para resolver un problema muy específico. En este caso, el objetivo del aprendizaje automático multitarea no es sólo crear un modelo que pueda utilizarse para resolver múltiples problemas, sino también utilizar esta diversidad de entrenamiento para mejorar el rendimiento general del modelo en cuestión. Del mismo modo, el aprendizaje automático multitarea se utiliza a menudo para resolver problemas relacionados con la clasificación multiclase y multietiqueta.
¿Cómo funciona el MLT?
Siguiendo con el tema del aprendizaje profundo, las redes neuronales artificiales (RNA) son los modelos más utilizados para crear las arquitecturas que se emplearán para crear algoritmos de aprendizaje multitarea. Debido a que las redes neuronales artificiales pueden configurarse de forma que imiten las numerosas funciones del cerebro humano, estos modelos de aprendizaje profundo son ideales para el aprendizaje multitarea, ya que los parámetros dentro de estos algoritmos pueden organizarse de multitud de formas diferentes. Con este fin, la estructura en capas de las redes neuronales ofrece a los desarrolladores de software la capacidad de crear esencialmente una capa intermedia dentro de un modelo de aprendizaje profundo concreto, que servirá para generalizar las entradas que se han alimentado al modelo en una única salida.
Para ilustrar mejor este punto, consideremos una red neuronal artificial que ha sido entrenada para reconocer las caras de animales de granja, como vacas, caballos y ovejas. Posteriormente, este modelo partiría de 3 entradas distintas, que incluyen imágenes etiquetadas de vacas, caballos y ovejas, respectivamente. Sin embargo, debido a limitaciones económicas, es posible que el desarrollador de software que desee crear este MLT no disponga de suficientes datos etiquetados para crear 3 modelos diferentes que puedan utilizarse para identificar los rostros de estos animales individualmente. En consecuencia, la MLT trabaja para generalizar estas tres entradas centrándose en las características subyacentes en los datos que pueden ser aplicables a otras tareas.
Por ejemplo, aunque las caras de animales de granja como vacas, caballos y ovejas serán inevitablemente diferentes, tienen ciertas características en común. Por ejemplo, las caras de vacas, caballos y ovejas tienen ojos de formas y tamaños diferentes. Por otra parte, la gran mayoría de las caras de los animales tienen rasgos circulares, independientemente de su tamaño o forma. Además, las vacas, las ovejas y los caballos tienen dientes de distintos tamaños, como cualquier otro animal. Dicho esto, una red neuronal artificial pasaría estas características generales de los animales a través de una capa intermedia, con el objetivo de utilizar esta información para resolver problemas adicionales de aprendizaje profundo, al tiempo que desarrolla un modelo exacto y preciso en el presente.
Aplicaciones del MLT
Aunque el aprendizaje profundo multitarea tiene numerosas aplicaciones en nuestro mundo empresarial actual, este enfoque ha demostrado ser especialmente útil en el contexto del filtrado de spam de correo electrónico. Debido a la naturaleza inherente de la comunicación por correo electrónico, la mayoría de las cuentas de correo electrónico no contendrán suficiente información etiquetada para entrenar un único algoritmo de clasificación local de manera eficiente. Por esta razón, el MLT puede utilizarse para combinar los datos de correo electrónico de varios usuarios con el objetivo de utilizar esta información para identificar el spam en el futuro. Por ejemplo, varios correos electrónicos que contengan palabras clave pertenecientes a varios de los principales fabricantes de automóviles de Estados Unidos, como Chevy, GMC y Dodge, podrían combinarse para entrenar un algoritmo de aprendizaje profundo que filtre automáticamente estos correos electrónicos en una carpeta determinada.
Debido a la exorbitante cantidad de datos de los que dependen muchos algoritmos de aprendizaje profundo para funcionar eficazmente, el desarrollo de estos algoritmos puede ser una lucha para investigadores independientes y desarrolladores de software que no cuentan con financiación de grandes empresas u otros recursos relevantes. No obstante, el aprendizaje multitarea representa una de las formas en que un desarrollador de software puede crear un algoritmo de aprendizaje profundo que se puede utilizar para resolver diversos problemas mediante la utilización de una cantidad limitada de datos de entrenamiento. Por lo tanto, aunque los algoritmos de aprendizaje multitarea son simplemente una forma en la que un ingeniero de software puede evitar los costes asociados a la creación de un modelo de aprendizaje automático, seguramente se descubrirán muchos más en los próximos años.