LSTM y redes neuronales, un enfoque del aprendizaje profundo
December 07, 2024 | 5 minutes read
A pesar de que las redes neuronales recurrentes (RNN) se crearon para abordar problemas de aprendizaje automático relacionados con datos secuenciales, también conocidos como datos que se organizan en secuencias que dependen unas de otras, como las marcas de tiempo, las predicciones meteorológicas y las secuencias de ADN, por nombrar algunas, también existen ciertas limitaciones asociadas a estas redes neuronales. En particular, estas limitaciones incluyen dos variaciones de un problema similar, conocidas como gradientes de explosión y gradientes de fuga. En términos sencillos, estos problemas provocan que los pesos o parámetros de una RNN se vuelvan inestables, lo que significa que el modelo ya no podrá aprender ni funcionar como estaba previsto.
Para combatir estos problemas, los informáticos Sepp Hochreiter y Jurgen Schmidhuber introdujeron en 1997 el aprendizaje automático a corto plazo a largo plazo (LSTM). Las LSTM son una iteración de las RNN que pueden utilizarse para aprender la dependencia del orden. Debido a la naturaleza secuencial de las RNN, las iteraciones iniciales de estas redes neuronales sufren un problema por el que la precisión de las predicciones para las que se crearon dichos modelos puede ser menos precisa con el tiempo, ya que el bucle de retroalimentación que está integrado en el modelo aumenta a medida que se añade más información al modelo. Esto se conoce como dependencia a largo plazo de la RNN, en la que una RNN sólo es capaz de hacer predicciones precisas basándose en datos actuales. Dicho esto, las LSTM están diseñadas para retener información durante largos periodos de tiempo sin volverse inestables.
La estructura de las LSTM
En términos generales, una LSTM estará compuesta por cuatro redes neuronales diferentes, así como por varios bloques de memoria distintos. Estos bloques de memoria se conocen como células y se utilizarán para crear una estructura en cadena. Más concretamente, la forma más básica de LSTM contiene una célula, una puerta de entrada y salida y una puerta de olvido. Hasta aquí, el flujo de información que entra y sale de una célula concreta estará controlado por estas tres compuertas, lo que permite a esta célula retener información durante largos periodos de tiempo, como su nombre indica. Gracias a estas propiedades, las LSTM pueden utilizarse para analizar y predecir datos secuenciales de duración incierta. Esto se consigue de acuerdo con un ciclo de cuatro ciclos
ciclo LTSM
En el primer paso del ciclo LSTM, la puerta de olvido de la red neuronal se utilizará para identificar la información que ha sido designada para ser olvidada con respecto a una marca de tiempo anterior. En el segundo paso, la puerta de entrada y una función tanh se utilizarán para buscar nueva información que pueda utilizarse para actualizar el estado de la célula de la LSTM. A continuación, la información de la puerta de olvido y la puerta de entrada se combinarán para actualizar el estado de las celdas del modelo. Por último, la puerta de salida y la función de activación correspondiente se utilizarán para proporcionar información adicional útil al modelo.
LSTM bidireccionales
Por otro lado, las LSTM bidireccionales tienen la misma estructura y formato que las LSTM estándar. Sin embargo, la principal diferencia entre estas dos redes neuronales es que la entrada y la salida de una LTSM bidireccional fluirán en ambas direcciones, en contraste con una LSTM estándar en la que la información dentro del modelo fluirá hacia delante o hacia atrás. Por este motivo, las LSTM bidireccionales se utilizan con más frecuencia en el contexto del procesamiento del lenguaje natural (PLN), ya que un ser humano que conversa con otra persona debe ser capaz de procesar la información que ya se ha hablado, así como anticipar lo que otra persona puede decir al entablar una conversación concreta.
Desventajas de las LSTM
A pesar de las diversas ventajas de implementar LSTMs para llevar a cabo ciertas tareas dentro del campo del aprendizaje profundo, también existen ciertas desventajas que están asociadas a dicho enfoque. En este sentido, las LSTM pueden ser muy difíciles de entrenar en la práctica, ya que incluso las iteraciones más básicas de estas redes neuronales recurrentes pueden requerir una enorme cantidad de tiempo y recursos para implementarse de forma eficaz. Para ilustrar mejor este punto, una LSTM creada para realizar una tarea concreta de procesamiento del lenguaje natural debe entrenarse en un conjunto de datos que puede contener miles de palabras, frases, oraciones, etc. diferentes. Por ello, muchos investigadores independientes y desarrolladores de software tendrán dificultades para reunir los recursos económicos necesarios para crear tales modelos.
Desde chatbots en línea que responden a preguntas en nombre de una conocida empresa de venta al por menor hasta aplicaciones de software que permiten a los usuarios traducir automáticamente el lenguaje humano, los LSTM se están implantando actualmente en el mundo de la inteligencia artificial y el aprendizaje automático de formas que antes se consideraban imposibles. Esto se debe en gran parte al bucle de retroalimentación o memoria que pueden retener estos modelos, ya que esta memoria confiere a dichos modelos la capacidad de procesar enormes cantidades de información con precisión y eficacia. Por estas razones, las LSTM pueden utilizarse para abordar problemas y obstáculos para los que otras redes neuronales han resultado insuficientes.