La cadena de Markov, probabilidades, nuevos enfoques de ML
December 07, 2024 | 4 minutes read
Una cadena de Markov (CM) es un concepto matemático que se utiliza para describir transiciones de un estado a otro de acuerdo con un conjunto específico de reglas probabilísticas. En el contexto de la inteligencia artificial y las aplicaciones de aprendizaje automático, las CM son una forma de Modelos Gráficos Probabilísticos (MGP), un potente marco que puede utilizarse para representar dominios complejos junto con distribuciones de probabilidad. En este sentido, la probabilidad de pasar a un estado determinado dentro de un MC dependerá tanto del estado actual dentro del modelo como del tiempo transcurrido desde que se alcanzó ese estado actual. Para ilustrar mejor este punto, consideremos un individuo que lanza una moneda de dos caras 100 veces.
Como una moneda de dos caras sólo puede dar lugar a dos estados diferentes, como cara o cruz, cada vez que se lance la moneda tendrá la misma probabilidad de caer en uno de estos dos estados diferentes. Dicho esto, el estado de la moneda en un momento dado será el principal factor que influya en la probabilidad de observar el otro estado. Además, si el individuo en cuestión registrara todos los casos en los que la moneda que lanza ha salido cara o cruz, estas observaciones colectivas constituirían una cadena de Markov. Al analizar estas observaciones, se podría ver que la probabilidad de salir cara o cruz al lanzar esta moneda 100 veces sería del 50% y del 50% respectivamente.
Modelos gráficos probabilísticos
Un PGM representa una de las muchas formas en que los desarrolladores de software pueden describir una probabilidad de variables aleatorias en relación con un problema particular de aprendizaje automático o profundo. Más específicamente, los PGM utilizan gráficos para describir qué variables específicas dentro de una distribución de probabilidad particular interactuarán entre sí, donde cada nodo dentro del modelo representará una variable, mientras que cada borde representará una interacción directa entre estas variables. Mediante esta configuración, estos modelos pueden crearse utilizando menos parámetros que los necesarios para crear con éxito otros modelos en el ámbito del aprendizaje automático y la inteligencia artificial. A su vez, los MGP pueden realizar predicciones eficaces utilizando cantidades menores de datos.
Además, estos modelos más pequeños también permiten a los desarrolladores de software reducir costes en cuanto a potencia computacional, ya que los MGP dependen de menos inferencias y muestras de rendimiento para funcionar eficazmente. Para ello, los MGP suelen contener tanto una representación gráfica del modelo como un proceso generativo que describe la forma en que se generarán las variables aleatorias del modelo. Asimismo, los MGP suelen dividirse en dos tipos diferentes, los MGP dirigidos, también conocidos como redes bayesianas, y los MGP no dirigidos, también conocidos como campos aleatorios de Markov o Monte Carlo de cadenas de Markov.
Cadena de Markov de Monte Carlo
Debido a que la inferencia de valores con modelos probabilísticos es a menudo inviable y poco práctica, los desarrolladores de software utilizarán en su lugar métodos de aproximación para generar variables aleatorias dentro de sus modelos. Por este motivo, el muestreo Markov Chain Monte Carlo (MCMC) es un método que puede utilizarse para generar aleatoriamente distribuciones de probabilidad de alta dimensión a un nivel sistemático. Este enfoque combina el concepto de cadena de Markov con la técnica de Montecarlo, otro método que puede utilizarse para muestrear aleatoriamente una distribución de probabilidad con respecto a la aproximación de una cantidad determinada. Mediante la aplicación de estos dos métodos, los algoritmos de aprendizaje automático pueden entrenarse para centrarse en una cantidad específica que se está aproximando con respecto a una distribución de probabilidad, incluso con un número expansivo de variables aleatorias implicadas, facilitando eficazmente predicciones precisas y eficientes.
A pesar de la complejidad de los conceptos matemáticos asociados a los algoritmos de predicción, la idea que subyace a estos modelos es relativamente sencilla y permite a las máquinas comprender conceptos humanos relacionados con la realización de predicciones. Mediante la aplicación del concepto de cadena de Markov, los ingenieros de software han sido capaces de crear aplicaciones capaces de predecir resultados de béisbol, el rendimiento del mercado de valores y predicciones meteorológicas futuras, entre otras muchas aplicaciones. De este modo, los consumidores de nuestra actual era digital han podido aprovechar nuevos productos y servicios en su vida cotidiana de formas nuevas e intuitivas, ya que predecir sucesos futuros como el tiempo que hará en una determinada región del mundo ha sido históricamente un proceso laborioso y arduo que a menudo requería un mayor grado de comprensión, formación y especialización.