Todo lo que necesitas saber sobre la Cadena de Markov Monte Carlo

Estás leyendo la publicación: Todo lo que necesitas saber sobre la Cadena de Markov Monte Carlo

Markov Chain Monte Carlo (MCMC) se refiere a una clase de métodos para el muestreo de una distribución de probabilidad para construir la distribución más probable. La distribución logística no se puede calcular directamente, por lo que genera miles de valores preferidos como muestras para los parámetros de la función para crear una aproximación de la distribución. En este artículo, profundizaremos en los métodos utilizados por el algoritmo MCMC para crear dicha distribución. Los siguientes son los temas a tratar.

Tabla de contenido

  1. ¿Qué es MCMC?
  2. ¿Cómo funciona MCMC?
  3. Aplicaciones de MCMC
  4. Ventajas y limitaciones de MCMC

Empecemos por comprender el concepto de la Cadena de Markov de Montecarlo.

¿Qué es MCMC?

Los métodos de Monte Carlo de la cadena de Markov están diseñados para que los pesos de importancia asociados con cada muestra permanezcan constantes. Esto significa que el método tiene como objetivo generar muestras proporcionales a la densidad posterior para que pueda llegar a las mejores estimaciones para el valor esperado.

Al crear una cadena de valores de parámetros correlacionados sobre n iteraciones, MCMC da como resultado una densidad posterior que es el número de iteraciones gastadas en cada región específica. Debido al ingenioso algoritmo MetropolisHastings que asegura la estacionariedad de las cadenas de Markov arbitrarias y las ajusta usando un mecanismo simple de aceptación-rechazo para asegurar la estacionariedad de la densidad de probabilidad para el proceso resultante.

Por lo tanto, ofrece una solución indirecta porque uno construye una cadena de Markov ergódica con densidad de probabilidad como una medida de probabilidad estacionaria mucho más fácilmente que simular directamente a partir de la densidad de probabilidad. Comprendamos cómo el algoritmo MCMC muestrea datos y genera cadenas para lograr la distribución bayesiana esperada requerida.

¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos, echa un vistazo aquí.

¿Cómo funciona MCMC?

La idea central de este algoritmo es generar nuevas muestras de manera que la distribución de las muestras finales sea estacionaria, que converja en algo además de mantener la consistencia e igualar la densidad de probabilidad. El cumplimiento de la primera condición invoca el equilibrio detallado. Esta es la idea de que la probabilidad se conserva al pasar de una posición a otra, que es la función de la reversibilidad.

🔥 Recomendado:  Cree, entrene, rastree y comparta sus modelos ML con Layer AI

Formalmente, este es solo un caso de factorización de probabilidad; la probabilidad de pasar de una muestra a otra es igual a la probabilidad de pasar en sentido contrario de la muestra actual a la anterior. Al reorganizar todas las restricciones, la igualdad final resulta del hecho de que la distribución genera muestras desde la parte posterior.

Ahora el algoritmo necesita un procedimiento para calcular realmente la probabilidad de moverse a una nueva posición una vez que se haya determinado la igualdad final. Entonces, para lograr este cálculo, lo dividirá en dos partes. Primero, propondrá una nueva posición basada en una distribución propuesta utilizada para el muestreo por importancia.

A continuación, aceptará o rechazará la nueva posición según la probabilidad de transición. La combinación de estos términos calculará la probabilidad de moverse a una nueva posición. De manera similar, para múltiples puntos de datos, el algoritmo formará una cadena que es el proceso de Markov.

En resumen, el algoritmo necesitará un total de cuatro pasos para generar una cadena que se enumera.

  • Proponga un nuevo puesto generando una muestra a partir de la distribución de la propuesta.
  • Calcule la probabilidad de transición para las muestras recién generadas.
  • Asignando 0 y 1 ya sea para aceptación o rechazo respectivamente.
  • Para generar una cadena de estados de Markov donde la siguiente posición propuesta solo depende de la posición actual y olvida la posición anterior.

El problema de generar una cadena de muestras en la práctica es que la cadena tiene una longitud finita y el punto inicial es 0. Si la cadena fuera infinitamente larga, se visitarían todas las posiciones posibles en el espacio de parámetros, lo que significa que la posición inicial es de menor trascendencia.

Sin embargo, en la práctica, el muestreo termina después de solo n iteraciones, comenzando desde una ubicación 0 con una probabilidad muy baja significa que un gran porcentaje de n muestras ocupará esta región de baja probabilidad, lo que podría sesgar los resultados. Aunque no tiene conocimiento de dónde está la posición con respecto a nuestro om posterior, generalmente prefiere eliminar la cadena inicial que ha comenzado a muestrear del área con mayor probabilidad.

🔥 Recomendado:  Redacción para Blogs: 10 Consejos que Necesitas para Contenido Rentable

Pero los nuevos puestos extraídos de la distribución de propuestas tienden a depender del puesto actual. Esto significa que la posición que proponemos para la iteración futura se correlacionará con la posición en la iteración actual, que a su vez se correlacionará con la posición en la iteración pasada y esto conducirá a una fracción de baja aceptación que generará la cadena que los contiene perfectamente. muestras correlacionadas, aumentando la correlación general. Este problema se soluciona introduciendo una función de autocovarianza que calculará la correlación y la ordenará de mayor a menor.

Finalmente, podríamos decir que la principal preocupación motivadora de los métodos MCMC es si pueden generar una cadena de muestras con un tiempo de autocorrelación lo suficientemente pequeño como para superar el muestreo de importancia.

¿Cuándo y dónde usarlo?

Se utiliza un modelo de cadena de Markov Monte Carlo (MCMC) para determinar la distribución posterior y extraer muestras de ella. Se utiliza para ajustar el modelo y extraer muestras de la distribución posterior conjunta de los parámetros del modelo. Se utiliza cuando no tenemos ningún conocimiento previo sobre el problema. Entonces, necesitamos comenzar el problema suponiendo ciertos puntos y luego calculando las probabilidades bayesianas de esas conjeturas podemos llegar a una solución.

Aplicaciones de MCMC

Aquí hay aplicaciones de la vida real del algoritmo MCMC.

Criptografía

La cadena de Markov Monte Carlo se aplica en el campo de la criptografía por la Universidad de Stanford, que se utilizó para detectar las notas codificadas del prisionero. Así que el objetivo del problema era

  • Comience con una conjetura preliminar.
  • Calcule la probabilidad de la conjetura.
  • Cambie la conjetura a otra conjetura haciendo una transposición aleatoria de los valores
  • Calcule la probabilidad de una nueva conjetura; si la probabilidad más nueva es mayor que la anterior, aceptar.
  • Si no, cambie las probabilidades como si fuera una moneda; si sale cara, acepte una suposición más nueva.
  • Si el lanzamiento de la moneda sale cruz, quédese en f. El algoritmo continúa, tratando de mejorar el actual

Después de 100 iteraciones, el mensaje es un desastre. Después de dos mil iteraciones, el mensaje descifrado tiene sentido. Finalmente, el mensaje codificado se descifró después de algunas iteraciones más.

🔥 Recomendado:  ¿Qué es el registro de imágenes y cómo funciona?

Cuantificación de Gerrymandering en Carolina del Norte

Esta es una aplicación del algoritmo MCMC en el campo de la política. En esto, el equipo quiere evaluar si un distrito político determinado representa fielmente el panorama geopolítico. Para muestrear el espacio de los planes de redistribución de distritos del Congreso, se construyen distribuciones de probabilidad que se concentran en aquellos que siguen reglas no partidistas de la legislación propuesta. Los criterios de diseño no partidistas aseguran que

  • La población del estado se divide equitativamente entre los trece distritos del Congreso,
  • Los distritos están conectados y compactos,
  • La división de condados se minimiza
  • Los votantes afroamericanos están lo suficientemente concentrados en dos distritos para afectar al ganador

Aproximadamente 24,000 planes aleatorios de redistribución de distritos son producidos por un algoritmo MCMC estándar, que asume que las personas votan por partidos en lugar de individuos. Estos resultados electorales se utilizan para cuantificar qué tan representativo es un distrito en particular al observar su lugar en el conjunto. También se utilizan para cuantificar el gerrymandering mediante la identificación de distritos con una concentración partidista inusual de votantes.

Ventajas y limitaciones de MCMC

Hay ventajas y desventajas de cada algoritmo y aquí se enumeran algunas.

Ventajas

  • Se aplica incluso si no podemos extraer muestras directamente.
  • Cuando no hay conocimiento de las regiones de alta probabilidad, el método funciona para distribuciones complicadas en espacios dimensionales altos.
  • La implementación es relativamente fácil.
  • Bastante confiable

Desventajas

  • Requiere más muestras que el muestreo de importancia simple, lo que lo hace más lento.
  • Incluso empíricamente, evaluar la precisión y la convergencia puede ser muy difícil.

Veredicto Final

La cadena de Markov Monte Carlo es la técnica numérica utilizada para la inferencia bayesiana porque podría calcular las probabilidades posteriores en función de datos perfectamente muestreados. Con una implementación práctica de este concepto, podríamos comprender la totalidad de la cadena Monte Carlo Markov.

Referencias