Una guía para principiantes sobre los árboles de regresión aditivos bayesianos

Estás leyendo la publicación: Una guía para principiantes sobre los árboles de regresión aditivos bayesianos

BART (árbol de regresión aditivo bayesiano) es una técnica de conjunto basada en el teorema de Bayes que se utiliza para calcular la probabilidad posterior. El ajuste y la inferencia de este modelo se logran a través de un algoritmo de cadena de Markov y Monte Claro de ajuste bayesiano iterativo que genera muestras a partir de un posterior. En función de la probabilidad previa y la probabilidad, se generan los resultados/predicciones. Se puede realizar una inferencia posterior completa con este enfoque, incluidas las estimaciones puntuales y de intervalo de la función de regresión desconocida, así como los efectos marginales de los predictores potenciales. En este artículo, tendremos una introducción detallada a los BART con su mecanismo de trabajo. Los siguientes son los puntos y tramas que cubrirá este artículo.

Tabla de contenido

  1. La probabilidad posterior
  2. ¿Qué es BART?
    1. ¿Cómo se construye la suma de los árboles?
    2. ¿Por qué se regularizan los antecedentes?
  3. El algoritmo MCMC de ajuste posterior
  4. ¿Cómo utilizar BART para la clasificación?

Las técnicas de conjunto se han vuelto populares tanto para problemas de regresión como de clasificación. Para comprender BART primero, debe comprender la probabilidad posterior en las estadísticas bayesianas.

La probabilidad posterior

La probabilidad de que ocurra un evento antes de que se recopilen nuevos datos se conoce como probabilidad posterior. La distribución de esta probabilidad define la probabilidad previa y la probabilidad de ocurrencia de nuevos datos. La probabilidad posterior es la probabilidad de que ocurra el evento A dado que ha ocurrido el evento B y en términos aritméticos se expresa como:

PA|B=P(A)P(B|A)P(B)

dónde,

P(A) = la probabilidad previa de que ocurra A

P(A|B)= la probabilidad condicional de A dado que B ocurre

P(B|A) = la probabilidad condicional de B dado que A ocurre

P(B) = la probabilidad de que ocurra B

¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos? echa un vistazo aquí.

¿Qué es BART?

BART significa árboles de regresión aditivos bayesianos. Es un enfoque bayesiano para la estimación de funciones no paramétricas utilizando árboles de regresión. Los árboles de regresión se basan en la partición binaria recursiva del espacio predictor en un conjunto de hiperrectángulos para aproximar alguna función desconocida.

  • Los hiperreactángulos son regiones rectangulares de alta dimensión. En lenguaje simple, es un cuboide. Es mejor que los rectángulos 2d que usan los árboles normales, ya que ahora, con la 3ra dimensión, podría clasificar datos con precisión.
🔥 Recomendado:  ¿Cómo usar XGBoost para el análisis de series de tiempo?

La suma de árboles es fundamentalmente un modelo aditivo multivariante. Estos componentes multidimensionales pueden incorporar efectos de interacción más fácilmente que los modelos aditivos generalizados basados ​​en sumas de suavizadores de baja dimensión. Y en comparación con un modelo de árbol único, la suma de árboles puede incorporar efectos aditivos más fácilmente.

Al mantener pequeños los efectos de los árboles individuales, podemos regularizar el ajuste imponiendo un prior en el modelo de suma de árboles. Las inferencias obtenidas de BART se basan en iteraciones sucesivas del algoritmo de ajuste posterior que son efectivamente una muestra MCMC de la probabilidad posterior inducida sobre el espacio del modelo de suma de árboles. La construcción de una suma de árboles y la regularización previa son las dos cosas principales que definen el modelo BART.

¿Cómo se construye la suma de los árboles?

Veamos cuál es la matemática detrás de la creación de un solo en BART que luego se suma a varios árboles. Supongamos que un conjunto de árboles binarios que consta de un conjunto de nodos raíz con nodos principales y un conjunto de nodos terminales denominados T, los nodos terminales se denominan b y M denota un conjunto de valores de parámetros asociados con cada uno de los terminales. nodos del árbol binario.

El nodo principal son divisiones binarias del espacio predictor donde A es un subconjunto del rango de componentes continuos asociados con cada nodo terminal (x) denotados como de la forma {x ∈ A} vs {x /∈ A}. Una vez realizada la asociación, a cada asociación se le asigna un valor representado por μ.

μ=g(x;T,M)

Y = μ + ε

dónde,

μ= el valor asignado a toda la asociación,

ε ~ N(0,σ2) la distribución de los datos con media 0 y varianza calculada (distribución aproximadamente normal).

Por lo tanto, ahora se forma un solo árbol al agregar todos los árboles, se forma una suma de árboles.

Y = j=1mμj + ε

μj=g(xj;Tj,Mj)

dónde,

μj= el valor asignado a todas las asociaciones para el j-ésimo árbol

ε = la distribución de los datos para el j-ésimo árbol (distribución aproximadamente normal)

El diagrama anterior muestra un árbol binario con el nodo raíz, un nodo de dos padres dividido del nodo raíz, el nodo padre se divide en dos nodos terminales, un nodo hoja y un terminal.

🔥 Recomendado:  Algoritmo Crow Search para optimización y sus casos de uso

¿Por qué se regularizan los antecedentes?

Los grandes componentes del árbol abrumarían la rica estructura de los árboles, lo que limitaría las ventajas de la representación aditiva tanto en términos de aproximación de funciones como de cálculo. Para superar esto, regularice efectivamente el ajuste evitando que los efectos de los árboles individuales sean indebidamente influyentes. Hay cinco objetivos principales de la regularización de antecedentes:

  • Los parámetros del nodo terminal de cada árbol deben ser independientes.
  • No debe haber ninguna correlación entre los árboles.
  • La varianza debe diferir
  • Distribución normal aproximada
  • Para decidir el número de árboles.

Todos estos están regularizados para que el algoritmo MCMC de adaptación pueda funcionar a su máxima capacidad. Entendamos el algoritmo MCMC de adaptación.

¿El algoritmo MCMC de adaptación?

El algoritmo MCMC consta de dos técnicas de probabilidad: Monte carlo técnica de simulación y la Cadena de Markov técnica. Comprendamos estas dos técnicas sofisticadas de muestreo de probabilidades.

  • Monte Carlo trabaja sobre el principio de aleatoriedad para resolver cualquier problema que tenga una interpretación probabilística que sea determinista en la propiedad. Matemáticamente esta técnica podría explicarse como la aproximación del valor medio de la variable aleatoria X, que es igual a la suma (el signo Σ) de los datos elegidos aleatoriamente de esa población (las muestras), dividida por el tamaño de la muestra.

Promedio(X)=1Nn=1Nxn

dónde,

N = tamaño de la muestra

xn = enésimo dato

Cuando la distribución de probabilidad es paramétrica, esta técnica de aleatoriedad no se puede utilizar, por lo que entra en juego la cadena de muestreo de Markov.

  • Cadena de Markov establece que la probabilidad de transición a cualquier estado dado está determinada únicamente por el estado actual y la cantidad de tiempo transcurrido. Utiliza la propiedad de Markov para derivar esta conclusión, que se afirma que es suficiente conocer la distribución de probabilidad del estado anterior para determinar la distribución de probabilidad del estado actual. La propiedad de Markov se puede expresar matemáticamente como:

dónde,

P(Xn+1|Xn) = Probabilidad de ocurrencia futura de datos basados ​​en datos anteriores

Cuando el algoritmo inicializa la cadena con un cierto número de árboles simples de un solo nodo, las iteraciones se repiten hasta que se obtiene una convergencia satisfactoria. En cada iteración, cada árbol puede aumentar o disminuir el número de nodos terminales en uno, o cambiar una o dos reglas de decisión. Cada µ (consulte la ecuación anterior de construcción de árboles) cambiará (o dejará de existir o nacerá), y σ (varianza) cambiará.

🔥 Recomendado:  [Ultimate Guide] Cómo usar ManyChat con FB Messenger para crear un chatbot simple

No es raro que un árbol crezca y luego vuelva a colapsar hasta convertirse en un solo nodo a medida que el algoritmo itera. El modelo de suma de árboles, con su abundancia de parámetros no identificados, permite reasignar libremente el “ajuste” de un árbol a otro. Porque cada movimiento hace solo pequeños cambios incrementales en el ajuste. Simplemente imagina esculpir una escultura sumando y restando pequeños toques de arcilla, eso es lo mismo que sucede aquí.

En última instancia, estas dos técnicas son utilizadas por el algoritmo MCMC para derivar las probabilidades posteriores y usar esas probabilidades para predecir el resultado.

¿Cómo utilizar BART para la clasificación?

BART está listo para usarse en un problema de regresión donde la salida está en un formato continuo. Sin embargo, para un problema binario donde la salida es una variable categórica (= 0 o 1), debe cambiarse para lograr la clasificación. Para esta extensión de BART, debemos imponer una regularización antes de μ (consulte las ecuaciones anteriores) para implementar un algoritmo de ajuste bayesiano para el cálculo posterior. Al reducir el μ, podemos regularizar el valor y el algoritmo MCMC de ajuste posterior se puede usar para clasificar los datos binarios.

Veredicto Final

Los componentes esenciales de BART son el modelo de suma de árboles, la regularización previa y el algoritmo MCMC de ajuste posterior. Esto se logra con una regularización previa que reduce los efectos del árbol hacia un ajuste más simple.

Referencias