Estás leyendo la publicación: ¿Cómo se utiliza la estimación de máxima verosimilitud en el aprendizaje automático?
La estimación de máxima verosimilitud (MLE) es un enfoque basado en probabilidades para determinar los valores de los parámetros del modelo. Los parámetros podrían definirse como planos para el modelo porque en base a eso funciona el algoritmo. MLE es una técnica ampliamente utilizada en aprendizaje automático, series temporales, datos de panel y datos discretos. El motivo de MLE es maximizar la probabilidad de que los valores del parámetro obtengan los resultados deseados. Los siguientes son los temas a tratar.
Tabla de contenido
- ¿Cuál es la probabilidad?
- Trabajo de Estimación de Máxima Verosimilitud
- Estimación de máxima verosimilitud en aprendizaje automático
Para comprender el concepto de estimación de máxima verosimilitud (MLE), primero debe comprender el concepto de probabilidad y cómo se relaciona con la probabilidad.
¿Cuál es la probabilidad?
La función de verosimilitud mide la medida en que los datos respaldan los diferentes valores del parámetro. Indica la probabilidad de que una población en particular produzca una muestra. Por ejemplo, si comparamos la función de probabilidad en puntos de dos parámetros y encontramos que para el primer parámetro la probabilidad es mayor que el otro, podría interpretarse como que el primer parámetro es un valor más plausible para el alumno que el segundo parámetro. Más probablemente podría decirse que utiliza una hipótesis para concluir el resultado. Tanto el análisis frecuentista como el bayesiano consideran la función de verosimilitud. La función de probabilidad es diferente de la función de densidad de probabilidad.
Diferencia entre verosimilitud y función de densidad de probabilidad
La probabilidad describe cómo encontrar la mejor distribución de los datos para alguna característica o alguna situación en los datos dado un cierto valor de alguna característica o situación, mientras que la probabilidad describe cómo encontrar la posibilidad de algo dada una muestra de distribución de datos. Comprendamos la diferencia entre la función de probabilidad y densidad de probabilidad con la ayuda de un ejemplo.
Considere un conjunto de datos que contenga el peso de los clientes. Digamos que la media de los datos es 70 y la desviación estándar es 2,5.
Cuando se deba calcular la probabilidad para cualquier situación utilizando este conjunto de datos, la media y la desviación estándar del conjunto de datos serán constantes. Digamos que la probabilidad de peso > 70 kg debe calcularse para un registro aleatorio en el conjunto de datos, entonces la ecuación contendrá el peso, la media y la desviación estándar. Considerando el mismo conjunto de datos, ahora si necesitamos calcular la probabilidad de que el peso sea > 100 kg, entonces solo se cambiará la parte de la altura de la ecuación y el resto permanecerá sin cambios.
Pero en el caso de la probabilidad, la ecuación de la probabilidad condicional se invierte en comparación con la ecuación en el cálculo de la probabilidad, es decir, la media y la desviación estándar del conjunto de datos variarán para obtener la máxima probabilidad para un peso > 70 kg.
¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos, echa un vistazo aquí.
Trabajo de Estimación de Máxima Verosimilitud
La maximización de la estimación de verosimilitud es el principal objetivo del MLE. Entendamos esto con un ejemplo. Considere que hay un problema de clasificación binaria en el que necesitamos clasificar los datos en dos categorías, 0 o 1, en función de una característica llamada “salario”.
Entonces, MLE calculará la posibilidad para cada punto de datos en el salario y luego, usando esa posibilidad, calculará la probabilidad de esos puntos de datos para clasificarlos como 0 o 1. Repetirá este proceso de probabilidad hasta que la línea de aprendizaje sea la mejor. equipado. Este proceso se conoce como la maximización de la probabilidad.
Lo anterior explica el escenario, como podemos ver, hay un umbral de 0.5, por lo que si la posibilidad resulta ser mayor que eso, se etiqueta como 1; de lo contrario, 0. Veamos cómo se podría usar MLE para la clasificación.
Estimación de máxima verosimilitud en aprendizaje automático
MLE es la base de muchos modelos de aprendizaje supervisado, uno de los cuales es la regresión logística. Técnica de regresión logística de máxima verosimilitud para clasificar los datos. Veamos cómo la regresión logística usa MLE. Los procedimientos MLE específicos tienen la ventaja de que pueden explotar las propiedades del problema de estimación para ofrecer una mayor eficiencia y estabilidad numérica. Estos métodos a menudo pueden calcular intervalos de confianza explícitos. El parámetro “solucionador” de la regresión logística se utiliza para seleccionar diferentes estrategias de resolución para la clasificación para una mejor formulación de MLE.
Importar biblioteca:
importar numpy como np importar pandas como pd importar seaborn como sns de sklearn.linear_model importar LogisticRegression de sklearn.model_selection importar train_test_split de sklearn importar preprocesamiento
Lee los datos:
df=pd.read_csv(“Social_Network_Ads.csv”) df.head()
Los datos están relacionados con los anuncios de redes sociales que tienen el género, la edad y el salario estimado de los usuarios de esa red social. El género es una columna categórica que debe etiquetarse y codificarse antes de proporcionar los datos al alumno.
Codificando los datos:
le = preprocesamiento.LabelEncoder() df[‘gender’]=le.fit_transform(df[‘Gender’])
Los resultados codificados se almacenan en una nueva característica llamada ‘género’ para que el original se mantenga sin cambios. Ahora, divida los datos en entrenamiento y prueba para entrenar y validar al alumno.
Dividir los datos:
X=df.drop([‘Purchased’,’Gender’],eje=1) y=gl[‘Purchased’]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)
Esto se divide en una proporción de 70:30 según las reglas estándar.
Ajuste de los datos en el alumno:
lr=Regresión logística(max_iter=100,solver=”lbfgs”) lr.fit(X_tren,y_tren) lr_pred=lr.predict(X_test) df_pred=pd.merge(X_test,pd.DataFrame(lr_pred,columns=[‘predicted’]),índice_izquierdo=Verdadero,índice_derecho=Verdadero)
Los resultados pronosticados se agregan al conjunto de datos de prueba en la característica ‘predicho’.
Trazado de la línea de aprendizaje:
sns.regplot(x=”Edad”, y=’predicho’,data=df_pred ,logistic=True, ci=Ninguno)
En el gráfico anterior, que se encuentra entre la edad de la característica y la predicción, la línea de aprendizaje se forma utilizando el principio de estimación de máxima verosimilitud que ayudó al modelo de regresión logística a clasificar los resultados. Entonces, en segundo plano, el algoritmo elige una probabilidad escalada por la edad de observar “1” y la usa para calcular la probabilidad de observar “0”. Esto servirá para todos los puntos de datos y, por último, multiplicará todas las probabilidades de los datos dados en la línea. Este proceso de multiplicación continuará hasta que no se encuentre la máxima verosimilitud o no se encuentre la línea de mejor ajuste.
Ultimas palabras
El enfoque de máxima verosimilitud proporciona un enfoque persistente para la estimación de parámetros y proporciona propiedades matemáticas y optimizables. Con una implementación práctica de este concepto en este artículo, podríamos comprender cómo funciona la estimación de máxima verosimilitud y cómo se utiliza como columna vertebral de la regresión logística para la clasificación.