Estás leyendo la publicación: 10 métricas de evaluación para modelos de aprendizaje automático
La construcción de un modelo de aprendizaje automático no es algo aislado. Es posible que no sepa si el modelo construido funciona o, si lo hace, funciona tan bien como se esperaba. La construcción de dichos modelos funciona según el principio de obtener retroalimentación de una métrica, implementar las mejoras correctas y reconstruir para lograr la precisión perfecta deseada.
Sin embargo, elegir la métrica adecuada para evaluar el rendimiento y la precisión de su modelo es una tarea en sí misma. Entonces, después de terminar su modelo predictivo, de clasificación o de regresión, aquí hay una lista de métricas de evaluación que pueden ayudarlo a probar la precisión y la concreción del modelo.
Matriz de confusión
Simplemente, es una matriz de tamaño 2×2 para clasificación binaria con un eje que consta de valores reales y el otro eje con valores predichos. El tamaño de la matriz puede aumentar según el número de clases que se pronostiquen.
También conocida como la “matriz de error”, es una representación visual tabular de las predicciones del modelo contra las etiquetas de verdad del terreno.
Verdadero Positivo es la predicción positiva correcta del modelo.
verdadero negativo es la predicción negativa correcta del modelo.
Falso positivo es la predicción incorrecta de lo positivo por parte del modelo.
Falso negativo es la predicción incorrecta de lo negativo por parte del modelo.
Con estos valores podemos calcular la tasa de cada categoría de predicción mediante una simple ecuación.
Precisión de clasificación
La métrica más simple, se calcula mediante dividiendo el número de predicciones correctas por el número total de predicciones, multiplicado por 100.
Precisión/Especificidad
Si la distribución de clases está desequilibrada, la precisión de la clasificación no es el mejor indicador del rendimiento del modelo. Para abordar un problema específico de clase, necesitamos una métrica de precisión que se calcula mediante Verdaderos Positivos dividido por la suma de Verdaderos Positivos y Falsos Positivos.
Recuperación/Sensibilidad
La recuperación es la fracción de muestras de una clase que el modelo predice correctamente. Se calcula por Verdaderos Positivos dividido por la suma de Verdaderos Positivos y Falsos Negativos.
Haga clic aquí para leer más sobre las métricas de evaluación para problemas de clasificación.
Puntuación F1
Ahora que sabemos qué son la precisión y el recuerdo para los problemas de clasificación, para calcular ambos simultáneamente: F1, la media armónica de ambos, que también funciona bien en un conjunto de datos de desequilibrio.
Como se muestra en la ecuación anterior, la puntuación F1 otorga la misma importancia a la memoria y la precisión. Si queremos darle más peso a uno de ellos, la puntuación F1 se puede calcular agregando un valor a la recuperación o la precisión, dependiendo de cuántas veces el valor sea importante. En la siguiente ecuación, β es el peso.
ABC – República de China
El área bajo la curva (AUC) es independiente de los cambios en la proporción de respondedores. Cuando obtenemos una matriz de confusión que produce un valor diferente para cada métrica en un modelo probabilístico, es decir, cuando para cada recuperación (sensibilidad), obtenemos un valor de precisión (especificidad) diferente, podemos trazar una curva característica operativa del receptor (ROC) y encuentre el área bajo la curva como se muestra a continuación.
Dado que el área se calcula entre los ejes, siempre se encuentra entre 0 y 1. Cuanto más cerca esté de 1, mejor será el modelo.
Error cuadrático medio (RMSE)
Una de las métricas más populares utilizadas en problemas de regresión, RMSE asume que los errores que ocurren son imparciales y siguen una distribución normal. Cuanto mayor sea el número de muestras, más fiable será la reconstrucción de la distribución de errores a través de RMSE. La ecuación de la métrica viene dada por:
Haga clic aquí para obtener una explicación más detallada de las diferentes métricas de evaluación.
Pérdida de entropía cruzada
También conocida como ‘pérdida de registro’, la pérdida de entropía cruzada es famosa en las redes neuronales profundas, ya que supera los problemas de gradiente de fuga. Se calcula mediante la suma del valor logarítmico de la distribución de probabilidad de predicción para puntos de datos mal clasificados.
Coeficiente GINI
Utilizado para problemas de clasificación, el coeficiente de Gini se deriva del número AUC – ROC. Es la relación entre la curva ROC y la línea diagonal. Si el coeficiente de Gini está por encima del 60 %, el modelo se considera bueno. Las fórmulas utilizadas para esto son:
Gini = 2*AUC – 1
Puntuación Jaccard
La puntuación de Jaccard es la medida del índice de similitud entre dos conjuntos de datos. La puntuación se calcula entre 0 y 1, siendo 1 la mejor. Para calcular la puntuación de Jaccard, encontramos el número total de observaciones en ambos conjuntos y lo dividimos por el número total de observaciones en cada conjunto.
J(A, B) = |A∩B| / |A∪B|
Aquí hay una guía práctica para métricas de evaluación para modelos de aprendizaje automático.