Todo lo que necesita saber sobre la pérdida de registros en el aprendizaje automático

Estás leyendo la publicación: Todo lo que necesita saber sobre la pérdida de registros en el aprendizaje automático

Las funciones de pérdida son una medida de la precisión de un modelo de aprendizaje automático para predecir el resultado previsto. Tanto la función de costo como la función de pérdida se relacionan con lo mismo: el proceso de capacitación que emplea la retropropagación para reducir la diferencia entre el resultado real y el anticipado. La función de pérdida logarítmica mide la entropía cruzada del error entre dos distribuciones de probabilidad. Este artículo se centrará en aprender sobre la función de pérdida de registro. Los siguientes son los temas a tratar.

Tabla de contenido

  1. ¿Qué es una función de pérdida?
  2. ¿Qué es la pérdida de registro?
  3. explicación matemática

La función de pérdida de registro entra en el marco de la máxima verosimilitud. Comencemos hablando de la función de pérdida.

¿Qué es una función de pérdida?

El término ‘Pérdida’ se refiere a la sanción por no cumplir con la producción proyectada. Si la divergencia entre los valores pronosticados y esperados por nuestro modelo es grande, la función de pérdida genera un número mayor; si la variación es menor y mucho más cercana al valor esperado, genera un número más bajo.

Una función de pérdida convierte una afirmación teórica en una proposición práctica. La construcción de un predictor de alta precisión requiere una iteración continua del problema a través de preguntas, modelado del problema con la técnica seleccionada y pruebas.

El único criterio que se utiliza para evaluar un modelo estadístico es su rendimiento: qué tan precisos son los juicios del modelo. Esto requiere el desarrollo de un método para determinar qué tan lejos está una iteración específica del modelo de los valores reales. Aquí es cuando las funciones de pérdida entran en la ecuación.

🔥 Recomendado:  ¿Por qué todo el mundo tiene miedo a los falsos negativos?

Las funciones de pérdida calculan la distancia entre un valor estimado y su valor real. Una función de pérdida conecta las decisiones con sus costos. Las funciones de pérdida fluctúan dependiendo del trabajo a realizar y del objetivo a lograr.

¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos, echa un vistazo aquí.

¿Qué es la pérdida de registro?

Al modelar una clasificación en la que las variables de entrada deben etiquetarse según diferentes clases, la tarea se puede representar como una predicción de la probabilidad de pertenecer a cada clase. El modelo predecirá probabilidades dados los datos de entrenamiento en función de los pesos en el conjunto de datos de entrenamiento, y el modelo ajustará sus pesos para minimizar la diferencia entre sus probabilidades predichas y la distribución de probabilidades de los datos de entrenamiento. Este cálculo se llama entropía cruzada.

La frase “entropía cruzada” a veces se usa para referirse a la probabilidad logarítmica negativa de una distribución de Bernoulli o softmax, aunque esto es incorrecto. Es posible definir una pérdida como una entropía cruzada entre una distribución empírica derivada del conjunto de entrenamiento y una distribución de probabilidad derivada del modelo cuando se caracteriza por una probabilidad logarítmica negativa. El error cuadrático medio, por ejemplo, es la entropía cruzada entre una distribución empírica y un modelo gaussiano.

Siempre que el algoritmo utiliza el concepto de estimación de máxima verosimilitud, la función de pérdida es una función de pérdida de entropía cruzada. Al modificar los pesos del modelo durante el entrenamiento, se utiliza la pérdida de entropía cruzada. El objetivo es minimizar la pérdida, lo que significa que cuanto menor sea la pérdida, mejor será el modelo. La pérdida de entropía cruzada de un modelo perfecto es cero.

🔥 Recomendado:  Gane dinero con los blogs: 40 herramientas de blogs que absolutamente necesita

explicación matemática

Considere una función de pérdida para un problema de clasificación binaria como ejemplo. El objetivo es anticipar una etiqueta binaria (y) y la probabilidad esperada (p) de 1. Se utiliza una función de pérdida, que es una función de entropía cruzada binaria, para evaluar la calidad de la predicción (pérdida logarítmica). La función de pérdida parece ser una función de predicción y etiquetas binarias. Un algoritmo de predicción sufre una pérdida cuando produce un pronóstico cuando la etiqueta real es 0 o 1.

La formula,

Dónde,

  • y es la etiqueta (0 y 1 para binario)
  • p(y) es la probabilidad predicha de que el punto de datos sea 1 para todos los N puntos.
Revista de análisis de la India

Para cada observación, el valor de pérdida logarítmica se determina usando el valor real de la observación (y) y la probabilidad de pronóstico (p). Se presenta una puntuación de pérdida logarítmica del modelo de clasificación como el promedio de las pérdidas logarítmicas de todas las observaciones/predicciones para evaluar y caracterizar su rendimiento. El promedio de los valores de pérdida logarítmica de los tres pronósticos es 0.646, como se ve en la tabla.

La puntuación de pérdida logarítmica de un modelo con competencia perfecta es 0. En otras palabras, el modelo pronostica la probabilidad de cada observación como el valor real. Si ambos modelos se aplican a la misma distribución del conjunto de datos, un modelo con una puntuación de pérdida de registro más baja supera a uno con una puntuación de pérdida de registro más alta. Las puntuaciones de pérdida de registro de dos modelos que se ejecutan en dos conjuntos de datos distintos son incomparables.

🔥 Recomendado:  Manejo de datos desequilibrados con pesos de clase en regresión logística

Si la probabilidad de predicción se establece en un determinado nivel, la puntuación de pérdida de registro más baja se establecerá como puntuación de referencia. En la imagen que son los mínimos locales. El modelo de clasificación ingenuo, que simplemente vincula todas las observaciones con una probabilidad constante igual al porcentaje de datos que contienen observaciones de clase 1, determina la puntuación de pérdida de registro de referencia para un conjunto de datos. Un modelo ingenuo con una probabilidad constante de 0,25 en un conjunto de datos equilibrado con una proporción de 49:51 de clase 0 a clase 1 proporcionará una puntuación de pérdida logarítmica de 0,326, que se considera la puntuación de referencia para ese conjunto de datos.

Revista de análisis de la India

Conclusión

En el algoritmo que se basa en el marco de máxima verosimilitud, el ajuste perfecto para la función de pérdida es Log loss, ya que calcula la entropía entre los valores predichos y reales. Con este artículo, hemos entendido la función de pérdida de registro.

Referencias