Estás leyendo la publicación: Demostración de la convexidad de Log-Loss para la regresión logística: hacia la IA
Publicado originalmente en Hacia la IA.
Desempaquetar el impacto de la función de error de pérdida de registro en la regresión logística
Autor(es): Pratik Shukla
“El coraje es como un músculo. Lo fortalecemos con el uso”. —ruth gordo
Tabla de contenido:
- Prueba de convexidad de la función log-loss para regresión logística
- Una mirada visual a BCE para la regresión logística
- Recursos y referencias
Introducción
En este tutorial, veremos por qué la función de pérdida de registro funciona mejor en la regresión logística. Aquí, nuestro objetivo es demostrar que la función de pérdida logarítmica es una función convexa para la regresión logística. Una vez que demostramos que la función de pérdida logarítmica es convexa para la regresión logística, podemos establecer que es una mejor opción para la función de pérdida.
La regresión logística es una técnica estadística ampliamente utilizada para modelar problemas de clasificación binaria. En este método, el log-odds de la variable de resultado se modela como una combinación lineal de las variables predictoras. Para estimar los parámetros del modelo se utiliza el método de máxima verosimilitud, que consiste en optimizar la función log-verosimilitud. La función de log-verosimilitud para la regresión logística generalmente se expresa como la suma negativa de las log-verosimilitudes de cada observación. Esta función se conoce como función de pérdida logarítmica o pérdida de entropía cruzada binaria. En esta publicación de blog, exploraremos la convexidad de la función de pérdida de registro y por qué es una propiedad esencial en los algoritmos de optimización utilizados en la regresión logística. También proporcionaremos una prueba de la convexidad de la función de pérdida de registro.
Prueba de convexidad de la función log-loss para regresión logística:
Demostremos matemáticamente que la función de pérdida logarítmica para la regresión logística es convexa.
Vimos en el tutorial anterior que se dice que una función es convexa si su segunda derivada es >0. Entonces, aquí tomaremos la función de pérdida logarítmica y encontraremos su segunda derivada para ver si es >0 o no. Si es >0, entonces podemos decir que es una función convexa.
Aquí vamos a considerar el caso de un solo ensayo para simplificar los cálculos.
Paso 1:
La siguiente es una definición matemática de la función de pérdida de entropía cruzada binaria (para un solo ensayo).
Paso 2:
El siguiente es el valor predicho (ŷ) para la regresión logística.
Paso 3:
En la siguiente imagen, z representa la transformación lineal.
Etapa 4:
Después de eso, estamos modificando Paso 1 para reflejar los valores de Paso 3 y Paso 2.
Paso — 5:
A continuación, estamos simplificando los términos en Etapa 4.
Paso — 6:
A continuación, estamos simplificando aún más los términos en Paso — 5.
Paso — 7:
La siguiente es la regla del cociente para logaritmos.
Paso — 8:
A continuación, estamos usando la ecuación de Paso — 7 para simplificar aún más Paso — 6.
Paso — 9:
En Paso — 8el valor de log(1) va a ser 0.
Paso — 10:
A continuación, estamos reescribiendo Paso — 8 con los términos restantes.
Paso — 11:
La siguiente es la regla de la potencia para los logaritmos.
Paso — 12:
A continuación, usaremos la regla de la potencia de los logaritmos para simplificar la ecuación en Paso — 10.
Paso — 13:
A continuación, estamos reemplazando los valores en Paso — 10 con los valores en Paso — 12.
Paso — 14:
A continuación, estamos sustituyendo el valor de Paso — 13 en Paso — 10.
Paso — 15:
A continuación, estamos multiplicando Paso — 14 por (-1) en ambos lados.
Encontrar la primera derivada:
Paso — 16:
A continuación, vamos a encontrar la primera derivada de f(x).
Paso — 17:
Aquí estamos distribuyendo el signo de diferenciación parcial a cada término.
Paso — 18:
Aquí estamos aplicando las reglas de la derivada.
Paso — 19:
Aquí estamos encontrando la derivada parcial del último término de Paso — 18.
Paso — 20:
Aquí estamos encontrando la derivada parcial del primer término de Paso — 18.
Paso — 21:
Aquí reunimos los resultados de Paso — 19 y Paso — 20.
Paso — 22:
A continuación, estamos reorganizando los términos de la ecuación en Paso — 21.
Paso — 23:
A continuación, estamos reescribiendo la ecuación en Paso — 22.
Encontrar la segunda derivada:
Paso — 24:
A continuación, vamos a encontrar la segunda derivada de la función f(x).
Paso — 25:
Aquí estamos distribuyendo la derivada parcial a cada término.
Paso — 26:
A continuación, estamos simplificando la ecuación en Paso — 25 para eliminar los términos redundantes.
Paso — 27:
Esta es la regla de la derivada para 1/f(x).
Paso — 28:
A continuación, estamos encontrando el término relevante para enchufar Paso — 27.
Paso — 29:
Aquí estamos encontrando el término de la derivada parcial para Paso — 27.
Paso — 30:
Aquí estamos encontrando el término al cuadrado para Paso — 27.
Paso — 31:
Aquí estamos reuniendo todos los términos de Paso — 27.
Paso — 32:
Aquí estamos simplificando la ecuación en Paso — 31.
Paso — 33:
A continuación, estamos reuniendo todos los valores en Paso — 26.
Paso — 34:
A continuación, estamos simplificando aún más los términos en Paso — 33.
¡Está bien! Entonces, ahora tenemos la segunda derivada de la función f(x). A continuación, debemos averiguar si esto será >0 para todos los valores de x o no. Si es >0 para todos los valores de x, entonces podemos decir que la pérdida de entropía cruzada binaria es convexa para la regresión logística.
Como podemos ver, los siguientes términos de Paso — 34 siempre van a ser ≥0 porque el cuadrado de cualquier número siempre es ≥0.
Ahora, necesitamos determinar si el valor de e^(-wx) es >0 o no. Para hacer eso, primero encontremos el rango de la función e^(-wx) en el dominio [-∞,+∞]. Para simplificar aún más los cálculos, consideraremos la función e^-x en lugar de e^-wx. Tenga en cuenta que escalar una función no cambia el rango de la función si el dominio es [-∞,+∞]. Primero tracemos la gráfica de e^-x para comprender su rango.
Del gráfico anterior podemos derivar la siguiente conclusión:
- A medida que el valor de x se mueve hacia el infinito negativo (-∞), el valor de e^-x se mueve hacia el infinito (+∞).
2. A medida que el valor de x se mueve hacia 0, el valor de e^-x se mueve hacia 1.
3. A medida que el valor de x se mueve hacia el infinito positivo (+∞), el valor de e^-x se mueve hacia 0.
Entonces, podemos decir que el rango de la función f(x)=e^-x es [0,+∞]. Según los cálculos, podemos decir que la función f(x)=e^-wx siempre será ≥0.
¡Está bien! Entonces, hemos concluido que todos los términos de la ecuación en Paso — 34 son≥0. Por tanto, podemos decir que la función f(x) es una función convexa para la regresión logística.
Nota IMPORTANTE:
Si el valor de la segunda derivada de la función es 0, entonces existe la posibilidad de que la función no sea ni cóncava ni convexa. Pero, ¡no nos preocupemos demasiado por eso!
Una mirada visual a BCE para la regresión logística:
La función de entropía cruzada binaria para la regresión logística viene dada por…
Ahora, sabemos que este es un problema de clasificación binaria. Entonces, solo puede haber dos valores posibles para Yi (0 o 1).
Paso 1:
El valor de la función de costo cuando Yi=0.
Paso 2:
Ahora, consideremos solo un ejemplo de entrenamiento.
Paso 3:
Ahora, digamos que solo tenemos un ejemplo de entrenamiento. Significa que n=1. Entonces, el valor de la función de costo cuando Y=0,
Etapa 4:
Ahora, digamos que solo tenemos un ejemplo de entrenamiento. Significa que n=1. Entonces, el valor de la función de costo cuando Y=1,
Paso — 5:
Ahora, tracemos el gráfico de la función en el Paso — 3.
Paso — 6:
Ahora, tracemos el gráfico de la función en el Paso — 4.
Paso — 7:
Pongamos los gráficos en el Paso — 5 y el Paso — 6 juntos.
Los gráficos anteriores siguen la definición de la función convexa (“Una función de una sola variable se llama función convexa si ningún segmento de línea que une dos puntos en el gráfico se encuentra debajo del gráfico en cualquier punto”). Entonces, podemos decir que la función es convexa.
Conclusión:
En conclusión, hemos explorado el concepto de convexidad y su importancia en los algoritmos de optimización utilizados en la regresión logística. Hemos demostrado que la función log-loss es convexa, lo que implica que su problema de optimización tiene un único mínimo global. Esta propiedad es crucial para garantizar la estabilidad y la convergencia de los algoritmos de optimización utilizados en la regresión logística. Al probar la convexidad de la función de pérdida logarítmica, hemos demostrado que el problema de optimización en la regresión logística está bien planteado y se puede resolver de manera eficiente utilizando métodos de optimización convexos estándar. Además, nuestra prueba proporciona una comprensión más profunda de los fundamentos matemáticos de la regresión logística y sienta las bases para futuras investigaciones y desarrollos en este campo.
Citación:
Para la atribución en contextos académicos, cite este trabajo como:
Shukla, et al., “Demostración de la convexidad de la pérdida de registro para la regresión logística”, Hacia la IA, 2023
Cita de BibTex:
@artículo{pratik_2023,
title={Demostración de la convexidad de la pérdida de registro para la regresión logística},
url={https://pub.towardsai.net/proving-the-convexity-of-log-loss-for-logistic-regression-49161798d0f3},
journal={Hacia la IA},
editor={Hacia AI Co.},
autor={Pratik, Shukla},
editor={Binal, David},
año={2023},
mes = {febrero}
}
Demostrar la convexidad de la pérdida de registro para la regresión logística se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.
Publicado a través de Hacia la IA