Demostración de la convexidad de Log-Loss para la regresión logística: hacia la IA

Estás leyendo la publicación: Demostración de la convexidad de Log-Loss para la regresión logística: hacia la IA

Publicado originalmente en Hacia la IA.

Desempaquetar el impacto de la función de error de pérdida de registro en la regresión logística

Foto por Mente profunda en Unsplash

Autor(es): Pratik Shukla

“El coraje es como un músculo. Lo fortalecemos con el uso”. —ruth gordo

Tabla de contenido:

  1. Prueba de convexidad de la función log-loss para regresión logística
  2. Una mirada visual a BCE para la regresión logística
  3. Recursos y referencias

Introducción

En este tutorial, veremos por qué la función de pérdida de registro funciona mejor en la regresión logística. Aquí, nuestro objetivo es demostrar que la función de pérdida logarítmica es una función convexa para la regresión logística. Una vez que demostramos que la función de pérdida logarítmica es convexa para la regresión logística, podemos establecer que es una mejor opción para la función de pérdida.

La regresión logística es una técnica estadística ampliamente utilizada para modelar problemas de clasificación binaria. En este método, el log-odds de la variable de resultado se modela como una combinación lineal de las variables predictoras. Para estimar los parámetros del modelo se utiliza el método de máxima verosimilitud, que consiste en optimizar la función log-verosimilitud. La función de log-verosimilitud para la regresión logística generalmente se expresa como la suma negativa de las log-verosimilitudes de cada observación. Esta función se conoce como función de pérdida logarítmica o pérdida de entropía cruzada binaria. En esta publicación de blog, exploraremos la convexidad de la función de pérdida de registro y por qué es una propiedad esencial en los algoritmos de optimización utilizados en la regresión logística. También proporcionaremos una prueba de la convexidad de la función de pérdida de registro.

Prueba de convexidad de la función log-loss para regresión logística:

Demostremos matemáticamente que la función de pérdida logarítmica para la regresión logística es convexa.

Vimos en el tutorial anterior que se dice que una función es convexa si su segunda derivada es >0. Entonces, aquí tomaremos la función de pérdida logarítmica y encontraremos su segunda derivada para ver si es >0 o no. Si es >0, entonces podemos decir que es una función convexa.

Aquí vamos a considerar el caso de un solo ensayo para simplificar los cálculos.

Paso 1:

La siguiente es una definición matemática de la función de pérdida de entropía cruzada binaria (para un solo ensayo).

Figura — 1: Pérdida de entropía cruzada binaria para un solo ensayo

Paso 2:

El siguiente es el valor predicho (ŷ) para la regresión logística.

Figura — 2: La probabilidad predicha para el ejemplo dado

Paso 3:

En la siguiente imagen, z representa la transformación lineal.

Figura — 3: Transformación lineal en propagación directa

Etapa 4:

Después de eso, estamos modificando Paso 1 para reflejar los valores de Paso 3 y Paso 2.

Figura — 4: Pérdida de entropía cruzada binaria para regresión logística para un solo ensayo

Paso — 5:

A continuación, estamos simplificando los términos en Etapa 4.

Figura — 5: Pérdida de entropía cruzada binaria para regresión logística para un solo ensayo

Paso — 6:

A continuación, estamos simplificando aún más los términos en Paso — 5.

Figura — 6: Pérdida de entropía cruzada binaria para regresión logística para un solo ensayo

Paso — 7:

La siguiente es la regla del cociente para logaritmos.

Figura — 7: La regla del cociente para logaritmos

Paso — 8:

A continuación, estamos usando la ecuación de Paso — 7 para simplificar aún más Paso — 6.

🔥 Recomendado:  Las 10 mejores plataformas del lado de la oferta para editores en 2023

Figura — 8: Pérdida de entropía cruzada binaria para regresión logística para un solo ensayo

Paso — 9:

En Paso — 8el valor de log(1) va a ser 0.

Figura — 9: El valor de log(1)=0

Paso — 10:

A continuación, estamos reescribiendo Paso — 8 con los términos restantes.

Figura — 10: Pérdida de entropía cruzada binaria para regresión logística para un solo ensayo

Paso — 11:

La siguiente es la regla de la potencia para los logaritmos.

Figura — 11: Regla de la potencia para logaritmos

Paso — 12:

A continuación, usaremos la regla de la potencia de los logaritmos para simplificar la ecuación en Paso — 10.

Figura — 12: Aplicación de la regla de la potencia

Paso — 13:

A continuación, estamos reemplazando los valores en Paso — 10 con los valores en Paso — 12.

Figura — 13: Uso de la regla de la potencia para logaritmos

Paso — 14:

A continuación, estamos sustituyendo el valor de Paso — 13 en Paso — 10.

Figura — 14: Pérdida de entropía cruzada binaria para regresión logística para un solo ensayo

Paso — 15:

A continuación, estamos multiplicando Paso — 14 por (-1) en ambos lados.

Figura — 15: Pérdida de entropía cruzada binaria para regresión logística para un solo ensayo

Encontrar la primera derivada:

Paso — 16:

A continuación, vamos a encontrar la primera derivada de f(x).

Figura — 16: Encontrar la primera derivada de f(w)

Paso — 17:

Aquí estamos distribuyendo el signo de diferenciación parcial a cada término.

Figura — 17: Encontrar la primera derivada de f(w)

Paso — 18:

Aquí estamos aplicando las reglas de la derivada.

Figura — 18: Encontrar la primera derivada de f(w)

Paso — 19:

Aquí estamos encontrando la derivada parcial del último término de Paso — 18.

Figura — 19: Encontrar la primera derivada de f(w)

Paso — 20:

Aquí estamos encontrando la derivada parcial del primer término de Paso — 18.

Figura — 20: Encontrar la primera derivada de f(w)

Paso — 21:

Aquí reunimos los resultados de Paso — 19 y Paso — 20.

Figura — 21: Encontrar la primera derivada de f(w)

Paso — 22:

A continuación, estamos reorganizando los términos de la ecuación en Paso — 21.

Figura — 22: Encontrar la primera derivada de f(w)

Paso — 23:

A continuación, estamos reescribiendo la ecuación en Paso — 22.

Figura — 23: Encontrar la primera derivada de f(w)

Encontrar la segunda derivada:

Paso — 24:

A continuación, vamos a encontrar la segunda derivada de la función f(x).

Figura — 24: Encontrar la segunda derivada de f(w)

Paso — 25:

Aquí estamos distribuyendo la derivada parcial a cada término.

Figura — 25: Encontrar la segunda derivada de f(w)

Paso — 26:

A continuación, estamos simplificando la ecuación en Paso — 25 para eliminar los términos redundantes.

Figura — 26: Encontrar la segunda derivada de f(w)

Paso — 27:

Esta es la regla de la derivada para 1/f(x).

Figura — 27: La regla de la derivada para 1/f(x)

Paso — 28:

A continuación, estamos encontrando el término relevante para enchufar Paso — 27.

Figura — 28: Valor de p(w) para la derivada de 1/p(w)

Paso — 29:

Aquí estamos encontrando el término de la derivada parcial para Paso — 27.

Figura — 29: Valor de p'(w) para la derivada de 1/p(w)

Paso — 30:

Aquí estamos encontrando el término al cuadrado para Paso — 27.

Figura — 30: Valor de p(w)² para la derivada de 1/p(w)

Paso — 31:

Aquí estamos reuniendo todos los términos de Paso — 27.

🔥 Recomendado:  7 de las mejores herramientas de automatización de contenido para 2023

Figura — 31: Cálculo del valor de la derivada de 1/p(w)

Paso — 32:

Aquí estamos simplificando la ecuación en Paso — 31.

Figura — 32: Cálculo del valor de la derivada de 1/p(w)

Paso — 33:

A continuación, estamos reuniendo todos los valores en Paso — 26.

Figura — 33: Encontrar la segunda derivada de f(w)

Paso — 34:

A continuación, estamos simplificando aún más los términos en Paso — 33.

Figura — 34: Encontrar la segunda derivada de f(w)

¡Está bien! Entonces, ahora tenemos la segunda derivada de la función f(x). A continuación, debemos averiguar si esto será >0 para todos los valores de x o no. Si es >0 para todos los valores de x, entonces podemos decir que la pérdida de entropía cruzada binaria es convexa para la regresión logística.

Como podemos ver, los siguientes términos de Paso — 34 siempre van a ser ≥0 porque el cuadrado de cualquier número siempre es ≥0.

Figura — 35: El cuadrado de cualquier término es siempre ≥0 para cualquier valor de x

Ahora, necesitamos determinar si el valor de e^(-wx) es >0 o no. Para hacer eso, primero encontremos el rango de la función e^(-wx) en el dominio [-∞,+∞]. Para simplificar aún más los cálculos, consideraremos la función e^-x en lugar de e^-wx. Tenga en cuenta que escalar una función no cambia el rango de la función si el dominio es [-∞,+∞]. Primero tracemos la gráfica de e^-x para comprender su rango.

Figura — 36: Gráfica de e^-x para el dominio de [-10, 10]

Del gráfico anterior podemos derivar la siguiente conclusión:

  1. A medida que el valor de x se mueve hacia el infinito negativo (-∞), el valor de e^-x se mueve hacia el infinito (+∞).

Figura — 37: El valor de e^-x cuando x tiende a -∞

2. A medida que el valor de x se mueve hacia 0, el valor de e^-x se mueve hacia 1.

Figura — 38: El valor de e^-x cuando x tiende a 0

3. A medida que el valor de x se mueve hacia el infinito positivo (+∞), el valor de e^-x se mueve hacia 0.

Figura — 40: El valor de e^-x cuando x tiende a +∞

Entonces, podemos decir que el rango de la función f(x)=e^-x es [0,+∞]. Según los cálculos, podemos decir que la función f(x)=e^-wx siempre será ≥0.

¡Está bien! Entonces, hemos concluido que todos los términos de la ecuación en Paso — 34 son≥0. Por tanto, podemos decir que la función f(x) es una función convexa para la regresión logística.

Nota IMPORTANTE:

Si el valor de la segunda derivada de la función es 0, entonces existe la posibilidad de que la función no sea ni cóncava ni convexa. Pero, ¡no nos preocupemos demasiado por eso!

Una mirada visual a BCE para la regresión logística:

La función de entropía cruzada binaria para la regresión logística viene dada por…

Figura — 41: Pérdida de entropía cruzada binaria

Ahora, sabemos que este es un problema de clasificación binaria. Entonces, solo puede haber dos valores posibles para Yi (0 o 1).

Paso 1:

El valor de la función de costo cuando Yi=0.

Figura — 42: Pérdida de entropía cruzada binaria cuando Y=0

Paso 2:

Figura — 43: Pérdida de entropía cruzada binaria cuando Y=1

Ahora, consideremos solo un ejemplo de entrenamiento.

Paso 3:

Ahora, digamos que solo tenemos un ejemplo de entrenamiento. Significa que n=1. Entonces, el valor de la función de costo cuando Y=0,

Figura — 44: Pérdida de entropía cruzada binaria para un solo ejemplo de entrenamiento cuando Y=0

🔥 Recomendado:  Margen de Webull frente a cuenta de efectivo: ¿cuál es mejor para mí?

Etapa 4:

Ahora, digamos que solo tenemos un ejemplo de entrenamiento. Significa que n=1. Entonces, el valor de la función de costo cuando Y=1,

Figura — 45: Pérdida de entropía cruzada binaria para un solo ejemplo de entrenamiento cuando Y=1

Paso — 5:

Ahora, tracemos el gráfico de la función en el Paso — 3.

Figura — 46: Gráfico de -log(1-X)

Paso — 6:

Ahora, tracemos el gráfico de la función en el Paso — 4.

Figura — 47: Gráfico de -log(X)

Paso — 7:

Pongamos los gráficos en el Paso — 5 y el Paso — 6 juntos.

Figura — 48: Gráfico de -log(1-X) y -log(X)

Los gráficos anteriores siguen la definición de la función convexa (“Una función de una sola variable se llama función convexa si ningún segmento de línea que une dos puntos en el gráfico se encuentra debajo del gráfico en cualquier punto”). Entonces, podemos decir que la función es convexa.

Conclusión:

En conclusión, hemos explorado el concepto de convexidad y su importancia en los algoritmos de optimización utilizados en la regresión logística. Hemos demostrado que la función log-loss es convexa, lo que implica que su problema de optimización tiene un único mínimo global. Esta propiedad es crucial para garantizar la estabilidad y la convergencia de los algoritmos de optimización utilizados en la regresión logística. Al probar la convexidad de la función de pérdida logarítmica, hemos demostrado que el problema de optimización en la regresión logística está bien planteado y se puede resolver de manera eficiente utilizando métodos de optimización convexos estándar. Además, nuestra prueba proporciona una comprensión más profunda de los fundamentos matemáticos de la regresión logística y sienta las bases para futuras investigaciones y desarrollos en este campo.

¡Compra un café Pratik!

Citación:

Para la atribución en contextos académicos, cite este trabajo como:

Shukla, et al., “Demostración de la convexidad de la pérdida de registro para la regresión logística”, Hacia la IA, 2023

Cita de BibTex:

@artículo{pratik_2023,
title={Demostración de la convexidad de la pérdida de registro para la regresión logística},
url={https://pub.towardsai.net/proving-the-convexity-of-log-loss-for-logistic-regression-49161798d0f3},
journal={Hacia la IA},
editor={Hacia AI Co.},
autor={Pratik, Shukla},
editor={Binal, David},
año={2023},
mes = {febrero}
}


Demostrar la convexidad de la pérdida de registro para la regresión logística se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Publicado a través de Hacia la IA