¿Cómo construir un modelo de regresión logística robusto con regularización L2?

Estás leyendo la publicación: ¿Cómo construir un modelo de regresión logística robusto con regularización L2?

Al ajustar los datos a una curva logística, la regresión logística evalúa la conexión entre muchos factores independientes y una variable dependiente categórica y determina la probabilidad de que ocurra un evento. La función de pérdida de la regresión logística es una pérdida logística que clasifica según la estimación de máxima verosimilitud. Esta estimación de probabilidad tiende a estar sesgada hacia el valor más alto por lo que se requiere regularización. Este artículo se centrará en comprender el papel de la regularización L2 en la regresión logística. Los siguientes son los temas a tratar.

Tabla de contenido

  1. Resumen sobre la función de pérdida de la regresión logística
  2. Acerca de la regularización L2
  3. Papel de la regularización de L2 en la regresión logística
  4. Implementación de la regularización L2

La sanción por no cumplir con la producción planificada se denomina ‘pérdida’. Empecemos por comprender la función de pérdida de la regresión logística.

Resumen sobre la función de pérdida de la regresión logística

Una función de pérdida es una función matemática que traduce una declaración teórica en una proposición práctica. El desarrollo de un predictor de alta precisión implica la iteración continua del problema a través de preguntas, el modelado del problema utilizando el enfoque elegido y las pruebas.

Un clasificador de regresión logística predice probabilidades en función de los pesos del conjunto de datos de entrenamiento, y el modelo actualizará sus pesos para minimizar la diferencia entre sus probabilidades predichas y la distribución de probabilidades en los datos de entrenamiento. Este cálculo se utiliza para una predicción binaria conocida como entropía cruzada binaria o pérdida de registro.

Aunque esto es erróneo, el término “entropía cruzada” se usa ocasionalmente para referirse a la probabilidad logarítmica negativa de una distribución de Bernoulli o softmax. Cuando se caracteriza por una verosimilitud logarítmica negativa, una pérdida puede definirse como una entropía cruzada entre una distribución empírica producida a partir del conjunto de entrenamiento y una distribución de probabilidad derivada del modelo. Por ejemplo, el error cuadrático medio es la entropía cruzada entre una distribución empírica y un modelo gaussiano.

🔥 Recomendado:  Una guía práctica para la transferencia de estilo de vecino neuronal

¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos, echa un vistazo aquí.

Acerca de la regularización L2

Cuando se entrena un modelo de aprendizaje automático, es fácil que el modelo se sobreajuste o no se ajuste. Para eludir esto, la regularización se utiliza en el aprendizaje automático para ajustar un modelo a nuestro conjunto de prueba de manera efectiva. Las técnicas de regularización ayudan a reducir la probabilidad de sobreajuste y obtener un modelo ideal.

La regularización de crestas o normalización L2 es un método de penalización que hace que todos los coeficientes de peso sean pequeños pero no cero. Se hace tomando cuadrados de los pesos. Esto significa que se minimiza la función matemática correspondiente a nuestro modelo de aprendizaje automático y se calculan los coeficientes. Las magnitudes de los coeficientes se elevan al cuadrado y se suman. Ridge Regression logra la regularización al reducir el número de coeficientes. Aquí está la función de costo.

Revista de análisis de la India

Dónde,

Pérdida = suma de residuos al cuadrado

λ = penalización por el error

W = pendiente de la curva

Lambda representa el término de penalización en la función de costo. Regulamos el plazo de sanción ajustando los valores de la función de sanción. Cuanto mayor sea la penalización, menor será el tamaño de los coeficientes. Reduce los parámetros. Como resultado, se utiliza para evitar la multicolinealidad y minimizar la complejidad del modelo mediante la reducción de coeficientes.

Necesidad de regularización en Regresión Logística

La regularización es crítica en el modelado de regresión logística. Sin regularización, la naturaleza asintótica de la regresión logística continuaría impulsando la pérdida hacia 0 en grandes dimensiones. Como resultado, para reducir la complejidad del modelo, la mayoría de los modelos de regresión logística incluyen la regularización de L2 o la interrupción temprana (reduciendo el número de pasos de entrenamiento o la tasa de aprendizaje).

Considere asignar una identificación única a cada ejemplo y asignar cada identificación a su propia función. Si no se especifica ninguna función de regularización, el modelo se sobreajustará por completo. Porque el modelo intentaría y fallaría en llevar la pérdida a cero en todas las muestras, empujando los pesos para cada característica del indicador a +∞ o -∞. Esto puede ocurrir con datos de alta dimensión con cruces de características cuando hay una gran cantidad de cruces inusuales que ocurren solo en una sola ocurrencia.

🔥 Recomendado:  Cómo configurar el seguimiento de conversiones de Facebook en WordPress

Papel de la regularización de L2 en la regresión logística

Existe una alta probabilidad de que la regresión logística se sobreajuste cuando se trata de datos polinómicos. Cuando hay más de una variable independiente se le conoce como polinomio. Aquí hay un ejemplo de esta declaración.

Revista de análisis de la India

Como en el ejemplo anterior, el límite de decisión es demasiado complejo, lo que indica que el modelo está sesgado hacia los puntos de datos ‘x’. En el lado derecho de la imagen, se menciona una función sigmoidea polinomial para la regresión logística. Por lo tanto, para regularizar el algoritmo y hacer que la decisión no tenga límites, es necesario usar una penalización que restrinja el sesgo del modelo. La penalización que se utilizará para la regresión logística es la regularización de Ridge. La ecuación matemática para cuando se usa la penalización de cresta sería esta:

Revista de análisis de la India

Esta fórmula se integraría con el gradiente descendente para una optimización más avanzada de la regresión de Logística Regularizada.

Implementación de la regularización L2

Este artículo utiliza la regresión logística de Sklearn y el conjunto de datos utilizado está relacionado con la ciencia médica. La tarea es predecir la CDH en función de los datos históricos del paciente utilizando una penalización L2 en la regresión logística.

Importemos las bibliotecas necesarias

importar numpy como np importar pandas como pd importar matplotlib.pyplot como plt

Lectura de datos y preparación para el entrenamiento dividiendo los datos en proporciones estándar de 30:70 para pruebas y entrenamiento respectivamente.

data=pd.read_csv(‘/content/drive/MyDrive/Datasets/heart.csv’) X=data.drop([‘output’],eje=1) y=datos[‘output’]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

🔥 Recomendado:  Cómo anunciarse en Facebook: estrategias que usan los profesionales para generar ventas

Construya la regresión logística regularizada

regularized_lr=Regresión Logística(penalización=’l2′,solver=”newton-cg”,max_iter=200) regularized_lr.fit(X_tren,y_tren) reg_pred=regularized_lr.predict(X_test)

Para usar la regularización L2 en el modelo de regresión logística de Sklearn, defina el hiperparámetro de penalización. Para estos datos, es necesario utilizar el solucionador ‘newton-cg’ porque los datos son menores y cualquier otro método no convergería y una iteración máxima de 200 es suficiente.

print(‘Puntuación de precisión’,np.round(puntuación_de precisión(y_test,reg_pred),2)) print(‘Puntuación de recuperación’,np.round(recall_score(y_test,reg_pred),2)) cm_reg = confusion_matrix(y_test, reg_pred, etiquetas=regularized_lr.classes_) disp_reg = ConfusionMatrixDisplay(confusion_matrix=cm_reg,display_labels=regularized_lr.classes_) disp_reg.plot() plt.show()

Revista de análisis de la India
Revista de análisis de la India

Obtenemos una puntuación de precisión de 0,82 que es buena en otras situaciones pero no en el caso médico y similar para recordar, una puntuación de 0,84 es buena pero no en este caso. Los datos del tren no se han discutido, y es necesario estandarizar los datos porque todas las medidas de los parámetros tienen diferentes unidades, también podría hacer alguna selección de características, ingeniería, etc. Entonces, para mejorar el nivel del modelo, el enfoque principal está en el Reducción de FALSO NEGATIVO que actualmente está en 8 porque hay una alta probabilidad de que debido a esto un paciente pueda morir. Bueno, eso se lo dejo a ustedes amigos.

Conclusiones

La regularización es crítica en el modelado de regresión logística. Sin regularización, la naturaleza asintótica de la regresión logística continuaría impulsando la pérdida hacia 0 en grandes dimensiones. Con este artículo, hemos entendido la implementación y el concepto de regularización L2 en Regresión Logística.

Referencias