Estás leyendo la publicación: Todo sobre la regresión logística: hacia la IA
Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.
En este artículo entenderemos la regresión logística e intentaremos responder las siguientes preguntas:
- ¿Qué es la regresión logística?
- ¿Por qué no regresión lineal?
- ¿Por qué regresión logística?
- ¿Cuándo la regresión logística?
- ¿Cómo regresión logística?
¿Qué es la regresión logística?
La regresión logística es un algoritmo de aprendizaje automático supervisado que se utiliza en problemas de clasificación en los que tenemos que distinguir la variable dependiente entre dos o más categorías o clases mediante el uso de variables independientes.
Por ejemplo:
Considere la tabla anterior donde la variable dependiente es ‘Especies’ y la variable independiente es ‘ancho de pétalo’. Las especies muestran dos categorías que son ‘0’ denota flor de iris Setosa y ‘1’ denota flor de iris Versicolor.
La regresión logística dará la probabilidad de la categoría respectiva usando el ancho del pétalo de la flor.
¿Por qué no regresión lineal?
Hay principalmente dos razones:
- La regresión lineal trata con valores continuos o cuantitativos, mientras que en los problemas de clasificación tratamos con valores discretos o probabilísticos.
- Si de alguna manera ajustamos la línea de regresión lineal en el conjunto de datos de la siguiente manera:
Si tomamos el umbral de 0,5, en este caso, la línea lineal parece hacer un buen trabajo, pero si introducimos algunos valores atípicos en el conjunto de datos.
Puede ver cuánto fluctúa la pendiente de la línea desde su posición original. Por lo tanto, no podemos permitirnos un modelo de este tipo que da respuestas diferentes cuando se introduce con nuevos puntos de datos. Otro pequeño punto a tener en cuenta es que el rango del resultado no está en el rango que queremos, que es una probabilidad de predicción fuera del rango de 0 a 1.
Para saber más sobre la regresión lineal, haga clic en el siguiente enlace:
Todo sobre la regresión lineal
¿Por qué regresión logística?
- Como discutimos en la pregunta anterior, la regresión lineal fluctúa cuando se introducen nuevos puntos de datos. La regresión logística resuelve este problema mediante la introducción de una función adicional para doblar la línea recta de mejor ajuste en una curva que se muestra a continuación.
- La regresión logística es fácil de entender, implementar y muy eficiente de entrenar.
- La regresión logística funciona bien en conjuntos de datos pequeños y es muy rápida para clasificar registros desconocidos.
- El concepto central de la regresión logística se utiliza aún más en las redes neuronales artificiales.
¿Cuándo la regresión logística?
Cuando se cumplen los siguientes requisitos para la regresión logística:
- La variable dependiente debe ser datos categóricos, ya sea la clase binaria de datos o la clase ordinal de datos.
- La observación de las variables independientes no debe ser repetitiva o emparejada, ya que la regresión logística es sensible al sobreajuste.
- La multicolinealidad no debería estar presente entre las variables independientes.
- La regresión logística normalmente requería un tamaño de muestra grande.
NOTA: Los puntos anteriores también se denominan “supuestos para la regresión logística”.
¿Cómo regresión logística?
Hay dos enfoques para entender la regresión logística.
- Intuición probabilística
- Intuición geométrica
En este artículo, optaremos por la intuición probabilística, ya que la intuición geométrica se tratará nuevamente en SVM (Support Vector Machine).
Como discutimos anteriormente, la regresión logística está usando una función para aplastar o doblar la línea lineal, esa función puede ser cualquier función matemática como tan, Sigmoid, ReLu, etc.
función sigmoidal
La regresión logística utiliza principalmente la función sigmoidea porque:
- La función sigmoidea devuelve un resultado en el rango de 0 a 1, que es muy adecuado para la regresión logística, ya que estamos prediciendo la probabilidad del resultado.
- La derivada de la función sigmoidea es fácil de calcular en comparación con otras funciones que se utilizan durante el descenso de gradiente.
Veamos alguna relación entre la probabilidad de resultado y la ecuación lineal lineal para comprender mejor la relación entre la regresión lineal y la regresión logística:
Ahora, como la mayoría de los algoritmos de aprendizaje automático supervisados, la regresión logística también tiene tres pasos principales: hipótesis, función de costo y una técnica de optimización.
Hipótesis: En esto, asumimos algún tipo de relación matemática entre las variables dependientes e independientes. En la regresión logística, usamos la función sigmoidea para establecer la relación.
función de costo: esta función se utiliza para averiguar el error de nuestro valor predicho. En la regresión logística, usamos la función de pérdida logarítmica.
Técnica de optimización: En este paso, estamos tratando de reducir el error usando algunas técnicas matemáticas. En la regresión logística, usaremos Gradient Descent para hacer eso.
donde la derivada de la función de pérdida logarítmica es:
Ejemplo de codificación de regresión logística usando Python desde cero:
Paso 1: preparación del conjunto de datos
Paso 2: Crear una función que realice Descenso de gradiente y devuelva el valor de los pesos asociados con cada variable independiente.
Paso 4: crear una función que prediga el resultado utilizando los pesos.
Paso 5: llama a las funciones y predice los resultados.
¿Cómo sabemos la puntuación o la precisión de la predicción?
En los problemas de clasificación, utilizamos la matriz de confusión, la puntuación de precisión, la precisión, la recuperación o la puntuación F1 para medir la precisión del modelo.
Matriz de confusión:
dónde,
Verdadero positivo (VP): Un resultado que fue predicho como positivo por el modelo de clasificación y también es positivo
Negativo verdadero (TN): Un resultado que fue predicho como negativo por el modelo de clasificación y también es negativo
Falso positivo (FP): Un resultado que el modelo de clasificación predijo como positivo pero que en realidad es negativo
Falso Negativo (FN): Un resultado que el modelo de clasificación predijo como negativo pero que en realidad es positivo.
La credibilidad del modelo se basa en cuántas predicciones correctas hizo el modelo.
Puntuación de precisión: TEl número total de clasificaciones correctas dividido por el número total de clasificaciones.
Precisión: Es una medida de entre todas las predicciones positivas, cuántas de ellas fueron realmente positivas
Recordar: Es una medida de: del número total de resultados positivos, cuántos positivos predijo correctamente el modelo.
Puntuación F1: Se define como la media armónica de Precisión y Recall.
enlace del cuaderno utilizado en este artículo:
Dale me gusta y comparte si encuentras útil este artículo. Además, sígueme en medium para obtener más contenido relacionado con Machine Learning y Deep Learning.
Todo sobre la regresión logística se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.
Publicado a través de Hacia la IA