Qué técnica de escalado de funciones usar: estandarización frente a… – Hacia la IA

Estás leyendo la publicación: Qué técnica de escalado de funciones usar: estandarización frente a… – Hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

¿Es obligatorio el escalado de características? ¿Cuándo usar la estandarización? ¿Cuándo usar la normalización? ¿Qué pasará con la distribución de los datos? ¿Cuál es el efecto sobre los valores atípicos? ¿Aumentará la precisión del modelo?

Cuando comenzamos el viaje de la ciencia de datos, recibimos algunas preguntas sobre el escalado de características que son realmente confusas.

Consideremos un conjunto de datos en el que Edad y Salario Estimado son los y tenemos que predecir si el producto es comprado() o no comprado.

Eche un vistazo a las primeras 5 filas de nuestros datos.

¿Qué es Standard Scaler?

escalador estándar o Z-Score Normalization es una de las técnicas de escalado de características, aquí la transformación de las características se realiza restando de la media y dividiendo por la desviación estándar. Esto a menudo se denomina normalización de puntuación Z. Los datos resultantes tendrán la media como 0 y la desviación estándar como 1.

Entonces, ahora que hemos visto la fórmula de escalado estándar, ahora veremos cómo se puede aplicar a nuestro conjunto de datos.

Primero, dividiremos nuestros datos en conjuntos de entrenamiento y prueba y aplicaremos un escalador estándar.

Descripción del conjunto de datos:

🔥 Recomendado:  Cómo comprar monedas Shiba Inu (SHIB)

Tenga en cuenta que el método descrito aplicado a los datos X_train_scaled muestra que la media es 0 y la desviación estándar es 1 después de aplicar el escalador estándar.

Efecto en la distribución de datos:

De los diagramas de dispersión anteriores y los diagramas de KDE podemos notar que la distribución de los datos sigue siendo la misma incluso después de aplicar el escalador estándar, solo cambia la escala.

¿Cómo funcionan los diferentes modelos de aprendizaje automático antes y después del escalado?

En los ejemplos anteriores, la precisión de la regresión logística y KNN aumentó significativamente después del escalado. Pero no hubo efecto sobre la precisión cuando se utilizó el árbol de decisión o el bosque aleatorio.

Efecto sobre valores atípicos

Los gráficos anteriores muestran que los valores atípicos en nuestros datos seguirán siendo los valores atípicos incluso después de aplicar la escala estándar. Entonces, como científicos de datos, es nuestra responsabilidad manejar los valores atípicos.

¿Qué es MinMaxScaler?

MinMaxScaling (técnica de normalización de uso común) es una de las técnicas de escalado de características, transforma características restando del valor mínimo de los datos y dividiendo por (máximo menos mínimo).

Ahora que hemos visto la fórmula min maxscaling, ahora veremos cómo se puede aplicar a nuestro conjunto de datos.

Descripción del conjunto de datos:

Tenga en cuenta que el mínimo el valor de las características de entrada Edad y Salario estimado se ha convertido 0 y máximo el valor se ha convertido 1 después de aplicar el escalado MinMax.

Efecto en la distribución de los datos:

De los diagramas de dispersión anteriores y los diagramas de KDE podemos notar que la distribución de los datos sigue siendo la misma incluso después de aplicar el escalador minmax, solo cambia la escala.

🔥 Recomendado:  Una línea que valida los tipos de entrada para sus funciones en tiempo de ejecución: hacia la IA

Efecto de MinMaxScaler en diferentes algoritmos de Machine Learning:

En los ejemplos anteriores, la precisión de la regresión logística y KNN aumentó significativamente después del escalado. Pero no hubo efecto sobre la precisión cuando se utilizó el árbol de decisión o el bosque aleatorio.

Efecto sobre los valores atípicos:

Como se muestra arriba, no habrá ningún efecto sobre los valores atípicos incluso después de aplicar la escala minmax.

Observaciones:

  • Los datos resultantes después de la estandarización tendrá el media 0 y un desviación estándar de 1mientras que los datos resultantes después escalado mínimo-máximo tendrá valor mínimo as0 y valor máximo como 1 (Aquí la media y la desviación estándar pueden ser cualquier cosa).
  • Los diagramas de dispersión y los diagramas de distribución anteriores muestran que habrá ningún cambio en la distribución de datos antes y después de aplicar el escalador estándar o el escalador minmax, solo cambia la escala.
  • El paso de escalado de características debe realizarse mientras se aplican algoritmos donde la distancia se calcula (Ej: KNN, KMEANS), e implica descenso de gradiente (Ej: regresiones lineales y logísticas, redes neuronales).
  • No habrá ningún efecto de escalado cuando usemos algoritmos basados ​​en árboles como árboles de decisión o bosques aleatorios.
  • En los ejemplos anteriores, la precisión de Regresión logística y KNN aumentado significativamente después de escalar. Pero habia sin efecto en la precisión cuando el árbol de decisión o bosque aleatorio se utilizó.
  • Los valores atípicos en el conjunto de datos seguirán siendo un valor atípico incluso después de aplicar los métodos de escalado de características, como científicos de datos, es nuestra responsabilidad manejar los valores atípicos.
  • No existe una regla estricta para saber qué técnica usar, pero debemos verificar tanto la estandarización como la normalización y decidir según el resultado cuál usar.
🔥 Recomendado:  Encuentre las palabras clave más rentables para su mercado

Si tiene alguna confusión sobre la matriz de confusión, la precisión y la memoria, lea el blog a continuación.

Matriz de confusión

Si desea saber cómo analizar los datos de IPL, lea el siguiente blog.

Virat Kohli contra KL Rahul

Visite los siguientes enlaces de GitHub para obtener el código completo.

Conéctate conmigo en LinkedIn

Obtenga el libro de ciencia de datos haga clic aquí

Sugerencias de envío de Mlearning.ai


Qué técnica de escalado de características usar: estandarización frente a normalización se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Publicado a través de Hacia la IA