Estás leyendo la publicación: Pasos a realizar cuando su modelo de aprendizaje automático se sobreajusta en el entrenamiento
El sobreajuste es un problema básico en el aprendizaje automático supervisado, donde el modelo muestra buenas capacidades de generalización en los datos vistos, pero tiene un rendimiento deficiente en los datos no vistos. El sobreajuste ocurre como resultado de la existencia de ruido, el pequeño tamaño del conjunto de entrenamiento y la complejidad involucrada en los algoritmos. En este artículo, discutiremos diferentes estrategias para superar el sobreajuste de los aprendices automáticos durante la etapa de capacitación. Los siguientes son los temas a tratar.
Tabla de contenido
- El sobreajuste “medio”
- Identificación de sobreajuste
- Estrategias para mitigar
- Reducción de dimensionalidad
- Tratamiento de valores atípicos
- Validación cruzada
- Parada temprana
- Reducción de red
- Aumento de datos
- Selección de características
- regularización
- Ajuste de hiperparámetros
Comencemos con la descripción general del sobreajuste en el modelo de aprendizaje automático.
El sobreajuste “medio”
El modelo sobreajusta los datos cuando memoriza todos los detalles específicos de los datos de entrenamiento y no logra generalizar. Es un error estadístico causado por malos juicios estadísticos. Debido a que está demasiado ligado al conjunto de datos, agrega sesgo al modelo. El sobreajuste limita la relevancia del modelo para su conjunto de datos y lo vuelve irrelevante para otros conjuntos de datos.
Definición según estadísticas
En presencia de un espacio de hipótesis, se dice que una hipótesis sobreajusta los datos de entrenamiento si existe alguna hipótesis alternativa con un error menor que la hipótesis sobre los ejemplos de entrenamiento, pero la hipótesis alternativa tiene un error general menor que la distribución total de instancias. .
¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos, echa un vistazo aquí.
Identificación de sobreajuste
Es casi imposible detectar el sobreajuste antes de probar los datos. Durante el entrenamiento, hay dos errores: error de entrenamiento y error de validación cuando el entrenamiento disminuye constantemente pero el error de validación disminuye durante un período y luego comienza a aumentar, pero mientras tanto el error de entrenamiento sigue disminuyendo. Este tipo de escenario está sobreajustado.
Comprendamos las estrategias de mitigación para este problema estadístico.
Estrategias para mitigar
Hay diferentes etapas en un proyecto de aprendizaje automático en las que se pueden aplicar diferentes técnicas de mitigación para mitigar el sobreajuste.
Dimensionalidad de los datos
Los datos de alta dimensión conducen a un sobreajuste del modelo porque en estos datos el número de observaciones es mucho menor que el número de características. Esto dará como resultado respuestas indeterministas al problema.
Maneras de mitigar
- Utilice modelos de regularización que puedan reducir la dimensionalidad de los datos, como el análisis de componentes principales, la regresión de lazo y la regresión de cresta.
- Eliminar características con una gran cantidad de valores faltantes; si una columna específica en un conjunto de datos tiene una gran cantidad de valores faltantes, es posible que pueda eliminarla por completo sin perder mucha información.
- Eliminar características de baja variación; si una columna en particular en un conjunto de datos tiene valores que fluctúan muy raramente, es posible que pueda descartarla porque es poco probable que brinde tanta información relevante sobre una variable de respuesta como otras características.
- Descarte las características que tengan una mala correlación con la variable de respuesta; si una característica no está sustancialmente vinculada con la variable de respuesta de interés, es probable que se elimine del conjunto de datos, ya que es poco probable que sea útil en un modelo.
Tratamiento de valores atípicos
Durante el proceso de disputa de datos, uno puede enfrentar el problema de valores atípicos en los datos. Como estos valores atípicos aumentan la varianza en el conjunto de datos y debido a esto, el modelo se entrenará a sí mismo para estos valores atípicos y dará como resultado una salida que tiene una varianza alta y un sesgo bajo. Por lo tanto, se altera el compromiso sesgo-varianza.
Maneras de mitigar
O bien requieren una atención especial o deben ignorarse por completo, según las circunstancias. Si el conjunto de datos contiene una cantidad significativa de valores atípicos, es fundamental utilizar un enfoque de modelado que sea resistente a los valores atípicos o para filtrar los valores atípicos.
Validación cruzada
La validación cruzada es una técnica de remuestreo utilizada para evaluar modelos de aprendizaje automático en una pequeña muestra de datos. La validación cruzada se usa principalmente en el aprendizaje automático aplicado para estimar la habilidad de un modelo de aprendizaje automático en datos no vistos. Es decir, usar una pequeña muestra para evaluar cómo funcionará el modelo en general cuando se use para generar predicciones sobre datos que no se utilizaron durante el entrenamiento del modelo.
Procedimiento de evaluación usando validación cruzada de K-fold
- Divida el conjunto de datos en K divisiones iguales (también conocidas como “pliegues”).
- Como conjunto de prueba, use el pliegue 1 y la unión de los otros pliegues como conjunto de entrenamiento.
- Determinar la precisión de la prueba.
- Los pasos 2 y 3 deben repetirse K veces con un pliegue diferente como conjunto de prueba cada vez.
- Como una aproximación de la precisión fuera de la muestra, utilice la precisión de prueba promedio.
Lo anterior es el proceso de K pliegue cuando k es 5 esto se conoce como 5 pliegues.
detención anticipada
Este método se utiliza para evitar el problema de “desaceleración de la velocidad de aprendizaje”. Debido al aprendizaje de ruido, la precisión de los algoritmos deja de mejorar más allá de cierto punto o incluso empeora.
La línea verde representa el error de entrenamiento y la línea roja representa el error de validación, como se ilustra en la imagen, donde el eje horizontal es una época y el eje vertical es un error. Si el modelo continúa aprendiendo después del punto, el error de validación aumentará mientras que el error de entrenamiento disminuirá. Entonces, el objetivo es determinar el momento preciso en el que interrumpir el entrenamiento. Como resultado, logramos un ajuste ideal entre ajuste insuficiente y sobreajuste.
Manera de lograr el ajuste ideal
Para calcular la precisión después de cada época y detener el entrenamiento cuando la precisión de los datos de prueba deje de mejorar, y luego usar el conjunto de validación para calcular un conjunto perfecto de valores para los hiperparámetros, y luego usar el conjunto de prueba para completar la precisión final evaluación. En comparación con el uso directo de datos de prueba para determinar valores de hiperparámetros, este método garantiza un mejor nivel de generalidad. Este método asegura que, en cada etapa de un algoritmo iterativo, el sesgo se reduce mientras que la varianza aumenta.
red-reducción
La reducción de ruido, naturalmente, se convierte en un camino de estudio para la inhibición del sobreajuste. Se recomienda la poda para reducir el tamaño de los clasificadores finales en el aprendizaje relacional, particularmente en el aprendizaje de árboles de decisión, según este concepto. La poda es un principio importante que se utiliza para minimizar la complejidad de la clasificación mediante la eliminación de datos menos útiles o irrelevantes, y luego para evitar el sobreajuste y aumentar la precisión de la clasificación. Hay dos tipos de poda.
- Durante la fase de aprendizaje, pre-poda se utilizan algoritmos. Los criterios de detención se usan comúnmente para determinar cuándo dejar de agregar condiciones a una regla o agregar la regla a una descripción de modelo, como la restricción de longitud de codificación basada en la evaluación de costos de codificación; la prueba de significación se basa en diferencias significativas entre la distribución de ejemplos positivos y negativos; y criterio de parada de corte basado en un umbral predefinido.
- Después de la poda, el conjunto de formación se divide en dos subconjuntos: el conjunto en crecimiento y el conjunto de poda. Post-poda Los algoritmos, en contraste con los algoritmos de preaprendizaje, pasan por alto las preocupaciones de sobreajuste durante el proceso de aprendizaje en una colección en desarrollo. En cambio, evitan el sobreajuste eliminando criterios y reglas del modelo formado durante el aprendizaje. Este método es mucho más preciso, pero también es menos eficiente.
Aumento de datos
En muchas circunstancias, la cantidad y la calidad de los conjuntos de datos de entrenamiento pueden tener un impacto considerable en el rendimiento del aprendizaje automático, particularmente en el dominio del aprendizaje supervisado. El modelo requiere suficientes datos para aprender a modificar parámetros. El recuento de muestras es proporcional al número de parámetros.
En otras palabras, un conjunto de datos extendido puede mejorar significativamente la precisión de la predicción, particularmente en modelos complejos. Los datos existentes se pueden cambiar para producir nuevos datos. En resumen, hay cuatro técnicas básicas para aumentar el conjunto de entrenamiento.
- Se deben recopilar más datos de capacitación.
- Al conjunto de datos actual, agregue algo de ruido aleatorio.
- A través de algún procesamiento, vuelva a adquirir algunos datos de un conjunto de datos existente.
- Cree nuevos datos dependiendo de la distribución del conjunto de datos existente.
Selección de características
Al crear un modelo predictivo, la selección de características es el proceso de minimizar el número de variables de entrada. Es preferible limitar el número de variables de entrada para reducir el costo computacional del modelado y, en algunas situaciones, para aumentar el rendimiento del modelo.
Las siguientes son algunas estrategias destacadas de selección de características en el aprendizaje automático:
- Ganancia de información se define como la cantidad de información suministrada por la función para reconocer el valor objetivo y evaluar la reducción de entropía. La ganancia de información de cada característica se calcula teniendo en cuenta los valores objetivo para la selección de características.
- El prueba de chi-cuadrado se utiliza comúnmente para examinar la asociación entre variables categóricas. Compara los valores observados de las diversas propiedades del conjunto de datos con el valor predicho.
- Selección de reenvío es una estrategia iterativa en la que comenzamos con una colección vacía de funciones y continuamos agregando una función que mejore nuestro modelo después de cada iteración. La condición de interrupción es que la adición de una nueva variable no aumenta el rendimiento del modelo.
- El eliminación hacia atrás El método es igualmente una estrategia iterativa en la que comenzamos con todas las características y eliminamos la característica menos significativa después de cada ciclo. La condición de detención es que no se nota ningún aumento en el rendimiento del modelo cuando se elimina la función.
regularización
La regularización es una estrategia para evitar que nuestra red aprenda un modelo demasiado complicado y, por lo tanto, se sobreajuste. El modelo se vuelve más sofisticado a medida que aumenta el número de funciones.
Un modelo de sobreajuste tiene en cuenta todas las características, incluso si algunas de ellas tienen una influencia insignificante en el resultado final. Peor aún, algunos de ellos son simplemente ruido que no tiene nada que ver con la salida. Existen dos tipos de estrategias para restringir estos casos:
- Del modelo, elija solo los rasgos útiles y descarte los superfluos.
- Reducir los pesos de las características que tienen un impacto mínimo en la clasificación final.
En otras palabras, el impacto de tales características ineficaces debe ser restringido. Sin embargo, existe incertidumbre en las características innecesarias, así que minimícelas por completo reduciendo la función de costo del modelo. Para hacer esto, incluya una “palabra de penalización” llamada regularizador en la función de costo. Existen tres técnicas populares de regularización.
- Regularización L1 utiliza la regresión de Lasso para minimizar la función de costo. La llamada distancia taxi-taxi es el total de los valores absolutos de todos los pesos como término de penalización en esta técnica. Para minimizar la función de costo, los pesos de algunas características deben ajustarse a cero. Esto da como resultado un modelo simplificado que es más fácil de comprender. Al mismo tiempo, se perdieron ciertas características beneficiosas que tenían poco impacto en el resultado final.
- La idea de “regresión de cresta” se utiliza en Regularización L2. El término de penalización en esta técnica es la distancia euclidiana. En comparación con la regularización de L1, este método hace que las redes favorezcan las funciones de aprendizaje con poco peso.
En lugar de descartar esas cualidades menos valiosas, les asigna pesos más bajos. Como resultado, puede recopilar la mayor cantidad de información posible. Solo se pueden asignar pesos grandes a los atributos que mejoran significativamente la función de costo de referencia.
- Abandonar es una estrategia común y efectiva contra el sobreajuste en redes neuronales. El concepto principal de Dropout es eliminar aleatoriamente unidades y conexiones importantes de las redes neuronales durante el entrenamiento. Esto impide que las unidades se coadapten en exceso.
Ajuste de hiperparámetros
Los hiperparámetros son puntos de selección o configuración que permiten adaptar un modelo de aprendizaje automático a una determinada tarea o conjunto de datos. Optimizarlos se conoce como ajuste de hiperparámetros. Estas características no se pueden aprender directamente del procedimiento de entrenamiento estándar.
Generalmente se resuelven antes del inicio del procedimiento de entrenamiento. Estos parámetros indican aspectos cruciales del modelo, como la complejidad del modelo o la rapidez con la que debe aprender. Los modelos pueden contener una gran cantidad de hiperparámetros, y la determinación de la combinación óptima de parámetros puede considerarse como un problema de búsqueda.
GridSearchCV y RandomizedSearchCV son los dos algoritmos de ajuste de hiperparámetros más efectivos.
GridSearchCV
En la técnica GridSearchCV, un espacio de búsqueda se define como una cuadrícula de valores de hiperparámetros y se evalúa cada punto de la cuadrícula.
GridSearchCV tiene la desventaja de pasar por todas las combinaciones intermedias de hiperparámetros, lo que hace que la búsqueda en cuadrícula sea altamente costosa desde el punto de vista computacional.
CV de búsqueda aleatoria
La técnica Random Search CV define un espacio de búsqueda como un dominio acotado de valores de hiperparámetros que se muestrean aleatoriamente. Este método elimina el cálculo innecesario.
Fuente de imagen
opinión final
El sobreajuste es un problema general en el aprendizaje automático supervisado que no se puede evitar por completo. Ocurre como resultado de las limitaciones de los datos de entrenamiento, que pueden tener un tamaño restringido o comprender una gran cantidad de datos o ruidos, o las restricciones de los algoritmos que son demasiado sofisticados y necesitan una cantidad excesiva de parámetros. Con este artículo, pudimos comprender el concepto de sobreajuste en el aprendizaje automático y las formas en que podría mitigarse en las diferentes etapas del proyecto de aprendizaje automático.