Estás leyendo la publicación: ¿Qué factores considerar al elegir un modelo de aprendizaje supervisado?
Elegir el modelo adecuado para los problemas de aprendizaje automático es muy importante. La selección correcta conduce a un mejor rendimiento y resultados precisos y, por lo tanto, confía en las predicciones. O bien podemos ir con éxito y prueba y emplear todos los modelos posibles, pero ese será un enfoque que consumirá mucho tiempo y será computacionalmente costoso. Así que mejor deberíamos tomar una decisión sobre cuál de los modelos será adecuado para un problema dado. Hay algunos criterios y condiciones que se pueden considerar en base a los cuales podemos seleccionar los modelos. En este artículo, vamos a discutir los factores a considerar al elegir un modelo de aprendizaje supervisado. Los puntos principales que se discutirán en el artículo se enumeran a continuación.
Tabla de contenido
- El aprendizaje supervisado
- Factores a considerar con los modelos de aprendizaje supervisado
- Compensación de sesgo-varianza
- Complejidad de funciones
- La dimensionalidad del espacio de entrada.
- El ruido del objetivo
- Datos heterogéneos
- Datos rebeldes
- interacciones y no linealidades en características
Comencemos con la comprensión del modelo de aprendizaje supervisado.
Sobre el modelo de aprendizaje supervisado
En el aprendizaje automático, el aprendizaje supervisado es un tipo de aprendizaje en el que los datos que usamos están supervisados o etiquetados. Los modelos de aprendizaje supervisado son los modelos que funcionan en base a dar salida usando entrada en forma de datos. En esencia, podemos decir que los modelos que son capaces de mapear una entrada a una salida en función del conocimiento que han adquirido utilizando algunos ejemplos se pueden llamar modelos de aprendizaje supervisado. El resultado que proporciona un modelo de aprendizaje supervisado también se puede considerar como la inferencia de una función que se genera utilizando datos de entrenamiento etiquetados.
¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos, echa un vistazo aquí.
En los datos de entrenamiento etiquetados, cada muestra debe constar de un punto de datos de entrada y un punto de datos de salida. Hay varios modelos de aprendizaje supervisado y estos modelos tienen sus diferentes algoritmos y naturaleza del trabajo. La selección de cualquier modelo se puede hacer en función de los datos y el rendimiento requerido.
Los algoritmos dentro de estos modelos pueden denominarse algoritmos de aprendizaje supervisado y deben ser capaces de funcionar en un entorno de aprendizaje supervisado. Estos algoritmos están diseñados para analizar los datos de entrenamiento y, según el análisis, producen una función que es capaz de mapear los ejemplos no vistos.
Si un algoritmo puede determinar correctamente las clases de ejemplos no vistos, podemos llamarlo un algoritmo óptimo. La generación de predicción por parte de los algoritmos de aprendizaje supervisado se realiza generalizando los datos de entrenamiento a escenarios no vistos de manera razonable.
Hay varios tipos de algoritmos de aprendizaje supervisado y se pueden utilizar en varios tipos de programas de aprendizaje supervisado. En general, trabajamos principalmente con dos tipos de problemas:
- Análisis de regresión
- Análisis de clasificación
Algunos de los modelos para el análisis de regresión son los siguientes:
- regresión lineal
- Regresión multilineal
- Modelado de series de tiempo
- Redes neuronales
Algunos de los modelos para el análisis de clasificación son los siguientes:
- Bosque aleatorio
- Árboles de decisión
- sesgo ingenuo
- Redes neuronales
- Regresión logística
Sin embargo, en el escenario reciente, podemos ser testigos del uso de modelos de clasificación en el análisis de regresión o viceversa, pero esto también necesita realizar algunos de los cambios en el algoritmo de estos modelos.
Todos estos algoritmos son mejores en su lugar si se usan correctamente y en este artículo, nuestro enfoque principal es cómo podemos seleccionar modelos para nuestros proyectos o podemos decir que vamos a discutir los puntos que hacen que un modelo sea seleccionado para nuestro trabajo. . Pasemos a la siguiente sección.
Selección de modelos de aprendizaje supervisado
En el apartado anterior, podemos ver el ejemplo de los modelos de aprendizaje supervisado. Los nombres dados anteriormente son muy pocos, lo que significa que se pueden utilizar varias opciones para realizar el aprendizaje supervisado. Dado que ningún modelo funciona mejor para todos los problemas, una cosa que viene a la mente es cómo podemos elegir un modelo óptimo para nuestros problemas. Se deben considerar varios criterios y condiciones al elegir un modelo. Algunos de ellos son los siguientes:
Este es nuestro primer concepto que habla principalmente de la flexibilidad del modelo. Mientras ajustamos los datos, un modelo intenta aprender datos mapeando los puntos de datos. Geométricamente podemos decir que el modelo se ajusta a un área o línea que cubre todos los puntos de datos como se muestra en la siguiente imagen
En la imagen de arriba, la línea roja representa el modelo y los puntos azules son los puntos de datos. Este es un modelo de regresión lineal simple y las cosas se vuelven críticas cuando un modelo se sesga hacia un valor de entrada en lugar de estar sesgado hacia cada punto de datos o clase. En esta situación, la salida proporcionada por el modelo será inexacta.
De manera similar, si el modelo se vuelve de alta varianza para un valor de entrada, lo que significa que dará una salida diferente para una sola entrada mientras se aplica varias veces. Esta es también una forma inexacta de modelado. La situación de sesgo ocurre cuando el modelo no es flexible y la situación de varianza ocurre cuando el modelo es muy flexible.
El modelo elegido debe estar entre altamente flexible y no flexible. El error en la predicción de los clasificadores está relacionado con la suma de sesgo y varianza del modelo. El modelo que estamos ajustando a los datos debería poder ajustar la compensación entre el sesgo y la varianza.
Las técnicas como la reducción de la dimensionalidad y la selección de características pueden ayudar a disminuir la varianza del modelo y algunos de los modelos llevan consigo parámetros que se pueden ajustar para mantener el equilibrio entre el sesgo y la varianza.
La cantidad de datos de entrenamiento está estrechamente relacionada con el rendimiento de cualquier modelo. Dado que un modelo lleva funciones debajo de ellos y si estas funciones son simples, un modelo con poca flexibilidad puede aprender mejor de la pequeña cantidad de datos.
Pero las funciones del modelo son complejas, por lo que necesitan una gran cantidad de datos para un alto rendimiento y precisión. En una condición en la que las funciones son muy complejas, los modelos deben ser flexibles con un sesgo bajo y una varianza alta.
Los modelos como el bosque aleatorio y las máquinas de vectores de soporte son modelos altamente complejos y se pueden seleccionar con datos dimensionales altos, y los modelos con funciones complejas bajas son regresión lineal y logística y se pueden usar con cantidades bajas de datos.
Dado que el cálculo inferior siempre es una forma apreciada de modelado, no debemos aplicar modelos con funciones complejas en un escenario donde la cantidad de datos es baja.
- La dimensionalidad del espacio de entrada.
En lo anterior, hemos discutido la función del modelo. El rendimiento del modelo también depende de la dimensionalidad de los datos de entrada. Si las características de los datos son muy escasas, el aprendizaje del modelo puede tener un rendimiento bajo incluso cuando las funciones del modelo se basan en un número menor de características de entrada.
Es muy sencillo comprender que la alta dimensión del input puede confundir al modelo de aprendizaje supervisado. Entonces, en un escenario donde las dimensiones de las características de entrada son altas, debemos seleccionar aquellos modelos que sean flexibles para su ajuste, de modo que en el procedimiento haya una varianza baja y un sesgo alto.
Sin embargo, técnicas como la ingeniería de características también son útiles aquí porque estos métodos tienen la capacidad de identificar las características relevantes de los datos de entrada. Además, el conocimiento del dominio puede ayudar a extraer datos relevantes de los datos de entrada antes de aplicarlos al modelo.
- El ruido del objetivo
En lo anterior, hemos visto cómo la dimensionalidad de la entrada afecta el rendimiento de los modelos. A veces, el rendimiento del modelo también puede verse afectado por el ruido de la variable de salida de la variable de destino.
Es muy simple de entender si hay inexactitud en la variable de salida, entonces el modelo que estamos aplicando intentará encontrar una función que se pueda aplicar para proporcionar el resultado requerido y nuevamente el modelo se confundirá. Siempre estamos obligados a ajustar los modelos de tal manera que el modelo no intente encontrar una función que coincida exactamente con los ejemplos de entrenamiento.
Tener mucho cuidado al aplicar el modelo a los datos siempre conduce al sobreajuste del modelo. Además, habrá un problema de sobreajuste cuando la función que el modelo encuentre para aplicar a los datos sea muy compleja.
En estas situaciones, estamos obligados a tener los datos que tienen la variable de destino que se puede modelar fácilmente. Si no es posible, estamos obligados a ajustar el modelo que tiene mayor sesgo y menor varianza.
Sin embargo, existen técnicas como la detención anticipada que pueden evitar el sobreajuste y técnicas que pueden detectar y eliminar el ruido de la variable objetivo. Uno de nuestros artículos posee información que se puede utilizar para evitar el sobreajuste.
En las secciones anteriores, hemos discutido la dimensionalidad y el ruido de la entrada y la variable de destino. En algunos escenarios, podemos encontrar que tenemos datos que tienen características de diferentes tipos, como valores discretos, discretos ordenados, conteos y continuos.
Con tales datos, estamos obligados a aplicar modelos que puedan emplear una función de distancia debajo de ellos. Las máquinas de vectores de soporte con núcleos gaussianos y k vecinos más cercanos son los algoritmos que son ejemplos de dichos modelos y se pueden aplicar a datos heterogéneos sin generalizar los datos.
En una variedad de condiciones, podemos ver que los datos que vamos a modelar tienen características que están altamente correlacionadas entre sí, y los modelos simples de aprendizaje supervisado funcionan muy mal con ellos. En tales condiciones, estamos obligados a utilizar modelos que puedan realizar la regularización. La regularización de L1, la regularización de L2 y la regularización de deserción son los modelos que se pueden utilizar en tal situación.
- Interacciones y no linealidades en características
En una variedad de datos, encontramos que cada variable de entrada impacta la posición de la salida individualmente. En tales situaciones, los modelos con función lineal y funciones de distancia pueden funcionar mejor. Modelos como la regresión lineal, la regresión logística, las máquinas de vectores de soporte y los k vecinos más cercanos tienen tales funciones. Y en el caso de interacciones complejas, las redes neuronales y los árboles de decisión son la mejor opción, debido a su capacidad de encontrar la interacción.
Ultimas palabras
En este artículo, hemos discutido varios criterios y condiciones a considerar al elegir un modelo de aprendizaje supervisado. Dado que hay diferentes situaciones de modelado, la selección de modelos es una tarea muy compleja, debemos saber dónde usar qué modelo.