Estás leyendo la publicación: 10 condiciones en las que se deben evitar los modelos de aprendizaje automático basados en árboles
Los modelos de aprendizaje automático basados en árboles se utilizan generalmente por su fácil interpretación y la forma en que manejan datos de mayor dimensión. Pero los modelos basados en árboles tienen algunas preocupaciones con algunos casos de uso y los modelos tradicionales de aprendizaje automático solo parecen funcionar mejor y converger más rápido en comparación con los modelos basados en árboles en el aprendizaje automático. Entonces, en este artículo, veamos cuándo no usar modelos basados en árboles en el aprendizaje automático y cuáles son los factores que prohíben el uso de modelos basados en árboles en el aprendizaje automático.
Tabla de contenido
- ¿Qué son los modelos basados en árboles?
- ¿Cuándo no usar modelos basados en árboles?
- Resumen
¿Qué son los modelos basados en árboles?
Como sugiere el nombre, los modelos basados en árboles tienen una estructura general de árboles. La estructura general de estos modelos consiste básicamente en nodos raíz donde emerge el modelo y debajo del árbol, las ramas se consideran subárboles y las hojas de los subárboles del árbol se pueden considerar como nodos hoja. De manera similar, un solo árbol en el aprendizaje automático se denomina árbol de decisión y un bosque de tales árboles se considera un bosque aleatorio. Los modelos basados en árboles se pueden utilizar tanto para tareas de regresión como de clasificación.
¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos, echa un vistazo aquí.
Los modelos basados en árboles parecen estar más alejados de una estructura similar a un diagrama de flujo con ciertas condiciones en cada uno de los pasos. A continuación se muestra una descripción general de los modelos basados en árboles.
¿Cuándo no usar modelos basados en árboles?
Comprendamos las limitaciones de los modelos de aprendizaje automático basados en árboles más utilizados, que son Decision Tree y Random Forest. Un árbol de decisión es uno de los algoritmos de aprendizaje automático supervisado que se puede usar para tareas de regresión o clasificación y, a diferencia de otros modelos, los árboles de decisión tienen ciertas limitaciones y nos permiten comprender sus limitaciones en detalle.
1. Se requiere un alto rendimiento en el análisis de regresión
Las tareas de regresión son básicamente análisis estadísticos realizados en varias características del conjunto de datos para predecir resultados de variables continuas. Para tareas de regresión, puede haber varias características y, en presencia de varias características, el modelo de árbol de decisión puede sobreajustarse en el conjunto de entrenamiento, y también la profundidad del árbol puede aumentar para datos de dimensiones más altas, y para datos de dimensiones más bajas puede no ajustarse como es posible que tenga que converger más rápido con una menor cantidad de ramas creadas y el árbol de decisiones puede ser responsable de detectar la característica correlacionada incorrecta en el proceso de desarrollo del árbol.
Por lo tanto, para las tareas de regresión, los modelos basados en árboles no deben usarse porque los modelos basados en árboles descomponen los datos en subconjuntos más pequeños al no considerar en absoluto el correlación de las características y resulta ser menos efectivo para predecir correctamente los resultados y el modelo de árbol de decisión puede ser propenso a pérdida de información. Además, para tareas de regresión, no se deben usar modelos basados en árboles porque para conjuntos de datos relativamente más pequeños con menos ruido e incertidumbres, los modelos basados en árboles pueden tender a producir precisiones más bajas.
2. No caer en situaciones de sobreajuste
Los modelos basados en árboles son muy propensos a sobreajustarse cuando se utilizan con datos o datos de mayor dimensión. Entonces, si el modelo está diseñado perfectamente para ajustarse a los datos de entrenamiento, se sobreajustará y no generalizará bien con los datos de prueba. Por lo tanto, al diseñar los parámetros del árbol de decisión, como la profundidad del árbol y los nodos del árbol, deben tener las propiedades de división adecuadas entre los nodos hoja; de lo contrario, la precisión del modelo resultará ser muy baja.
Por lo tanto, los modelos basados en árboles no deben usarse para datos de mayor dimensión. ya que el árbol de decisiones tiende a hacerse más profundo a medida que hay más funciones y memoriza los datos de entrenamiento, lo que lleva a un sobreajuste y muestra un rendimiento deficiente durante las pruebas o para datos inciertos. Entonces, cuando se consideran los datos relativamente más grandes, el árbol de decisión crece hasta su profundidad completa y tiende a memorizar las muestras más pequeñas y tiende a sobreajustarse a los datos.
3. Se espera cualquier cambio en los datos
Los modelos basados en árboles son extremadamente sensibles a cambios menores en los datos y es posible que no sean adecuados para la predicción de variables continuas porque, para estos casos de uso, no se puede esperar que los datos permanezcan estacionarios. Por lo tanto, los modelos basados en árboles no deben usarse para datos con mayor incertidumbre. ya que el modelo puede arrojar una precisión muy baja y también predicciones falsas y cuando se considera para ciertas tareas de clasificación si hay instancias con mayor soporte para una variable y si en el futuro el objetivo se equilibra, el modelo basado en árboles aún estaría sesgado a la primera clases mayoritarias existentes.
4. Hay más muestras dependientes en los datos
El modelado basado en árboles no debe usarse cuando hay más muestras dependientes en el conjunto de datos, ya que los modelos basados en árboles otorgan diferentes ponderaciones para cada una de las muestras dependientes y se otorgará una ponderación más alta solo a ciertas características dependientes y a ciertas características se les otorgará una ponderación más baja. pesos que a su vez pueden ser responsables de la poca precisión del modelo. Entonces, cuando hay características dependientes en el conjunto de datos, no se deben usar modelos basados en árboles.
5. El tiempo de entrenamiento es una limitación
La cantidad de características de los datos y el tiempo de entrenamiento de los modelos basados en árboles dependen directamente del tiempo de entrenamiento y, para datos con dimensiones más altas, los modelos basados en árboles consumirán más tiempo de entrenamiento en comparación con otros algoritmos de aprendizaje supervisado. . Entonces, para datos de mayor dimensión y para acelerar el proceso de entrenamiento, se puede usar el algoritmo Support Vector Machine en lugar de modelos basados en árboles.
6. Se va a emplear la regularización
Si se va a aplicar la regularización a la construcción de cualquier modelo para evitar el sobreajuste, los modelos basados en árboles no se pueden usar, ya que la regularización no es posible para los modelos basados en árboles, ya que funciona con algoritmos heurísticos que funcionan según el principio subyacente de la toma de decisiones. Por lo tanto, si se va a aplicar la regularización a los modelos de aprendizaje automático, no se pueden usar modelos basados en árboles.
7. Compatibilidad con el error absoluto medio
El error absoluto medio es una métrica que se utiliza básicamente para medir la precisión de las variables continuas y los modelos basados en árboles no son compatibles con el error absoluto medio, ya que los modelos basados en árboles consumirán más tiempo para el cálculo de este parámetro o es posible que no converja en todo.
8. El remuestreo requiere mucho tiempo para los modelos basados en árboles
Las técnicas de remuestreo de datos, como la validación cruzada, requieren mucho tiempo para los modelos basados en árboles para datos de mayor dimensión y mayor número de pliegues. Entonces, si se van a usar técnicas de remuestreo en la construcción de modelos, se pueden usar otros modelos de aprendizaje automático en lugar de modelos basados en árboles.
9. Mayor tiempo de cálculo en la canalización
En comparación con otros modelos de aprendizaje automático, los modelos basados en árboles tardan más en adaptarse a la canalización debido a su estructura compleja para datos de mayor dimensión. Por lo tanto, si se va a crear una canalización de aprendizaje automático de operación rápida, no se deben usar modelos basados en árboles.
10. Sesgo hacia la clase más frecuente
Los modelos basados en árboles imponen un sesgo hacia la mayoría de las clases que ocurren en el clasificador de votación de los algoritmos basados en árboles y el clasificador de votación puede generar clases más altas de cada uno de los alumnos base y el clasificador de votación también puede verse influenciado por los alumnos base que producen predicciones incorrectas. Entonces, si se van a obtener predicciones imparciales, no se deben usar modelos basados en árboles.
Resumen
Como se menciona en este artículo, los modelos de aprendizaje automático basados en árboles tienen algunas preocupaciones con el tipo de datos y las características de los datos en uso. Por lo tanto, el modelado basado en árboles en el aprendizaje automático no es una forma eficiente de modelar los datos para todas las aplicaciones y problemas. Entonces, si los datos son más simples, sin valores atípicos o sin multicolinealidad, las técnicas tradicionales de modelado de aprendizaje automático se pueden usar sobre modelos basados en árboles en el aprendizaje automático.