Estás leyendo la publicación: 5 condiciones en las que se debe evitar el modelo ARIMA
ARIMA es el modelo más popular utilizado para el análisis y pronóstico de series de tiempo. A pesar de ser tan popular entre la comunidad, también tiene ciertas limitaciones. Hay algunas condiciones en las que el modelo ARIMA tiene dificultades para manejar los datos de series temporales. En este artículo destacaremos aquellas limitaciones del modelo en las que presenta dificultades. Los puntos principales que se discutirán en el artículo se enumeran a continuación.
Tabla de contenido
- ¿El modelo ARIMA?
- Condiciones en las que se puede evitar ARIMA
- Con datos estacionarios
- Con datos multivariados
- Necesidad de explicabilidad
- Restricciones computacionales
- Continuidad de los datos
Antes de comprender sus limitaciones, primero comencemos por comprender brevemente el modelo ARIMA.
¿El modelo ARIMA?
El modelo ARIMA es una forma abreviada de la media móvil integrada autorregresiva. Como sugiere el nombre, este modelo combina tres técnicas diferentes: autorregresión, integración (diferenciación) y promedio móvil. Estos componentes hacen que el modelo funcione utilizando tres parámetros indicados por (p, q y d). También podemos pensar en este modelo como la generalización del modelo de promedio móvil autorregresivo (ARMA).
Estos modelos se pueden utilizar para hacer predicciones basadas en datos secuenciales, principalmente con datos de series temporales. La parte autorregresiva (parámetro p) del modelo significa que la variable que se va a modelar retrocede sobre sus propios valores rezagados, la parte integrada (parámetro d) del modelo significa la diferenciación de series de tiempo y la parte de promedio móvil (parámetro q ) del modelo significa el error de regresión.
Siempre existe el requisito de averiguar los valores de los parámetros para modelar la serie temporal con precisión. Una de las mejores formas de averiguar los valores de los parámetros es comenzar con la diferenciación de las series de tiempo. Realice la diferenciación una vez y, después de eso, la serie temporal se vuelve estacionaria utilizando la función de autocorrelación (ACF) y los gráficos de una función de autocorrelación parcial (PACF). El gráfico PACF da el parámetro p que es un punto de corte en el PACF y el gráfico ACF da el parámetro q que es el punto de corte en el gráfico ACF. Echemos un vistazo a la imagen de abajo.
En la imagen de arriba, podemos ver un ejemplo de un gráfico ACF y podemos ver que alrededor del tercer valor del eje x tenemos el valor de corte, por lo que el valor del parámetro q será 3 porque es cortando el eje del valor p hasta el segundo valor. De manera similar, podemos encontrar el valor de p usando la gráfica PACF. En uno de nuestros artículos, podemos darnos una idea de cómo trazar los gráficos ACF y PACF.
Aunque este modelo es uno de los modelos más importantes del análisis de series temporales que se puede utilizar para comprender y hacer pronósticos a partir de series temporales. Este modelo también tiene algunas deficiencias. Estas deficiencias hacen que su uso sea difícil e impreciso en los procedimientos de modelado de series de tiempo. En uno de nuestros artículos podemos obtener toda la guía para utilizar el modelo ARIMA en nuestros proyectos. En este artículo, nos centramos en los puntos que nos pueden indicar cuándo no utilizar el modelo ARIMA. Así que avancemos hacia esos puntos.
¿Está buscando un repositorio completo de bibliotecas de Python utilizadas en ciencia de datos, echa un vistazo aquí.
Condiciones en las que se debe evitar ARIMA
Algunos de los puntos que nos pueden indicar cuándo no utilizar el modelo ARIMA son los siguientes
Con datos no estacionarios
Uno de los factores más importantes que debemos considerar al aplicar el modelo ARIMA en la serie temporal es que los datos que estamos utilizando no deben ser estacionarios. En tal situación, estamos obligados a utilizar otros modelos como ARMA. La estacionariedad de los datos se puede verificar mediante la prueba Dickey-Fuller aumentada en la que si el valor p es mayor que el nivel de significación, entonces consideramos los datos de la serie temporal como no estacionarios y, si no lo es, la serie temporal es estacionaria.
![](https://pctg.net/wp-content/uploads/2023/07/1688970075_85_5-condiciones-en-las-que-se-debe-evitar-el-modelo.png)
![](https://pctg.net/wp-content/uploads/2023/07/1688970075_85_5-condiciones-en-las-que-se-debe-evitar-el-modelo.png)
(Un ejemplo de serie temporal estacionaria y no estacionaria, Fuente: O’Reilly)
Deberíamos aplicar este modelo después de conocer la estacionariedad de la serie temporal. La razón detrás de la aplicación con datos no estacionarios es la parte de integración del modelo que aplica el paso de diferenciación y con datos estacionarios, no se puede aplicar ARIMA. Por la diferenciación, el modelo hace que la serie de tiempo sea estacionaria.
Con datos multivariados
El modelo ARIMA está diseñado para usar datos de series temporales univariadas, por lo que si la serie temporal tiene solo una variable, podemos usarla; de lo contrario, debemos elegir modelos de la familia VARMA. Sin embargo, podemos realizar el modelado usando las variables de una en una, pero si existe una correlación entre las variables de la serie de tiempo, entonces no podemos usarla para obtener resultados adecuados.
![](https://pctg.net/wp-content/uploads/2023/07/1688970075_306_5-condiciones-en-las-que-se-debe-evitar-el-modelo.png)
![](https://pctg.net/wp-content/uploads/2023/07/1688970075_306_5-condiciones-en-las-que-se-debe-evitar-el-modelo.png)
(Ejemplo de datos de series temporales multivariadas. Fuente de la imagen)
Necesidad de explicabilidad
Si necesitamos explicabilidad en el modelado, no deberíamos usar el modelo ARIMA porque su naturaleza no es muy explicable. En tales situaciones, podemos elegir modelos como suavizado exponencial, promedio móvil (MA), etc. La razón detrás de la menor explicabilidad es que la combinación de tres procedimientos de modelado dificulta la interpretación de modelos con valores más altos.
Restricciones computacionales
Con series de tiempo muy largas, este modelo se vuelve muy costoso y lento en el cálculo. La razón de ser débil en el cálculo es el promedio móvil y la parte de integración del modelo porque aplicar la diferenciación más de una vez también es un proceso computacional alto y el promedio móvil es la combinación lineal de los errores. Además, a veces pueden funcionar mal si no tenemos conocimiento previo sobre cómo elegir el valor correcto de los parámetros.
Continuidad de los datos
Con el modelo ARIMA, se vuelve obligatorio registrar puntos de datos en un intervalo de tiempo regular. Si faltan valores en la serie temporal, este modelo no se puede aplicar a la serie temporal. La razón detrás de este problema es que estamos aplicando un promedio móvil que mueve la ventana a través de la serie temporal y encuentra la tendencia de la serie temporal. Si la tendencia se rompe en un punto, deja de funcionar y puede hacer que los modelos no funcionen.
![](https://pctg.net/wp-content/uploads/2023/07/1688970075_84_5-condiciones-en-las-que-se-debe-evitar-el-modelo.png)
![](https://pctg.net/wp-content/uploads/2023/07/1688970075_84_5-condiciones-en-las-que-se-debe-evitar-el-modelo.png)
(Ejemplo de datos de series temporales con valores faltantes)
También podemos ver que a veces hay un desempeño deficiente del ARIMA si la serie de tiempo tiene algunos puntos de inflexión porque el uso del modelo de promedio móvil generaliza los valores de los puntos de inflexión y se vuelve incapaz de mantener la información de los puntos de inflexión.
Ultimas palabras
En este artículo, hemos discutido el modelo ARIMA, uno de los modelos más populares para el pronóstico de series de tiempo. Sin embargo, ARIMA sigue siendo la primera opción de los profesionales en el análisis de series de tiempo, también tiene ciertas limitaciones. A través de este artículo, destacamos las áreas grises donde se debe evitar la aplicación del modelo ARIMA.