Estadística Industrial Universidad Carlos III de Madrid Series temporales Práctica 5 Objetivo: Análisis descriptivo, estudio de funciones de autocorrelación simple y parcial de series temporales estacionales. Formulación, predicción y estimación de modelos ARIMA estacionales. Diagnosis y validación. Fichero de datos: Practica5Series.sf Series temporales estacionales: En la práctica 1 vimos series temporales que presentaban pautas que se repetían en forma de ciclos. Es habitual que muchas series tengan patrones estacionales cada s periodos. En series mensuales, en general, el orden de la estacionalidad es s=12; en series trimestrales s=4, cuatrimestral s=3, etc… La metodología ARIMA también nos permite estudiar estas series estacionales. En este caso la formulación ARIMA es: ARIMA ( p, d , q ) × ( P, D, Q ) s parte regular parte estacional Ejemplo: IPI Inglaterra • Importar datos: FILE -> OPEN -> OPEN DATA FILE • Representación de la serie temporal: SPECIAL -> TIME-SERIES ANALYSIS -> DESCRIPTIVE METHODS • Al introducir la serie a analizar: debemos especificar que la periodicidad de la serie: SAMPLING INTERVAL -> MONTH -> STARTING AT -> SEASONALITY Si la serie es mensual s=12 1 Figura 1. Gráfico temporal de la serie original IPI Inglaterra 132 122 112 102 92 82 1/50 1/53 1/56 1/59 1/62 1/65 La Figura 1, presenta el gráfico de la serie IPI Inglaterra. Se observa la falta de estacionariedad, ya que la serie tiene tendencia y ciclo. La variabilidad no presenta problemas y podemos concluir que la serie es homocedástica. Se puede estudiar algo más detalladamente las características del ciclo estacional mediante el gráfico de descomposición estacional visto en la práctica 1. La FAS y FAP de la serie original se muestra en la siguiente figura: FAP IPI Inglaterra FAS IPI Inglaterra 1 1 0,6 0,6 0,2 0,2 -0,2 -0,2 -0,6 -0,6 -1 -1 0 5 10 15 lag 20 25 0 5 10 15 20 25 lag Como puede observarse hay mucha estructura en ambas funciones. Esto es debido a la falta de estacionariedad de la serie. Como se estudió en prácticas anteriores es preciso tomar una diferencia para quitar la tendencia (parte regular, Non-seasonal order), para eliminar la estacionalidad tomaremos diferencias estacionales (Seasonal order). Para ello, en el botón derecho en ANALYSIS OPTIONS, podemos comenzar tomando una diferencia regular (1) y posteriormente una diferencia estacional (1). NOTA: como al especificar la serie con periodicidad mensual (s=12), la diferencia estacional que tomemos la tomaremos como 1. 2 Figura 2. Serie IPI Inglaterra con una diferencia regular ( ∇ 1 IPI ) 25 15 5 -5 -15 1/50 1/53 1/56 1/59 1/62 1/65 La figura 2 muestra la serie IPI Inglaterra una vez eliminada la tendencia con una diferencia regular, sin embargo observamos que aún existe estacionalidad. El ciclo se aprecia en el gráfico de la serie, y en la FAS en la que las autocorrelaciones separadas por 12 retardos son significativas y decrecen lentamente, esto se refleja en su FAS y FAP (Figura 3), Figura 3. FAS (izquierda) y FAP (derecha) de la serie ∇ IPI 1 1 1 0,6 0,6 0,2 0,2 -0,2 -0,2 -0,6 -0,6 -1 -1 0 5 10 15 lag 20 25 0 5 10 15 20 25 lag Para eliminar los ciclos aplicaremos una diferencia estacional, es decir ∇ ∇ IPI , en ANALYSIS OPTIONS-> DIFFERENCING -> SEASONAL ORDER (1). 1 12 El resultado de se presenta en la Figura 4, donde ya tenemos una serie estacionaria (sin tendencia ni ciclos), además podemos asegurar que es homocedástica. 3 Figura 4. Serie IPI Inglaterra sin tendencia ni ciclo, ∇1∇12 IPI 8 4 0 -4 -8 1/50 1/53 1/56 1/59 1/62 Figura 5. FAS y FAP de la serie 1/65 ∇1∇12 IPI FAS FAP 1 1 0,6 0,6 0,2 0,2 -0,2 -0,2 -0,6 -0,6 -1 -1 0 5 10 15 20 25 0 5 10 lag 15 20 25 lag Estudiaremos los primeros retardos para analizar la parte regular: se observa en la FAS que existen en decaimiento lento hasta el quinto retardo. En la FAP hay dos retardos significativos. Podemos por tanto, estar ante un AR(2) en la parte regular. Si analizamos los retardos estacionales: en la FAS vemos que el retardo 12 es significativo, pero no los son ni el 24 ni el 36. Por otro lado, en la FAP se aprecian que los retardos 12 y 24 son significativos. Es posible por tanto que estemos ante un MA(1)12 en la parte estacional. Alternativamente, podríamos tomando la diferencia estacional haber eliminado primeramente la estacionalidad, ∇ IPI . 12 4 Figura 6. Gráfico de la serie IPI Inglaterra con una diferencia estacional 10 7 4 1 -2 -5 -8 1/50 1/53 1/56 1/59 1/62 1/65 Figura 7. FAS y FAP de la serie IPI Inglaterra con una diferencia estacional FAS FAP 1 1 0,6 0,6 0,2 0,2 -0,2 -0,2 -0,6 -0,6 -1 -1 0 5 10 15 20 25 0 5 10 lag 15 20 25 lag Aunque hemos eliminado los ciclos, la serie no es estacionaria, puesto que aún se observa tendencia (Figura 6). La FAS presenta un decaimiento lineal, pero no hay retardos estacionales significativos. Estimación de un modelo ARIMA(p,d,q)x(P,D,Q)s Un vez que la serie ∇ ∇ IPI ARIMA(2,1,0)x(0,1,1)12. 1 12 es estacionaria, podemos estimar un modelo En SPECIAL-> TIMES-SERIES ANALYSIS -> FORECASTING, introducimos la serie IPI Inglaterra. Por defecto, el número de periodos a predecir (Number of forecasts) es 12. Para estimar el modelo ARIMA, procedemos de la misma forma que hicimos en la práctica anterior. Ahora, como hemos especificado la serie como mensual. El modelo ARIMA permite ajustar diferencias y parámetros AR y MA estacionales. 5 Figura 8. Especificación de un modelo ARIMA(2,1,0)x(0,1,1)12 En ARIMA Model, podemos ahora especificar (Figura 8): o o o o o o Nonseasonal order: Número de diferencias regulares d Seasonal order: Numero de diferencias estacionales D AR: Orden del autorregresivo regular p MA: Orden de la media móvil regular q SAR: Orden del autorregresivo estacional P SMA: Orden de la media móvil estacional Q Los parámetros estimados los podemos obtener en el ANALYSIS SUMMARY, ARIMA Model Summary Parameter Estimate Stnd. Error t P-value ---------------------------------------------------------------------------AR(1) -0,563995 0,0894862 -6,3026 0,000000 AR(2) -0,271194 0,0897455 -3,02182 0,003092 SMA(1) 0,891669 0,0305606 29,1771 0,000000 Mean -0,0199986 0,0259359 -0,771075 0,442230 Constant -0,0367011 ---------------------------------------------------------------------------- En la tabla observamos que los parámetros son significativos, ya que el valor de la tstudent es mayor que 2 en valor absoluto y los p-valores menores a 0.05. El modelo se puede escribir como: yt = c − 0.5639 yt −1 − 0.2712 yt − 2 + at − 0.8917 at −12 (-6.30) donde yt es la serie estacionaria (-3.021) (29,177) ∇1∇12 IPI y entre paréntesis se indica el valor crítico de la t-student. Alternativamente, en término del operador de retardos B. (1 − φ1 B − φ2 B 2 ) yt = (1 − Θ12 B12 )at 6 Reemplazando los valores estimados: (1 + 0.5639 B + 0.2712 B 2 ) yt = (1 − 0.8917 B12 )at La FAS y FAP de los residuos del modelo ajustado se muestran en la figura 9. Figura 9. FAS y FAP de los residuos del modelo ARIMA(2,1,0)x(0,1,1)12 FAS FAP ARIMA(2,1,0)x(0,1,1)12 with constant ARIMA(2,1,0)x(0,1,1)12 with constant 1 1 0,6 0,6 0,2 0,2 -0,2 -0,2 -0,6 -0,6 -1 0 5 10 15 lag 20 25 -1 0 5 10 15 20 25 lag En la Figura 9, observamos que aparentemente no existen retardos significativos ni en FAS ni FAP de los residuos del modelo ajustado, por lo que tenemos evidencia de que pueden ser ruido blanco. Para ver si hay evidencia suficiente de que son ruido blanco, analizamos el test de Box-Pierce. En TABULAR OPTIONS, marcamos las opciones de RESIDUAL TEST OF RANDOMNESS y de MODEL COMPARISONS si queremos comparar el modelo con otros alternativos. El resultado del test de Box-Pierce es de 0.82907 y por tanto tenemos evidencias de que los residuos sí son ruido blanco. Predicción y validación: Una vez ajustado un modelo paramétrico a la serie original podemos utilizarlo para realizar predicciones futuras. En TABULAR OPTIONS, la opción FORECAST TABLE, nos permite obtener la predicción del modelo para los periodos siguientes. Lower 95,0% Upper 95,0% Period Forecast Limit Limit -----------------------------------------------------------------------------2/61 121,243 117,797 124,689 3/61 123,095 119,335 126,854 4/61 111,843 107,732 115,954 5/61 110,098 105,482 114,714 6/61 112,787 107,828 117,745 7/61 105,346 100,051 110,64 8/61 101,928 96,3004 107,556 9/61 115,466 109,536 121,395 10/61 118,947 112,728 125,166 11/61 123,111 116,614 129,609 12/61 111,011 104,248 117,774 1/62 111,576 104,557 118,594 ------------------------------------------------------------------------------ 7 Por defecto la predicción se realizar para 12 periodos. En la primera columna tenemos los periodos que predecimos, en la segunda columna, la predicción de nuestro modelo y por último los límites superior e inferior de los intervalos de predicción. La Figura siguiente muestra las predicciones y sus intervalos. ARIMA(2,1,0)x(0,1,1)12 with constant 132 actual forecast 95,0% limits 122 112 102 92 82 1/50 1/53 1/56 1/59 1/62 1/65 El modelo ARIMA propuesto, presenta los valores más bajos para el Error Cuadrático Medio (MSE), y para el Error Medio Absoluto (MAE). -----------------------------------------------------------------------Models -----(A) ARIMA(2,1,0)x(0,1,1)12 with constant (B) Constant mean = 106,045 (C) Linear trend = 96,3582 + 0,144581 t (D) Simple moving average of 5 terms (E) Simple exponential smoothing with alpha = 0,1521 Estimation Period Model MSE MAE MAPE ME MPE -----------------------------------------------------------------------(A) 2,70114 1,30257 1,2257 -0,139977 -0,154921 (B) 88,9745 7,69823 7,41176 3,00244E-14 -0,81525 (C) 58,3711 6,30245 5,99201 3,25888E-14 -0,523815 (D) 60,1705 6,81859 6,45562 0,432344 -0,0166134 (E) 52,2074 6,22291 5,87358 0,816373 0,36154 Model RMSE RUNS RUNM AUTO MEAN VAR ----------------------------------------------(A) 1,64352 OK OK OK OK OK (B) 9,43263 *** *** *** *** OK (C) 7,6401 *** *** *** OK OK (D) 7,75696 *** *** *** OK OK (E) 7,22547 *** ** *** OK OK ------------------------------------------------------------------------ 8 Otro posible análisis que permite validar el modelo ARIMA propuesto, consiste en realizar predicciones sobre la muestra. Este procedimiento consiste en coger del total de n observaciones de la serie temporal, las n-k primeras. Y una vez elegido el modelo validar su capacidad predictiva sobre la submuestra formada por las k últimas observaciones. , introducimos en la casilla de WITHHOLD FOR En la opción de INPUT DIALOG, VALIDATION el tamaño de submuestra que deseamos , en el caso de series mensuales para que este análisis sea válido cogeremos un ciclo completo de k=12 observaciones. Con este análisis la tabla de predicciones (FORECAST TABLE), incluye el residuo de la predicción sobre esta submuestra. -----------------------------------------------------------------------------Period Data Forecast Residual … … … … 2/60 117,3 116,651 V0,648852 3/60 119,5 118,988 V0,511876 4/60 107,7 107,844 V-0,144126 5/60 108,9 105,914 V2,9865 6/60 109,1 110,035 V-0,935361 7/60 103,3 102,039 V1,26059 8/60 100,0 99,5207 V0,479278 9/60 112,6 112,938 V-0,337917 10/60 117,7 116,379 V1,32145 11/60 123,2 120,996 V2,20382 12/60 110,3 109,785 V0,514985 1/61 110,6 110,914 V-0,313729 ------------------------------------------------------------------------------ La tabla de comparación de modelos (MODELS COMPARISON), incluye una tabla adicional para los valores del MSE y MAE o de la raíz cuadrada del MSE (RMSE). Models -----(A) ARIMA(2,1,0)x(0,1,1)12 with constant (B) Constant mean = 105,486 (C) Linear trend = 95,6334 + 0,161517 t (D) Simple moving average of 5 terms (E) Simple exponential smoothing with alpha = 0,1573 Estimation Period Model MSE MAE MAPE ME MPE -----------------------------------------------------------------------(A) 2,86055 1,33577 1,26573 -0,250186 -0,261454 (B) 90,1904 7,73979 7,47792 3,25323E-14 -0,830492 (C) 58,5864 6,2433 5,96621 3,55859E-14 -0,528323 (D) 60,3762 6,84534 6,51942 0,372931 -0,0730557 (E) 52,3767 6,26727 5,95175 0,71585 0,268722 Model RMSE RUNS RUNM AUTO MEAN VAR ----------------------------------------------(A) 1,69132 OK * OK OK OK (B) 9,49686 *** *** *** *** OK (C) 7,65418 *** *** *** OK OK (D) 7,77021 *** *** *** OK OK (E) 7,23717 *** ** *** OK OK Validation Period Model MSE MAE MAPE ME MPE -----------------------------------------------------------------------(A) 1,61646 0,971541 0,864741 0,683018 0,602253 (B) 80,2806 7,47603 6,49719 6,19738 5,23018 (C) 62,7841 6,78328 6,2743 -4,54348 -4,41941 (D) 58,1818 6,56 5,83885 1,00667 0,528996 (E) 50,5692 5,98881 5,29789 1,56345 1,04989 9 Este procedimiento nos permitirá de una manera más precisa discriminar entre modelos ARIMA alternativos, en el caso de tener modelos que cumplan todas las hipótesis de manera satisfactoria (significatividad de los parámetros, test de Boxpierce), nos intereserá más tener un modelo cuya capacidad predictiva sea mejor (menores valores del RMSE, MSE y/o MAE). Cuestiones: Analiza el resto de las series del fichero Practica5Series.sf3. Propón uno o varios modelos ARIMA. Formula la ecuación del modelo y su representación en términos del operador de retardos. Realiza una validación del modelo ARIMA en función de la capacidad predictiva de cada uno de ellos. 10