Análisis univariante de las series de Paro registrado en el INEM para Castilla y León y provincias Introducción: En esta parte del estudio se procede a realizar el análisis de las series temporales del paro registrado, con el fin de encontrar modelos univariantes que nos ayuden a comprender su evolución. Analizaremos las series en Castilla y León y en las distintas provincias de nuestra Comunidad en el total de la población, en la población de hombres, en la de mujeres y en los grupos de edad menores y mayores de 25 años. Para ello se sigue la metodología de Box y Jenkins. A continuación damos una breve introducción de esta metodología. Una serie temporal es una colección de observaciones tomadas a lo largo del tiempo. Una característica esencial de las series temporales es la dependencia que existe entre las observaciones. La metodología de Box-Jenkins modela esta dependencia utilizando la teoría probabilística suministrada por los procesos estocásticos estacionarios y la metodología estadística suministrada por la teoría de la estimación y contraste de hipótesis. Los modelos de procesos estocásticos que utilizaremos para el modelado son : Modelos autorregresivos AR (p): Su expresión matemática es ( X t ) 1 ( X t 1 ) 2 ( X t 2 ) ... p ( X t p ) Zt Se pone cada observación como combinación lineal de observaciones pasadas. 1, 2, ... p son números reales , la media de la serie y Zt es una sucesión de variables incorreladas. Expresado en forma abreviada ( B)( X t ) Z t siendo (B) un polinomio en B, donde B es el operador retardo definido B(Xt)=Xt-1 Modelos de media móvil MA (q): con expresión matemática ( X t ) 1Z t 1 2 Z t 2 ... p Z t p Z t Cada observación es combinación lineal de errores pasados y presentes . En forma abreviada ( X t ) ( B)Z t Modelos mixtos: ARMA (p, q) ( B)( X t ) ( B) Z t . Cada observación es combinación lineal de observaciones pasadas y de errores pasados y presentes. Las series temporales presentan variaciones que pueden ser debidas al propio modelo o al medio en el que se tomaron las observaciones o a las dos causas. Para tener en cuenta los factores externos se introducen los modelos estacionales. Estos modelos tienen en cuenta que las series presentan variaciones periódicas regulares o aleatorias debidas al transcurrir del tiempo y a la sucesión de las estaciones. (Meses, trimestres, etc.) Modelos estacionales autorregresivos SAR (p): Su expresión matemática es ( X t ) 1 ( X t s ) 2 ( X t 2s ) ... p ( X t ps ) Z t 1 Con s la longitud del periodo (12 con datos mensuales, 4 si son datos trimestrales) 1, 2, ... p son números reales, la media de la serie y Zt es una sucesión de variables incorreladas. Expresado en forma abreviada (B s )(X t ) Zt Siendo ( B s ) un polinomio en Bs y Bs es el operador retardo estacional definido Bs(Xt)=Xt-s Modelos estacionales de media móvil SMA (q): con expresión matemática ( X t ) 1Z t s 2 Z t 2s ... p Z t ps Zt En forma abreviada ( X t ) ( B s )Z t Se pueden combinar los anteriores modelos para dar lugar a Modelos SARMA(p,q)(P,Q) multiplicativos con expresión matemática (B)( B s )(X t ) (B)( B s )Zt Todos lo modelos anteriormente expuestos son modelos estacionarios en el sentido de que su media permanece constante a lo largo del tiempo y la función de correlación depende del retardo y no del tiempo en el que se calcule es decir E(Xt) = t Corr(Xt, Xt+h) = corr(X0,Xh) = (h) t Sin embargo las series temporales, además de variaciones aleatorias, cíclicas y estacionales, presentan tendencia y componentes estacionales (la media varía a lo largo del tiempo y de las estaciones) que hace que los procesos estacionarios anteriormente citados no sean suficientes para su modelado. Por esta razón se introducen los modelos integrados, mediante estos modelos retiramos la componente tendencial y estacional. Modelos SARIMA (p, d, q) (P, D, Q)s multiplicativos: La expresión genérica del modelo es la siguiente: (B)(B s )(Wt ) (B)(B s )Zt Wt (1 B) d (1 B s ) D X t = dsD(Xt) Los operadores introducidos en las fórmulas son: Bs : operador de retardo estacional definido Bs(Xt) = Xt-s = (1-B) operador diferencia regular s = (1-Bs) operador diferencia estacional. Los operadores diferencia y diferencia estacional, en general quitan tendencias y componentes estacionales de la serie respectivamente. Wt es la serie desestacionalizada y sin tendencia, es decir, es estacionaria. Xt: serie observada en nuestro caso el Paro registrado B: Operador de retardos (B): Polinomio autorregresivo de orden p, correspondiente a la parte ordinaria de la serie (B): Polinomio de medias móviles de orden q, correspondiente a la parte ordinaria de la serie (Bs): Polinomio autorregresivo de orden P, correspondiente a la parte estacional de la serie (Bs): Polinomio de medias móviles de orden Q, correspondiente a la parte estacional de la serie :la media de la serie estacionaria 2 Zt: Perturbación del modelo D, d: Número de veces que se han aplicado los operadores diferencia estacional diferencia regular a la serie original para convertirla en estacionaria. y Resultados de los análisis Utilizamos datos mensuales del INEM. El periodo estudiado comprende datos desde enero de 1980 hasta mayo de 2001, pero el conjunto de datos es menor en algunas series por lo que se irá indicando en cada caso. Para realizar el ajuste de los modelos hemos utilizado el paquete estadístico SAS release 6.12, versión 4.10.2222con licencia de uso concedida a la Universidad de Valladolid C.T.I., Site 0080410003. Los programas realizados, así como las salidas más importantes las adjuntamos en los anexos 1 y 2. Empezamos nuestro estudio con la serie Número de Parados registrados en Castilla y León. En esta serie iremos explicando los pasos dados para encontrar el modelo, en las demás daremos el modelo final encontrado Castilla y León: Número total de parados registrados Primero hacemos una representación gráfica de la serie paro total Castilla y León 200000 180000 160000 140000 120000 100000 80000 60000 40000 20000 F ec en ha e8 fe 1 bm 82 ar -8 ab 3 rm 84 ay -8 ju 5 n86 ju l-8 ag 7 ose 88 p8 oc 9 tno 90 v9 di 1 cen 92 e9 fe 4 bm 95 ar -9 ab 6 rm 97 ay -9 ju 8 n99 ju l-0 0 0 A la vista del gráfico vemos que nuestra serie no es estacionaria, presenta una clara tendencia que sigue los ciclos de la economía, también muestra componentes estacionales. Este hecho también se pone de manifiesto en las gráficas de las funciones de autocorrelación, autocorrelación parcial y periodo grama de la serie. En la función de autocorrelación observamos que hay un decrecimiento muy lento, muy lejano del decrecimiento exponencial de los modelos estacionarios. La gráfica de la función de autocorrelación parcial muestra una correlación muy alta en el retardo 1 y muy baja en los demás retardos, indicativo de la existencia de una tendencia en la serie o variación a largo plazo. Por último la gráfica del periodograma muestra un pico muy pronunciado en las bajas frecuencias que oculta cualquier otra variación de los datos. 3 De estas tres gráficas se deduce que la serie no es estacionaria y que las variaciones a largo plazo o tendencia de la serie, ocultan la estructura de los datos. Por tanto diferenciamos la serie de orden 1 para eliminar la tendencia. Autocorrelación para el paro en Castilla y León Autocorrelaciones 1 0.6 0.2 -0.2 -0.6 -1 0 10 20 30 40 50 Autocorrelaciones Parciales lag Autocorrelación parcial paro de Castilla y León 1 0.6 0.2 -0.2 -0.6 -1 0 10 20 30 40 50 0.4 0.5 lag Periodograma Paro Castilla y León (X 1.E10) 12 10 8 6 4 2 0 0 0.1 0.2 0.3 frecuencia A continuación representamos las mismas gráficas correspondientes a la serie diferenciada. En la función de autocorrelación se observa un comportamiento pseudoperiódico de la serie con periodo 12 ya que los datos son mensuales. Así nos encontramos con una serie estacional. Si nos fijamos en los retardos estacionales (12, 24, 36, 48) el decrecimiento de la correlación puede o no puede ser exponencial, necesitamos más gráficas para saber si la serie es estacionaria. La función de autocorrelación parcial no muestra falta de estacionariedad, ni el retardo 1 ni el primer retardo estacional son demasiado grandes frente a los demás. La gráfica del periodograma muestra un pico muy pronunciado en la frecuencia 0.08 indicativo de estacionalidad de periodo 12 y otros picos menos pronunciados en los armónicos siendo el siguiente en orden de magnitud el correspondiente a la frecuencia 0.25, es decir periodo 4 indicativo de cierta periodicidad trimestral. 4 También observamos un pico de menor magnitud en una frecuencia próxima a cero indicativo de una variación a largo plazo que todavía persiste en la serie y que la aleja de la estacionariedad. La diferencia de orden 1 no ha sido suficiente para quitar la tendencia. Autocorrelación para el paro en Castilla y León diferenciada de orden 1 Autocorrelaciones 1 0.6 0.2 -0.2 -0.6 -1 0 10 20 30 40 50 Autocorrelaciones Parciales lag Autocorrelación parcial paro de Castilla y León diferenciada de orden 1 1 0.6 0.2 -0.2 -0.6 -1 0 10 20 30 40 50 lag Periodograma Paro Castilla y León diferenciada de orden 1 (X 1.E8) 8 6 4 2 0 0 0.1 0.2 0.3 0.4 0.5 frecuencia Aplicamos una diferencia estacional a la serie para comprobar si esta operación hace a la serie estacionaria y analizamos nuevamente los gráficos. La función de autocorrelación decrece muy lentamente. La función de autocorrelación parcial no muestra falta de estacionariedad, ni el retardo 1 ni el primer retardo estacional son demasiado grandes frente a los demás y el periodograma sigue mostrando un pico muy superior a todo lo demás en las bajas frecuencias. Es decir esta operación no nos convierte a la serie en estacionaria. 5 Autocorrelación para el paro en Castilla y León diferenciada de orden 12 Autocorrelaciones 1 0.6 0.2 -0.2 -0.6 -1 0 10 20 30 40 50 Autocorrelaciones Parciales lag Autocorrelación parcial paro de Castilla y León diferenciada de orden 12 1 0.6 0.2 -0.2 -0.6 -1 0 6 12 18 24 30 36 42 48 lag Periodograma Paro Castilla y León diferenciada de orden 12 (X 1.E9) 15 12 9 6 3 0 0 0.1 0.2 0.3 0.4 0.5 frecuencia Por tanto procedemos a aplicar una diferencia regular y una diferencia estacional a la serie original. Las tres gráficas siguientes no muestran falta de estacionariedad, así modelaremos esta serie. Observamos en la función de autocorrelación que los primeros retardos decrecen exponencialmente, indicativo de un polinomio autorregresivo de orden 1 y sólo hay un retardo estacional que podamos considerar distinto de 0, indicativo de un polinomio de media móvil estacional de orden 1. La función de autocorrelación parcial está de acuerdo con esta identificación del modelo ya que sólo hay un retardo regular, el primero, que podamos considerar distinto de 0 y en los retardos estacionales (12, 24, 36, 48) se observa decrecimiento exponencial. En el periodograma se pueden entrever 6 ondas de amplitudes decrecientes indicativo de que nos encontramos ante un modelo estacional multiplicativo. 6 Autocorrelación para el paro en Castilla y León diferenciada de orden 1 y 12 Autocorrelaciones 1 0.6 0.2 -0.2 -0.6 -1 0 10 20 30 40 50 Autocorrelaciones Parciales lag Autocorrelación parcial paro de Castilla y León diferenciada de orden 1 y12 1 0.6 0.2 -0.2 -0.6 -1 0 10 20 30 40 50 lag Periodograma Paro Castilla y León diferenciada de orden 1 y 12 (X 1.E7) 8 6 4 2 0 0 0.1 0.2 0.3 0.4 0.5 frecuencia Así hemos identificado un modelo SARIMA (1, 1,0) (1, 1,0)12 para la serie diferenciada de orden 1 y 12 del paro total registrado durante el periodo comprendido entre Enero de 1980 y Mayo del presente año. Después de realizar los ajustes, el modelo elegido y su expresión matemática es la siguiente: (1 B)(1 B12 )(1 0.43B)(1 0.29B12 ) X t Z t La justificación de los modelos elegidos puede verse en los anexos 1 En forma más expandida. Para el incremento mensual (Xt -Xt-1)= (Xt-12-Xt-13) + 0.42 (Xt-1-Xt-2) - 0.3 (Xt-12-Xt-13) - 0.55 (Xt-13-Xt-14) + 0.3 (Xt-24-Xt-25) - 0.13 (Xt-25-Xt-26) + Zt Para el incremento anual (Xt -Xt-12) = (Xt-1-Xt-13) + 0.42 (Xt-1-Xt-13) - 0.42 (Xt-2-Xt-14) - 0.3 (Xt-12-Xt-24) + 0.17 (Xt-13-Xt-25) + 0.13 (Xt-14-Xt-26) + Zt Así vemos que el incremento del número de parados en un mes determinado depende positivamente -Del incremento del número de parados en el mes anterior (0.42) -Del incremento del número de parados del mismo mes del año anterior (0.7) - Del incremento del número de parados del mismo mes de dos años anteriores (0.3) 7 Depende negativamente -Del incremento del paro un mes anterior del año anterior (0.55) -Del incremento del paro un mes anterior de dos años antes (0.13) El incremento anual del número de varones parados crece -Con el incremento anual del mes anterior (1.42) -Con el incremento anual del mes anterior del año anterior (0.17) -Con el incremento anual de dos meses anteriores del año anterior. (0.17) Decrece -Con el incremento anual de dos meses anteriores (0.42) -Con el incremento anual del año anterior (0.3) Es un modelo complejo que tiene mucha memoria, en el sentido de que el número de parados varones sigue influyendo en el número de parados varones 2 años y dos meses más tarde. Tiene fluctuaciones estacionales moderadamente crecientes. Salidas de los programas Paro registrado en Castilla y León ARIMA Procedure Name of variable = CYL. Period(s) of Differencing = 1,12. Mean of working series = -93.3074 Standard deviation = 1899.651 Number of observations = 244 NOTE: The first 13 observations were ARIMA Procedure Maximum Likelihood Estimation Parameter Estimate Std Error AR1,1 0.43581 0.05765 AR2,1 -0.28994 0.06283 Variance Estimate = 2727641.33 Std Error Estimate = 1651.55725 AIC = 4311.52136 SBC = 4318.5157 Number of Residuals= 244 Correlations of the Estimates Parameter AR1,1 AR2,1 AR1,1 1.000 -0.049 AR2,1 -0.049 1.000 Model for variable CYL No mean term in this model. Period(s) of Differencing = 1,12. Autoregressive Factors Factor 1: 1 - 0.43581 B**(1) Factor 2: 1 + 0.28994 B**(12) ARIMA Procedure Name of variable = RESIDUAL. Mean of working series = -69.8716 Standard deviation = 1648.301 Number of observations = 244 Autocorrelations Lag Square DF Prob 6 12.13 6 0.059 -0.029 -0.006 12 16.81 12 0.157 0.017 0.076 18 19.06 18 0.388 -0.054 0.060 24 33.17 24 0.101 -0.042 -0.045 30 34.19 30 0.273 -0.012 -0.023 36 41.43 36 0.246 0.018 -0.046 eliminated by differencing. T Ratio 7.56 -4.61 Lag 1 12 0.114 0.141 -0.121 0.000 -0.068 -0.011 0.065 -0.057 0.018 -0.042 -0.007 -0.001 -0.033 -0.020 0.008 -0.215 0.018 0.041 0.025 0.019 0.007 0.037 -0.083 -0.120 Paro total en la comunidad /*Lectura de Datos: */ libname d 'c:\juntas\salidas'; data d.datos; infile 'c:\juntas\ paro registrado total\paro registrado.txt' dlm='09'x; input Av Bu CyL Le Pa Sa Se So Va Za; 8 date= intnx('month','31dec79'd,_n_); format date monyy.; run; /*******************************/ /*Identificación de las series:*/ /*******************************/ /*Serie de la provincia de Ávila: */ title1 'Paro registrado en Ávila'; title2 '( Enero 1980 - Mayo 2001 )'; /*modelo SARIMA(0,1,1)(1,1,1)12 */ PROC ARIMA data= d.datos; IDENTIFY var=Av(1,12) nlag=36 ; ESTIMATE q=(1)(12) noconstant method=ml plot outcorr outest=resul.test outstat=resul.stat outmodel=resul.model; FORECAST out=b id=date interval=month noprint; run; PROC ARIMA data=b; IDENTIFY var=residual nlag=36; run; intervenciones parados total title1 'transfer'; data enero80; infile "datosluis\transfer\enero80.txt" dlm='09'x firstobs=2; input ano mes $ total sinemple servicio agric indtotal x2; date= intnx('month','31dec79'd,_n_); format date monyy.; year = year( date ); month =month( date ); x1 = (year >= 1987); proc print; run; PROC ARIMA data=enero80; IDENTIFY var=total(1,12) crosscorr=( x1 x2) nlag=36 noprint; estimate p=(1)(12) noconstant input=( (0)/(1)x2 ) method=ml outcov outcorr; forecast lead=12 out=prueba id=date noprint; run; proc gplot data=prueba gout=prueba2; plot residual*date; run; title2 'residuos'; PROC ARIMA data=prueba; IDENTIFY var=residual nlag=36; run; title2; Transferencia mujeres paradas libname i 'c:\dataluis\ipc'; title1 'IPC paro'; data i.paroipc; infile "datosluis\paroipc2.txt" dlm='09'x firstobs=2; input ipc totalpar hombres mujeres; /* date= intnx('month','31dec77'd,_n_); */ /* format date monyy.; */ proc print; run; 9 proc arima data=i.paroipc; /*--- Look at the input process ---------*/ identify var=ipc(1,12) nlags=48; run; /*--- Fit a model for the input --------*/ estimate q=(12) noconstant; run; /*--- Crosscorrelation of prewhitened series */ identify var=mujeres(1,12) crosscorr=(ipc(1,12)) nlags=48; run; /*--- Fit transfer function - look at residuals */ estimate noconstant input=( (0)/(1) ipc ) plot; run; /*--- Estimate full model -----------*/ estimate p=(1)(12) noconstant input=( (0)/(1) ipc ); run; quit; Modelos multivariantes libname d 'c:\datos'; title1 'Castilla y Leon'; data d.cyl; infile "datos\cyl.txt" dlm='09'x firstobs=2; input Paro Hombres Mujeres Sinempleo Cregistrados Cindefinidos Colocaciones Demandas men25 de20a24 de25a29 de30a34 mayo25 meno20 de35a39 de40a44 de45a49 de50a54 de55a59 mayo59 EmpresaE empCyL TI3M ILP ipc12 ipc13 ipc14 ipc15 ipc16 ipc17 ipc18 ipc19 ipc20 ; date= intnx('month','31dec79'd,_n_); format date monyy.; /*proc print; */ run; proc statespace data=d.cyl out= cylfuera lead=12; var ipc12(1) ipc13(1) ipc17(1) ipc18(1); id date; form ipc12 4 ipc13 1 ipc17 2 ipc18 1; restrict F(2,1)=0 F(2,2) =0 F(2,3)=0 F(2,4)=0 F(2,5)=0 F(4,1)=0 F(4,2)=0 F(4,3) =0 F(4,4)=0 F(4,5)=0 F(4,6)=0 F(6,1)=0 F(6,2)=0 F(6,3)=0 F(6,4)=0 F(6,5)=0F(6,6)=0 F(6,7)=0 F(8,1)=0 F(8,2)=0 F(8,4)=0 F(8,5)=0 F(8,6)=0 F(8,7)=0 F(8,8)=0 G(6,1)=0 G(6,4)=0 G(7,2) =0 G(7,3)=0 G(7,4)=0 G(8,1)=0 G(8,2)=0 G(8,3)=0 G(8,4)=0; run; 10