Universidade de Vigo Estabilidad de parámetros Análisis de los cambios estructurales Estabilidad de parámetros Queremos comprobar si los parámetros se mantienen los mismos a lo largo de toda la muestra o cambian de un valor a otro. En general el hecho de cambio de parámetros lleva implícito que existe otra variable independiente que condiciona el modelo y los parámetros cambian de acuerdo a esa variable. Normalmente el cambio se observa en el tiempo, por ello se habla de cambio estructural. Trabajaremos como si el tiempo fuera la variable que indica el cambio (es decir, el orden en que se observan los datos). Si fuera otra variable se reordenarían los datos de acuerdo a esa nueva variable. Universidade de Vigo Ejemplos de cambio de parámetros Universidade de Vigo Existen muchos motivos por el que pueden cambiar los parámetros en un modelo: Intervenciones externas en un momento de tiempo, por ejemplo anuncio de una subida del precio del petróleo, cambia las estructuras que relacionan variables fundamentales, renta consumo o inflación, o costes producción etc.. . El hundimiento del Prestige. Existen dos grupos que tiene comportamientos diferentes , por ejemplo dos sectores industriales con relaciones de costes diferentes. Modelos con parámetros cambiantes, cuando estos cambian en cada momento del tiempo. Efecto de la no estabilidad Universidade de Vigo El hecho de que no haya estabilidad en los parámetros genera el mismo efecto que la falta de linealidad, pues el modelo esta mal especificado y las estimaciones son sesgadas e inconsistentes. Eso significa que el método de estimación deja de ser válido, por ese motivo detectar la inestabilidad de parámetros es fundamental. Ejemplo para dos grupos Universidade de Vigo La estabilidad nos asegura la siguiente relación b = ( X ' X ) −1 X ' y = ( X ' X ) −1 X ' ( Xβ + ε ) = β + ( X ' X ) −1 X ' ε Supongamos que el parámetro cambia según la siguiente relación y (1) = X (1) β (1) + ε (1) si t < T1 y ( 2 ) = X ( 2 ) β ( 2 ) + ε ( 2 ) si t > T1 y (1) X (1) β (1) + ε (1) ⇒ ( 2 ) = ( 2 ) ( 2 ) ( 2) y X β +ε Entonces la relación anterior se convierte en X (1) β (1) b = ( X ' X ) X ' y = ( X ' X ) X ' ( ( 2 ) ( 2 ) + ε ) = X β = ( X (1) ' X (1) + X ( 2 ) ' X ( 2 ) ) −1 ( X (1) ' X (1) β (1) + X ( 2 ) ' X ( 2 ) β ( 2 ) ) = −1 −1 ≠ β + ( X ' X ) −1 X ' ε Por lo tanto, los estimadores dejan de ser insesgados y consistentes Diagnostico de la estabilidad Gráficos Residuos respecto a variable de cambio estructural (tiempo) Test de hipótesis Test de Chow Universidade de Vigo Gráficos de residuos respecto a variable estimada Universidade de Vigo Se representa el SHAZAM PLOT 0.4 E 0.3 0.2 0.1 0 E residuo respecto al tiempo u otra variable de la que se sospeche influye en el cambio de los parámetros. Si aparece un cambio de tendencia es síntoma de cambio estructural -0.1 -0.2 -0.3 -0.4 -0.5 0 5 10 15 TIME Cambio de tendencia 20 25 Test de Chow Diferentes versiones del test para analizar la estabilidad y la validez de modelos de regresión lineal Universidade de Vigo Test de hipótesis Universidade de Vigo Intentan delimitar si se produce un cambio en los parámetros. También se puede hacer uso de estos test para ver si el modelo se mantiene el mismo, en un periodo postmuestral, por ello se habla también de test postmuestrales. Pueden ser de dos tipos: Fijo: Se establece un valor que se quiere comparar. Secuencial: Compara el cambio de parámetros para todos los casos posibles El primero contrasta si existe un cambio en un determinado punto, mientras que el segundo se utiliza también para detectar los puntos en los que se producen cambios. La construcción de ambos es la misma, sólo cambia el enfoque del test, por tanto definiremos las versiones del test de Chow fijo y luego lo extendemos al caso secuencial. Test de estabilidad Universidade de Vigo La idea intuitiva del test es muy sencilla. Se supone que existe una observación a partir de la cual los parámetros son diferentes. Inicialmente el test de Chow suponía únicamente dos casos, que delimitaban la hipótesis nula y alternativa del test: Que en toda la muestra los parámetros fueran iguales A partir de la observación los parámetros son diferentes No obstante en la práctica, suele ser interesante diferenciar entre la constante y las pendientes del modelo. Eso nos permite establecer cuatro posibles modelos. Modelos para el Test de validación o estabilidad de parámetros Universidade de Vigo Se contrastan cuatro posibles modelos: I. Los datos extramuestrales se ajustan perfectamente al modelo expuesto en el caso muestral. II. La constante es distinta pero las pendientes son comunes. III. La constante es común pero las pendientes son distintas. IV. Tanto la constante como las pendientes son distintas. Vamos a analizar cada uno de esos modelos y luego estableceremos el test. Matrices de diseño de los modelos Universidade de Vigo Para establecerlos consideraremos que el cambio se da en la observación j y nos quedan T-j observaciones finales. Por consiguiente dividimos la muestra en dos grupos los primeros T y los últimos m, que se refleja en representar el vector y la matriz X por matrices particionadas Corresponde a ij 1 x11 : : Y1 Y = X = : : Y2 Corresponde a i 1 x1T T-j Corresponde a X1 xk 1 * : ij X1 = * : iT − j X 2 ... xkT Corresponde a X ... ... ... 2 Ejemplo de CENSA Universidade de Vigo Vamos a aplicar los diferentes modelos a un ejemplo para comprobar si existe un cambio de parámetros en el modelo. CMJ1 El coste de fabricación de celulosa en una empresa (CENSA) depende de la cantidad de celulosa producida. Se recogen datos trimestrales de coste total (Y) y cantidad producida (X) desde el año 1990 hasta 1999 ambos incluidos. Se supone que existe una relación lineal ente los costes y la producción. El segundo trimestre de 1995 ha entrado en vigor una legislación de costes medioambientales que incrementa los controles . Analice si eso tiene efectos sobre el modelo. Diapositiva 13 CMJ1 aqui copiar modelo aplicar matrices Carlos Maria Jardon; 05/12/2007 Partición de los datos Universidade de Vigo Las matrices particionadas nos quedarán al considerar una variable independiente y 40 datos, cambiando en le dato 22 y1 : y21 Y = y22 : y40 1 : 1 X = 1 : 1 x1 : x21 x22 : x40 Modelo I Universidade de Vigo Los datos extramuestrales se ajustan perfectamente al modelo expuesto en el caso muestral, y en consecuencia, se podría estimar el modelo con los datos muestrales y los extramuestrales, ganando eficiencia en la estimación. La forma matricial del modelo será Y=Xβ+ε En forma particionada sería Y1 i j = Y2 iT − j X ⋅ β + ε X * 1 * 2 Modelo I: notaciones Universidade de Vigo Para facilitar la comparación entre los modelos vamos a descomponer el vector β en dos subvectores: β0que tiene dimensión 1 y representa a la constante y β 1 que tiene dimensión k y es la pendiente de todas las variables independientes. Consideremos que el conjunto de las primeras j observaciones corresponden al grupo G1 y el conjunto de las restantes T-j observaciones corresponden al grupo G2. Definimos dos variables ficticias: IG1 y IG2, que valen 1 cuando la observación pertenece a la muestra primera (G1) y o en el resto o viceversa 1 si pertenece a G2 y o en el resto. Definimos las correspondientes variables multiplicativas XIG1 y XIG2 como resultado de multiplicar X por IG1 y IG2 respectivamente. Con estas notaciones el modelo podría escribirse de la siguiente forma Modelo I: desarrollo Y1 i j = Y2 iT − j Universidade de Vigo X ⋅ β + ε → X * * Y = IG1β0 + IG 2 β0 + X1 IG1β1 + X 2 IG 2 β1 + ε → * 1 * 2 Y = ( IG1 + IG 2 )β0 + ( X I + X I )β1 + ε → * 1 G1 Y = β0 + X β1 + ε * * 2 G2 Modelo I de celulosas Universidade de Vigo No se introduce ninguna variable adicional es una regresión simple entre Y y X1 |_ols y x1/resid=e predict=ye rstat noanova REQUIRED MEMORY IS PAR= 5 CURRENT PAR= 4000 OLS ESTIMATION 40 OBSERVATIONS DEPENDENT VARIABLE= Y ...NOTE..SAMPLE RANGE SET TO: 1, 40 R-SQUARE = 0.5460 R-SQUARE ADJUSTED = 0.5341 VARIANCE OF THE ESTIMATE-SIGMA**2 = 6.2891 STANDARD ERROR OF THE ESTIMATE-SIGMA = 2.5078 SUM OF SQUARED ERRORS-SSE= 238.98 MEAN OF DEPENDENT VARIABLE = 17.076 LOG OF THE LIKELIHOOD FUNCTION = -92.5080 VARIABLE NAME X1 CONSTANT ESTIMATED STANDARD COEFFICIENT ERROR 0.94249 0.1394 8.3038 1.357 T-RATIO 38 DF 6.760 6.120 PARTIAL STANDARDIZED ELASTICITY P-VALUE CORR. COEFFICIENT AT MEANS 0.000 0.739 0.7389 0.5137 0.000 0.705 0.0000 0.4863 Modelo II Universidade de Vigo La constante del modelo extramuestral es distinta, pero las pendientes son iguales en ambos modelos La forma matricial del modelo será β 01 Y1 iT 0T X ⋅ β 02 + ε 2 = Y2 0m im X β * * 1 * 2 Modelo II Universidade de Vigo β 01 * Y1 i j 0 j X 1 ⋅ β + ε2 → = 0 i * 02 Y2 T − j T − j X 2 β * * * * * Y = I G1β 01 + I G 2 β 02 + X 1 I G1β1 + X 2 I G 2 β1 + ε = = β 0 + I G 2α 02 + X β + ε * * Modelo II de celulosas Universidade de Vigo Se introduce una variable ficticia adicional que mide el efecto del cambio estructural en el segundo trimestre de 1995 |_ols y x1 D22/resid=e predict=ye rstat noanova REQUIRED MEMORY IS PAR= 5 CURRENT PAR= 4000 OLS ESTIMATION 40 OBSERVATIONS DEPENDENT VARIABLE= Y ...NOTE..SAMPLE RANGE SET TO: 1, 40 R-SQUARE = 0.9219 R-SQUARE ADJUSTED = 0.9176 VARIANCE OF THE ESTIMATE-SIGMA**2 = 1.1117 STANDARD ERROR OF THE ESTIMATE-SIGMA = 1.0544 SUM OF SQUARED ERRORS-SSE= 41.132 MEAN OF DEPENDENT VARIABLE = 17.076 LOG OF THE LIKELIHOOD FUNCTION = -57.3156 VARIABLE ESTIMATED STANDARD T-RATIO PARTIAL STANDARDIZED ELASTICITY NAME COEFFICIENT ERROR 37 DF P-VALUE CORR. COEFFICIENT AT MEANS X1 0.67155 0.6203E-01 10.83 0.000 0.872 0.5265 0.3660 D22 4.7134 0.3533 13.34 0.000 0.910 0.6488 0.1311 CONSTANT 8.5865 0.5708 15.04 0.000 0.927 0.0000 0.5029 Modelo III Universidade de Vigo La constante es la misma, pero las pendientes del modelo extramuestral son distintas. La forma matricial del modelo será β0 Y1 iT X 0T ×k * = ⋅ β + ε3 * 1 Y2 im 0 m×k X 2 β * 2 * 1 Modelo III Universidade de Vigo β 0 * Y1 iT X 1 0T ×k * ⋅ β + ε3 → = * 1 Y2 im 0m×k X 2 β * 2 * * * * Y = I G1β 0 + I G 2 β 0 + X 1 I G1β1 + X 2 I G 2 β 2 + ε = = β0 + X β + X I α + ε * 1 * * 2 G2 * 2 Modelo III de celulosas Universidade de Vigo Se introduce una variable ficticia adicional que mide el efecto del cambio estructural en la pendiente en el segundo trimestre de 1995 R-SQUARE = 0.9540 R-SQUARE ADJUSTED = 0.9515 VARIANCE OF THE ESTIMATE-SIGMA**2 = 0.65493 STANDARD ERROR OF THE ESTIMATE-SIGMA = 0.80928 SUM OF SQUARED ERRORS-SSE= 24.232 MEAN OF DEPENDENT VARIABLE = 17.076 LOG OF THE LIKELIHOOD FUNCTION = -46.7338 VARIABLE NAME X1 X12 CONSTANT ESTIMATED COEFFICIENT 0.48966 0.49185 10.115 STANDARD T-RATIO ERROR 37 DF 0.5147E-01 9.513 0.2716E-01 18.11 0.4491 22.52 PARTIAL STANDARDIZED ELASTICITY P-VALUE CORR. COEFFICIENT AT MEANS 0.000 0.842 0.3839 0.2669 0.000 0.948 0.7307 0.1407 0.000 0.965 0.0000 0.5924 Modelo IV Tanto la constante como las pendientes del modelo extramuestral son distintas. La forma matricial del modelo será β 01 β 02 * Y1 iT 0 m X 1 0T ×k * ⋅ β1 + ε 4 = * Y2 0T im 0 m×k X 2 β * 2 Universidade de Vigo Modelo IV Universidade de Vigo β 01 β 02 * Y1 iT 0m X 1 0T ×k * ⋅ β + ε4 → = 1 * Y2 0T im 0m×k X 2 β * 2 * * * * Y = I G1β 01 + I G 2 β 01 + X 1 I G1β1 + X 2 I G 2 β 2 + ε = = β 0 + I G 2α 0 + X β + X I G 2α + ε * * * * 1 Modelo IV: resolución practica Universidade de Vigo Este test presupone que la muestra se divide en dos y se realiza una regresión para toda la muestra conjuntamente y otra considerando muestras separadas. Esto significa que se puede realizar la comparación de dos formas: Generando variables ficticias que nos midan los cambios estructurales en el periodo prefijado Dividiendo el espacio en dos muestra y haciendo regresiones separadas Modelo IV de celulosas: Caso 1 Universidade de Vigo Se introduce dos variables ficticias adicionales que miden el efecto del cambio estructural en el segundo trimestre de 1995 |_ols y x1 D22 X12/resid=e predict=ye rstat noanova REQUIRED MEMORY IS PAR= 6 CURRENT PAR= 4000 OLS ESTIMATION 40 OBSERVATIONS DEPENDENT VARIABLE= Y ...NOTE..SAMPLE RANGE SET TO: 1, 40 R-SQUARE = 0.9540 R-SQUARE ADJUSTED = 0.9501 VARIANCE OF THE ESTIMATE-SIGMA**2 = 0.67294 STANDARD ERROR OF THE ESTIMATE-SIGMA = 0.82033 SUM OF SQUARED ERRORS-SSE= 24.226 MEAN OF DEPENDENT VARIABLE = 17.076 LOG OF THE LIKELIHOOD FUNCTION = -46.7284 VARIABLE ESTIMATED STANDARD T-RATIO PARTIAL STANDARDIZED ELASTICITY NAME COEFFICIENT ERROR 36 DF P-VALUE CORR. COEFFICIENT AT MEANS X1 0.48659 0.6076E-01 8.009 0.000 0.800 0.3815 0.2652 D22 -0.98518E-01 0.9986 -0.9865E-01 0.922-0.016 -0.0136 -0.0027 X12 0.50134 0.1000 5.012 0.000 0.641 0.7448 0.1434 CONSTANT 10.144 0.5421 18.71 0.000 0.952 0.0000 0.5941 Modelo IV de celulosas: Caso 2 Se divide la muestra en dos a partir del segundo trimestre de 1995 |_SAMPLE 1 21 |_OLS Y X/NOANOVA 21 OBSERVATIONS DEPENDENT VARIABLE= Y ...NOTE..SAMPLE RANGE SET TO: 1, 21 R-SQUARE = 0.9805 R-SQUARE ADJUSTED = 0.9795 VARIANCE OF THE ESTIMATE-SIGMA**2 = 0.45227E-01 STANDARD ERROR OF THE ESTIMATE-SIGMA = 0.21267 SUM OF SQUARED ERRORS-SSE= 0.85930 MEAN OF DEPENDENT VARIABLE = 14.242 LOG OF THE LIKELIHOOD FUNCTION = 3.76191 VARIABLE ESTIMATED STANDARD T-RATIO PARTIAL STANDARDIZED NAME COEFFICIENT ERROR 19 DF P-VALUE CORR. COEFFICIENT X 0.48659 0.1575E-01 30.89 0.000 0.990 0.9902 CONSTANT 10.144 0.1405 72.19 0.000 0.998 0.0000 |_gen1 SSE4A=$SSE ..NOTE..CURRENT VALUE OF $SSE = 0.85930 |_SAMPLE 22 40 |_OLS Y X/NOANOVA 19 OBSERVATIONS DEPENDENT VARIABLE= Y ...NOTE..SAMPLE RANGE SET TO: 22, 40 R-SQUARE = 0.8166 R-SQUARE ADJUSTED = 0.8058 VARIANCE OF THE ESTIMATE-SIGMA**2 = 1.3745 STANDARD ERROR OF THE ESTIMATE-SIGMA = 1.1724 SUM OF SQUARED ERRORS-SSE= 23.367 MEAN OF DEPENDENT VARIABLE = 20.208 LOG OF THE LIKELIHOOD FUNCTION = -28.9251 VARIABLE ESTIMATED STANDARD T-RATIO PARTIAL STANDARDIZED NAME COEFFICIENT ERROR 17 DF P-VALUE CORR. COEFFICIENT X 0.98793 0.1136 8.700 0.000 0.904 0.9036 CONSTANT 10.046 1.199 8.381 0.000 0.897 0.0000 |_gen1 SSE4B=$SSE ..NOTE..CURRENT VALUE OF $SSE = 23.367 |_gen1 SSE4T=SSE4A+SSE4B |_GEN1 F4=((SSE1-SSE4T)/1)/(SSE4T/(DF2)) |_DISTRIB F4/TYPE=F DF1=1 DF2=DF2 Universidade de Vigo ELASTICITY AT MEANS 0.2877 0.7123 ELASTICITY AT MEANS 0.5029 0.4971 Test de estabilidad de los coeficientes Universidade de Vigo El esquema de decisión es similar en todos los test, si la suma de cuadrados disminuye mucho es que la restricción es falsa. La idea intuitiva del test es que si el añadir la diferencia de constantes apenas aporta información al modelo el valor de la F será cercano a la unidad, pero si aporta mucha información el valor de la F tenderá a ser muy grande. El estadístico sigue una F de Snedecor donde los grados de libertad dependen del número de restricciones, bajo las suposiciones del MRLC . Test de Diferencia de ordenadas con pendientes iguales Hipótesis a contrastar H01 :β01 =β02 → α0=0 H11 :β01 ≠β02 → α0≠0 Estadístico de prueba SCE1 − SCE2 F= SCE2 T +m−k −2 Ley de distribución Sigue una F de Snedecor con 1 y T+m-k-2 grados de libertad respectivamente Universidade de Vigo Test de Diferencia en todos los coeficientes (Test de Chow) Chow) Hipótesis a contrastar H04 :β1 =β2 → α=0 H14 :β1 ≠β2 →α≠0 Estadístico de prueba SCE1 − SCE4 k +1 F= SCE4 T + m − 2k − 2 Ley de distribución Sigue una F de Snedecor con k+1 y T+m-2k-2 grados de libertad respectivamente Universidade de Vigo Test de Diferencia entre las pendientes con ordenadas iguales Hipótesis a contrastar H03 :β11 =β21 → α1=0 H13 :β11 ≠β21 →α1≠0 Estadístico de prueba Ley de distribución SCE1 − SCE3 k F= SCE3 T + m − 2k − 1 Sigue una F de Snedecor con k y T+m-2k-1 grados de libertad respectivamente Universidade de Vigo Test de Diferencia entre las pendientes con ordenadas distintas Hipótesis a contrastar H02 :β11 =β21 → α1=0 H12 :β11 ≠β21 →α1≠0 Estadístico de prueba Ley de distribución SCE2 − SCE4 k F= SCE4 T + m − 2k − 2 Sigue una F de Snedecor con k y T+m-2k-2 grados de libertad respectivamente Universidade de Vigo Test de estabilidad en CENSA |_*modelo 2 |_gen1 DF2=$N-3 |_gen1 SSE2=$SSE ..NOTE..CURRENT VALUE OF $SSE = 41.132 |_GEN1 F2=((SSE1-SSE2)/1)/(SSE2/(DF2)) |_DISTRIB F2/TYPE=F DF1=1 DF2=DF2 F DISTRIBUTION- DF1= 1.0000 DF2= 37.000 MEAN= 1.0571 VARIANCE= 2.4383 MODE= DATA PDF CDF F2 ROW 1 177.98 0.89769E-16 1.0000 |_*modelo 3 |_gen1 SSE3=$SSE ..NOTE..CURRENT VALUE OF $SSE = 24.232 |_GEN1 F3=((SSE1-SSE3)/1)/(SSE3/(DF2)) |_DISTRIB F3/TYPE=F DF1=1 DF2=DF2 F DISTRIBUTION- DF1= 1.0000 DF2= 37.000 MEAN= 1.0571 VARIANCE= 2.4383 MODE= DATA PDF CDF F3 ROW 1 327.90 0.28485E-20 1.0000 |_*modelo 4 |_gen1 SSE4=$SSE ..NOTE..CURRENT VALUE OF $SSE = 24.226 |_GEN1 F4=((SSE1-SSE4)/1)/(SSE4/(DF2)) |_DISTRIB F4/TYPE=F DF1=1 DF2=DF2 F DISTRIBUTION- DF1= 1.0000 DF2= 36.000 MEAN= 1.0588 VARIANCE= 2.4524 MODE= DATA PDF CDF F4 ROW 1 319.13 0.90207E-20 1.0000 0.0000 1-CDF 0.10377E-14 0.0000 1-CDF 0.56024E-19 0.0000 1-CDF 0.17745E-18 Universidade de Vigo Test de Diferencia de ordenadas con pendientes iguales en mas de dos grupos Hipótesis a contrastar H01 :β01 =β02=…=β0p H11 :β01 ≠β02 o ….o :β01 ≠β0p Estadístico de prueba Ley de distribución SCE1 − SCE2 p −1 F= SCE2 T − p − k −1 Sigue una F de Snedecor con p-1 y T-p-k-1 grados de libertad respectivamente Universidade de Vigo Test secuencial Universidade de Vigo Se hace el test de Chow global anterior, es decir, se divide la muestra en dos grupos y se hace una regresión con todos los datos y otra con cada grupo separado, pero se va cambiando el punto donde se divide la muestra, por lo que se realiza un test para cada punto, de ahí que se le denomine secuencial. Para cada una de las divisiones se contrastan los modelos I y IV, o sea que se realiza el test de Chow. Los resultados de cada test son los que aparecen en las salidas correspondientes. Test de Chow en CENSA SEQUENTIAL N1 N2 3 37 4 36 5 35 6 34 7 33 8 32 9 31 10 30 11 29 12 28 13 27 14 26 15 25 16 24 17 23 18 22 19 21 20 20 21 19 22 18 23 17 24 16 25 15 26 14 27 13 28 12 29 11 30 10 31 9 32 8 33 7 34 6 35 5 36 4 37 3 CHOW AND GOLDFELD-QUANDT TESTS SSE1 SSE2 CHOW PVALUE 0.10407 1.1946 0.16074 0.852 0.10822 1.1814 0.28848 0.751 0.14855 1.0684 1.3807 0.264 0.23548 1.0670 0.10728 0.899 0.25269 1.0573 0.39712E-02 0.996 0.25273 1.0572 0.37878E-02 0.996 0.25318 1.0569 0.22874E-02 0.998 0.25414 1.0558 0.36368E-02 0.996 0.35757 0.91204 0.57610 0.567 0.41705 0.88467 0.11788 0.889 0.42210 0.88365 0.61943E-01 0.940 0.42225 0.88276 0.72211E-01 0.930 0.46611 0.81564 0.40009 0.673 0.59156 0.59202 1.9263 0.160 0.59218 0.58793 1.9850 0.152 0.59285 0.57254 2.2373 0.121 0.59598 0.57024 2.2229 0.123 0.65001 0.44490 3.5401 0.039 0.65156 0.44464 3.5146 0.040 0.70655 0.44280 2.5198 0.095 0.78463 0.42915 1.4307 0.252 0.79515 0.42220 1.3735 0.266 0.80674 0.40456 1.4702 0.243 0.81618 0.37273 1.8370 0.174 0.81725 0.35201 2.1703 0.129 0.91346 0.30762 1.3144 0.281 0.91369 0.29363 1.5345 0.229 0.92380 0.25100 2.0751 0.140 0.92382 0.22642 2.5039 0.096 1.0131 0.19806 1.4720 0.243 1.0138 0.19106 1.5746 0.221 1.1252 0.13599 0.69948 0.503 1.1390 0.13386 0.52931 0.594 1.1503 0.12981 0.42434 0.657 1.2488 0.58998E-01 0.33249E-01 0.967 G-Q 3.049 1.557 1.529 1.766 1.482 1.195 0.9924 0.8424 1.176 1.226 1.086 0.9566 1.011 1.570 1.410 1.294 1.168 1.461 1.311 1.277 1.306 1.198 1.127 1.095 1.022 1.142 1.037 1.052 0.9849 1.023 0.8558 1.034 0.7735 0.5213 0.6048 DF1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 DF2 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 PVALUE 0.090 0.225 0.225 Universidade 0.160 de Vigo 0.224 0.336 0.544 0.426 0.349 0.321 0.411 0.488 0.473 0.167 0.229 0.289 0.369 0.215 0.290 0.313 0.302 0.371 0.423 0.452 0.510 0.433 0.510 0.508 0.441 0.543 0.347 0.561 0.293 0.162 0.207 Interacción entre Variables ficticias en la regresión Soluciones a la no estabilidad: Universidade de Vigo Planteamiento de la regresión con variables dicotómicas Universidade de Vigo Para formalizar las regresiones anteriores y por consiguiente la posible solución en caso de fallar al estabilidad debemos recurrir a las variables ficticias e introducirlas en la regresión. Recordemos que para definirlas debemos partir de una variable cualquiera C que únicamente puede tomar dos valores A y B de forma que ambos son excluyentes y exhaustivos. Entonces la variable ficticia se define como 1 si C = A IA = 0 si C = B Regresión con variables dicotómicas En el caso mas simple, se introduciría en el modelo de regresión como una variable cualquiera Modelo sin variable ficticia y = β0 + β1 X 1 +L+ βk X k + ε Modelo con variable ficticia y = β0 + β1 X 1 +L+ βk X k + αI A + ε Efecto de la variable ficticia Universidade de Vigo Interacción en la Regresión con variables dicotómicas Si existe interacción, esto es, las variables ficticias Universidade de Vigo pueden afectar a las pendientes se deben construir unas nuevas variables como el producto de las variables exógenas originales y la variable ficticia. El modelo entonces quedaría como y = β0 + β1 X 1 +L+ βX k + + α0 I A + α1 IX 1 +L+αk IX k + ε X j si t ∈ A Donde IX j = j = 1... k 0 si t ∉ A Regresión con variables multinomiales Universidade de Vigo Cuando la variable, en vez de dos valores toma mas, existen diferentes técnicas para analizar como afecta una variable cualitativa a una cuantitativa, pero dado que nuestro interés se centra en las variables ficticias haremos uso de esa técnica. Sea ahora una variable categórica C que toma s valores diferentes, c1,….cs. Entonces debemos definir una variable ficticia para cada uno de los distintos valores. Trampa de las variables ficticias Universidade de Vigo Sin embargo, a la hora de ver el efecto de cada categoría sobre una determinada variable dependiente, no se pueden incluir todas las variables ficticias en la regresión Pues entonces la matriz de regresores, presentaría una colinealidad perfecta. Debido a que la suma de las variables ficticias es el regresor ficticio (los valores que representan a la constante). Se conoce como trampa de las variables ficticias Trampa de variables ficticias en XUMA Universidade de Vigo |_OLS Y X1 X2 FS1 FS2 FS3 FS4 REQUIRED MEMORY IS PAR= 5 CURRENT PAR= 2000 OLS ESTIMATION 20 OBSERVATIONS DEPENDENT VARIABLE= Y ...NOTE..SAMPLE RANGE SET TO: 1, 20 ...MATRIX INVERSION FAILED IN ROW 7 ...THIS USUALLY INDICATES PERFECT MULTICOLLINEARITY WITH VARIABLE CONSTANT Solución a la trampa de las variables ficticias Caben dos soluciones: Eliminar la constante Eliminar una de las variables ficticias La primera opción tiene la ventaja de que cada coeficiente nos cuantifica el impacto de la variable ficticia global, aunque se mezcla con el valor promedio, Tiene varios problemas por el hecho de eliminar la constante de la regresión, pues los residuos ya no tendrán media nula. Universidade de Vigo Ficticias en XUMA Universidade de Vigo |_OLS Y X1 X2 FS1 FS2 FS3 FS4/NOCONSTANT REQUIRED MEMORY IS PAR= 5 CURRENT PAR= 2000 OLS ESTIMATION 20 OBSERVATIONS DEPENDENT VARIABLE= Y ...NOTE..SAMPLE RANGE SET TO: 1, 20 R-SQUARE = 0.9752 R-SQUARE ADJUSTED = 0.9663 VARIANCE OF THE ESTIMATE-SIGMA**2 = 0.59977E-01 STANDARD ERROR OF THE ESTIMATE-SIGMA = 0.24490 SUM OF SQUARED ERRORS-SSE= 0.83968 MEAN OF DEPENDENT VARIABLE = 13.708 LOG OF THE LIKELIHOOD FUNCTION = 3.32590 RAW MOMENT R-SQUARE = 0.9998 VARIABLE ESTIMATED STANDARD T-RATIO PARTIAL STANDARDIZED ELASTICITY NAME COEFFICIENT ERROR 14 DF P-VALUE CORR. COEFFICIENT AT MEANS X1 0.49868 0.2315E-01 21.55 0.000 0.985 0.9510 0.2150 X2 0.75696E-01 0.2308E-01 3.280 0.005 0.659 0.1556 0.0375 FS1 10.146 0.2576 39.38 0.000 0.996 3.3780 0.1850 FS2 10.117 0.2128 47.55 0.000 0.997 3.3684 0.1845 FS3 10.295 0.2225 Recogen46.28 0.000 0.997 3.4276 0.1878 el efecto de la constante FS4 10.431 0.2359 44.22 0.000 0.996 3.4729 0.1902 repartido Trampa de las variables ficticias Universidade de Vigo La segunda alternativa es la que se usa habitualmente, pero la interpretación de los coeficientes es distinta de la anterior. Cada uno de ellos mide conjuntamente el efecto diferencial de esa categoría respecto al promedio y al efecto de la categoría eliminada. Para explicarlo más claramente consideremos un modelo donde sólo intervengan variables ficticias como regresores, para simplificar. Efectos aislados Universidade de Vigo El modelo sería c−1 Y t = β 0 + ∑β jI jt + ε t j=1 Se observa que hemos eliminado la categoría s, para hacer la regresión. Si queremos ver el efecto diferencial de cada categoría sobre el regresando, consideremos la siguiente notación. Efectos de cada categoría En algunos casos interesa analizar el efecto de cada categoría independientemente y no respecto a una de ellas. En ese caso se puede hacer una transformación posterior. Universidade de Vigo Efectos aislados de los β • Sea µ el efecto promedio de las categorías sobre el Universidade de Vigo regresando y sea αj el efecto diferencial respecto al promedio de la categoría cj sobre el regresando. Entonces debe verificarse que β0 = µ + αc βj = αj − αc c ∑α j =1 j =0 Efectos aislados de los α Universidade de Vigo c−1 ∑β Despejando se obtiene que αc = − j j=1 c c −1 ∑β α j = βj − j=1 c c −1 ∑β µ = β0 − j=1 c j j Regresión con variables multinomiales Universidade de Vigo En el caso mas simple, se introduciría en el modelo de regresión cada una de las variables ficticias definidas como una variable cualquiera. Suponiendo s categorías y = β0 + β1 X 1 +L+ βk X k + + α1 I1 +L+αs −1 I s −1 + ε Regresión con variables ficticias en XUMA Universidade de Vigo |_OLS Y X1 X2 FS1 FS2 FS3 REQUIRED MEMORY IS PAR= 5 CURRENT PAR= 2000 OLS ESTIMATION 20 OBSERVATIONS DEPENDENT VARIABLE= Y ...NOTE..SAMPLE RANGE SET TO: 1, 20 R-SQUARE = 0.9752 R-SQUARE ADJUSTED = 0.9663 VARIANCE OF THE ESTIMATE-SIGMA**2 = 0.59977E-01 STANDARD ERROR OF THE ESTIMATE-SIGMA = 0.24490 SUM OF SQUARED ERRORS-SSE= 0.83968 MEAN OF DEPENDENT VARIABLE = 13.708 LOG OF THE LIKELIHOOD FUNCTION = 3.32590 VARIABLE ESTIMATED STANDARD T-RATIO PARTIAL STANDARDIZED ELASTICITY NAME COEFFICIENT ERROR 14 DF P-VALUE CORR. COEFFICIENT AT MEANS X1 0.49868 0.2315E-01 21.55 0.000 0.985 0.9510 0.2150 X2 0.75696E-01 0.2308E-01 3.280 0.005 0.659 0.1556 0.0375 FS1 -0.28485 0.1743 -1.635 0.124-0.400 -0.0948 -0.0052 FS2 -0.31390 0.1601 -1.961 0.070-0.464 -0.1045 -0.0057 FS3 -0.13611 0.1563 -0.8709 0.398-0.227 -0.0453 -0.0025 CONSTANT 10.431 0.2359 44.22 0.000 0.996 0.0000 0.7609 Interpretación Universidade de Vigo Las pendientes se interpretan igual, pero ahora sería el efecto independientemente del sector La constante β0 sería el coste fijo en la categoría s, la que queda ausente del modelo La suma de β0 y αι sería el efecto fijo en la categoría i Por tanto αι mide la diferencia entre los efectos de la categoría i y la s. Interacción en la Regresión con variables multinomiales Universidade de Vigo Si existe interacción, esto es, las variables ficticias pueden afectar a las pendientes se deben construir unas nuevas variables como el producto de las variables exógenas originales y las variables ficticias. El modelo entonces quedaría como y = β0 + β1 X 1 +L+ βX k + + α0 I A + α11 IX 11 +L+αs −1k IX s −1k + ε X j si t ∈ Cl Donde IX lj = j = 1... k ; l = 1... s − 1 0 si t ∉ A Interacciones en XUMA Universidade de Vigo |_GENR IS21=FS2*X1 |_GENR IS22=FS2*X2 |_OLS Y X1 X2 FS2 IS21 IS22 REQUIRED MEMORY IS PAR= 6 CURRENT PAR= 2000 OLS ESTIMATION 20 OBSERVATIONS DEPENDENT VARIABLE= Y ...NOTE..SAMPLE RANGE SET TO: 1, 20 R-SQUARE = 0.9722 R-SQUARE ADJUSTED = 0.9623 VARIANCE OF THE ESTIMATE-SIGMA**2 = 0.67102E-01 STANDARD ERROR OF THE ESTIMATE-SIGMA = 0.25904 SUM OF SQUARED ERRORS-SSE= 0.93943 MEAN OF DEPENDENT VARIABLE = 13.708 LOG OF THE LIKELIHOOD FUNCTION = 2.20337 VARIABLE ESTIMATED STANDARD T-RATIO PARTIAL STANDARDIZED ELASTICITY NAME COEFFICIENT ERROR 14 DF P-VALUE CORR. COEFFICIENT AT MEANS X1 0.51733 0.2560E-01 20.21 0.000 0.983 0.9866 0.2230 X2 0.68416E-01 0.2619E-01 2.612 0.020 0.572 0.1407 0.0339 FS2 0.22659 0.4766 0.4754 0.642 0.126 0.0754 0.0041 IS21 -0.80899E-01 0.9314E-01 -0.8686 0.400-0.226 -0.1511 -0.0078 IS22 0.59235E-02 0.5941E-01 0.9971E-01 0.922 0.027 0.0136 0.0007 CONSTANT 10.228 0.2726 37.52 0.000 0.995 0.0000 0.7461