Apuntes de clase Econometría I Prof. Rafael de Arce EJEMPLO DE ANÁLISIS Y VALORACIÓN DE UN MODELO UNIECUACIONAL CON E-VIEWS [email protected] Con este documento se pretende ilustrar de un modo aplicado cómo debe realizarse el análisis de un modelo uniecuacional a partir de los contenidos aprendidos en la asignatura Econometría I (obviándose el análisis de cumplimiento de hipótesis básicas sobre las perturbaciones aleatorias, que forma parte de la asignatura Econometría II). Para ello, se ha descrito un modelo imaginario de una compañía discográfica sobre la que se hará el análisis correspondiente. El workfile de datos de e-views con el que se realiza el análisis de este modelo esta disponible en la hoja web de docencia (http://www.uam.es/rafael.dearce) en el apartado de “docencia – econometría I – Documentos de apoyo”, donde también está colgado este documento. Se seguirán las siguientes fases: 1. Planteamiento del estudio econométrico (reseña de la especificación) 2. Estimación del modelo 3. Valoración y contraste del modelo a. Análisis preliminares (signos) b. Análisis de significatividad individual (t-student) c. Análisis de significatividad conjunta (F-snedecor y R’s cuadrados) d. Análisis de bondad a priori e. Contraste de hipótesis sobre la estructura f. Análisis de bondad a posteriori 4. Reseña sobre la utilización del modelo y análisis estructural 1. PLANTEAMIENTO DEL ESTUDIO ECONOMÉTRICO (RESEÑA BREVE DE LA ESPECIFICACIÓN) Una discográfica quiere estimar cuál podría ser el número de discos que venderá en quince países en los que todavía no ha salido al mercado. Para ello, cuenta con información sobre los resultados de ventas del nuevo disco (DISCO2) y otras variables de interés en cada país para un total de 37 observaciones donde el disco ya está en circulación. Después de haber realizado un profuso estudio sobre las características del mercado y a partir de su propia experiencia, decide especificar un modelo econométrico del siguiente tipo: DISCO2 = C(1) + C(2)*DISCO1 + C(3)*CONCIERTOS + C(4)*PRECIO + C(5)*PUBLICIDAD + U Donde las variables responden a la siguiente descripción: DISCO2 : DISCO1: CONCIERTOS: PRECIO: COMPENTENCIA: discos (segundo disco) vendidos en cada país (mill. Euros) discos (primer disco) vendidos en cada país (mill. Euros) conciertos del artista programados o realizados en cada país durante el año precio del disco en cada país índice de número de discos nuevos aparecidos en el último año 1 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce Observaciones para el modelo obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 DISCO2 19.62440 24.75162 20.34348 20.29559 22.73074 19.02283 22.22471 21.81065 21.38911 24.69819 22.20895 22.67932 23.39615 22.81236 21.89175 22.17145 21.65847 20.78979 19.37154 23.98910 19.88379 21.82583 23.70377 22.11428 21.55363 22.49869 23.43335 23.43866 20.73224 21.33173 21.60142 23.21305 20.20242 24.28200 24.01013 21.84610 22.77669 DISCO1 0.042714 0.602487 0.174360 0.761751 0.845421 0.333591 0.716306 0.619168 0.109921 0.902755 0.089278 0.915621 0.422699 0.222587 0.362624 0.256338 0.957983 0.480493 0.506351 0.446717 0.281235 0.119633 0.781631 0.717022 0.541472 0.149680 0.973410 0.338759 0.773977 0.211482 0.189841 0.555177 0.561676 0.859774 0.827395 0.095522 0.232663 CONCIERTOS 8.881616 13.10465 9.366846 9.107802 11.57255 8.099111 8.695235 11.19543 10.68342 12.41912 9.903191 9.891003 11.93930 11.67184 9.409928 12.37123 11.38181 8.798160 7.676893 11.92219 8.087764 10.20044 11.82051 8.700067 8.674916 10.35972 10.69953 12.75346 8.869860 10.91449 9.795698 11.92511 9.527337 12.50456 11.95764 10.47120 10.60775 PRECIO 0.708234 0.240795 0.602033 0.367717 0.087455 0.410215 0.056376 0.055346 0.747502 0.168663 0.009841 0.529408 0.534583 0.240533 0.543412 0.706503 0.560171 0.129903 0.085372 0.419101 0.219667 0.124745 0.611332 0.079816 0.009832 0.215352 0.069910 0.167849 0.443793 0.179308 0.643950 0.604409 0.432891 0.052294 0.062040 0.333809 0.191752 COMPETENCIA 0.773258 0.057452 0.779797 0.560224 0.108192 0.928076 0.882713 0.766063 0.427697 0.651858 0.857621 0.525087 0.349832 0.485105 0.060687 0.776718 0.649531 0.987857 0.647517 0.203370 0.563714 0.329301 0.104766 0.087422 0.774820 0.180871 0.795432 0.652557 0.701673 0.199935 0.448631 0.109050 0.633779 0.794354 0.503884 0.552247 0.402900 Estadísticas descriptivas de los datos DISCO2 22.06238 22.11428 24.75162 19.02283 1.493008 -0.141495 2.331311 DISCO1 0.485933 0.480493 0.973410 0.042714 0.291137 0.138320 1.675464 CONCIERTOS 10.43139 10.47120 13.10465 7.676893 1.501571 -0.026940 1.842500 PRECIO 0.314754 0.240533 0.747502 0.009832 0.233795 0.355922 1.708522 COMPETENCIA 0.522000 0.560224 0.987857 0.057452 0.276801 -0.299577 1.901286 Jarque-Bera Probability 0.812809 0.666041 2.822679 0.243816 2.070011 0.355225 3.352563 0.187068 2.414491 0.299020 Observations 37 37 37 37 37 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis 2 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce 2. ESTIMACIÓN DEL MODELO Utilizando el programa e-views 3.1, se obtienen los siguientes resultados al realizar la estimación del modelo propuesto: Dependent Variable: DISCO2 Method: Least Squares Sample: 1 37 Included observations: 37 Variable Coefficient Std. Error t-Statistic Prob. C DISCO1 CONCIERTOS PRECIO COMPETENCIA 14.74657 0.901643 0.750314 -1.450427 -0.943715 0.983781 0.417524 0.083621 0.515377 0.449243 14.98969 2.159502 8.972823 -2.814305 -2.100679 0.0000 0.0384 0.0000 0.0083 0.0436 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat 0.808464 0.784522 0.693049 15.37013 -36.24863 1.975368 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 22.06238 1.493008 2.229655 2.447347 33.76755 0.000000 26 24 22 2 20 1 18 0 -1 -2 5 10 15 Residual 20 25 Actual 30 35 Fitted 3. VALORACIÓN Y CONTRASTE DEL MODELO Tanto en el programa de la asignatura de Econometría I como en este ejercicio práctico, se intenta sistematizar la validación del modelo a partir de una serie de fases ordenadas. Aún así, es frecuente que, en el proceso de depuración del modelo estimado, se incluyan cambios en la especificación inicial, afectándose a todos los resultados preliminares (signos, cuantía, errores, etc.). Por ello, cada vez que se produce un cambio en las variables incluidas en el modelo, deberán repetirse todas las fases de la validación desde el principio. 3 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce a. Análisis preliminares (signos)1 El modelo que se propone se puede asociar a cualquier teoría clásica con un enfoque de demanda microeconómica de un producto, que vendría entonces definida por las siguientes variables: precio del bien (relación inversa), precio de los sustitutos (relación directa), precio de los complementarios (relación directa), renta (relación directa), moda (relación directa) y tecnología (relación directa). Entre las variables de nuestro modelo, existen varias relacionadas con estos conceptos: DISCO1: CONCIERTOS: PRECIO: COMPENTENCIA: esta variable podría recoger en cierto modo la “moda” entendiendo que los conciertos generan un mayor conocimiento del producto (disco) y serían asimilables a un “bien complementario”, deberían incentivar su compra y se mantendría teóricamente una relación directa con estos. siendo un bien normal, no cabe duda de que un aumento en el precio debiera tener efectos negativos en la venta del disco (relación teórica inversa) esta variable recogería de algún modo el factor de “sustitutos”. Al expresarse en número de competidores y no en su precio relativo (los precios de los CD’s son prácticamente iguales), la relación teórica debiera ser inversa: a más competencia, menos ventas. Cubierto el análisis teórico de los signos (presupuesto), se debe comprobar si los parámetros estimados se corresponden con lo esperado: PARÁMETRO DISCO1 CONCIERTOS PRECIO COMPETENCIA ESTIMADO + + - TEÓRICO + + - CONCLUSIÓN correcto correcto correcto correcto En definitiva, todos los parámetros estimados presentan un signo acorde a lo esperado teóricamente. Esto es fundamental para la utilización del modelo, ya que de otro modo, podría darse el caso de que, cuando lo utilizáramos para simular, los resultados pudieran ser absurdos. Por ejemplo, si la variable “conciertos” tuviera un parámetro negativo, cuando viéramos la incidencia de incrementos en su número sobre las ventas de discos , obtendríamos una caída, hecho improbable si se entiende los conciertos como una herramienta de publicitar el disco2. 1 A pesar de que en los manuales econométricos se incluye en esta fase el análisis de la cuantía de los parámetros, personalmente entiendo que esta no debería realizarse hasta el final de la modelización, momento en el que no se variará más la especificación del modelo y tendrá sentido hablar de análisis estructurales . 2 En cualquier caso, algunas variables pueden tener interpretaciones distintas sobre el signo (ser positivo o negativo en función de un período concreto, de un objetivo concreto – por ejemplo, el grupo los “Peter Sellers”, más espectáculo que calidad, vende más discos cuando no hace conciertos que cuando sí los hace - ). 4 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce b. Análisis de significatividad individual (t-student e intervalo de confianza de los parámetros) Variable Coefficient Std. Error t-Statistic Prob. C DISCO1 CONCIERTOS PRECIO COMPETENCIA 14.74657 0.901643 0.750314 -1.450427 -0.943715 0.983781 0.417524 0.083621 0.515377 0.449243 14.98969 2.159502 8.972823 -2.814305 -2.100679 0.0000 0.0384 0.0000 0.0083 0.0436 En primer lugar, el contraste T-Estadística (o empírica) nos permitirá comprobar si el verdadero valor del parámetro es igual a cero o no. Para ello, la salida de la regresión nos muestra (en la columna marcada como “Prob.ability-”) la “probabilidad de rechazar la hipótesis nula del contraste cuando esta es cierta”. Estadísticamente, es común dar por bueno un resultado cuando puedo rechazar la hipótesis nula con un 95% de confianza o más. En el modelo expuesto, los valores de “Prob.” para la “T-Statistic” son todos inferiores a 0,05. Es decir, en todos los casos puedo decir que la probabilidad de equivocarme cuando rechazo la hipótesis nula (el verdadero parámetro es cero) es de menos del 5%. En definitiva, acepto la validez de todas las variables especificadas para definir la evolución de la endógena. En segundo lugar, calcular el intervalo de confianza de los parámetros podría darnos idea del grado de precisión del modelo: cuanto menor sea el intervalo, más ajustadamente podré definir el efecto que el cambio de una variable produce sobre la endógena. En este sentido, y una vez comprobada la significatividad individual con la T-estadística, parece que este contraste podría formar parte más bien de la utilización del modelo que de su valoración, aunque por motivos de exposición teórica y de definición del contraste individual anterior, todos los programas econométricos lo incluyen en esta fase de la modelización. Volveremos a hacer hincapié sobre el mismo en la reseña de utilización del modelo, aunque calculemos aquí su magnitud. Para su determinación, se emplea la siguiente fórmula: [ ] Pr βˆ j − t εn−/k2 * S ( βˆ j ) < β j < βˆ j + t nε −/k2 * S ( βˆ j ) = 1 − ε En nuestro caso, los grados de libertad son 32 (37-5). Buscando en las tablas de la tstudent el valor de la misma para un nivel de confianza del 95% ( ε = 0,05 ), obtenemos: 2,042. Aplicando la formula anterior, los intervalos de confianza para cada parámetro son: Variable DISCO1 CONCIERTOS PRECIO COMPETENCIA Coefficient Std. Error 0.901643 0.750314 -1.450427 -0.943715 0.417524 0.083621 0.515377 0.449243 Intervalo de Confianza 0,04905899 0,57955992 -2,50282683 -1,86106921 1,75422701 0,92106808 -0,39802717 -0,02636079 Comparando los valores extremos de los intervalos calculados con los parámetros estimados, parece que el más ajustado de todos ellos sería el de “conciertos”: cada concierto realizado daría lugar a un incremento de las ventas del disco2 en de entre 0,57 y 0,92 millones. El resto de los intervalos, a mi juicio; sería bastante amplio, 5 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce siendo bastante imprecisos los resultados sobre la endógena de incrementar en una unidad el valor de una exógena 3. c. Análisis de significatividad conjunta (F-snedecor y R’s cuadrados) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durban-Watson stat 0.808464 0.784522 0.693049 15.37013 -36.24863 1.975368 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 22.06238 1.493008 2.229655 2.447347 33.76755 0.000000 Con el contrate de la F-snedecor se plantea la hipótesis de si todos los parámetros del modelo (excepto el de la constante) realmente valen cero. En nuestro caso, y observando la probabilidad asignada a la F del ejercicio, podemos rechazar con un 100% de seguridad la hipótesis nula. Así, sabremos con total certeza que por lo menos alguno de los parámetros es distinto de cero. Analizando los valores de la R cuadrado, en los modelos de corte temporal es frecuente exigir un altísimo valor (más del 98%) si las variables están en niveles, ya que la simple correlación entre explicativas y explicada por la tendencia que comparten hace que sea muy fácil obtener valores relativamente altos de la R a pesar de que el modelo pueda ser escasamente explicativo. En el caso de los modelos temporales en tasas de crecimiento o los de corte transversal, el R cuadrado exigible puede ser algo menor y, en cualquier caso, el valor a partir del cual daremos el modelo como bueno depende de nuestro objetivo concreto en la utilización que de él vayamos a hacer. En el caso de nuestro ejemplo, podemos decir que somos capaces de recoger más de un 80% de la variación de las ventas a partir de la especificación suministrada, quedando el resto del porcentaje en elementos que no podemos explicar con este modelo. Atendiendo a la R cuadrado ajustada (78,4%) podremos intuir, en algunas ocasiones, si existe algún problema de omisión de variables relevantes en el modelo. Si la diferencia entre ésta y la R cuadrado sin ajustar es relativamente elevada, habrá indicios de un problema de especificación: faltarán variables relevantes en el modelo. En nuestro ejemplo, la diferencia es de apenas dos puntos porcentuales, no pudiendo inferirse así problemas de mala especificación con este indicador. 3 Por supuesto, esta valoración es subjetiva, y estará condicionada por el grado de precisión que uno quiera conseguir del modelo porque, en cualquier caso, las variables elegidas han resultado ser significativas. 6 / 16 Apuntes de clase Econometría I d. Prof. Rafael de Arce Análisis de bondad a priori i) Análisis gráfico 26 24 22 2 20 1 18 0 -1 -2 5 10 15 Residual 20 25 Actual 30 35 Fitted Flecha en negro errores tipo II y en azul errores tipo I. Los primeros análisis del error son muy intuitivos y poco exactos. Los contrastes gráficos tanto del ajuste entre real (actual) y estimada (fitted) pueden darnos ciertas pistas sobre la bondad del modelo practicado, pero difícilmente serán concluyentes. En nuestro caso, de las treinta y siete observaciones con las que cuenta nuestro modelo podemos señalar algunos ajustes imprecisos en unos siete puntos (marcados arriba con flechas de colores); aunque, a la vista del gráfico, el modelo es bastante razonable, recogiendo adecuadamente la evolución de la endógena real (sin desfases observacionales o grandes puntos de error). En cuanto al gráfico del error, hay que precisar que no se puede observar ningún patrón claro de comportamientos sistemáticos (gráfico con ondas suaves o en dientes de sierra; o con tendencia claramente creciente o decreciente; o con separación clara de zonas de valores positivos y negativos;…). En definitiva no parece que presente problemas evidentes. Tampoco los errores transciende de la banda representada por más menos dos veces la desviación típica de los mismos (zona en la que estarían con un 95% de probabilidades los valores de una variable que se distribuye como una normal). Tan solo el punto siete quizá represente un valor algo elevado del error, y se podría hacer alguna consideración especial sobre él en un análisis más detallado de los datos de ese país en una fase posterior del estudio. ii) Ratios del error 4 Los ratios habitualmente propuestos son la raíz cuadrada del error cuadrático medio ECM, para comparar entre especificaciones distintas de modelos con el mismo número de explicativas (k); el error absoluto medio (medida muy imprecisa) y el porcentaje de error absoluto medio (PEAM), que siempre debe utilizarse sobre valores en niveles. Dicho lo anterior, solo haré algún comentario sobre el valor obtenido en el PEAM: un 2,35% en el modelo que nos ocupa (abajo los valores de la salida de e-views). No hay 4 En el programa e-views, pulsando el botón “forecast” que aparece en la salida de la regresión, se obtienen, entre otros, los siguientes resultados 7 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce mucho que decir al afirmar que este porcentaje es más que razonable y el modelo estaría produciendo un ajuste extraordinario. Root Mean Squared Error Mean Absolute Error Mean Abs. Percent Error 0.644522 0.513578 2.351558 iii) Análisis de cambios de tendencia El análisis se desarrolla marcando los máximos y mínimos locales en las series de la endógena estimada y real, para marcar posteriormente los puntos de error tipo I ó II que se detectan. En el gráfico de ajuste superior, se han marcado estos puntos con flechas negras y azules. DISCO2 19,62440 24,75162 20,34348 20,29559 22,73074 19,02283 22,22471 21,81065 21,38911 24,69819 22,20895 22,67932 23,39615 22,81236 21,89175 22,17145 21,65847 20,78979 19,37154 23,98910 19,88379 21,82583 23,70377 22,11428 21,55363 22,49869 23,43335 23,43866 20,73224 21,33173 21,60142 23,21305 20,20242 24,28200 24,01013 21,84610 22,77669 DISCO2F 19,69211 24,71893 20,32274 21,20507 23,96293 19,65340 21,00178 22,90171 21,37378 24,01897 21,43395 21,73009 22,98040 22,89813 21,28848 22,50227 22,72480 20,66051 20,22830 23,29494 20,21791 22,01627 23,33485 21,72258 20,99822 22,17153 22,80018 23,76183 20,79373 22,67779 20,91021 23,21516 21,17551 24,07863 23,89906 21,68406 22,25715 Real Estimada Máximo Máximo Mínimo Mínimo Máximo Mínimo Máximo Error tipo I Error tipo II Máximo Mínimo Mínimo Máximo Mínimo Máximo Mínimo Máximo Mínimo Máximo Máximo Mínimo Máximo Mínimo Máximo Mínimo Máximo Mínimo Mínimo Máximo Mínimo Máximo Máximo Mínimo Mínimo Máximo Mínimo Máximo Mínimo Máximo Máximo Mínimo Máximo Máximo Mínimo Máximo Mínimo Mínimo Error tipo II Error tipo I Error tipo II Error tipo I Error tipo II El total de cambios de tendencia que se producen en la serie real es de 22 y en la estimada de 23. Se pueden construir los siguiente ratios: % Errores tipo II (suma errores tipo II entre suma total cambios en la real): 4/22=18,2% 8 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce % Errores tipo I (suma errores tipo I entre suma total cambios en la estimada): 3/23= 13%. En definitiva, del total de cambios de tendencia realmente observables, el modelo no es capaz de recoger un 18%. Simplemente, “los olvida”. Por otro lado, el 13% de los cambios que indica el modelo estimado son falsos: en la realidad no se producen o, vulgarmente, “se los inventa”. iv) Diagrama de Predicción – Realización y U-Theil 5 El diagrama de predicción-realización no está directamente operativo como comando de e-views, aunque se puede aproximar ligeramente con un gráfico tipo “Scatter” de dos series: la de la tasa de crecimiento de la real y la de la estimada. En nuestro caso, no podemos calcular las series de crecimiento y que solo tenemos un momento temporal para cada observación (el modelo es de corte transversal). Aún así, y para ilustrar como se haría con un modelo de corte temporal, único en el que verdaderamente tiene sentido este tipo de contraste, lo ejecutamos suponiendo las tasas tal y como las puede calcular el e-views con este tipo de datos: calculando los crecimientos que se producen de una observación a otra (de un país en referencia al que tiene colocado inmediatamente antes en el workfile, aunque esta sea una medida matemáticamente correcta pero sin ningún sentido económico ya que la ordenación de los países es arbitraria). Para hacer el gráfico cruzado, se abren las dos series en tasas de crecimiento a la vez (se marcan y se abren “as group”) y, posteriormente, en la opción view se marca “Graphics – Scatter (donde se pueden pintar a mano, con word, las líneas de los ejes y la de predicción perfecta): El resultado es el siguiente: 0.3 @PCH(DISCO2F) 0.2 0.1 0.0 -0.1 -0.2 -0.2 -0.1 0.0 0.1 0.2 0.3 @PCH(DISCO2) En el gráfico se aprecian cuatro puntos de error de signo en el crecimiento (segundo y cuarto cuadrantes), bastantes puntos de sobrevaloración relativa en crecimientos positivos (primer cuadrante) y variados en el caso de decrecimientos. Insisto, en cualquier caso, que este gráfico se ha puesto para ilustrar como se haría en modelo de corte temporal, único en el que tendría sentido. 5 También en la opción “forecast” de la salida de la regresión de e-views se calculan automáticamente los valores de la U-Theil (total y descompuesta en sesgo, dispersión y correlación). 9 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce En cuanto a los valores de la U de Theil, el valor global del ratio arroja un 0,014577, claramente próximo al cero, donde las tasas de crecimiento coincidirían en signo y cuantía, por lo que se podría hablar de un buen modelo. Analizando someramente su descomposición, no aparece ningún sesgo sistemático hacia la sobrevaloración o la infravaloración (Bias proportion 0.000) 6; así como tampoco una dispersión significativamente distinta comparando las tasas de crecimiento de la estimada y la real (Variance Proportion 0.053105). En cuanto a la componente de correlación (Covariance proportion 0.946895), el valor cercano a uno indicaría un valor de correlación elevada, pero de sentido contrario – negativa - entre las tasas reales y las estimadas (Covariance Proportion 0.946895). Theil Inequality Coefficient 0.014577 Bias Proportion Variance Proportion Covariance Proportion 0.000000 0.053105 0.946895 e. Contraste de hipótesis sobre la estructura Los posibles problemas de incumplimiento de hipótesis serían los siguientes: Muestra pequeña, regresores estocásticos, endogeneidad, multicolinealidad y cambio de estructura. Además, casi todos ellos podrían estar relacionados con una especificación incorrecta, ya sea por omisión de variables relevantes, por inclusión de variables irrelevantes o por no haber elegido correctamente la forma funcional que relaciona exógenas con endógena. Comenzando por “muestra pequeña”, en nuestro caso contamos con treinta y siete observaciones (n) y con cinco variables explicativas (k), con lo que los grados de libertad son 32. Habitualmente, se considera que son suficientes 15 ó más grados de libertad para poder realizar contrastes estadísticos de cierta calidad, por lo que nuestro modelo no presenta este problema de muestra pequeña. Respecto a los posibles “regresores estocásticos”, el modelo planteado no incluye entre sus explicativas ninguno de los casos en los que habría total certeza de presencia de regresores estocásticos (endógena desplazada como explicativa, modelo multiecuacional o utilización de variables proxy). En estas circunstancias, podemos presumir sin problema que los regresores son deterministas. En cuanto a la hipótesis de exogeneidad (o su incumplimiento, endogeneidad), este hecho podría contrastarse a partir del Test de Causalidad de Granger, aunque al no haberse contemplado en el programa solo remito al interesado en obtener más información sobre el tema al capítulo 10 de Pulido y Pérez (2002) 7 Para determinar la posible presencia de multicolinealidad entre las explicativas del modelo, analizaremos los cuatro contrastes desarrollados en las clases teóricas: i) 6 7 Indicios de produce un explicativas statistic con multicolinealidad: se plantean cuando se elevado R cuadrado y, al tiempo, varias no significativas individualmente (varias tprobabilidades por encima de 0,005). En el Diferencia de medias de tasas de crecimiento entre real y estimada Pulido, A. y Pérez, J. (2002): Modelos Econométricos. Editorial Pirámide. Página 417 10 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce caso de nuestro modelo, no se da tal circunstancia. Efectivamente, el R cuadrado es moderadamente elevado, pero todas las variables explicativas resultan significativas. ii) Análisis de la correlación entre las variables: A partir de la matriz de correlaciones entre las variables explicativas, presumiremos multicolinealidad cuando los coeficientes entre dos variables sean elevados (se suele suponer cuando son mayores a |0,75|) o, en términos más académicos, cuando el valor de alguna de las correlaciones por pares de variables es superior al valor de la R cuadrado del modelo. Matriz de correlaciones de las variables explicativas DISCO1 CONCIERTOS PRECIO COMPETENCIA DISCO1 1.000000 0.185044 -0.235351 0.019311 CONCIERTOS 0.185044 1.000000 0.052008 -0.339119 PRECIO -0.235351 0.052008 1.000000 -0.157630 COMPETENCIA 0.019311 -0.339119 -0.157630 1.000000 Como puede observarse en la matriz de correlaciones, no existe ningún valor significativo a los niveles que hemos descrito anteriormente. La más alta de todas las correlaciones se daría entre disco1 y precios, pero aún así es de apenas 0,23. iii) R cuadrado de regresiones parciales: después de haber realizado una regresión para cada exógena en función del resto de las variables explicativas del modelo, hablaríamos de multicolinealidad en la medida que el R cuadrado de alguna de estas regresiones fuera mayor que el del nuestro modelo general Regresiones parciales de las exógenas del modelo Dependent Variable: DISCO1 Method: Least Squares Sample: 1 37 Included observations: 37 Variable Coefficient Std. Error t-Statistic Prob. C CONCIERTOS PRECIO COMPETENCIA 0.111863 0.041899 -0.296256 0.057947 0.409704 0.034092 0.208595 0.187030 0.273033 1.228996 -1.420247 0.309828 0.7865 0.2278 0.1649 0.7586 R-squared 0.097044 Mean dependent var Dependent Variable: CONCIERTOS Method: Least Squares Sample: 1 37 Included observations: 37 0.485933 Variable Coefficient Std. Error t-Statistic Prob. C DISCO1 PRECIO 10.77975 1.044581 0.300347 0.820335 0.849947 1.071611 13.14066 1.228996 0.280276 0.0000 0.2278 0.7810 11 / 16 Apuntes de clase Econometría I COMPETENCIA Prof. Rafael de Arce -1.820862 R-squared 0.153738 Dependent Variable: PRECIO Method: Least Squares Sample: 1 37 Included observations: 37 0.879858 -2.069495 Mean dependent var 0.0464 10.43139 Variable Coefficient Std. Error t-Statistic Prob. C DISCO1 CONCIERTOS COMPETENCIA 0.386603 -0.194438 0.007907 -0.114644 0.325403 0.136904 0.028211 0.150422 1.188075 -1.420247 0.280276 -0.762154 0.2433 0.1649 0.7810 0.4514 R-squared 0.081021 Mean dependent var Dependent Variable: COMPETENCIA Method: Least Squares Sample: 1 37 Included observations: 37 0.314754 Variable Coefficient Std. Error t-Statistic Prob. PRECIO C DISCO1 CONCIERTOS -0.150883 1.203258 0.050053 -0.063087 0.197969 0.318504 0.161552 0.030484 -0.762154 3.777846 0.309828 -2.069495 0.4514 0.0006 0.7586 0.0464 R-squared 0.137163 Mean dependent var 0.522000 Como se puede comprobar en las cuatro regresiones practicas, las R cuadrado en ningún caso superan el valor 0,8084 de nuestra regresión original, luego este segundo método tampoco nos aporta señales de multicolinealidad entre las explicativas. iv) Coeficientes de correlación parcial: calculados a partir del producto de los parámetros de las regresiones parciales, con los siguientes resultados: Coeficientes de correlación parcial DISCO1 DISCO1 DISCO1 CONCIERTOS CONCIERTOS PRECIO CONCIERTOS PRECIO COMPETENCIA PRECIO COMPETENCIA COMPETENCIA 0,2092054 0,24000713 0,05385556 0,04873237 0,33892878 0,13152122 Nuevamente se puede observar que ningún valor supera el 80% de la R cuadrado del modelo general. En definitiva, de los procedimientos de detección de la multicolinealidad estudiados, ninguno muestra que haya presencia de este problema en el modelo que estamos analizando. Finalmente, cabría analizar la posibilidad de algún cambio de estructura si es que conocemos alguna circunstancia especial en la ordenación de los datos (que no los separe aleatóriamente por países y creamos que esto pueda influir en la estimación de 12 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce los parámetros) o si en el gráfico de los residuos observamos algún punto especialmente alto de error 8. Como ya hemos destacado en el análisis del gráfico de errores, quizá la observación número siete pudiera ser la única en la que el error fuera algo más elevado. Aunque el caso no es muy evidente, de cara a ilustrar el análisis de cambio de estructura se comprobará si desde este punto al final hay una estructura distinta a la que existe en las seis primeras observaciones. Dado el corto espacio submuestral de la cola de la izquierda (solo seis observaciones frente a las treinta y una de la segunda submuestra), se plantea utilizar el test de Chow reducido para determinar si existe o no un cambio de estructura en este punto. Fn2 ;n1 − k (e' e − e e )/ n = (e e )/ (n − k ) ' 1 1 ' 1 1 2 1 Donde la submuestra más grande (n1 tendría treinta y una observaciones y la otra, n2, seis). Realizando la regresión inicial con la muestra recortada, se obtienen los siguientes resultados: Dependent Variable: DISCO2 Method: Least Squares Sample: 7 37 Included observations: 31 Variable Coefficient Std. Error t-Statistic Prob. C DISCO1 CONCIERTOS PRECIO COMPETENCIA 15.19848 1.174881 0.715065 -1.513364 -1.149541 1.003682 0.445718 0.090389 0.586974 0.525423 15.14273 2.635929 7.910999 -2.578247 -2.187838 0.0000 0.0140 0.0000 0.0159 0.0379 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat 0.759115 0.722055 0.682626 12.11544 -29.42474 2.085801 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 22.24320 1.294803 2.220951 2.452239 20.48379 0.000000 Y aplicando la fórmula del Test de Chow Reducido, obtendríamos: F6exp ; 26 = (15,37013 −12,1154) / 6 = 1,1641 (12,1154 ) /(31 − 5) Acudiendo a los valores tabulados de la F de Snedecor encontramos que F6Tablas = 3,825 . Como el valor que hemos obtenido con nuestra F experimental es ; 26 inferior al tabulado, podemos afirmar que NO EXISTE CAMBIO DE ESTRUCTURA. 8 Como es sabido, en la realidad el contraste de estructura debe hacerse posteriormente al de heterocedasticidad, ya que la presencia de ésta podría parecer un falso cambio de estructura. Por necesidades del programa teórico de Econometría I, aquí se acomete este contraste sin haber visto antes si hay o no problemas en la varianza de las perturbaciones aleatorias. 13 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce Al margen del test de Chow, podría emplearse el contraste CUSUM también comentado en clase e implementado directamente en e-views (en la tecla view de la salida de regresión como una de las opciones de contrastes sobre estabilidad – Stability -). El resultado gráfico que obtendríamos con este contraste sería el siguiente: 20 10 0 -10 -20 10 15 20 CUSUM 25 30 35 5% Significance Donde ningún valor de los parámetros estimados recursivamente excede de las bandas de confianza prefijadas, luego tampoco aparece ningún signo de cambio estructural empleando este contraste. En definitiva, no hemos podido constatar que se produjera ningún incumplimiento de las hipótesis básicas sobre la estructura en el modelo que presentamos. f. Análisis de Bondad a Posteriori Durante el curso se han comentado dos análisis de esta naturaleza: el coeficiente de Janus y el contraste del Predictor. Para observar la capacidad predictiva o de simulación del modelo, se puede realizar el coeficiente de Janus, simplemente recortando la muestra de modo que una parte de ella se utiliza para la estimación de los parámetros y otra para la utilización del modelo, realizando posteriormente una comparación de los errores cuadrados obtenidos. En nuestro caso, prescindiremos de los cuatro últimos valores para hacer la estimación y luego, como aún así contamos con ellos, calcularemos los errores obtenidos cuando estimamos la endógena (disco2) para ese período extramuestral (no utilizado en la estimación) con los parámetros obtenidos con la muestra 1-33 Dependent Variable: DISCO2 Method: Least Squares Sample: 1 33 Included observations: 33 Variable Coefficient Std. Error t-Statistic Prob. C DISCO1 CONCIERTOS PRECIO COMPETENCIA 14.82836 0.960642 0.734010 -1.336203 -0.963859 1.101533 0.469304 0.094043 0.564522 0.490119 13.46156 2.046949 7.805044 -2.366963 -1.966580 0.0000 0.0502 0.0000 0.0251 0.0592 R-squared Adjusted R-squared S.E. of regression Sum squared resid 0.787312 0.756928 0.730802 14.95402 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion 21.92100 1.482286 2.349380 2.576123 14 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce Donde el valor de la suma cuadrática de los errores es 14,95402, dividido entre el número de observaciones (33), 0,4531. Aplicando los coeficientes obtenidos en esta regresión auxiliar (más arriba) a los valores de las exógenas, obtenemos los valores estimados para la submuestra 34-37. Y restando de la endógena real (disco2) para la misma submuestra, los errores extramuestrales. Su suma al cuadrado media es 0,1251. El coeficiente de Janus será entonces: J= 0,1251 = 0,2760 0,4531 En definitiva, el modelo cometerá menores errores en el período de simulación que en el de estimación. En cuanto a la segunda medida de bondad a posteriori, el contraste del Predictor, y no teniendo valores de las exógenas fuera de la muestra dada, tan solo es posible calcularlo como el intervalo máximo en el que se moverán los valores de simulación con un 95%. Es decir, calcularemos el intervalo de predicción puntual cuando, como valor de simulación o predicción de las exógenas empleamos su valor medio. Pr Yˆn+1 − t nε −/k2 * σˆ * 1 + 1 n < Yn+1 < Yˆn+1 + t εn−/k2 * σˆ * 1 + 1 n = 1 − ε Es decir, Pr 22,062 − 2,042 * 0,6930 * 1 + 137 < Yn+1 < 22,062 + 2,042 * 0,6930 * 1 + 137 = 1 − 0,05 Luego, con un 95% de confianza, podré afirmar que el valor de la venta de disco2 en un país distinto a los que utilizo para la estimación estará entre (20,63 ; 23,49). 4. BREVE RESEÑA SOBRE UTILIZACIÓN DEL MODELO En este documento se ha pretendido ilustrar, con un ejemplo práctico, el contenido aplicado de la asignatura de Econometría I, haciéndose un análisis de casi todas las fases y contrastes contemplados en el programa, aún cuando el tipo de modelo (corte temporal) en algún caso los hiciera poco necesarios. Finalmente, y una vez comprobadas las características del modelo, cabe utilizarlo. En los libros de econometría figuran cuatro grandes utilidades básicas: a) b) c) d) Simulación Predicción Análisis estructural Comprobación o refutación de teorías 15 / 16 Apuntes de clase Econometría I Prof. Rafael de Arce Sobre las dos primeras, bastaría con dar valor a las exógenas para calcular los resultados de predicción o simulación sobre las posibles ventas del disco 2 en algún otro país no empleado para realizar la estimación. Ya disponemos de los parámetros, con las máximas calidades estadísticas, para poder realizar este fácil cálculo: DISCO2 = 14.74656647 + 0.9016431559*DISCO1 1.450426963*PRECIO - 0.9437148385*COMPETENCIA + 0.7503142976*CONCIERTOS - En cuanto al análisis estructural, para poder medir la importancia relativa de cada una de las variables para explicar a la endógena, deberíamos estandarizar los parámetros, ya que inicialmente estos serán mayores o menores no solo por su grado de importancia, sino también por el rango de valores de la variable a la que multiplican. Para estandarizar los parámetros: βˆ jS tan dard = βˆ j * SXj SY En nuestro caso, los parámetros estandarizados serían los siguientes: Variable Coefficient DISCO1 CONCIERTOS PRECIO COMPETENCIA 0,901643 0,750314 -1,450427 -0,943715 Dev. Típica Dev. Típica Standard Coefficient variable endógena 0,291137 0,233795 1,501571 0,276801 1,493008 1,493008 1,493008 1,493008 0,17582065 0,11749412 -1,45874578 -0,17496306 En definitiva, la variable más relevante para definir la venta de discos parece ser el PRECIO. De un modo similar influirían las ventas del disco anterior y la competencia y, ligeramente menos peso tendría CONCIERTOS. Respecto a la última “utilidad” del modelo, este nos confirma el supuesto inicial de que estas son las variables que influyen a la hora de determinar la venta de disco2, aunque en las fases de contrastación podríamos haber suprimido alguna si no hubiera sido significativa, poniendo en entredicho nuestra elección inicial de las variables relevantes (aunque no es el caso de este ejercicio). Quizá esta utilidad tenga mayor relevancia cuando planteamos un modelo teórico inicial de un carácter más académico. 16 / 16