1 / 16 ejemplo de análisis y valoración de un modelo uniecuacional

Anuncio
Apuntes de clase Econometría I
Prof. Rafael de Arce
EJEMPLO DE ANÁLISIS Y VALORACIÓN DE UN MODELO
UNIECUACIONAL CON E-VIEWS
[email protected]
Con este documento se pretende ilustrar de un modo aplicado cómo debe realizarse el
análisis de un modelo uniecuacional a partir de los contenidos aprendidos en la
asignatura Econometría I (obviándose el análisis de cumplimiento de hipótesis básicas
sobre las perturbaciones aleatorias, que forma parte de la asignatura Econometría II).
Para ello, se ha descrito un modelo imaginario de una compañía discográfica sobre la
que se hará el análisis correspondiente.
El workfile de datos de e-views con el que se realiza el análisis de este modelo esta
disponible en la hoja web de docencia (http://www.uam.es/rafael.dearce) en el
apartado de “docencia – econometría I – Documentos de apoyo”, donde también está
colgado este documento.
Se seguirán las siguientes fases:
1. Planteamiento del estudio econométrico (reseña de la especificación)
2. Estimación del modelo
3. Valoración y contraste del modelo
a. Análisis preliminares (signos)
b. Análisis de significatividad individual (t-student)
c. Análisis de significatividad conjunta (F-snedecor y R’s cuadrados)
d. Análisis de bondad a priori
e. Contraste de hipótesis sobre la estructura
f. Análisis de bondad a posteriori
4. Reseña sobre la utilización del modelo y análisis estructural
1. PLANTEAMIENTO DEL ESTUDIO ECONOMÉTRICO (RESEÑA BREVE DE
LA ESPECIFICACIÓN)
Una discográfica quiere estimar cuál podría ser el número de discos que venderá en
quince países en los que todavía no ha salido al mercado. Para ello, cuenta con
información sobre los resultados de ventas del nuevo disco (DISCO2) y otras variables
de interés en cada país para un total de 37 observaciones donde el disco ya está en
circulación.
Después de haber realizado un profuso estudio sobre las características del mercado y
a partir de su propia experiencia, decide especificar un modelo econométrico del
siguiente tipo:
DISCO2 = C(1) + C(2)*DISCO1 + C(3)*CONCIERTOS + C(4)*PRECIO +
C(5)*PUBLICIDAD + U
Donde las variables responden a la siguiente descripción:
DISCO2 :
DISCO1:
CONCIERTOS:
PRECIO:
COMPENTENCIA:
discos (segundo disco) vendidos en cada país (mill. Euros)
discos (primer disco) vendidos en cada país (mill. Euros)
conciertos del artista programados o realizados en cada país
durante el año
precio del disco en cada país
índice de número de discos nuevos aparecidos en el último año
1 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
Observaciones para el modelo
obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
DISCO2
19.62440
24.75162
20.34348
20.29559
22.73074
19.02283
22.22471
21.81065
21.38911
24.69819
22.20895
22.67932
23.39615
22.81236
21.89175
22.17145
21.65847
20.78979
19.37154
23.98910
19.88379
21.82583
23.70377
22.11428
21.55363
22.49869
23.43335
23.43866
20.73224
21.33173
21.60142
23.21305
20.20242
24.28200
24.01013
21.84610
22.77669
DISCO1
0.042714
0.602487
0.174360
0.761751
0.845421
0.333591
0.716306
0.619168
0.109921
0.902755
0.089278
0.915621
0.422699
0.222587
0.362624
0.256338
0.957983
0.480493
0.506351
0.446717
0.281235
0.119633
0.781631
0.717022
0.541472
0.149680
0.973410
0.338759
0.773977
0.211482
0.189841
0.555177
0.561676
0.859774
0.827395
0.095522
0.232663
CONCIERTOS
8.881616
13.10465
9.366846
9.107802
11.57255
8.099111
8.695235
11.19543
10.68342
12.41912
9.903191
9.891003
11.93930
11.67184
9.409928
12.37123
11.38181
8.798160
7.676893
11.92219
8.087764
10.20044
11.82051
8.700067
8.674916
10.35972
10.69953
12.75346
8.869860
10.91449
9.795698
11.92511
9.527337
12.50456
11.95764
10.47120
10.60775
PRECIO
0.708234
0.240795
0.602033
0.367717
0.087455
0.410215
0.056376
0.055346
0.747502
0.168663
0.009841
0.529408
0.534583
0.240533
0.543412
0.706503
0.560171
0.129903
0.085372
0.419101
0.219667
0.124745
0.611332
0.079816
0.009832
0.215352
0.069910
0.167849
0.443793
0.179308
0.643950
0.604409
0.432891
0.052294
0.062040
0.333809
0.191752
COMPETENCIA
0.773258
0.057452
0.779797
0.560224
0.108192
0.928076
0.882713
0.766063
0.427697
0.651858
0.857621
0.525087
0.349832
0.485105
0.060687
0.776718
0.649531
0.987857
0.647517
0.203370
0.563714
0.329301
0.104766
0.087422
0.774820
0.180871
0.795432
0.652557
0.701673
0.199935
0.448631
0.109050
0.633779
0.794354
0.503884
0.552247
0.402900
Estadísticas descriptivas de los datos
DISCO2
22.06238
22.11428
24.75162
19.02283
1.493008
-0.141495
2.331311
DISCO1
0.485933
0.480493
0.973410
0.042714
0.291137
0.138320
1.675464
CONCIERTOS
10.43139
10.47120
13.10465
7.676893
1.501571
-0.026940
1.842500
PRECIO
0.314754
0.240533
0.747502
0.009832
0.233795
0.355922
1.708522
COMPETENCIA
0.522000
0.560224
0.987857
0.057452
0.276801
-0.299577
1.901286
Jarque-Bera
Probability
0.812809
0.666041
2.822679
0.243816
2.070011
0.355225
3.352563
0.187068
2.414491
0.299020
Observations
37
37
37
37
37
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
2 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
2. ESTIMACIÓN DEL MODELO
Utilizando el programa e-views 3.1, se obtienen los siguientes resultados al realizar la
estimación del modelo propuesto:
Dependent Variable: DISCO2
Method: Least Squares
Sample: 1 37
Included observations: 37
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
DISCO1
CONCIERTOS
PRECIO
COMPETENCIA
14.74657
0.901643
0.750314
-1.450427
-0.943715
0.983781
0.417524
0.083621
0.515377
0.449243
14.98969
2.159502
8.972823
-2.814305
-2.100679
0.0000
0.0384
0.0000
0.0083
0.0436
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
0.808464
0.784522
0.693049
15.37013
-36.24863
1.975368
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
22.06238
1.493008
2.229655
2.447347
33.76755
0.000000
26
24
22
2
20
1
18
0
-1
-2
5
10
15
Residual
20
25
Actual
30
35
Fitted
3. VALORACIÓN Y CONTRASTE DEL MODELO
Tanto en el programa de la asignatura de Econometría I como en este ejercicio
práctico, se intenta sistematizar la validación del modelo a partir de una serie de
fases ordenadas. Aún así, es frecuente que, en el proceso de depuración del
modelo estimado, se incluyan cambios en la especificación inicial, afectándose a
todos los resultados preliminares (signos, cuantía, errores, etc.). Por ello, cada vez
que se produce un cambio en las variables incluidas en el modelo, deberán
repetirse todas las fases de la validación desde el principio.
3 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
a. Análisis preliminares (signos)1
El modelo que se propone se puede asociar a cualquier teoría clásica con un enfoque
de demanda microeconómica de un producto, que vendría entonces definida por las
siguientes variables: precio del bien (relación inversa), precio de los sustitutos (relación
directa), precio de los complementarios (relación directa), renta (relación directa),
moda (relación directa) y tecnología (relación directa).
Entre las variables de nuestro modelo, existen varias relacionadas con estos
conceptos:
DISCO1:
CONCIERTOS:
PRECIO:
COMPENTENCIA:
esta variable podría recoger en cierto modo la “moda”
entendiendo que los conciertos generan un mayor conocimiento
del producto (disco) y serían asimilables a un “bien
complementario”, deberían incentivar su compra y se mantendría
teóricamente una relación directa con estos.
siendo un bien normal, no cabe duda de que un aumento en el
precio debiera tener efectos negativos en la venta del disco
(relación teórica inversa)
esta variable recogería de algún modo el factor de “sustitutos”. Al
expresarse en número de competidores y no en su precio
relativo (los precios de los CD’s son prácticamente iguales), la
relación teórica debiera ser inversa: a más competencia, menos
ventas.
Cubierto el análisis teórico de los signos (presupuesto), se debe comprobar si los
parámetros estimados se corresponden con lo esperado:
PARÁMETRO
DISCO1
CONCIERTOS
PRECIO
COMPETENCIA
ESTIMADO
+
+
-
TEÓRICO
+
+
-
CONCLUSIÓN
correcto
correcto
correcto
correcto
En definitiva, todos los parámetros estimados presentan un signo acorde a lo esperado
teóricamente. Esto es fundamental para la utilización del modelo, ya que de otro modo,
podría darse el caso de que, cuando lo utilizáramos para simular, los resultados
pudieran ser absurdos. Por ejemplo, si la variable “conciertos” tuviera un parámetro
negativo, cuando viéramos la incidencia de incrementos en su número sobre las
ventas de discos , obtendríamos una caída, hecho improbable si se entiende los
conciertos como una herramienta de publicitar el disco2.
1
A pesar de que en los manuales econométricos se incluye en esta fase el análisis de la cuantía de los
parámetros, personalmente entiendo que esta no debería realizarse hasta el final de la modelización,
momento en el que no se variará más la especificación del modelo y tendrá sentido hablar de análisis
estructurales .
2
En cualquier caso, algunas variables pueden tener interpretaciones distintas sobre el signo (ser positivo
o negativo en función de un período concreto, de un objetivo concreto – por ejemplo, el grupo los “Peter
Sellers”, más espectáculo que calidad, vende más discos cuando no hace conciertos que cuando sí los
hace - ).
4 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
b. Análisis de significatividad individual (t-student e intervalo de
confianza de los parámetros)
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
DISCO1
CONCIERTOS
PRECIO
COMPETENCIA
14.74657
0.901643
0.750314
-1.450427
-0.943715
0.983781
0.417524
0.083621
0.515377
0.449243
14.98969
2.159502
8.972823
-2.814305
-2.100679
0.0000
0.0384
0.0000
0.0083
0.0436
En primer lugar, el contraste T-Estadística (o empírica) nos permitirá comprobar si el
verdadero valor del parámetro es igual a cero o no.
Para ello, la salida de la regresión nos muestra (en la columna marcada como “Prob.ability-”) la “probabilidad de rechazar la hipótesis nula del contraste cuando esta es
cierta”. Estadísticamente, es común dar por bueno un resultado cuando puedo
rechazar la hipótesis nula con un 95% de confianza o más.
En el modelo expuesto, los valores de “Prob.” para la “T-Statistic” son todos inferiores
a 0,05. Es decir, en todos los casos puedo decir que la probabilidad de equivocarme
cuando rechazo la hipótesis nula (el verdadero parámetro es cero) es de menos del
5%. En definitiva, acepto la validez de todas las variables especificadas para definir la
evolución de la endógena.
En segundo lugar, calcular el intervalo de confianza de los parámetros podría darnos
idea del grado de precisión del modelo: cuanto menor sea el intervalo, más
ajustadamente podré definir el efecto que el cambio de una variable produce sobre la
endógena. En este sentido, y una vez comprobada la significatividad individual con la
T-estadística, parece que este contraste podría formar parte más bien de la utilización
del modelo que de su valoración, aunque por motivos de exposición teórica y de
definición del contraste individual anterior, todos los programas econométricos lo
incluyen en esta fase de la modelización. Volveremos a hacer hincapié sobre el mismo
en la reseña de utilización del modelo, aunque calculemos aquí su magnitud.
Para su determinación, se emplea la siguiente fórmula:
[
]
Pr βˆ j − t εn−/k2 * S ( βˆ j ) < β j < βˆ j + t nε −/k2 * S ( βˆ j ) = 1 − ε
En nuestro caso, los grados de libertad son 32 (37-5). Buscando en las tablas de la tstudent el valor de la misma para un nivel de confianza del 95% ( ε = 0,05 ),
obtenemos: 2,042. Aplicando la formula anterior, los intervalos de confianza para cada
parámetro son:
Variable
DISCO1
CONCIERTOS
PRECIO
COMPETENCIA
Coefficient
Std. Error
0.901643
0.750314
-1.450427
-0.943715
0.417524
0.083621
0.515377
0.449243
Intervalo de Confianza
0,04905899
0,57955992
-2,50282683
-1,86106921
1,75422701
0,92106808
-0,39802717
-0,02636079
Comparando los valores extremos de los intervalos calculados con los parámetros
estimados, parece que el más ajustado de todos ellos sería el de “conciertos”: cada
concierto realizado daría lugar a un incremento de las ventas del disco2 en de entre
0,57 y 0,92 millones. El resto de los intervalos, a mi juicio; sería bastante amplio,
5 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
siendo bastante imprecisos los resultados sobre la endógena de incrementar en una
unidad el valor de una exógena 3.
c. Análisis de significatividad conjunta (F-snedecor y R’s cuadrados)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durban-Watson stat
0.808464
0.784522
0.693049
15.37013
-36.24863
1.975368
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
22.06238
1.493008
2.229655
2.447347
33.76755
0.000000
Con el contrate de la F-snedecor se plantea la hipótesis de si todos los parámetros del
modelo (excepto el de la constante) realmente valen cero. En nuestro caso, y
observando la probabilidad asignada a la F del ejercicio, podemos rechazar con un
100% de seguridad la hipótesis nula. Así, sabremos con total certeza que por lo menos
alguno de los parámetros es distinto de cero.
Analizando los valores de la R cuadrado, en los modelos de corte temporal es
frecuente exigir un altísimo valor (más del 98%) si las variables están en niveles, ya
que la simple correlación entre explicativas y explicada por la tendencia que
comparten hace que sea muy fácil obtener valores relativamente altos de la R a pesar
de que el modelo pueda ser escasamente explicativo.
En el caso de los modelos temporales en tasas de crecimiento o los de corte
transversal, el R cuadrado exigible puede ser algo menor y, en cualquier caso, el valor
a partir del cual daremos el modelo como bueno depende de nuestro objetivo concreto
en la utilización que de él vayamos a hacer.
En el caso de nuestro ejemplo, podemos decir que somos capaces de recoger más de
un 80% de la variación de las ventas a partir de la especificación suministrada,
quedando el resto del porcentaje en elementos que no podemos explicar con este
modelo.
Atendiendo a la R cuadrado ajustada (78,4%) podremos intuir, en algunas ocasiones,
si existe algún problema de omisión de variables relevantes en el modelo. Si la
diferencia entre ésta y la R cuadrado sin ajustar es relativamente elevada, habrá
indicios de un problema de especificación: faltarán variables relevantes en el modelo.
En nuestro ejemplo, la diferencia es de apenas dos puntos porcentuales, no pudiendo
inferirse así problemas de mala especificación con este indicador.
3
Por supuesto, esta valoración es subjetiva, y estará condicionada por el grado de precisión que uno
quiera conseguir del modelo porque, en cualquier caso, las variables elegidas han resultado ser
significativas.
6 / 16
Apuntes de clase Econometría I
d.
Prof. Rafael de Arce
Análisis de bondad a priori
i) Análisis gráfico
26
24
22
2
20
1
18
0
-1
-2
5
10
15
Residual
20
25
Actual
30
35
Fitted
Flecha en negro errores tipo II y en azul errores tipo I.
Los primeros análisis del error son muy intuitivos y poco exactos. Los contrastes
gráficos tanto del ajuste entre real (actual) y estimada (fitted) pueden darnos ciertas
pistas sobre la bondad del modelo practicado, pero difícilmente serán concluyentes.
En nuestro caso, de las treinta y siete observaciones con las que cuenta nuestro
modelo podemos señalar algunos ajustes imprecisos en unos siete puntos (marcados
arriba con flechas de colores); aunque, a la vista del gráfico, el modelo es bastante
razonable, recogiendo adecuadamente la evolución de la endógena real (sin desfases
observacionales o grandes puntos de error).
En cuanto al gráfico del error, hay que precisar que no se puede observar ningún
patrón claro de comportamientos sistemáticos (gráfico con ondas suaves o en dientes
de sierra; o con tendencia claramente creciente o decreciente; o con separación clara
de zonas de valores positivos y negativos;…). En definitiva no parece que presente
problemas evidentes. Tampoco los errores transciende de la banda representada por
más menos dos veces la desviación típica de los mismos (zona en la que estarían con
un 95% de probabilidades los valores de una variable que se distribuye como una
normal). Tan solo el punto siete quizá represente un valor algo elevado del error, y se
podría hacer alguna consideración especial sobre él en un análisis más detallado de
los datos de ese país en una fase posterior del estudio.
ii) Ratios del error 4
Los ratios habitualmente propuestos son la raíz cuadrada del error cuadrático medio
ECM, para comparar entre especificaciones distintas de modelos con el mismo
número de explicativas (k); el error absoluto medio (medida muy imprecisa) y el
porcentaje de error absoluto medio (PEAM), que siempre debe utilizarse sobre valores
en niveles.
Dicho lo anterior, solo haré algún comentario sobre el valor obtenido en el PEAM: un
2,35% en el modelo que nos ocupa (abajo los valores de la salida de e-views). No hay
4
En el programa e-views, pulsando el botón “forecast” que aparece en la salida de la regresión, se
obtienen, entre otros, los siguientes resultados
7 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
mucho que decir al afirmar que este porcentaje es más que razonable y el modelo
estaría produciendo un ajuste extraordinario.
Root Mean Squared Error
Mean Absolute Error
Mean Abs. Percent Error
0.644522
0.513578
2.351558
iii) Análisis de cambios de tendencia
El análisis se desarrolla marcando los máximos y mínimos locales en las series de la
endógena estimada y real, para marcar posteriormente los puntos de error tipo I ó II
que se detectan. En el gráfico de ajuste superior, se han marcado estos puntos con
flechas negras y azules.
DISCO2
19,62440
24,75162
20,34348
20,29559
22,73074
19,02283
22,22471
21,81065
21,38911
24,69819
22,20895
22,67932
23,39615
22,81236
21,89175
22,17145
21,65847
20,78979
19,37154
23,98910
19,88379
21,82583
23,70377
22,11428
21,55363
22,49869
23,43335
23,43866
20,73224
21,33173
21,60142
23,21305
20,20242
24,28200
24,01013
21,84610
22,77669
DISCO2F
19,69211
24,71893
20,32274
21,20507
23,96293
19,65340
21,00178
22,90171
21,37378
24,01897
21,43395
21,73009
22,98040
22,89813
21,28848
22,50227
22,72480
20,66051
20,22830
23,29494
20,21791
22,01627
23,33485
21,72258
20,99822
22,17153
22,80018
23,76183
20,79373
22,67779
20,91021
23,21516
21,17551
24,07863
23,89906
21,68406
22,25715
Real
Estimada
Máximo
Máximo
Mínimo
Mínimo
Máximo
Mínimo
Máximo
Error tipo I
Error tipo II
Máximo
Mínimo
Mínimo
Máximo
Mínimo
Máximo
Mínimo
Máximo
Mínimo
Máximo
Máximo
Mínimo
Máximo
Mínimo
Máximo
Mínimo
Máximo
Mínimo
Mínimo
Máximo
Mínimo
Máximo
Máximo
Mínimo
Mínimo
Máximo
Mínimo
Máximo
Mínimo
Máximo
Máximo
Mínimo
Máximo
Máximo
Mínimo
Máximo
Mínimo
Mínimo
Error tipo II
Error tipo I
Error tipo II
Error tipo I
Error tipo II
El total de cambios de tendencia que se producen en la serie real es de 22 y en la
estimada de 23. Se pueden construir los siguiente ratios:
% Errores tipo II (suma errores tipo II entre suma total cambios en la real): 4/22=18,2%
8 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
% Errores tipo I (suma errores tipo I entre suma total cambios en la estimada): 3/23=
13%.
En definitiva, del total de cambios de tendencia realmente observables, el modelo no
es capaz de recoger un 18%. Simplemente, “los olvida”. Por otro lado, el 13% de los
cambios que indica el modelo estimado son falsos: en la realidad no se producen o,
vulgarmente, “se los inventa”.
iv) Diagrama de Predicción – Realización y U-Theil 5
El diagrama de predicción-realización no está directamente operativo como comando
de e-views, aunque se puede aproximar ligeramente con un gráfico tipo “Scatter” de
dos series: la de la tasa de crecimiento de la real y la de la estimada.
En nuestro caso, no podemos calcular las series de crecimiento y que solo tenemos un
momento temporal para cada observación (el modelo es de corte transversal). Aún así,
y para ilustrar como se haría con un modelo de corte temporal, único en el que
verdaderamente tiene sentido este tipo de contraste, lo ejecutamos suponiendo las
tasas tal y como las puede calcular el e-views con este tipo de datos: calculando los
crecimientos que se producen de una observación a otra (de un país en referencia al
que tiene colocado inmediatamente antes en el workfile, aunque esta sea una medida
matemáticamente correcta pero sin ningún sentido económico ya que la ordenación de
los países es arbitraria).
Para hacer el gráfico cruzado, se abren las dos series en tasas de crecimiento a la vez
(se marcan y se abren “as group”) y, posteriormente, en la opción view se marca
“Graphics – Scatter (donde se pueden pintar a mano, con word, las líneas de los ejes y
la de predicción perfecta):
El resultado es el siguiente:
0.3
@PCH(DISCO2F)
0.2
0.1
0.0
-0.1
-0.2
-0.2
-0.1
0.0
0.1
0.2
0.3
@PCH(DISCO2)
En el gráfico se aprecian cuatro puntos de error de signo en el crecimiento (segundo y
cuarto cuadrantes), bastantes puntos de sobrevaloración relativa en crecimientos
positivos (primer cuadrante) y variados en el caso de decrecimientos. Insisto, en
cualquier caso, que este gráfico se ha puesto para ilustrar como se haría en modelo de
corte temporal, único en el que tendría sentido.
5
También en la opción “forecast” de la salida de la regresión de e-views se calculan automáticamente los
valores de la U-Theil (total y descompuesta en sesgo, dispersión y correlación).
9 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
En cuanto a los valores de la U de Theil, el valor global del ratio arroja un 0,014577,
claramente próximo al cero, donde las tasas de crecimiento coincidirían en signo y
cuantía, por lo que se podría hablar de un buen modelo. Analizando someramente su
descomposición, no aparece ningún sesgo sistemático hacia la sobrevaloración o la
infravaloración (Bias proportion 0.000) 6; así como tampoco una dispersión
significativamente distinta comparando las tasas de crecimiento de la estimada y la
real (Variance Proportion
0.053105). En cuanto a la componente de correlación
(Covariance proportion 0.946895), el valor cercano a uno indicaría un valor de
correlación elevada, pero de sentido contrario – negativa - entre las tasas reales y las
estimadas (Covariance Proportion 0.946895).
Theil Inequality Coefficient
0.014577
Bias Proportion
Variance Proportion
Covariance Proportion
0.000000
0.053105
0.946895
e. Contraste de hipótesis sobre la estructura
Los posibles problemas de incumplimiento de hipótesis serían los siguientes: Muestra
pequeña, regresores estocásticos, endogeneidad, multicolinealidad y cambio de
estructura. Además, casi todos ellos podrían estar relacionados con una especificación
incorrecta, ya sea por omisión de variables relevantes, por inclusión de variables
irrelevantes o por no haber elegido correctamente la forma funcional que relaciona
exógenas con endógena.
Comenzando por “muestra pequeña”, en nuestro caso contamos con treinta y siete
observaciones (n) y con cinco variables explicativas (k), con lo que los grados de
libertad son 32. Habitualmente, se considera que son suficientes 15 ó más grados de
libertad para poder realizar contrastes estadísticos de cierta calidad, por lo que nuestro
modelo no presenta este problema de muestra pequeña.
Respecto a los posibles “regresores estocásticos”, el modelo planteado no incluye
entre sus explicativas ninguno de los casos en los que habría total certeza de
presencia de regresores estocásticos (endógena desplazada como explicativa, modelo
multiecuacional o utilización de variables proxy). En estas circunstancias, podemos
presumir sin problema que los regresores son deterministas.
En cuanto a la hipótesis de exogeneidad (o su incumplimiento, endogeneidad), este
hecho podría contrastarse a partir del Test de Causalidad de Granger, aunque al no
haberse contemplado en el programa solo remito al interesado en obtener más
información sobre el tema al capítulo 10 de Pulido y Pérez (2002) 7
Para determinar la posible presencia de multicolinealidad entre las explicativas del
modelo, analizaremos los cuatro contrastes desarrollados en las clases teóricas:
i)
6
7
Indicios de
produce un
explicativas
statistic con
multicolinealidad: se plantean cuando se
elevado R cuadrado y, al tiempo, varias
no significativas individualmente (varias tprobabilidades por encima de 0,005). En el
Diferencia de medias de tasas de crecimiento entre real y estimada
Pulido, A. y Pérez, J. (2002): Modelos Econométricos. Editorial Pirámide. Página 417
10 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
caso de nuestro modelo, no se da tal circunstancia.
Efectivamente, el R cuadrado es moderadamente elevado,
pero todas las variables explicativas resultan significativas.
ii)
Análisis de la correlación entre las variables: A partir de la
matriz de correlaciones entre las variables explicativas,
presumiremos multicolinealidad cuando los coeficientes
entre dos variables sean elevados (se suele suponer
cuando son mayores a |0,75|) o, en términos más
académicos, cuando el valor de alguna de las
correlaciones por pares de variables es superior al valor de
la R cuadrado del modelo.
Matriz de correlaciones de las variables explicativas
DISCO1
CONCIERTOS
PRECIO
COMPETENCIA
DISCO1
1.000000
0.185044
-0.235351
0.019311
CONCIERTOS
0.185044
1.000000
0.052008
-0.339119
PRECIO
-0.235351
0.052008
1.000000
-0.157630
COMPETENCIA
0.019311
-0.339119
-0.157630
1.000000
Como puede observarse en la matriz de correlaciones, no
existe ningún valor significativo a los niveles que hemos
descrito anteriormente. La más alta de todas las
correlaciones se daría entre disco1 y precios, pero aún así
es de apenas 0,23.
iii)
R cuadrado de regresiones parciales: después de haber
realizado una regresión para cada exógena en función del
resto de las variables explicativas del modelo, hablaríamos
de multicolinealidad en la medida que el R cuadrado de
alguna de estas regresiones fuera mayor que el del
nuestro modelo general
Regresiones parciales de las exógenas del modelo
Dependent Variable: DISCO1
Method: Least Squares
Sample: 1 37
Included observations: 37
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
CONCIERTOS
PRECIO
COMPETENCIA
0.111863
0.041899
-0.296256
0.057947
0.409704
0.034092
0.208595
0.187030
0.273033
1.228996
-1.420247
0.309828
0.7865
0.2278
0.1649
0.7586
R-squared
0.097044
Mean dependent var
Dependent Variable: CONCIERTOS
Method: Least Squares
Sample: 1 37
Included observations: 37
0.485933
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
DISCO1
PRECIO
10.77975
1.044581
0.300347
0.820335
0.849947
1.071611
13.14066
1.228996
0.280276
0.0000
0.2278
0.7810
11 / 16
Apuntes de clase Econometría I
COMPETENCIA
Prof. Rafael de Arce
-1.820862
R-squared
0.153738
Dependent Variable: PRECIO
Method: Least Squares
Sample: 1 37
Included observations: 37
0.879858
-2.069495
Mean dependent var
0.0464
10.43139
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
DISCO1
CONCIERTOS
COMPETENCIA
0.386603
-0.194438
0.007907
-0.114644
0.325403
0.136904
0.028211
0.150422
1.188075
-1.420247
0.280276
-0.762154
0.2433
0.1649
0.7810
0.4514
R-squared
0.081021
Mean dependent var
Dependent Variable: COMPETENCIA
Method: Least Squares
Sample: 1 37
Included observations: 37
0.314754
Variable
Coefficient
Std. Error
t-Statistic
Prob.
PRECIO
C
DISCO1
CONCIERTOS
-0.150883
1.203258
0.050053
-0.063087
0.197969
0.318504
0.161552
0.030484
-0.762154
3.777846
0.309828
-2.069495
0.4514
0.0006
0.7586
0.0464
R-squared
0.137163
Mean dependent var
0.522000
Como se puede comprobar en las cuatro regresiones practicas, las R cuadrado en
ningún caso superan el valor 0,8084 de nuestra regresión original, luego este segundo
método tampoco nos aporta señales de multicolinealidad entre las explicativas.
iv)
Coeficientes de correlación parcial: calculados a partir del
producto de los parámetros de las regresiones parciales,
con los siguientes resultados:
Coeficientes de correlación parcial
DISCO1
DISCO1
DISCO1
CONCIERTOS
CONCIERTOS
PRECIO
CONCIERTOS
PRECIO
COMPETENCIA
PRECIO
COMPETENCIA
COMPETENCIA
0,2092054
0,24000713
0,05385556
0,04873237
0,33892878
0,13152122
Nuevamente se puede observar que ningún valor supera el 80%
de la R cuadrado del modelo general.
En definitiva, de los procedimientos de detección de la multicolinealidad estudiados,
ninguno muestra que haya presencia de este problema en el modelo que estamos
analizando.
Finalmente, cabría analizar la posibilidad de algún cambio de estructura si es que
conocemos alguna circunstancia especial en la ordenación de los datos (que no los
separe aleatóriamente por países y creamos que esto pueda influir en la estimación de
12 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
los parámetros) o si en el gráfico de los residuos observamos algún punto
especialmente alto de error 8.
Como ya hemos destacado en el análisis del gráfico de errores, quizá la observación
número siete pudiera ser la única en la que el error fuera algo más elevado. Aunque el
caso no es muy evidente, de cara a ilustrar el análisis de cambio de estructura se
comprobará si desde este punto al final hay una estructura distinta a la que existe en
las seis primeras observaciones.
Dado el corto espacio submuestral de la cola de la izquierda (solo seis observaciones
frente a las treinta y una de la segunda submuestra), se plantea utilizar el test de Chow
reducido para determinar si existe o no un cambio de estructura en este punto.
Fn2 ;n1 − k
(e' e − e e )/ n
=
(e e )/ (n − k )
'
1 1
'
1 1
2
1
Donde la submuestra más grande (n1 tendría treinta y una observaciones y la otra, n2,
seis).
Realizando la regresión inicial con la muestra recortada, se obtienen los siguientes
resultados:
Dependent Variable: DISCO2
Method: Least Squares
Sample: 7 37
Included observations: 31
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
DISCO1
CONCIERTOS
PRECIO
COMPETENCIA
15.19848
1.174881
0.715065
-1.513364
-1.149541
1.003682
0.445718
0.090389
0.586974
0.525423
15.14273
2.635929
7.910999
-2.578247
-2.187838
0.0000
0.0140
0.0000
0.0159
0.0379
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
0.759115
0.722055
0.682626
12.11544
-29.42474
2.085801
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
22.24320
1.294803
2.220951
2.452239
20.48379
0.000000
Y aplicando la fórmula del Test de Chow Reducido, obtendríamos:
F6exp
; 26 =
(15,37013 −12,1154) / 6 = 1,1641
(12,1154 ) /(31 − 5)
Acudiendo a los valores tabulados de la F de Snedecor encontramos que
F6Tablas
= 3,825 . Como el valor que hemos obtenido con nuestra F experimental es
; 26
inferior al tabulado, podemos afirmar que NO EXISTE CAMBIO DE ESTRUCTURA.
8
Como es sabido, en la realidad el contraste de estructura debe hacerse posteriormente al de
heterocedasticidad, ya que la presencia de ésta podría parecer un falso cambio de estructura. Por
necesidades del programa teórico de Econometría I, aquí se acomete este contraste sin haber visto antes
si hay o no problemas en la varianza de las perturbaciones aleatorias.
13 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
Al margen del test de Chow, podría emplearse el contraste CUSUM también
comentado en clase e implementado directamente en e-views (en la tecla view de la
salida de regresión como una de las opciones de contrastes sobre estabilidad –
Stability -). El resultado gráfico que obtendríamos con este contraste sería el siguiente:
20
10
0
-10
-20
10
15
20
CUSUM
25
30
35
5% Significance
Donde ningún valor de los parámetros estimados recursivamente excede de las
bandas de confianza prefijadas, luego tampoco aparece ningún signo de cambio
estructural empleando este contraste.
En definitiva, no hemos podido constatar que se produjera ningún incumplimiento de
las hipótesis básicas sobre la estructura en el modelo que presentamos.
f. Análisis de Bondad a Posteriori
Durante el curso se han comentado dos análisis de esta naturaleza: el coeficiente de
Janus y el contraste del Predictor.
Para observar la capacidad predictiva o de simulación del modelo, se puede realizar el
coeficiente de Janus, simplemente recortando la muestra de modo que una parte de
ella se utiliza para la estimación de los parámetros y otra para la utilización del modelo,
realizando posteriormente una comparación de los errores cuadrados obtenidos.
En nuestro caso, prescindiremos de los cuatro últimos valores para hacer la
estimación y luego, como aún así contamos con ellos, calcularemos los errores
obtenidos cuando estimamos la endógena (disco2) para ese período extramuestral (no
utilizado en la estimación) con los parámetros obtenidos con la muestra 1-33
Dependent Variable: DISCO2
Method: Least Squares
Sample: 1 33
Included observations: 33
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
DISCO1
CONCIERTOS
PRECIO
COMPETENCIA
14.82836
0.960642
0.734010
-1.336203
-0.963859
1.101533
0.469304
0.094043
0.564522
0.490119
13.46156
2.046949
7.805044
-2.366963
-1.966580
0.0000
0.0502
0.0000
0.0251
0.0592
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
0.787312
0.756928
0.730802
14.95402
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
21.92100
1.482286
2.349380
2.576123
14 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
Donde el valor de la suma cuadrática de los errores es 14,95402, dividido entre el
número de observaciones (33), 0,4531.
Aplicando los coeficientes obtenidos en esta regresión auxiliar (más arriba) a los
valores de las exógenas, obtenemos los valores estimados para la submuestra 34-37.
Y restando de la endógena real (disco2) para la misma submuestra, los errores
extramuestrales. Su suma al cuadrado media es 0,1251.
El coeficiente de Janus será entonces:
J=
0,1251
= 0,2760
0,4531
En definitiva, el modelo cometerá menores errores en el período de simulación que en
el de estimación.
En cuanto a la segunda medida de bondad a posteriori, el contraste del Predictor, y no
teniendo valores de las exógenas fuera de la muestra dada, tan solo es posible
calcularlo como el intervalo máximo en el que se moverán los valores de simulación
con un 95%. Es decir, calcularemos el intervalo de predicción puntual cuando, como
valor de simulación o predicción de las exógenas empleamos su valor medio.
Pr Yˆn+1 − t nε −/k2 * σˆ * 1 + 1 n < Yn+1 < Yˆn+1 + t εn−/k2 * σˆ * 1 + 1 n  = 1 − ε


Es decir,
Pr 22,062 − 2,042 * 0,6930 * 1 + 137 < Yn+1 < 22,062 + 2,042 * 0,6930 * 1 + 137  = 1 − 0,05


Luego, con un 95% de confianza, podré afirmar que el valor de la venta de disco2 en
un país distinto a los que utilizo para la estimación estará entre (20,63 ; 23,49).
4. BREVE RESEÑA SOBRE UTILIZACIÓN DEL MODELO
En este documento se ha pretendido ilustrar, con un ejemplo práctico, el contenido
aplicado de la asignatura de Econometría I, haciéndose un análisis de casi todas las
fases y contrastes contemplados en el programa, aún cuando el tipo de modelo (corte
temporal) en algún caso los hiciera poco necesarios.
Finalmente, y una vez comprobadas las características del modelo, cabe utilizarlo. En
los libros de econometría figuran cuatro grandes utilidades básicas:
a)
b)
c)
d)
Simulación
Predicción
Análisis estructural
Comprobación o refutación de teorías
15 / 16
Apuntes de clase Econometría I
Prof. Rafael de Arce
Sobre las dos primeras, bastaría con dar valor a las exógenas para calcular los
resultados de predicción o simulación sobre las posibles ventas del disco 2 en algún
otro país no empleado para realizar la estimación. Ya disponemos de los parámetros,
con las máximas calidades estadísticas, para poder realizar este fácil cálculo:
DISCO2 = 14.74656647 + 0.9016431559*DISCO1
1.450426963*PRECIO - 0.9437148385*COMPETENCIA
+
0.7503142976*CONCIERTOS
-
En cuanto al análisis estructural, para poder medir la importancia relativa de cada una
de las variables para explicar a la endógena, deberíamos estandarizar los parámetros,
ya que inicialmente estos serán mayores o menores no solo por su grado de
importancia, sino también por el rango de valores de la variable a la que multiplican.
Para estandarizar los parámetros:
βˆ jS tan dard = βˆ j *
SXj
SY
En nuestro caso, los parámetros estandarizados serían los siguientes:
Variable
Coefficient
DISCO1
CONCIERTOS
PRECIO
COMPETENCIA
0,901643
0,750314
-1,450427
-0,943715
Dev. Típica Dev. Típica Standard Coefficient
variable
endógena
0,291137
0,233795
1,501571
0,276801
1,493008
1,493008
1,493008
1,493008
0,17582065
0,11749412
-1,45874578
-0,17496306
En definitiva, la variable más relevante para definir la venta de discos parece ser el
PRECIO. De un modo similar influirían las ventas del disco anterior y la competencia y,
ligeramente menos peso tendría CONCIERTOS.
Respecto a la última “utilidad” del modelo, este nos confirma el supuesto inicial de que
estas son las variables que influyen a la hora de determinar la venta de disco2, aunque
en las fases de contrastación podríamos haber suprimido alguna si no hubiera sido
significativa, poniendo en entredicho nuestra elección inicial de las variables relevantes
(aunque no es el caso de este ejercicio). Quizá esta utilidad tenga mayor relevancia
cuando planteamos un modelo teórico inicial de un carácter más académico.
16 / 16
Descargar