COMPARACIÓN DE DOS MODELOS ECONOMÉTRICOS

Anuncio
COMPARACIÓN DE DOS MODELOS ECONOMÉTRICOS
Un problema que puede presentarse en la práctica es la comparación de dos modelos
econométricos. Por ejemplo, se desea analizar si el precio de la vivienda en dos barrios
difiere significativamente, o si se ha producido un cambio significativo en este precio en
el año en curso respecto al precio vigente hace tres años, o también, si las calificaciones
obtenidas por los chicos que estudian una carrera se diferencian de las notas obtenidas
por las chicas, o bien, si el beneficio de una empresa que actua en dos mercados
distintos difieren entre sí.
En principio se podría pensar que estas cuestiones se abordan estadísticamente con
contrastes de hipótesis como los de comparación de las medias de dos poblaciones (los
dos barrios, las dos épocas, los dos sexos, etc), o con contrastes de comparación de otros
parámetros de estas poblaciones, o incluso con tests de ajuste o identidad entre las dos
poblaciones investigadas.
Sin embargo, al planificar un experimento muestral para responder a las preguntas
planteadas, sin duda se pretenderá que la respuesta sea realista, en el sentido de
adaptarse de forma lo mas adecuada posible a las condiciones del mercado o de las
poblaciones investigadas. Así, al comparar el precio medio de la vivienda en dos zonas
de una ciudad, hay que tener en cuenta otras variables que condicionan o explican esta
variable (por ejemplo la superficie de un piso, el número de habitaciones, su
equipamiento, la zona de la ciudad donde se ubica, etc.), o al comparar las notas
obtenidas por estudiantes de ambos sexos, cabe tener en cuenta otros factores exógenos
que determinan, al menos en parte, las calificaciones (por ejemplo, el número de horas
de estudio semanales, la asistencia o no a clase, su capacidad intelectual, etc.).
Para simplificar el problema, vamos a considerar un modelo para explicar las
variaciones de una variable endógena, y, en función de una sola variable exógena, x, y
de un factor no numérico, d, binario, que se va a codificar mediante los números 0 y 1
(podría codificarse también con los valores +1 y –1). En el caso que el factor tuviese
mas de dos niveles (por ejemplo, tres barrios de una ciudad, se necesitarían dos
variables artificiales binarias como la variable artificial d anterior).
Sea pues, y la nota obtenida en una asignatura por un estudiante, x, las horas de estudio,
y d su sexo (d = 0 para un chico y d = 1 para una chica). Se parte de la suposición que la
variable endógena y va a depender linealmente de las variables exógenas x y d. Esta
suposición es discutible, pues posiblemente al aumentar mucho las horas de estudio el
efecto marginal sobre la calificación va a ir decreciendo, lo que implica una no
linealidad. Vamos a plantear dos modelos alternativos:
y = 0 + 1 x + 2 d + 
en el que el coeficiente 2 representa el efecto aditivo sobre la nota asociado al sexo del
estudiante, y el modelo
y = 0 + 1 x + 2 d + 3 x d + 
en el que se incluye un efecto aditivo 2, y uno multiplicativo cuantificado en el
coeficiente 3, que afecta a la pendiente de la recta asociada a cada sexo, es decir al
rendimiento marginal de cada hora de estudio, que, hipotéticamente podría ser distinto
para chicos y chicas.
Si se utiliza el primer modelo, la comparación de las calificaciones obtenidas para cada
sexo, se puede realizar con el test T sobre el coeficiente 2, es decir, planteando las
hipótesis
H0: 2 = 0
H1: 2  0
Si se acepta H1, a un nivel de significación , se estará aceptando que existen
diferencias entre los rendimientos académicos en función del sexo, y estas diferencias
serán iguales (efecto aditivo) para estudiantes que dediquen diferentes números de horas
de estudio, mientras que si se acepta H0, se considera, al nivel de significación 
empleado, que no existen diferencias asociadas al sexo. Si se sospecha que, por
ejemplo, las chicas obtienen mejores notas con la misma intensidad de estudio, cabe
plantear la hipótesis alternativa como unilateral, es decir, H1: 2 > 0, (mayor, pues se ha
codificado d = 0 para hombres y d = 1 para mujeres). Esto afecta a la regla de decisión a
utilizar con el estadístico T asociado al parámetro 2, que también será unilateral.
En el caso que se utilice el segundo modelo, la comparación entre los dos sexos implica
realizar dos contrastes T, es decir, realizar los tests
H0: 2 = 0
H1: 2  0
H0: 3 = 0
H1: 3  0
Si se aceptan ambas hipótesis nulas, se podrá considerar que no existen diferencias, y si
se acepta al menos una hipótesis alternativa, que sí existen diferencias entre los dos
sexos. El problema de proceder de esta forma es que si se realizan los dos tests a un
cierto nivel de significación , como ambos tests están relacionados, el nivel de
significación conjunto para la decisión global sobre los dos parámetros, no es conocido.
Por ello, es preferible plantear el contraste F sobre los dos parámetros que están
asociados al efecto atribuible al sexo, es decir, realizar el contraste
H0: 2 = 0
H1: 2  0
y
o/y
3 = 0
3  0
basado en el correspondiente estadístico F, cuya distribución muestral, si H0 es cierta, es
de tipo F de Snedecor.
El planteamiento anterior puede extenderse sin dificultad si se dispone de mas de una
variable explicativa, x, de la calificación, como puede ser la proporción de clases a las
que asiste, o incluso alguna variable artificial adicional (por ejemplo, si es o no
repetidor). En todo caso, las variables que se introduzcan como explicativas (numéricas
o artificiales), deben ser exógenas, es decir, que su variación dependa de causas externas
al modelo.
UN EJEMPLO NUMÉRICO: EFECTO ADITIVO
Se dispone de una muestra aleatoria de 20 estudiantes, 10 chicos y 10 chicas tomada en
una facultad, y se les pregunta su calificación en una asignatura, y, y las horas de
estudio semanales, x, dedicadas a ésta.
Los datos disponibles son
Chicos
Chicas
Nota
Horas
Nota
Horas
5.7
6.1
7.25
4.1
8.7
5.7
8.9
5.7
5.3
9.5
2
3
5
1
6
4
7
3
2
8
5.3
4.6
4.1
3
4.1
6.8
7.8
4.8
7.2
4.4
5
4
2
1
3
6
8
4
7
3
Por lo tanto se dispone de n = 20 datos, y la variable artificial, Sexo, se ha codificado
con los valores 0 y 1.
Al realizar un diagrama de dispersión con los datos de las notas respecto al número de
horas de estudio, se obtiene
10
9
8
Chicas
NOTA
7
6
Chicos
5
4
3
2
0
1
2
3
4
5
6
7
8
9
HORAS
En el gráfico se observa que la evolución de las notas de las chicas con respecto a las de
los chicos tiende a ser superior en relación al número de horas estudiadas.
Al estimar el primer modelo se obtiene
Nota = 2.115 + 0.72 Horas + 1.63 Sexo + e
(0.216)
(0.041)
(0.177)
La salida obtenida con EViews es la siguiente:
Dependent Variable: NOTA
Method: Least Squares
Included observations: 20
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
HORAS
SEXO
2.115618
0.719624
1.628925
0.215843
0.040944
0.176773
9.801674
17.57570
9.214786
0.0000
0.0000
0.0000
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
0.957139
0.952096
0.394852
2.650437
-8.168693
2.595677
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
5.952500
1.804051
1.116869
1.266229
189.8136
0.000000
Se tiene pues que ambas variables exógenas muestran una clara influencia sobre la nota
obtenida, pues si se realizan los tests T sobre los coeficientes del modelo teórico, es
decir
H0: 1 = 0
H0: 2 = 0
H1: 1  0
H1: 2  0
se obtienen respectivamente los valores t1= 17.57, y t2 = 9.21, es decir valores muy
elevados. Al tomar la decisión a niveles de significación  = 1%,  = 0.1%, e incluso
para niveles mas pequeños, en ambos casos se acepta la hipótesis alternativa. La
probabilidad límite de ambos valores se muestra en la última columna de la salida, y
para ambos estadísticos es menor a 0.0001, por lo que incluso hasta este nivel de
significación se aceptaría, para los dos contrastes la hipótesis H1.
En el modelo estimado, el coeficiente de la variable Horas muestra la productividad
marginal de una hora adicional de estudio: un incremento de 0.72 puntos, por término
medio, en la nota final. También se concluye que en el caso de las chicas, por término
medio, obtienen casi 1.63 puntos mas que los chicos, para cualquier cantidad de horas
estudiadas. El efecto estimado es de tipo aditivo.
El coeficiente de determinación es R2 = 0.957: el 95.7% de la varianza de las notas es
explicada por el modelo, y el resto se integra en la varianza residual, esto es, la parte de
la nota no explicada por las dos variables consideradas.
0.8
Residuos
0.4
0.0
-0.4
-0.8
Chicos
-1.2
2
4
6
Chicas
8
10
12
14
16
18
20
Los residuos correspondiente a los 20 datos se muestran en el gráfico anterior, y no
parecen seguir ninguna pauta. Ninguno es mayor que la unidad, en valor absoluto, y
solo cuatro superan el medio punto, es decir, que el poder predictivo del modelo es
bueno.
EJEMPLO NUMÉRICO: EFECTOS ADITIVO Y MULTIPLICATIVO
En el próximo ejemplo se va a estimar el segundo tipo de modelo, incluyendo como
variables explicativas además del número de horas de estudio y el sexo del alumno, una
variable producto de estas dos, que representa la interacción entre ambas, y cuyo
coeficiente estimado corresponde a un efecto multiplicativo del sexo sobre la nota final.
Los datos disponibles son
Chicos
Chicas
Nota
Horas
Nota
Horas
5.3
5.5
6.25
3.9
7.5
4.9
7.5
5.1
4.9
7.9
2
3
5
1
6
4
7
3
2
8
5.3
4.6
4.1
3.0
4.1
6.8
7.8
4.8
7.2
4.4
5
4
2
1
3
6
8
4
7
3
Por lo tanto se dispone de n = 20 datos, y la variable artificial, Sexo, se ha codificado
con los valores 0 y 1.
El modelo a estimar es ahora
Nota = 0 + 1 Horas + 2 Sexo + 3 Notas  Sexo + 
Al utilizar los datos se llega a
Nota = 2.25 + 0.69 Horas + 1.38 Sexo – 0.14 Horas  Sexo + e
(0.288) (0.06)
(0.393)
(0.083)
La salida de EViews es la siguiente
Dependent Variable: NOTAS
Variable
Coefficient
C
HORAS
SEXO
HORAS*SEXO
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
2.248753
0.688662
1.381309
-0.141116
0.936316
0.924376
0.400783
2.570037
-7.860649
2.431805
Std. Error
t-Statistic
Prob.
0.288807
0.060352
0.393307
0.083230
7.786345
11.41079
3.512040
-1.695506
0.0000
0.0000
0.0029
0.1093
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
5.542500
1.457402
1.186065
1.385211
78.41411
0.000000
El coeficiente de determinación R2 = 0.936, es decir, el 93.6% de la varianza de las
notas es explicada por el modelo. Los estadísticos T para realizar los contrastes sobre
los coeficientes del modelo toman los valores t1 = 11.4, t2 = 3.51, y t3 = -1.695. Si se
realizan los tests T para contrastar cada una de las hipótesis siguientes
H0: 1 = 0
H1: 1  0
H0: 2 = 0
H1: 2  0
H0: 3 = 0
H1: 3  0
en los dos primeros casos, incluso para niveles de significación  = 1%, se aceptarían
las correspondientes hipótesis alternativas, esto es, se acepta que hay que mantener las
variables Horas y Sexo en el modelo. En el caso del efecto multiplicativo o interacción
entre estas dos variables, se tiene que la probabilidad límite del estadístico t3 es p =
0.1093, por lo que incluso a un nivel de significación  = 10% se acepta H0. En el
gráfico siguiente se observa que este efecto multiplicativo parece existir con bastante
claridad, y si se toma  = 11%, como p es inferior, a este nivel se acepta la hipótesis H1
del tercer test, esto es, se acepta la existencia del efecto multiplicativo. Como el nivel de
significación  del test representa la probabilidad de cometer error de tipo I (rechazar
H0 siendo cierta, o dicho de otro modo, incluir una variable no relevante), mientras que
el error de tipo II se comete cuando se omite una variable relevante, es aconsejable
tomar valores de  que no sean pequeños, para conseguir disminuir la probabilidad de
cometer error de tipo II, pues, de forma general, parece mas ‘grave’ excluir alguna
variable exógena relevante, que incluir alguna variable sobre la que exista duda si debe
estar o no incluida una variable que puede no ser importante. Así pues, el tomar en este
caso un valor de  = 11%, y decidir mantener la tercera variable (el efecto
multiplicativo) en el modelo, parece la solución mas razonable.
En todo caso hay que resaltar que la decisión sobre el nivel de significación, y, en
definitiva sobre la inclusión o exclusión de variables en un modelo econométrico, es de
naturaleza extra-estadística, y debe estar basada en el conocimiento económico de la
situación modelizada.
Una alternativa a los tests T sobre la inclusión de las dos variables en las que figura la
variable Sexo, es realizar el test F de análisis de la varianza en la que se contrasta
conjuntamente la inclusión o exclusión de estas dos variables. Al hacerlo, la conclusión
a que se llega, incluso a niveles de significación  muy bajos es que deben mantenerse,
al aceptarse la hipótesis H1: 2  0 o/y 3  0.
El modelo estimado da origen a un modelo distinto para cada sexo. Así para los chicos,
es
Nota = 2.25 + 0.69 Horas + e
y para las chicas,
Nota = 3.63 + 0.55 Horas + e
El efecto aditivo a favor de las chicas, de 1.38 puntos adicional en la nota final,
independientemente de las horas estudiadas, se ve compensado en parte por el efecto
multiplicativo que afecta a la pendiente, disminuyendo el valor de esta en 0.14 puntos
por hora, es decir, por una menor productividad marginal de cada hora extra de estudio.
9
Notas
8
7
Chicas
6
Chicos
5
4
3
Horas
2
0
1
2
3
4
5
6
7
8
9
Las líneas (rectas) señaladas por los puntos en rojo corresponden a los dos modelos
estimados. La pendiente de ambos modelos es distinta (efecto multiplicativo), y las
ordenadas en el origen (efecto aditivo) también.
COMETARIOS FINALES SOBRE LOS MODELOS
En ambos modelos se debe realizar un análisis de los posibles problemas econométricos
que se pueden presentar:
-
-
-
-
Heterocedasticidad: en los gráficos de residuos no se detecta tendencia en
variabilidad, y puede realizarse algún test, como el de White o el de GoldfeldQuandt (tomando como posible variable explicativa el sexo).
Autocorrelación: no procede, pues son datos de corte transversal, en los que no
tiene sentido el que exista autocorrelación
Normalidad de las perturbaciones aleatorias (i, i =1,2,...,20), realizando el test
de Jarque-Bera usando los residuos ei, i = 1,2,...,20.
Multicolinealidad: en este caso es inmediato comprobar que la redundancia de
información no es importante: los coeficientes de correlación entre las tres
variables explicativas son –0.402, 0.046 y 0.795. Este último, algo mas elevado
es la correlación entre la variable Horas y la variable interacción Sexo  Horas.
No es posible evitarla, y es claro, que la relación entre éstas no es lineal.
También se puede obtener el número de condición.
Incorrecta especificación del modelo: es obvio que puede pensarse en otras
posibles variables explicativas exógenas que no se han incluido: el coeficiente
de inteligencia de cada alumno o algunas facetas de éste, el grado de asistencia a
clase, la atención en ésta, su regularidad en el estudio, etc. También cabe
cuestionar si la forma funcional seleccionada es la adecuada.
El rango de valores de la variable horas de estudio, en el que es aplicable el
modelo: para realizar predicciones de la nota estimada, hay que considerar
posibles nuevos alumnos que hayan estudiado un número de horas similar a la
de los 20 usados para estimar el modelo.
COMETARIOS SOBRE LA SALIDA EViews
El listado de salida obtenido con la orden
LS Notas c Horas Sexo Sexo*Horas
proporciona una información extensa.
Las desviaciones típicas estimadas de los coeficientes de regresión (Std. Error) se
obtienen a partir de los elementos de la diagonal principal de la matriz
Sb  se2 (X'X)1  se2 A
Si se numeran las filas a partir del número 0, (pues al primer coeficiente del modelo se
le ha llamado 0, por ejemplo, la desviación típica estimada del estimador del parámetro
1 de la variable Horas es
sb1  se a11  0.400783 a11  0.060352
De igual forma se obtienen las demás desviaciones típicas. Nótese que la cuasidesviación típica residual, se , aparece en el listado en la parte inferior (S.E. of
regresión), y se calcula a partir de los 20 residuos, ei, i = 1,2,...,20
0.574847
-0.920245
-0.392063
0.419274
0.227301
0.037117
-0.403401
0.041950
-0.117791
-0.172699
0.473923
-0.203401
-0.277607
0.174847
0.062585
0.130612
0.584663
-0.110429
-0.214739
0.085261
mediante la expresión
1 20 2 1
1
ei  Se  2.570037  0.4007832

20  4 i 1
16
16
(pues en el modelo se han estimado 4 coeficientes de regresión).
se2 
La suma de cuadrados residual también aparece en el listado de salida, en la parte
inferior, así como la media de los valores de la variable endógena, Notas, y su cuasidesviación típica
1 20
1
( Notasi  5.5425)2 
S y  1.457402

20  1 i 1
19
El estadístico F = 78.41411 es para realizar el test de análisis de la varianza sobre todos
los coeficientes, poco útil en la práctica, pues no parece imaginable el plantear un
modelo en el que ninguna de las variables explicativas tenga poder predictivo sobre Y.
sy 
Los estadísticos T se obtienen, para cada test de la forma
H0: j = 0
H1:  j  0
dividiendo el coeficiente estimado por su respectiva desviación típica estimada. Por
ejemplo, para la tercera variable, j = 3, es
0.141116
t3 
 1.695506
0.083230
y la probabilidad límite asociada a este valor es
p = 2 Pr[T > |-1.695506| ] = 0.1093
siendo T una variable aleatoria t de Student con 20 – 4 = 16 grados de libertad. De igual
forma se calculan las probabilidades límite de los restantes estadísticos. Estas
probabilidades límite son útiles, pues permiten realizar los tests T a cualquier nivel de
significación  sin necesidad de disponer de unas tablas estadísticas de esta distribución
t(16): valores de p   conducen a aceptar (a este nivel ) la hipótesis H0, y valores de
p <  a aceptar H1.
El coeficiente de determinación R2 se define a partir del teorema de descomposición de
la varianza de la variable endógena (y = Notas): la suma de cuadrados total, Sy, se
divide en dos sumandos
Sy = Smodelo + Se
la suma de cuadrados explicada por el modelo y la residual. Así es R2 = Smodelo / Se . En
el listado de salida aparece directamente la suma de cuadrados residual, Se = 2.570037,
la cual también se puede obtener directamente a partir de la cuasi-desviación típica
residual, se  0.400783 , como se vio anteriormente. La suma de cuadrados total se
deduce directamente de la expresión de la cuasi-desviación típica de la variable
endógena. En este caso la descomposición anterior es
Sy = 19  1.4574022 = Smodelo + 2.570037
de donde se deduce el valor de R2.
En la ventana en la que EViews muestra el modelo estimado hay varios botones: el
primero (View) permite visualizar varios aspectos del modelo estimado: la salida
anterior, los gráficos de residuos y de valores estimados, el listado de los residuos, así
como varios contrastes de hipótesis para realizar una vez estimado el modelo y validar
distintos aspectos del mismo.
Descargar