Prácticas Aula informática 16/11/12

Anuncio
TALLER DE ECO
OMETRÍA
APLICADA A LA TOMA DE
DECISIO
ES EMPRESARIALES
(EADE)
4º Curso, Grado.
Prof. Juan Muro
oviembre 2012
Taller de EADE. Juan Muro.Pág.2
E
SAYO 2. ¿Influye el nivel de estudios
del sustentador principal de una familia
sobre la probabilidad de adquirir un vehículo?
¿Es lineal esta influencia?
Durante la realización de este ensayo el alumno tratará de encontrar una respuesta a la cuestión
planteada y, en el camino, deberá ejercitarse en la utilización y comprensión de los modelos de
elección discreta logit y probit. Estos modelos son ampliamente utilizados en los estudios de
demanda en el caso en el que la variable objetivo, en este ensayo la adquisición de un vehículo
para uso personal o particular, proporcione una información que responde a equilibrios del
consumidor con soluciones de esquina.
La información necesaria para la parte empírica del ensayo proviene de una muestra aleatoria
de hogares obtenida de la Encuesta básica de Presupuestos Familiares (EBPF) correspondiente a
los años 1990-91. Esta información se encuentra en el fichero ensayo02.wf1.
1. Modelo teórico.
Como se sabe, las soluciones de esquina caracterizan numerosas situaciones de equilibrio en la
teoría del consumidor. Dados un conjunto de precios y renta disponible la maximización de la
utilidad se manifiesta en esta circunstancia en que el consumidor demanda o no demanda un bien
concreto. La elección entre sanidad pública o privada, los gastos en educación, son ejemplos
concretos de soluciones de esquina. Con datos transversales y demanda de bienes duraderos la
influencia del tiempo en las decisiones de consumo complica la interpretación de los modelos de
demanda con soluciones de esquina. En lo que sigue, por motivos de simplicidad no se tendrá en
consideración este último efecto de maximización intertemporal de la utilidad.
El que un consumidor, o una familia como unidad de decisión económica, alcance una
solución de esquina depende tanto de las características del espacio factible (opportunity set), y
de su frontera la restricción presupuestaria, como de la forma del mapa de preferencias. A falta de
un sustento teórico más elaborado, que escapa de la pretensión de este ensayo empírico,
mantendremos que el modelo empírico que represente la decisión de una familia de consumir o
no consumir un bien concreto tendrá como determinantes tanto variables que representen el
conjunto factible, por ejemplo la renta disponible, como variables que condicionen la forma del
mapa de preferencias, como la edad, la educación, el sexo, el número de miembros del hogar, etc.
2. Descripción de los datos.
Los datos que contiene el archivo ensayo02.wf1 son poco conocidos, por no haberse empleado
apenas en las sesiones desarrolladas en el aula. Un examen detallado de los mismos, sin embargo,
no sería de gran utilidad en este texto y se deja para el trabajo en el aula de informática. Lo que sí
resulta conveniente en este momento es el comentario de ciertas variables que resultan
representativas del resto, en especial de aquellas cuya información no observa un
comportamiento potencialmente continuo. Como ilustración se describirán las variables que
representan la compra de vehículos para el transporte personal, vehiculos, y el nivel de estudios
Taller de EADE. Juan Muro.Pág.3
del sustentador principal del hogar, nivest.
2.1. Gráficos individuales.
La variable objetivo en este ensayo es el gasto en vehículos destinados al transporte personal, que
responde en la zona de trabajo ensayo02.wf1 al nombre de vehiculos. Su descripción completa se
lograría por medio de la interpretación de un gráfico de la variable, de su histograma y de un
gráfico de distribución de la misma. Se incluyen los dos últimos.
El resultado de pinchar la variable vehiculos y, a continuación, pinchar view/descriptive
statistics & tests/histogram and stats es el histograma del Gráfico 7. Como se ve, hay 968
datos de la variable. La información es una mezcla de datos discretos y continuos. A simple vista
cabe apreciar que casi 800 datos son nulos, es decir, en el entorno de 800 hogares no compraron
un vehículo para su transporte personal en el periodo considerado. El resto presenta el gasto
realizado en la compra de un vehículo. El hecho de que la información se divida tan
extremadamente en información discreta y continua confirma que la pregunta importante en esta
situación es la de interrogarnos sobre de qué depende, cuál es la probabilidad asociada con, que
una familia compre o no un vehículo. Se observa además que el contraste de Bera-Jarque rechaza
el supuesto de distribución normal.
Gráfico 7. Histograma y estadísticos asociados de la variable vehiculos.
Si pinchamos view/graph/distribution/emirical cdf obtenemos el Gráfico 8 situado en la
página siguiente. La función de distribución empírica de la variable nos dice que las familias sin
gasto en vehículos suponen una probabilidad mayor del 80 %. En consecuencia, con respecto al
gasto en vehículos la muestra es desequilibrada con una probabilidad mucho menor de adquirir
un vehículo que de no adquirirlo. Este resultado es importante para la interpretación de los
modelos logit y probit.
El mismo procedimiento de los párrafos anteriores lo aplicamos para describir la variable
Taller de EADE. Juan Muro.Pág.4
nivest. En los Gráficos 9 y 10 de las dos páginas siguientes se encuentran, respectivamente, el
histograma y la distribución empírica de nivest. En este caso lo que interesa destacar por encima
de todo es que los valores que toma la variable tienen una interpretación cualitativa y no
cuantitativa. El valor 1, por ejemplo, representa que el sustentador principal del hogar es una
persona sin estudios y el 0 que es analfabeto. El valor 2 no significa que el nivel educativo sea
Gráfico 8. Función empírica de distribución de la variable vehiculos.
Gráfico 9. Histograma y estadísticos asociados de la variable nivest.
Taller de EADE. Juan Muro.Pág.5
el doble del alcanzado por las personas que tienen un valor 1. No obstante, los valores sí que
poseen una interpretación ordinal, de tal forma que categorías de la variable con un índice
cuantitativamente superior indican que el nivel de estudios alcanzado es superior a las categorías
con índices menores. Conviene destacar que este tipo de variable es muy común en la
información de los agentes económicos individuales. Cuando variables discretas con contenido
ordinal son las variables objetivo, las del lado izquierdo, en una investigación su análisis da
origen a un tipo de modelos llamados modelos de elección discreta para datos ordenados.
Gráfico 10. Función empírica de distribución de la variable nivest
En el caso en que este tipo de variables se incluyan en la parte derecha de las ecuaciones, es
decir, formen parte de las variables condicionantes del modelo empírico, lo habitual es la división
de la información de la variable en categorías. Estas pueden ser las ya contempladas en la
codificación original de la variable o construidas mediante una agrupación de las originales. A
continuación se incluyen en la parte derecha de la ecuación tantas variables dicotómicas como
categorías consideradas menos una (en la situación común de que haya término independiente en
la ecuación). Cada una de estas variables toma el valor 1 cuando la variable nivest toma el valor
de la categoría considerada y 0 en el resto de los casos. Por ejemplo, si construimos una variable
que represente el nivel educativo de las personas sin estudios o con estudios primarios, la
variable primarios en nuestra zona de trabajo, esta variable dicotómica tomará el valor 1 siempre
que la variable nivest tome un valor menor o igual a 2 (valores 0, 1 y 2) y 0 en el resto de los
casos. La construcción de variables dicotómicas se hace de una manera sencilla en EViews por
medio de la función @recode(condicion, 1, 0) que genera una variable que toma el valor 1
cuando se cumple la condición y 0 en el resto de los casos (recuerde también el uso de la función
@expand(variable,@drop(numero)) cuando queremos construir tantas variables ficticias como
valores discretos tenga una variable, menos el número contenido en la instrucción @drop).
Taller de EADE. Juan Muro.Pág.6
2.2. Gráficos por parejas.
Para ver la relación entre la variable vehiculos y otras variables, aquellas que la teoría económica
sugiere que influyen sobre su comportamiento, usamos gráficos de dispersión y de dispersión con
líneas de ajuste. La forma de hacerlo se encuentra en el epígrafe 2.2 del Ensayo 1. Estos gráficos
son de interpretación muy específica en el caso de variables discretas, interpretación
extraordinariamente ligada a las circunstancias concretas del ensayo considerado, por lo que se
reservan para el trabajo en la clase práctica en el aula informática.
3. Estimación de una ecuación.
En este ensayo la variable objetivo contiene información discreta y continua. En la literatura hay
modelos específicos para el tratamiento de estas variables, pero no son objeto de este ensayo
(modelos tobit o heckit). Como se ha dicho antes, aquí nos interesa únicamente saber cuál es la
probabilidad de que un hogar compre o no compre un vehículo para el transporte personal. A fin
de acomodar la información empírica a las condiciones de nuestra pregunta hacemos discreta la
información de la variable vehiculos. Para ello basta con mantener los ceros de la variable
inalterados, familias que no compran, y convertir los valores distintos de cero de la variable en un
1, familias que compran. Esta tarea se puede realizar por medio de la función
@recode(vehiculos>0,1,0) aunque hay que señalar que esa operación no es necesaria. En el
EViews, como en numerosos programas econométricos hoy en día, la mera sentencia
vehiculos>0 en la especificación de una ecuación hace que el programa cree una variable
dicotómica que toma el valor 1 cuando la condición se cumple y 0 en el resto.
Construimos un modelo empírico que determine la probabilidad de tomar la decisión de
comprar o no comprar, la variable endógena para nuestros propósitos. Lo hacemos por medio de
un modelo logit o probit. Como se sabe, ambos modelos difieren únicamente en la forma de la
distribución, logística o normal, respectivamente, que rige la probabilidad de ocurrencia de un
suceso o de que se tome la decisión considerada. Como se verá ambas especificaciones conducen
a idénticas conclusiones empíricas, por lo que la elección de un modelo u otro es materia de mera
conveniencia. El argumento de la función de distribución es una combinación lineal (en los
parámetros) de un conjunto de variables débilmente exógenas. Como se sabe, para nuestros
objetivos de aprendizaje no nos centraremos de una forma importante en la crítica del modelo
empírico y partiremos del supuesto de que la exogeneidad débil de las variables determinantes se
cumple.
Conviene destacar que en los modelos logit y probit los parámetros estimados permiten
construir, para cada observación, el valor del índice formado por la combinación lineal de
parámetros y variables del lado derecho, pero el valor del índice no es el objetivo final del
modelo (en concreto, los modelos logit y probit proporcionan valores diferentes del índice para
cada observación concreta). A continuación, el valor del índice se transforma en un valor de la
probabilidad, entre cero y uno, por medio de las funciones de distribución logística o normal,
según el modelo sea logit o probit. Estos valores estimados de la probabilidad si pueden
considerarse objetivos de un modelo discreto. Sin embargo, la meta final se encuentra en la
predicción de los valores realmente observados, es decir, el pronóstico de si una familia concreta,
caracterizada por unos valores específicos de las variables determinantes, compra o no compra un
vehículo. Para ello es necesario la transformación de probabilidades en decisiones a través de la
definición de un umbral de transformación, que en estos momentos vamos a colocar en el valor
0.5. De esta forma, una vez definido el umbral, observaciones con una probabilidad ajustada
Taller de EADE. Juan Muro.Pág.7
superior a 0.5 son observaciones vinculadas con la compra de un vehículo y observaciones con
una probabilidad ajustada igual o inferior a 0.5 se asocian a la no-adquisición de un vehículo.
3.1. Forma funcional.
Ya se ha comentado que el índice en nuestra ecuación logit o probit es una combinación lineal de
parámetros y variables débilmente exógenas. Las posibles no linealidades en el efecto de las
variables sobre la probabilidad de comprar un vehículo se recogen en el índice a través de
especificaciones cuadráticas de ciertas variables y de términos de interacción. La renta del hogar
se incluye en logaritmos.
Conviene señalar que en numerosos estudios empíricos se discretizan todas las variables del
lado derecho, por motivos de comodidad en la interpretación de los resultados. En otras palabras,
se mantienen discretas las variables que ya lo son y se convierten en variables categóricas las
continuas. En este ensayo abordaremos tanto las especificaciones continuas, por ejemplo de
variables tales como la renta del hogar o la edad, como las discretizadas, en las que dichas
variables se convierten en categóricas.
3.2. Estrategia de modelización.
Se empleará la estrategia de lo general a lo particular, con una especificación general conducida
principalmente por los criterios que la teoría económica marca.
Conforme a la teoría económica el bien duradero que forma un vehículo para el transporte
personal es un bien normal. A medida que crece la renta crece el gasto en dicho bien. Su
clasificación como bien particular dentro de los bienes normales se ve dificultada en estas
circunstancias por la información disponible. En los datos de nuestro fichero de la EBPF no se
distingue el tipo de vehículo comprado, por lo que la agregación de vehículos de primera
necesidad y de lujo producirá un resultado final incierto.
Si introducimos la teoría del ciclo vital, nuestro modelo predice que la probabilidad de
adquirir un vehículo aumentará con la edad del cabeza de familia hasta una edad determinada a
partir de la cual esa probabilidad disminuirá.
La influencia del número de miembros del hogar es positiva sobre la probabilidad de compra
de un vehículo, aunque los efectos intertemporales, no considerados en este ensayo, arrojen
ciertas dudas sobre el sentido de esta influencia. Tampoco es predecible la linealidad o nolinealidad de dicha influencia, en el caso que la hubiere.
En un análisis transversal, por lo tanto, como el que puede realizarse con la EBPF 90-91,
parece sensato admitir que la probabilidad de comprar un vehículo venga regida al menos por dos
tipos de variables: la propia renta del hogar y la edad del cabeza de familia. El efecto lineal o no
lineal de otras variables determinantes como la edad de la mujer o el número de miembros del
hogar mayores o menores de 18 años es materia del análisis empírico.
Como modelo general la ecuación a estimar es:
Prob(Vehiculos>0)= α+β1 lrentahogar+ β2 lrentahogar^2+ β3 edad+ β4 edad^2 +
β5 miembros+ β6 miembros^2 + β7 sexo + β8 secundarios + β9 universitarios +
β10 ocupado + β11 secundarios*lrentahogar + β12 universitarios*lrentahogar +
β13 miembros*lrentahogar + β14 edad*lrentahogar + u
[4]
Taller de EADE. Juan Muro.Pág.8
3.3. Método de estimación.
Con una variable objetivo discreta, los modelos logit y probit se estiman por el método de la
máxima verosimilitud (MV).
La función de verosimilitud está formada por el producto de las contribuciones de cada una de
las observaciones de la muestra (bajo el supuesto de independencia). Las observaciones para las
que la variable vehiculos toma el valor 1 contribuyen con una probabilidad igual al valor de la
función de distribución y las observaciones en que vehiculos toma el valor 0 contribuyen con el
complementario de la función de distribución. Como es usual, la función que realmente se
maximiza es la función de verosimilitud en logaritmos. Su expresión es:
Ln L(y|X, θ)= ∑i {ln[G(X’iθ)di ]+ln[(1- G(X’iθ))(1-di)]}=
= ∑i{di lnG(X’iθ)+ (1-di) ln[1-G(X’iθ)]}.
[5]
Donde X es la matriz de variables del lado derecho (X’i la fila i de esa matriz); θ representa el
vector de parámetros; G(.) indica la función de distribución: normal en el caso del probit y
logística en el caso del logit; di, finalmente, es una variable dicotómica que toma el valor 1
cuando vehiculos>0 y 0 si vehiculos=0.
La estimación de una ecuación como la planteada en (4) se realiza mediante la maximización
de la función de verosimilitud en logaritmos en (5). Se recuerda la expresión de G(.) para ambos
modelos:
En el modelo probit: G(X’iθ)= F(X’iθ)=∫ f(t)dt.
En el modelo logit: G(X’iθ)= Λ(X’iθ)= exp(X’iθ)/(1+exp(X’iθ)).
[6]
4. Análisis de resultados.
Para estimar la ecuación en (4) seguimos el proceso que se describe a continuación. En primer
lugar, señalamos la variable del lado izquierdo, vehiculos. Luego apretamos la tecla de control y
vamos señalando las variables del lado derecho: lrentahogar, edad, miembros, sexo, secundarios,
universitarios y ocupado. Hacemos doble clic sobre la zona oscura y escogemos la opción open
equation en el menú. Nos aparece la ventana de estimación y en esa ventana completamos los
términos que nos faltan hasta escribir la especificación considerada. En la ventana de estimation
settings escogemos la opción BI
ARY-binary choice (logit, probit, extreme value). Aparecen
tres botones en la parte inferior de la venta de especificación (arriba de la ventana que estabamos
usando) que rezan: logit; probit; extreme value. Las opciones que usaremos en este ensayo son
las de logit y probit que se corresponden con la estimación MV de los modelos que reciben el
mismo nombre. El resultado del proceso para el modelo logit se encuentra en el Cuadro 7 de la
página siguiente. El resultado de la estimación de un probit con idéntica especificación se da por
reproducido y se realizará en la clase de prácticas en el aula de informática.
Como se observa en el Cuadro 7, la salida del programa es muy parecida a la de un modelo
usual de regresión con algunos detalles diferenciales que se mencionan a continuación. En primer
lugar, y en orden de arriba abajo, se informa sobre el procedimiento numérico de maximización
Taller de EADE. Juan Muro.Pág.9
de la función de verosimilitud. En los modelos logit y probit la obtención de los estimadores de
los parámetros no se produce como consecuencia de la resolución de un sistema lineal de
ecuaciones. Por el contrario, la resolución de las ecuaciones de verosimilitud de la función de
verosimilitud en logaritmos en (5) (condiciones de primer orden del máximo) debe realizarse
mediante un procedimiento no lineal que emplea alguno de los algoritmos numéricos al uso en
Econometría. En este caso el denominado Quadratic hill climbing.
En segundo lugar, se da información sobre el modo de cálculo de la matriz de varianzas y
covarianzas: Covariance matrix computed using second derivatives. Este método es uno de los
posibles para este cálculo. Otras posibilidades se sustentan en el cálculo de alguno de los
equivalentes asintóticos de la matriz de varianzas y covarianzas.
Finalmente, se encuentra un pequeño apartado al final del Cuadro 7 donde está una
descripción de los valores que toma la variable del lado izquierdo. Estos valores se utilizan para
establecer un modelo ingenuo de referencia, como veremos más adelante.
Cuadro 7. Resultados de la estimación de un logit de la ecuación en (4): Modelo general.
============================================================
Dependent Variable: VEHICULOS>0
Method: ML - Binary Logit (Quadratic hill climbing)
Date: 03/17/02
Time: 16:06
Sample: 1 968
Included observations: 968
Convergence achieved after 11 iterations
Covariance matrix computed using second derivatives
============================================================
Variable
CoefficientStd. Errorz-Statistic Prob.
============================================================
LRENTAHOGAR
8.714420
7.855818
1.109295
0.2673
LRENTAHOGAR^2
-0.262947
0.278997 -0.942472
0.3460
EDAD
-0.105667
0.222657 -0.474571
0.6351
EDAD^2
-0.000685
0.000559 -1.226389
0.2201
MIEMBROS
3.877025
1.629140
2.379799
0.0173
MIEMBROS^2
0.018607
0.027769
0.670060
0.5028
SEXO
0.174106
0.320628
0.543016
0.5871
SECUNDARIOS
-10.40330
7.273610 -1.430280
0.1526
UNIVERSITARIOS
-10.61784
12.07485 -0.879335
0.3792
OCUPADO
-0.134351
0.298857 -0.449551
0.6530
C
-72.57290
56.00461 -1.295838
0.1950
SECUNDARIOS*LRENTAHOG0.729752
0.501106
1.456283
0.1453
UNIVERSITARIOS*LRENTA0.682889
0.810012
0.843060
0.3992
MIEMBROS*LRENTAHOGAR-0.268059
0.116137 -2.308127
0.0210
EDAD*LRENTAHOGAR
0.009595
0.014961
0.641322
0.5213
============================================================
Mean dependent var
0.178719
S.D. dependent var 0.383315
S.E. of regression
0.366006
Akaike info criteri0.855530
Sum squared resid
127.6645
Schwarz criterion 0.931076
Log likelihood
-399.0765
Hannan-Quinn criter0.884288
Restr. log likelihoo-454.4232
Avg. log likelihoo-0.412269
LR statistic (14 df) 110.6935
McFadden R-squared 0.121796
Probability(LR stat) 0.000000
============================================================
Obs with Dep=0
795
Total obs
968
Obs with Dep=1
173
============================================================
Para analizar los resultados anteriores seguiremos el esquema planteado en clase y
desarrollado en el Ensayo 1.
4.1. Contrastes.
Como se sabe, en cualquier modelo estimado se deben realizar contrastes de falta de
especificación (especificación errónea) y de especificación a fin de verificar la validez del mismo.
Taller de EADE. Juan Muro.Pág.10
Seguiremos el orden ya establecido en el Ensayo 1.
4.1.1. Contrastes de falta de especificación.
Para analizar el comportamiento de los residuos del modelo logit (o probit) se debe antes
reflexionar sobre el carácter de dichos residuos. Hay que decir que estos residuos no son los
residuos MC habituales. En estos modelos discretos los residuos obtenidos mediante la diferencia
entre valores observados y ajustados (¿qué valores ajustados?) no son de gran utilidad para inferir
comportamientos erróneos en nuestro modelo. Los residuos que sí presentan propiedades
análogas a las de los residuos MC se denominan residuos generalizados y se obtienen a partir de
las ecuaciones de verosimilitud. Su expresión es:
− gi
d i gi
+ (1 − d i )
.
Gi
(1 − Gi )
[7]
Donde el subíndice i de las funciones de densidad de probabilidad y de distribución representa
que dichas funciones están evaluadas en el punto X’iθ.
Los residuos generalizados de la expresión (7) tienen propiedades de ortogonalidad con las
variables del lado derecho análogas a las de los residuos MC del modelo de regresión.
Los contrastes de especificación errónea que se suelen establecer en estos modelos son los de
variables omitidas y los de heteroscedasticidad, además de los correspondientes gráficos de
residuos. El tipo de contrastes a realizar no tiene nada que ver con los análogos del modelo de
regresión con variables del lado izquierdo continuas.
Debe recordarse que la presencia de heteroscedasticidad es el fenómeno más común en los
estudios transversales y que en los modelos de elección discreta su existencia es más relevante
que en los modelos de regresión habituales ya que produce estimaciones inconsistentes. Por esta
razón haremos un contraste de heteroscedasticidad en nuestro modelo general. El contraste de
heteroscedasticidad descrito en Davidson y Mackinnon (1993) es un contraste de multiplicadores
de Lagrange (LM) que permite este contraste en un modelo probit y no viene implementado
directamente en el EViews (en el programa tampoco está implementada ninguna otra alternativa
de contraste de heteroscedasticidad en modelos discretos) y por ello debe describirse en detalle.
Se sigue la sugerencia contenida en el manual de EViews.
El contraste es de una hipótesis nula de perturbaciones homoscedásticas frente a una
alternativa de heteroscedasticidad causada por el número de miembros de la familia, variable
miembros, que sigue la forma sugerida por Harvey, es decir, la hipótesis alternativa es que la
heteroscedasticidad presente en nuestro modelo sigue una forma multiplicativa ocasionada por la
variable miembros. En este caso la expresión de la varianza del término de error de nuestro
modelo es
Var(ui)=exp(2γ*miembros).
Donde γ es un parámetro desconocido.
La manera de realizar el contraste es efectuar una regresión auxiliar. La suma de los cuadrados
explicada de dicha regresión se distribuye asintóticamente bajo la hipótesis nula como una χ2 con
1 grado de libertad (situación particular debida a que sólo hay una variable que cause la
heteroscedasticidad, si hubiera más variables los grados de libertad serían iguales a su número).
Taller de EADE. Juan Muro.Pág.11
La regresión auxiliar tiene la forma:
yi − pˆ i
f ( − X 'i θ )
f ( − X 'i θ ) * ( − X 'i θ )
=
X 'i φ1 +
miembros * φ 2 + v i .
pˆ i (1 − pˆ i )
pˆ i (1 − pˆ i )
pˆ i (1 − pˆ i )
Donde todas las variables incluidas en la regresión auxiliar se construyen con las estimaciones y
predicciones de nuestro modelo. Las p son predicciones, la X es la matriz de variables del lado
derecho (que incluye la variable miembros) y, finalmente, f(.) es la función de densidad de
probabilidad de una variable N(0,1).
Para efectuar el contraste, en primer lugar, estimamos nuestro modelo general como un probit
y almacenamos tanto las probabilidades predichas de nuestro modelo como las predicciones que
nuestro modelo facilita del índice (combinación lineal de parámetros estimados y variables). Para
ello pinchamos forecast y elegimos la opción probability y le damos un nombre, por ejemplo
vehf1. Volvemos a pinchar forecast y elegimos la opción index y le damos otro nombre, por
ejemplo vehf2.
Luego, en segundo lugar, pinchamos procs/ Make Residual Series/ Standardized y le damos
otro nombre a la serie de residuos estandarizados, por ejemplo vehresid. Esta es la variable del
lado izquierdo de la regresión auxiliar anterior.
Finalmente, utilizamos las funciones de EViews para el cálculo de las funciones de densidad
de probabilidad y de distribución de una variable normal. Estas funciones valen para generar las
variables restantes de la regresión auxiliar. En concreto, el primer factor del primer término de la
regresión auxiliar se calcula mediante
series fac= @dnorm(-vehf2)/@sqrt(vehf1*(1-vehf1))
El primer término de la regresión completo es el grupo de variables siguiente:
group auxiliar_x fac (lrentahogar *fac) (lrentahogar^2 *fac) (miembros*fac) (edad*fac)
(edad^2*fac) (miembros^2*fac) (sexo*fac) (secundarios*fac) (universitarios*fac) (ocupado*fac)
(secundarios*lrentahogar*fac) (universitarios*lrentahogar*fac) (miembros*lrentahogar*fac)
(edad*lrentahogar*fac)
Para concluir, la regresión auxiliar es la siguiente:
vehresid auxiliar_x miembros*(-vehf2)*fac
La suma de los cuadrados explicada de la regresión auxiliar anterior cabe obtenerla mediante
la expresión scalar lm_test=@sumsq(vehresidf), donde la variable entre paréntesis es la que
contiene los valores predichos de la regresión auxiliar. La probabilidad asociada con este
estadístico se obtiene a partir de la expresión scalar p_val=1-@cchisq(lm_test,1).
El resultado de hacer las operaciones anteriores es que nuestro contraste nos facilita un valor
del estadístico lm_test=1.17, con una probabilidad asociada p_val=0.279, por lo que conforme a
este contraste no se rechaza la hipótesis nula de homoscedasticidad.
Cabe concluir en este momento que la especificación del modelo al menos supera el contraste
de heteroscedasticidad propuesto para modelos probit por Davidson y MacKinnon. Como ya se
comentó en el Ensayo 1, en ejercicios aplicados es muy difícil que todos los contrastes de
especificación sean superados por los modelos especificados. Por ello debemos mostrarnos
Taller de EADE. Juan Muro.Pág.12
satisfechos de que al menos el modelo no sea heteroscedástico.
4.1.2. Contrastes de especificación.
La utilización de contrastes de especificación individuales, estadísticos t, y contrastes conjuntos,
estadísticos F y contrastes de Wald (lineales y no lineales) sí que es similar en los modelos
discretos y en los continuos. Se aprovechará este epígrafe para añadir los contrastes de la razón
de verosimilitud (o verosimilitudes) (LR) a la panoplia de métodos de contraste de
especificación.
Un repaso de los estadísticos t y probabilidades asociadas de cada uno de los parámetros del
modelo logit estimado en el Cuadro 7 nos indica que únicamente son significativamente distintos
de cero el de la variable miembros, y el del término de interacción entre lrentahogar y miembros.
El estadístico de la razón de verosimilitud (LR statistic) compara el valor de la función de
verosimilitud de nuestro modelo (Log likelihood)con la del ingenuo de referencia que solo tuviera
la constante (Restr. log likelihood). Su valor y la probabilidad asociada nos indica que el modelo
es globalmente significativo.
En este modelo general el uso de los contrastes de Wald, junto a los LR nos servirá para
emprender vías de simplificación de la especificación general inicial. Dado que en nuestro
modelo estimado hay numerosas variables no significativas podemos iniciar una estrategia de
simplificación. Ya que en el Ensayo 1 utilizamos los contrastes de Wald aquí emplearemos los
contraste LR.
Tratemos, en primer lugar, de simplificar la ecuación de los términos cuadráticos, no
significativos, de las variables miembros y lrentahogar. Pinchamos view/coefficient
test/Redundant variables Likelihood ratio. En la ventana que aparece colocamos
lrentahogar^2 miembros^2. El resultado se encuentra en el Cuadro 8. Como se ve no se rechaza
la hipótesis nula, lo que indica que la simplificación del modelo en esa dirección es adecuada. El
contraste LR ha realizado una comparación entre el modelo inicial y el que se obtiene al eliminar
las dos variables anteriores.
Añadamos ahora al contraste anterior el contraste de nulidad adicional (conjunto) de los
términos de interacción entre las variables lrentahogar y la edad y la educación (secundarios y
universitarios). Se vuelve a utilizar el procedimiento anterior con los añadidos correspondientes.
El Cuadro 9 contiene el resultado obtenido. Como se ve tampoco se rechaza la hipótesis nula. La
simplificación continúa en esa dirección.
El proceso de simplificación no se sigue en este texto pero ha de continuarse hasta alcanzar un
modelo compatible con los datos y coherente con la teoría económica relevante. Su detalle se
deja para el trabajo en la clase de prácticas en el aula informática.
Cuadro 8. Contraste LR de la nulidad conjunta de los términos cuadráticos de las variables
lrentahogar y miembros.
============================================================
Redundant Variables: LRENTAHOGAR^2 MIEMBROS^2
============================================================
F-statistic
0.658868
Probability
0.517672
Log likelihood ratio 1.392059
Probability
0.498561
============================================================
Taller de EADE. Juan Muro.Pág.13
Cuadro 9. Contraste LR de la nulidad conjunta de los términos cuadráticos de las variables
lrentahogar y miembros y de los términos de interacción entre la variable de edad y las
representativas de la educación y la lrentahogar.
============================================================
Redundant Variables: LRENTAHOGAR^2 MIEMBROS^2
SECUNDARIOS*LRENTAHOGAR UNIVERSITARIOS
*LRENTAHOGAR EDAD*LRENTAHOGAR
============================================================
F-statistic
0.687077
Probability
0.633305
Log likelihood ratio 3.108544
Probability
0.683256
============================================================
Para finalizar este epígrafe debe señalarse que una vez alcanzado un modelo simplificado en él
se deberá realizar también el contraste de heteroscedasticidad a fin de comprobar que la
especificación del modelo no se ha deteriorado debido a una incorrecta estrategia de
simplificación.
4.2. Bondad del ajuste y medidas de información.
En los modelos discretos la popularidad de las medidas de la bondad del ajuste es si cabe más
reducida que en otros modelos microeconométricos. En este caso debe hablarse de medidas tales
como el R2 de McFadden y los criterios de información: Akaike, Schwarz, etc.
El R2 de McFadden es una medida relativa que compara los valores de la función de
verosimilitud en logaritmos del modelo considerado y del modelo ingenuo. Su valor oscila entre
0 y 1. Su talón de Aquiles está precisamente en la definición del modelo ingenuo que no es única.
Valores superiores del R2 de McFadden e inferiores de los criterios de Akaike, Schwarz o
Hannan-Quinn indican mejoras en la especificación de nuestros modelos.
4.3. Interpretación económica y verificación de las predicciones iniciales.
El proceso de modelización de lo general a lo particular, en la dirección señalada anteriormente
en el epígrafe 4.1, conduce a la especificación siguiente:
Prob(vehiculos>0)= α+ β1*lrentahogar+ β3 *edad+ β4 *edad^2+ β5 *miembros+
β8 *secundarios+ β9 *universitarios+ u
[8]
En esta dirección de simplificación cualquier otra restricción de nulidad adicional queda
rechazada por los datos. Por tanto, se acepta en principio esta especificación en (8) como el
modelo más simple que pueda representar la cuestión contemplada. A continuación, a fin de
confirmar la validez del modelo volvemos a realizar los contrastes de especificación errónea; en
concreto el contraste de heteroscedasticidad. Finalmente, analizamos en términos comparativos,
modelos general y simplificado, las medidas de ajuste e información. La estimación de la
ecuación en (8) es la que se encuentra en el Cuadro 10 de la página siguiente.
Realizado un contraste de heteroscedasticidad en la estimación del Cuadro 10 resulta que la
hipótesis nula no es rechazada. El valor del estadístico LM es 2.45 con una probabilidad asociada
igual a 0.117.
Tampoco hay diferencias notables en los valores de las medidas de ajuste y de información. Si
bien el valor del R2 de McFadden es ligeramente inferior en el modelo simplificado que en el
Taller de EADE. Juan Muro.Pág.14
general, los criterios de Akaike, Schwarz y Hannan-Quinn proporcionan valores inferiores en el
modelo simplificado a los obtenidos en el modelo general.
Cabe concluir que dado que en el proceso de simplificación las propiedades estadísticas no se
han deteriorado y las medidas de información son similares en el modelo simplificado y el
modelo general, el modelo simplificado o reducido es preferible al modelo general por el
principio de parsimonia.
Cuadro 10. Resultado de la estimación de la ecuación en (8): Modelo simplificado.
============================================================
Dependent Variable: VEHICULOS>0
Method: ML - Binary Probit (Quadratic hill climbing)
Date: 03/18/02
Time: 01:53
Sample: 1 968
Included observations: 968
Convergence achieved after 7 iterations
Covariance matrix computed using second derivatives
============================================================
Variable
CoefficientStd. Errorz-Statistic Prob.
============================================================
C
-7.354914
1.542495 -4.768193
0.0000
LRENTAHOGAR
0.431987
0.105679
4.087743
0.0000
EDAD
0.019374
0.027159
0.713349
0.4756
EDAD^2
-0.000390
0.000273 -1.430189
0.1527
MIEMBROS
0.085300
0.037270
2.288690
0.0221
SECUNDARIOS
0.099118
0.128887
0.769026
0.4419
UNIVERSITARIOS
-0.362795
0.182315 -1.989932
0.0466
============================================================
Mean dependent var
0.178719
S.D. dependent var 0.383315
S.E. of regression
0.367365
Akaike info criteri0.850034
Sum squared resid
129.6934
Schwarz criterion 0.885289
Log likelihood
-404.4167
Hannan-Quinn criter0.863455
Restr. log likelihoo-454.4232
Avg. log likelihoo-0.417786
LR statistic (6 df) 100.0131
McFadden R-squared 0.110044
Probability(LR stat) 0.000000
============================================================
Obs with Dep=0
795
Total obs
968
Obs with Dep=1
173
============================================================
La interpretación económica la centraremos en el comportamiento de la probabilidad de
adquisición de un vehículo por parte de una familia ante diferencias en el nivel educativo de su
sustentador principal. Dado que la probabilidad es función de otras variables, su influencia será
recogida bien por medio de sus valores medios muestrales, bien por algún artificio conveniente.
En concreto, construiremos un gráfico en el que los efectos diferenciales del nivel educativo
puedan apreciarse a lo largo del ciclo vital, es decir, los efectos de la educación para toda la gama
de edades de los sustentadores principales de los hogares contenidas en la muestra. Describimos
las etapas a cubrir en la versión 4.0 del EViews (con ligeras incursiones al método en la versión
3.1). En primer lugar recuperamos el texto de la ecuación estimada. Pinchamos
view/representations y nos aparece una ventana con una información completa en texto de la
estimación realizada. Sombreamos el último párrafo de la ventana bajo el epígrafe substituted
coefficients y cortamos mediante Ctrl-C. A continuación abrimos un modelo. Este artificio nos
permite calcular inmediatamente la solución de una o varias ecuaciones simultáneamente.
Pinchamos objects/new object/model. Debe tenerse en cuenta que la opción de objects que hay
que pinchar no es la situada en la ventana de la ecuación que estabamos utilizando, sino la de la
ventana general del EViews. Estamos en la presencia de la ventana correspondiente a un modelo.
Lo primero a hacer es pinchar Procs/links/break all links. Con esto eliminamos los vínculos
que el programa establece por defecto. Con la operación anterior disponemos de un modelo sin
vínculos para estructurarlo como deseemos.
Taller de EADE. Juan Muro.Pág.15
El siguiente paso es pinchar View/source text. Así dejamos listo nuestro modelo para
incorporar la especificación deseada. Es el momento de pegar la información que previamente
habíamos copiado de nuestro modelo simplificado. Hacemos Ctrl-V y pegamos el texto en la
ventana del modelo. Como se ve el modelo que disponemos es un modelo de la probabilidad de
comprar un vehículo, de la probabilidad de que vehiculos>0. Por motivo de claridad cambiamos
el nombre de la variable del lado izquierdo, por ejemplo pongamos coche. La expresión que
queda es igual a
coche1 = 1 - @CNORM(-(-7.354913652 + 0.4319873865 *
@mean(LRENTAHOGAR) + 0.01937404219 * EDAD - 0.0003903935737 *
(EDAD^2) + 0.08529974681 * @mean(MIEMBROS) ))[3]
Esa es la expresión de la probabilidad de que una familia con una renta del hogar igual a la
media de la muestra, de cualquier edad, con un sustentador principal con nivel de estudios
primarios o menor y con un número de miembros del hogar igual a la media de la meustra,
compre en el periodo analizado un vehículo para su transporte personal. Se deriva de la expresión
original del modelo simplificado con unas ligeras transformaciones realizadas según el esquema
descrito en el Ensayo 1. Como se ve la expresión ya está preparada para una representación
gráfica, ya que la dependencia de varias variables se ha reducido a dos dimensiones. Estos no son
los únicos supuestos que cabe hacer en cualquier situación, son posibles muchos otros y los
anteriores se han impuesto para hacer meramente un ejercicio.
La expresión análoga para los hogares cuyo sustentador tiene un nivel de estudios
universitarios es
coche2 = 1 - @CNORM(-(-7.354913652 + 0.4319873865 *
@mean(LRENTAHOGAR) + 0.01937404219 * EDAD - 0.0003903935737 *
(EDAD^2) + 0.08529974681 * @mean(MIEMBROS) - 0.3627950117)) []
Así ya está preparado nuestro modelo para ser resuelto. Pinchamos solve y apretamos aceptar
sin preocuparnos por la multiplicidad de opciones distintas que aparecen en la ventana.
Taller de EADE. Juan Muro.Pág.16
Gráfico 11. Probabilidad de comprar un vehículo para transporte personal en términos de
la edad. Efectos diferenciales debidos al nivel educativo del sustentador principal de la familia.
Como resultado del proceso anterior, en el que sucesivamente se ha construido un modelo, se
ha especificado y se ha resuelto, en la ventana general de EViews aparecen 2 nuevas variables
cuyo nombre es igual al puesto en la parte izquierda de las ecuaciones de nuestro modelo, es
decir, coche1 y coche2, (probablemente con un añadido de _0, que les coloca el programa). La
construcción de un gráfico que se entienda, a partir de estas variables y de la de edad, obliga
primero a ordenar la zona de trabajo con respecto a la variable edad. Por último, se señala edad
se aprieta control y se señalan las 2 variables de coche, doble clic sobre la zona oscura y se
pincha open group/view/graph/XY line/one X against all Y’s y aparece el Gráfico 11 de la
página anterior. En él vemos que la relación entre la probabilidad y la educación es ceteris
paribus decreciente y que el ciclo vital presenta un comportamiento parabólico con un máximo
en edades jóvenes. El resultado parece a primera vista chocante, pero no es contrario a las
predicciones iniciales de nuestro modelo económico.
Bibliografía.
Davidson, R. y J. MacKinnon (1993) Estimation and inference in Econometrics. Oxford
University Press. Nueva York.
Descargar