TALLER DE ECO OMETRÍA APLICADA A LA TOMA DE DECISIO ES EMPRESARIALES (EADE) 4º Curso, Grado. Prof. Juan Muro oviembre 2012 Taller de EADE. Juan Muro.Pág.2 E SAYO 2. ¿Influye el nivel de estudios del sustentador principal de una familia sobre la probabilidad de adquirir un vehículo? ¿Es lineal esta influencia? Durante la realización de este ensayo el alumno tratará de encontrar una respuesta a la cuestión planteada y, en el camino, deberá ejercitarse en la utilización y comprensión de los modelos de elección discreta logit y probit. Estos modelos son ampliamente utilizados en los estudios de demanda en el caso en el que la variable objetivo, en este ensayo la adquisición de un vehículo para uso personal o particular, proporcione una información que responde a equilibrios del consumidor con soluciones de esquina. La información necesaria para la parte empírica del ensayo proviene de una muestra aleatoria de hogares obtenida de la Encuesta básica de Presupuestos Familiares (EBPF) correspondiente a los años 1990-91. Esta información se encuentra en el fichero ensayo02.wf1. 1. Modelo teórico. Como se sabe, las soluciones de esquina caracterizan numerosas situaciones de equilibrio en la teoría del consumidor. Dados un conjunto de precios y renta disponible la maximización de la utilidad se manifiesta en esta circunstancia en que el consumidor demanda o no demanda un bien concreto. La elección entre sanidad pública o privada, los gastos en educación, son ejemplos concretos de soluciones de esquina. Con datos transversales y demanda de bienes duraderos la influencia del tiempo en las decisiones de consumo complica la interpretación de los modelos de demanda con soluciones de esquina. En lo que sigue, por motivos de simplicidad no se tendrá en consideración este último efecto de maximización intertemporal de la utilidad. El que un consumidor, o una familia como unidad de decisión económica, alcance una solución de esquina depende tanto de las características del espacio factible (opportunity set), y de su frontera la restricción presupuestaria, como de la forma del mapa de preferencias. A falta de un sustento teórico más elaborado, que escapa de la pretensión de este ensayo empírico, mantendremos que el modelo empírico que represente la decisión de una familia de consumir o no consumir un bien concreto tendrá como determinantes tanto variables que representen el conjunto factible, por ejemplo la renta disponible, como variables que condicionen la forma del mapa de preferencias, como la edad, la educación, el sexo, el número de miembros del hogar, etc. 2. Descripción de los datos. Los datos que contiene el archivo ensayo02.wf1 son poco conocidos, por no haberse empleado apenas en las sesiones desarrolladas en el aula. Un examen detallado de los mismos, sin embargo, no sería de gran utilidad en este texto y se deja para el trabajo en el aula de informática. Lo que sí resulta conveniente en este momento es el comentario de ciertas variables que resultan representativas del resto, en especial de aquellas cuya información no observa un comportamiento potencialmente continuo. Como ilustración se describirán las variables que representan la compra de vehículos para el transporte personal, vehiculos, y el nivel de estudios Taller de EADE. Juan Muro.Pág.3 del sustentador principal del hogar, nivest. 2.1. Gráficos individuales. La variable objetivo en este ensayo es el gasto en vehículos destinados al transporte personal, que responde en la zona de trabajo ensayo02.wf1 al nombre de vehiculos. Su descripción completa se lograría por medio de la interpretación de un gráfico de la variable, de su histograma y de un gráfico de distribución de la misma. Se incluyen los dos últimos. El resultado de pinchar la variable vehiculos y, a continuación, pinchar view/descriptive statistics & tests/histogram and stats es el histograma del Gráfico 7. Como se ve, hay 968 datos de la variable. La información es una mezcla de datos discretos y continuos. A simple vista cabe apreciar que casi 800 datos son nulos, es decir, en el entorno de 800 hogares no compraron un vehículo para su transporte personal en el periodo considerado. El resto presenta el gasto realizado en la compra de un vehículo. El hecho de que la información se divida tan extremadamente en información discreta y continua confirma que la pregunta importante en esta situación es la de interrogarnos sobre de qué depende, cuál es la probabilidad asociada con, que una familia compre o no un vehículo. Se observa además que el contraste de Bera-Jarque rechaza el supuesto de distribución normal. Gráfico 7. Histograma y estadísticos asociados de la variable vehiculos. Si pinchamos view/graph/distribution/emirical cdf obtenemos el Gráfico 8 situado en la página siguiente. La función de distribución empírica de la variable nos dice que las familias sin gasto en vehículos suponen una probabilidad mayor del 80 %. En consecuencia, con respecto al gasto en vehículos la muestra es desequilibrada con una probabilidad mucho menor de adquirir un vehículo que de no adquirirlo. Este resultado es importante para la interpretación de los modelos logit y probit. El mismo procedimiento de los párrafos anteriores lo aplicamos para describir la variable Taller de EADE. Juan Muro.Pág.4 nivest. En los Gráficos 9 y 10 de las dos páginas siguientes se encuentran, respectivamente, el histograma y la distribución empírica de nivest. En este caso lo que interesa destacar por encima de todo es que los valores que toma la variable tienen una interpretación cualitativa y no cuantitativa. El valor 1, por ejemplo, representa que el sustentador principal del hogar es una persona sin estudios y el 0 que es analfabeto. El valor 2 no significa que el nivel educativo sea Gráfico 8. Función empírica de distribución de la variable vehiculos. Gráfico 9. Histograma y estadísticos asociados de la variable nivest. Taller de EADE. Juan Muro.Pág.5 el doble del alcanzado por las personas que tienen un valor 1. No obstante, los valores sí que poseen una interpretación ordinal, de tal forma que categorías de la variable con un índice cuantitativamente superior indican que el nivel de estudios alcanzado es superior a las categorías con índices menores. Conviene destacar que este tipo de variable es muy común en la información de los agentes económicos individuales. Cuando variables discretas con contenido ordinal son las variables objetivo, las del lado izquierdo, en una investigación su análisis da origen a un tipo de modelos llamados modelos de elección discreta para datos ordenados. Gráfico 10. Función empírica de distribución de la variable nivest En el caso en que este tipo de variables se incluyan en la parte derecha de las ecuaciones, es decir, formen parte de las variables condicionantes del modelo empírico, lo habitual es la división de la información de la variable en categorías. Estas pueden ser las ya contempladas en la codificación original de la variable o construidas mediante una agrupación de las originales. A continuación se incluyen en la parte derecha de la ecuación tantas variables dicotómicas como categorías consideradas menos una (en la situación común de que haya término independiente en la ecuación). Cada una de estas variables toma el valor 1 cuando la variable nivest toma el valor de la categoría considerada y 0 en el resto de los casos. Por ejemplo, si construimos una variable que represente el nivel educativo de las personas sin estudios o con estudios primarios, la variable primarios en nuestra zona de trabajo, esta variable dicotómica tomará el valor 1 siempre que la variable nivest tome un valor menor o igual a 2 (valores 0, 1 y 2) y 0 en el resto de los casos. La construcción de variables dicotómicas se hace de una manera sencilla en EViews por medio de la función @recode(condicion, 1, 0) que genera una variable que toma el valor 1 cuando se cumple la condición y 0 en el resto de los casos (recuerde también el uso de la función @expand(variable,@drop(numero)) cuando queremos construir tantas variables ficticias como valores discretos tenga una variable, menos el número contenido en la instrucción @drop). Taller de EADE. Juan Muro.Pág.6 2.2. Gráficos por parejas. Para ver la relación entre la variable vehiculos y otras variables, aquellas que la teoría económica sugiere que influyen sobre su comportamiento, usamos gráficos de dispersión y de dispersión con líneas de ajuste. La forma de hacerlo se encuentra en el epígrafe 2.2 del Ensayo 1. Estos gráficos son de interpretación muy específica en el caso de variables discretas, interpretación extraordinariamente ligada a las circunstancias concretas del ensayo considerado, por lo que se reservan para el trabajo en la clase práctica en el aula informática. 3. Estimación de una ecuación. En este ensayo la variable objetivo contiene información discreta y continua. En la literatura hay modelos específicos para el tratamiento de estas variables, pero no son objeto de este ensayo (modelos tobit o heckit). Como se ha dicho antes, aquí nos interesa únicamente saber cuál es la probabilidad de que un hogar compre o no compre un vehículo para el transporte personal. A fin de acomodar la información empírica a las condiciones de nuestra pregunta hacemos discreta la información de la variable vehiculos. Para ello basta con mantener los ceros de la variable inalterados, familias que no compran, y convertir los valores distintos de cero de la variable en un 1, familias que compran. Esta tarea se puede realizar por medio de la función @recode(vehiculos>0,1,0) aunque hay que señalar que esa operación no es necesaria. En el EViews, como en numerosos programas econométricos hoy en día, la mera sentencia vehiculos>0 en la especificación de una ecuación hace que el programa cree una variable dicotómica que toma el valor 1 cuando la condición se cumple y 0 en el resto. Construimos un modelo empírico que determine la probabilidad de tomar la decisión de comprar o no comprar, la variable endógena para nuestros propósitos. Lo hacemos por medio de un modelo logit o probit. Como se sabe, ambos modelos difieren únicamente en la forma de la distribución, logística o normal, respectivamente, que rige la probabilidad de ocurrencia de un suceso o de que se tome la decisión considerada. Como se verá ambas especificaciones conducen a idénticas conclusiones empíricas, por lo que la elección de un modelo u otro es materia de mera conveniencia. El argumento de la función de distribución es una combinación lineal (en los parámetros) de un conjunto de variables débilmente exógenas. Como se sabe, para nuestros objetivos de aprendizaje no nos centraremos de una forma importante en la crítica del modelo empírico y partiremos del supuesto de que la exogeneidad débil de las variables determinantes se cumple. Conviene destacar que en los modelos logit y probit los parámetros estimados permiten construir, para cada observación, el valor del índice formado por la combinación lineal de parámetros y variables del lado derecho, pero el valor del índice no es el objetivo final del modelo (en concreto, los modelos logit y probit proporcionan valores diferentes del índice para cada observación concreta). A continuación, el valor del índice se transforma en un valor de la probabilidad, entre cero y uno, por medio de las funciones de distribución logística o normal, según el modelo sea logit o probit. Estos valores estimados de la probabilidad si pueden considerarse objetivos de un modelo discreto. Sin embargo, la meta final se encuentra en la predicción de los valores realmente observados, es decir, el pronóstico de si una familia concreta, caracterizada por unos valores específicos de las variables determinantes, compra o no compra un vehículo. Para ello es necesario la transformación de probabilidades en decisiones a través de la definición de un umbral de transformación, que en estos momentos vamos a colocar en el valor 0.5. De esta forma, una vez definido el umbral, observaciones con una probabilidad ajustada Taller de EADE. Juan Muro.Pág.7 superior a 0.5 son observaciones vinculadas con la compra de un vehículo y observaciones con una probabilidad ajustada igual o inferior a 0.5 se asocian a la no-adquisición de un vehículo. 3.1. Forma funcional. Ya se ha comentado que el índice en nuestra ecuación logit o probit es una combinación lineal de parámetros y variables débilmente exógenas. Las posibles no linealidades en el efecto de las variables sobre la probabilidad de comprar un vehículo se recogen en el índice a través de especificaciones cuadráticas de ciertas variables y de términos de interacción. La renta del hogar se incluye en logaritmos. Conviene señalar que en numerosos estudios empíricos se discretizan todas las variables del lado derecho, por motivos de comodidad en la interpretación de los resultados. En otras palabras, se mantienen discretas las variables que ya lo son y se convierten en variables categóricas las continuas. En este ensayo abordaremos tanto las especificaciones continuas, por ejemplo de variables tales como la renta del hogar o la edad, como las discretizadas, en las que dichas variables se convierten en categóricas. 3.2. Estrategia de modelización. Se empleará la estrategia de lo general a lo particular, con una especificación general conducida principalmente por los criterios que la teoría económica marca. Conforme a la teoría económica el bien duradero que forma un vehículo para el transporte personal es un bien normal. A medida que crece la renta crece el gasto en dicho bien. Su clasificación como bien particular dentro de los bienes normales se ve dificultada en estas circunstancias por la información disponible. En los datos de nuestro fichero de la EBPF no se distingue el tipo de vehículo comprado, por lo que la agregación de vehículos de primera necesidad y de lujo producirá un resultado final incierto. Si introducimos la teoría del ciclo vital, nuestro modelo predice que la probabilidad de adquirir un vehículo aumentará con la edad del cabeza de familia hasta una edad determinada a partir de la cual esa probabilidad disminuirá. La influencia del número de miembros del hogar es positiva sobre la probabilidad de compra de un vehículo, aunque los efectos intertemporales, no considerados en este ensayo, arrojen ciertas dudas sobre el sentido de esta influencia. Tampoco es predecible la linealidad o nolinealidad de dicha influencia, en el caso que la hubiere. En un análisis transversal, por lo tanto, como el que puede realizarse con la EBPF 90-91, parece sensato admitir que la probabilidad de comprar un vehículo venga regida al menos por dos tipos de variables: la propia renta del hogar y la edad del cabeza de familia. El efecto lineal o no lineal de otras variables determinantes como la edad de la mujer o el número de miembros del hogar mayores o menores de 18 años es materia del análisis empírico. Como modelo general la ecuación a estimar es: Prob(Vehiculos>0)= α+β1 lrentahogar+ β2 lrentahogar^2+ β3 edad+ β4 edad^2 + β5 miembros+ β6 miembros^2 + β7 sexo + β8 secundarios + β9 universitarios + β10 ocupado + β11 secundarios*lrentahogar + β12 universitarios*lrentahogar + β13 miembros*lrentahogar + β14 edad*lrentahogar + u [4] Taller de EADE. Juan Muro.Pág.8 3.3. Método de estimación. Con una variable objetivo discreta, los modelos logit y probit se estiman por el método de la máxima verosimilitud (MV). La función de verosimilitud está formada por el producto de las contribuciones de cada una de las observaciones de la muestra (bajo el supuesto de independencia). Las observaciones para las que la variable vehiculos toma el valor 1 contribuyen con una probabilidad igual al valor de la función de distribución y las observaciones en que vehiculos toma el valor 0 contribuyen con el complementario de la función de distribución. Como es usual, la función que realmente se maximiza es la función de verosimilitud en logaritmos. Su expresión es: Ln L(y|X, θ)= ∑i {ln[G(X’iθ)di ]+ln[(1- G(X’iθ))(1-di)]}= = ∑i{di lnG(X’iθ)+ (1-di) ln[1-G(X’iθ)]}. [5] Donde X es la matriz de variables del lado derecho (X’i la fila i de esa matriz); θ representa el vector de parámetros; G(.) indica la función de distribución: normal en el caso del probit y logística en el caso del logit; di, finalmente, es una variable dicotómica que toma el valor 1 cuando vehiculos>0 y 0 si vehiculos=0. La estimación de una ecuación como la planteada en (4) se realiza mediante la maximización de la función de verosimilitud en logaritmos en (5). Se recuerda la expresión de G(.) para ambos modelos: En el modelo probit: G(X’iθ)= F(X’iθ)=∫ f(t)dt. En el modelo logit: G(X’iθ)= Λ(X’iθ)= exp(X’iθ)/(1+exp(X’iθ)). [6] 4. Análisis de resultados. Para estimar la ecuación en (4) seguimos el proceso que se describe a continuación. En primer lugar, señalamos la variable del lado izquierdo, vehiculos. Luego apretamos la tecla de control y vamos señalando las variables del lado derecho: lrentahogar, edad, miembros, sexo, secundarios, universitarios y ocupado. Hacemos doble clic sobre la zona oscura y escogemos la opción open equation en el menú. Nos aparece la ventana de estimación y en esa ventana completamos los términos que nos faltan hasta escribir la especificación considerada. En la ventana de estimation settings escogemos la opción BI ARY-binary choice (logit, probit, extreme value). Aparecen tres botones en la parte inferior de la venta de especificación (arriba de la ventana que estabamos usando) que rezan: logit; probit; extreme value. Las opciones que usaremos en este ensayo son las de logit y probit que se corresponden con la estimación MV de los modelos que reciben el mismo nombre. El resultado del proceso para el modelo logit se encuentra en el Cuadro 7 de la página siguiente. El resultado de la estimación de un probit con idéntica especificación se da por reproducido y se realizará en la clase de prácticas en el aula de informática. Como se observa en el Cuadro 7, la salida del programa es muy parecida a la de un modelo usual de regresión con algunos detalles diferenciales que se mencionan a continuación. En primer lugar, y en orden de arriba abajo, se informa sobre el procedimiento numérico de maximización Taller de EADE. Juan Muro.Pág.9 de la función de verosimilitud. En los modelos logit y probit la obtención de los estimadores de los parámetros no se produce como consecuencia de la resolución de un sistema lineal de ecuaciones. Por el contrario, la resolución de las ecuaciones de verosimilitud de la función de verosimilitud en logaritmos en (5) (condiciones de primer orden del máximo) debe realizarse mediante un procedimiento no lineal que emplea alguno de los algoritmos numéricos al uso en Econometría. En este caso el denominado Quadratic hill climbing. En segundo lugar, se da información sobre el modo de cálculo de la matriz de varianzas y covarianzas: Covariance matrix computed using second derivatives. Este método es uno de los posibles para este cálculo. Otras posibilidades se sustentan en el cálculo de alguno de los equivalentes asintóticos de la matriz de varianzas y covarianzas. Finalmente, se encuentra un pequeño apartado al final del Cuadro 7 donde está una descripción de los valores que toma la variable del lado izquierdo. Estos valores se utilizan para establecer un modelo ingenuo de referencia, como veremos más adelante. Cuadro 7. Resultados de la estimación de un logit de la ecuación en (4): Modelo general. ============================================================ Dependent Variable: VEHICULOS>0 Method: ML - Binary Logit (Quadratic hill climbing) Date: 03/17/02 Time: 16:06 Sample: 1 968 Included observations: 968 Convergence achieved after 11 iterations Covariance matrix computed using second derivatives ============================================================ Variable CoefficientStd. Errorz-Statistic Prob. ============================================================ LRENTAHOGAR 8.714420 7.855818 1.109295 0.2673 LRENTAHOGAR^2 -0.262947 0.278997 -0.942472 0.3460 EDAD -0.105667 0.222657 -0.474571 0.6351 EDAD^2 -0.000685 0.000559 -1.226389 0.2201 MIEMBROS 3.877025 1.629140 2.379799 0.0173 MIEMBROS^2 0.018607 0.027769 0.670060 0.5028 SEXO 0.174106 0.320628 0.543016 0.5871 SECUNDARIOS -10.40330 7.273610 -1.430280 0.1526 UNIVERSITARIOS -10.61784 12.07485 -0.879335 0.3792 OCUPADO -0.134351 0.298857 -0.449551 0.6530 C -72.57290 56.00461 -1.295838 0.1950 SECUNDARIOS*LRENTAHOG0.729752 0.501106 1.456283 0.1453 UNIVERSITARIOS*LRENTA0.682889 0.810012 0.843060 0.3992 MIEMBROS*LRENTAHOGAR-0.268059 0.116137 -2.308127 0.0210 EDAD*LRENTAHOGAR 0.009595 0.014961 0.641322 0.5213 ============================================================ Mean dependent var 0.178719 S.D. dependent var 0.383315 S.E. of regression 0.366006 Akaike info criteri0.855530 Sum squared resid 127.6645 Schwarz criterion 0.931076 Log likelihood -399.0765 Hannan-Quinn criter0.884288 Restr. log likelihoo-454.4232 Avg. log likelihoo-0.412269 LR statistic (14 df) 110.6935 McFadden R-squared 0.121796 Probability(LR stat) 0.000000 ============================================================ Obs with Dep=0 795 Total obs 968 Obs with Dep=1 173 ============================================================ Para analizar los resultados anteriores seguiremos el esquema planteado en clase y desarrollado en el Ensayo 1. 4.1. Contrastes. Como se sabe, en cualquier modelo estimado se deben realizar contrastes de falta de especificación (especificación errónea) y de especificación a fin de verificar la validez del mismo. Taller de EADE. Juan Muro.Pág.10 Seguiremos el orden ya establecido en el Ensayo 1. 4.1.1. Contrastes de falta de especificación. Para analizar el comportamiento de los residuos del modelo logit (o probit) se debe antes reflexionar sobre el carácter de dichos residuos. Hay que decir que estos residuos no son los residuos MC habituales. En estos modelos discretos los residuos obtenidos mediante la diferencia entre valores observados y ajustados (¿qué valores ajustados?) no son de gran utilidad para inferir comportamientos erróneos en nuestro modelo. Los residuos que sí presentan propiedades análogas a las de los residuos MC se denominan residuos generalizados y se obtienen a partir de las ecuaciones de verosimilitud. Su expresión es: − gi d i gi + (1 − d i ) . Gi (1 − Gi ) [7] Donde el subíndice i de las funciones de densidad de probabilidad y de distribución representa que dichas funciones están evaluadas en el punto X’iθ. Los residuos generalizados de la expresión (7) tienen propiedades de ortogonalidad con las variables del lado derecho análogas a las de los residuos MC del modelo de regresión. Los contrastes de especificación errónea que se suelen establecer en estos modelos son los de variables omitidas y los de heteroscedasticidad, además de los correspondientes gráficos de residuos. El tipo de contrastes a realizar no tiene nada que ver con los análogos del modelo de regresión con variables del lado izquierdo continuas. Debe recordarse que la presencia de heteroscedasticidad es el fenómeno más común en los estudios transversales y que en los modelos de elección discreta su existencia es más relevante que en los modelos de regresión habituales ya que produce estimaciones inconsistentes. Por esta razón haremos un contraste de heteroscedasticidad en nuestro modelo general. El contraste de heteroscedasticidad descrito en Davidson y Mackinnon (1993) es un contraste de multiplicadores de Lagrange (LM) que permite este contraste en un modelo probit y no viene implementado directamente en el EViews (en el programa tampoco está implementada ninguna otra alternativa de contraste de heteroscedasticidad en modelos discretos) y por ello debe describirse en detalle. Se sigue la sugerencia contenida en el manual de EViews. El contraste es de una hipótesis nula de perturbaciones homoscedásticas frente a una alternativa de heteroscedasticidad causada por el número de miembros de la familia, variable miembros, que sigue la forma sugerida por Harvey, es decir, la hipótesis alternativa es que la heteroscedasticidad presente en nuestro modelo sigue una forma multiplicativa ocasionada por la variable miembros. En este caso la expresión de la varianza del término de error de nuestro modelo es Var(ui)=exp(2γ*miembros). Donde γ es un parámetro desconocido. La manera de realizar el contraste es efectuar una regresión auxiliar. La suma de los cuadrados explicada de dicha regresión se distribuye asintóticamente bajo la hipótesis nula como una χ2 con 1 grado de libertad (situación particular debida a que sólo hay una variable que cause la heteroscedasticidad, si hubiera más variables los grados de libertad serían iguales a su número). Taller de EADE. Juan Muro.Pág.11 La regresión auxiliar tiene la forma: yi − pˆ i f ( − X 'i θ ) f ( − X 'i θ ) * ( − X 'i θ ) = X 'i φ1 + miembros * φ 2 + v i . pˆ i (1 − pˆ i ) pˆ i (1 − pˆ i ) pˆ i (1 − pˆ i ) Donde todas las variables incluidas en la regresión auxiliar se construyen con las estimaciones y predicciones de nuestro modelo. Las p son predicciones, la X es la matriz de variables del lado derecho (que incluye la variable miembros) y, finalmente, f(.) es la función de densidad de probabilidad de una variable N(0,1). Para efectuar el contraste, en primer lugar, estimamos nuestro modelo general como un probit y almacenamos tanto las probabilidades predichas de nuestro modelo como las predicciones que nuestro modelo facilita del índice (combinación lineal de parámetros estimados y variables). Para ello pinchamos forecast y elegimos la opción probability y le damos un nombre, por ejemplo vehf1. Volvemos a pinchar forecast y elegimos la opción index y le damos otro nombre, por ejemplo vehf2. Luego, en segundo lugar, pinchamos procs/ Make Residual Series/ Standardized y le damos otro nombre a la serie de residuos estandarizados, por ejemplo vehresid. Esta es la variable del lado izquierdo de la regresión auxiliar anterior. Finalmente, utilizamos las funciones de EViews para el cálculo de las funciones de densidad de probabilidad y de distribución de una variable normal. Estas funciones valen para generar las variables restantes de la regresión auxiliar. En concreto, el primer factor del primer término de la regresión auxiliar se calcula mediante series fac= @dnorm(-vehf2)/@sqrt(vehf1*(1-vehf1)) El primer término de la regresión completo es el grupo de variables siguiente: group auxiliar_x fac (lrentahogar *fac) (lrentahogar^2 *fac) (miembros*fac) (edad*fac) (edad^2*fac) (miembros^2*fac) (sexo*fac) (secundarios*fac) (universitarios*fac) (ocupado*fac) (secundarios*lrentahogar*fac) (universitarios*lrentahogar*fac) (miembros*lrentahogar*fac) (edad*lrentahogar*fac) Para concluir, la regresión auxiliar es la siguiente: vehresid auxiliar_x miembros*(-vehf2)*fac La suma de los cuadrados explicada de la regresión auxiliar anterior cabe obtenerla mediante la expresión scalar lm_test=@sumsq(vehresidf), donde la variable entre paréntesis es la que contiene los valores predichos de la regresión auxiliar. La probabilidad asociada con este estadístico se obtiene a partir de la expresión scalar p_val=1-@cchisq(lm_test,1). El resultado de hacer las operaciones anteriores es que nuestro contraste nos facilita un valor del estadístico lm_test=1.17, con una probabilidad asociada p_val=0.279, por lo que conforme a este contraste no se rechaza la hipótesis nula de homoscedasticidad. Cabe concluir en este momento que la especificación del modelo al menos supera el contraste de heteroscedasticidad propuesto para modelos probit por Davidson y MacKinnon. Como ya se comentó en el Ensayo 1, en ejercicios aplicados es muy difícil que todos los contrastes de especificación sean superados por los modelos especificados. Por ello debemos mostrarnos Taller de EADE. Juan Muro.Pág.12 satisfechos de que al menos el modelo no sea heteroscedástico. 4.1.2. Contrastes de especificación. La utilización de contrastes de especificación individuales, estadísticos t, y contrastes conjuntos, estadísticos F y contrastes de Wald (lineales y no lineales) sí que es similar en los modelos discretos y en los continuos. Se aprovechará este epígrafe para añadir los contrastes de la razón de verosimilitud (o verosimilitudes) (LR) a la panoplia de métodos de contraste de especificación. Un repaso de los estadísticos t y probabilidades asociadas de cada uno de los parámetros del modelo logit estimado en el Cuadro 7 nos indica que únicamente son significativamente distintos de cero el de la variable miembros, y el del término de interacción entre lrentahogar y miembros. El estadístico de la razón de verosimilitud (LR statistic) compara el valor de la función de verosimilitud de nuestro modelo (Log likelihood)con la del ingenuo de referencia que solo tuviera la constante (Restr. log likelihood). Su valor y la probabilidad asociada nos indica que el modelo es globalmente significativo. En este modelo general el uso de los contrastes de Wald, junto a los LR nos servirá para emprender vías de simplificación de la especificación general inicial. Dado que en nuestro modelo estimado hay numerosas variables no significativas podemos iniciar una estrategia de simplificación. Ya que en el Ensayo 1 utilizamos los contrastes de Wald aquí emplearemos los contraste LR. Tratemos, en primer lugar, de simplificar la ecuación de los términos cuadráticos, no significativos, de las variables miembros y lrentahogar. Pinchamos view/coefficient test/Redundant variables Likelihood ratio. En la ventana que aparece colocamos lrentahogar^2 miembros^2. El resultado se encuentra en el Cuadro 8. Como se ve no se rechaza la hipótesis nula, lo que indica que la simplificación del modelo en esa dirección es adecuada. El contraste LR ha realizado una comparación entre el modelo inicial y el que se obtiene al eliminar las dos variables anteriores. Añadamos ahora al contraste anterior el contraste de nulidad adicional (conjunto) de los términos de interacción entre las variables lrentahogar y la edad y la educación (secundarios y universitarios). Se vuelve a utilizar el procedimiento anterior con los añadidos correspondientes. El Cuadro 9 contiene el resultado obtenido. Como se ve tampoco se rechaza la hipótesis nula. La simplificación continúa en esa dirección. El proceso de simplificación no se sigue en este texto pero ha de continuarse hasta alcanzar un modelo compatible con los datos y coherente con la teoría económica relevante. Su detalle se deja para el trabajo en la clase de prácticas en el aula informática. Cuadro 8. Contraste LR de la nulidad conjunta de los términos cuadráticos de las variables lrentahogar y miembros. ============================================================ Redundant Variables: LRENTAHOGAR^2 MIEMBROS^2 ============================================================ F-statistic 0.658868 Probability 0.517672 Log likelihood ratio 1.392059 Probability 0.498561 ============================================================ Taller de EADE. Juan Muro.Pág.13 Cuadro 9. Contraste LR de la nulidad conjunta de los términos cuadráticos de las variables lrentahogar y miembros y de los términos de interacción entre la variable de edad y las representativas de la educación y la lrentahogar. ============================================================ Redundant Variables: LRENTAHOGAR^2 MIEMBROS^2 SECUNDARIOS*LRENTAHOGAR UNIVERSITARIOS *LRENTAHOGAR EDAD*LRENTAHOGAR ============================================================ F-statistic 0.687077 Probability 0.633305 Log likelihood ratio 3.108544 Probability 0.683256 ============================================================ Para finalizar este epígrafe debe señalarse que una vez alcanzado un modelo simplificado en él se deberá realizar también el contraste de heteroscedasticidad a fin de comprobar que la especificación del modelo no se ha deteriorado debido a una incorrecta estrategia de simplificación. 4.2. Bondad del ajuste y medidas de información. En los modelos discretos la popularidad de las medidas de la bondad del ajuste es si cabe más reducida que en otros modelos microeconométricos. En este caso debe hablarse de medidas tales como el R2 de McFadden y los criterios de información: Akaike, Schwarz, etc. El R2 de McFadden es una medida relativa que compara los valores de la función de verosimilitud en logaritmos del modelo considerado y del modelo ingenuo. Su valor oscila entre 0 y 1. Su talón de Aquiles está precisamente en la definición del modelo ingenuo que no es única. Valores superiores del R2 de McFadden e inferiores de los criterios de Akaike, Schwarz o Hannan-Quinn indican mejoras en la especificación de nuestros modelos. 4.3. Interpretación económica y verificación de las predicciones iniciales. El proceso de modelización de lo general a lo particular, en la dirección señalada anteriormente en el epígrafe 4.1, conduce a la especificación siguiente: Prob(vehiculos>0)= α+ β1*lrentahogar+ β3 *edad+ β4 *edad^2+ β5 *miembros+ β8 *secundarios+ β9 *universitarios+ u [8] En esta dirección de simplificación cualquier otra restricción de nulidad adicional queda rechazada por los datos. Por tanto, se acepta en principio esta especificación en (8) como el modelo más simple que pueda representar la cuestión contemplada. A continuación, a fin de confirmar la validez del modelo volvemos a realizar los contrastes de especificación errónea; en concreto el contraste de heteroscedasticidad. Finalmente, analizamos en términos comparativos, modelos general y simplificado, las medidas de ajuste e información. La estimación de la ecuación en (8) es la que se encuentra en el Cuadro 10 de la página siguiente. Realizado un contraste de heteroscedasticidad en la estimación del Cuadro 10 resulta que la hipótesis nula no es rechazada. El valor del estadístico LM es 2.45 con una probabilidad asociada igual a 0.117. Tampoco hay diferencias notables en los valores de las medidas de ajuste y de información. Si bien el valor del R2 de McFadden es ligeramente inferior en el modelo simplificado que en el Taller de EADE. Juan Muro.Pág.14 general, los criterios de Akaike, Schwarz y Hannan-Quinn proporcionan valores inferiores en el modelo simplificado a los obtenidos en el modelo general. Cabe concluir que dado que en el proceso de simplificación las propiedades estadísticas no se han deteriorado y las medidas de información son similares en el modelo simplificado y el modelo general, el modelo simplificado o reducido es preferible al modelo general por el principio de parsimonia. Cuadro 10. Resultado de la estimación de la ecuación en (8): Modelo simplificado. ============================================================ Dependent Variable: VEHICULOS>0 Method: ML - Binary Probit (Quadratic hill climbing) Date: 03/18/02 Time: 01:53 Sample: 1 968 Included observations: 968 Convergence achieved after 7 iterations Covariance matrix computed using second derivatives ============================================================ Variable CoefficientStd. Errorz-Statistic Prob. ============================================================ C -7.354914 1.542495 -4.768193 0.0000 LRENTAHOGAR 0.431987 0.105679 4.087743 0.0000 EDAD 0.019374 0.027159 0.713349 0.4756 EDAD^2 -0.000390 0.000273 -1.430189 0.1527 MIEMBROS 0.085300 0.037270 2.288690 0.0221 SECUNDARIOS 0.099118 0.128887 0.769026 0.4419 UNIVERSITARIOS -0.362795 0.182315 -1.989932 0.0466 ============================================================ Mean dependent var 0.178719 S.D. dependent var 0.383315 S.E. of regression 0.367365 Akaike info criteri0.850034 Sum squared resid 129.6934 Schwarz criterion 0.885289 Log likelihood -404.4167 Hannan-Quinn criter0.863455 Restr. log likelihoo-454.4232 Avg. log likelihoo-0.417786 LR statistic (6 df) 100.0131 McFadden R-squared 0.110044 Probability(LR stat) 0.000000 ============================================================ Obs with Dep=0 795 Total obs 968 Obs with Dep=1 173 ============================================================ La interpretación económica la centraremos en el comportamiento de la probabilidad de adquisición de un vehículo por parte de una familia ante diferencias en el nivel educativo de su sustentador principal. Dado que la probabilidad es función de otras variables, su influencia será recogida bien por medio de sus valores medios muestrales, bien por algún artificio conveniente. En concreto, construiremos un gráfico en el que los efectos diferenciales del nivel educativo puedan apreciarse a lo largo del ciclo vital, es decir, los efectos de la educación para toda la gama de edades de los sustentadores principales de los hogares contenidas en la muestra. Describimos las etapas a cubrir en la versión 4.0 del EViews (con ligeras incursiones al método en la versión 3.1). En primer lugar recuperamos el texto de la ecuación estimada. Pinchamos view/representations y nos aparece una ventana con una información completa en texto de la estimación realizada. Sombreamos el último párrafo de la ventana bajo el epígrafe substituted coefficients y cortamos mediante Ctrl-C. A continuación abrimos un modelo. Este artificio nos permite calcular inmediatamente la solución de una o varias ecuaciones simultáneamente. Pinchamos objects/new object/model. Debe tenerse en cuenta que la opción de objects que hay que pinchar no es la situada en la ventana de la ecuación que estabamos utilizando, sino la de la ventana general del EViews. Estamos en la presencia de la ventana correspondiente a un modelo. Lo primero a hacer es pinchar Procs/links/break all links. Con esto eliminamos los vínculos que el programa establece por defecto. Con la operación anterior disponemos de un modelo sin vínculos para estructurarlo como deseemos. Taller de EADE. Juan Muro.Pág.15 El siguiente paso es pinchar View/source text. Así dejamos listo nuestro modelo para incorporar la especificación deseada. Es el momento de pegar la información que previamente habíamos copiado de nuestro modelo simplificado. Hacemos Ctrl-V y pegamos el texto en la ventana del modelo. Como se ve el modelo que disponemos es un modelo de la probabilidad de comprar un vehículo, de la probabilidad de que vehiculos>0. Por motivo de claridad cambiamos el nombre de la variable del lado izquierdo, por ejemplo pongamos coche. La expresión que queda es igual a coche1 = 1 - @CNORM(-(-7.354913652 + 0.4319873865 * @mean(LRENTAHOGAR) + 0.01937404219 * EDAD - 0.0003903935737 * (EDAD^2) + 0.08529974681 * @mean(MIEMBROS) ))[3] Esa es la expresión de la probabilidad de que una familia con una renta del hogar igual a la media de la muestra, de cualquier edad, con un sustentador principal con nivel de estudios primarios o menor y con un número de miembros del hogar igual a la media de la meustra, compre en el periodo analizado un vehículo para su transporte personal. Se deriva de la expresión original del modelo simplificado con unas ligeras transformaciones realizadas según el esquema descrito en el Ensayo 1. Como se ve la expresión ya está preparada para una representación gráfica, ya que la dependencia de varias variables se ha reducido a dos dimensiones. Estos no son los únicos supuestos que cabe hacer en cualquier situación, son posibles muchos otros y los anteriores se han impuesto para hacer meramente un ejercicio. La expresión análoga para los hogares cuyo sustentador tiene un nivel de estudios universitarios es coche2 = 1 - @CNORM(-(-7.354913652 + 0.4319873865 * @mean(LRENTAHOGAR) + 0.01937404219 * EDAD - 0.0003903935737 * (EDAD^2) + 0.08529974681 * @mean(MIEMBROS) - 0.3627950117)) [] Así ya está preparado nuestro modelo para ser resuelto. Pinchamos solve y apretamos aceptar sin preocuparnos por la multiplicidad de opciones distintas que aparecen en la ventana. Taller de EADE. Juan Muro.Pág.16 Gráfico 11. Probabilidad de comprar un vehículo para transporte personal en términos de la edad. Efectos diferenciales debidos al nivel educativo del sustentador principal de la familia. Como resultado del proceso anterior, en el que sucesivamente se ha construido un modelo, se ha especificado y se ha resuelto, en la ventana general de EViews aparecen 2 nuevas variables cuyo nombre es igual al puesto en la parte izquierda de las ecuaciones de nuestro modelo, es decir, coche1 y coche2, (probablemente con un añadido de _0, que les coloca el programa). La construcción de un gráfico que se entienda, a partir de estas variables y de la de edad, obliga primero a ordenar la zona de trabajo con respecto a la variable edad. Por último, se señala edad se aprieta control y se señalan las 2 variables de coche, doble clic sobre la zona oscura y se pincha open group/view/graph/XY line/one X against all Y’s y aparece el Gráfico 11 de la página anterior. En él vemos que la relación entre la probabilidad y la educación es ceteris paribus decreciente y que el ciclo vital presenta un comportamiento parabólico con un máximo en edades jóvenes. El resultado parece a primera vista chocante, pero no es contrario a las predicciones iniciales de nuestro modelo económico. Bibliografía. Davidson, R. y J. MacKinnon (1993) Estimation and inference in Econometrics. Oxford University Press. Nueva York.