ECONOMETRÍA I GRUPO 53 (DADE) 25 de enero de 2011 NOMBRE: DNI: ____________________________________________________ _____________ 1. ¿Qué variable parece adecuado utilizar en un modelo de regresión para explicar el porcentaje de abandono escolar de los estudiantes a nivel nacional en España entre 1995 y 2010?: Género de los estudiantes Edad de los estudiantes Presupuesto destinado a educación Distribución de inmigrantes por CCAA 2. Si deseamos medir las variables que explican la mayor o menor afluencia anual de espectadores al cine en España en los últimos 10 años, conviene considerar: La mayor o menor oferta de películas y capacidad de los cines La temperatura media y en general las condiciones climatológicas La mayor o menor cantidad de días de fiesta Todas las anteriores 3. En el marco del modelo básico de regresión lineal, la expresión lim βˆ = β n →∞ Expresa genéricamente la propiedad de consistencia del estimador Expresa la propiedad de consistencia sólo para los estimadores insesgados Expresa genéricamente la propiedad de insesgadez del un estimador Ninguna de las anteriores 4. Los parámetros estimados en el marco de un MBRL aleatoria siguen una distribución: N [0,σ 2 ] N [β ,σ u2 ] t [β , σ˜ u2 ( X ' X ) −1 ] N [β , σ~ u2 ( X ' X ) − 1 ] 5. Imagine que utiliza, para una muestra con blancos, negros y asiáticos, DOS variables exógenas dicotómicas (0,1) para representar la raza NEGRA (Black=1) y la raza BLANCA (WHITE=1) y analizar así el efecto de estas dos razas sobre los salarios (W): W i = β0 + β1 ⋅ BLACKi + β 2 ⋅ WHITEi + Ui 6. ¿Qué cree que representará el parámetro estimado para la exógena WHITE (0,1)?: El salario medio diferencial de los blancos respecto a los negros El salario medio diferencial de los blancos respecto a los asiáticos El salario medio diferencial de los blancos respecto a la media de los asiáticos y negros El salario medio diferencial de los blancos respecto a la media global 7. Parece claro que el sesgo en la estimación MCO de un parámetro depende de introducir o eliminar en la especificación otras variables más o menos relevantes. En este sentido, ¿cuál de estas situaciones se asocia con un mayor riesgo de sesgo?: Omitir una variable muy relevante pero sin conexión con las incluidas Omitir una variable poco relevante pero altamente relacionada con las incluidas Omitir una variable muy relevante y altamente relacionada con las incluidas Omitir una variable poco relevante y sin conexión con las incluidas 8. Volvemos a plantear la pregunta que hicimos más arriba, (pero ahora con las varianzas, …ojo). Parece que la varianza de un parámetro estimado puede cambiar al introducir o eliminar en la especificación otras variables más o menos relevantes. En este sentido, ¿cuál de estas situaciones se asocia con un mayor incremento de la varianza? El enunciado no es correcto, no hay una relación evidente entre omisión y varianza Lo importante es no omitir una variable muy relevante (si tiene o no relación con las incluidas no está en relación con el asunto de la varianza) El aumento se produce al omitir una variable muy relevante y sin conexión con las incluidas El aumento se produce al omitir una variable muy relevante y, además, altamente relacionada con las incluidas 9. ¿Cómo se distribuye la suma cuadrática de los errores del modelo dividida por las varianza de las perturbaciones aleatorias? ¿Qué trascendencia tiene esta distribución para la validación del MBRL? e' e σ 2 = U ' MU σ 2 = U' σ M U' σ ya que se trata de la suma de (n-k) normales (0,1) al cuadrado independientes. Recuérdese que por hipótesis inicial, habíamos asumido que la U se distribuía como una normal (0, σ ). 2 Esta distribución es trascendente para la determinación de la función de distribución empírica de los parámetros estimados, para la determinación del contraste de significación conjunta F-Snedecor y para el contraste del predictor. 10. Un determinado modelo estima la relación entre el precio de las casas (PRICE) en dólares y algunas de sus características: los metros cuadrados (SQRFT), las habitaciones (BDRMS) y si es de arquitectura Colonial (1) o no (0). Los resultados básicos obtenidos son los siguientes: Dependent Variable: PRICE Method: Least Squares Sample: 1 88 Variable Coefficient Std. Error t-Statistic Prob. C BDRMS LOG(SQRFT) -1784252. 18950.19 240000.0 232155.3 10537.26 30000.00 -7.685597 1.798398 - 0.0000 0.0700 0.0000 COLONIAL 4365.726 R-squared Adjusted R-squared S.E. of regression Sum squared resid Durbin-Watson stat 0.582456 0.567544 67545.78 3.83E+11 1.972295 16425.56 0.265788 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Prob(F-statistic) 0.8000 293546.0 102713.4 25.12339 25.23599 0.000000 Responda a las siguientes preguntas: VALOR Grados de libertad utilizados en la estimación 84 Incremento estimado del precio de una casa si se añade una habitación más (con idénticas características de SQRFT y COLONIAL) 18950.19 Nivel de confianza asociado al rechazo (como significativa) de la variable COLONIAL 0.8000 Valor de la “t” de Student para la variable LOG(SQRFT) 8 Incremento del precio ante una variación del tamaño de la casa (SQRFT) del 1% 240000.0/100 Porcentaje de la variabilidad del precio de las casas explicada con el modelo 0.582456 Valor del estimador insesgado de la varianza de la perturbación aleatoria 67545.78^2 Disminución del precio medio asociado a las casas NO coloniales e idénticas características (de BDRMS y SQRFT) a las no coloniales 4365.726 Valor inferior del intervalo de confianza para el parámetro de la variable BDRMS con un nivel de confianza del 93% (o de especificación del 7%). : 18950.19-1.798398*10537.26= 0.00269052 11. Una compañía médica quiere conocer las características de los clientes que solicitan bajas fraudulentas. Para ello realiza la estimación de un modelo econométrico donde modeliza el número de bajas fraudulentas por cliente en el último año, utilizando la información contenida en los registros de tres compañías médicas distintas a cuyas bases de datos ha tenido acceso, en función de: − − − − − CAT_LAB: variable ficticia que representa la categoría laboral (0 operario y 1 directivo). EDAD: edad del cliente. EDUC: número de años que ha recibido formación el cliente. MESES_EMP: número de meses que el cliente lleva trabajando en su empresa actual. SEXO: variable ficticia donde 1 representa hombre y 0 mujer. Los resultados obtenidos se muestran a continuación: Dependent Variable: BAJAS_FRAUDE Variable Coefficient Std. Error CAT_LAB -2.335717 0.377495 t-Statistic Prob. -6.187410 0.0000 EDAD EDUC MESES_EMP SEXO C R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat -4.182195 0.023432 2.109676 1.128607 2.194078 2.380640 0.045867 1.191958 0.367181 0.739191 0.665707 0.636383 1.265304 91.25661 -101.0652 2.068349 -1.756753 0.510876 1.769924 3.073704 2.968216 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) Matriz de correlaciones BAJAS_FRAUDE CAT_LAB EDAD EDUC BAJAS_FRAUDE CAT_LAB EDAD EDUC MESES_EMP SEXO − 1 -0,7006 0,5314 0,1904 0,7316 0,5613 -0,7006 1 -0,3510 -0,2247 -0,3502 -0,3491 0,5314 -0,3510 1 0,0627 0,8654 0,4213 0,1904 -0,2247 0,0627 1 0,0625 0,0745 0.0843 0.6114 0.0821 0.0032 0.0044 3.984127 2.098325 3.398894 3.603002 22.70185 0.000000 MESES_EMP SEXO 0,5316 -0,3502 0,8654 0,0625 1 0,4215 0,5613 -0,3491 0,4213 0,0745 0,4215 1 Con la información que se suministra ¿incluiría alguna/s modificación/es en la especificación del modelo para mejorar los resultados del mismo? Justifique su respuesta. ¿Cuáles son los resultados que son previsibles obtener con la/s modificación/es adoptada/s? A la vista de los resultados, sorprende la presencia de varios parámetros no significativamente distintos de cero a pesar de que el modelo explica más 66% de las causas de variación de la endógena. Esto suele ser un claro síntoma de multicolinealidad, que queda probada al observar la alta correlación existente entre las variables “edad” y “meses empleado” (0.8654). Probablemente, la solución al modelo pasaría por hacer una variable compuesta con estas dos anteriores (un ratio de experiencia años_empleado/edad, por ejemplo) o bien suprimir una de ellas. Previsiblemente, esta solución cambiará radicalmente la significatividad individual de los parámetros del modelo (al reducir su desviación típica y aumentar el valor de su “t-stastistic”). Es probable que también cambien los signos de algunas de ellas (en la regresión anterior, incorrectos). − Una vez finalizado el proceso de estimación se ha recibido información de dos nuevos clientes, cuyos datos figuran en la siguiente tabla. ¿Cómo utilizaría esta información recibida para valorar la capacidad predictiva del modelo? BAJAS_FRAUDE CAT_LAB EDAD EDUC MESES_EMP SEXO 4 0 32 12 56 1 3 0 26 6 14 0 BAJAS_ EXTR_EST -12.084515 ERROR_EXTRM 16.084515 -76.866936 79.866936 1 Podríamos calcular el contraste de Janus: J = 1 n ei2 j i =∑ n− j n− j n − j −1 ∑ i =1 ei2 1 6637,43 J= 2 = 2291 La conclusión es que el modelo haría una predicción francamente 1 91,25661 63 mala. − ¿Podría indicar entre qué valores se moverá el número de bajas fraudulentas que solicitará un cliente medio? Utilizando el contraste del predictor para los valores de la media (estándar): Pr yˆ n + h − tεn −k σˆ 2 (1 + 1 ) < y n + h < yˆ n + h + tεn −k σˆ 2 n (1 + 1 ) = 1 − ε n 1 1 Pr 3,98 − t ε63−51,26 (1 + ) < y n+ h < 3,98 + tε63−51,26 (1 + ) = 1 − ε 2 2 63 63