Corrección

Anuncio
ECONOMETRÍA I
GRUPO 53 (DADE)
25 de enero de 2011
NOMBRE:
DNI:
____________________________________________________
_____________
1. ¿Qué variable parece adecuado utilizar en un modelo de regresión para explicar el
porcentaje de abandono escolar de los estudiantes a nivel nacional en España entre
1995 y 2010?:
Género de los estudiantes
Edad de los estudiantes
Presupuesto destinado a educación
Distribución de inmigrantes por CCAA
2. Si deseamos medir las variables que explican la mayor o menor afluencia anual de
espectadores al cine en España en los últimos 10 años, conviene considerar:
La mayor o menor oferta de películas y capacidad de los cines
La temperatura media y en general las condiciones climatológicas
La mayor o menor cantidad de días de fiesta
Todas las anteriores
3. En el marco del modelo básico de regresión lineal, la expresión
lim βˆ = β
n →∞
Expresa genéricamente la propiedad de consistencia del estimador
Expresa la propiedad de consistencia sólo para los estimadores insesgados
Expresa genéricamente la propiedad de insesgadez del un estimador
Ninguna de las anteriores
4. Los parámetros estimados en el marco de un MBRL aleatoria siguen una distribución:
N [0,σ 2 ]
N [β ,σ u2 ]
t [β , σ˜ u2 ( X ' X ) −1 ]
N [β , σ~ u2 ( X ' X ) − 1 ]
5. Imagine que utiliza, para una muestra con blancos, negros y asiáticos, DOS variables
exógenas dicotómicas (0,1) para representar la raza NEGRA (Black=1) y la raza
BLANCA (WHITE=1) y analizar así el efecto de estas dos razas sobre los salarios (W):
W i = β0 + β1 ⋅ BLACKi + β 2 ⋅ WHITEi + Ui
6. ¿Qué cree que representará el parámetro estimado para la exógena WHITE (0,1)?:
El salario medio diferencial de los blancos respecto a los negros
El salario medio diferencial de los blancos respecto a los asiáticos
El salario medio diferencial de los blancos respecto a la media de los asiáticos y negros
El salario medio diferencial de los blancos respecto a la media global
7. Parece claro que el sesgo en la estimación MCO de un parámetro depende de
introducir o eliminar en la especificación otras variables más o menos relevantes. En
este sentido, ¿cuál de estas situaciones se asocia con un mayor riesgo de sesgo?:
Omitir una variable muy relevante pero sin conexión con las incluidas
Omitir una variable poco relevante pero altamente relacionada con las incluidas
Omitir una variable muy relevante y altamente relacionada con las incluidas
Omitir una variable poco relevante y sin conexión con las incluidas
8. Volvemos a plantear la pregunta que hicimos más arriba, (pero ahora con las
varianzas, …ojo). Parece que la varianza de un parámetro estimado puede cambiar al
introducir o eliminar en la especificación otras variables más o menos relevantes. En
este sentido, ¿cuál de estas situaciones se asocia con un mayor incremento de la
varianza?
El enunciado no es correcto, no hay una relación evidente entre omisión y varianza
Lo importante es no omitir una variable muy relevante (si tiene o no relación con las
incluidas no está en relación con el asunto de la varianza)
El aumento se produce al omitir una variable muy relevante y sin conexión con las
incluidas
El aumento se produce al omitir una variable muy relevante y, además, altamente
relacionada con las incluidas
9. ¿Cómo se distribuye la suma cuadrática de los errores del modelo dividida por las
varianza de las perturbaciones aleatorias? ¿Qué trascendencia tiene esta distribución
para la validación del MBRL?
e' e
σ
2
=
U ' MU
σ
2
=
U'
σ
M
U'
σ
ya que se trata de la suma de (n-k) normales (0,1) al cuadrado independientes.
Recuérdese que por hipótesis inicial, habíamos asumido que la U se distribuía como
una normal (0, σ ).
2
Esta distribución es trascendente para la determinación de la función de distribución
empírica de los parámetros estimados, para la determinación del contraste de
significación conjunta F-Snedecor y para el contraste del predictor.
10. Un determinado modelo estima la relación entre el precio de las casas (PRICE) en
dólares y algunas de sus características: los metros cuadrados (SQRFT), las
habitaciones (BDRMS) y si es de arquitectura Colonial (1) o no (0). Los resultados
básicos obtenidos son los siguientes:
Dependent Variable: PRICE
Method: Least Squares
Sample: 1 88
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
BDRMS
LOG(SQRFT)
-1784252.
18950.19
240000.0
232155.3
10537.26
30000.00
-7.685597
1.798398
-
0.0000
0.0700
0.0000
COLONIAL
4365.726
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Durbin-Watson stat
0.582456
0.567544
67545.78
3.83E+11
1.972295
16425.56
0.265788
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Prob(F-statistic)
0.8000
293546.0
102713.4
25.12339
25.23599
0.000000
Responda a las siguientes preguntas:
VALOR
Grados de libertad utilizados en la estimación
84
Incremento estimado del precio de una casa si se añade una habitación más (con idénticas
características de SQRFT y COLONIAL)
18950.19
Nivel de confianza asociado al rechazo (como significativa) de la variable COLONIAL
0.8000
Valor de la “t” de Student para la variable LOG(SQRFT)
8
Incremento del precio ante una variación del tamaño de la casa (SQRFT) del 1%
240000.0/100
Porcentaje de la variabilidad del precio de las casas explicada con el modelo
0.582456
Valor del estimador insesgado de la varianza de la perturbación aleatoria
67545.78^2
Disminución del precio medio asociado a las casas NO coloniales e idénticas características (de
BDRMS y SQRFT) a las no coloniales
4365.726
Valor inferior del intervalo de confianza para el parámetro de la variable BDRMS con un nivel
de confianza del 93% (o de especificación del 7%). :
18950.19-1.798398*10537.26=
0.00269052
11. Una compañía médica quiere conocer las características de los clientes que solicitan
bajas fraudulentas. Para ello realiza la estimación de un modelo econométrico donde
modeliza el número de bajas fraudulentas por cliente en el último año, utilizando la
información contenida en los registros de tres compañías médicas distintas a cuyas
bases de datos ha tenido acceso, en función de:
−
−
−
−
−
CAT_LAB: variable ficticia que representa la categoría laboral (0 operario y 1
directivo).
EDAD: edad del cliente.
EDUC: número de años que ha recibido formación el cliente.
MESES_EMP: número de meses que el cliente lleva trabajando en su empresa
actual.
SEXO: variable ficticia donde 1 representa hombre y 0 mujer.
Los resultados obtenidos se muestran a continuación:
Dependent Variable: BAJAS_FRAUDE
Variable
Coefficient
Std. Error
CAT_LAB
-2.335717
0.377495
t-Statistic
Prob.
-6.187410
0.0000
EDAD
EDUC
MESES_EMP
SEXO
C
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
-4.182195
0.023432
2.109676
1.128607
2.194078
2.380640
0.045867
1.191958
0.367181
0.739191
0.665707
0.636383
1.265304
91.25661
-101.0652
2.068349
-1.756753
0.510876
1.769924
3.073704
2.968216
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
Matriz de correlaciones
BAJAS_FRAUDE CAT_LAB
EDAD
EDUC
BAJAS_FRAUDE
CAT_LAB
EDAD
EDUC
MESES_EMP
SEXO
−
1
-0,7006
0,5314
0,1904
0,7316
0,5613
-0,7006
1
-0,3510
-0,2247
-0,3502
-0,3491
0,5314
-0,3510
1
0,0627
0,8654
0,4213
0,1904
-0,2247
0,0627
1
0,0625
0,0745
0.0843
0.6114
0.0821
0.0032
0.0044
3.984127
2.098325
3.398894
3.603002
22.70185
0.000000
MESES_EMP
SEXO
0,5316
-0,3502
0,8654
0,0625
1
0,4215
0,5613
-0,3491
0,4213
0,0745
0,4215
1
Con la información que se suministra ¿incluiría alguna/s modificación/es en la
especificación del modelo para mejorar los resultados del mismo? Justifique su
respuesta. ¿Cuáles son los resultados que son previsibles obtener con la/s
modificación/es adoptada/s?
A la vista de los resultados, sorprende la presencia de varios parámetros no significativamente
distintos de cero a pesar de que el modelo explica más 66% de las causas de variación de la
endógena. Esto suele ser un claro síntoma de multicolinealidad, que queda probada al observar
la alta correlación existente entre las variables “edad” y “meses empleado” (0.8654).
Probablemente, la solución al modelo pasaría por hacer una variable compuesta con estas dos
anteriores (un ratio de experiencia años_empleado/edad, por ejemplo) o bien suprimir una de
ellas.
Previsiblemente, esta solución cambiará radicalmente la significatividad individual de los
parámetros del modelo (al reducir su desviación típica y aumentar el valor de su “t-stastistic”).
Es probable que también cambien los signos de algunas de ellas (en la regresión anterior,
incorrectos).
−
Una vez finalizado el proceso de estimación se ha recibido información de dos
nuevos clientes, cuyos datos figuran en la siguiente tabla. ¿Cómo utilizaría esta
información recibida para valorar la capacidad predictiva del modelo?
BAJAS_FRAUDE CAT_LAB EDAD EDUC MESES_EMP SEXO
4
0
32
12
56
1
3
0
26
6
14
0
BAJAS_
EXTR_EST
-12.084515
ERROR_EXTRM
16.084515
-76.866936
79.866936
1
Podríamos calcular el contraste de Janus: J =
1
n
ei2
j i =∑
n− j
n− j
n − j −1 ∑
i =1
ei2
1 6637,43
J= 2
= 2291 La conclusión es que el modelo haría una predicción francamente
1 91,25661
63
mala.
−
¿Podría indicar entre qué valores se moverá el número de bajas fraudulentas
que solicitará un cliente medio?
Utilizando el contraste del predictor para los valores de la media (estándar):

Pr  yˆ n + h − tεn −k σˆ
2

(1 +
1
) < y n + h < yˆ n + h + tεn −k σˆ
2
n
(1 +
1 
) = 1 − ε
n 

1
1 
Pr 3,98 − t ε63−51,26 (1 + ) < y n+ h < 3,98 + tε63−51,26 (1 + ) = 1 − ε
2
2
63
63 

Descargar