Subido por Irene Zapata Moran

Workshop IZM 2 texto

Anuncio
Workshop 2
Irene Zapata Morán
Septiembre 2017
Robust standard Errors and FGLS
Use data mus03data.dta from Cámeron and Trivedi (2009) Microeconometrics using Stata.
1. Fit a regression model that has as dependent variable ltotesp and as explanatory variables
suppins phylim actlim totchr age female income using the first 100 observations. Compute the standard errors using the three ways: default, heteroskedastic, and cluster-robust
where clustering is on the number of chronic problems. Use the command estimates to
produce a table with the three set of corresponding coefficients and standard errors, and
comment on any appreciable differences in the standard errors.
En la Tabla 1 podemos observar los resultados del ejercicio anterior. Aunque en los tres
modelos la estimación de β es la misma, los errores estándar varı́an. En el caso del modelo
robusto, cuando nos preocupa la presencia de heterocedasticidad, el estimador de β puede
no ser el parámetro poblacional; de esta forma los errores estándar se acomodan para poder
hacer pruebas validas de inferencia sobre estos estimadores. De la misma manera, cuando
asumimos que puede no haber independencia en las observaciones, modelo cluster-robust,
los errores se ajustan. Es interesante observar el caso donde la variable sı́ es significativa
para los tres modelos (actlim- actividades limitadas). En ella, los errores estándar varı́an
considerablemente y aun ası́ la variable sigue siendo importante para la especificación del
modelo. No de la misma manera con la variable de limitaciones funcionales (phylim) donde
sólo es significativa en el modelo default. Los errores estándar para esta variable en los
modelos robustos son más grandes y aun ası́ la variable no es significativa. Esto implica
que en caso que el modelo tenga problemas de heterocedasticidad o no independencia entre
las observaciones, esta variable no es importante para la predicción del gasto en salud.
1
Tabla 1: Comparación entre modelos
default
heteroskedastic cluster-robust
suppins
0.0338
0.0338
0.0338
(0.1772)
(0.1735)
(0.1578)
phylim
-0.5777∗
(0.2767)
-0.5777
(0.3445)
-0.5777
(0.2992)
actlim
0.7339∗
(0.3180)
0.7339∗
(0.3440)
0.7339∗
(0.1884)
totchr
0.1823
(0.1227)
0.1823
(0.1160)
0.1823
(0.0656)
age
-0.0173
(0.0140)
-0.0173
(0.0139)
-0.0173
(0.0067)
female
-0.0084
(0.1701)
-0.0084
(0.1705)
-0.0084
(0.1096)
income
0.0024
(0.0036)
0.0024
(0.0033)
0.0024
(0.0044)
cons
5.6756∗∗∗
(1.0273)
100
0.0897
1.2946
5.6756∗∗∗
(0.9988)
100
0.0897
1.4903
5.6756∗∗∗
(0.4193)
100
0.0897
.
N
r2
F
Errores estándar en paréntesis
∗
p < 0,05,
∗∗
p < 0,01,
∗∗∗
p < 0,001
2. Fit a regression model with dependent variable ltotesp and control variables suppins phylim
actlim totchr age female income with robust standard errors reported. Test at 5 % the joint
significance of the demographic variables age, female and income. Test the hypothesis that
being male (rather than female) has the same impact on medical expenditures as agingn
10 years. Fit the model under the constraint that the coefficients on phylim and actlim are
the same (hint: first define the constraint constraint define 1 phylim=actlim and then use
cnsreg with option constraints(1)).
El primer test es significativo a un nivel de confianza del 5 %. Esto es que los coeficientes
age, female o income es diferente de cero.
El segundo test no es significativo, lo que implica que ser hombre no es lo mismo a tener
10 años más en terminos de lo que se gasta en salud.
En la Tabla 2 se muestran los coeficientes del modelo robusto, en ellos observamos que el
2
ingreso es significativo al 1 % de nivel de confianza. Con esta observación podemos asegurar
que es este coeficiente el que es diferente de cero en el primer test.
Tabla 2: Ejercicio 2
ltotexp
suppins
0.255∗∗∗
(5.51)
phylim
0.327∗∗∗
(11.18)
actlim
0.327∗∗∗
(11.18)
totchr
0.376∗∗∗
(20.40)
age
0.00377
(1.03)
female
-0.0856
(-1.88)
income
0.00253∗
(2.48)
cons
6.705∗∗∗
(24.23)
2955
N
estadı́stico t entre paréntesis
∗
p < 0,05,
∗∗
p < 0,01,
∗∗∗
p < 0,001
3. Generate the a simulated data set with the following data generating process (DGP).
set seed 10101
quietly set obs 500
generate x2 = 5*rnormal(0)
generate x3 = 5*rnormal(0)
generate e = 5*rnormal(0)
generate u = sqrt (exp(-1+0.2*x2))*e
generate y = 1+1*x2+1*x3+u
Implement the first step of a FGLS to obtain the predicted variance varu. Compare different methods for implementing the second step.
3
First use the command regress with analytical weights [aweight=1/varu]. Second, transform the dependent and independent variables, including the column of 1s for the constant, dividing each variable by the square root of varu. Next, use regress with option
noconstant to perform estimation. Third, use command regress with probability weights
[pweight=1/varu], and show that the default standard errors using pweights dier from those using aweights because pweights default is to compute robust standard errors. What
would you do to obtain a Weighted Least Squares estimator?
En la Tabla 3 vemos los pesos obtenidos por los tres métodos. Observamos que son virtualmente iguales. El estimado de WLS se puede obtener de la siguente manera
β̂W LS = (X 0 w−1 X)−1 X 0 w−1 y
donde w son los pesos que obtuvimos anteriormente.
x2
Tabla 3: Comparación entre métodos
fgls aweights fgls manual fgls pweights
1.0338∗∗∗
1.0338∗∗∗
(0.0024)
(0.0022)
0.9950∗∗∗
(0.0024)
x3
0.9950∗∗∗
(0.0022)
x2m
1.0338∗∗∗
(0.0024)
x3m
0.9950∗∗∗
(0.0024)
ones
1.1672∗∗∗
(0.0110)
cons
N
r2
F
1.1672∗∗∗
(0.0110)
500
0.9982
1.373e+05
500
0.9982
91679.0054
1.1672∗∗∗
(0.0101)
500
0.9982
1.836e+05
Errores estándar en paréntesis
∗
p < 0,05,
∗∗
p < 0,01,
∗∗∗
p < 0,001
4. Se anexa dofile.
5. Suppose the DGP is yi = β0 xi + ui , ui = xi i , xi ∼ N (0, 1), and i ∼ N (0, 1). Assume that
the data are independent over i and that Xi is independent of i . Note that the first four
central moments of N (0, σ 2 ) are 0, σ 2 , 0, and 3σ 4 .
4
(a) Show that the error term ui ins conditionally heteroskedastic.
Por definicion tenemos que
V ar(u|x) = V ar(x|x)
= x2 V ar(|x)
= x2 V ar()
= x2 × 1
= x2
Por lo tanto, la varianza de u es dependiente de una variable aleatoria.
(b) Obtain plimN −1 X 0 X. [Hint: Obtain E(x2i ) and apply a law of large numbers].
Reescribiendo la expresión de forma escalar tenemos que
N
−1
0
XX=N
−1
N
X
x2i
i=1
= σ̂
2
por ley de grandes números sabemos que
σ̂ 2 −→p E(x2i )
⇒plimN −1 X 0 X = E(x2i )
(c) Obtain plimN −1 X 0 Ω0 X = limN −1 E(X 0 Ω0 X), where Ω0 = Diag[Var(ui |xi )]. Reescribiendo la expresión de forma escalar tenemos que
N
−1
0
X Ω0 X = N
−1
= N −1
N
X
i=1
N
X
σi2 x2i
x2i x2i
i=1
= N −1
= N −1
= N −1
N
X
i=1
N
X
i=1
N
X
x2i x2i
x4i
3σ 4
i=1
=N
=3
⇒ plimN −1 X 0 Ω0 X = 3
5
−1
N 3σ 4
Descargar