Máxima verosimilitud - Gabriel Montes

Anuncio
Identificación y consistencia
Función score
Normalidad asintótica
Máxima verosimilitud
Gabriel V. Montes-Rojas
Gabriel Montes-Rojas
Máxima verosimilitud
Identificación y consistencia
Función score
Normalidad asintótica
Máxima verosimilitud: Introducción
Máxima verosimilitud es un caso particular de un estimador M.
En este caso se asume que se conoce la función de densidad condicional de las
observaciones, y a partir de ello se construye un modelo paramétrico.
Se maximiza la verosimilitud (likelihood) de una muestra
{(yi , xi ) : i = 1, 2, ..., N } para un modelo correctamente especificado de la
densidad condicional f (y |x; θ):
N
max ∏ f (yi |xi ; θ).
θ∈Θ i =1
Si tomamos logaritmos, maximizar la verosimilitud es lo mismo que maximizar el
logaritmo de la función de verosimilitud (log-likelihood). Sin embargo, simplifica
mucho el problema dado que la suma es más simple que la multiplicación.
Definamos `(yi |xi ; θ) ≡ `i (θ) = −q ((yi , xi ), θ) y L(θ) = ∑N
i =1 `i ( θ). Entonces,
N
N
N
max ∑ log f (yi |X; θ) = max ∑ `(yi |xi ; θ) = max ∑ `i (θ).
θ∈Θ i =1
θ∈Θ i =1
Gabriel Montes-Rojas
Máxima verosimilitud
θ∈Θ i =1
Identificación y consistencia
Función score
Normalidad asintótica
Identificación
Consistencia
Identificación
La identificación requiere que θ0 ∈ Θ sea la única solución a
max E [`i (θ)],
θ∈Θ
o
E [`i (θ0 )|xi ] ≥ E [`i (θ)|xi ], θ ∈ Θ.
Entonces,
θ̂ = arg max E [`i (θ)],
θ∈Θ
es el estimador de máxima verosimilitud condicional (CMLE, conditional maximum
likelihood estimator) de θ, donde la esperanza se toma con respecto a la distribución
conjunta de (yi , xi ).
Gabriel Montes-Rojas
Máxima verosimilitud
Identificación y consistencia
Función score
Normalidad asintótica
Identificación
Consistencia
Consistencia
Debido a que máxima verosimilitud es un caso especial de estimadores M, la
consistencia requiere los mismos elementos.
Consistencia de CMLE: Sea {(xi , yi ) : i = 1, 2, ...} una muestra aleatoria con
xi ∈ X ⊂ RK , yi ∈ Y ⊂ RG . Sea Θ ⊂ RP el espacio de los parámetros y denotemos el
modelo paramétrico de la densidad condicional como {f (·|x, θ) : x ∈ X , θ ∈ Θ}.
Asumamos que
(a) {f (·|x, θ) es la densidad verdadera con respecto a la medida v (dy) para todo x y θ;
(b) θ0 ∈ Θ es laúnica solución de maxθ∈Θ E [`i (θ)|xi ];
(c) Θ es compacto;
(d) para cada θ ∈ Θ, `(., θ) is Borel measurable on Y × X ;
(e) para cada (x, y) ∈ Y × X , `(x, y, .) es continuo en Θ; y
(d) |`(x, y, θ)| < b (x, y) para todo θ ∈ Θ, donde b es una función no negativa en W
tal que E [b (x, y)] < ∞.
Entonces existe una solución al problema de máxima verosimilitud y plim θ̂ = θ0 .
Gabriel Montes-Rojas
Máxima verosimilitud
Identificación y consistencia
Función score
Normalidad asintótica
Igualdad de la matriz de información
Función score
Para la normalidad asintótica se requiere ciertos supuestos sobre `i (θ), en
particular, se nececita θ0 ∈ int (Θ) y que sea dos veces continuamente
diferenciable.
Entonces definamos el score para la observación i como el vector de derivadas
parciales
0
∂ `i
∂`
∂`
si (θ) ≡ ∇θ `i (θ)0 =
(θ), i (θ), ..., i (θ)
θ1
θ2
θP
Gabriel Montes-Rojas
Máxima verosimilitud
Identificación y consistencia
Función score
Normalidad asintótica
Igualdad de la matriz de información
Igualdad de la matriz de información
La igualdad de la matriz de información (Information matrix equality) es
−E [Hi (θ0 )] = E [si (θ0 )si (θ0 )0 ].
Prueba: Para θ0 ∈ int (Θ), θ0 satisface
E [si (θ0 )|xi ]
=
=
=
=
0=
Z
Y
Z
Y
Z
Y
Z
Y
si (θ0 )f (y |xi ; θ0 )v (dy )
∂`i (θ)
|θ=θ0 f (y |xi ; θ0 )v (dy )
∂θ
∂log f (y |xi ; θ)
|θ=θ0 f (y |xi ; θ0 )v (dy )
∂θ
∂f (y |xi ; θ)
|θ=θ0 v (dy )
∂θ
Entonces usando ∇θ E [si (θ0 )|xi ] = 0 y asumiendo que la derivada y la integral
(esperanza) se pueden intercambiar, tenemos
Z
Y
∂2 f (y |xi ; θ)
|θ=θ0 v (dy ) = 0.
∂θ∂θ0
Gabriel Montes-Rojas
Máxima verosimilitud
Identificación y consistencia
Función score
Normalidad asintótica
Igualdad de la matriz de información
Igualdad de la matriz de información
Prueba: (cont.) Entonces,
∂2 log f (y |xi ; θ)
∂θθ0
=
∂
∂log f (y |xi ;θ)
∂θ
∂θ0
∂
=
=
=
=
∂f (y |xi ;θ) −1
f (y |xi ; θ)
∂θ
∂θ0
∂2 f (y |xi ; θ) −1
∂f (y |xi ; θ)
∂f (y |xi ; θ) −2
f (y |xi ; θ)
f (y |xi ; θ) −
∂θ∂θ0
∂θ
∂θ0
∂log f (y |xi ; θ) ∂log f (y |xi ; θ)
∂2 f (y |xi ; θ) −1
f (y |xi ; θ) −
∂θ∂θ0
∂θ
∂θ0
2
∂ f (y |xi ; θ) −1
0
f (y |xi ; θ) − si (θ)si (θ)
∂θ∂θ0
Notemos que Hi (θ ) ≡ ∇θ si (θ) = ∇2θ `i (θ). Entonces aplicando esperanzas a la última
igualdad usando θ = θ0
−E
∂2 log f (y |xi ; θ)
∂θθ0
= −E [Hi (θ0 )] = E [si (θ0 )si (θ0 )0 ]
θ=θ0
Gabriel Montes-Rojas
Máxima verosimilitud
Identificación y consistencia
Función score
Normalidad asintótica
Igualdad de la matriz de información
Igualdad de la matriz de información generalizada
Sea g(w, θ) un vector Q × 1 de mapeo W × Θ 7→ g(w, θ) y asumimos que g(w, θ0 ) es
diferenciable para θ0 ∈ Θ. Sea gi (θ) ≡ g(wi , θ). Finalmente, asumamos que
Eθ [∇θ gi (θ0 )] = 0. Igualdad de la matriz de información generalizada es
−E [∇θ gi (θ0 )] = E [gi (θ0 )si (θ0 )0 ].
Prueba: Consideremos
Eθ [gi (θ)] =
Z
W
g(w, θ)f (w)v (dw) = 0
para θ. Tomando derivadas con rspecto a θ y asumiendo que derivada y esperanza se
pueden intercambiar,
Z
W
entonces
∇θ g(w, θ)f (w)v (dw) +
Z
W
g(w, θ)∇θ f (w)v (dw) = 0,
Eθ [∇θ gi (θ)] + Eθ [gi (θ)si (θ)0 ] = 0.
porque ∇θ f (w) = s(w, θ)0 f (w). Reemplazando θ0 obtenemos el resultado.
Gabriel Montes-Rojas
Máxima verosimilitud
Identificación y consistencia
Función score
Normalidad asintótica
Normalidad asintótica
√
d
N (θ̂ − θ0 ) → N (0, A0−1 ),
donde A0 = B0 y A0 = −E [Hi (θ0 )].
Gabriel Montes-Rojas
Máxima verosimilitud
Identificación y consistencia
Función score
Normalidad asintótica
Eficiencia
Para estimadores asintóticamente normales, el “mejor” estimador es aquel
consistente y con menor varianza. La eficiencia de un estimador se refiere a la
varianza.
Para cualquier estimador M
Avar (θ̂) = A0−1 B0 A0−1 .
Sin embargo, sólo para MLE Avar (θ̂) = A0−1 . Entonces MLE es eficiente.
Cràmer-Rao Lower Bound: Sea θ̂ un estimador insesgado para θ0 . Entonces,
Var (θ̂) − (I i (θ0 ))−1
es definida semipositiva (para el caso unidimensional Var (θ̂) ≥ (I i (θ0 ))−1 )
donde I i (θ0 ) ≡ E [si (θ0 )si (θ0 )0 ] es la matriz de información de Fisher. Ésta
matriz es una forma de medir la cantidad de observación de una variable
aleatoria w contiene sobre el parámetro θ0 sobre el cual la probbilidad de w
depende.
El requerimiento de insesgadez implica que se pueden obtener mejores
estimadores, pero no insesgados.
Gabriel Montes-Rojas
Máxima verosimilitud
Identificación y consistencia
Función score
Normalidad asintótica
Ejemplo MCO
Supongamos que f (yi |xi ; β, σ) =
√1 exp
σ 2π
− (yi −2σx2i β)
2
. Sea θ = ( β, σ).
Entonces (usamos C para una constante que no tiene parámetros)
(y − xi β)2
`i (θ) = C − ln(σ) − i
, si (θ) =
2σ2
Hi (θ) =
.
(yi −xi β)2 0
xi xi
σ4
0
si (θ)si (θ) =
L(θ) =
− σ12 xi0 xi
.
(yi −xi β) 0
xi
σ2
2
−σ−1 + (yi −σx3i β)
−2 (yi −σ3xi β) xi0
σ −2 − 3
( y i − xi
σ4
σ −2 +
,
( y i − xi β ) 3 0
xi
σ5
(yi −xi β)4
(yi −xi β)2
−
2
σ6
σ4
N
N
i =1
i =1
(yi − xi β)2
,
2σ2
Máxima verosimilitud
,
!
− (yi −σ3xi β) xi0 +
∑ `i (θ) = NC − N ln(σ) − ∑
Gabriel Montes-Rojas
β )2
!
!
,
Identificación y consistencia
Función score
Normalidad asintótica
Ejemplo MCO
Probar que
E [si (θ0 )si (θ0 )0 ] = −E [Hi (θ0 )]
Ayuda: Para u ∼ N (0, σ2 ), E (u 2 ) = σ2 , E (u 3 ) = 0 y E (u 4 ) = 3σ4 .
Probar que β̂ OLS = β̂ MLE .
2
2
Ayuda: σ̂MLE
= N −1 ∑ N
i =1 (yi − xi β̂ ) .
Gabriel Montes-Rojas
Máxima verosimilitud
Identificación y consistencia
Función score
Normalidad asintótica
Referencias
Estas notas están basadas en
Capı́tulos 12 y 13 de Wooldridge.
Newey, W.K., y McFadden, D. (1994), “Large Sample Estimation and
Hypothesis Testing,” en Handbook of Econometrics, Volumen 4, ed. R.F. Engle
y D. McFadden. Amsterdam: North Holland, 2111–2245.
Van der Vaart, A.W. (1998), Asymptotic Statistics. Cambridge University Press.
Gabriel Montes-Rojas
Máxima verosimilitud
Descargar