Identificación y consistencia Función score Normalidad asintótica Máxima verosimilitud Gabriel V. Montes-Rojas Gabriel Montes-Rojas Máxima verosimilitud Identificación y consistencia Función score Normalidad asintótica Máxima verosimilitud: Introducción Máxima verosimilitud es un caso particular de un estimador M. En este caso se asume que se conoce la función de densidad condicional de las observaciones, y a partir de ello se construye un modelo paramétrico. Se maximiza la verosimilitud (likelihood) de una muestra {(yi , xi ) : i = 1, 2, ..., N } para un modelo correctamente especificado de la densidad condicional f (y |x; θ): N max ∏ f (yi |xi ; θ). θ∈Θ i =1 Si tomamos logaritmos, maximizar la verosimilitud es lo mismo que maximizar el logaritmo de la función de verosimilitud (log-likelihood). Sin embargo, simplifica mucho el problema dado que la suma es más simple que la multiplicación. Definamos `(yi |xi ; θ) ≡ `i (θ) = −q ((yi , xi ), θ) y L(θ) = ∑N i =1 `i ( θ). Entonces, N N N max ∑ log f (yi |X; θ) = max ∑ `(yi |xi ; θ) = max ∑ `i (θ). θ∈Θ i =1 θ∈Θ i =1 Gabriel Montes-Rojas Máxima verosimilitud θ∈Θ i =1 Identificación y consistencia Función score Normalidad asintótica Identificación Consistencia Identificación La identificación requiere que θ0 ∈ Θ sea la única solución a max E [`i (θ)], θ∈Θ o E [`i (θ0 )|xi ] ≥ E [`i (θ)|xi ], θ ∈ Θ. Entonces, θ̂ = arg max E [`i (θ)], θ∈Θ es el estimador de máxima verosimilitud condicional (CMLE, conditional maximum likelihood estimator) de θ, donde la esperanza se toma con respecto a la distribución conjunta de (yi , xi ). Gabriel Montes-Rojas Máxima verosimilitud Identificación y consistencia Función score Normalidad asintótica Identificación Consistencia Consistencia Debido a que máxima verosimilitud es un caso especial de estimadores M, la consistencia requiere los mismos elementos. Consistencia de CMLE: Sea {(xi , yi ) : i = 1, 2, ...} una muestra aleatoria con xi ∈ X ⊂ RK , yi ∈ Y ⊂ RG . Sea Θ ⊂ RP el espacio de los parámetros y denotemos el modelo paramétrico de la densidad condicional como {f (·|x, θ) : x ∈ X , θ ∈ Θ}. Asumamos que (a) {f (·|x, θ) es la densidad verdadera con respecto a la medida v (dy) para todo x y θ; (b) θ0 ∈ Θ es laúnica solución de maxθ∈Θ E [`i (θ)|xi ]; (c) Θ es compacto; (d) para cada θ ∈ Θ, `(., θ) is Borel measurable on Y × X ; (e) para cada (x, y) ∈ Y × X , `(x, y, .) es continuo en Θ; y (d) |`(x, y, θ)| < b (x, y) para todo θ ∈ Θ, donde b es una función no negativa en W tal que E [b (x, y)] < ∞. Entonces existe una solución al problema de máxima verosimilitud y plim θ̂ = θ0 . Gabriel Montes-Rojas Máxima verosimilitud Identificación y consistencia Función score Normalidad asintótica Igualdad de la matriz de información Función score Para la normalidad asintótica se requiere ciertos supuestos sobre `i (θ), en particular, se nececita θ0 ∈ int (Θ) y que sea dos veces continuamente diferenciable. Entonces definamos el score para la observación i como el vector de derivadas parciales 0 ∂ `i ∂` ∂` si (θ) ≡ ∇θ `i (θ)0 = (θ), i (θ), ..., i (θ) θ1 θ2 θP Gabriel Montes-Rojas Máxima verosimilitud Identificación y consistencia Función score Normalidad asintótica Igualdad de la matriz de información Igualdad de la matriz de información La igualdad de la matriz de información (Information matrix equality) es −E [Hi (θ0 )] = E [si (θ0 )si (θ0 )0 ]. Prueba: Para θ0 ∈ int (Θ), θ0 satisface E [si (θ0 )|xi ] = = = = 0= Z Y Z Y Z Y Z Y si (θ0 )f (y |xi ; θ0 )v (dy ) ∂`i (θ) |θ=θ0 f (y |xi ; θ0 )v (dy ) ∂θ ∂log f (y |xi ; θ) |θ=θ0 f (y |xi ; θ0 )v (dy ) ∂θ ∂f (y |xi ; θ) |θ=θ0 v (dy ) ∂θ Entonces usando ∇θ E [si (θ0 )|xi ] = 0 y asumiendo que la derivada y la integral (esperanza) se pueden intercambiar, tenemos Z Y ∂2 f (y |xi ; θ) |θ=θ0 v (dy ) = 0. ∂θ∂θ0 Gabriel Montes-Rojas Máxima verosimilitud Identificación y consistencia Función score Normalidad asintótica Igualdad de la matriz de información Igualdad de la matriz de información Prueba: (cont.) Entonces, ∂2 log f (y |xi ; θ) ∂θθ0 = ∂ ∂log f (y |xi ;θ) ∂θ ∂θ0 ∂ = = = = ∂f (y |xi ;θ) −1 f (y |xi ; θ) ∂θ ∂θ0 ∂2 f (y |xi ; θ) −1 ∂f (y |xi ; θ) ∂f (y |xi ; θ) −2 f (y |xi ; θ) f (y |xi ; θ) − ∂θ∂θ0 ∂θ ∂θ0 ∂log f (y |xi ; θ) ∂log f (y |xi ; θ) ∂2 f (y |xi ; θ) −1 f (y |xi ; θ) − ∂θ∂θ0 ∂θ ∂θ0 2 ∂ f (y |xi ; θ) −1 0 f (y |xi ; θ) − si (θ)si (θ) ∂θ∂θ0 Notemos que Hi (θ ) ≡ ∇θ si (θ) = ∇2θ `i (θ). Entonces aplicando esperanzas a la última igualdad usando θ = θ0 −E ∂2 log f (y |xi ; θ) ∂θθ0 = −E [Hi (θ0 )] = E [si (θ0 )si (θ0 )0 ] θ=θ0 Gabriel Montes-Rojas Máxima verosimilitud Identificación y consistencia Función score Normalidad asintótica Igualdad de la matriz de información Igualdad de la matriz de información generalizada Sea g(w, θ) un vector Q × 1 de mapeo W × Θ 7→ g(w, θ) y asumimos que g(w, θ0 ) es diferenciable para θ0 ∈ Θ. Sea gi (θ) ≡ g(wi , θ). Finalmente, asumamos que Eθ [∇θ gi (θ0 )] = 0. Igualdad de la matriz de información generalizada es −E [∇θ gi (θ0 )] = E [gi (θ0 )si (θ0 )0 ]. Prueba: Consideremos Eθ [gi (θ)] = Z W g(w, θ)f (w)v (dw) = 0 para θ. Tomando derivadas con rspecto a θ y asumiendo que derivada y esperanza se pueden intercambiar, Z W entonces ∇θ g(w, θ)f (w)v (dw) + Z W g(w, θ)∇θ f (w)v (dw) = 0, Eθ [∇θ gi (θ)] + Eθ [gi (θ)si (θ)0 ] = 0. porque ∇θ f (w) = s(w, θ)0 f (w). Reemplazando θ0 obtenemos el resultado. Gabriel Montes-Rojas Máxima verosimilitud Identificación y consistencia Función score Normalidad asintótica Normalidad asintótica √ d N (θ̂ − θ0 ) → N (0, A0−1 ), donde A0 = B0 y A0 = −E [Hi (θ0 )]. Gabriel Montes-Rojas Máxima verosimilitud Identificación y consistencia Función score Normalidad asintótica Eficiencia Para estimadores asintóticamente normales, el “mejor” estimador es aquel consistente y con menor varianza. La eficiencia de un estimador se refiere a la varianza. Para cualquier estimador M Avar (θ̂) = A0−1 B0 A0−1 . Sin embargo, sólo para MLE Avar (θ̂) = A0−1 . Entonces MLE es eficiente. Cràmer-Rao Lower Bound: Sea θ̂ un estimador insesgado para θ0 . Entonces, Var (θ̂) − (I i (θ0 ))−1 es definida semipositiva (para el caso unidimensional Var (θ̂) ≥ (I i (θ0 ))−1 ) donde I i (θ0 ) ≡ E [si (θ0 )si (θ0 )0 ] es la matriz de información de Fisher. Ésta matriz es una forma de medir la cantidad de observación de una variable aleatoria w contiene sobre el parámetro θ0 sobre el cual la probbilidad de w depende. El requerimiento de insesgadez implica que se pueden obtener mejores estimadores, pero no insesgados. Gabriel Montes-Rojas Máxima verosimilitud Identificación y consistencia Función score Normalidad asintótica Ejemplo MCO Supongamos que f (yi |xi ; β, σ) = √1 exp σ 2π − (yi −2σx2i β) 2 . Sea θ = ( β, σ). Entonces (usamos C para una constante que no tiene parámetros) (y − xi β)2 `i (θ) = C − ln(σ) − i , si (θ) = 2σ2 Hi (θ) = . (yi −xi β)2 0 xi xi σ4 0 si (θ)si (θ) = L(θ) = − σ12 xi0 xi . (yi −xi β) 0 xi σ2 2 −σ−1 + (yi −σx3i β) −2 (yi −σ3xi β) xi0 σ −2 − 3 ( y i − xi σ4 σ −2 + , ( y i − xi β ) 3 0 xi σ5 (yi −xi β)4 (yi −xi β)2 − 2 σ6 σ4 N N i =1 i =1 (yi − xi β)2 , 2σ2 Máxima verosimilitud , ! − (yi −σ3xi β) xi0 + ∑ `i (θ) = NC − N ln(σ) − ∑ Gabriel Montes-Rojas β )2 ! ! , Identificación y consistencia Función score Normalidad asintótica Ejemplo MCO Probar que E [si (θ0 )si (θ0 )0 ] = −E [Hi (θ0 )] Ayuda: Para u ∼ N (0, σ2 ), E (u 2 ) = σ2 , E (u 3 ) = 0 y E (u 4 ) = 3σ4 . Probar que β̂ OLS = β̂ MLE . 2 2 Ayuda: σ̂MLE = N −1 ∑ N i =1 (yi − xi β̂ ) . Gabriel Montes-Rojas Máxima verosimilitud Identificación y consistencia Función score Normalidad asintótica Referencias Estas notas están basadas en Capı́tulos 12 y 13 de Wooldridge. Newey, W.K., y McFadden, D. (1994), “Large Sample Estimation and Hypothesis Testing,” en Handbook of Econometrics, Volumen 4, ed. R.F. Engle y D. McFadden. Amsterdam: North Holland, 2111–2245. Van der Vaart, A.W. (1998), Asymptotic Statistics. Cambridge University Press. Gabriel Montes-Rojas Máxima verosimilitud