INTRODUCCIÓN DE ELEMENTOS BÁSICOS Población: Modelo con densidad f (x, θ). Parámetro unidimensional θ ∈ Θ. Observaciones (muestreo): X = (X1 , ..., Xn )iid. datos observados: x = (x1 , ..., xn ) Q Verosimilitud: L(θ) = f (xi , θ) P log-verosimilitud: l(θ) = log(L(θ) = logf (xi , θ) ∂ Score: S(x, θ) = ∂θ l(θ) = l0 (θ) En modelos ”regulares”: El EMV de θ, θ̂, es solución de la ecuación de verosimilitud: l0 (θ) = 0. El Score está centrado: Eθ [S(x, θ)] = 0. Información de Fisher o esperada: I(θ) = V arθ S(x, θ) = Eθ [S 2 (x, θ)] = Eθ [−l00 (θ)]. Información observada: I(θ) = −l00 (θ). La información es n veces la información basada en una sola observación. La información observada ’aproxima’ la información esperada o de Fisher. Ambas, información esperada y observada, coinciden en el EMV, en modelos exponenciales. Si además el parámetro es canónico, entonces información esperada y observada coinciden. Aplicación del TCL al Score S(X, θ): L S(X, θ)I−1/2 (θ) −→ N (0, 1) , bajo θ. (1) n→∞ Su cuadrado se denomina en ocasiones función Q-score: L Q(θ) = [l0 (θ)]2 I−1 (θ) −→ χ21 , bajo θ. n→∞ Distribución asintótica del EMV (heurı́stica): b ≈ l0 (θ) + (θb − θ)l00 (θ). Como l0 (θ) b = 0, siguiendo (1) se deduce que, l0 (θ) (θb − θ)I1/2 (θ) → N (0, 1) , bajo θ. La dsitribución asintótica de θb es N (θ, I−1 (θ)). Una consecuencia interesante es que θb es un estimador consistente de θ. b se(θ) b = [−l00 (θ)] b −1/2 ≡ I −1/2 (θ). b El error estándar de θ: L b W (θ) −→ χ2 , bajo La función de Wald: W (θ) = (θb − θ)2 I(θ). 1 n→∞ La Deviance (TRV) El teorema del valor medio garantiza que b + (θb − θ)l0 (θ) b + 1 (θb − θ)2 l00 (θ∗ ), para cierto θ∗ ∈ (θ, b θ). l(θ) = l(θ) 2 1 θ. b = 0 y θb es consistente, lo anterior proporciona una aproximación cuadrática a la Como l0 (θ) logverosimilitud en el EMV: b − 1 (θb − θ)2 [−l00 (θ)] b l(θ) ≈ l(θ) 2 Además, podemos decir que la Deviance tiene una distribución asintótica chi-cuadrado. 2 00 b b b D(θ) = −2log( L(θ) b ) = 2[l(θ) − l(θ)] ≈ (θ − θ) [−l (θ)] ≡ W (θ), y en consecuencia, L(θ) L D(θ) −→ χ21 , bajo θ. n→∞ Q(θ), W (θ) y D(θ) son asintóticamente equivalentes. Intervalos de confianza asintóticos para θ: Score: {θ : Q(θ) ≤ χ21,1−α } b Wald: {θ : W (θ) ≤ χ21,1−α } ≡ {θb ± z1−α se(θ)} b − 1 χ2 Deviance: {θ : D(θ) ≤ χ21,1−α } ≡ {θ : l(θ) ≥ l(θ) 2 1,1−α } Parámetro q-dimensional, θ ∈ Θ ⊆ Rq . El Score es ahora un vector q-dimensional cuyas componentes son las derivadas de la logverosimilitud respecto de cada parámetro. S(x, θ) = (..., ∂θ∂ i l(θ), ...)t La información esperada y la observada son sendas matrices qxq, en las que el elemento (i, j) está determinado por la derivada segunda de la logverosimilitud respecto de los elementos i y j de θ: 2 2 Iij (θ) = E[− ∂θ∂j ∂θi l(θ)]; Iij (θ) = − ∂θ∂j ∂θi l(θ). b es solución del sistema de ecuaciones de verosimilitud, l0 (θ) = 0. El EMV de θ, θ, La distribución asintótica de θb es Nq (θ, I−1 (θ)). b I −1 (θ), b estiman las varianzas Los elementos diagonales de la covarianza asintótica estimada de θ, b La raı́z cuadrada del elemento i diagonal es se(θbi ), que permite asintóticas de las componentes de θ. calcular un IC asintótico de Wald para θi de la forma: [θbi ± z1−α se(θbi )]. Además, las funciones Q-score, Wald y Deviance, definidas adecuadamente, son asintóticamente equivalentes y tienen una distribución lı́mite chi-cuadrado con q grados de libertad. Q(θ) = S t (X, θ)I −1 (θ)S(X, θ) −→ χ2q , bajo θ. b θb − θ) −→ χ2 , bajo θ. W (θ) = (θb − θ)t I(θ)( q b − l(θ)] −→ χ2 , bajo θ. D(θ) = 2[l(θ) q Regiones de confianza asintóticas: Score: {θ : Q(θ) ≤ χ2q,1−α } Wald: {θ : W (θ) ≤ χ2q,1−α }, elipsoide q-dimensional. b − 1 χ2 Deviance: {θ : D(θ) ≤ χ2q,1−α } ≡ {θ : l(θ) ≥ l(θ) 2 q,1−α } El cálculo de IC’s para una componente θi de θ es sencillo mediante el método de Wald, como ya hemos visto, pero el procedimiento es, en general, peor que el basado en la verosimilituid perfil. 2 Contrastes de θ = θ0 (simple) Se rechaza la hipótesis para valores grandes de los estadı́sticos Q(θ0 ), W (θ0 ) o D(θ0 ). Se obtiene un pvalor asintótico mediante la aproximación χ2q a la distribución nula de cualquiera de los tres estadı́sticos. Método δ Si Si √ n(θb − θ) −→ N (0, σ 2 ) y g 0 (θ) 6= 0, entonces √ b − g(θ)) −→ N (0, σ 2 [g 0 (θ)]2 ). n(g(θ) √ b √ b − g(θ)) −→ N1 (0, M t ΣM ). n(θ − θ) −→ Nq (0, Σ) y g : Rq → R, M = ( ∂g n(g(θ) ∂θ ), entonces TRV para el ajuste de modelos anidados Si el modelo M 0 , con k parámetros libres, está anidado en el modelo M 1 , con q parámetros libres, entonces, bajo condiciones de regularidad, se verifica que D(M 0 |M 1 ) = −2log L(θb0 ) L = 2[l(θb1 ) − l(θb0 )] −→ χ2q−k , bajo M 0 . 1 b L(θ ) Ejemplo: Consideremos una multinomial en cuatro clases, con probabilidades (p1 , p2 , p3 , p4 ) y el problema de contrastar H0 : p2 = p3 . El modelo M 1 , que incluye todas las posibles multinomiales, está determinado por tres parámetros libres {p1 + p2 + p3 ≤ 1}; el espacio paramétrico es tridimensional. El modelo M 0 incluye sólo aquellas multinomiales que satisfacen H0 y está anidado en el modelo M 1 ; el espacio paramétrico asociado a M 0 es de dimensión dos. En consecuencia el TRV, D(M 0 |M 1 ), para contrastar H0 tiene una distribución nula lı́mite χ21 . θb0 es el EMV de las probabilidades bajo H0 , estando definido en las clases 1 y 4 por las correspondientes frecuencias relativas observadas, mientras que en las clases 2 y 3 está definido por la mitad de la frecuencia relativa observada conjuntamente en las clases 2 y 3. θb1 es el EMV de las probabilidades bajo M 1 y está definido por las frecuencias relativas observadas en las cuatro clases. H0 es en este ejemplo la hipótesis de simetrı́a en una tabla de contingencia 2x2. 3