Modelo con densidad f(x, θ).

Anuncio
INTRODUCCIÓN DE ELEMENTOS BÁSICOS
Población: Modelo con densidad f (x, θ). Parámetro unidimensional θ ∈ Θ.
Observaciones (muestreo): X = (X1 , ..., Xn )iid.
datos observados: x = (x1 , ..., xn )
Q
Verosimilitud: L(θ) = f (xi , θ)
P
log-verosimilitud: l(θ) = log(L(θ) = logf (xi , θ)
∂
Score: S(x, θ) = ∂θ
l(θ) = l0 (θ)
En modelos ”regulares”:
El EMV de θ, θ̂, es solución de la ecuación de verosimilitud: l0 (θ) = 0.
El Score está centrado: Eθ [S(x, θ)] = 0.
Información de Fisher o esperada: I(θ) = V arθ S(x, θ) = Eθ [S 2 (x, θ)] = Eθ [−l00 (θ)].
Información observada: I(θ) = −l00 (θ).
La información es n veces la información basada en una sola observación.
La información observada ’aproxima’ la información esperada o de Fisher.
Ambas, información esperada y observada, coinciden en el EMV, en modelos exponenciales. Si
además el parámetro es canónico, entonces información esperada y observada coinciden.
Aplicación del TCL al Score S(X, θ):
L
S(X, θ)I−1/2 (θ) −→ N (0, 1) , bajo θ.
(1)
n→∞
Su cuadrado se denomina en ocasiones función Q-score:
L
Q(θ) = [l0 (θ)]2 I−1 (θ) −→ χ21 , bajo θ.
n→∞
Distribución asintótica del EMV (heurı́stica):
b ≈ l0 (θ) + (θb − θ)l00 (θ). Como l0 (θ)
b = 0, siguiendo (1) se deduce que,
l0 (θ)
(θb − θ)I1/2 (θ) → N (0, 1) , bajo
θ.
La dsitribución asintótica de θb es N (θ, I−1 (θ)).
Una consecuencia interesante es que θb es un estimador consistente de θ.
b se(θ)
b = [−l00 (θ)]
b −1/2 ≡ I −1/2 (θ).
b
El error estándar de θ:
L
b W (θ) −→ χ2 , bajo
La función de Wald: W (θ) = (θb − θ)2 I(θ).
1
n→∞
La Deviance (TRV)
El teorema del valor medio garantiza que
b + (θb − θ)l0 (θ)
b + 1 (θb − θ)2 l00 (θ∗ ), para cierto θ∗ ∈ (θ,
b θ).
l(θ) = l(θ)
2
1
θ.
b = 0 y θb es consistente, lo anterior proporciona una aproximación cuadrática a la
Como l0 (θ)
logverosimilitud en el EMV:
b − 1 (θb − θ)2 [−l00 (θ)]
b
l(θ) ≈ l(θ)
2
Además, podemos decir que la Deviance tiene una distribución asintótica chi-cuadrado.
2
00 b
b
b
D(θ) = −2log( L(θ)
b ) = 2[l(θ) − l(θ)] ≈ (θ − θ) [−l (θ)] ≡ W (θ), y en consecuencia,
L(θ)
L
D(θ) −→ χ21 , bajo θ.
n→∞
Q(θ), W (θ) y D(θ) son asintóticamente equivalentes.
Intervalos de confianza asintóticos para θ:
Score: {θ : Q(θ) ≤ χ21,1−α }
b
Wald: {θ : W (θ) ≤ χ21,1−α } ≡ {θb ± z1−α se(θ)}
b − 1 χ2
Deviance: {θ : D(θ) ≤ χ21,1−α } ≡ {θ : l(θ) ≥ l(θ)
2 1,1−α }
Parámetro q-dimensional, θ ∈ Θ ⊆ Rq .
El Score es ahora un vector q-dimensional cuyas componentes son las derivadas de la logverosimilitud respecto de cada parámetro.
S(x, θ) = (..., ∂θ∂ i l(θ), ...)t
La información esperada y la observada son sendas matrices qxq, en las que el elemento (i, j) está
determinado por la derivada segunda de la logverosimilitud respecto de los elementos i y j de θ:
2
2
Iij (θ) = E[− ∂θ∂j ∂θi l(θ)];
Iij (θ) = − ∂θ∂j ∂θi l(θ).
b es solución del sistema de ecuaciones de verosimilitud, l0 (θ) = 0.
El EMV de θ, θ,
La distribución asintótica de θb es Nq (θ, I−1 (θ)).
b I −1 (θ),
b estiman las varianzas
Los elementos diagonales de la covarianza asintótica estimada de θ,
b La raı́z cuadrada del elemento i diagonal es se(θbi ), que permite
asintóticas de las componentes de θ.
calcular un IC asintótico de Wald para θi de la forma: [θbi ± z1−α se(θbi )].
Además, las funciones Q-score, Wald y Deviance, definidas adecuadamente, son asintóticamente
equivalentes y tienen una distribución lı́mite chi-cuadrado con q grados de libertad.
Q(θ) = S t (X, θ)I −1 (θ)S(X, θ) −→ χ2q , bajo θ.
b θb − θ) −→ χ2 , bajo θ.
W (θ) = (θb − θ)t I(θ)(
q
b − l(θ)] −→ χ2 , bajo θ.
D(θ) = 2[l(θ)
q
Regiones de confianza asintóticas:
Score: {θ : Q(θ) ≤ χ2q,1−α }
Wald: {θ : W (θ) ≤ χ2q,1−α }, elipsoide q-dimensional.
b − 1 χ2
Deviance: {θ : D(θ) ≤ χ2q,1−α } ≡ {θ : l(θ) ≥ l(θ)
2 q,1−α }
El cálculo de IC’s para una componente θi de θ es sencillo mediante el método de Wald, como ya
hemos visto, pero el procedimiento es, en general, peor que el basado en la verosimilituid perfil.
2
Contrastes de θ = θ0 (simple)
Se rechaza la hipótesis para valores grandes de los estadı́sticos Q(θ0 ), W (θ0 ) o D(θ0 ). Se obtiene
un pvalor asintótico mediante la aproximación χ2q a la distribución nula de cualquiera de los tres
estadı́sticos.
Método δ
Si
Si
√
n(θb − θ) −→ N (0, σ 2 ) y g 0 (θ) 6= 0, entonces
√
b − g(θ)) −→ N (0, σ 2 [g 0 (θ)]2 ).
n(g(θ)
√ b
√
b − g(θ)) −→ N1 (0, M t ΣM ).
n(θ − θ) −→ Nq (0, Σ) y g : Rq → R, M = ( ∂g
n(g(θ)
∂θ ), entonces
TRV para el ajuste de modelos anidados
Si el modelo M 0 , con k parámetros libres, está anidado en el modelo M 1 , con q parámetros libres,
entonces, bajo condiciones de regularidad, se verifica que
D(M 0 |M 1 ) = −2log
L(θb0 )
L
= 2[l(θb1 ) − l(θb0 )] −→ χ2q−k , bajo M 0 .
1
b
L(θ )
Ejemplo: Consideremos una multinomial en cuatro clases, con probabilidades (p1 , p2 , p3 , p4 ) y el
problema de contrastar H0 : p2 = p3 . El modelo M 1 , que incluye todas las posibles multinomiales, está
determinado por tres parámetros libres {p1 + p2 + p3 ≤ 1}; el espacio paramétrico es tridimensional.
El modelo M 0 incluye sólo aquellas multinomiales que satisfacen H0 y está anidado en el modelo M 1 ;
el espacio paramétrico asociado a M 0 es de dimensión dos.
En consecuencia el TRV, D(M 0 |M 1 ), para contrastar H0 tiene una distribución nula lı́mite χ21 .
θb0 es el EMV de las probabilidades bajo H0 , estando definido en las clases 1 y 4 por las correspondientes frecuencias relativas observadas, mientras que en las clases 2 y 3 está definido por la mitad de
la frecuencia relativa observada conjuntamente en las clases 2 y 3.
θb1 es el EMV de las probabilidades bajo M 1 y está definido por las frecuencias relativas observadas
en las cuatro clases.
H0 es en este ejemplo la hipótesis de simetrı́a en una tabla de contingencia 2x2.
3
Descargar