Subido por Einar Niels Madsen

Tema 4

Anuncio
Índice general
4. Introducción a la inferencia en la distribución normal multivariante
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Elementos básicos de la Estadı́stica Descriptiva Multivariante . . . . . . . . . . . . . .
4.3. Estimación por máxima verosimilitud del vector media y la matriz de covarianzas en
la normal p-dimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1. Función de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.2. Estimación máximo verosı́mil de µ y Σ . . . . . . . . . . . . . . . . . . . . . . .
4.4. Teorema de Zehna. Aplicación a los estimadores de máxima verosimilitud de los coeficientes de correlación de Pearson, múltiples y parciales . . . . . . . . . . . . . . . . . .
4.5. Estimadores de máxima verosimilitud de las hipersuperficies de regresión lineal . . . .
1
3
3
3
5
5
5
7
9
2
Análisis Multivariante. Grado en Estadı́stica. Tercer curso.
Francisco de Ası́s Torres Ruiz
Capı́tulo 4
Introducción a la inferencia en la
distribución normal multivariante
4.1.
Introducción
Consideremos una población normal multivariante Np [µ; Σ] con Σ > 0. En este tema nos planteamos la estimación de los parámetros de dicha distribución como paso previo y fundamental en la
inferencia sobre la población.
Para realizar la inferencia habrá que tomar previamente una muestra aleatoria simple procedente
de la población en consideración.
En este caso se tratará de N variables aleatorias, Xα = (Xα,1 , . . . , Xα,p )t , α = 1, . . . , N , independientes e idénticamente distribuidas Np [µ; Σ].
La estimación de los parámetros la realizaremos por máxima verosimilitud y la aplicaremos posteriormente, vı́a el teorema de Zhena, a algunas técnicas concretas ya tratadas como la regresión y la
correlación.
Antes de pasar a la estimación en el caso concreto de la ley normal, veamos algunos aspectos
muestrales básicos.
4.2.
Elementos básicos de la Estadı́stica Descriptiva Multivariante
Consideremos un vector aleatorio p-dimensional X = (X1 , . . . , Xp )t y sea Xα = (Xα,1 , . . . , Xα,p )t ,
α = 1, . . . , N una muestra aleatoria simple.
Se define el vector de medias muestral (o centroide de la muestra) como X = (X 1 , . . . , X p )t donde
N
N
1 X
1 X
Xi =
Xα,i , i = 1, . . . , N . En notación vectorial, X =
Xα .
N
N
α=1
α=1
Centrando cada vector Xα respecto a X, o sea, Xα − X = (Xα,1 − X 1 , . . . , Xα,p − X p )t , se define
N
X
la matriz de dispersión muestral como A =
(Xα − X)(Xα − X)t , es decir
α=1
3
4
Francisco de Ası́s Torres Ruiz







A=






N
X
(Xα,1 − X 1 )
N
X
2
(Xα,1 − X 1 )(Xα,2 − X 2 )
α=1
N
X
α=1
N
X
α=1
α=1
(Xα,2 − X 2 )2
(Xα,1 − X 1 )(Xα,2 − X 2 )
..
.
N
X
···
..
.
N
X
(Xα,1 − X 1 )(Xα,p − X p )
···
..
.
(Xα,2 − X 2 )(Xα,p − X p ) · · ·
α=1
α=1
N
X

(Xα,1 − X 1 )(Xα,p − X p ) 




(Xα,2 − X 2 )(Xα,p − X p ) 

α=1


..

.


N
X

(Xα,p − X p )2
α=1
N
X
α=1
a partir de la cual se puede definir la matriz de covarianzas muestral como S = A/N y la de cuasivarianzas
muestral SI = A/(N − 1).
Adicionalmente, podemos considerar la matriz de correlaciones muestral, R. Esta matriz se define a partir
de la de covarianzas teniendo en cuenta que sus elementos, ri se calculan como
rij = √
sij
sij
=
√
sii sjj
si sj
1
1
relacionándose dicha matriz con la de correlaciones mediante la expresión R = D− 2 SD− 2 , donde la matriz
1
1
1
1
D− 2 es D− 2 = diag( , . . . , ).
s1
sp
Veamos a continuación un resultado técnico muy útil en los desarrollos posteriores y que, al igual que lo
expuesto con anterioridad, es independiente de la distribución multivariante que se esté considerando.
Lema 4.2.1. Sea {Xα ; α = 1, . . . , N } una muestra extraı́da de una población p-dimensional. Consideremos el
vector de medias X. Entonces se verifica
N
X
(Xα − b)(Xα − b)t = A + N (X − b)(X − b)t , ∀b ∈ Rp
α=1
Demostración. Sumando y restando X en Xα − b se tiene
N
X
(Xα − b)(Xα − b)t =
α=1
N
X
t
(Xα − X) + (Xα − b) (Xα − X) + (Xα − b)
α=1
=
N
X
(Xα − X)(Xα − X)t +
α=1
N
X
(Xα − X)(X − b)t + (X − b)
α=1
t
= A + N (X − b)(X − b)
N
X
(Xα − X)t + N (X − b)(X − b)t
α=1
Como aplicación inmediata del resultado anterior tenemos:
1. Para b = 0
A=
N
X
Xα Xtα − N XX
t
α=1
2. Para b = µ
N
X
(Xα − µ)(Xα − µ)t = A + N (X − µ)(X − µ)t
α=1
Análisis Multivariante. Grado en Estadı́stica. Tercer curso.
Francisco de Ası́s Torres Ruiz
4.3.
5
Estimación por máxima verosimilitud del vector media y la
matriz de covarianzas en la normal p-dimensional
4.3.1.
Función de verosimilitud
Sea X ; Np [µ; Σ] con Σ > 0 y sea {Xα = (Xα,1 , . . . , Xα,p )t , α = 1, . . . , N } una muestra aleatoria simple
extraı́da de dicha población. Sean, asimismo, X y A el vector media muestral y la matriz de dipersiones
muestral anteriormente definidas.
Puesto que la función de densidad de X es
p
1
1
f (x) = (2π)− 2 | Σ |− 2 exp − (x − µ)t Σ−1 (x − µ) ,
2
y notando por X a la matriz que contiene los valores de la muestra (es decir X = (X1 , . . . , XN )t ),la función
de verosimilitud viene dada por
LX (µ, Σ) =
N
Y
α=1
= (2π)−
Np
2
N
Y
p
1
1
(2π)− 2 | Σ |− 2 exp − (xα − µ)t Σ−1 (xα − µ)
2
α=1
!
N
1X
−N
t
−1
| Σ | 2 exp −
(xα − µ) Σ (xα − µ)
2 α=1
fα (xα ) =
Esta expresión, sin embargo, es poco tratable por lo que vamos a modificarla un poco. Para ello tendremos en
cuenta:
(xα − µ)t Σ−1 (xα − µ) es una forma cuadrática y, por tanto, un escalar. Ası́, esa expresión es igual a su
traza.
Dadas dos matrices Ap×q y Bq×p , se verifica tr[AB] = tr[BA].
Con ello tenemos
N
X
"
t
(xα − µ) Σ
−1
(xα − µ) = tr
α=1
N
X
#
t
(xα − µ) Σ
−1
(xα − µ) =
=
tr (xα − µ)t Σ−1 (xα − µ)
α=1
α=1
N
X
N
X
"
tr Σ−1 (xα − µ)(xα − µ)t = tr Σ−1
α=1
N
X
#
(xα − µ)(xα − µ)
t
α=1
= tr Σ−1 A + N (X − µ)(X − µ)t = tr Σ−1 A + N tr Σ−1 (X − µ)(X − µ)t
= tr Σ−1 A + N tr (X − µ)t Σ−1 (X − µ) = tr Σ−1 A + N (X − µ)t Σ−1 (X − µ)
con lo cual
− N2p
LX (µ, Σ) = (2π)
|Σ|
−N
2
1 −1 N
t −1
exp − tr Σ A − (X − µ) Σ (X − µ)
2
2
quedando su logaritmo en la forma
log (XX (µ, Σ)) = −
N
pN
N
1 log(2π) −
log(| Σ |) − tr Σ−1 A − (X − µ)t Σ−1 (X − µ)
2
2
2
2
Pasemos a continuación a obtener los estimadores máximo-verosı́miles de los parámetros.
4.3.2.
Estimación máximo verosı́mil de µ y Σ
Consideremos logaritmo de la función de verosimilitud
log (XX (µ, Σ)) = −
N
pN
N
1 log(2π) −
log(| Σ |) − tr Σ−1 A − (X − µ)t Σ−1 (X − µ)
2
2
2
2
Análisis Multivariante. Grado en Estadı́stica. Tercer curso.
6
Francisco de Ası́s Torres Ruiz
Al maximizar dicha función en µ está claro que, independientemente de Σ, dicha función se maximizará donde
b = X y además
se minimice la forma cuadrática (X − µ)t Σ−1 (X − µ) y al ser Σ > 0, el mı́nimo se alcanza en µ
es único.
Ahora queda el problema de maximizar en Σ. Para ello veamos el lema, meramente técnico, siguiente:
Lema 4.3.1. (Watson) Sea f (G) = −N log(| G |)−tr[G−1 D], con G > 0 y D > 0. Entonces existe el máximo
1
1
de f (G) respecto a G y se alcanza en G = D, siendo f ( D) = pN log(N ) − N log(| D |) − pN el máximo
N
N
obtenido.
Demostración. Como D > 0 entonces existe E tal que D = EE0 . Por otro lado
1. tr[G−1 D] = tr[G−1 EEt ] = tr[Et G−1 E] = tr[H], con H = Et G−1 E. Notemos además que H > 0 ya que
si x ∈Rp , entonces xt Et G−1 Ex = (Ex)t G−1 (Ex) > 0 ya que G > 0.
2. |G| = |EH−1 Et | = |H−1 ||EEt | = |H−1 ||D| =
|D|
.
|H|
Ası́, el problema de maximizar f (G), en el espacio de matrices definidas positivas, equivale a maximizar,
también en dicho espacio
f (H) = −N log(|D|) + N log(|H|) − tr[H]
Como H > 0 entonces existe T triangular inferior, con los elementos de la diagonal positivos, tal que
H = TTt . Con ello trasladamos el problema a maximizar, en el espacio de matrices triangulares inferiores y
definidas positivas, la función
f (T) = −N log(|D|) + N log(|T|2 ) − tr[TTt ]
Ahora bien




TTt = 

t11
t21
..
.
0
t22
..
.
0
0
..
.
···
···
..
.
tp1
tp2
···
tpp





t11
0
..
.
t21
t22
..
.
···
···
..
.
tp1
tp2
..
.
0
0
···
tpp

t211
∗
..
.

 
 
=
 

 ∗
t221
∗
+ t222
..
.
∗
∗
..
.
∗
···
∗
∗
..
.
p
X
t2pj








j=1
Ası́ el elemento i-ésimo de la diagonal de TTt es t2ii +
i−1
X
t2ij . Con ello la traza de TTt es
j=1
p
X

t2ii +
i=1
i−1
X

t2ij 
=
p
X
t2ii +
i=1
j=1
X
t2ij
i>j
y ası́
f (T) = −N log(|D|) + N log
p
Y
!
t2ii
−
i=1
= −N log(|D|) + N
p
X
i=1
log(t2ii )
p
X
t2ii −
i=1
−
p
X
i=1
t2ii
X
t2ij
i>j
−
X
t2ij
p
X
X 2
= −N log(|D|) +
N log(t2ii ) − t2ii −
tij
i>j
i=1
Esta función tendrá un máximo cuando t2ii = N y tij = 0, i > j. Por lo tanto
√
T=
N Ip ⇒ H = TTt = N Ip ⇒ G =
1
1
1
EEt = D = D
N
N
N
Análisis Multivariante. Grado en Estadı́stica. Tercer curso.
i>j
Francisco de Ası́s Torres Ruiz
7
que era lo que querı́amos demostrar. Además el máximo es
1
1
f ( D) = −N log
D − tr[N D−1 D] = N p log(N ) − N log(|D|) − pN
N
N
Retomando el problema, una vez maximizado en µ, tenemos que maximizar, respecto de Σ > 0, la función
−
1
pN
log(2π) + f (Σ)
2
2
con
f (Σ) = −N log(| Σ |) − tr[Σ−1 A]
Tomando G = Σ y D = A en el lema anterior se tendrá que el máximo se alcanza en
b = 1A=S
Σ
N
que es la matriz de varianzas-covarianzas muestral.
Comentario 4.3.1. Notemos que para aplicar el Lema de Watson ha hecho falta, implı́citamente, suponer
que la matriz A es definida positiva. Durante muchos tiempo se conjeturó este hecho pero hasta 1970 no se
demostró. La demostración se debe a Dykstra y se verá en el tema siguiente ya que es necesario conocer la
distribución de dicha matriz aleatoria.
4.4.
Teorema de Zehna. Aplicación a los estimadores de máxima verosimilitud de los coeficientes de correlación de Pearson, múltiples y parciales
A continuación mostramos el enunciado del teorema de Zehna que luego será aplicado en varias situaciones
Teorema 4.4.1. Sea P = {Pθ : θ ∈ Θ} una familia de medidas de probabilidad sobre (X , B). Consideremos
g : Θ → Ω una función de Θ sobre un intervalo Ω de un espacio euclı́deo r-dimensional. Entonces, si θb es un
b lo es de g(θ).
estimador máximo verosı́mil de θ, g(θ)
Apliquemos este resultado para calcular los estimadores de máxima verosimilitud de los diversos coeficientes
de correlación introducidos en el tema 3.
Consideremos X = (X(1) t | X(2) t )t y las correspondientes particiones inducidas en µ y Σ:
µ(1)
Σ11 Σ12
; Σ = (σij )i,j=1,...,p =
µ=
µ(2)
Σ21 Σ22
particiones que vamos a considerar también en el vector de medias X y las matrices de dispersiones muestral,
A, y de covarianzas muestral, S, con A = N S, o sea
X(1)
A11 A12
S11 S12
X=
; A = (aij )i,j=1,...,p =
; S = (sij )i,j=1,...,p =
A21 A22
S21 S22
X(2)
Sean ei = (0, . . . , 1 , . . . , 0)t y ej = (0, . . . , 1 , . . . , 0)t .
(i)
(j)
Entonces, µi = e0i µ y σij = e0i Σej . Por lo tanto, aplicando el teorema de Zehna se verificará
aij
tb
tA
µbi = eti µ
b = eti X = X i , i = 1, . . . , p y σc
ej =
= sij , i, j = 1, . . . , p
ij = ei Σej = ei
N
N
De igual forma, si llamamos E1 = Iq | 0q×(p−q) y E2 = 0(p−q)×q | Ip−q , tenemos
Σ11 = E1 ΣEt1 , Σ22 = E2 ΣEt2 .
Σ12 = E1 ΣEt2 , Σ21 = E2 ΣEt1 .
por lo que
Análisis Multivariante. Grado en Estadı́stica. Tercer curso.
8
Francisco de Ası́s Torres Ruiz
A11
A t
d
b t
E =
= S11
Σ
11 = E1 ΣE1 = E1
N 1
N
A t
A22
d
b t
Σ
E2 =
= S22
22 = E2 ΣE2 = E2
N
N
A t
A12
d
b t
Σ
E2 =
= S12
12 = E1 ΣE2 = E1
N
N
A t
A21
d
b t
Σ
E1 =
= S21
21 = E2 ΣE1 = E2
N
N
A22 A21
−1 d
d dd
[
Σ
−
22.1 = Σ22 − Σ21 Σ11 Σ12 =
N
N
A11
N
−1
A12
1
A22 − A21 A−1
= S22 − S21 S−1
11 A12 .
11 S12 =
N
N
A11 A12
−1 b
d dd
[
Σ
−
11.2 = Σ11 − Σ12 Σ22 Σ21 =
N
N
A22
N
−1
A21
1
A11 − A12 A−1
= S11 − S12 S−1
22 A21 .
22 S21 =
N
N
Puesto que el coeficiente de correlación lineal de Pearson, ρij , viene dado por ρij =
σij
, su estimador máximo
σi σj
verosı́mil será
ρc
ij =
σc
sij
ij
=
= rij
σbi σbj
si sj
t
t
td
d
t
Además, si notamos por β(i)
a la fila i-ésima de la matriz Σ21 , entonces β(i)
= eti Σ21 con lo cual β
(i) = ei Σ21 =
at(i)
A
= st(i) , siendo at(i) y st(i) las filas i-ésimas de A21 y S21 , respectivamente.
eti =
N
N
Por tanto, dado el coeficiente de correlación lineal múltiple
q
Rq+i|1,...,q =
t Σ−1 β
β(i)
11 (i)
σq+i
se verificará
s
r
−1 d
d
t d
β
(i) Σ11 β(i)
\ =
Rq+i|1,...,q
σd
q+i
=
at(i)
N
r
A11
N
−1
aq+i,q+i
N
a0(i)
N
s
=
t
a0(i) A−1
11 a(i)
aq+i,q+i
=
q
t
s0(i) S−1
11 s(i)
sq+i
−1
[
Por último, dado que Σ
22.1 = S22 − S21 S11 S12 = S22.1 podemos calcular los estimadores máximo verosı́miles
de los coeficientes de correlación parcial. En efecto, como
ρij|1,...,q =
σij|1,...,q
σi|1,...,q σj|1,...,q
se tiene
ρij|1,...,q
\ =
σij|1,...,q
\
sij|1,...,q
=
= rij|1,...,q
s
σ\
σ
\
i|1,...,q sj|1,...,q
i|1,...,q j|1,...,q
donde sij|1,...,q es el elemento (i, j) de la matriz S22.1 . Además se verifica también la correspondiente regla de
recurrencia
rij|1,...,q−1 − riq|1,...,q−1 rjq|1,...,q−1
rij|1,...,q = 12
12 2
2
1 − riq|1,...,q−1
1 − rjq|1,...,q−1
Análisis Multivariante. Grado en Estadı́stica. Tercer curso.
Francisco de Ası́s Torres Ruiz
4.5.
9
Estimadores de máxima verosimilitud de las hipersuperficies
de regresión lineal
Sabemos del tema 3 que en el modelo teórico de regresión, la hipersuperficie de regresión de X(2) sobre
X(1) = x(1) es
−1
E X(2) | X(1) = x(1) = µ(2) + Σ21 Σ11 (x(1) − µ(1) )
y para la componente i-ésima
−1
t
E Xq+i | X(1) = x(1) = µq+i + β(i) Σ11 (x(1) − µ(1) ) , i = 1, . . . , q
A partir de los desarrollos del apartado anterior, los estimadores máximo verosı́miles para las expresiones
anteriores son:
−1
A21 A11
d
−1
\
d
(x(1) − X(1) )
Z = E X(2) | X(1) x(1) = µd
d
(2) + Σ21 Σ11 (x(1) − µ
(1) ) = X(2) +
N
N
−1
= X(2) + S21 S−1
11 (x(1) − X(1) ) = X(2) + A21 A11 (x(1) − X(1) )
y
at(i)
−1
d
t d
zq+i = E Xq+i \
| X(1) = x(1) = µd
d
)
=
X
+
q+i + β(i) Σ11 (x(1) − µ
q+i
(1)
N
−1
t
= X q+i + st(i) S−1
11 (x(1) − X(1) ) = X q+i + a(i) A11 (x(1) − X(1) )
t
t
donde se ha considerado la partición X = (X(1) | X(2) )t .
Análisis Multivariante. Grado en Estadı́stica. Tercer curso.
A11
N
−1
(x(1) − X(1) )
Descargar