Tema 4

Índice general 4. Introducción a la inferencia en la distribución normal multivariante 4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Elementos básicos de la Estadı́stica Descriptiva Multivariante . . . . . . . . . . . . . . 4.3. Estimación por máxima verosimilitud del vector media y la matriz de covarianzas en la normal p-dimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1. Función de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2. Estimación máximo verosı́mil de µ y Σ . . . . . . . . . . . . . . . . . . . . . . . 4.4. Teorema de Zehna. Aplicación a los estimadores de máxima verosimilitud de los coeficientes de correlación de Pearson, múltiples y parciales . . . . . . . . . . . . . . . . . . 4.5. Estimadores de máxima verosimilitud de las hipersuperficies de regresión lineal . . . . 1 3 3 3 5 5 5 7 9 2 Análisis Multivariante. Grado en Estadı́stica. Tercer curso. Francisco de Ası́s Torres Ruiz Capı́tulo 4 Introducción a la inferencia en la distribución normal multivariante 4.1. Introducción Consideremos una población normal multivariante Np [µ; Σ] con Σ > 0. En este tema nos planteamos la estimación de los parámetros de dicha distribución como paso previo y fundamental en la inferencia sobre la población. Para realizar la inferencia habrá que tomar previamente una muestra aleatoria simple procedente de la población en consideración. En este caso se tratará de N variables aleatorias, Xα = (Xα,1 , . . . , Xα,p )t , α = 1, . . . , N , independientes e idénticamente distribuidas Np [µ; Σ]. La estimación de los parámetros la realizaremos por máxima verosimilitud y la aplicaremos posteriormente, vı́a el teorema de Zhena, a algunas técnicas concretas ya tratadas como la regresión y la correlación. Antes de pasar a la estimación en el caso concreto de la ley normal, veamos algunos aspectos muestrales básicos. 4.2. Elementos básicos de la Estadı́stica Descriptiva Multivariante Consideremos un vector aleatorio p-dimensional X = (X1 , . . . , Xp )t y sea Xα = (Xα,1 , . . . , Xα,p )t , α = 1, . . . , N una muestra aleatoria simple. Se define el vector de medias muestral (o centroide de la muestra) como X = (X 1 , . . . , X p )t donde N N 1 X 1 X Xi = Xα,i , i = 1, . . . , N . En notación vectorial, X = Xα . N N α=1 α=1 Centrando cada vector Xα respecto a X, o sea, Xα − X = (Xα,1 − X 1 , . . . , Xα,p − X p )t , se define N X la matriz de dispersión muestral como A = (Xα − X)(Xα − X)t , es decir α=1 3 4 Francisco de Ası́s Torres Ruiz        A=       N X (Xα,1 − X 1 ) N X 2 (Xα,1 − X 1 )(Xα,2 − X 2 ) α=1 N X α=1 N X α=1 α=1 (Xα,2 − X 2 )2 (Xα,1 − X 1 )(Xα,2 − X 2 ) .. . N X ··· .. . N X (Xα,1 − X 1 )(Xα,p − X p ) ··· .. . (Xα,2 − X 2 )(Xα,p − X p ) · · · α=1 α=1 N X  (Xα,1 − X 1 )(Xα,p − X p )      (Xα,2 − X 2 )(Xα,p − X p )   α=1   ..  .   N X  (Xα,p − X p )2 α=1 N X α=1 a partir de la cual se puede definir la matriz de covarianzas muestral como S = A/N y la de cuasivarianzas muestral SI = A/(N − 1). Adicionalmente, podemos considerar la matriz de correlaciones muestral, R. Esta matriz se define a partir de la de covarianzas teniendo en cuenta que sus elementos, ri se calculan como rij = √ sij sij = √ sii sjj si sj 1 1 relacionándose dicha matriz con la de correlaciones mediante la expresión R = D− 2 SD− 2 , donde la matriz 1 1 1 1 D− 2 es D− 2 = diag( , . . . , ). s1 sp Veamos a continuación un resultado técnico muy útil en los desarrollos posteriores y que, al igual que lo expuesto con anterioridad, es independiente de la distribución multivariante que se esté considerando. Lema 4.2.1. Sea {Xα ; α = 1, . . . , N } una muestra extraı́da de una población p-dimensional. Consideremos el vector de medias X. Entonces se verifica N X (Xα − b)(Xα − b)t = A + N (X − b)(X − b)t , ∀b ∈ Rp α=1 Demostración. Sumando y restando X en Xα − b se tiene N X (Xα − b)(Xα − b)t = α=1 N X t (Xα − X) + (Xα − b) (Xα − X) + (Xα − b) α=1 = N X (Xα − X)(Xα − X)t + α=1 N X (Xα − X)(X − b)t + (X − b) α=1 t = A + N (X − b)(X − b) N X (Xα − X)t + N (X − b)(X − b)t α=1 Como aplicación inmediata del resultado anterior tenemos: 1. Para b = 0 A= N X Xα Xtα − N XX t α=1 2. Para b = µ N X (Xα − µ)(Xα − µ)t = A + N (X − µ)(X − µ)t α=1 Análisis Multivariante. Grado en Estadı́stica. Tercer curso. Francisco de Ası́s Torres Ruiz 4.3. 5 Estimación por máxima verosimilitud del vector media y la matriz de covarianzas en la normal p-dimensional 4.3.1. Función de verosimilitud Sea X ; Np [µ; Σ] con Σ > 0 y sea {Xα = (Xα,1 , . . . , Xα,p )t , α = 1, . . . , N } una muestra aleatoria simple extraı́da de dicha población. Sean, asimismo, X y A el vector media muestral y la matriz de dipersiones muestral anteriormente definidas. Puesto que la función de densidad de X es p 1 1 f (x) = (2π)− 2 | Σ |− 2 exp − (x − µ)t Σ−1 (x − µ) , 2 y notando por X a la matriz que contiene los valores de la muestra (es decir X = (X1 , . . . , XN )t ),la función de verosimilitud viene dada por LX (µ, Σ) = N Y α=1 = (2π)− Np 2 N Y p 1 1 (2π)− 2 | Σ |− 2 exp − (xα − µ)t Σ−1 (xα − µ) 2 α=1 ! N 1X −N t −1 | Σ | 2 exp − (xα − µ) Σ (xα − µ) 2 α=1 fα (xα ) = Esta expresión, sin embargo, es poco tratable por lo que vamos a modificarla un poco. Para ello tendremos en cuenta: (xα − µ)t Σ−1 (xα − µ) es una forma cuadrática y, por tanto, un escalar. Ası́, esa expresión es igual a su traza. Dadas dos matrices Ap×q y Bq×p , se verifica tr[AB] = tr[BA]. Con ello tenemos N X " t (xα − µ) Σ −1 (xα − µ) = tr α=1 N X # t (xα − µ) Σ −1 (xα − µ) = = tr (xα − µ)t Σ−1 (xα − µ) α=1 α=1 N X N X " tr Σ−1 (xα − µ)(xα − µ)t = tr Σ−1 α=1 N X # (xα − µ)(xα − µ) t α=1 = tr Σ−1 A + N (X − µ)(X − µ)t = tr Σ−1 A + N tr Σ−1 (X − µ)(X − µ)t = tr Σ−1 A + N tr (X − µ)t Σ−1 (X − µ) = tr Σ−1 A + N (X − µ)t Σ−1 (X − µ) con lo cual − N2p LX (µ, Σ) = (2π) |Σ| −N 2 1 −1 N t −1 exp − tr Σ A − (X − µ) Σ (X − µ) 2 2 quedando su logaritmo en la forma log (XX (µ, Σ)) = − N pN N 1 log(2π) − log(| Σ |) − tr Σ−1 A − (X − µ)t Σ−1 (X − µ) 2 2 2 2 Pasemos a continuación a obtener los estimadores máximo-verosı́miles de los parámetros. 4.3.2. Estimación máximo verosı́mil de µ y Σ Consideremos logaritmo de la función de verosimilitud log (XX (µ, Σ)) = − N pN N 1 log(2π) − log(| Σ |) − tr Σ−1 A − (X − µ)t Σ−1 (X − µ) 2 2 2 2 Análisis Multivariante. Grado en Estadı́stica. Tercer curso. 6 Francisco de Ası́s Torres Ruiz Al maximizar dicha función en µ está claro que, independientemente de Σ, dicha función se maximizará donde b = X y además se minimice la forma cuadrática (X − µ)t Σ−1 (X − µ) y al ser Σ > 0, el mı́nimo se alcanza en µ es único. Ahora queda el problema de maximizar en Σ. Para ello veamos el lema, meramente técnico, siguiente: Lema 4.3.1. (Watson) Sea f (G) = −N log(| G |)−tr[G−1 D], con G > 0 y D > 0. Entonces existe el máximo 1 1 de f (G) respecto a G y se alcanza en G = D, siendo f ( D) = pN log(N ) − N log(| D |) − pN el máximo N N obtenido. Demostración. Como D > 0 entonces existe E tal que D = EE0 . Por otro lado 1. tr[G−1 D] = tr[G−1 EEt ] = tr[Et G−1 E] = tr[H], con H = Et G−1 E. Notemos además que H > 0 ya que si x ∈Rp , entonces xt Et G−1 Ex = (Ex)t G−1 (Ex) > 0 ya que G > 0. 2. |G| = |EH−1 Et | = |H−1 ||EEt | = |H−1 ||D| = |D| . |H| Ası́, el problema de maximizar f (G), en el espacio de matrices definidas positivas, equivale a maximizar, también en dicho espacio f (H) = −N log(|D|) + N log(|H|) − tr[H] Como H > 0 entonces existe T triangular inferior, con los elementos de la diagonal positivos, tal que H = TTt . Con ello trasladamos el problema a maximizar, en el espacio de matrices triangulares inferiores y definidas positivas, la función f (T) = −N log(|D|) + N log(|T|2 ) − tr[TTt ] Ahora bien     TTt =   t11 t21 .. . 0 t22 .. . 0 0 .. . ··· ··· .. . tp1 tp2 ··· tpp      t11 0 .. . t21 t22 .. . ··· ··· .. . tp1 tp2 .. . 0 0 ··· tpp  t211 ∗ .. .      =     ∗ t221 ∗ + t222 .. . ∗ ∗ .. . ∗ ··· ∗ ∗ .. . p X t2pj         j=1 Ası́ el elemento i-ésimo de la diagonal de TTt es t2ii + i−1 X t2ij . Con ello la traza de TTt es j=1 p X  t2ii + i=1 i−1 X  t2ij  = p X t2ii + i=1 j=1 X t2ij i>j y ası́ f (T) = −N log(|D|) + N log p Y ! t2ii − i=1 = −N log(|D|) + N p X i=1 log(t2ii ) p X t2ii − i=1 − p X i=1 t2ii X t2ij i>j − X t2ij p X X 2 = −N log(|D|) + N log(t2ii ) − t2ii − tij i>j i=1 Esta función tendrá un máximo cuando t2ii = N y tij = 0, i > j. Por lo tanto √ T= N Ip ⇒ H = TTt = N Ip ⇒ G = 1 1 1 EEt = D = D N N N Análisis Multivariante. Grado en Estadı́stica. Tercer curso. i>j Francisco de Ası́s Torres Ruiz 7 que era lo que querı́amos demostrar. Además el máximo es 1 1 f ( D) = −N log D − tr[N D−1 D] = N p log(N ) − N log(|D|) − pN N N Retomando el problema, una vez maximizado en µ, tenemos que maximizar, respecto de Σ > 0, la función − 1 pN log(2π) + f (Σ) 2 2 con f (Σ) = −N log(| Σ |) − tr[Σ−1 A] Tomando G = Σ y D = A en el lema anterior se tendrá que el máximo se alcanza en b = 1A=S Σ N que es la matriz de varianzas-covarianzas muestral. Comentario 4.3.1. Notemos que para aplicar el Lema de Watson ha hecho falta, implı́citamente, suponer que la matriz A es definida positiva. Durante muchos tiempo se conjeturó este hecho pero hasta 1970 no se demostró. La demostración se debe a Dykstra y se verá en el tema siguiente ya que es necesario conocer la distribución de dicha matriz aleatoria. 4.4. Teorema de Zehna. Aplicación a los estimadores de máxima verosimilitud de los coeficientes de correlación de Pearson, múltiples y parciales A continuación mostramos el enunciado del teorema de Zehna que luego será aplicado en varias situaciones Teorema 4.4.1. Sea P = {Pθ : θ ∈ Θ} una familia de medidas de probabilidad sobre (X , B). Consideremos g : Θ → Ω una función de Θ sobre un intervalo Ω de un espacio euclı́deo r-dimensional. Entonces, si θb es un b lo es de g(θ). estimador máximo verosı́mil de θ, g(θ) Apliquemos este resultado para calcular los estimadores de máxima verosimilitud de los diversos coeficientes de correlación introducidos en el tema 3. Consideremos X = (X(1) t | X(2) t )t y las correspondientes particiones inducidas en µ y Σ: µ(1) Σ11 Σ12 ; Σ = (σij )i,j=1,...,p = µ= µ(2) Σ21 Σ22 particiones que vamos a considerar también en el vector de medias X y las matrices de dispersiones muestral, A, y de covarianzas muestral, S, con A = N S, o sea X(1) A11 A12 S11 S12 X= ; A = (aij )i,j=1,...,p = ; S = (sij )i,j=1,...,p = A21 A22 S21 S22 X(2) Sean ei = (0, . . . , 1 , . . . , 0)t y ej = (0, . . . , 1 , . . . , 0)t . (i) (j) Entonces, µi = e0i µ y σij = e0i Σej . Por lo tanto, aplicando el teorema de Zehna se verificará aij tb tA µbi = eti µ b = eti X = X i , i = 1, . . . , p y σc ej = = sij , i, j = 1, . . . , p ij = ei Σej = ei N N De igual forma, si llamamos E1 = Iq | 0q×(p−q) y E2 = 0(p−q)×q | Ip−q , tenemos Σ11 = E1 ΣEt1 , Σ22 = E2 ΣEt2 . Σ12 = E1 ΣEt2 , Σ21 = E2 ΣEt1 . por lo que Análisis Multivariante. Grado en Estadı́stica. Tercer curso. 8 Francisco de Ası́s Torres Ruiz A11 A t d b t E = = S11 Σ 11 = E1 ΣE1 = E1 N 1 N A t A22 d b t Σ E2 = = S22 22 = E2 ΣE2 = E2 N N A t A12 d b t Σ E2 = = S12 12 = E1 ΣE2 = E1 N N A t A21 d b t Σ E1 = = S21 21 = E2 ΣE1 = E2 N N A22 A21 −1 d d dd [ Σ − 22.1 = Σ22 − Σ21 Σ11 Σ12 = N N A11 N −1 A12 1 A22 − A21 A−1 = S22 − S21 S−1 11 A12 . 11 S12 = N N A11 A12 −1 b d dd [ Σ − 11.2 = Σ11 − Σ12 Σ22 Σ21 = N N A22 N −1 A21 1 A11 − A12 A−1 = S11 − S12 S−1 22 A21 . 22 S21 = N N Puesto que el coeficiente de correlación lineal de Pearson, ρij , viene dado por ρij = σij , su estimador máximo σi σj verosı́mil será ρc ij = σc sij ij = = rij σbi σbj si sj t t td d t Además, si notamos por β(i) a la fila i-ésima de la matriz Σ21 , entonces β(i) = eti Σ21 con lo cual β (i) = ei Σ21 = at(i) A = st(i) , siendo at(i) y st(i) las filas i-ésimas de A21 y S21 , respectivamente. eti = N N Por tanto, dado el coeficiente de correlación lineal múltiple q Rq+i|1,...,q = t Σ−1 β β(i) 11 (i) σq+i se verificará s r −1 d d t d β (i) Σ11 β(i) \ = Rq+i|1,...,q σd q+i = at(i) N r A11 N −1 aq+i,q+i N a0(i) N s = t a0(i) A−1 11 a(i) aq+i,q+i = q t s0(i) S−1 11 s(i) sq+i −1 [ Por último, dado que Σ 22.1 = S22 − S21 S11 S12 = S22.1 podemos calcular los estimadores máximo verosı́miles de los coeficientes de correlación parcial. En efecto, como ρij|1,...,q = σij|1,...,q σi|1,...,q σj|1,...,q se tiene ρij|1,...,q \ = σij|1,...,q \ sij|1,...,q = = rij|1,...,q s σ\ σ \ i|1,...,q sj|1,...,q i|1,...,q j|1,...,q donde sij|1,...,q es el elemento (i, j) de la matriz S22.1 . Además se verifica también la correspondiente regla de recurrencia rij|1,...,q−1 − riq|1,...,q−1 rjq|1,...,q−1 rij|1,...,q = 12 12 2 2 1 − riq|1,...,q−1 1 − rjq|1,...,q−1 Análisis Multivariante. Grado en Estadı́stica. Tercer curso. Francisco de Ası́s Torres Ruiz 4.5. 9 Estimadores de máxima verosimilitud de las hipersuperficies de regresión lineal Sabemos del tema 3 que en el modelo teórico de regresión, la hipersuperficie de regresión de X(2) sobre X(1) = x(1) es −1 E X(2) | X(1) = x(1) = µ(2) + Σ21 Σ11 (x(1) − µ(1) ) y para la componente i-ésima −1 t E Xq+i | X(1) = x(1) = µq+i + β(i) Σ11 (x(1) − µ(1) ) , i = 1, . . . , q A partir de los desarrollos del apartado anterior, los estimadores máximo verosı́miles para las expresiones anteriores son: −1 A21 A11 d −1 \ d (x(1) − X(1) ) Z = E X(2) | X(1) x(1) = µd d (2) + Σ21 Σ11 (x(1) − µ (1) ) = X(2) + N N −1 = X(2) + S21 S−1 11 (x(1) − X(1) ) = X(2) + A21 A11 (x(1) − X(1) ) y at(i) −1 d t d zq+i = E Xq+i \ | X(1) = x(1) = µd d ) = X + q+i + β(i) Σ11 (x(1) − µ q+i (1) N −1 t = X q+i + st(i) S−1 11 (x(1) − X(1) ) = X q+i + a(i) A11 (x(1) − X(1) ) t t donde se ha considerado la partición X = (X(1) | X(2) )t . Análisis Multivariante. Grado en Estadı́stica. Tercer curso. A11 N −1 (x(1) − X(1) )

Tema 4

Documentos relacionados

Productos

Apoyo

Tema 4

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib