Índice general 4. Introducción a la inferencia en la distribución normal multivariante 4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Elementos básicos de la Estadı́stica Descriptiva Multivariante . . . . . . . . . . . . . . 4.3. Estimación por máxima verosimilitud del vector media y la matriz de covarianzas en la normal p-dimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1. Función de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2. Estimación máximo verosı́mil de µ y Σ . . . . . . . . . . . . . . . . . . . . . . . 4.4. Teorema de Zehna. Aplicación a los estimadores de máxima verosimilitud de los coeficientes de correlación de Pearson, múltiples y parciales . . . . . . . . . . . . . . . . . . 4.5. Estimadores de máxima verosimilitud de las hipersuperficies de regresión lineal . . . . 1 3 3 3 5 5 5 7 9 2 Análisis Multivariante. Grado en Estadı́stica. Tercer curso. Francisco de Ası́s Torres Ruiz Capı́tulo 4 Introducción a la inferencia en la distribución normal multivariante 4.1. Introducción Consideremos una población normal multivariante Np [µ; Σ] con Σ > 0. En este tema nos planteamos la estimación de los parámetros de dicha distribución como paso previo y fundamental en la inferencia sobre la población. Para realizar la inferencia habrá que tomar previamente una muestra aleatoria simple procedente de la población en consideración. En este caso se tratará de N variables aleatorias, Xα = (Xα,1 , . . . , Xα,p )t , α = 1, . . . , N , independientes e idénticamente distribuidas Np [µ; Σ]. La estimación de los parámetros la realizaremos por máxima verosimilitud y la aplicaremos posteriormente, vı́a el teorema de Zhena, a algunas técnicas concretas ya tratadas como la regresión y la correlación. Antes de pasar a la estimación en el caso concreto de la ley normal, veamos algunos aspectos muestrales básicos. 4.2. Elementos básicos de la Estadı́stica Descriptiva Multivariante Consideremos un vector aleatorio p-dimensional X = (X1 , . . . , Xp )t y sea Xα = (Xα,1 , . . . , Xα,p )t , α = 1, . . . , N una muestra aleatoria simple. Se define el vector de medias muestral (o centroide de la muestra) como X = (X 1 , . . . , X p )t donde N N 1 X 1 X Xi = Xα,i , i = 1, . . . , N . En notación vectorial, X = Xα . N N α=1 α=1 Centrando cada vector Xα respecto a X, o sea, Xα − X = (Xα,1 − X 1 , . . . , Xα,p − X p )t , se define N X la matriz de dispersión muestral como A = (Xα − X)(Xα − X)t , es decir α=1 3 4 Francisco de Ası́s Torres Ruiz A= N X (Xα,1 − X 1 ) N X 2 (Xα,1 − X 1 )(Xα,2 − X 2 ) α=1 N X α=1 N X α=1 α=1 (Xα,2 − X 2 )2 (Xα,1 − X 1 )(Xα,2 − X 2 ) .. . N X ··· .. . N X (Xα,1 − X 1 )(Xα,p − X p ) ··· .. . (Xα,2 − X 2 )(Xα,p − X p ) · · · α=1 α=1 N X (Xα,1 − X 1 )(Xα,p − X p ) (Xα,2 − X 2 )(Xα,p − X p ) α=1 .. . N X (Xα,p − X p )2 α=1 N X α=1 a partir de la cual se puede definir la matriz de covarianzas muestral como S = A/N y la de cuasivarianzas muestral SI = A/(N − 1). Adicionalmente, podemos considerar la matriz de correlaciones muestral, R. Esta matriz se define a partir de la de covarianzas teniendo en cuenta que sus elementos, ri se calculan como rij = √ sij sij = √ sii sjj si sj 1 1 relacionándose dicha matriz con la de correlaciones mediante la expresión R = D− 2 SD− 2 , donde la matriz 1 1 1 1 D− 2 es D− 2 = diag( , . . . , ). s1 sp Veamos a continuación un resultado técnico muy útil en los desarrollos posteriores y que, al igual que lo expuesto con anterioridad, es independiente de la distribución multivariante que se esté considerando. Lema 4.2.1. Sea {Xα ; α = 1, . . . , N } una muestra extraı́da de una población p-dimensional. Consideremos el vector de medias X. Entonces se verifica N X (Xα − b)(Xα − b)t = A + N (X − b)(X − b)t , ∀b ∈ Rp α=1 Demostración. Sumando y restando X en Xα − b se tiene N X (Xα − b)(Xα − b)t = α=1 N X t (Xα − X) + (Xα − b) (Xα − X) + (Xα − b) α=1 = N X (Xα − X)(Xα − X)t + α=1 N X (Xα − X)(X − b)t + (X − b) α=1 t = A + N (X − b)(X − b) N X (Xα − X)t + N (X − b)(X − b)t α=1 Como aplicación inmediata del resultado anterior tenemos: 1. Para b = 0 A= N X Xα Xtα − N XX t α=1 2. Para b = µ N X (Xα − µ)(Xα − µ)t = A + N (X − µ)(X − µ)t α=1 Análisis Multivariante. Grado en Estadı́stica. Tercer curso. Francisco de Ası́s Torres Ruiz 4.3. 5 Estimación por máxima verosimilitud del vector media y la matriz de covarianzas en la normal p-dimensional 4.3.1. Función de verosimilitud Sea X ; Np [µ; Σ] con Σ > 0 y sea {Xα = (Xα,1 , . . . , Xα,p )t , α = 1, . . . , N } una muestra aleatoria simple extraı́da de dicha población. Sean, asimismo, X y A el vector media muestral y la matriz de dipersiones muestral anteriormente definidas. Puesto que la función de densidad de X es p 1 1 f (x) = (2π)− 2 | Σ |− 2 exp − (x − µ)t Σ−1 (x − µ) , 2 y notando por X a la matriz que contiene los valores de la muestra (es decir X = (X1 , . . . , XN )t ),la función de verosimilitud viene dada por LX (µ, Σ) = N Y α=1 = (2π)− Np 2 N Y p 1 1 (2π)− 2 | Σ |− 2 exp − (xα − µ)t Σ−1 (xα − µ) 2 α=1 ! N 1X −N t −1 | Σ | 2 exp − (xα − µ) Σ (xα − µ) 2 α=1 fα (xα ) = Esta expresión, sin embargo, es poco tratable por lo que vamos a modificarla un poco. Para ello tendremos en cuenta: (xα − µ)t Σ−1 (xα − µ) es una forma cuadrática y, por tanto, un escalar. Ası́, esa expresión es igual a su traza. Dadas dos matrices Ap×q y Bq×p , se verifica tr[AB] = tr[BA]. Con ello tenemos N X " t (xα − µ) Σ −1 (xα − µ) = tr α=1 N X # t (xα − µ) Σ −1 (xα − µ) = = tr (xα − µ)t Σ−1 (xα − µ) α=1 α=1 N X N X " tr Σ−1 (xα − µ)(xα − µ)t = tr Σ−1 α=1 N X # (xα − µ)(xα − µ) t α=1 = tr Σ−1 A + N (X − µ)(X − µ)t = tr Σ−1 A + N tr Σ−1 (X − µ)(X − µ)t = tr Σ−1 A + N tr (X − µ)t Σ−1 (X − µ) = tr Σ−1 A + N (X − µ)t Σ−1 (X − µ) con lo cual − N2p LX (µ, Σ) = (2π) |Σ| −N 2 1 −1 N t −1 exp − tr Σ A − (X − µ) Σ (X − µ) 2 2 quedando su logaritmo en la forma log (XX (µ, Σ)) = − N pN N 1 log(2π) − log(| Σ |) − tr Σ−1 A − (X − µ)t Σ−1 (X − µ) 2 2 2 2 Pasemos a continuación a obtener los estimadores máximo-verosı́miles de los parámetros. 4.3.2. Estimación máximo verosı́mil de µ y Σ Consideremos logaritmo de la función de verosimilitud log (XX (µ, Σ)) = − N pN N 1 log(2π) − log(| Σ |) − tr Σ−1 A − (X − µ)t Σ−1 (X − µ) 2 2 2 2 Análisis Multivariante. Grado en Estadı́stica. Tercer curso. 6 Francisco de Ası́s Torres Ruiz Al maximizar dicha función en µ está claro que, independientemente de Σ, dicha función se maximizará donde b = X y además se minimice la forma cuadrática (X − µ)t Σ−1 (X − µ) y al ser Σ > 0, el mı́nimo se alcanza en µ es único. Ahora queda el problema de maximizar en Σ. Para ello veamos el lema, meramente técnico, siguiente: Lema 4.3.1. (Watson) Sea f (G) = −N log(| G |)−tr[G−1 D], con G > 0 y D > 0. Entonces existe el máximo 1 1 de f (G) respecto a G y se alcanza en G = D, siendo f ( D) = pN log(N ) − N log(| D |) − pN el máximo N N obtenido. Demostración. Como D > 0 entonces existe E tal que D = EE0 . Por otro lado 1. tr[G−1 D] = tr[G−1 EEt ] = tr[Et G−1 E] = tr[H], con H = Et G−1 E. Notemos además que H > 0 ya que si x ∈Rp , entonces xt Et G−1 Ex = (Ex)t G−1 (Ex) > 0 ya que G > 0. 2. |G| = |EH−1 Et | = |H−1 ||EEt | = |H−1 ||D| = |D| . |H| Ası́, el problema de maximizar f (G), en el espacio de matrices definidas positivas, equivale a maximizar, también en dicho espacio f (H) = −N log(|D|) + N log(|H|) − tr[H] Como H > 0 entonces existe T triangular inferior, con los elementos de la diagonal positivos, tal que H = TTt . Con ello trasladamos el problema a maximizar, en el espacio de matrices triangulares inferiores y definidas positivas, la función f (T) = −N log(|D|) + N log(|T|2 ) − tr[TTt ] Ahora bien TTt = t11 t21 .. . 0 t22 .. . 0 0 .. . ··· ··· .. . tp1 tp2 ··· tpp t11 0 .. . t21 t22 .. . ··· ··· .. . tp1 tp2 .. . 0 0 ··· tpp t211 ∗ .. . = ∗ t221 ∗ + t222 .. . ∗ ∗ .. . ∗ ··· ∗ ∗ .. . p X t2pj j=1 Ası́ el elemento i-ésimo de la diagonal de TTt es t2ii + i−1 X t2ij . Con ello la traza de TTt es j=1 p X t2ii + i=1 i−1 X t2ij = p X t2ii + i=1 j=1 X t2ij i>j y ası́ f (T) = −N log(|D|) + N log p Y ! t2ii − i=1 = −N log(|D|) + N p X i=1 log(t2ii ) p X t2ii − i=1 − p X i=1 t2ii X t2ij i>j − X t2ij p X X 2 = −N log(|D|) + N log(t2ii ) − t2ii − tij i>j i=1 Esta función tendrá un máximo cuando t2ii = N y tij = 0, i > j. Por lo tanto √ T= N Ip ⇒ H = TTt = N Ip ⇒ G = 1 1 1 EEt = D = D N N N Análisis Multivariante. Grado en Estadı́stica. Tercer curso. i>j Francisco de Ası́s Torres Ruiz 7 que era lo que querı́amos demostrar. Además el máximo es 1 1 f ( D) = −N log D − tr[N D−1 D] = N p log(N ) − N log(|D|) − pN N N Retomando el problema, una vez maximizado en µ, tenemos que maximizar, respecto de Σ > 0, la función − 1 pN log(2π) + f (Σ) 2 2 con f (Σ) = −N log(| Σ |) − tr[Σ−1 A] Tomando G = Σ y D = A en el lema anterior se tendrá que el máximo se alcanza en b = 1A=S Σ N que es la matriz de varianzas-covarianzas muestral. Comentario 4.3.1. Notemos que para aplicar el Lema de Watson ha hecho falta, implı́citamente, suponer que la matriz A es definida positiva. Durante muchos tiempo se conjeturó este hecho pero hasta 1970 no se demostró. La demostración se debe a Dykstra y se verá en el tema siguiente ya que es necesario conocer la distribución de dicha matriz aleatoria. 4.4. Teorema de Zehna. Aplicación a los estimadores de máxima verosimilitud de los coeficientes de correlación de Pearson, múltiples y parciales A continuación mostramos el enunciado del teorema de Zehna que luego será aplicado en varias situaciones Teorema 4.4.1. Sea P = {Pθ : θ ∈ Θ} una familia de medidas de probabilidad sobre (X , B). Consideremos g : Θ → Ω una función de Θ sobre un intervalo Ω de un espacio euclı́deo r-dimensional. Entonces, si θb es un b lo es de g(θ). estimador máximo verosı́mil de θ, g(θ) Apliquemos este resultado para calcular los estimadores de máxima verosimilitud de los diversos coeficientes de correlación introducidos en el tema 3. Consideremos X = (X(1) t | X(2) t )t y las correspondientes particiones inducidas en µ y Σ: µ(1) Σ11 Σ12 ; Σ = (σij )i,j=1,...,p = µ= µ(2) Σ21 Σ22 particiones que vamos a considerar también en el vector de medias X y las matrices de dispersiones muestral, A, y de covarianzas muestral, S, con A = N S, o sea X(1) A11 A12 S11 S12 X= ; A = (aij )i,j=1,...,p = ; S = (sij )i,j=1,...,p = A21 A22 S21 S22 X(2) Sean ei = (0, . . . , 1 , . . . , 0)t y ej = (0, . . . , 1 , . . . , 0)t . (i) (j) Entonces, µi = e0i µ y σij = e0i Σej . Por lo tanto, aplicando el teorema de Zehna se verificará aij tb tA µbi = eti µ b = eti X = X i , i = 1, . . . , p y σc ej = = sij , i, j = 1, . . . , p ij = ei Σej = ei N N De igual forma, si llamamos E1 = Iq | 0q×(p−q) y E2 = 0(p−q)×q | Ip−q , tenemos Σ11 = E1 ΣEt1 , Σ22 = E2 ΣEt2 . Σ12 = E1 ΣEt2 , Σ21 = E2 ΣEt1 . por lo que Análisis Multivariante. Grado en Estadı́stica. Tercer curso. 8 Francisco de Ası́s Torres Ruiz A11 A t d b t E = = S11 Σ 11 = E1 ΣE1 = E1 N 1 N A t A22 d b t Σ E2 = = S22 22 = E2 ΣE2 = E2 N N A t A12 d b t Σ E2 = = S12 12 = E1 ΣE2 = E1 N N A t A21 d b t Σ E1 = = S21 21 = E2 ΣE1 = E2 N N A22 A21 −1 d d dd [ Σ − 22.1 = Σ22 − Σ21 Σ11 Σ12 = N N A11 N −1 A12 1 A22 − A21 A−1 = S22 − S21 S−1 11 A12 . 11 S12 = N N A11 A12 −1 b d dd [ Σ − 11.2 = Σ11 − Σ12 Σ22 Σ21 = N N A22 N −1 A21 1 A11 − A12 A−1 = S11 − S12 S−1 22 A21 . 22 S21 = N N Puesto que el coeficiente de correlación lineal de Pearson, ρij , viene dado por ρij = σij , su estimador máximo σi σj verosı́mil será ρc ij = σc sij ij = = rij σbi σbj si sj t t td d t Además, si notamos por β(i) a la fila i-ésima de la matriz Σ21 , entonces β(i) = eti Σ21 con lo cual β (i) = ei Σ21 = at(i) A = st(i) , siendo at(i) y st(i) las filas i-ésimas de A21 y S21 , respectivamente. eti = N N Por tanto, dado el coeficiente de correlación lineal múltiple q Rq+i|1,...,q = t Σ−1 β β(i) 11 (i) σq+i se verificará s r −1 d d t d β (i) Σ11 β(i) \ = Rq+i|1,...,q σd q+i = at(i) N r A11 N −1 aq+i,q+i N a0(i) N s = t a0(i) A−1 11 a(i) aq+i,q+i = q t s0(i) S−1 11 s(i) sq+i −1 [ Por último, dado que Σ 22.1 = S22 − S21 S11 S12 = S22.1 podemos calcular los estimadores máximo verosı́miles de los coeficientes de correlación parcial. En efecto, como ρij|1,...,q = σij|1,...,q σi|1,...,q σj|1,...,q se tiene ρij|1,...,q \ = σij|1,...,q \ sij|1,...,q = = rij|1,...,q s σ\ σ \ i|1,...,q sj|1,...,q i|1,...,q j|1,...,q donde sij|1,...,q es el elemento (i, j) de la matriz S22.1 . Además se verifica también la correspondiente regla de recurrencia rij|1,...,q−1 − riq|1,...,q−1 rjq|1,...,q−1 rij|1,...,q = 12 12 2 2 1 − riq|1,...,q−1 1 − rjq|1,...,q−1 Análisis Multivariante. Grado en Estadı́stica. Tercer curso. Francisco de Ası́s Torres Ruiz 4.5. 9 Estimadores de máxima verosimilitud de las hipersuperficies de regresión lineal Sabemos del tema 3 que en el modelo teórico de regresión, la hipersuperficie de regresión de X(2) sobre X(1) = x(1) es −1 E X(2) | X(1) = x(1) = µ(2) + Σ21 Σ11 (x(1) − µ(1) ) y para la componente i-ésima −1 t E Xq+i | X(1) = x(1) = µq+i + β(i) Σ11 (x(1) − µ(1) ) , i = 1, . . . , q A partir de los desarrollos del apartado anterior, los estimadores máximo verosı́miles para las expresiones anteriores son: −1 A21 A11 d −1 \ d (x(1) − X(1) ) Z = E X(2) | X(1) x(1) = µd d (2) + Σ21 Σ11 (x(1) − µ (1) ) = X(2) + N N −1 = X(2) + S21 S−1 11 (x(1) − X(1) ) = X(2) + A21 A11 (x(1) − X(1) ) y at(i) −1 d t d zq+i = E Xq+i \ | X(1) = x(1) = µd d ) = X + q+i + β(i) Σ11 (x(1) − µ q+i (1) N −1 t = X q+i + st(i) S−1 11 (x(1) − X(1) ) = X q+i + a(i) A11 (x(1) − X(1) ) t t donde se ha considerado la partición X = (X(1) | X(2) )t . Análisis Multivariante. Grado en Estadı́stica. Tercer curso. A11 N −1 (x(1) − X(1) )