Estimación por mínimos cuadrados de la matriz de covarianza de un

Anuncio
ESTADISTICA ESPAÑOLA
núm. 143, 1983, p^^ gs. 123 a 131
Estimación por mínimos cuadrados de la matriz de
covarianza de un vector aleatorio
por M.° DEL ROSARfO LOPEZ GIMENEZ
8ioestad^stica (Facultad Medicina)
Universidad Autónoma de Madrid
RESUMEN
Dado un vector aleatorio X con valores en Rp, de esperanza mX y
matriz de covarianza ^X, la pareja (mX, ^X) puede caracterizarse mediante:
mín {E[(X - m)' M(X - m)]; m E Rp, M E 8+, Tr(M ^`) _< 1}_
(1]
= E{(X - rnX)' [Tr(^X 2)^Xi^2 ^(x _ ,nX} }
donde b+ designa al conjunto de matrices simétricas definidas positivas.
H^1^^ pr^^pie^l^^^l perrn^te ^nterpretar la matr^l ^e cuvari^^nla^ uhteni^i^^ ^^
partir de una muestra aleatoria de X como un estimador de mínimos
cuadráticos de ^X.
Puluhrus c^u^^e: Vector aleatorio, matriz de covarianzas, estimador por
mínimos cuadrados.
l.
INTRODUCCION
Sea X un vector aleatorio con valores en RP. Decimos que la distribución de X
satisface un modelo lineal si podemos escribir
X = rrr X + E
124
f-:STADIST7C'A EsPAtiC}I_A
donde F eti un vector aieatc^ric^ nc^ c^h^,er^^^hle cie ^-^lore^ en R^', centracio EE^ = a, d^ ) y
^c ^ r^ nt.,tr,^ ^Ic^ ^^^^.,ri<<n^., ^.^; .^
^rt.x^ c.^, i,n ^c.^^tc^r ^It^ ^^ yr,t^ rc.^^rt^^c.^nt^, I^^ c.^^^+c•r^in^^,
^1 t' ^ .
En este mcxieio E se interpreta como un error aditivo sobre ^a medida de rnX, que
c^,t,, r c.a^r^c.^^t^nt^r^l^t r^^r X. w:nt^^ncc.^^. ^r ^^htenc.^m^ ^ ^ t^n^^ mue^tr^^ ^ie X. ^1e tumcrñ^^ n.
:^c; ^ . . . .. ^n . r.,r., ^^htent^r r,n., ^.^,trm^^cr^^n dt^ ^^tX ^rn h^,cer nrn^^ c^n^, hr^^^te^^^ ^uhre I^^
distribución de X, podemos usar el m^todo de los mínimos cuadrados. Buscaremos
entonces e^ vector de m de R^ que minimice la suma^de cuadrados de 1as normas de las
ciiferencias entre X; y m.
Habrá que elegir una norma sobre R^, y si nos restringimos a las normas euclidianas
y designamos por M ia matriz que define dicha norma, la ecuación a resolver será
^
^(X; - m)'M(X; - !n), m E R^
,I
mín
n
1
Tenemos que X=--- ^ X, y podemos poner entonces
n
;
^
,^
^ {X^ - m)'M(X^ - r») _ ^> (X, - X)'M{X^ - X) + n(X - rn)' M(X - m)
i':ntllnl'^`+ ^^ rYtlnlnltl llt' ^:! ^Lll^llll^n iinter'll^r 1t' lihtt^ne ^r^.'l'rl^imentt.' ^^irit /I1
=
(2i
^^ t"+tii
t^^t^m^,c,^ ^ n p^^r mínrm^» cu^„Jr.,^i^^^ e^ ^n^ie^endl^.^nte e^e !ái eNeccr^^n ^1e v1 y ^íe I^r m^itrrl
^ie c^^^ ^ir-i^rnl^r ^E .
Si tomamos ahora
E{(X - m)' M(X -- m) } = E t(X - mX)' M(X - mX) }+(mX - m)' M(mX - m)
vemos que mX está caracterizado en este modeío como el vector m de Rp, que minimiza
la esperanza del cuadrado de las normas de las diferencias entre X y m,[uego e{
estimador de mínimos cuadrados ^C tiene, respecto a^a distribución empírica de la
muestra, la misma propiedad que mX respecto a la distribución de X.
En e! caso en que E tiene una distribución normal multivariante, para cualquier valor
de ^^, X es también el estimador de máxima verosimilitud de mX, puesto que es el
estimador insesgado de mínima varianza para mX.
Además, en este caso en que E es normal, la matriz de covarianza empírica
a
^X = (X; - X)(X; - X>'
n ._,
n ? p + 1
FSTIMAC'ION POR MINIMOS C:'L'ADRADUS
1^S
c', l.iit^hit'n c'I ^'^l^itt<«l^^r ^I^' ttt<<^rrt^.t ^c.'t^^^^rtltlt(tt^l ^Ic' ^ y, :^ s}:. I c^ y^^^' .^h^^r.t rrt'1^'n^.lc.'
mos demc^strar es yue ^X es t^imhién un estim^^dc^r para mínimu^ cuaciradc^s de ^.x-. P^^r^^
ello vamos a ohtener primeramente una caracterización de ^x que dé lugar a c,na
eleccic^n óptima de la norma que mide e! error.
?.
CARACTERI"1_ACION DE L.A MATRl7 DE COVARIAN^A EN EL MC}DELO
LINEAL
Supongamos que la matriz de covarianza ^x sea no singular. Representamos por d el
espacio vectorial de matrices simétricas de orden n, donde el producto escalar está
definido mediante !a traza, y sea ti + el sut^conjunto de dicho espacio formado por las
matrices def nidas positivas.
Tenemos
E{(X - in)' MIX - rn)} = E{(X - mX)' M(X - mX) }+
+ ii^tx - ^rt ^ 'ti1urtX - ^n ^ :? [rl^l^Xi
Hahíamos visto que, independientemente de la elección de M, el mínimo de esta
expresión se obtiene para jn = rnX y vale, precisamente, Tr(1VI^X).
Podemos entonces minimizar Tr(M^X) para la elección de la matriz 11^i, pero si no
ponemos ninguna restricción a M el problema no tiene interés, puesto que
Inf {Tr(M^X), M E b+}= 0
Si expresamos la traza en función de los valores y vectores propios tendremos: Sean
i^,, ..., hp los valores propios de M, y V^, ..., VP, los vectores propios normalizados
correspondientes, entonces
Tr(MEx) = E{(X - mX)'M(X -- mX)} _ ^.^.kE{< X - mX, Vk}2}
Esta expresión muestra que es conveniente imponer una condición del ti po {^ k> u>
> U, k= I. ..., n} p^ir^^ ,mpedrr q^te I^i n^^rm^i ten^^ ^^ cumc^ cc^n^ec:uenct^^ el h^^rrar I^^ti
eje^ ^1e ^;r^in t1t^^er^re^n. )'uJem^i^ t^^m^ir, pur ejer^pl^^
Inl { l^r(M^X), M E b+, Tr(M) >_ 1} _^,^(^x)
donde ^.P(^X) representa el valor propio más pequeño de ^X.
.
.
F ntc^nce^, I^^ re^trrccrc^n 1'rl M- ^ _< I trene el mrsmu et^ecte^ que {1^ k>_ u> U, k=
= 1, .... p}.
Fs^^An^sr^cA F.sP,^,r^c_^i_A
126
I.EMA [
Si ^ e^ una matriz ciefinicia positiva, o sea, ^ E d` y M verifica las condiciones
dnteriores, v sea, M E á+ y Tr( M-^ 1^ I, el mín { Tr( M^ )} se obtiene para el único
valor M = Tr(^ ^'`2}E -r2
I)c^^nr^.^•truc^rr^n
Sea C x el compacto def nido por:
Cx ={M E b+; Tr(M-^> <_ 1; Tr(M) _< K}
f^ara K suficientemente grande, Cx es un conjunto no vacío y la función continua
M-^ Tr( M^) alcanza sus exiremoti.
Sea
M^F e1 valor en el cual se realiza el minimo. Las condiciones
MoE c^ + y
Tr(M^; ^) <_ 1 irr^plican que todos los valores propios de M^, están acotados por la
un^^l^^^1; et^^ie, p^^e^, un enturnu de yl^, en d q^,e est^^ enterdmente cunteni^i^^ en b+, y
entonces M^, constituye el mínimo local de la función Tr(M^) considerada sobne b con
las restricciones impuestas a CK. Cuando Ma está situado en el interior de b+, la
restricción
M E^i + no tiene interés, del mismo modo que no ta tiene la restricción
Tr(M) ^ K cuando K es suficientemente grande. Evidentemente, el valor de Tr(M^,^)
no puede crecer en la misma medida en que K aumente y tenemos
Tr(ME) ? ^.p(^) Tr(M)
donde a^ p(^ ) designa el menor valor propio de ^; así resultará que Tr(M^i ) no puede
tender hacia infinito a rnedida que tienda K. Ma cieberá satisfacer la siguiente condición
cl^{Tr(M^) - ^. [) - Tr(M-^) J } = 0 ;
^, >_ 0
donde c! M representa a la diferencia según la norma M. Puesto que la igualdad
c^,^,^ {Tr(ME) -^. [ 1- Tr(M-^))} = Tr{c^M[E - h M-2)} = 0
deberá reali2arse para toda elección de la dirección d^, se obtienen las siguientes
condiciones necesarias
^ - ^. M-2 = 0, ^. [1 - Tr(M-^)) = 0, ^. >_ 0
La única solución que se obtiene para que M satisfaga estas condiciones es que
Mo ^ -^.r(^i^)^-^n
c.q.d.
EST(MAC'ION P()R MINIMOS CL'ADRADOS
127
"I'enemos entonces que el valor de i^^ será
r^ (1 - "I'r( M - ^ ) ] = 0
^. = ^. 1 r ( M ^^ ^ ) = Tr( M ^. ) _ ( Tr( ^ ^ ?` l 1=
luego
mín {Tr(M^); M E b+, Tr(M-^) < i}=(Tr(^^^)]2
Cc^mo consecuencia inmediata de este lema podemos hacer la siguiente afirmación:
Sí X es un vector aleaturiu con valores en RP, de esperanza ^rr X y de rnatriz de
covarianza ^x supuesta no singular, la pareja (^n.r, ^.x ) está caracterizada por
mín {E[^X - rn^' vt^X - rni]; nr E Rp. ME b+, Tr(M^^) < 1} =
= E {(X - mx)' [Tr(^X ) ^X^^ ](X - mX) }
donde ó+ representa el conjunto de matrices símétricas definidas positivas.
Esto es cierto, puesto que
E{(X - m)'M(X - m)} ?(Tr(^X ))2 drnE Rp, t^M E ó+, Tr(M-^) ^ i
y la igualdad sólo se realiza para
m= m X y
^.
M = Tr(^X )^X1i2
IN^I^FRf'RE^TACIUN ES^T^ADIS"rICA
EI térm^nu de error E viene det"inido mediante el principiu ^ie mínimu^ cua^lradu^
por la expresión
^
^ EZ^ - E'E _ ( X - mX)'M(X - mX)
;=^
con la eleccicin óptima de M, en las hipótesis anteriores, tendremos
E'E = Tr(EX^)(X - mx)^^X^n{%^ -- ^nX)
Si consideramos ahora una ci^escomposición espectral de ^X tal que
,
^x = UxAxUx
entonces
E = [Tr(AX ^ ] ^^AX»4 UX(X _ mx)
^.^rAnrs^ricA E.sP^voLA
tic.^^:un ti^•te^. t^l m^>^ielc^ ,e^;u^^i^^ p^^r X,e pue^le etpre,r^r
X = rnx + C,JXDX^E, D,^ = [Tr(nX )1-^^/^Xrz
En este modelo el error E está centrado y tiene una matriz de covarianza diagonal
cs É DX con [ r( DX) = 1. Si representamos por a X los elementos diagonales de DX, por CI X
los vectores lineales de UX y E' los componentes de E tenemos
i3l
Si los valores propios de EX son distintos, el modelo expresa que X es la resultante
de los componentes principales de <x, U^X^ UX, cada una de las cuales traduce e1 efecto
sohre X de la variah[e correspondiente < X, UX^ ; esta variable mide et efecto medio
<rn X U X} , con un error E;, donde la varianza es proporcional a un parámetro de escala
x X. C^^,^^n^ie^ h^^y un ^ulu ^^fl^^r prc^piv múlt^ple, la var^able ^ X, l' X^ que le ^^^ene
;t^^^c^^^^ia mi^ie un et^ec:t^^ ^ectc^ri^^l, pue^ lu^ cumpunenteti no pue^ien di^,c^c^^^r^e pdra
ver la variabilidad que cada uno de ellos induce sobre X.
Vamos a dernostrar que esta representación de X posee un carácter óptimo y es
válida además para el caso en que ^X sea sing^ular.
LEMA ll
Sea }C un vector aleatorio con valares en Rp, de esperanza m X y de matriz de
covarianza ^ X. Entre las representaciones de X bajo la forma
X= m+ U' D^nE, m E R°, UU' = IP, Tr(D) <_ 1
donde D es una matriz diagonal de elementos positivos o nulos, aquellos que se
obtienen a partir de mX y de una descomposición espectral de ^X
^X = csÉ UXDXU^, Tr(DX) = l
son las únicas que dan el rninimo de E{E 'E }
Dernostruci^^n
E(E 'E ) = E { [E - E(E ) ) ' [E - E(E ) ] } + [ E(E ) ] ' [ E(E ) ]
y este valor es mínimo cuando E está centrado, o sea, m= mX, puesto que, en caso
contrario, si ponemos É= E -- E(E ) tenemos:
X = m + U'D^^2E(E) + U'D^^2€
m
+ U' D i^2 E(E ) = m XE R°
E(^ 'É )< E(E 'E )
ESTIMAC'ION POR MI?^IMOS CL'ADRADUS
129
Para simplificar la nutación pc^nemus
!)1 X
= f :{ X ^
= IiJ
= ^{E ^ = i^
Si suponemos el caso donde E,^ es singular, entonces ?^C toma valores en u n sut^etipacio V de R° de dimensión y, y ^ n, ortogonal en R° respecto a la base de ^,X. Si
representamos por a^ los elementos diagonales de D, la condición li' U= 1° en la
representación:
X = U' D "ZE =
a' U-'
nos muestra que sólo y términos, entre E^;^' a^, son no nulos, y que los U^ correspondientes a 1os términos nulos, constituyen una base ortogonal de V. Mediante una
reordenación de indices, la representación se puede escribir:
X =
< ^
v^a^U^
Si llamamos
tenemos:
^IE^E ^= Y l. FI<X, l ^iz ^
^
^
^
a
? Q
«. Ft<X. ^^^}2 ^
^ ^
^
0(
E(E 'E ) se mi nimiza cuando
t^ S 1
a' - 0,
j-- q + l, ..., P
y lu^ ^ectore^ l^'^ cc^rre^pund^ente^ t^orman una ha^e ^iel ^uhe^^ ^^^c^u prup^c^ atiuc^a^i^^ ^^
valor propio nulo de ^X.
Si nos situamos en V tendremos el mismo problema iniciaf en dimensión y con una
matriz ^X no singular y fa restricción Tr(D) = 1. Si para no cambiar de notaciones
suponemos que ^X es no singular, tenemos:
E(E'E) = Tr(MEX), M= U'D-^U, Tr(M-^) = l
13()
ESTADISTTCA FSPAIVOLA
luego esta repretientaciún nos da el mínimo de E(E 'E ) c.q.d. EI valor de este mínimo
e^id ciadu mediante e! lem^ 1 y será:
rr
,
donde ti^,..., ti^, son los valore s propios de ^ X.
Notemos que en la representacicín X= m+ U D^^2£, el criterio E(E'E ) prescinde de
!as posibles cvrrelaciones entre los componentes de E, pero se minimiza precisamente
en el caso en que estas componentes no están correlacianados.
Estdmos ahora en condiciones de hacer la siguiente afirmación, por simple aplicación del lema que acabamos de demostrar,
Sea X un vector aleatorio con valores en Rp, con esperanza m X y matriz con
covarianza ^X.
Sea { X ^, ..., Xn } una muestra aleatoria de tamaño n, n> p+ 1, abtenida de X.
Los parámetros muestrales
rr^X = X =
1
n
n
(X! _ X^(Xi _ X^,
_,
n
son los estimddores de mínimos cuadrados de mX y^X, en el sentido en que (mx• ^x^
es !a ^ nica solución del problema de minimización de la surna de cuadrados de las
normas de los errores de E; en la representación:
X; = ^n + U'D^'2E;, i= l, ..., n; m E Rp, UU' _!P, Tr(d) < 1
donde D es una rnatriz diagona! con elementos pasitivos o nulos asociados a E, que
estará dada entonees por:
E = csÉU'D2U
a^ _
n
BIBLEOGRAFIA
RoHATGi, U. K.: An Introduction to Prohuhilitv Theorv und Muthemutrcul Stutistrc•s.
John Wiley and Sons, 19^6.
SPRlNGER, M. D.: Th^ Alkehru v,}' Random Vuriuh/es. John Wiley and Sons, 19^9.
ZACKS, S.: The The^^rv vJ' Stuti.sticul In,jerence, John Wiley and Sons, 1971.
ESTIMACIUN Pt)R MINIMUS C'L'ADRAI:)OS
131
SUMM.ARY
EST[MATION OF TNE LEAST SQUARE OF THE COVAR[ANCE
MATRIX (^F AN RANDOM VECTOR
Let X be a random vector with values in R^, with expectation rnX
and t he covariance rnatrix ^ X.
Then (^n X, E X) may he caracterize in t he
expression:
min {E[(X -- ^n)' M(X - rn)1 : rn E R^, M E b+, Tr(M ^' 1_< 1} _
= E{(^C - rr^ xl' ÍTrt^-X^^I^X i^z^(^C - frtx) }
[[]
where ^+ is the set of symetrics rnatrix posítive ciefinite.
This propiety permit to interpret ihe covariance matrix of a random
sample of X, as a least square estimate of ^X.
K^^^ K^^^rr^s: Random vector; covariance matrix; least square estimate.
AMS, [9^0. Subjetc classi^cation: Primary 62F10, secondary 65F05.
Descargar