Tema 7. Análisis de Correlación Canónica.

Anuncio
Tema 7. Análisis de Correlación Canónica.
Variables canónicas y correlaciones canónicas.
Sean Y(1) e Y(2) vectores aleatorios de dimensiones p y q respectivamente. Supongamos p ≤ q. Denotemos por Σ11 = Cov(Y(1) ), Σ22 = Cov(Y(2) ) y Σ12 = Cov(Y(1) , Y(2) ). Supondremos Σ11 y Σ22 definidas
positivas.
Sean U = αt Y(1) y V = βt Y(2) combinaciones lineales arbitrarias de Y(1) e Y(2) , respectivamente. Es
inmediato que
Var(U) = αt Σ11 α ,
Var(V) = βt Σ22 β
,
Cov(U, V) = αt Σ12 β
αt Σ12 β
Corr(U, V) = √
p
αt Σ11 α βt Σ22 β
(1)
D́:
El primer par de variables canónicas es el par (U1 , V1 ) de combinaciones lineales de αt Y(1) e αt Y(2)
respectivamente, tales que Var(U1 ) = Var(V1 ) = 1 que hace máxima la correlación (1). A ρ1 =
Corr(U1 , V1 ) la llamaremos primera correlación canónica.
El k-ésimo par de variables canónicas (k = 2, . . . , p) es el par (Uk , Vk ) de combinaciones lineales de
Y(1) e Y(2) respectivamente, tales que Var(Uk ) = Var(Vk ) = 1 que hace máxima la correlación (1) entre
todas aquellas combinaciones lineales incorreladas con los pares de variables canónicas (U1 , V1 ), . . . ,
(Uk−1 , Vk−1 ). Es decir, maximiza (1) entre aquellos pares (U, V) tales que Corr(U, Vi ) = 0, Corr(U, Ui ) =
0, Corr(Ui , V) = 0, Corr(Vi , V) = 0 para i = 1, . . . , k − 1. A ρk = Corr(Uk , Vk ) la llamaremos k-ésima
correlación canónica.
Introduzcamos unas matrices cuyos autovectores y autovalores nos van a dar la clave para construir
las variables canónicas:
−1/2
−1 t
• Consideremos la matriz Σ−1/2
11 Σ12 Σ22 Σ12 Σ11 . Esta matriz es de orden p simétrica y semidefinida
−1
positiva, por ser Σ22 definida positiva. Sean ρ21 ≥ · · · ≥ ρ2p ≥ 0 sus autovalores y e1 , . . . , e p sus
autovectores asociados que forman una base ortonormal.
−1/2
−1
t
• Consideremos la matriz Σ−1/2
22 Σ12 Σ11 Σ12 Σ22 . Esta matriz es de orden q simétrica y semidefinida
−1
positiva, por ser Σ11 definida positiva. Además su rango es menor o igual que p que es el rango de
Σ−1
11 , por lo que sus q − p autovalores más pequeños son 0. En cuanto a sus p autovalores mayores
son precisamente ρ21 ≥ · · · ≥ ρ2p ≥ 0 y sus autovectores asociados f1 , . . . , f p son proporcionales a
−1/2
t
Σ−1/2
22 Σ12 Σ11 ek , k = 1, . . . , p. Cualesquiera de estos autovectores son ortogonales, pues fk fl ∝ ek el
y por tanto igual a 0 si k , l. Los elegiremos tales que fk fk = 1, k = 1, . . . , p.
P́:
(1)
(2)
Con las notaciones anteriores, para k = 1, . . . , p Uk = etk Σ−1/2
y Vk = fkt Σ−1/2
forman el k-ésimo
11 Y
22 Y
par de variables canónicas y además Cov(Uk , Vk ) = ρk es la k-ésima correlación canónica.
−1 t
Los valores ρ21 , . . . , ρ2p también son los autovalores de la matriz Σ−1
11 Σ12 Σ22 Σ12 y los p mayores de
−1 t
−1
la matriz Σ22 Σ12 Σ11 Σ12 (los q − p menores de esta última son nulos). Sus autovectores asociados son
−1/2
(proporcionales a) Σ−1/2
11 ek , k = 1, . . . , p para la primera y Σ22 fk , k = 1, . . . , p para la segunda.
Las matrices que hemos usado en la definición tenı́an la ventaja de ser simétricas y semidefinidas
positivas, lo cuál presenta ciertas ventajas teóricas. Estas últimas matrices son más fáciles de manejar
desde un punto de vista computacional.
1
Variables estandarizadas.
Sean µ(1) = E[Y(1) ] y µ(2) = E[Y(2) ]. Vamos a estandarizar o tipificar las variables, denotando
Zi(1) =
Yi(1) − µ(1)
i
q
(1)
σii
,
Zi(2) =
Yi(2) − µ(2)
i
q
(2)
σii
t
(2)
y Z(1) = (Z1(1) , . . . , Z (1)
= (Z1(2) , . . . , Zq(2) )t . El cálculo de las variables canónicas y las correlaciones
p ),Z
canónicas se basa ahora en las matrices de correlaciones ρ11 , ρ22 y ρ12 , siendo ρ11 = Cov(Z(1) ) =
Corr(Y(1) ), ρ22 = Cov(Z(2) ) = Corr(Y(2) ) y ρ12 = Cov(Z(1) , Z(2) ) = Corr(Y(1) , Y(2) ).
Las variables canónicas y las correlaciones canónicas se calculan de modo similar a las basadas
en matrices de covarianza. De hecho, las correlaciones canónicas siguen siendo ρ1 , . . . , ρ p , es decir,
se mantienen invariantes por la estandarización. En cuanto a los nuevos pares de variables canónicas
(Uk∗ , Vk∗ ), k = 1, . . . , p, se tiene que
 (i)

 σ11 . . .
0 

..  , i = 1, 2
−1/2 (1)
−1/2 (2)
..
Uk∗ = etk Σ1/2
, Vk∗ = fkt Σ1/2
con Vii =  ...
.
. 
11 V11 Z
22 V22 Z


0 . . . σ(i)
pp
Interpretación de las variables canónicas
Identificación de las variables originales en las variables canónicas
El método más directo es observar los coeficientes de cada variable original en las variables canónicas
basadas en las matrices de covarianzas.
Otra forma de estudiar la contribución de las variables originales a las variables canónicas es mediante las correlaciones de ambos grupos de variables. En concreto
Corr(Uk , Y(1) ) = αtk Σ11 V−1/2
11
Corr(Vk , Y(1) ) = βtk Σt12 V−1/2
11
,
,
Corr(Vk , Y(2) ) = βtk Σ22 V−1/2
22
Corr(Uk , Y(2) ) = αtk Σ12 V−1/2
22
k = 1, . . . , p
Estas correlaciones no dependen de si se tipifican o no las variables, es decir, Corr(Uk , Y(1) ) = Corr(Uk∗ , Z(1) ),
Corr(Vk , Y(2) ) = Corr(Vk∗ , Z(2) ).
Generalización del concepto de correlación.
Es inmediato que la primera correlación canónica es una cota superior a las correlaciones entre variables
de los dos grupos:
| Corr(Yi(1) , Y (2)
j )| ≤ ρ1
Supongamos p = 1. Consideremos la regresión lineal de Y (1) sobre las variables de Y(2) . Se verifica
que la combinación lineal de estas variables que mejor aproxima a Y (1) en el sentido de los mı́nimos
t
(1)
cuadrados es β0 + βt Y(2) con β = Σ−1
− βt µ(2) . Además la correlación entre ambas
22 Σ12 y β0 = µ
variables es
s
t
Σ12 Σ−1
22 Σ12
Corr(Y (1) , β0 + βt Y(2) ) =
σ11
y se le denomina coeficiente de correlación múltiple. Este coeficiente maximiza la correlación entre Y (1)
y cualquier combinación lineal de Y(2) , por lo tanto es igual a la primera correlación canónica, es decir,
ρ1 es el coeficiente de correlación múltiple en la regresión lineal de Y (1) sobre las variables de Y(2) .
Para un p arbitrario tenemos que ρ1 es mayor que todos los coeficientes de correlación múltiple de
las variables de Y(1) sobre las de Y(2) y viceversa.
2
Variables canónicas y correlaciones canónicas en la muestra.
Sean Y11 , . . . , Y1n e Y21 , . . . , Y2n m.a.s. de las variables de la sección anterior y denotemos por Y(1) =
(Y11 | . . . |Y1n )t e Y(2) = (Y21 | . . . |Y2n )t a las matrices que contienen a los datos, de dimensiones n × p y
n × q respectivamente. Supongamos p ≤ q. Denotemos por
(k)
Y
1X
Yk j
n j=1
n
=
(k)
(l)
1 X
(Yk j − Y )(Yl j − Y )t
n − 1 j=1
n
,
Skl =
k, l = 1, 2
a los vectores de medias y a las matrices de covarianzas de los datos. Supondremos S11 y S22 definidas
positivas.
b = Y(1) a y b
Sean U
V = Y(2) b combinaciones lineales arbitrarias de las filas de Y(1) e Y(2) , respectivat
b b
mente. Es inmediato que s2b = at S11 a, sb2 = bt S22 b, sU,
bb
V = a S12 b y la correlación entre U y V
U
V
at S12 b
rU,
√
bb
V = √ t
a S11 a bt S22 b
(2)
D́:
b1 , b
El primer par de variables canónicas es el par (U
V1 ) de combinaciones lineales de las filas de Y(1) e
(2)
2
2
Y respectivamente, tales que s b = sb = 1 que hace máxima la correlación (2). A r1 = rUb1 ,bV1 la
U1
V1
llamaremos primera correlación canónica.
bk , b
El k-ésimo par de variables canónicas (k = 2, . . . , p) es el par (U
Vk ) de combinaciones lineales de las filas de Y(1) e Y(2) respectivamente, tales que s2b = sb2 = 1 que hace máxima la corUk
Vk
relación (1) entre todas aquellas combinaciones lineales incorreladas con los pares de variables canónicas
b1 , b
bk−1 , b
bb
(U
V1 ), . . . , (U
Vk−1 ). Es decir, maximiza (1) entre aquellos pares (U,
V) tales que rU,
bb
Vi = 0,
rU,
bU
bi = 0, rU
bi ,b
bk ,b
V = 0, rb
Vi ,b
V = 0 para i = 1, . . . , k − 1. A rk = rU
Vk la llamaremos k-ésima correlación
canónica.
P́:
Sean r12 ≥ · · · ≥ r2p ≥ 0 los p mayores autovalores de las matrices simétricas y semidefinidas positivas
−1/2
−1/2
−1 t
t
−1
S−1/2
y S−1/2
y sean b
e1 , . . . ,b
ep y b
f1 , . . . ,b
f p sus respectivos autovectores
11 S12 S22 S12 S11
22 S12 S11 S12 S22
bk = Y(1) S11b
asociados que forman sendos sistemas ortonormales. Entonces, para k = 1, . . . , p, U
ek
(2)
yb
Vk = Y S22b
fk forman el k-ésimo par de variables canónicas y además rUbk ,bVk = rk es la k-ésima
correlación canónica.
Inferencias
Para ver si tiene sentido hacer el análisis de correlación canónica, es decir, si los dos grupos de variables
están correlacionadas, podemos plantear la hipótesis
H0 : Σ12 = 0
H1 : Σ12 , 0
⇐⇒
H0 : ρ1 = · · · = ρ p = 0
H1 : ρ1 , . . . , ρk > 0 para algún k
Utilizando el test de la razón de verosimilitudes, rechazaremos H0 al nivel α si
!
p
Y
1
|S11 | |S22 |
1
(n−1− (p+q+1)) log
= −(n−1− (p+q+1)) log
(1−ri2 ) > χ2pq,α con
2
|S|
2
i=1
S=
S11
St12
Para cada k, también podemos contrastar la hipótesis
H0 : ρ1 , . . . , ρk > 0, ρk+1 = · · · = ρ p = 0
H1 : ρ j > 0 para algún j > k
Qp
(1 − ri2 ) > χ2(p−k)(q−k),α
En este caso rechazaremos H0 al nivel α si −(n − 1 − 12 (p + q + 1)) log i=k+1
3
S12
S22
!
Descargar