1 CORRELACIONES CANONICAS Jorge Galbiati R. Se tienen dos vectores aleatorios xq×1 e y p×1 que representan dos conjuntos de carácteristicas observadas, posiblemente de un mismo sujeto. Interesa conocer una medida de asociación entre ellos, similar al coeficiente de corrrelación entre dos variables. Se consideran dos combinaciones lineales de las coordenadas de los vectores, η = a x y ς = b y Supóngase que la matriz de varianzas-covarianzas conjunta del vector formado por x e y particionada correspopndiente es: V ar x y = Σ11 Σ21 Σ12 Σ22 (q+p)×(q+p) Entonces: cov(a x; b y) a Σ12 b corr(η, ς) = corr(a x, b y) = = a Σ11 ab Σ22 b V ar(a x)V ar(b y) (1) Se define la Correlación Canónica entre los vectores x e y al número corr(a x, b y) máximo con respecto de a y b. Por lo tanto, nuestro problema es encontrar los vectores a y b que maximicen (1). Pero la expresión anterior resulta invariante respecto de la magnitud de a y de b. Luego el problema es equivalente a maximizar cov(a x; b y) sujeto a las restricciones a Σ11 a = 1 y b Σ22 b = 1 Esto se hace igualando las derivadas parciales a cero, de la función a maximizar con multiplicadores de Lagrange asociado a las dos restricciones. Se puede hacer de esta forma porque la función a maximizar es de segundo grado en los elementos de a y de b. 2 Función a derivar: Φ(a , b) = a Σ12 b + λ1 (a Σ11 a − 1) − λ2 (b Σ22 b − 1) λ1 y λ2 son multiplicadores de Lagrange. Derivadas parciales: ∂Φ = Σ12 b + 2λ2 Σ11 a = 0 ∂a ∂Φ = Σ21 a + 2λ1 Σ22 b = 0 ∂b ∂Φ = aΣ11 a − 1 = 0 ∂λ1 ∂Φ = b Σ22 b − 1 = 0 ∂λ2 Combinando adecuadamente estas ecuaciones, se llega a: −1 2 Σ−1 11 Σ12 Σ22 Σ21 a = (aΣ12 b) a −1 2 Σ−1 22 Σ21 Σ11 Σ12 b = (aΣ12 b) b Por lo tanto, a y b son vectores propios de: −1 M1 = Σ−1 11 Σ12 Σ22 Σ21 y −1 M2 = Σ−1 22 Σ21 Σ11 Σ12 respectivamente. El valor de la correlación canónica es: a Σ12 a La raiz cuadrada del mayor valor propio común λ1 de estas matrices. La definición de correlación canónica se puede extender: Si λr es el r-esio valor propio de M1 (o de M2 ), en orden de magnitud de mayor a menor, entonces √ λr es la r-esima correlación canónica entrex e y. Los valores propios asociados a λr de M1 y M2 , a r y b r , respectivamente, son los r-esimos vectores de correlación, tales que la correlación acnónica r-esima está dada por: corr(ar x; br y) = √ λr 3 Propiedades: √ λ1 es la mayor correlación canónica entre x ey 1) 2) ar Σ12 bs = 0 Si r = s, Caso muestral Si se tienen dos matrices de datos provenientes de x ey, Xn×q e Yn×p Se pueden obtener correlaciones canónicas muestrales a partir de la matriz de varianzas-covarianzas muestral S= S12 S22 S11 S21 = X HX Y HX X HY Y HY con H = In − 1 1n 1n n Lo demás sigue en forma análoga. EJEMPLO: Suponga que q = p = 2, y la matriz de varianzas-covarianzas muestral es: ⎡ ⎢ ⎢ ⎢ S=⎢ ⎢ ⎢ ⎣ 2 2 − 1 0 2 3 − 2 1 | 1 | 2 | − | 4 | 1 0 1 − 1 2 ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ Se calculan las matrices M1 y M2 , ambas 2 × 2, −1 −1 S12 S22 S21 M1 = S11 −1 −1 M2 = S22 S21 S11 S12 donde: −1 S11 1 = 2 3 −2 −2 2 −1 S22 1 = 7 2 −1 −1 4 de donde: 1 M1 = 14 0 2 −7 10 = 0 −0,5 0,143 0,714 1 M2 = 14 4 5 2 6 = Los valores propios comunes de M1 y M2 son: √ 5 + 11 = 0,594 λ1 = 14 √ 5 − 11 λ2 = = 0,120 14 0,286 0,143 0,357 0,429 4 Luego las correlaciones canónicas son: √ λ1 = 0,7707 √ λ2 = 0,3468 y Los vectores de correlación canónica asociados al primer valor propio son: a1 = −0,644 0,765 y b1 = −0,972 0,234 y al segundo valor propio (segunda correlación canónica). a2 = 0,420 0,907 y b2 = 0,654 −0,757 de M1 y M2 , respectivamente. La primera correlación canónica entre los pares de variables es 0,7704, la segunda correlación canónica es 0,3468.