Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 13 2) Análisis en Rn: AF de las filas de Xt (col. de X). Pasamos a realizar el segundo análisis. 2.1) La Nube de puntos-variable: x1, x2, … ,xp (filas de la matriz Xt, o sea, columnas de X) p puntos de Rn (puntos-variable) STERRER 139,3 -38,3 VLASIC -3,3 CLAVERIE 31,3 30,7 LITHELLN -0,7 -42,3 KUBISZEWSKI -25,7 14,7 ZENIOU 23,3 10,7 GUGLER 105,3 HADFIELD 4,3 36,7 MITRAKIEV 53,3 147,7 BAGINSKI 171 154 KOLOWANON RUEFENACHT BOREHAM STEEN KUELVET WENTZ NIKLAUS DEGTJARJOV HINGSEN THOMPSON 100 m. longitud -2,7 -16,7 7,3 21,3 -106,7 -67,7 -39,7 -51,7 -7,7 -141,7 -95,7 -10,3 -60,3 -32,3 54,7 -46,3 -82,3 -110,3 18,7 16,7 -36,3 -22,3 -118,1 X t peso 87,9 124,9 39,9 82,9 61,9 -19,1 -115,1 -18,1 -19,1 8,9 -37,1 -51,1 8,9 -21,1 45,9 43,9 34,9 -95,1 -46,1 altura 80,5 105,5 55,5 29,5 29,5 105,5 55,5 29,5 4,5 55,5 4,5 29,5 -164,5 4,5 -119,5 4,5 -119,5 -119,5 -75,5 4,5 400 m. 118 68,05 -11,95 78,05 41,05 11,05 25,05 53,05 40,05 -71,95 -44,95 -34,95 41,05 -63,95 -51,95 -51,95 -7,95 26,05 -77,95 -83,95 110m.v. 82,6 57,6 15,6 12,6 36,6 6,6 -4,4 -2,4 75,6 37,6 -43,4 -3,4 -38,4 -23,4 -52,4 26,6 -5,4 -28,4 -57,4 -92,4 disco 25,7 37,65 124,7 60,65 38,65 126,7 -34,35 -63,35 -25,35 37,65 2,65 -39,35 -34,35 2,65 -37,35 -19,35 18,65 -88,35 -45,35 -88,35 pértiga javal 1500 122 50,95 74,95 -22,05 -22,05 50,95 98,95 -47,05 -22,05 74,95 25,95 -47,05 -22,05 2,95 25,95 -99,05 -99,05 50,95 -99,05 -99,05 31,4 2,4 -3,6 121,4 71,4 28,4 17,4 36,4 -19,6 -21,6 31,4 -25,6 11,4 35,4 59,4 24,4 -150,6 -115,6 -40,6 -93,6 19 66 96 -118 26 3 92 104 -106 -81 -2 43 -39 46 12 -57 -50 -92 53 -15 Cada punto de la nube, xj , es una fila de Xt . Representa las n desviaciones para una variable, la j-ésima, … que se ha observado sobre los n=20 individuos: variables : 100 m. Individuos: THOMPSON THOMPSON HINGSEN DEGTJARJOV NIKLAUS WENTZ KUELVET STEEN BOREHAM RUEFENACHT KOLOWANON BAGINSKI MITRAKIEV HADFIELD GUGLER ZENIOU KUBISZEWSKI LITHELLN CLAVERIE VLASIC STERRER medias desv. típicas Punto1 x1 100 m. 171,3 53,3 4,3 105,3 23,3 -25,7 -0,7 31,3 139,3 -2,7 -16,7 7,3 21,3 -106,7 -67,7 -39,7 -51,7 -7,7 -141,7 -95,7 0 S1 = 77,9 longitud HINGSEN Punto2 x2 longitud 153,7 147,7 36,7 10,7 14,7 -42,3 30,7 -3,3 -38,3 -10,3 -60,3 -32,3 54,7 -46,3 -82,3 -110,3 18,7 16,7 -36,3 -22,3 0 S2 = 65,9 … javal DEGTJARJOV ... 1500 … STERRER Punto10 x10 1500 m 19,0 66,0 96,0 -118,0 26,0 3,0 92,0 104,0 -106,0 -81,0 -2,0 43,0 -39,0 46,0 12,0 -57,0 -50,0 -92,0 53,0 -15,0 0 S10 = 68,2 Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 14 2.1.1) El c. de g. de la nube (centro de gravedad): Gn La nube en Rn de los p puntos-variable NO está centrada: Gn≠ 0. El c.de g. de la nube de los p puntos-variable en Rn vale: 1 p j Gn = x p j 1 y en general será distinto de 0. Tras la transformación RX cada columna de X suma 0, pero no cada fila. Así, las n componentes de cada punto-variable suman 0 (dicho en forma matemática, xj es ortogonal al 1n; la nube de puntos-variable descansa en el hiperplano ortogonal al vector 1n) Los n puntos-fila de X sumaban 0, Gp=0, y la nube de puntosindividuo en Rp estaba centrada, pero… los p puntos-columna de X no suman 0, Gn≠ 0, y la nube de puntos-variable xj en Rn no está centrada. En el ejemplo, Gn es el siguiente punto de R20: 89,2 71,4 43,2 36,1 32,1 24,5 16,5 12,0 2,9 2,7 -14,0 -15,4 -16,1 -17,0 -26,8 -27,8 -41,2 -45,3 -56,7 -70,4 89,21 en la coordenada 1 (THOMPSON) 71,40 en la coordenada 2 (HINGSEN) … -70.40 en la coordenada 20 (STERRER) Cada coordenada de este c. de g. es el promedio para un atleta de sus 10 desviaciones a la media. Esto supone que: Thompson obtiene una ventaja sobre “el atleta medio” de 89,2 puntos por prueba. Es el promedio más alto, como corresponde al atleta que gana el decathlon. Hingsen, de 71,4 puntos por prueba. … Sterrer, una desventaja de 70.4 puntos por prueba. Es un promedio negativo y el más bajo de todos, como corresponde al último clasificado la coordenada i de Gn es la desviación promedio del atleta i en las 10 pruebas (en genera será un valor no nulo). Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 15 2.1.2) Determinadas posiciones espaciales de los puntos-variable en Rn dan información muy interesante sobre correlaciones entre variables nótese que para variables j y j’ centradas se tiene: (xj)txj’=nCov((j,j’) (xj)txj=nVar(j) xj=xj’: Dos puntos-variable (jabalina y peso) aparecerán juntos/próximos en Rn si y sólo si cada individuo obtiene desvia-ciones iguales/similares en ambas variables (rj-rj =rj’-rj’). (es decir, cuando una variable original es traslación de la otra) ---------------------------------------j j’ x =k x : Dos puntos-variable aparecerán en la misma dirección y.. …mismo sentido de Rn si y sólo si las n desviaciones en una variable son las de la otra multiplicados por una constante k>0 (rj-rj =k(rj’-rj’) (es decir, cuando correlación muestral (j,j’)= +1). …en sentidos opuestos, lo mismo con k<0 (corr. muestral = -1). ---------------------------------------j t j’ (x ) x =0: Dos puntos-variable aparecen en direcciones ortogonales de Rn si y sólo si las variables estén incorreladas. (es decir, cuando correlación muestral (j,j’)= 0). En consecuencia, y dado que no es posible visualizar las posiciones en Rn, debemos proyectar y extraer información de interés sobre correlaciones a partir de la representación de los puntos-variable en un subespacio factorial. El problema es que al proyectar los ángulos pueden modificarse y debemos recurrir a la calidad de representación de los puntos variable en el plano (c.r.) para poder asegurar (cuando ésta es alta) que los ángulos proyectados se parecen a los originales en Rn. Estas relaciones entre posiciones de los puntos variable xj y correlaciones son de gran interés y constituyen la razón por la cual aplicamos un AF a esta nube de puntos variable a pesar de que, al no estar centrada, el AF no garantiza resultados óptimos en cuanto a calidad de representación. En el ejemplo: (ver el gráfico de los puntos-variable al final de esta sección 2) Las variables 100m y 400m aparecen alineados en la misma dirección del plano factorial 1-2 y además están bien representadas en él. Esto significa que estos dos puntos-variable no pueden separarse en las restantes direcciones de R20, que no vemos, y por lo tanto estarán realmente alineados en Rn . Por lo tanto, 100m y 400m son dos variables fuertemente correladas en sentido positivo. Estas variables 100m y 400m aparecen dentro del plano factorial 1-2 en una dirección perpendicular a la de altu, que también está bien representada en este plano. Esto significa que el punto-variable altu no pueden separarse en las restantes direcciones de R20 y por lo tanto estarán realmente perpendicular a 100m y 400m en Rn . Luego altu es una variable incorrelada con 100m y 400m. ¿Qué podemos decir de parejas como disc-java o peso-long?... Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 16 2.2) Métrica: I (Euclídea unitaria). 2.2.a) Se usa para medir distancias entre dos variables, xj y xj’ : d2(xj, xj’)= (xj - xj’)t I (xj - xj’) = = i=1…n (xij- xij’)2 = = i xij2 + i xij’2- 2i xij xij’ =* = Var(j) + Var(j’) – 2 Cov(j,j’) = = Var (j -j´). Salvo el factor n. Podríamos tomar de partida la nube comprimida con un factor 1/ n ; con esto, la forma de la nube se mantiene (sólo cambia su tamaño) pero de esta manera en * aparecerían las varianzas y covarianzas exactamente. * d2(xj, xj’) Var(j) + Var(j’) – 2 Cov(j,j’) = Sj2 + Sj’2 - 2 Sjj’2 d(xj, xj’) es la desviación típica muestral de la diferencia (j-j´) Ejemplo: d2( peso,javal) = ( 87.9-31.4)2 + (124.9-2.4)2 + … + ( -118.1+93.6)2 = 89941 d ( peso,javal ) = 299,9 2.2.b) Se utiliza para medir distancias al origen: d2(xj, 0)= (xj - 0)t I (xj - 0) = i=1…n xij 2 = Var(j) = Sj2 d(xj, 0)= Sj La distancia de un punto-variable al origen, es su desviación típica. Por tanto, la inercia total de la nube de puntos será la suma de las varianzas muestrales de las p variables activas: I0 = S12 + S22 + … +Sp2 2.2.c) También se utiliza para proyectar los puntos de la nube: La coordenada del punto-variable xj proyectado sobre la Gj= (xj )t v dirección v será : y entonces, el vector de factores calculados en el eje resulta ser: G=Xt v Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 17 2.3) Peso de cada punto: Todos iguales. 2.4) Matriz a diagonalizar: XXt . Autovalores: 1 2 ... p p+1... n (Inercias) Autovectores: v1 v2 ... v p v p+1... v n (Ejes principales de Rn) Nota Importante: XXt es una matriz (nxn) y tiene el rango de X, o sea, p a lo sumo (recordad que siempre n>p). Entonces XXt tiendrá a lo más p valores propios positivos y los restantes (n-p) valores propios serán nulos: 1 ≥ 2 ≥ ... ≥ p ≥ p+1= … = n=0. Por tanto, los p primeros ejes factoriales recogen la inercia total. I0 = 1 + 2 + … +p … y los n-p ejes restantes no recogen información alguna. Sólo las p primeras direcciones principales recogen información. Recuerda que la inercia total era la misma que en análisis en Rp I0 = S12 + S22 + … +Sp2 2.5) Relación entre los dos análisis: Relaciones de transición. Los p valores propios no nulos de los dos análisis (n puntosindividuo en Rp y p puntos-variable en Rn ) coinciden = 1 … p y los vectores propios de los dos análisis están relacionados con los Factores calculados: F= Xu = (±) G= Xtv = (±) v u Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 18 Demostración: Si y u son valor y vector propio de XtX: XtXu =u [1] Premultiplicando los dos miembros de [1] por X se tiene: X XtXu =X u , es decir (XXt) (Xu)= ( Xu ), luego… también es autovalor de XXt y Xu es autovector asociado. Pero Xu=F y su norma2 es la inercia del eje . Entonces XXtu dividido por su norma, , será vector propio unitario de XXt, o sea v (salvo signo, que no está determinado): v= 1 Xu = 1 F Argumentando análogamente se obtiene la relación simétrica: u= 1 Xt v = 1 G Despejando, tenemos las relaciones entre factores calculados de un análisis y los vectores propios del otro ( Relaciones de transición): F= Xu = G= Xtv = v u Consecuencia: Las componentes principales son variables incorreladas Demo: F1 y F2 son variables centradas al ser c.l. de centradas xi. Entonces v1┴ v2 F1┴ F2 F1 incorrelada con F2 En la salida SPAD del análisis 2) de los puntos-variable en Rn encontramos los factores calculados del segundo análisis: G1 G2 G3 G4 G5 , u1 u2 u3 u4 u5 y los vectores propios del primero COORDONNEES ANCIENS AXES UNITAIRES (que utilizábamos como coeficientes para definir cada componente principal). COORDONNEES DES VARIABLES SUR LES AXES 1 A 5 -----------------------------------------------------------------+-------------------------------+------------------------------VARIABLES | COORDONNEES | CORRELATIONS VARIABLE-FACTEUR | ANCIENS AXES UNITAIRES ----------------------------+------------------------------------+-------------------------------+------------------------------IDEN - LIBELLE COURT | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 ----------------------------+------------------------------------+-------------------------------+------------------------------| | | 100m - 100m 100 metros liso ! 63.14 -32.87 3.29 15.87 -14.45 ! .83 -.43 .04 .21 -.19 ! .47 -.39 .05 .26 -.26 long - long salto de longit ! 43.35 -12.20 36.36 -20.13 10.22 ! .67 -.19 .57 -.31 .16 ! .33 -.14 .51 -.33 .19 peso - peso lanzamiento de ! 41.49 -11.45 -29.30 -34.82 10.71 ! .64 -.18 -.45 -.53 .16 ! .31 -.14 -.41 -.58 .20 altu - altu salto de altura ! 50.46 43.30 -5.28 26.17 4.83 ! .66 .57 -.07 .34 .06 ! .38 .51 -.07 .43 .09 400m - 400m 400 metros liso ! 44.93 -22.64 12.50 -6.25 -13.91 ! .79 -.40 .22 -.11 -.24 ! .34 -.27 .17 -.10 -.25 110v - 110v 110 metros vall ! 36.43 -7.03 -5.86 6.08 6.38 ! .82 -.16 -.13 .14 .14 ! .27 -.08 -.08 .10 .12 disc - disc lanzamiento de ! 35.62 17.89 -22.84 -5.59 28.97 ! .61 .31 -.39 -.10 .49 ! .27 .21 -.32 -.09 .53 pert - pert salto con perti ! 43.59 14.33 22.71 14.34 8.15 ! .65 .21 .34 .21 .12 ! .33 .17 .32 .24 .15 java - java lanzamiento de ! 31.94 16.81 -31.87 -5.36 -34.50 ! .51 .27 -.51 -.09 -.55 ! .24 .20 -.44 -.09 -.63 1500 - 1500 1500 metros ! 7.35 50.10 26.06 -27.34 -15.21 ! .11 .75 .39 -.41 -.23 ! .06 .59 .36 -.45 -.28 ----------------------------+------------------------------------+-------------------------------+------------------------------- G1 G2 G3 G4 G5 u1 u2 u3 u4 u5 Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 19 2.6) Correlaciones entre variables y componentes principales. Volviendo al análisis en Rp , recordamos que cada componente principal, U, es una variable artificial, combinación lineal de las p variables originales X1, X2, ... Xp. A la hora de interpretar las CCPP, resulta esclarecedor conocer la correlación de U con cada una de las originales: X1, X2, ... Xp: Las 20 observaciones de la variable Uforman el vector F; su media es cero y su varianza . Las 20 observaciones de la variable Xj forman el vector xj; su media es cero y su varianza muestral Sj2. La covarianza muestral (por n) entre dos variables centradas es simplemente su producto escalar y por tanto, su correlación (por n) será el producto de los correspondientes vectores de observaciones normalizados, (xj / sj ) y (F ): Corr(eje , vble j) = (xj / sj )t (F ) = (xj)t v/ sj = Gj/ sj Ejemplo: La correlación muestral entre la Primera Componente Principal (F1) y la 1ª variable original (100 m), se calcula a partir de las observaciones de ambas sobre los 20 decathletas y vale 0.83: THOMPSON HINGSEN DEGTJARJOV NIKLAUS WENTZ KUELVET STEEN BOREHAM RUEFENACHT KOLOWANON 100 m F1 100 m centrada (centrada) 935 171,3 307.02 817 53,3 222.00 768 4,3 110.03 869 105,3 151.85 787 23,3 91.87 738 -25,7 71.16 763 -0,7 34.55 795 31,3 18.68 903 139,3 59.00 761 -2,7 30.15 BAGINSKI MITRAKIEV HADFIELD GUGLER ZENIOU KUBISZEWSKI LITHELLN CLAVERIE VLASIC STERRER 100 m F1 100 m centrada (centrada) 747 -16,7 -47.83 771 7,3 -54.23 785 21,3 -44.16 657 -106,7 -85.83 696 -67,7 -108.36 724 -39,7 -84.51 712 -51,7 -123.35 756 -7,7 -111.90 622 -141,7 -215.41 668 -95,7 -220.72 Todas estas correlaciones U Xj aparecen en el segundo cuerpo de la tabla de salida SPAD: CORRELATIONS VARIABLE-FACTEUR COORDONNEES DES VARIABLES SUR LES AXES 1 A 5 -----------------------------------------------------------------+-------------------------------+------------------------------VARIABLES | COORDONNEES | CORRELATIONS VARIABLE-FACTEUR | ANCIENS AXES UNITAIRES ----------------------------+------------------------------------+-------------------------------+------------------------------IDEN - LIBELLE COURT | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 ----------------------------+------------------------------------+-------------------------------+------------------------------VARIABLES ACTIVES 100m - 100m 100 metros liso ! 63.14 -32.87 3.29 15.87 -14.45 ! .83 -.43 .04 .21 -.19 ! .47 -.39 .05 .26 -.26 long - long salto de longit ! 43.35 -12.20 36.36 -20.13 10.22 ! .67 -.19 .57 -.31 .16 ! .33 -.14 .51 -.33 .19 peso - peso lanzamiento de ! 41.49 -11.45 -29.30 -34.82 10.71 ! .64 -.18 -.45 -.53 .16 ! .31 -.14 -.41 -.58 .20 altu - altu salto de altura ! 50.46 43.30 -5.28 26.17 4.83 ! .66 .57 -.07 .34 .06 ! .38 .51 -.07 .43 .09 400m - 400m 400 metros liso ! 44.93 -22.64 12.50 -6.25 -13.91 ! .79 -.40 .22 -.11 -.24 ! .34 -.27 .17 -.10 -.25 110v - 110v 110 metros vall ! 36.43 -7.03 -5.86 6.08 6.38 ! .82 -.16 -.13 .14 .14 ! .27 -.08 -.08 .10 .12 disc - disc lanzamiento de ! 35.62 17.89 -22.84 -5.59 28.97 ! .61 .31 -.39 -.10 .49 ! .27 .21 -.32 -.09 .53 pert - pert salto con perti ! 43.59 14.33 22.71 14.34 8.15 ! .65 .21 .34 .21 .12 ! .33 .17 .32 .24 .15 java - java lanzamiento de ! 31.94 16.81 -31.87 -5.36 -34.50 ! .51 .27 -.51 -.09 -.55 ! .24 .20 -.44 -.09 -.63 1500 - 1500 1500 metros ! 7.35 50.10 26.06 -27.34 -15.21 ! .11 .75 .39 -.41 -.23 ! .06 .59 .36 -.45 -.28 ----------------------------+------------------------------------+-------------------------------+------------------------------- 1/Sj Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 20 Es muy importante analizar minuciosamente esta tabla de correlaciones para dar un significado estadístico a cada eje factorial en términos de correlación con las variables originales. Esto da una información muy precisa sobre la asociación lineal entre los ejes y las variables originales; más precisa que la que habíamos obtenido anteriormente a partir sólo de los coeficientes ui . Así, las posiciones de los individuos en un plano factorial nos informan sobre sus características en términos de las variables originales. Ejemplo. Interpretemos los tres primeros ejes factoriales para los datos del Decathlon en términos de las variables originales: * Primera Componente Principal: Correlaciones de F1 con: 100 m. .83 longitud .67 peso .64 altura 400 m. 110m.v. .66 .79 .82 disco .61 pertiga javal. 1500 m. .65 .51 .11 F1 está correlada positivamente con todas las variables salvo 1500m, con valores medio-altos: Por lo tanto, valores altos de F1 van asociados a valores altos de todas las variables, salvo 1500. Los Atletas representados a la derecha en el eje 1, serán atletas con puntuaciones altas en todas las pruebas (muy por encima de la media en esa prueba); atletas a la izquierda en eje 1, puntuaciones bajas en todas las pruebas. El primer factor contrapone los mejores atletas a los peores. Es un factor de calidad global o “tamaño”, muy típico en ACP. * Segunda Componente Principal: Correlaciones de F2 con: 100 m. -.43 longitud -.19 peso altura 400 m. 110m.v. -.18 .57 -.40 -.16 F2 está correlada positivamente con disco .31 pertiga javal. 1500 m. .21 .27 .75 1500 m. altura disco javal. Pértiga … Son pruebas que requieren una especialización muy específica de forma separada y características poco compatibles. F2 está correlada negativamente con 100 m. 400 m. longitud peso 110m.v. … Son pruebas de velocidad-potencia, que se adaptan entrenamientos compatibles y comunes en muchos aspectos. a Así, valores bajos de F2 se asocian (de forma menos fuerte que F1) con valores altos en las pruebas de potencia-velocidad (incluido peso) porque son variables correladas negativamente con F2. Se corresponden también con valores bajos en 1500 y concursos (excluido peso y longitud) dado que son variables correladas positivamente con F2. Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 21 Valores altos de F2 se asocian con valores bajos, muy por debajo de la media, en las pruebas de potencia-velocidad (incluido peso) y con valores altos en 1500 y concursos (salvo peso y longitud). Atletas representados en la zona positiva del eje 2 serán relativamente poco veloces-potentes obteniendo puntuaciones por debajo de la media del grupo en estas pruebas (100 m. 400 m. longitud peso 110m.v) y mejores que la media en pruebas de especializción específica (1500 m. altura disco javal. Pértiga ); … por el otro lado, en la zona negativa del eje 2, aparecerán atletas mejor preparados que la media en pruebas de velocidadpotencia y peor que la media en las mencionadas pruebas de especialización específica. * Tercera Componente Principal: Correlaciones de F3 con: 100 m. .04 longitud .57 peso altura -.45 -.07 400 m. 110m.v. disco .22 -.13 -.39 .34 F3 está correlada positivamente con F3 está correlada negativamente con pertiga javal. 1500 m. -.51 .39 longitud 1500 m. pértiga javal. peso disco Valores altos de F3 se asocian (de forma más débil que F1 y F2) con valores altos en alguna de las pruebas longitud 1500 m. pértiga y con puntuaciones bajas en javal. peso disco. Valores bajos de F3 van asociados con valores bajos en alguna de las pruebas longitud 1500 m. pértiga y con valores altos en javal. peso disco. Atletas representados en la zona positiva del eje 3 serán mejores que la media en las pruebas longitud 1500 m. pértiga y peores en javal. peso disco; … atletas en la zona negativa del eje 3, serán atletas mejores que la media en javal. peso disco y peor adaptados que la media en las mencionadas pruebas de longitud 1500 m. pértiga. Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 22 Resumen de la sección 2.6: 1º Debemos localizar las variables más correladas con cada eje factorial (en sentido positivo y negativo). 2º Debemos identificar los individuos con puntuaciones extremas sobre cada eje factorial (en ambas direcciones: + y -), estén bien representados o no. 3º Extraemos información sobre puntuaciones altas/bajas de los individuos en las variables originales: De una manera global: En cada eje factorial, los individuos aparecen ordenados en sentido creciente de las variables originales que estén fuertemente correladas con él en sentido positivo y en sentido decreciente de las variables originales que estén fuertemente correladas con él en sentido negativo a) los individuos con puntuación más alta en un eje , presentarán simultáneamente los valores más altos en las variables originales que estén muy correladas positivamente con el eje … … y los valores más bajos en las variables muy correladas con él en sentido negativo, b) mientras que los individuos con puntuación más baja en un eje , presentarán simultáneamente los valores más bajos en las variables originales que estén muy correladas positivamente con el eje … … y los valores más altos en las variables muy correladas con él en sentido negativo. …aunque al estar basándonos en correlaciones pueden aparecer individuos que supongan excepciones puntuales. 4º Confirmamos finalmente sobre los datos originales nuestras sospechas y anotamos las conclusiones. Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 23 2.7) Contribuciones Para este análisis en Rn de los puntos-variable, las expresiones generales de las c.a. y c.r., teniendo en cuenta las relaciones ya estudiadas, se convierten en: c.a. ( j ) = Gj 2/ = uj2 c.r. ( j ) = Gj 2 / Sj2 = corr 2 (eje , vble j) Son cuadrados de los valores que ya hemos visto en la tabla de salida SPAD y tienen poco interés práctico. 2.8) Gráficos Presentamos a continuación los gráficos de este segundo análisis y finalmente la representación simultánea de los planos factoriales de ambos análisis. Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 points=con, x=vec 1, y=vec 2 COMMANDE 4 ----------NOMBRE DE POINTS A REPRESENTER : NOMBRE DE POINTS REPRESENTES : 10 10 AXE 1 * AXE 2 AXE 2 48 42 36 30 24 18 12 6 0 -6 -12 -18 -24 -30 ----------1500--------------------------------------------------------------------------------------------| | + | | | | | | | | altu | | | + | | | | | | | | | | | + | | | | | | | | | | | + | | | | | | | | | | | + | | | | | | | | | | | + disc | | java | | | | | | pert | | | + | | | | | | | | | | | + | | | | | | | | | | | +-----------------------------------------------------------------------------------------------------------| | | | | | | | | | | + | | 110v | | | | | | | | peso | + long | | | | | | | | | | | + | | | | | | | | 400m | | | + | | | | | | | | | | | + | | | | | +-------------------+-------------------+-------------------+-------------------+-------------------+------100m 0 12 24 36 48 60 AXE 1 24 Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 COMMANDE 5 ----------- points=con, x=vec 1, y=vec 2 select=cos2>0.70 NOMBRE DE POINTS A REPRESENTER : 10 LISTE DES POINTS DE COSINUS CARRE INFERIEUR A 1500 long pert disc peso java NOMBRE DE POINTS REPRESENTES : .700 DANS L'ESPACE DES AXES 1 A 2 4 AXE 1 * AXE 2 AXE 2 42 36 30 24 18 12 6 0 -6 -12 -18 -24 -30 ----------------------------------------------------------------------------------altu--------------------+ | | | | | | | | | | | + | | | | | | | | | | | + | | | | | | | | | | | + | | | | | | | | | | | + | | | | | | | | | | | + | | | | | | | | | | | + | | | | | | | | | | | +-----------------------------------------------------------------------------------------------------------| | | | | | | | | | | + | | 110v | | | | | | | | | + | | | | | | | | | | | + | | | | | | | | 400m | | | + | | | | | | | | | | | + | | | | | +-------------------+-------------------+-------------------+-------------------+-------------------+------100m 0 12 24 36 48 60 AXE 1 25 Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 26 Representación simultánea de los dos análisis COMMANDE 6 ----------- points=ind+con, x=vec 1 NOMBRE DE POINTS A REPRESENTER : 30 TRAITEMENT DES POINTS A PLUS DE 2.30 ECARTS-TYPES DU CENTRE -----------------------------------------------------------POINTS ELOIGNES : +--------------------------+----------+----------+ | IDENTIFICATEUR | ABSCISSE | ORDONNEE | +--------------------------+----------+----------+ | THOM | 307.025 | -54.446 | +--------------------------+----------+----------+ 1 POINTS ONT ETE RAMENES SUR LE BORD DU GRAPHIQUE. NOMBRE DE POINTS REPRESENTES : ---------------------------- 30 POINTS MULTIPLES -------------------------+-----------+-----------+--------+-----------------------------------------------------------------------------| ABSCISSE | ORDONNEE | NB. DE | POINT VU | APPROCHEE | APPROCHEE | CACHES | POINTS CACHES ----------+-----------+-----------+--------+-----------------------------------------------------------------------------disc ! 30.48 ! 19.23 ! 1 ! java peso ! 45.71 ! -11.54 ! 1 ! long ----------+-----------+-----------+--------+-----------------------------------------------------------------------------2 POINTS MULTIPLES, 2 POINTS CACHES AXE 1 * AXE 2 AXE 2 --------------------------------------------------------------------------KUEL----DEGT----------------------------| GUGL | | | | STEE | | | | | | | | | | | | | | | | 60 + | | | | | VLAS BAGI 1500 | | | altu | | MITR | BORE | | | | STER | HING | | disc | | | KOLOpert WENT | | ZENI | | 0 +-------------------------------------------------------+-----------------------------------------------------------| | | 110v | | KUBI | peso | | | | | | 400m | | | 100m | | | | | | THOM | | | | | | -60 + | | | | | | | | | | | | | | | | | | | NIKL | | | | | | | | LITH | | -120 + | | | | | | | RUEF | -------+---------------+--CLAV---------+--HADF---------+---------------+---------------+---------------+-----------180 -120 -60 0 60 120 180 AXE 1 Análisis Componentes Principales / ACP2 El ACP de la matriz de Covarianzas. Análisis en Rn 08.10.15 27 2.9) Antiguos ejes del análisis en Rp El vector unitario ei del eje original j se proyecta sobre los nuevos ejes factoriales. La coordenada de ej en la dirección u es: ejtu =( 0 0 … 1 … 0)u = u j = Gj/ La posición de cada antiguo eje ej en un plano factorial nos da la dirección de crecimiento de esta variable. Su tamaño nos indica la magnitud del cambio. Por ejemplo, el vector (uj , uj) nos indica en el plano factorial 1-2, hacia dónde y cuánto se desplazaría la posición de un individuo si aumentase un punto en la variable original j (puntuación de 100m en el ejemplo). Nota: No confundir la dirección de crecimiento de una variable (análisis en Rp) con la posición del punto variable en el plano factorial (análisis en Rn). El punto-variable xj del segundo análisis se proyecta sobre los diferentes ejes principales de Rn v1 … vp dando lugar a las coordenadas G1j, G2j, … Gpj Por otro lado, en el primer análisis, la dirección de crecimiento de la variable j es la del vector ej=( 0 0 … 1 … 0). Veamos cuál es esta dirección de crecimiento de la variable j al representarla en los diferentes planos factoriales. Este punto, esta dirección de crecimiento, se proyecta sobre las direcciones principales de Rp y sus coordenadas son, según acabamos de ver: u1j, u2j, … upj Las relaciones u j = G j/ muestran que la dirección que marca un punto-variable proyectado en un plano factorial del 2º análisis (G1j, G2j) difiere de la dirección de crecimiento de esa variable original, (uj , uj) Posición de la variable j en el plano 1-2: (G1j, G2j) = ( 1 uj , 2 uj) cuando 1≈ 2 , entonces la dirección (G1j, G2j) se parece a (uj , uj) … Sólo en el caso de un plano factorial formado por dos ejes con valores propios similares, las direcciones de los puntos-variable me darán con precisión aceptable las direcciones (y magnitudes relativas) de crecimiento de las variables en el plano factorial. El ACP de la matriz de Covarianzas. Análisis en Rn Análisis Componentes Principales / ACP2 08.10.15 28 2.10) Reconstrucción de datos Los datos originales pueden reconstruirse a partir de las Componentes Principales (éstas aparecen mediante un giro de ejes, que puede deshacerse). La reconstrucción será perfecta si utilizamos todas ellas (p) y será aproximada si utilizamos solamente las q primeras (q<p). Perderemos información, pero a cambio ganaremos simplicidad y reduciremos espacio de almacenamiento, lo cual resulta determinante en ocasiones (ejemplo de las imágenes de caras, q<<p). Veamos: A partir de las relaciones de transición tenemos que F= X u = v(para cada =1…n) postmultiplicando por ut: sumando en X p uu t = p X = 1 p vu t … pero 1 1 luego vu t (para cada =1…n) X uu t = p vu t = Fu t 1 p uu t =U Ut = I 1 reconstrucción perfecta. Es decir, reconstruimos X a partir de los p factores calculados F y los p autovectores u. Esta reconstrucción es perfecta. Tomando ahora la información de sólo las q primeras Componentes Principales, tendremos una reconstrucción aproximada de X: * q X X= 1 t q vu = Fu t 1 reconstrucción aproximada. Se han despreciado los factores q+1 … p. En la reconstrucción éstos aparecen afectados por , que serán pequeños (ver el sumatorio). La calidad de esta reconstrucción aproximada, viene dada por la proporción de inercia que recogen las q primeras CCPP utilizadas: q = 100 (1 + 2 + … +q) / Io 100 de las 5000 imágenes originales y su reconstrucción a partir de las 100 primeras CCPP Análisis Componentes Principales / ACP2 ACP Normado: El ACP de la Matiz de Correlaciones. 08.10.15 29 2.11) En resumen: Formulario Teórico ACP/ Análisis en Rp y análisis en Rn. Relaciones. AF Puntos a estudiar: (filas de la matriz X) Matriz de Datos: X Pesos: Iguales Métrica: Euclídea habitual Matriz a diagonalizar: S= Xt X Soluciones: v.v.p.p. Relaciones: Factores calculados: Xu (nuevas coordenadas) Relaciones: ACP 1) Análisis en Rp x1, x2, … ,xn filas de la matriz X de desviaciones (puntuaciones centradas) X ACP 2) Análisis en Rn x1, x2, … ,xp filas de la matriz transpuesta Xt = columnas de la matriz X Xt I I I I Sp = XtX = matriz de Covarianzas Sn = X Xt Ejes: v1 v2 ... vp vp+1 vp+2 … Inercias: 1 2 ... p 0 0 … Ejes: u1 u2 ... up Inercias: 1 2 ... p = = 1 ... p G= Xt v = 1 ... p F= X u = 1 ... p u= 1 Gv= 1 F Contribuciones Absolutas c.a. (i) = 100 Fi 2 / c.a. (j) = Gj 2 / = uj 2 Contribuciones Relativas c.r. (i) = Fi 2 / d2(0,xi) c.r.(j)= Gj 2 / d2(0,xj)= corr 2(eje , vble j) Análisis Componentes Principales / ACP2 ACP Normado: El ACP de la Matiz de Correlaciones. 08.10.15 2.12) Lista de tareas básicas en un ACP: 1.- Elijo una de las dos opciones posibles: a) igualar las varianzas (ACP Normado, que se estudiará después). b) respetar las escalas de medida originales (ACP de la m. de covarianzas) 2.- Analizo los valores propios: Elijo el nº apropiado de ejes. 3.- Analizo la nube de individuos: - Identifico individuos responsables de la aparición de cada eje - dist0; - Analizo proximidades/separaciones entre individuos, la existencia de grupos... (tener en cuenta las c.r.) detecto individuos alejados. decido qué hacer con ellos ¿Eliminarlos y pasar otro ACP? 4.- Analizo la nube de variables: - estructura de correlaciones entre las variables originales: + variables correladas: puntos-variable alineados. + variables incorreladas: puntos-variable perpendiculares (tener en cuenta las c.r.) 5.- Relaciono los dos análisis: - Interpreto cada eje principal: + coeficientes que definen cada componente principal. + correlaciones de las C.P. con las variables originales. - Identifico individuos alejados en cada eje deduciendo sus características en términos de las variables originales. - Direcciones intermedias e individuos alejados en ellas; dirección de crecimiento de cada variable original. 30 Análisis Componentes Principales / ACP2 ACP Normado: El ACP de la Matiz de Correlaciones. ÍNDICE 08.10.15 31 página ACP de la matriz de Covarianzas Nube de individuos. 1) Análisis en Rp: AF de las filas de X. 1.1) Nube. 1.2) Métrica I (Euclídea unitaria). 1.3) Primer Factor Calculado. 1.4) Peso de cada punto: todos iguales. 1.5) Matriz a diagonalizar: XtX. 1.7) Inercia. 1.8) Factores calculados. 1.9) Contribuciones absolutas. 1.10) Contribuciones relativas. 1.11) Gráficos. 1.12) En resumen: Formulario Teórico. 3 3 3 6 6 7 7 8 8 9 10 12 Nube de variables. 13 2) Análisis en Rn: AF de las filas de Xt (col. de X). 2.1) La Nube de puntos-variable. 13 14 2.1.1) El c. de g. de la nube (centro de gravedad): Gn 2.1.2) Algunas disposiciones especiales. 15 2.2) Métrica: I (Euclídea unitaria). 16 2.3) Peso de cada punto: Todos iguales. 17 t 17 2.4) Matriz a diagonalizar: XX . 2.5) Relaciones de transición. 17 2.6) Correlación variables-componentes principales. 19 2.7) Contribuciones. 23 2.8) Gráficos. 23 p 27 2.9) Antiguos ejes del análisis en R . 2.10) Reconstrucción de la matriz de datos 28 2.11) En resumen: Formulario Teórico 29 2.12) Lista de tareas básicas en un ACP. 30