Análisis Componentes Principales / ACP5 ACP Normado. El ACP de la Matiz de Correlaciones. 08/10/15 1 ACP Normado (ACP de la matriz de correlaciones) El ACP Normado, es un AF que se aplica a una tabla de (n individuos) x (p variables cuantitativas centradas y normadas). 5.1) Introducción. 1 Los resultados de un ACP (valores y vectores propios de la matriz de covarianzas, correlaciones con las variables originales…) dependen muy fuertemente de la escala que utilizo para medir cada variable: Cuanto menor sea la unidad de medida de una variable Xj mayor será la dispersión de las observaciones, Sj2. la nube de puntos más se alarga en la dirección de esa coordenada. el primer eje factorial más se acercará a este eje y mayor será la participación de esa variable Xj en la 1ª Componente Principal. Fig. 1 Un cambio de escala en la variable 1 altera la dirección del primer eje factorial. 2 La elección de unidades es por lo general una cuestión arbitraria, metros/ milímetros/ pulgadas/ kilómetros/ millas / … grados centígrados/ grados Farenhait/ grados Kelvin / … y como consecuencia de esta elección arbitraria, cada variable influirá más o menos en el ACP (la influencia es proporcional a su varianza). 3 Por lo general, lo más apropiado es dar la misma importancia a todas las variables eliminando el efecto arbitrario de la escala, de forma que todas participen por igual en la definición de los ejes factoriales. Esto se consigue igualando las varianzas de las p variables: Estandarizado (Var Xj=1) ó Normado (Var Xj =1/n). 4 Salvo que por alguna razón decida mantener la variabilidad Sj de cada variable, Normalizaré cada variable antes de aplicar los AF a las dos nubes (la de puntos-individuo y la de puntos-variable). 5 Este ACP sobre variables normadas se denomina ACP Normado. Análisis Componentes Principales / ACP5 ACP Normado. El ACP de la Matiz de Correlaciones. 08/10/15 2 5.2) Centrado y Normado de variables. Tabla R de las medidas originales de n individuos observados sobre p variables cuantitativas X1, X2, ... Xp: R= Ejemplo: Decathlon de Götziz. PUNTUACIONES __________________________Variables _________________________ 100 m. longitud peso altura 400 m. 110m.v. disco pértiga javal 1500 --------------------------------------------------------------------1 THOMPSON 935 1010 807 925 955 926 769 1028 767 585 2 HINGSEN 817 1004 844 950 905 901 781 957 738 632 3 DEGTJARJOV 768 893 759 900 825 859 868 981 732 662 4 NIKLAUS 869 867 802 874 915 856 804 884 857 448 5 WENTZ 787 871 781 874 878 880 782 884 807 592 6 KUELVET 738 814 700 950 848 850 870 957 764 569 7 STEEN 763 887 604 900 862 839 709 1005 753 658 8 BOREHAM 795 853 701 874 890 841 680 859 772 670 9 RUEFENACHT 903 818 700 849 877 919 718 884 716 460 10 KOLOWANON 761 846 728 900 765 881 781 981 714 485 11 BAGINSKI 747 796 682 849 792 800 746 932 767 564 12 MITRAKIEV 771 824 668 874 802 840 704 859 710 609 13 HADFIELD 785 911 728 680 878 805 709 884 747 527 14 GUGLER 657 810 698 849 773 820 746 909 771 612 15 ZENIOU 696 774 765 725 785 791 706 932 795 578 16 KUBISZEWSKI 724 746 763 849 785 870 724 807 760 509 17 LITHELLN 712 875 754 725 829 838 762 807 585 516 18 CLAVERIE 756 873 624 725 863 815 655 957 620 474 19 VLASIC 622 820 673 769 759 786 698 807 695 619 20 STERRER 668 834 601 849 753 751 655 807 642 551 --------------------------------------------------------------------------------------MEDIAS 763,7 856,3 719,1 844,5 837 843,4 743,4 906,1 735,6 566 DESV.TIPICAS 77,9 65,9 66,9 78,5 58,5 45,4 60,1 69,1 64,0 68,2 Bajo la tabla R tenemos la media y desviación típica muestral Sj de cada variable (j=1..p). Éstas oscilan entre 45,4 y 78,5. Al estandarizar, transformamos cada puntuación original rij en xij= ( rij – r j )/ Sj. El nuevo valor xij representa para el atleta i su desviación respecto a la puntuación media en la prueba j, pero estandarizada, es decir, expresada en desviaciones típicas: x11= (935-763,7) / 77,9 = + 2,2 desviaciones típicas Thompson puntúa en 100m 2,2 desviaciones típicas por encima de la media del grupo Análisis Componentes Principales / ACP5 ACP Normado. El ACP de la Matiz de Correlaciones. 08/10/15 3 Tabla X de desviaciones a la media estandarizadas: Las desviaciones están ahora expresadas en desviaciones típicas. DESVIACIONES NORMADAS __________________Variables 100 m. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 THOMPSON HINGSEN DEGTJARJOV NIKLAUS WENTZ KUELVET STEEN BOREHAM RUEFENACHT KOLOWANON BAGINSKI MITRAKIEV HADFIELD GUGLER ZENIOU KUBISZEWSKI LITHELLN CLAVERIE VLASIC STERRER 2,2 0,7 0,1 1,4 0,3 -0,3 0,0 0,4 1,8 0,0 -0,2 0,1 0,3 -1,4 -0,9 -0,5 -0,7 -0,1 -1,8 -1,2 longitud 2,3 2,2 0,6 0,2 0,2 -0,6 0,5 -0,1 -0,6 -0,2 -0,9 -0,5 0,8 -0,7 -1,2 -1,7 0,3 0,3 -0,6 -0,3 peso 1,3 1,9 0,6 1,2 0,9 -0,3 -1,7 -0,3 -0,3 0,1 -0,6 -0,8 0,1 -0,3 0,7 0,7 0,5 -1,4 -0,7 -1,8 altura 400m. 1,0 1,3 0,7 0,4 0,4 1,3 0,7 0,4 0,1 0,7 0,1 0,4 -2,1 0,1 -1,5 0,1 -1,5 -1,5 -1,0 0,1 2,0 1,2 -0,2 1,3 0,7 0,2 0,4 0,9 0,7 -1,2 -0,8 -0,6 0,7 -1,1 -0,9 -0,9 -0,1 0,4 -1,3 -1,4 ______________________ 110mv. disco pértiga javal 1,8 1,3 0,3 0,3 0,8 0,1 -0,1 -0,1 1,7 0,8 -1,0 -0,1 -0,8 -0,5 -1,2 0,6 -0,1 -0,6 -1,3 -2,0 0,4 0,6 2,1 1,0 0,6 2,1 -0,6 -1,1 -0,4 0,6 0,0 -0,7 -0,6 0,0 -0,6 -0,3 0,3 -1,5 -0,8 -1,5 1,8 0,7 1,1 -0,3 -0,3 0,7 1,4 -0,7 -0,3 1,1 0,4 -0,7 -0,3 0,0 0,4 -1,4 -1,4 0,7 -1,4 -1,4 0,5 0,0 -0,1 1,9 1,1 0,4 0,3 0,6 -0,3 -0,3 0,5 -0,4 0,2 0,6 0,9 0,4 -2,4 -1,8 -0,6 -1,5 __ 1500 0,3 1,0 1,4 -1,7 0,4 0,0 1,3 1,5 -1,6 -1,2 0,0 0,6 -0,6 0,7 0,2 -0,8 -0,7 -1,3 0,8 -0,2 -------------------------------------------------------------------------------------------MEDIAS 0 0 0 0 0 0 0 0 0 0 DESV.TIPICAS todas iguales Las medias son ahora todas 0 y las varianzas son iguales: pueden ser todas 1, 100 ó 1/n… Esquema de la operación de centrado y normado de la nube de puntos: 1º) Resto la media y 2º) divido por la desviación típica: Análisis Componentes Principales / ACP5 ACP Normado. El ACP de la Matiz de Correlaciones. 08/10/15 4 5.2.1.- Efecto geométrico sobre la nube de puntos-individuo (en Rp): La nube de puntos-individuo está ahora centrada … y la dispersión es la misma en todas las coordenadas. 5.2.2.- Efecto geométrico sobre la nube de puntos-variable (en Rn): Cada punto-variable verifica: tiene norma 1, o sea, se encuentra a distancia 1 del origen: “Descansa sobre la superficie de la esfera unidad de Rn.” sus componentes suman 0, o sea, es perpendicular al vector 1n. Está en una hiperesfera, que se denomina “esfera de correlaciones”, pues sobre ella, Corr(x,y)=xty. 5.2.2.-Consecuencias de la operación de homogeneizado de varianzas: Las varianzas Sj2 en el ACP Normado son todas iguales (Sj2=1/n; j cuando normamos) y con ello, las expresiones generales del ACP adquieren formas especiales y muy interesantes. Aparecen algunas diferencias de interpretación respecto al ACP sin Normar, sobre todo en cuestiones relativas al 2º análisis (análisis de la nube de puntos-variable). Vamos a verlo a continuación en 5.3): Análisis Componentes Principales / ACP5 ACP Normado. El ACP de la Matiz de Correlaciones. 08/10/15 5 5.3) Peculiaridades del ACP Normado. 5.3.1) La matriz a diagonalizar XtX: En el ACP normado es la matriz de correlaciones en lugar de la de covarianzas. En el ejemplo: XtX | 100m long peso altu 400m 110v disc pert java 1500 -----+---------------------------------------------------------------------100m | 1.00 long | .56 1.00 peso | .44 .40 1.00 altu | .37 .25 .20 1.00 400m | .84 .72 .45 .24 1.00 110v | .77 .45 .60 .56 .61 1.00 disc | .25 .22 .57 .53 .22 .48 1.00 pert | .43 .48 .14 .42 .39 .40 .41 1.00 java | .34 -.04 .45 .39 .31 .27 .36 .27 1.00 1500 | -.23 .21 -.05 .33 -.02 -.10 .07 .19 .17 1.00 -----+---------------------------------------------------------------------| 100m long peso altu 400m 110v disc pert java 1500 5.3.2) La inercia de la nube: I0 = nS12 + nS22 + … + nSp2 = 1+1+…+1= p (número de variables) Ahora I0 valdrá p (nº de variables), puesto que cada uno de los p puntos-variable dista 1 del origen. Todas las variables aportan ahora la misma inercia, 1 (Sj2=1 j). Será p también la suma de valores propios de la matriz de correlaciones; era la inercia recogida por el eje. 1 + 2 + … + p =I0 = p HISTOGRAMME DES 10 PREMIERES VALEURS PROPRES -------------------------------------------+--------+------------+----------+----------+----------------------------------------------------------------------------------+ | NUMERO | VALEUR | POURCENT.| POURCENT.| | | | PROPRE | | CUMULE | | +--------+------------+----------+----------+----------------------------------------------------------------------------------+ | 1 | 4.3750 | 43.75 | 43.75 | ******************************************************************************** | | 2 | 1.5526 | 15.53 | 59.28 | ***************************** | | 3 | 1.2680 | 12.68 | 71.96 | ************************ | | 4 | .8137 | 8.14 | 80.09 | *************** | | 5 | .7838 | 7.84 | 87.93 | *************** | | 6 | .6122 | 6.12 | 94.05 | ************ | | 7 | .2833 | 2.83 | 96.89 | ****** | | 8 | .1938 | 1.94 | 98.82 | **** | | 9 | .0713 | .71 | 99.54 | ** | | 10 | .0463 | .46 | 100.00 | * | +--------+------------+----------+----------+----------------------------------------------------------------------------------+ Como el promedio de inercia por eje vale I0/p=1, en principio seleccionaremos los ejes con autovalor mayor que 1. Análisis Componentes Principales / ACP5 ACP Normado. El ACP de la Matiz de Correlaciones. 08/10/15 6 5.3.3) Distancias en el espacio de puntos-variable. Todos los puntos están a distancia 1 del origen (esfera de radio 1) d2(xj, 0)= (xj - 0)t I (xj - 0) = i=1…n xij 2 = 1 Las distancias entre puntos-variable tienen relación con las correlaciones maestrales entre variables: d2(xj, xj’)= (xj - xj’)t I (xj - xj’) = = i=1…n (xij- xij’)2 = = i xij2 + i xij’2- 2i xij xij’ = = Var(j) + Var(j’) – 2 Cov(j,j’) = = 1+1- 2Corr(j,j’) = 2(1-jj’) d2(xj, xj’)= 2(1-jj’) Esta relación nos dice que las posiciones relativas de los puntosvariable en esta “esfera de correlaciones” de Rn, me informan sobre sus correlaciones: Puntos coincidentes correlación 1 en efecto: 0= d2(xj, xj’)= 2(1-jj’) jj’= 1 Puntos diametralmente opuestos correlación -1 4= d2(xj, xj’)= 2(1-jj’) jj’= -1 Puntos en ángulo recto correlación 0 2= d2(xj, xj’)= 2(1-jj’) jj’= 0 Pero…por desgracia no es posible “ver” puntos en Rn. Tendremos que recurrir a los planos factoriales, que me ofrecen representaciones planas (proyecciones) de esta nube de puntos-variable (recordemos, esta nube descansa sobre la esfera de correlaciones). En estos planos factoriales obtengo una información parcial de las posiciones de los puntos-variable en la esfera de correlaciones. Análisis Componentes Principales / ACP5 ACP Normado. El ACP de la Matiz de Correlaciones. 08/10/15 7 5.3.4) Correlación variables-componentes principales; contribuciones. En el ACP sin Normar teníamos que Corr(eje , vble j) = Gj/ Sj Sustituyendo Sj =1, en el ACP Normado la relación queda: Corr(eje , vble j) = Gj Es decir que la proyección de un punto-variable sobre un eje factorial da directamente la correlación de la variable con el factor (lo mismo ocurre con cualquier otra dirección intermedia, aunque no sea un eje factorial). Además, su cuadrado era la contribución relativa: La relación que aparecía en el ACP c.r. ( j ) = Gj 2 / Sj2 = corr 2 (eje , vble j) se convierte ahora en c.r. ( j ) = Gj 2 = corr 2 (eje , vble j) Esto simplifica enormemente dos tareas importantes en el ACP: Tarea 1) la búsqueda de las variables más correladas con un eje: serán simplemente las variables más alejadas del origen, pues su coordenada es la correlación con ese eje; tendrán correlación tanto más alta con el eje cuanto más se aproxime esta coordenada a ±1. Tarea 2) la búsqueda de las variables bien representadas en un eje o plano factorial: serán simplemente las variables próximas a la circunferencia de radio 1. COORDONNEES DES VARIABLES SUR LES AXES 1 A 5 -------------------------------------------------------------------------------------------------------------------------------------------------------------+------------------------------------+-------------------------------+------------------------------VARIABLES | COORDONNEES | CORRELATIONS VARIABLE-FACTEUR | ANCIENS AXES UNITAIRES ----------------------------+------------------------------------+-------------------------------+------------------------------IDEN - LIBELLE COURT | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 ----------------------------+------------------------------------+-------------------------------+------------------------------VARIABLES ACTIVES | | | 100m - 100m 100 metros liso ! .83 -.41 .00 -.07 .28 ! .83 -.41 .00 -.07 .28 ! .40 -.33 .00 -.07 .32 long - long salto de longit ! .67 -.25 .56 .16 -.30 ! .67 -.25 .56 .16 -.30 ! .32 -.20 .49 .18 -.33 peso - peso lanzamiento de ! .68 -.05 -.44 .37 -.39 ! .68 -.05 -.44 .37 -.39 ! .32 -.04 -.39 .41 -.44 altu - altu salto de altura ! .62 .54 .05 -.34 .12 ! .62 .54 .05 -.34 .12 ! .30 .43 .04 -.38 .14 400m - 400m 400 metros liso ! .80 -.39 .20 .23 .16 ! .80 -.39 .20 .23 .16 ! .38 -.32 .18 .26 .18 110v - 110v 110 metros vall ! .85 -.14 -.15 -.23 -.05 ! .85 -.14 -.15 -.23 -.05 ! .41 -.11 -.13 -.25 -.05 disc - disc lanzamiento de ! .62 .41 -.34 -.20 -.41 ! .62 .41 -.34 -.20 -.41 ! .30 .33 -.30 -.22 -.46 pert - pert salto con perti ! .62 .22 .37 -.30 .13 ! .62 .22 .37 -.30 .13 ! .30 .17 .33 -.33 .15 java - java lanzamiento de ! .50 .40 -.40 .38 .49 ! .50 .40 -.40 .38 .49 ! .24 .32 -.36 .42 .55 1500 - 1500 1500 metros ! .08 .69 .54 .38 -.06 ! .08 .69 .54 .38 -.06 ! .04 .55 .48 .43 -.07 ----------------------------+------------------------------------+-------------------------------+------------------------------- ===== Análisis Componentes Principales / ACP5 ACP Normado. El ACP de la Matiz de Correlaciones. 08/10/15 AXE 1 * AXE 2 AXE 2 --------------------------------------------------------------------------KUEL--------DEGT------------------------| | | | GUGL | | | | | | | | | | | | | | | | STEE | 1 + | | | BAGI | | | | | | 1500 | | VLAS | | | ZENI | altu | | | disc WENT | | MITR | BOREKOLO | | | pert HING | | | 0 +------------------------------------------KUBI-------------+-------------------------------------------------------| STER | peso | | | | | | long | | | 400m | | | | | | | | | THOM | | | | | NIKL | -1 + | | | | | | | | | | | | | | | | | | | | | | | | LITH HADF | | | | | -2 +-----------+---------------+------CLAV-----+---------------+--------------RUEF-------------+---------------+-------3 -2 -1 0 1 2 3 AXE 1 AXE 1 * AXE 3 AXE 3 ------------------------------CLAV----------------------------STEE------------------------------------------------| | | | | | | | | 1 + | HING STER | BORE THOM | | | | | | | | | | 1500 long | | MITR | DEGT | | | pert | | VLAS HADF | 400m | | | | 0 +-----------------------------------------------------------+------altu100m-----------------------------------------| | | | | LITHGUGL | 110v | | BAGI | disc | | | javapeso | | | | | | | | | KOLO KUEL WENT | | | | | ZENI | RUEF | -1 + | | | | | | | | | | | | | | | | | | | | | | | | | | | | | -2 + | | -----------+---------------+--------------KUBI-------------+---------------+---------------+------NIKL-----+-------3 -2 -1 0 1 2 3 AXE 1 8 Análisis Componentes Principales / ACP5 ACP Normado. El ACP de la Matiz de Correlaciones. 08/10/15 9 5.3.5) Resumen de diferencias en la interpretación de gráficos y tablas: 5.3.5.1) Análisis de puntos-variable: Una variable original, muy correlada (+) con un factor principal , tiene en el eje coordenada próxima a +1. Una variable original, muy correlada (-) con un factor principal , tiene en el eje coordenada próxima a -1. Una variable original, incorrelada con un factor principal tiene en el eje coordenada 0. Los puntos bien representados en un plano aparecen próximos a la circunferencia 1. Por tanto: Puntos variable próximos en el plano y cerca del borde de la circunferencia1 correlación muy alta positiva. Puntos variable diametralmente opuestos en el plano y cerca del borde de la circunferencia1 correlación muy alta negativa. Puntos variable formando ángulo de 90º en el plano y cerca del borde de la circunferencia1 correlación muy baja. 5.3.5.2) Análisis de puntos-individuo: La misma interpretación que hacíamos en el ACP sin normar. 5.3.5.3) Análisis de la representación conjunta de las dos nubes: También es igual, con la ventaja de que la interpretación de los ejes es mucho más sencilla en el ACP Normado. No hace falta estudiar las tablas de correlaciones variables-factor, pues es suficiente observar la posición de los puntos variable en los planos factoriales y su proximidad a la circunferencia de radio 1. 5.3.5.4) Direcciones intermedias: Un punto-variable xj que se proyecte en un plano factorial cerca de la circunferencia unidad, define una dirección “intermedia” en ese plano más interesante aún que los propios ejes factoriales. En esa dirección “veo” la puntuación de los diferentes individuos para una variable artificial (mezcla de U1 y U2), que está muy correlada con xj. Individuos alejados en esa dirección del plano, tendrán puntuación alta en la variable j. Individuos alejados en dirección contraria, tendrán puntuación baja en la variable j.