ACP Normado (ACP de la matriz de correlaciones)

Anuncio
Análisis Componentes Principales / ACP5
ACP Normado. El ACP de la Matiz de Correlaciones.
08/10/15
1
ACP Normado (ACP de la matriz de correlaciones)
El ACP Normado, es un AF que se aplica a una tabla de
(n individuos) x (p variables cuantitativas centradas y normadas).
5.1) Introducción.
1
Los resultados de un ACP (valores y vectores propios de la matriz de
covarianzas, correlaciones con las variables originales…) dependen muy
fuertemente de la escala que utilizo para medir cada variable:
Cuanto menor sea la unidad de medida de una variable Xj
 mayor será la dispersión de las observaciones, Sj2.
 la nube de puntos más se alarga en la dirección de esa coordenada.
 el primer eje factorial más se acercará a este eje y mayor será la
participación de esa variable Xj en la 1ª Componente Principal.
Fig. 1 Un cambio de escala en la variable 1 altera la dirección del primer eje factorial.
2
La elección de unidades es por lo general una cuestión arbitraria,
metros/ milímetros/ pulgadas/ kilómetros/ millas / …
grados centígrados/ grados Farenhait/ grados Kelvin / …
y como consecuencia de esta elección arbitraria, cada variable influirá más
o menos en el ACP (la influencia es proporcional a su varianza).
3
Por lo general, lo más apropiado es dar la misma importancia a todas
las variables eliminando el efecto arbitrario de la escala, de forma que todas
participen por igual en la definición de los ejes factoriales. Esto se consigue
igualando las varianzas de las p variables:
Estandarizado (Var Xj=1) ó Normado (Var Xj =1/n).
4
Salvo que por alguna razón decida mantener la variabilidad Sj de
cada variable, Normalizaré cada variable antes de aplicar los AF a las
dos nubes (la de puntos-individuo y la de puntos-variable).
5
Este ACP sobre variables normadas se denomina ACP Normado.
Análisis Componentes Principales / ACP5
ACP Normado. El ACP de la Matiz de Correlaciones.
08/10/15
2
5.2) Centrado y Normado de variables.
Tabla R de las medidas originales de n individuos observados
sobre p variables cuantitativas X1, X2, ... Xp:
R=
Ejemplo: Decathlon de Götziz.
PUNTUACIONES
__________________________Variables
_________________________
100 m. longitud peso altura 400 m. 110m.v. disco pértiga javal 1500
--------------------------------------------------------------------1
THOMPSON
935
1010
807
925
955
926
769
1028
767
585
2
HINGSEN
817
1004
844
950
905
901
781
957
738
632
3
DEGTJARJOV
768
893
759
900
825
859
868
981
732
662
4
NIKLAUS
869
867
802
874
915
856
804
884
857
448
5
WENTZ
787
871
781
874
878
880
782
884
807
592
6
KUELVET
738
814
700
950
848
850
870
957
764
569
7
STEEN
763
887
604
900
862
839
709
1005
753
658
8
BOREHAM
795
853
701
874
890
841
680
859
772
670
9
RUEFENACHT
903
818
700
849
877
919
718
884
716
460
10
KOLOWANON
761
846
728
900
765
881
781
981
714
485
11
BAGINSKI
747
796
682
849
792
800
746
932
767
564
12
MITRAKIEV
771
824
668
874
802
840
704
859
710
609
13
HADFIELD
785
911
728
680
878
805
709
884
747
527
14
GUGLER
657
810
698
849
773
820
746
909
771
612
15
ZENIOU
696
774
765
725
785
791
706
932
795
578
16
KUBISZEWSKI
724
746
763
849
785
870
724
807
760
509
17
LITHELLN
712
875
754
725
829
838
762
807
585
516
18
CLAVERIE
756
873
624
725
863
815
655
957
620
474
19
VLASIC
622
820
673
769
759
786
698
807
695
619
20
STERRER
668
834
601
849
753
751
655
807
642
551
--------------------------------------------------------------------------------------MEDIAS
763,7
856,3 719,1 844,5 837
843,4 743,4 906,1 735,6 566
DESV.TIPICAS
77,9
65,9
66,9
78,5
58,5
45,4
60,1
69,1
64,0
68,2
Bajo la tabla R tenemos la media y desviación típica muestral Sj de
cada variable (j=1..p). Éstas oscilan entre 45,4 y 78,5.
Al estandarizar, transformamos cada puntuación original rij en xij=
( rij – r j )/ Sj. El nuevo valor xij representa para el atleta i su desviación
respecto a la puntuación media en la prueba j, pero estandarizada, es decir,
expresada en desviaciones típicas:
x11= (935-763,7) / 77,9 = +
2,2 desviaciones típicas
Thompson puntúa en 100m 2,2 desviaciones típicas por encima de la media del grupo
Análisis Componentes Principales / ACP5
ACP Normado. El ACP de la Matiz de Correlaciones.
08/10/15
3
Tabla X de desviaciones a la media estandarizadas:
Las desviaciones están ahora expresadas en desviaciones típicas.
DESVIACIONES
NORMADAS
__________________Variables
100 m.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
THOMPSON
HINGSEN
DEGTJARJOV
NIKLAUS
WENTZ
KUELVET
STEEN
BOREHAM
RUEFENACHT
KOLOWANON
BAGINSKI
MITRAKIEV
HADFIELD
GUGLER
ZENIOU
KUBISZEWSKI
LITHELLN
CLAVERIE
VLASIC
STERRER
2,2
0,7
0,1
1,4
0,3
-0,3
0,0
0,4
1,8
0,0
-0,2
0,1
0,3
-1,4
-0,9
-0,5
-0,7
-0,1
-1,8
-1,2
longitud
2,3
2,2
0,6
0,2
0,2
-0,6
0,5
-0,1
-0,6
-0,2
-0,9
-0,5
0,8
-0,7
-1,2
-1,7
0,3
0,3
-0,6
-0,3
peso
1,3
1,9
0,6
1,2
0,9
-0,3
-1,7
-0,3
-0,3
0,1
-0,6
-0,8
0,1
-0,3
0,7
0,7
0,5
-1,4
-0,7
-1,8
altura
400m.
1,0
1,3
0,7
0,4
0,4
1,3
0,7
0,4
0,1
0,7
0,1
0,4
-2,1
0,1
-1,5
0,1
-1,5
-1,5
-1,0
0,1
2,0
1,2
-0,2
1,3
0,7
0,2
0,4
0,9
0,7
-1,2
-0,8
-0,6
0,7
-1,1
-0,9
-0,9
-0,1
0,4
-1,3
-1,4
______________________
110mv. disco pértiga javal
1,8
1,3
0,3
0,3
0,8
0,1
-0,1
-0,1
1,7
0,8
-1,0
-0,1
-0,8
-0,5
-1,2
0,6
-0,1
-0,6
-1,3
-2,0
0,4
0,6
2,1
1,0
0,6
2,1
-0,6
-1,1
-0,4
0,6
0,0
-0,7
-0,6
0,0
-0,6
-0,3
0,3
-1,5
-0,8
-1,5
1,8
0,7
1,1
-0,3
-0,3
0,7
1,4
-0,7
-0,3
1,1
0,4
-0,7
-0,3
0,0
0,4
-1,4
-1,4
0,7
-1,4
-1,4
0,5
0,0
-0,1
1,9
1,1
0,4
0,3
0,6
-0,3
-0,3
0,5
-0,4
0,2
0,6
0,9
0,4
-2,4
-1,8
-0,6
-1,5
__
1500
0,3
1,0
1,4
-1,7
0,4
0,0
1,3
1,5
-1,6
-1,2
0,0
0,6
-0,6
0,7
0,2
-0,8
-0,7
-1,3
0,8
-0,2
-------------------------------------------------------------------------------------------MEDIAS
0
0
0
0
0
0
0
0
0
0
DESV.TIPICAS
todas iguales
Las medias son ahora todas 0
y las varianzas son iguales: pueden ser todas 1, 100 ó 1/n…
Esquema de la operación de centrado y normado de la nube de puntos:
1º) Resto la media y 2º) divido por la desviación típica:
Análisis Componentes Principales / ACP5
ACP Normado. El ACP de la Matiz de Correlaciones.
08/10/15
4
5.2.1.- Efecto geométrico sobre la nube de puntos-individuo (en Rp):
La nube de puntos-individuo está ahora centrada …
y la dispersión es la misma en todas las coordenadas.
5.2.2.- Efecto geométrico sobre la nube de puntos-variable (en Rn):
Cada punto-variable verifica:
 tiene norma 1, o sea, se encuentra a distancia 1 del origen:
“Descansa sobre la superficie de la esfera unidad de Rn.”
 sus componentes suman 0, o sea, es perpendicular al vector 1n.
Está en una hiperesfera, que se denomina “esfera de correlaciones”, pues
sobre ella, Corr(x,y)=xty.
5.2.2.-Consecuencias de la operación de homogeneizado de varianzas:
Las varianzas Sj2 en el ACP Normado son todas iguales
(Sj2=1/n; j cuando normamos) y con ello, las expresiones generales del
ACP adquieren formas especiales y muy interesantes.
Aparecen algunas diferencias de interpretación respecto al ACP sin
Normar, sobre todo en cuestiones relativas al 2º análisis (análisis de la nube
de puntos-variable). Vamos a verlo a continuación en 5.3):
Análisis Componentes Principales / ACP5
ACP Normado. El ACP de la Matiz de Correlaciones.
08/10/15
5
5.3) Peculiaridades del ACP Normado.
5.3.1) La matriz a diagonalizar XtX:
En el ACP normado es la matriz de correlaciones en lugar de la
de covarianzas.
En el ejemplo:
XtX |
100m
long
peso
altu
400m
110v
disc
pert
java
1500
-----+---------------------------------------------------------------------100m |
1.00
long |
.56
1.00
peso |
.44
.40
1.00
altu |
.37
.25
.20
1.00
400m |
.84
.72
.45
.24
1.00
110v |
.77
.45
.60
.56
.61
1.00
disc |
.25
.22
.57
.53
.22
.48
1.00
pert |
.43
.48
.14
.42
.39
.40
.41
1.00
java |
.34
-.04
.45
.39
.31
.27
.36
.27
1.00
1500 |
-.23
.21
-.05
.33
-.02
-.10
.07
.19
.17
1.00
-----+---------------------------------------------------------------------|
100m
long
peso
altu
400m
110v
disc
pert
java
1500
5.3.2) La inercia de la nube:
I0 = nS12 + nS22 + … + nSp2 = 1+1+…+1= p (número de variables)
Ahora I0 valdrá p (nº de variables), puesto que cada uno de los p
puntos-variable dista 1 del origen. Todas las variables aportan ahora la
misma inercia, 1 (Sj2=1 j). Será p también la suma de valores propios 
de la matriz de correlaciones;  era la inercia recogida por el eje.
1 +  2 + … + p =I0 = p
HISTOGRAMME DES 10 PREMIERES VALEURS PROPRES
-------------------------------------------+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| NUMERO |
VALEUR
| POURCENT.| POURCENT.|
|
|
|
PROPRE
|
| CUMULE |
|
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
|
1
|
4.3750
|
43.75 |
43.75 | ******************************************************************************** |
|
2
|
1.5526
|
15.53 |
59.28 | *****************************
|
|
3
|
1.2680
|
12.68 |
71.96 | ************************
|
|
4
|
.8137
|
8.14 |
80.09 | ***************
|
|
5
|
.7838
|
7.84 |
87.93 | ***************
|
|
6
|
.6122
|
6.12 |
94.05 | ************
|
|
7
|
.2833
|
2.83 |
96.89 | ******
|
|
8
|
.1938
|
1.94 |
98.82 | ****
|
|
9
|
.0713
|
.71 |
99.54 | **
|
|
10
|
.0463
|
.46 | 100.00 | *
|
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
Como el promedio de inercia por eje vale I0/p=1,
en principio seleccionaremos los ejes con autovalor mayor que 1.
Análisis Componentes Principales / ACP5
ACP Normado. El ACP de la Matiz de Correlaciones.
08/10/15
6
5.3.3) Distancias en el espacio de puntos-variable.
Todos los puntos están a distancia 1 del origen (esfera de radio 1)
d2(xj, 0)= (xj - 0)t I (xj - 0) = i=1…n xij 2 = 1
Las distancias entre puntos-variable tienen relación con las
correlaciones maestrales entre variables:
d2(xj, xj’)= (xj - xj’)t I (xj - xj’) =
= i=1…n (xij- xij’)2 =
= i xij2 + i xij’2- 2i xij xij’ =
= Var(j) + Var(j’) – 2 Cov(j,j’) =
= 1+1- 2Corr(j,j’) = 2(1-jj’)
d2(xj, xj’)= 2(1-jj’)
Esta relación nos dice que las posiciones relativas de los puntosvariable en esta “esfera de correlaciones” de Rn, me informan sobre sus
correlaciones:
Puntos coincidentes  correlación 1
en efecto:
0= d2(xj, xj’)= 2(1-jj’)  jj’= 1
Puntos diametralmente opuestos  correlación -1
4= d2(xj, xj’)= 2(1-jj’)  jj’= -1
Puntos en ángulo recto  correlación 0
2= d2(xj, xj’)= 2(1-jj’)  jj’= 0
Pero…por desgracia no es posible “ver” puntos en Rn. Tendremos que
recurrir a los planos factoriales, que me ofrecen representaciones planas
(proyecciones) de esta nube de puntos-variable (recordemos, esta nube
descansa sobre la esfera de correlaciones).
En estos planos factoriales obtengo una información parcial de las
posiciones de los puntos-variable en la esfera de correlaciones.
Análisis Componentes Principales / ACP5
ACP Normado. El ACP de la Matiz de Correlaciones.
08/10/15
7
5.3.4) Correlación variables-componentes principales; contribuciones.
En el ACP sin Normar teníamos que
Corr(eje , vble j) = Gj/ Sj
Sustituyendo Sj =1, en el ACP Normado la relación queda:
Corr(eje , vble j) = Gj

Es decir que la proyección de un punto-variable sobre un eje factorial
da directamente la correlación de la variable con el factor (lo mismo ocurre
con cualquier otra dirección intermedia, aunque no sea un eje factorial).
Además, su cuadrado era la contribución relativa:
La relación que aparecía en el ACP
c.r. ( j ) = Gj 2 / Sj2 = corr 2 (eje , vble j)
se convierte ahora en
c.r. ( j ) = Gj 2 = corr 2 (eje , vble j)
Esto simplifica enormemente dos tareas importantes en el ACP:
Tarea 1) la búsqueda de las variables más correladas con un eje:
 serán simplemente las variables más alejadas del origen,
pues su coordenada es la correlación con ese eje;
 tendrán correlación tanto más alta con el eje
cuanto más se aproxime esta coordenada a ±1.
Tarea 2) la búsqueda de las variables bien representadas en un eje o
plano factorial:
 serán simplemente las variables próximas a la circunferencia
de radio 1.
COORDONNEES DES VARIABLES SUR LES AXES 1 A 5
-------------------------------------------------------------------------------------------------------------------------------------------------------------+------------------------------------+-------------------------------+------------------------------VARIABLES
|
COORDONNEES
| CORRELATIONS VARIABLE-FACTEUR |
ANCIENS AXES UNITAIRES
----------------------------+------------------------------------+-------------------------------+------------------------------IDEN - LIBELLE COURT
|
1
2
3
4
5
|
1
2
3
4
5 |
1
2
3
4
5
----------------------------+------------------------------------+-------------------------------+------------------------------VARIABLES ACTIVES
|
|
|
100m - 100m 100 metros liso !
.83
-.41
.00
-.07
.28 !
.83 -.41
.00 -.07
.28 !
.40 -.33
.00 -.07
.32
long - long salto de longit !
.67
-.25
.56
.16
-.30 !
.67 -.25
.56
.16 -.30 !
.32 -.20
.49
.18 -.33
peso - peso lanzamiento de !
.68
-.05
-.44
.37
-.39 !
.68 -.05 -.44
.37 -.39 !
.32 -.04 -.39
.41 -.44
altu - altu salto de altura !
.62
.54
.05
-.34
.12 !
.62
.54
.05 -.34
.12 !
.30
.43
.04 -.38
.14
400m - 400m 400 metros liso !
.80
-.39
.20
.23
.16 !
.80 -.39
.20
.23
.16 !
.38 -.32
.18
.26
.18
110v - 110v 110 metros vall !
.85
-.14
-.15
-.23
-.05 !
.85 -.14 -.15 -.23 -.05 !
.41 -.11 -.13 -.25 -.05
disc - disc lanzamiento de !
.62
.41
-.34
-.20
-.41 !
.62
.41 -.34 -.20 -.41 !
.30
.33 -.30 -.22 -.46
pert - pert salto con perti !
.62
.22
.37
-.30
.13 !
.62
.22
.37 -.30
.13 !
.30
.17
.33 -.33
.15
java - java lanzamiento de !
.50
.40
-.40
.38
.49 !
.50
.40 -.40
.38
.49 !
.24
.32 -.36
.42
.55
1500 - 1500 1500 metros
!
.08
.69
.54
.38
-.06 !
.08
.69
.54
.38 -.06 !
.04
.55
.48
.43 -.07
----------------------------+------------------------------------+-------------------------------+-------------------------------
=====
Análisis Componentes Principales / ACP5
ACP Normado. El ACP de la Matiz de Correlaciones.
08/10/15
AXE 1 * AXE 2
AXE 2
--------------------------------------------------------------------------KUEL--------DEGT------------------------|
|
|
|
GUGL
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| STEE
|
1 +
|
|
|
BAGI
|
|
|
|
|
|
1500
|
|
VLAS
|
|
|
ZENI
|
altu
|
|
|
disc
WENT
|
|
MITR
| BOREKOLO
|
|
|
pert
HING
|
|
|
0 +------------------------------------------KUBI-------------+-------------------------------------------------------|
STER
|
peso
|
|
|
|
|
|
long
|
|
|
400m
|
|
|
|
|
|
|
|
|
THOM
|
|
|
|
|
NIKL
|
-1 +
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
LITH
HADF
|
|
|
|
|
-2 +-----------+---------------+------CLAV-----+---------------+--------------RUEF-------------+---------------+-------3
-2
-1
0
1
2
3
AXE 1
AXE 1 * AXE 3
AXE 3
------------------------------CLAV----------------------------STEE------------------------------------------------|
|
|
|
|
|
|
|
|
1 +
|
HING
STER
| BORE
THOM
|
|
|
|
|
|
|
|
|
|
1500
long
|
|
MITR
|
DEGT
|
|
|
pert
|
|
VLAS
HADF
|
400m
|
|
|
|
0 +-----------------------------------------------------------+------altu100m-----------------------------------------|
|
|
|
|
LITHGUGL
|
110v
|
|
BAGI
|
disc
|
|
|
javapeso
|
|
|
|
|
|
|
|
|
KOLO
KUEL
WENT
|
|
|
|
|
ZENI
|
RUEF
|
-1 +
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
-2 +
|
|
-----------+---------------+--------------KUBI-------------+---------------+---------------+------NIKL-----+-------3
-2
-1
0
1
2
3
AXE 1
8
Análisis Componentes Principales / ACP5
ACP Normado. El ACP de la Matiz de Correlaciones.
08/10/15
9
5.3.5) Resumen de diferencias en la interpretación de gráficos y tablas:
5.3.5.1) Análisis de puntos-variable:
Una variable original, muy correlada (+) con un factor principal ,
tiene en el eje  coordenada próxima a +1.
Una variable original, muy correlada (-) con un factor principal ,
tiene en el eje coordenada próxima a -1.
Una variable original, incorrelada con un factor principal 
tiene en el eje coordenada 0.
Los puntos bien representados en un plano aparecen próximos a la
circunferencia 1. Por tanto:
 Puntos variable próximos en el plano y cerca del borde de la
circunferencia1  correlación muy alta positiva.
 Puntos variable diametralmente opuestos en el plano y cerca del borde
de la circunferencia1  correlación muy alta negativa.
 Puntos variable formando ángulo de 90º en el plano y cerca del borde de
la circunferencia1  correlación muy baja.
5.3.5.2) Análisis de puntos-individuo:
La misma interpretación que hacíamos en el ACP sin normar.
5.3.5.3) Análisis de la representación conjunta de las dos nubes:
También es igual, con la ventaja de que la interpretación de los ejes es
mucho más sencilla en el ACP Normado. No hace falta estudiar las tablas
de correlaciones variables-factor, pues es suficiente observar la posición de
los puntos variable en los planos factoriales y su proximidad a la
circunferencia de radio 1.
5.3.5.4) Direcciones intermedias:
Un punto-variable xj que se proyecte en un plano factorial cerca de la
circunferencia unidad, define una dirección “intermedia” en ese plano más
interesante aún que los propios ejes factoriales.
En esa dirección “veo” la puntuación de los diferentes individuos para
una variable artificial (mezcla de U1 y U2), que está muy correlada con xj.
Individuos alejados en esa dirección del plano, tendrán puntuación
alta en la variable j.
Individuos alejados en dirección contraria, tendrán puntuación baja en
la variable j.
Descargar