2) Análisis en R : AF de las filas de X (col. de X).

Anuncio
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
13
2) Análisis en Rn: AF de las filas de Xt (col. de X).
Pasamos a realizar el segundo análisis.
2.1) La Nube de puntos-variable:
x1, x2, … ,xp (filas de la matriz Xt, o sea, columnas de X)
p puntos de Rn (puntos-variable)
STERRER
139,3
-38,3
VLASIC
-3,3
CLAVERIE
31,3
30,7
LITHELLN
-0,7
-42,3
KUBISZEWSKI
-25,7
14,7
ZENIOU
23,3
10,7
GUGLER
105,3
HADFIELD
4,3
36,7
MITRAKIEV
53,3
147,7
BAGINSKI
171
154
KOLOWANON
RUEFENACHT
BOREHAM
STEEN
KUELVET
WENTZ
NIKLAUS
DEGTJARJOV
HINGSEN
THOMPSON
100 m.
longitud
-2,7
-16,7
7,3
21,3
-106,7
-67,7
-39,7
-51,7
-7,7
-141,7
-95,7
-10,3
-60,3
-32,3
54,7
-46,3
-82,3
-110,3
18,7
16,7
-36,3
-22,3
-118,1
X
t
peso
87,9
124,9
39,9
82,9
61,9
-19,1
-115,1
-18,1
-19,1
8,9
-37,1
-51,1
8,9
-21,1
45,9
43,9
34,9
-95,1
-46,1
altura
80,5
105,5
55,5
29,5
29,5
105,5
55,5
29,5
4,5
55,5
4,5
29,5
-164,5
4,5
-119,5
4,5
-119,5
-119,5
-75,5
4,5
400 m.
118
68,05
-11,95
78,05
41,05
11,05
25,05
53,05
40,05
-71,95
-44,95
-34,95
41,05
-63,95
-51,95
-51,95
-7,95
26,05
-77,95
-83,95
110m.v.
82,6
57,6
15,6
12,6
36,6
6,6
-4,4
-2,4
75,6
37,6
-43,4
-3,4
-38,4
-23,4
-52,4
26,6
-5,4
-28,4
-57,4
-92,4
disco
25,7
37,65
124,7
60,65
38,65
126,7
-34,35
-63,35
-25,35
37,65
2,65
-39,35
-34,35
2,65
-37,35
-19,35
18,65
-88,35
-45,35
-88,35
pértiga
javal
1500
122
50,95
74,95
-22,05
-22,05
50,95
98,95
-47,05
-22,05
74,95
25,95
-47,05
-22,05
2,95
25,95
-99,05
-99,05
50,95
-99,05
-99,05
31,4
2,4
-3,6
121,4
71,4
28,4
17,4
36,4
-19,6
-21,6
31,4
-25,6
11,4
35,4
59,4
24,4
-150,6
-115,6
-40,6
-93,6
19
66
96
-118
26
3
92
104
-106
-81
-2
43
-39
46
12
-57
-50
-92
53
-15
Cada punto de la nube, xj , es una fila de Xt .
Representa las n desviaciones para una variable, la j-ésima,
… que se ha observado sobre los n=20 individuos:
variables :
100 m.
Individuos: THOMPSON
THOMPSON
HINGSEN
DEGTJARJOV
NIKLAUS
WENTZ
KUELVET
STEEN
BOREHAM
RUEFENACHT
KOLOWANON
BAGINSKI
MITRAKIEV
HADFIELD
GUGLER
ZENIOU
KUBISZEWSKI
LITHELLN
CLAVERIE
VLASIC
STERRER
medias
desv. típicas
Punto1
x1
100 m.
171,3
53,3
4,3
105,3
23,3
-25,7
-0,7
31,3
139,3
-2,7
-16,7
7,3
21,3
-106,7
-67,7
-39,7
-51,7
-7,7
-141,7
-95,7
0
S1 = 77,9
longitud
HINGSEN
Punto2
x2
longitud
153,7
147,7
36,7
10,7
14,7
-42,3
30,7
-3,3
-38,3
-10,3
-60,3
-32,3
54,7
-46,3
-82,3
-110,3
18,7
16,7
-36,3
-22,3
0
S2 = 65,9
…
javal
DEGTJARJOV
...
1500
…
STERRER
Punto10
x10
1500 m
19,0
66,0
96,0
-118,0
26,0
3,0
92,0
104,0
-106,0
-81,0
-2,0
43,0
-39,0
46,0
12,0
-57,0
-50,0
-92,0
53,0
-15,0
0
S10 = 68,2
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
14
2.1.1) El c. de g. de la nube (centro de gravedad): Gn
La nube en Rn de los p puntos-variable NO está centrada: Gn≠ 0.
El c.de g. de la nube de los p
puntos-variable en Rn vale:
1 p j
Gn =  x
p j 1
y en general será distinto de 0.
Tras la transformación RX cada columna de X suma 0, pero
no cada fila. Así, las n componentes de cada punto-variable suman 0
(dicho en forma matemática, xj es ortogonal al 1n; la nube de
puntos-variable descansa en el hiperplano ortogonal al vector 1n)
Los n puntos-fila de X sumaban 0, Gp=0, y la nube de puntosindividuo en Rp estaba centrada, pero…
los p puntos-columna de X no suman 0, Gn≠ 0, y la nube de
puntos-variable xj en Rn no está centrada.
En el ejemplo, Gn es el siguiente punto de R20:
89,2 71,4 43,2 36,1 32,1 24,5 16,5 12,0 2,9 2,7 -14,0 -15,4 -16,1 -17,0 -26,8 -27,8 -41,2 -45,3 -56,7 -70,4
89,21 en la coordenada 1 (THOMPSON)
71,40 en la coordenada 2 (HINGSEN)
…
-70.40 en la coordenada 20 (STERRER)
Cada coordenada de este c. de g. es el promedio para un atleta de
sus 10 desviaciones a la media. Esto supone que:
Thompson obtiene una ventaja sobre “el atleta medio” de 89,2 puntos por prueba.
Es el promedio más alto, como corresponde al atleta que gana el decathlon.
Hingsen, de 71,4 puntos por prueba.
…
Sterrer, una desventaja de 70.4 puntos por prueba.
Es un promedio negativo y el más bajo de todos, como corresponde al último
clasificado
la coordenada i de Gn es la desviación promedio del atleta i en las 10 pruebas
(en genera será un valor no nulo).
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
15
2.1.2) Determinadas posiciones espaciales de los puntos-variable en Rn dan
información muy interesante sobre correlaciones entre variables
nótese que para variables j y j’ centradas se tiene: (xj)txj’=nCov((j,j’) (xj)txj=nVar(j)
xj=xj’: Dos puntos-variable (jabalina y peso) aparecerán juntos/próximos en Rn
si y sólo si cada individuo obtiene desvia-ciones iguales/similares en ambas
variables (rj-rj =rj’-rj’).
(es decir, cuando una variable original es traslación de la otra)
---------------------------------------j
j’
x =k x : Dos puntos-variable aparecerán en la misma dirección y..
…mismo sentido de Rn si y sólo si las n desviaciones en una variable son las
de la otra multiplicados por una constante k>0
(rj-rj =k(rj’-rj’) (es decir, cuando correlación muestral (j,j’)= +1).
…en sentidos opuestos, lo mismo con k<0 (corr. muestral = -1).
---------------------------------------j t j’
(x ) x =0: Dos puntos-variable aparecen en direcciones ortogonales de Rn si y
sólo si las variables estén incorreladas.
(es decir, cuando correlación muestral (j,j’)= 0).
En consecuencia, y dado que no es posible visualizar las posiciones en Rn,
debemos proyectar y extraer información de interés sobre correlaciones a
partir de la representación de los puntos-variable en un subespacio factorial.
El problema es que al proyectar los ángulos pueden modificarse y
debemos recurrir a la calidad de representación de los puntos variable en el
plano (c.r.) para poder asegurar (cuando ésta es alta) que los ángulos
proyectados se parecen a los originales en Rn.
Estas relaciones entre posiciones de los puntos variable xj y correlaciones
son de gran interés y constituyen la razón por la cual aplicamos un AF a esta nube
de puntos variable a pesar de que, al no estar centrada, el AF no garantiza
resultados óptimos en cuanto a calidad de representación.
En el ejemplo: (ver el gráfico de los puntos-variable al final de esta sección 2)
Las variables 100m y 400m aparecen alineados en la misma dirección del
plano factorial 1-2 y además están bien representadas en él. Esto significa que
estos dos puntos-variable no pueden separarse en las restantes direcciones de
R20, que no vemos, y por lo tanto estarán realmente alineados en Rn . Por lo tanto,
100m y 400m son dos variables fuertemente correladas en sentido positivo.
Estas variables 100m y 400m aparecen dentro del plano factorial 1-2 en una
dirección perpendicular a la de altu, que también está bien representada en este
plano. Esto significa que el punto-variable altu no pueden separarse en las
restantes direcciones de R20 y por lo tanto estarán realmente perpendicular a
100m y 400m en Rn . Luego altu es una variable incorrelada con 100m y 400m.
¿Qué podemos decir de parejas como disc-java o peso-long?...
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
16
2.2) Métrica: I (Euclídea unitaria).
2.2.a) Se usa para medir distancias entre dos variables, xj y xj’ :
d2(xj, xj’)= (xj - xj’)t I (xj - xj’) =
= i=1…n (xij- xij’)2 =
= i xij2 + i xij’2- 2i xij xij’ =*
= Var(j) + Var(j’) – 2 Cov(j,j’) =
= Var (j -j´).
Salvo el factor n. Podríamos tomar de partida la nube comprimida con un factor 1/ n ;
con esto, la forma de la nube se mantiene (sólo cambia su tamaño) pero de esta manera en
* aparecerían las varianzas y covarianzas exactamente.
*
d2(xj, xj’) Var(j) + Var(j’) – 2 Cov(j,j’) = Sj2 + Sj’2 - 2 Sjj’2
d(xj, xj’) es la desviación típica muestral de la diferencia (j-j´)
Ejemplo:
d2( peso,javal) = ( 87.9-31.4)2 + (124.9-2.4)2 + … + ( -118.1+93.6)2 = 89941
d ( peso,javal ) = 299,9
2.2.b) Se utiliza para medir distancias al origen:
d2(xj, 0)= (xj - 0)t I (xj - 0) = i=1…n xij 2 = Var(j) = Sj2
d(xj, 0)= Sj
La distancia de un punto-variable al origen, es su desviación típica.
Por tanto, la inercia total de la nube de puntos será la suma de las
varianzas muestrales de las p variables activas:
I0 = S12 + S22 + … +Sp2
2.2.c) También se utiliza para proyectar los puntos de la nube:
La coordenada del punto-variable xj proyectado sobre la
Gj= (xj )t v
dirección v será :
y entonces, el vector de factores calculados en el eje  resulta ser:


G=Xt v
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
17
2.3) Peso de cada punto: Todos iguales.
2.4) Matriz a diagonalizar: XXt .
Autovalores:  1  2 ...  p  p+1...  n (Inercias)
Autovectores: v1 v2 ... v p v p+1... v n (Ejes principales de Rn)
Nota Importante:
XXt es una matriz (nxn) y tiene el rango de X, o sea, p a lo sumo
(recordad que siempre n>p).
Entonces XXt tiendrá a lo más p valores propios positivos y los
restantes (n-p) valores propios serán nulos:
1 ≥  2 ≥ ... ≥  p ≥  p+1= … =  n=0.
Por tanto,
los p primeros ejes factoriales recogen la inercia total.
I0 = 1 +  2 + … +p
… y los n-p ejes restantes no recogen información alguna.
Sólo las p primeras direcciones principales recogen información.
Recuerda que la inercia total era la misma que en análisis en Rp
I0 = S12 + S22 + … +Sp2
2.5) Relación entre los dos análisis: Relaciones de transición.
Los p valores propios no nulos de los dos análisis (n puntosindividuo en Rp y p puntos-variable en Rn ) coinciden
= 1 … p
y los vectores propios de los dos análisis están relacionados con
los Factores calculados:
F= Xu = (±)
G= Xtv = (±)
v
 u

Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
18
Demostración:
Si  y u son valor y vector propio de XtX:
XtXu =u
[1]
Premultiplicando los dos miembros de [1] por X se tiene:
X XtXu =X u , es decir (XXt) (Xu)= ( Xu ),
luego…  también es autovalor de XXt y Xu es autovector asociado.
Pero Xu=F y su norma2 es la inercia del eje .
Entonces XXtu dividido por su norma, ,
será vector propio unitario de XXt, o sea v (salvo signo, que no está determinado):
v=
1

Xu =
1

F
Argumentando análogamente se obtiene la relación simétrica:
u=
1

Xt v =
1

G
Despejando, tenemos las relaciones entre factores calculados de un análisis y
los vectores propios del otro ( Relaciones de transición):
F= Xu =
G= Xtv =
v
 u

Consecuencia:
Las componentes principales son variables incorreladas
Demo: F1 y F2 son variables centradas al ser c.l. de centradas xi.
Entonces v1┴ v2  F1┴ F2  F1 incorrelada con F2
En la salida SPAD del análisis 2) de los puntos-variable en Rn encontramos
los factores calculados del segundo análisis: G1 G2 G3 G4 G5 ,
u1 u2 u3 u4 u5
y los vectores propios del primero
COORDONNEES
ANCIENS AXES UNITAIRES
(que utilizábamos como coeficientes para definir cada componente principal).
COORDONNEES DES VARIABLES SUR LES AXES 1 A 5
-----------------------------------------------------------------+-------------------------------+------------------------------VARIABLES
|
COORDONNEES
| CORRELATIONS VARIABLE-FACTEUR |
ANCIENS AXES UNITAIRES
----------------------------+------------------------------------+-------------------------------+------------------------------IDEN - LIBELLE COURT
|
1
2
3
4
5
|
1
2
3
4
5 |
1
2
3
4
5
----------------------------+------------------------------------+-------------------------------+------------------------------|
|
|
100m - 100m 100 metros liso ! 63.14 -32.87
3.29 15.87 -14.45 !
.83 -.43
.04
.21 -.19 !
.47 -.39
.05
.26 -.26
long - long salto de longit ! 43.35 -12.20 36.36 -20.13 10.22 !
.67 -.19
.57 -.31
.16 !
.33 -.14
.51 -.33
.19
peso - peso lanzamiento de ! 41.49 -11.45 -29.30 -34.82 10.71 !
.64 -.18 -.45 -.53
.16 !
.31 -.14 -.41 -.58
.20
altu - altu salto de altura ! 50.46 43.30 -5.28 26.17
4.83 !
.66
.57 -.07
.34
.06 !
.38
.51 -.07
.43
.09
400m - 400m 400 metros liso ! 44.93 -22.64 12.50 -6.25 -13.91 !
.79 -.40
.22 -.11 -.24 !
.34 -.27
.17 -.10 -.25
110v - 110v 110 metros vall ! 36.43 -7.03 -5.86
6.08
6.38 !
.82 -.16 -.13
.14
.14 !
.27 -.08 -.08
.10
.12
disc - disc lanzamiento de ! 35.62 17.89 -22.84 -5.59 28.97 !
.61
.31 -.39 -.10
.49 !
.27
.21 -.32 -.09
.53
pert - pert salto con perti ! 43.59 14.33 22.71 14.34
8.15 !
.65
.21
.34
.21
.12 !
.33
.17
.32
.24
.15
java - java lanzamiento de ! 31.94 16.81 -31.87 -5.36 -34.50 !
.51
.27 -.51 -.09 -.55 !
.24
.20 -.44 -.09 -.63
1500 - 1500 1500 metros
!
7.35 50.10 26.06 -27.34 -15.21 !
.11
.75
.39 -.41 -.23 !
.06
.59
.36 -.45 -.28
----------------------------+------------------------------------+-------------------------------+-------------------------------
G1 G2
G3 G4
G5
u1 u2 u3 u4 u5
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
19
2.6) Correlaciones entre variables y componentes principales.
Volviendo al análisis en Rp , recordamos que cada componente
principal, U, es una variable artificial, combinación lineal de las p
variables originales X1, X2, ... Xp. A la hora de interpretar las CCPP,
resulta esclarecedor conocer la correlación de U con cada una de las
originales: X1, X2, ... Xp:
Las 20 observaciones de la variable Uforman el vector F;
su media es cero y su varianza .
Las 20 observaciones de la variable Xj forman el vector xj;
su media es cero y su varianza muestral Sj2.
La covarianza muestral (por n) entre dos variables centradas es simplemente
su producto escalar y por tanto, su correlación (por n) será el producto de los
correspondientes vectores de observaciones normalizados, (xj / sj ) y (F  ):
Corr(eje , vble j) = (xj / sj )t (F

) = (xj)t v/ sj = Gj/ sj
Ejemplo:
La correlación muestral entre la Primera Componente Principal (F1) y la 1ª
variable original (100 m), se calcula a partir de las observaciones de ambas sobre
los 20 decathletas y vale 0.83:
THOMPSON
HINGSEN
DEGTJARJOV
NIKLAUS
WENTZ
KUELVET
STEEN
BOREHAM
RUEFENACHT
KOLOWANON
100 m
F1
100 m centrada (centrada)
935
171,3
307.02
817
53,3
222.00
768
4,3
110.03
869
105,3
151.85
787
23,3
91.87
738
-25,7
71.16
763
-0,7
34.55
795
31,3
18.68
903
139,3
59.00
761
-2,7
30.15
BAGINSKI
MITRAKIEV
HADFIELD
GUGLER
ZENIOU
KUBISZEWSKI
LITHELLN
CLAVERIE
VLASIC
STERRER
100 m
F1
100 m centrada (centrada)
747
-16,7
-47.83
771
7,3
-54.23
785
21,3
-44.16
657
-106,7
-85.83
696
-67,7
-108.36
724
-39,7
-84.51
712
-51,7
-123.35
756
-7,7
-111.90
622
-141,7
-215.41
668
-95,7
-220.72
Todas estas correlaciones U Xj aparecen en el segundo cuerpo
de la tabla de salida SPAD: CORRELATIONS VARIABLE-FACTEUR
COORDONNEES DES VARIABLES SUR LES AXES 1 A 5
-----------------------------------------------------------------+-------------------------------+------------------------------VARIABLES
|
COORDONNEES
| CORRELATIONS VARIABLE-FACTEUR |
ANCIENS AXES UNITAIRES
----------------------------+------------------------------------+-------------------------------+------------------------------IDEN - LIBELLE COURT
|
1
2
3
4
5
|
1
2
3
4
5 |
1
2
3
4
5
----------------------------+------------------------------------+-------------------------------+------------------------------VARIABLES ACTIVES
100m - 100m 100 metros liso ! 63.14 -32.87
3.29 15.87 -14.45 !
.83 -.43
.04
.21 -.19 !
.47 -.39
.05
.26 -.26
long - long salto de longit ! 43.35 -12.20 36.36 -20.13 10.22 !
.67 -.19
.57 -.31
.16 !
.33 -.14
.51 -.33
.19
peso - peso lanzamiento de ! 41.49 -11.45 -29.30 -34.82 10.71 !
.64 -.18 -.45 -.53
.16 !
.31 -.14 -.41 -.58
.20
altu - altu salto de altura ! 50.46 43.30 -5.28 26.17
4.83 !
.66
.57 -.07
.34
.06 !
.38
.51 -.07
.43
.09
400m - 400m 400 metros liso ! 44.93 -22.64 12.50 -6.25 -13.91 !
.79 -.40
.22 -.11 -.24 !
.34 -.27
.17 -.10 -.25
110v - 110v 110 metros vall ! 36.43 -7.03 -5.86
6.08
6.38 !
.82 -.16 -.13
.14
.14 !
.27 -.08 -.08
.10
.12
disc - disc lanzamiento de ! 35.62 17.89 -22.84 -5.59 28.97 !
.61
.31 -.39 -.10
.49 !
.27
.21 -.32 -.09
.53
pert - pert salto con perti ! 43.59 14.33 22.71 14.34
8.15 !
.65
.21
.34
.21
.12 !
.33
.17
.32
.24
.15
java - java lanzamiento de ! 31.94 16.81 -31.87 -5.36 -34.50 !
.51
.27 -.51 -.09 -.55 !
.24
.20 -.44 -.09 -.63
1500 - 1500 1500 metros
!
7.35 50.10 26.06 -27.34 -15.21 !
.11
.75
.39 -.41 -.23 !
.06
.59
.36 -.45 -.28
----------------------------+------------------------------------+-------------------------------+-------------------------------

1/Sj
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
20
Es muy importante analizar minuciosamente esta tabla de
correlaciones para dar un significado estadístico a cada eje factorial
en términos de correlación con las variables originales. Esto da una
información muy precisa sobre la asociación lineal entre los ejes y las
variables originales; más precisa que la que habíamos obtenido
anteriormente a partir sólo de los coeficientes ui . Así, las posiciones de
los individuos en un plano factorial nos informan sobre sus
características en términos de las variables originales.
Ejemplo.
Interpretemos los tres primeros ejes factoriales para los datos del
Decathlon en términos de las variables originales:
* Primera Componente Principal:
Correlaciones de F1 con:
100 m.
.83
longitud
.67
peso
.64
altura
400 m.
110m.v.
.66
.79
.82
disco
.61
pertiga
javal. 1500 m.
.65
.51
.11
F1 está correlada positivamente con todas las variables salvo 1500m,
con valores medio-altos:
Por lo tanto, valores altos de F1 van asociados a valores altos de
todas las variables, salvo 1500. Los Atletas representados a la derecha
en el eje 1, serán atletas con puntuaciones altas en todas las pruebas
(muy por encima de la media en esa prueba); atletas a la izquierda en eje
1, puntuaciones bajas en todas las pruebas.
El primer factor contrapone los mejores atletas a los peores.
Es un factor de calidad global o “tamaño”, muy típico en ACP.
* Segunda Componente Principal:
Correlaciones de F2 con:
100 m.
-.43
longitud
-.19
peso
altura
400 m.
110m.v.
-.18 .57 -.40 -.16
F2 está correlada positivamente con
disco
.31
pertiga
javal. 1500 m.
.21
.27
.75
1500 m. altura disco javal. Pértiga …
Son
pruebas
que
requieren
una
especialización
muy
específica de forma separada y características poco compatibles.
F2 está correlada negativamente con
100 m. 400 m. longitud peso 110m.v. …
Son pruebas de velocidad-potencia, que se adaptan
entrenamientos compatibles y comunes en muchos aspectos.
a
Así, valores bajos de F2 se asocian (de forma menos fuerte que F1)
con valores altos en las pruebas de potencia-velocidad (incluido peso)
porque son variables correladas negativamente con F2. Se corresponden
también con valores bajos en 1500 y concursos (excluido peso y
longitud) dado que son variables correladas positivamente con F2.
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
21
Valores altos de F2 se asocian con valores bajos, muy por debajo
de la media, en las pruebas de potencia-velocidad (incluido peso) y con
valores altos en 1500 y concursos (salvo peso y longitud).
Atletas representados en la zona positiva del eje 2 serán
relativamente poco veloces-potentes obteniendo puntuaciones por
debajo de la media del grupo en estas pruebas (100 m. 400 m. longitud peso
110m.v) y mejores que la media en pruebas de especializción específica
(1500 m. altura disco javal. Pértiga );
… por el otro lado, en la zona negativa del eje 2, aparecerán
atletas mejor preparados que la media en pruebas de velocidadpotencia y peor que la media en las mencionadas pruebas de
especialización específica.
* Tercera Componente Principal:
Correlaciones de F3 con:
100 m.
.04
longitud
.57
peso
altura
-.45 -.07
400 m.
110m.v.
disco
.22
-.13
-.39 .34
F3 está correlada positivamente con
F3 está correlada negativamente con
pertiga
javal.
1500 m.
-.51 .39
longitud 1500 m. pértiga
javal.
peso
disco
Valores altos de F3 se asocian (de forma más débil que F1 y F2)
con valores altos en alguna de las pruebas longitud 1500 m. pértiga y con
puntuaciones bajas en javal. peso disco.
Valores bajos de F3 van asociados con valores bajos en alguna de
las pruebas longitud 1500 m. pértiga y con valores altos en javal. peso disco.
Atletas representados en la zona positiva del eje 3 serán
mejores que la media en las pruebas longitud 1500 m. pértiga y peores en
javal. peso disco;
… atletas en la zona negativa del eje 3, serán atletas mejores
que la media en javal. peso disco y peor adaptados que la media en las
mencionadas pruebas de longitud 1500 m. pértiga.
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
22
Resumen de la sección 2.6:
1º Debemos localizar las variables más correladas con
cada eje factorial (en sentido positivo y negativo).
2º Debemos identificar los individuos con puntuaciones
extremas sobre cada eje factorial (en ambas direcciones: + y -),
estén bien representados o no.
3º Extraemos información sobre puntuaciones altas/bajas
de los individuos en las variables originales:
De una manera global:
En cada eje factorial, los individuos aparecen ordenados en
sentido creciente de las variables originales que estén fuertemente
correladas con él en sentido positivo y en sentido decreciente de las
variables originales que estén fuertemente correladas con él en
sentido negativo
a) los individuos con puntuación más alta en un eje ,
presentarán simultáneamente
los valores más altos en las variables originales que estén muy
correladas positivamente con el eje …
… y los valores más bajos en las variables muy correladas con
él en sentido negativo,
b) mientras que los individuos con puntuación más baja en un
eje , presentarán simultáneamente
los valores más bajos en las variables originales que
estén muy correladas positivamente con el eje …
… y los valores más altos en las variables muy correladas con
él en sentido negativo.
…aunque al estar basándonos en correlaciones pueden
aparecer individuos que supongan excepciones puntuales.
4º Confirmamos finalmente sobre los datos originales
nuestras sospechas y anotamos las conclusiones.
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
23
2.7) Contribuciones
Para este análisis en Rn de los puntos-variable, las expresiones
generales de las c.a. y c.r., teniendo en cuenta las relaciones ya
estudiadas, se convierten en:
c.a. ( j ) = Gj 2/  = uj2
c.r. ( j ) = Gj 2 / Sj2 = corr 2 (eje , vble j)
Son cuadrados de los valores que ya hemos visto en la tabla de
salida SPAD y tienen poco interés práctico.
2.8) Gráficos
Presentamos a continuación los gráficos de este segundo análisis y
finalmente la representación simultánea de los planos factoriales de
ambos análisis.
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
points=con, x=vec 1, y=vec 2
COMMANDE 4
----------NOMBRE DE POINTS A REPRESENTER :
NOMBRE DE POINTS REPRESENTES :
10
10
AXE 1
*
AXE 2
AXE 2
48
42
36
30
24
18
12
6
0
-6
-12
-18
-24
-30
----------1500--------------------------------------------------------------------------------------------|
|
+
|
|
|
|
|
|
|
|
altu
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
disc
|
|
java
|
|
|
|
|
|
pert
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+-----------------------------------------------------------------------------------------------------------|
|
|
|
|
|
|
|
|
|
|
+
|
|
110v
|
|
|
|
|
|
|
|
peso
|
+
long
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
400m
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
+-------------------+-------------------+-------------------+-------------------+-------------------+------100m
0
12
24
36
48
60
AXE 1
24
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
COMMANDE 5
-----------
points=con, x=vec 1, y=vec 2 select=cos2>0.70
NOMBRE DE POINTS A REPRESENTER :
10
LISTE DES POINTS DE COSINUS CARRE INFERIEUR A
1500 long pert disc peso java
NOMBRE DE POINTS REPRESENTES :
.700
DANS L'ESPACE DES AXES
1 A
2
4
AXE 1
*
AXE 2
AXE 2
42
36
30
24
18
12
6
0
-6
-12
-18
-24
-30
----------------------------------------------------------------------------------altu--------------------+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+-----------------------------------------------------------------------------------------------------------|
|
|
|
|
|
|
|
|
|
|
+
|
|
110v
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
|
|
|
400m
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
+
|
|
|
|
|
+-------------------+-------------------+-------------------+-------------------+-------------------+------100m
0
12
24
36
48
60
AXE 1
25
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
26
Representación simultánea de los dos análisis
COMMANDE 6
-----------
points=ind+con, x=vec 1
NOMBRE DE POINTS A REPRESENTER :
30
TRAITEMENT DES POINTS A PLUS DE 2.30 ECARTS-TYPES DU CENTRE
-----------------------------------------------------------POINTS ELOIGNES : +--------------------------+----------+----------+
|
IDENTIFICATEUR
| ABSCISSE | ORDONNEE |
+--------------------------+----------+----------+
|
THOM
| 307.025 | -54.446 |
+--------------------------+----------+----------+
1 POINTS ONT ETE RAMENES SUR LE BORD DU GRAPHIQUE.
NOMBRE DE POINTS REPRESENTES :
----------------------------
30
POINTS MULTIPLES
-------------------------+-----------+-----------+--------+-----------------------------------------------------------------------------| ABSCISSE | ORDONNEE | NB. DE |
POINT VU | APPROCHEE | APPROCHEE | CACHES |
POINTS CACHES
----------+-----------+-----------+--------+-----------------------------------------------------------------------------disc
!
30.48
!
19.23
!
1
! java
peso
!
45.71
! -11.54
!
1
! long
----------+-----------+-----------+--------+-----------------------------------------------------------------------------2 POINTS MULTIPLES,
2 POINTS CACHES
AXE 1
*
AXE 2
AXE 2
--------------------------------------------------------------------------KUEL----DEGT----------------------------|
GUGL
|
|
|
|
STEE
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
60 +
|
|
|
|
|
VLAS
BAGI
1500
|
|
|
altu
|
|
MITR
| BORE
|
|
|
|
STER
|
HING
|
|
disc
|
|
|
KOLOpert
WENT
|
|
ZENI
|
|
0 +-------------------------------------------------------+-----------------------------------------------------------|
|
|
110v
|
|
KUBI
|
peso
|
|
|
|
|
|
400m
|
|
|
100m
|
|
|
|
|
|
THOM
|
|
|
|
|
|
-60 +
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
NIKL
|
|
|
|
|
|
|
|
LITH
|
|
-120 +
|
|
|
|
|
|
|
RUEF
|
-------+---------------+--CLAV---------+--HADF---------+---------------+---------------+---------------+-----------180
-120
-60
0
60
120
180
AXE 1
Análisis Componentes Principales / ACP2
El ACP de la matriz de Covarianzas. Análisis en Rn
08.10.15
27
2.9) Antiguos ejes del análisis en Rp
El vector unitario ei del eje original j se proyecta sobre los nuevos ejes
factoriales. La coordenada de ej en la dirección u es:
ejtu =( 0 0 … 1 … 0)u = u j = Gj/ 
La posición de cada antiguo eje ej en un plano factorial
nos da la dirección de crecimiento de esta variable.
Su tamaño nos indica la magnitud del cambio.
Por ejemplo, el vector (uj , uj) nos indica en el plano factorial 1-2, hacia
dónde y cuánto se desplazaría la posición de un individuo si aumentase un punto
en la variable original j (puntuación de 100m en el ejemplo).
Nota: No confundir la dirección de crecimiento de una variable (análisis en
Rp) con la posición del punto variable en el plano factorial (análisis en Rn).
El punto-variable xj del segundo análisis se proyecta sobre los diferentes ejes
principales de Rn v1 … vp dando lugar a las coordenadas
G1j, G2j, … Gpj
Por otro lado, en el primer análisis, la dirección de crecimiento de la
variable j es la del vector ej=( 0 0 … 1 … 0). Veamos cuál es esta dirección de
crecimiento de la variable j al representarla en los diferentes planos factoriales.
Este punto, esta dirección de crecimiento, se proyecta sobre las direcciones
principales de Rp y sus coordenadas son, según acabamos de ver:
u1j, u2j, … upj
Las relaciones u  j = G j/  muestran que la dirección que marca un
punto-variable proyectado en un plano factorial del 2º análisis (G1j, G2j)
difiere de la dirección de crecimiento de esa variable original, (uj , uj)
Posición de la variable j en el plano 1-2: (G1j, G2j) = ( 1 uj , 2 uj)
cuando 1≈ 2 , entonces la dirección (G1j, G2j) se parece a (uj , uj) …
Sólo en el caso de un plano factorial formado por dos ejes con valores
propios similares, las direcciones de los puntos-variable me darán con precisión
aceptable las direcciones (y magnitudes relativas) de crecimiento de las variables
en el plano factorial.
El ACP de la matriz de Covarianzas. Análisis en Rn
Análisis Componentes Principales / ACP2
08.10.15
28
2.10) Reconstrucción de datos
Los datos originales pueden reconstruirse a partir de las Componentes Principales (éstas
aparecen mediante un giro de ejes, que puede deshacerse).
La reconstrucción será perfecta si utilizamos todas ellas (p) y será aproximada si utilizamos
solamente las q primeras (q<p).
Perderemos información, pero a cambio ganaremos simplicidad y reduciremos espacio de
almacenamiento, lo cual resulta determinante en ocasiones (ejemplo de las imágenes de caras,
q<<p).
Veamos: A partir de las relaciones de transición tenemos que
F= X u =  v(para cada =1…n)
postmultiplicando por ut:
sumando en X
p


uu t =
p
X =

 1
p


 vu t … pero
1
1
luego
 vu t (para cada =1…n)
X uu t =
p
vu t =  Fu t
 1
p


uu t =U Ut = I
1
reconstrucción
perfecta.
Es decir, reconstruimos X a partir de los p factores calculados F y los p autovectores u. Esta
reconstrucción es perfecta.
Tomando ahora la información de sólo las q primeras Componentes Principales, tendremos
una reconstrucción aproximada de X:
*
q
X  X=
 1

t
q
vu =  Fu t
 1
reconstrucción
aproximada.
Se han despreciado los factores q+1 … p. En la reconstrucción éstos aparecen afectados por
 , que serán pequeños (ver el sumatorio). La calidad de esta reconstrucción aproximada,
viene dada por la proporción de inercia que recogen las q primeras CCPP utilizadas:









 q = 100 (1 +  2 + … +q) / Io
100 de las 5000 imágenes originales y su reconstrucción a partir de las 100 primeras CCPP
Análisis Componentes Principales / ACP2
ACP Normado: El ACP de la Matiz de Correlaciones.
08.10.15
29
2.11) En resumen: Formulario Teórico ACP/ Análisis en Rp y análisis en Rn. Relaciones.
AF
Puntos a estudiar:
(filas de la matriz X)
Matriz de Datos: X
Pesos: Iguales
Métrica:
Euclídea habitual
Matriz a diagonalizar:
S= Xt X
Soluciones: v.v.p.p.
Relaciones:
Factores calculados: Xu
(nuevas coordenadas)
Relaciones:
ACP
1) Análisis en Rp
x1, x2, … ,xn
filas de la matriz X de desviaciones
(puntuaciones centradas)
X
ACP
2) Análisis en Rn
x1, x2, … ,xp
filas de la matriz transpuesta Xt
= columnas de la matriz X
Xt
I
I
I
I
Sp = XtX = matriz de Covarianzas
Sn = X Xt
Ejes:
v1 v2 ... vp vp+1 vp+2 …
Inercias: 1  2 ...  p 0 0 …
Ejes:
u1 u2 ... up
Inercias: 1  2 ...  p
= = 1 ... p
G= Xt v = 1 ... p
F= X u = 1 ... p
u=
1

Gv=
1

F
Contribuciones Absolutas
c.a. (i) = 100 Fi 2 / 
c.a. (j) = Gj 2 /  = uj 2
Contribuciones Relativas
c.r. (i) = Fi 2 / d2(0,xi)
c.r.(j)= Gj 2 / d2(0,xj)= corr 2(eje , vble j)
Análisis Componentes Principales / ACP2
ACP Normado: El ACP de la Matiz de Correlaciones.
08.10.15
2.12) Lista de tareas básicas en un ACP:
1.- Elijo una de las dos opciones posibles:
a) igualar las varianzas (ACP Normado, que se estudiará después).
b) respetar las escalas de medida originales (ACP de la m. de covarianzas)
2.- Analizo los valores propios: Elijo el nº apropiado de ejes.
3.- Analizo la nube de individuos:
-
Identifico individuos responsables de la aparición de cada eje
-
dist0;
-
Analizo proximidades/separaciones entre individuos, la existencia de grupos...
(tener en cuenta las c.r.)
detecto individuos alejados.
decido qué hacer con ellos ¿Eliminarlos y pasar otro ACP?
4.- Analizo la nube de variables:
-
estructura de correlaciones entre las variables originales:
+ variables correladas: puntos-variable alineados.
+ variables incorreladas: puntos-variable perpendiculares
(tener en cuenta las c.r.)
5.- Relaciono los dos análisis:
-
Interpreto cada eje principal:
+ coeficientes que definen cada componente principal.
+ correlaciones de las C.P. con las variables originales.
-
Identifico individuos alejados en cada eje
deduciendo sus características en términos de las variables originales.
-
Direcciones intermedias e individuos alejados en ellas;
dirección de crecimiento de cada variable original.
30
Análisis Componentes Principales / ACP2
ACP Normado: El ACP de la Matiz de Correlaciones.
ÍNDICE
08.10.15
31
página
ACP de la matriz de Covarianzas
Nube de individuos.
1) Análisis en Rp: AF de las filas de X.
1.1) Nube.
1.2) Métrica I (Euclídea unitaria).
1.3) Primer Factor Calculado.
1.4) Peso de cada punto: todos iguales.
1.5) Matriz a diagonalizar: XtX.
1.7) Inercia.
1.8) Factores calculados.
1.9) Contribuciones absolutas.
1.10) Contribuciones relativas.
1.11) Gráficos.
1.12) En resumen: Formulario Teórico.
3
3
3
6
6
7
7
8
8
9
10
12
Nube de variables.
13
2)
Análisis en Rn: AF de las filas de Xt (col. de X).
2.1) La Nube de puntos-variable.
13
14
2.1.1) El c. de g. de la nube (centro de gravedad): Gn
2.1.2) Algunas disposiciones especiales.
15
2.2) Métrica: I (Euclídea unitaria).
16
2.3) Peso de cada punto: Todos iguales.
17
t
17
2.4) Matriz a diagonalizar: XX .
2.5) Relaciones de transición.
17
2.6) Correlación variables-componentes principales. 19
2.7) Contribuciones.
23
2.8) Gráficos.
23
p
27
2.9) Antiguos ejes del análisis en R .
2.10) Reconstrucción de la matriz de datos
28
2.11) En resumen: Formulario Teórico
29
2.12) Lista de tareas básicas en un ACP.
30
Descargar