2) La nube en forma de matriz de Datos, X

Anuncio
Análisis Factorial / AF0 El AF (Análisis Factorial)
1
AF (Análisis Factorial)
Dada una nube de puntos en Rp ... el AF trata de
representarla en menor dimensión de la mejor forma posible.
ÍNDICE
página
1)
Visión geométrica del AF
2
2)
La nube en forma de matriz de Datos, X
4
3)
El objetivo del AF
6
4)
Cómo decido qué espacio es mejor?
7
4.1) Proyección de x sobre una dirección u de Rp
8
5)
El mejor subespacio de dimensión k (k<p).
10
6)
Ayudas a la interpretación
13
6.1) Contribuciones absolutas
13
6.2) Contribuciones relativas
14
6.3) Elementos Suplementarios o Ilustrativos 17
7)
Formulario del AF.
18
8)
Resumen del AF
19
Análisis Factorial / AF0 El AF (Análisis Factorial)
1)
Visión geométrica del AF:
1.1) El problema de reducción de dimensión más sencillo:
Representar n puntos del plano en una recta lo mejor posible.
Aquí tenemos una nube de puntos en el plano (R2):
Buscamos desde dentro del plano “el mejor punto de vista”.
2
Análisis Factorial / AF0 El AF (Análisis Factorial)
Existen puntos de vista (direcciones u) mejores:
... y peores:
Cuanto más se dispersen las proyecciones, mejor información
tendremos de cómo es la nube original en R2, puesto que así,
las distancias que veo entre los puntos proyectados se
parecerán más a las distancias reales que existen entre ellos en R2.
3
Análisis Factorial / AF0 El AF (Análisis Factorial)
El AF busca la mejor dirección:
1.2) En el problema general la idea es la misma:
 Los n puntos están en Rp (p coordenadas);
 el AF busca la mejor representación posible de la nube en
R (eje) , R2 (plano), ... Rq (subespacio de dimensión q) (q<p) .
2)
La nube en forma de matriz de Datos, X:
Tengo n puntos de Rp:
x1, x2, ... , xn.
Cada punto de R tiene p coordenadas:
xi = (xi1, xi2, ... , xip)t
Con estas n filas formo la “matriz de datos” X :
p
X=
4
Análisis Factorial / AF0 El AF (Análisis Factorial)
5
Ejemplo de una pequeña matriz de Datos X (en amarillo);
Puntos obtenidos por los atletas en cada prueba del decathlon
=============================================================
100 m. longitud peso altura 400 m. 110m.v. disco pertiga javal. 1500 m.
-----------------------------------------------------------------------1
THOMPSON
935
1010
807
925
955
926
769
1028
767
585
2
HINGSEN
817
1004
844
950
905
901
781
957
738
632
3
DEGTJARJOV
768
893
759
900
825
859
868
981
732
662
4
NIKLAUS
869
867
802
874
915
856
804
884
857
448
5
WENTZ
787
871
781
874
878
880
782
884
807
592
6
KUELVET
738
814
700
950
848
850
870
957
764
569
7
STEEN
763
887
604
900
862
839
709
1005
753
658
8
BOREHAM
795
853
701
874
890
841
680
859
772
670
9
RUEFENACHT
903
818
700
849
877
919
718
884
716
460
10
KOLOWANON
761
846
728
900
765
881
781
981
714
485
11
BAGINSKI
747
796
682
849
792
800
746
932
767
564
12
MITRAKIEV
771
824
668
874
802
840
704
859
710
609
13
HADFIELD
785
911
728
680
878
805
709
884
747
527
14
GUGLER
657
810
698
849
773
820
746
909
771
612
15
ZENIOU
696
774
765
725
785
791
706
932
795
578
16
KUBISZEWSKI
724
746
763
849
785
870
724
807
760
509
17
LITHELLN
712
875
754
725
829
838
762
807
585
516
18
CLAVERIE
756
873
624
725
863
815
655
957
620
474
19
VLASIC
622
820
673
769
759
786
698
807
695
619
20
STERRER
668
834
601
849
753
751
655
807
642
551
Cada fila es un punto de R10. Resulta imposible dibujar estos
20 puntos en R10 para visualizar el comportamiento de cada atleta
en las 10 pruebas simultáneamente, localizar atletas con todas las
puntuaciones similares, atletas atípicos, grupos ...
... pero el AF me da la mejor representación posible de esta nube de
puntos de R10 en un espacio de dimensión menor.
Veamos por ejemplo la mejor representación en R2:
AXE 1
*
AXE 2
AXE 2
--------------------------------------------------------------------------KUEL--------DEGT------------------------|
|
|
|
GUGL
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| STEE
|
+
|
|
|
BAGI
|
|
|
|
|
|
|
|
|
VLAS
|
|
|
ZENI
|
|
|
|
WENT
|
|
MITR
| BOREKOLO
|
|
|
HING
|
|
|
+------------------------------------------KUBI-------------+-------------------------------------------------------|
STER
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
THOM
|
|
|
|
|
NIKL
|
+
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
LITH
HADF
|
|
|
|
|
+-----------+---------------+------CLAV-----+---------------+--------------RUEF-------------+---------------+-------3
-2
-1
0
1
2
3
AXE 1
XZ
1
0
-1
-2
Las distancias entre atletas en este plano se parecen lo más posible
a las distancias reales (computadas con los datos de las 10 pruebas)
Análisis Factorial / AF0 El AF (Análisis Factorial)
3)
6
El objetivo del AF:
Dada una nube de puntos de Rp (filas de X),
el AF da la mejor representación posible
en un espacio de dimensión menor.
Input: Matriz de Datos 
Output:
Salida gráfica

Salida numérica 
------------------------------------------------------------------------------------------------------------------------------COORDOONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUS SUR LES AXES 1 A 5
------------------------------------------------------------------------------------------------------------------------------+---------------------------------------+-------------------------------+--------------------------+--------------------------+
|
INDIVIDUS
|
COORDONNEES
|
CONTRIBUTIONS
|
COSINUS CARRES
|
|---------------------------------------+-------------------------------+--------------------------+--------------------------|
| IDENTIFICATEUR
P.REL DISTO |
1
2
3
4
5
|
1
2
3
4
5 |
1
2
3
4
5 |
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
| THOMPSON
5.00 25.32 | 4.76 -.91 1.23
.12
.06 | 25.9 2.7 6.0
.1
.0 | .90 .03 .06 .00 .00 |
| HINGSEN
5.00 16.44 | 3.50
.21 1.00
.66 -1.29 | 14.0
.1 3.9 2.6 10.6 | .74 .00 .06 .03 .10 |
| DEGTJARJOV
5.00
9.25 | 1.69 1.86
.43 -.31 -1.35 | 3.3 11.2
.7
.6 11.6 | .31 .37 .02 .01 .20 |
| NIKLAUS
5.00 13.79 | 2.38 -.91 -2.16
.54
.79 | 6.5 2.7 18.3 1.8 4.0 | .41 .06 .34 .02 .05 |
| WENTZ
5.00
4.41 | 1.61
.41 -.75
.86
.00 | 3.0
.5 2.2 4.5
.0 | .59 .04 .13 .17 .00 |
| KUELVET
5.00
8.05 | 1.08 1.79 -.68 -1.23 -.18 | 1.3 10.3 1.8 9.3
.2 | .14 .40 .06 .19 .00 |
| STEEN
5.00
8.57 |
.30 1.08 2.26 -.43 1.33 |
.1 3.7 20.2 1.1 11.3 | .01 .14 .60 .02 .21 |
| BOREHAM
5.00
5.71 |
.17
.34
.91 1.33 1.09 |
.0
.4 3.2 10.9 7.6 | .01 .02 .14 .31 .21 |
| RUEFENACHT
5.00 10.16 | 1.06 -2.05 -.90 -1.25 1.04 | 1.3 13.6 3.2 9.6 6.9 | .11 .41 .08 .15 .11 |
| KOLOWANON
5.00
6.14 |
.45
.27 -.73 -1.96 -.42 |
.2
.2 2.1 23.5 1.1 | .03 .01 .09 .62 .03 |
| BAGINSKI
5.00
3.25 | -1.01
.90 -.33 -.30
.73 | 1.2 2.6
.4
.6 3.4 | .31 .25 .03 .03 .16 |
| MITRAKIEV
5.00
2.93 | -1.01
.35
.41 -.23
.42 | 1.2
.4
.7
.3 1.1 | .35 .04 .06 .02 .06 |
| HADFIELD
5.00
7.54 | -.54 -1.84
.24 1.47 -.01 |
.3 10.9
.2 13.3
.0 | .04 .45 .01 .29 .00 |
| GUGLER
5.00
4.94 | -1.33 1.65 -.23
.17
.03 | 2.0 8.8
.2
.2
.0 | .36 .55 .01 .01 .00 |
| ZENIOU
5.00
9.10 | -1.67
.54 -.92 1.28
.39 | 3.2
.9 3.3 10.0 1.0 | .31 .03 .09 .18 .02 |
| KUBISZEWSKI
5.00
8.03 | -1.10
.02 -2.28 -.04
.15 | 1.4
.0 20.5
.0
.1 | .15 .00 .65 .00 .00 |
| LITHELLN
5.00 11.97 | -1.52 -1.81 -.21 -.02 -2.42 | 2.6 10.6
.2
.0 37.5 | .19 .27 .00 .00 .49 |
| CLAVERIE
5.00 13.47 | -1.70 -2.44 1.50 -.98
.29 | 3.3 19.1 8.8 5.9
.6 | .21 .44 .17 .07 .01 |
| VLASIC
5.00 12.65 | -3.29
.63
.25
.81 -.68 | 12.3 1.3
.2 4.1 2.9 | .85 .03 .00 .05 .04 |
| STERRER
5.00 18.28 | -3.84 -.08
.95 -.51
.03 | 16.9
.0 3.6 1.6
.0 | .81 .00 .05 .01 .00 |
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
Análisis Factorial / AF0 El AF (Análisis Factorial)
4)
7
Cómo decido qué espacio es mejor?
Al proyectar la nube de puntos sobre un subespacio S de
dimensión k (recta, plano…) obtengo una representación de la
nube (una “foto”). Según la orientación que tenga el subespacio la
representación de la nube será mejor o peor.
Para cada subespacio S necesito medir de alguna forma la
“calidad de la representación” que se obtiene de la nube.
Comparando estas medidas, encuentro el subespacio de más
calidad.
Criterio de buena representación en un subespacio:
Gran separación entre los puntos proyectados en él.
n
IS =  d2 (0,proyS xi)
i 1
IS mide la dispersión respecto del origen 0 de la nube
proyectada sobre el subespacio S.
IS se denomina “Inercia recogida por el subespacio S”.
El mejor subespacio S de dimensión k, será
aquél que recoja más inercia (nube proyectada más dispersa):
Busco S de dimensión k tal que IS sea máxima.
Nota:
Lógicamente, el subespacio óptimo de dimensión 2 será mejor que el óptimo de
dimensión 1. …
Análisis Factorial / AF0 El AF (Análisis Factorial)
8
4.1) Proyección de un punto x sobre una dirección u de Rp:
proyu x = u con = xtu
Al valor xtu se le denomina “coordenada del punto x en el eje u”:
Las coordenadas originales de xi son
xi1, xi2 , ... , xip
y las de u son u1, u2, ... , up
resulta:
xitu = u1xi1+ u2xi2 + ... + up xip
Es decir que la “coordenada del punto xi en el eje u” es una
c.l. (combinación lineal) de los valores originales xi1, xi2 , ... , xip con
coeficientes u1 , u2 , ... , up ; es el valor que toma para el individuo i
esa c.l. de los valores originales.
Esto nos permite realizar una... Interpretación estadística:
A cada dirección u=( u1, u2, ... , up)t de Rp corresponde una
variable artificial U que es combinación lineal de las p
puntuaciones originales V1 V2 ... Vp:
U= u1V1+ u2V2 + ... + up Vp
La coordenada xtu del punto x en este eje u, es entonces el
valor del punto x en esa variable artificial U.
Los n puntos de la nube en Rp dan lugar a sus
correspondientes n coordenadas en este eje u: x1tu, x2tu, ... xntu.
Reúno estos n valores formando un vector Fu que
denominamos “vector de factores calculados para el eje u”:
 x1t u   x1t 
 t   t
xu
x
Fu   2    2  u = Xu
...
...

  
 xt u   xt 
 n   n
Análisis Factorial / AF0 El AF (Análisis Factorial)
9
Ejemplo con p=2:
V1: puntuación en 100m.
V2: puntuación en salto de longitud.
 0.8 

 0.6 
Una dirección arbitraria de R2:
Nueva variable U c.l. de V1 y V2:
u= 
U= 0.8 V1 + 0.6 V2
La coordenada del punto x1 (THOMPSON) en el eje u será:
x1tu = 0.8 935 + 0.6 1010 = 1354
1354 es el valor de la variable artificial U observada en THOMPSON.
La coordenada del punto x2 (HINGSEN) en el eje u será:
x2tu = 0.8 817 + 0.6 1014 = 1256
1256 es el valor de la variable artificial U observada en HINGSEN.
...
...
La coordenada del punto x20 (STERRER) en el eje u será:
x2tu = 0.8 668 + 0.6 834 = 1034.8
1034.8 es el valor de la variable artificial U observada en STERRER.
1
2
3
4
5
6
7
V1
V2
U =0.8V1 + 0.6V2
100 m. longitud
v.artificial
------ ------------------THOMPSON
935 1010
1354,0
HINGSEN
817 1004
1256,0
DEGTJARJOV
768
893
1150,2
NIKLAUS
869
867
1215,4
WENTZ
787
871
1152,2
KUELVET
738
814
1078,8
STEEN
763
887
u=(0.8,0.6) 1142,6
8
9
10
11
12
13
14
15
16
17
18
19
20
BOREHAM
RUEFENACHT
KOLOWANON
BAGINSKI
MITRAKIEV
HADFIELD
GUGLER
ZENIOU
KUBISZEWSKI
LITHELLN
CLAVERIE
VLASIC
STERRER
795
903
761
747
771
785
657
696
724
712
756
622
668
853
818
846
796
824
911
810
774
746
875
873
820
834

1147,8
1213,2
1116,4
1075,2
1111,2
1174,6
1011,6
1021,2
1026,8
1094,6
1128,6
989,6
1034,8
Fu
Análisis Factorial / AF0 El AF (Análisis Factorial)
5)
10
El mejor subespacio de dimensión k (k<p).
5.1) Resolvemos primero el problema para k=1 (mejor recta).
Inercia recogida sobre la dirección u (dispersión) :
n
Iu =  d2 (0,proyu xi) = || Xu ||2 =ut XtXu.
i 1
Busco u / Iu= máx : Primer eje factorial.
Solución:
Iu máxima = mayor valor propio de XtX:1.
u= u1 vector propio unitario de XtX asociado a1 .
5.2) Resolvemos luego el problema para k=2 (mejor plano).
El mejor plano contiene a la mejor recta (u1).
Para completar el mejor plano busco la mejor recta ortogonal a u 1
Busco u ortogonal a u1 / Iu= máx : Segundo eje factorial.
Solución:
Iu máxima = segundo mayor valor propio de XtX:2 .
u= u2 vector propio unitario de XtX asociado a2 .
5.3) Resolvemos el problema para k=3 (mejor espacio dim3).
El mejor espacio (dim3) contiene al mejor plano (u1 y u2).
Para completar el mejor espacio dim3 busco la mejor recta
ortogonal a u1 y u2:
Busco u ortogonal a u1 y u2 / Iu= máx : Tercer eje factorial.
Solución:
Iu máxima = tercer mayor valor propio de XtX:3 .
u= u3 vector propio unitario de XtX asociado a3 .
...
y continuamos así sucesivamente hasta alcanzar p, dimensión del
espacio original.
Análisis Factorial / AF0 El AF (Análisis Factorial)
11
En resumen, el AF trabaja así:
Problema analítico:
Soluciones
/ Iu= máx  u=u1 Iu11
paso 1 Busco u
Primer eje factorial: u1
Inercia recogida por este eje: 1
paso 2 Busco u ortogonal a u1
/ Iu= máx  u=u2 Iu22
Segundo eje factorial: u2
u1 y u2 definen el primer plano factorial.
Inercia recogida por este eje: 2
Inercia recogida por el primer plano factorial: 1 + 2.
...
paso q Busco u ortogonal a u1 , .. uq-1 / Iu= máx  u=uq Iuq q
t
(v. y v. p. de X X )
q-ésimo eje factorial: uq .
u1, u2 ... uq definen el subespacio factorial q-dimensional.
Inercia recogida por este eje: q .
Inercia recogida por el s.e. factorial: 1 + 2 +...+  q.
...
Hasta paso p
Solución del AF:
Direcciones: u1, u2, .. up vectores propios de XtX.
Inercias:
1,  2, ..  p valores propios de XtX.
n
I=  d2 (0, xi)
Así, la inercia total de la nube,
i 1
se ha repartido entre los p ejes:
El eje  recoge una inercia:
que supone una tasa
I= 1+  2+ .. +  p .
n
n
i 1
i 1
 =  d2(0,proyu  xi)=  Fi
λα
λα
 =
(en tanto por 1) ó 100 (en % del total)
I
I
Análisis Factorial / AF0 El AF (Análisis Factorial)
12
Recopilación de las ideas importantes del AF vistas hasta aquí:
1-
La matriz a diagonalizar es XtX.
2- Cada dirección (factor principal) es una c.l. (combinación
lineal) de las variables originales (con coeficientes dados por las
componentes de u:
La coordenada del punto i (xi) sobre el eje factorial  es
F= xit u = uxi1 uxi2upxip
y esto es una c.l. de las p medidas originales de la fila i:
xi1 xi2 ... xip
con coeficientes
u uup respectivamente.
3- El factor  observado en los n individuos de la muestra da
lugar a n valores que se denominan “Factores calculados” y se
reúnen en el vector F:
F= X u

- La dispersión de estos n valores Fes la inercia recogida por
el eje


Iu =|| F||2 =|| Xu ||2 = utXt .Xu.
5-
Subespacios factoriales
La mejor dirección en Rp es la que contiene a u1.
El mejor plano de Rp es el que contiene a u1 y u2.
...
El mejor subespacio de dimensión q en Rp (q<p)es el que contiene
a u1 , u2 .... uq.
---------------------------Para finalizar el tema, el apartado 6) introduce ciertos
elementos (contribuciones y elementos ilustrativos) que ayudan a
interpretar las salidas de un AF y son muy importantes desde el
punto de vista práctico:
Análisis Factorial / AF0 El AF (Análisis Factorial)
6)
13
Ayudas a la interpretación:
6.1) Contribuciones absolutas
6.2) Contribuciones relativas
6.3) Elementos Suplementarios o Ilustrativos
6.1) Contribuciones absolutas
Hemos visto en 5) que la inercia del eje  vale
n
n
i 1
i 1
 =  d2(0,proyu  xi)=  Fi 
Cada punto i aporta a   el sumando Fi 2.
Esta aportación del punto i al eje  (expresada en %) es del
100 Fi 2 /  

y se denomina “contribución absoluta” del punto i al eje :
c.a. (i) = 100 Fi 2 / 
Estas c.a. se utilizan para identificar los puntos responsables
de la aparición de cada eje, y por tanto la información más
relevante contenida en los datos.
Lo misma idea se utiliza para definir c.a. de un punto en un
plano o en un subespacio de mayor dimensión.
Ejemplo: Al lado vemos una
nube de Rp proyectada sobre
el plano factorial 1-2.
La información más
destacada en términos de
dispersión de esta nube de
puntos, es la posición de los
puntos a, b y c.
Los puntos a y b determinan la dirección del eje 1. Las c.a. al
eje 1 serán mucho mayores para a y b que para los demás puntos.
El eje 2 viene determinado por la posición de c, alejado del
grupo en esa otra dirección. En este eje 2, la mayor c.a. será la del
punto c.
Análisis Factorial / AF0 El AF (Análisis Factorial)
14
6.2) Contribuciones relativas
Dos puntos próximos en Rp, siempre aparecerán próximos al
proyectarlos sobre cualquier subespacio (la proyección es siempre
contractiva), y en particular al proyectarlos sobre los ejes y planos
factoriales:
... pero dos puntos alejados en Rp, al ser proyectados sobre
un subespacio, pueden aparecer próximos también:
El AF dibuja la nube proyectada sobre planos factoriales.
Entonces, dos puntos que veo próximos en un plano o espacio
factorial, ¿estarán realmente próximos en Rp ?
Para responder me ayudo de las “contribuciones relativas”.
La idea:
Cuando cos2() es grande (próximo a 1),
el ángulo  es pequeño y
el cateto AB es pequeño comparado con 0A.
Análisis Factorial / AF0 El AF (Análisis Factorial)
15
Aplico esta idea en Rp para:
A= un punto xi
B= la proyección de xi sobre un eje ;
y defino la contribución relativa del punto i en el eje  como el
coseno2 del ángulo i , que forma el punto xi con el eje :
2
c.r.(xi) = cos (i) =
d 2 (0, proy uα xi )
d 2 (0, xi )
F i 2
= 2
d (0, x i )
Cuando c.r.(xi) es grande (próximo a 1), decimos que el
punto xi “está bien representado en el eje ". En ese caso, i es
pequeño y por tanto, el cateto que no vemos (xi-proyu  xi) es
pequeño en comparación con el que vemos representado (0-proyu 
xi). El punto xi y su proyección se encuentran próximos en Rp.
Aplicación práctica: Nos ayudaremos de estas c.r. para extraer
conclusiones sobre la proximidad o lejanía real en Rp de puntos que
veo próximos en un eje, en un plano o en un subespacio factorial.
Cuando dos puntos A y B aparecen próximos en un eje plano
o subespacio, si ambos están bien representados, estarán
necesariamente próximos, puesto que:
Estos puntos A y B, que están próximos en la dirección que
vemos (eje, plano o subespacio factorial), si además están bien
representados, estaremos seguros de que en la dirección que no
vemos tampoco se alejan uno de otro (pues será pequeño ese cateto
que no vemos y que va en Rp de xi a proyuxi ). Por lo tanto estarán
también juntos en Rp (es decir, cada coordenada de A se parecerá a
la coordenada correspondiente de B).
Análisis Factorial / AF0 El AF (Análisis Factorial)
Dos puntos A y B próximos en el eje 
a) Si están bien representados estarán próximos en Rp.
b) Si sólo uno está bien representado, estarán alejados en Rp.
c) Si ambos puntos están mal representados,
pueden estar próximos o alejados en Rp.
16
Análisis Factorial / AF0 El AF (Análisis Factorial)
17
Decíamos antes que esta misma idea se aplica en un plano
factorial o en cualquier otro subespacio factorial.
Para calcular las c.r. utilizo esta propiedad:
La c.r. de un punto en un subespacio factorial
es la suma de las c.r. en los ejes factoriales que lo definen.
Por ejemplo, para el plano factorial 1-2:
d 2 (0, proy 1-2 x i ) F1i 2  F2 i 2
c.r.(xi) = cos (i) =
= 2
=
d 2 (0, xi )
d (0, x i )
2
= c.r.(xi) + c.r.2 (xi)
6.3) Elementos Suplementarios o Ilustrativos
Elementos activos :
Utilizo los puntos que forman la nube para calcular la
posición de los eje principales (por eso se denominan “elementos
activos”); Luego los proyecto sobre estos ejes para obtener la
mejor representación de la nube en menor dimensión.
Elementos ilustrativos :
Pero además de estos elementos activos, puedo también
proyectar sobre los ejes factoriales otros puntos de Rp que yo
considere interesantes y que me ayudan a interpretar la salida
Análisis Factorial / AF0 El AF (Análisis Factorial)
7)
18
Formulario del AF.
AF de n puntos x1 x2 ... xn en Rp (filas de X)
Puntos a estudiar:
Matriz de Datos:
x1, x2 ... xn
X
( fila i = xit )
Pesos:
iguales para todos
11…1
(asociados a la matriz I)
Métrica:
Euclídea habitual
d2(xi,xj)=(xi-xj)tI(xi-xj)
(asociada a la matriz I)
Proyección del punto x
sobre una dirección u:
Pu x= u (utx)
Coordenada del punto x
en la dirección u:
utx = xtu = d(0, Pu x)
Coordenadas de los n puntos
en la dirección u:
Fu= Xu
Inercia recogida dirección u:
(a maximizar en u)
 u i d2(0, Pu xi) =
=i(utx)2 = Fut Fu
= (Xu)t(Xu)= utXtXu
Matriz a diagonalizar:
Xt X
Soluciones:
Valores y vectores
propios de Xt X:
u1 ...p
Dirección del eje :
u
Inercia del eje :

Factor calculado :
(valores de la nueva variable
artificial U)
F = Xu
c.a.(i)
100 Fi2 / 
c.r.(i)
100 Fi2 / d2(0, xi)
Análisis Factorial / AF0 El AF (Análisis Factorial)
19
8) Resumen del AF (Análisis Factorial)
1 Objetivo:
Dada una nube de puntos de Rp (filas de X),
el AF da la mejor representación posible
en un espacio de dimensión menor.
2 Criterio de buena representación en un subespacio:
Máxima separación (dispersión) entre las proyecciones.
Utilizo como medida de calidad de una dirección la…
Inercia recogida sobre esta dirección u (dispersión) :
n
Iu =  d2 (0,proyu xi) = || Xu ||2 =utXtXu.
i 1
3 Problema analítico:
Soluciones
/ Iu= máx  u=u1 Iu11
/ Iu= máx  u=u2 Iu22
paso 1 Busco u
paso 2 Busco u ortogonal a u1
...
paso p Busco u ortogonal a u1 , .. up-1 / Iu= máx  u=up Iu p p
t
v. y v. p. de X X.
4 Solución:
Direcciones: u1, u2, .. up vectores propios de XtX.
Inercias:
1,  2, ..  p valores propios de XtX.
5 Notas:
t
En un ACP los datos se centran.
XtX es la matriz de covarianzas muestrales.
En un ACP Normado los datos se centran y escalan.
XtX es la matriz de correlaciones muestrales.
1- La matriz a diagonalizar es X X:
2- Cada dirección (factor principal)
es una c.l. de las variables originales
(con coeficientes dados por las componentes de u.
3- Los n valores del factor  observado en los n individuos de la
muestra se denominan “Factores calculados”: F= X u
La dispersión de estos valores Fes la inercia recogida por el
eje

Iu =|| F||2 =|| Xu ||2 = utXt .Xu.
Análisis Factorial / AF0 El AF (Análisis Factorial)
20
Análisis Factorial / AF0 El AF (Análisis Factorial)
21
Análisis Factorial / AF0 El AF (Análisis Factorial)
22
Análisis Factorial / AF0 El AF (Análisis Factorial)
23
Descargar