Análisis de Compon Principales. Clasific de Países según las

Anuncio
Análisis de Componentes
Principales. Clasificación
de Países según las
carreras de atletismo.
Trabajo Fin de Máster
Realizado por: José Antonio Sánchez Rivera
Tutor: Dr. D. Ramón Gutiérrez Sánchez
Máster en Estadística Aplicada.
A
Departamento de Estadística e Investigación Operativa.
Universidad de Granada. 2011/2012
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Índice
1. MODELO DE ANÁLISIS DE COMPONENTES PRINCIPALES ...................... 3
1.1.
Introducción: .................................................................................................. 3
1.2.
Construcción de las Componentes Principales ................................................. 4
1.2.1.
1.2.2.
1.3.
Construcción sucesiva de las componentes principales ....................................5
Construcción conjunta de las componentes principales ...................................8
Estructura de la matriz de covarianza en el ACP. .......................................... 9
1.3.1.
Propiedad de invarianza .................................................................................. 10
1.3.2.
Correlación entre las CP y las variables originales. ............................................ 10
1.3.3.
Estructuras especiales de .............................................................................. 11
1.3.4.
Componentes principales sobre la matriz de correlación ............................... 11
1.3.5.
Muestras de combinaciones lineales de variables aleatorias............................. 12
1.4.
Análisis de Componentes Principales Muestral (ACPM) ................................. 13
1.5.
Análisis de Componentes Principales en poblaciones normales. .................... 15
1.5.1.
Resultados de Anderson-Girschick ................................................................... 16
1.6.
Cálculo de las Componentes Principales poblacionales .................................. 17
1.7.
Manejo simultáneo de todas las componentes principales. ........................... 20
1.8. Test basados en la matriz de covarianzas muestrales. ................................ 21
1.8.1.
1.8.2.
1.8.3.
1.9.
Test de Barlett .................................................................................... 21
Test de Bartlett-Lawley ....................................................................... 22
Test de Anderson ................................................................................ 23
Test basado en la matriz de correlaciones muestrales ............................... 24
1.9.1.
Casos particulares de test basados en .......................................................... 25
1.10. Selección del número de componentes principales ........................................ 26
1.10.1. Actuación con la matriz de covarianzas muestrales .............................................. 26
1.10.2. Actuación con la matriz de correlaciones muestrales ........................................... 27
1.11. Análisis de componentes principales y observaciones anómalas.................... 28
1.12. Representaciones gráficas en el ACP. ............................................................ 31
1
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
1.13. Aplicaciones del ACP: ACP sobre k-grupos ..................................................... 32
1.13.1. Modelo de Okamoto o “modelo de efectos fijos” .................................... 32
1.13.2. El ACP y la Regresión lineal ................................................................................. 33
1.14. Resultados previos: Elipsoides equiprobables en una ; y combinaciones
lineales de un vector aleatorio multidimensional. ................................................... 34
1.14.1. Combinaciones lineales de un vector aleatorio ................................................. 35
2. APLICACIÓN A DATOS REALES ............................................................ 37
2.1. Análisis exploratorio ........................................................................................ 39
2.2. Covarianza y correlación entre las variables ..................................................... 41
2.3. Test de Hipótesis sobre la Matriz de Correlaciones ........................................... 42
2.4. Cálculo de las Componentes Principales ........................................................... 44
2.5. Relación entre las Variables y las Componentes Principales .............................. 46
2.6. Contribución y Calidad de las Variables ............................................................ 48
2.7. Relación entre los Países y las Componentes Principales ................................... 49
2.8. Contribución y Calidad de los Países ................................................................. 52
2.9. Relación entre Países y Variables ..................................................................... 54
3. ANEXO 1: FUNCIONES DEL PAQUETE ade4 ......................................... 55
4. ANEXO 2: PROGRAMACIÓN EN R ....................................................... 57
5. BIBLIOGRAFÍA .................................................................................... 61
2
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Modelo de Análisis de Componentes
Principales
1.1. Introducción:
En la práctica, cuando se recoge información de una muestra de datos, lo más
habitual es tomar el mayor número posible de variables. Sin embargo, si tomamos
demasiadas variables sobre un conjunto de objetos, por ejemplo 20 variables,
tendríamos que considerar 20 180 posibles coeficientes de correlación; si
2
hablamos de 40 variables, nos encontraríamos con hasta 40 780 coeficientes.
2
Obtener más de 40 variables de estudio, ya sea en un ámbito empresarial, social,
económico o cualquier otro campo, no es nada extraño, puesto que hay muchos
estudios que requieren de la recogida de una gran cantidad de propiedades y
características. Evidentemente, en un caso así es difícil visualizar relaciones entre las
variables.
Otro problema que se plantea es la fuerte correlación que muchas veces se
presenta entre las variables, ya que si tomamos demasiadas variables (cosa que en
general sucede cuando no se sabe demasiado sobre los datos), lo normal es que estén
relacionadas o que midan lo mismo bajo distintos puntos de vista. Un ejemplo habitual
sería en un estudio médico, donde la presión sanguínea a la salida del corazón y la
salida de los pulmones están fuertemente relacionadas.
Se hace necesario en estos casos reducir el número de variables. Es importante
resaltar el hecho de que el concepto de mayor información se relaciona con el de
mayor variabilidad o varianza. Cuanto mayor sea la variabilidad de los datos (varianza)
se considera que existe mayor información, lo cual está relacionado con el concepto de
entropía.
Una de las técnicas para la reducción de variables es el Análisis de Componentes
Principales, que fue inicialmente desarrollado por Pearson a finales del siglo XIX y
posteriormente fue estudiado por Hotelling en los años 30 del siglo XX. Sin embargo,
hasta la aparición de los ordenadores no se empezó a popularizar.
Para estudiar las relaciones que se presentan entre “” variables correlacionadas,
es decir, que miden información común, se puede transformar el conjunto original de
variables en otro conjunto de nuevas variables incorreladas entre sí, que no tenga
repetición o redundancia en la información, llamado conjunto de componentes
principales.
3
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Las nuevas variables son combinaciones lineales de las anteriores y se van
construyendo según el orden de importancia en cuanto a la variabilidad total que
recogen de la muestra.
La manera ideal sería buscar “” variables ( ) que sean combinaciones
lineales de las “” originales y que estén incorreladas, recogiendo la mayor parte de la
información o variabilidad posible de los datos.
Está claro que si las variables originales están incorreladas de partida, entonces no
tiene sentido realizar un análisis de componentes principales.
El análisis de componentes principales es una técnica matemática que no requiere
la suposición de normalidad multivariante de los datos, aunque en el análisis de
componentes principales paramétrico que aquí abordaremos, el vector aleatorio
, … , # $ con el cual trabajaremos, se supondrá modelizado a la hora de
realizar inferencia por una distribución normal -dimensional.
1.2. Construcción de las Componentes Principales
Me manera global, el análisis de componentes principales pretende explicar la
estructura de covarianza de un vector aleatorio , … , % $ buscando un nuevo
sistema de ejes coordenados que indiquen las direcciones de mayor variabilidad, ya
sea en una situación teórica con matriz de covarianza Σ conocida, o con una matriz de
covarianza Σ estimada a partir de una muestra. Este nuevo sistema de ejes
coordenados es a lo que denominaremos las componentes principales.
Vamos a trabajar en primer lugar con el modelo teórico en el cuál, para un vector
aleatorio , … , % $ conocemos la matriz de covarianzas “Σ” o la matriz de
correlaciones “”.
Como ya hemos dicho, las componentes principales de un vector aleatorio dimensional , … , % $, son combinaciones lineales incorreladas entre sí.
Obtenemos por tanto componentes principales ' , … , '% , de la forma:
' ) * ) * + , + ) * % %
*
'% )%* )%* + , + )%%
%
A partir de esto deducimos que para dos componentes principales cualesquiera, '.
e '/ , para cualquier 0 y 1 en 21, … , 3 tenemos:
456'. 456).* ).* Σ).
789:'. , '/ ; 789:).* , )/* ; ).* Σ)/
Se denominan Componentes Principales (CP) de , … , # $, a las
combinaciones lineales ' , … , '# que son incorreladas entre sí y que hacen máximas las
varianzas 456'. ).* Σ). , 0 1, … , .
4
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
1.2.1. Construcción sucesiva de las componentes principales
Para la construcción de la primera componente principal se obtendrá una
combinación lineal ' ) * ) * + , + ) * % % tal que la varianza sea máxima.
Para maximizar 456' ) * Σ) , nos encontramos con una indeterminación, ya
que dicha varianza aumentará sin más que multiplicar ) ) , … , ) % por una
constante positiva. Para evitar esto, impondremos la restricción de que los vectores ).
sean unitarios.
Por tanto, haciendo uso de los multiplicadores de Lagrange, resolveremos el
siguiente problema:
max2456' 3 max2) * Σ) 3
A5) BCD ) * ) 1
?@
Para esto, construimos la función de los multiplicadores de Lagrange:
Φ ) ) * Σ ) – G ) * ) H 1
Derivamos respecto a ) , igualamos a cero y despajamos para obtener el máximo:
IΦ ) 2Σ ) H 2G) 0
I)
J
Σ H GK) 0
Por el Teorema de Roché-Frobenius, para que el anterior sistema tenga solución
distinta de 0, la matriz Σ – GK tiene que ser singular, lo que quiere decir que:
|Σ – GK| 0
Deducimos de esto que G es un autovalor de Σ. Como la matriz de covarianzas Σ es
de orden y semidefinida positiva, sabemos que tendrá autovalores positivos:
G M GN M , M G% M 0
Del sistema Σ H GK) 0, tenemos que Σ ) G) , por tanto:
*
) G
456' ) * Σ) ) * G) G )O
Como nuestro objetivo es maximizar la 456' G, tomaremos como G el
mayor autovalor, es decir, G .
Finalizamos deduciendo a partir de Σ – G K) 0 que ) es el autovector de Σ
asociado al autovalor G , que lo llamaremos D .
Resumimos por tanto que la primera componente principal vendrá dada por:
' D* 5
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Y la varianza será: 456' G
Para la construcción de la segunda componente principal se obtendrá una
*
combinación lineal 'N )N* )N* + , + )N%
% tal que la varianza sea máxima y
sea incorrelada con ' .
Por tanto, haciendo uso de los multiplicadores de Lagrange, resolveremos el
siguiente problema:
max2456'N 3 max2)N* Σ)N 3
?P
A5) BCD )N* )N 1 Q 789'N , ' )N* ΣD 0
De la condición 789'N , ' )N* ΣD 0 y como sabemos que ΣD GD , nos
queda que 789'N , ' )N* ΣD )N* GD G)N* D 0, de donde obtenemos que la
segunda condición es equivalente a:
)N* D 0
Es decir, que los dos vectores sean ortogonales. Construimos la función de los
multiplicadores de Lagrange:
ΦN )N )N* Σ )N – G )N* )N H 1 H R )N* D
Derivamos respecto a )N , igualamos a cero y despajamos para obtener el máximo:
IΦN )N 2Σ )N H 2G)N H RD 0
I)N
Multiplicamos la igualdad anterior por D * , obteniendo:
*
*
2D * Σ )N H 2G DO
)N H R DT
D 0
S
J
R 2D * Σ )N 2789' , 'N 0
De este modo:
IΦN )N 2Σ )N H 2G)N 0 J Σ H GK)N 0
I)N
Y efectuando el mismo razonamiento que en el caso anterior, deducimos que G
sería un autovalor de Σ, concretamente GN , y )N el autovector asociado DN .
Resumimos por tanto que la segunda componente principal vendrá dada por:
Y la varianza será: 456'N GN
'N DN* 6
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Para la construcción de la (j+1)-ésima componente principal se obtendrá una
*
*
*
)/U
combinación lineal '/U )/U
, + , + )/U ,% % tal que la varianza sea
máxima y sea incorrelada con ' , … , '/ .
Como en los casos anteriores, haciendo uso de los multiplicadores de Lagrange,
resolveremos el siguiente problema:
*
Σ)/U W
maxV456:'/U ;W maxV)/U
?XY@
*
*
A5) BCD )/U
)/U 1 Q 789:'/U , '. ; )/U
ΣD. 0 ; Z0 1, … , 1
*
De la condición 789:'/U , '. ; )/U
ΣD. 0; Z0 1, … , 1 y como sabemos que
*
*
ΣD. G. D. ; Z0 1, … , 1, nos queda que 789:'/U , '. ; )/U
ΣD. )/U
GD. *
G)/U D. 0, de donde obtenemos que la segunda condición es equivalente a:
*
)/U
D. 0; Z0 1, … , 1
Es decir, que el vector )/U es ortogonal a los vectores propios D. , 0 1, … , 1.
Construimos la función de los multiplicadores de Lagrange:
/
*
*
*
Φ/U :)/U ; )/U
Σ )/U – G :)/U
)/U H 1; H [ R. )/U
D.
.\
Derivamos respecto a )/U , igualamos a cero y despajamos para obtener el
máximo:
/
IΦ/U :)/U ;
2Σ )/U H 2G)/U – [ R. D. 0
I)/U
.\
Como en el caso anterior, multiplicando sucesivamente por D * , … , D/* , obtenemos
que:
R. 0; Z0 1, … , 1
De este modo:
IΦ/U :)/U ;
2Σ )/U H 2G)/U 0 J Σ H GK)/U 0
I)/U
Y efectuando el mismo razonamiento que en el caso anterior, deducimos que G
sería un autovalor de Σ, concretamente G/U , y )/U el autovector asociado D/U .
Resumimos por tanto que la (j+1)-ésima componente principal vendrá dada por:
*
'/U D/U
Y la varianza será: 456:'/U ; G/U
7
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
En general, tenemos que ' ' , … , '% $ se puede expresar como el producto de
una matriz formada por los autovectores y el vector , … , % $.
' ]·
D
donde
Como tenemos que:
] D , … , D% _ D%
, D%
`
- a
, D%%
456'. G. ; Z0 1, … , 789:'. , '/ ; 0, Z0, 1 1, … , ; 0 b 1
Nos queda que la matriz de covarianza de ' viene dada por:
G
0
Λ 456' d
0
0
GN
0
,
,
,̀
0
0
e
G%
De donde deducimos que:
Λ 456' ]* 456] ]* Σ ]
O como la matriz ] es ortogonal, es decir, ]* ] K, tenemos también que:
Σ ] Λ ]$
1.2.2. Construcción conjunta de las componentes principales
En lugar de ir obteniendo sucesivamente las componentes principales como en el
apartado anterior, resolviendo los diferentes problemas de máximos condicionados
mediante los multiplicadores de Lagrange, se puede actuar globalmente desde el
comienzo. Lógicamente se obtendrá los mismos resultados, pero tendremos que usar
el siguiente resultado de maximización.
Lema 1 (Lema de maximización). Sea ] una matriz f definida positiva, con
autovalores G M GN M , M G% g 0 y autovectores normalizados D , … , D% y sea “f”
un vector f 1, arbitrario no nulo. Se cumple entonces que:
f * ]f
G , 5)i5jk5l8 Dj f D
h
f*f
f * ]f
G% , 5)i5jk5l8 Dj f D%
min
h;h o h\S f * f
max
8
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
f * ]f
GsU , 5)i5jk5l8 Dj f DsU , t 1,2, … , H 1
hpq@ ,…,qr f * f
max
A partir de este resultado, se puede deducir que:
Teorema 1: Teorema de componentes principales: Sea , … , % $ un vector
aleatorio con matriz de covarianzas conocida u definida positiva y real y sean
G M GN M , M G% g 0 los autovalores y D , … , D% los autovectores de u. La i-ésima
componente principal '. antes definida viene dada por:
'. D.* D. + , + D.% % ; 0 1, … , Si hay autovalores iguales, pongamos Gs , … , GsUv , los autovectores Ds , … , DsUv
asociados no son únicos, por lo que, en este caso, las respectivas componentes
principales no serán únicas.
Nota: Dada una matriz w, f , definida positiva, con autovalores G M GN M , M
G% g 0 y autovectores D , … , D% . Se puede obtener su descomposición espectral como:
%
w [ G. D. D.*
.\
Sea la matriz x D , … , D% formada por columnas por los autovectores
normalizados, y Λ l05yG , GN , … , G% . Sabemos que x* x K.
Conocido esto, podemos definir w z y w
wz
%
1
xΛz x* [ D. D.*
G.
.\
/N
.
w
/N
xΛ
/N
%
x* [ |G. D. D.*
.\
1.3. Estructura de la matriz de covarianza en el ACP.
Dado Σ, definida positiva, la matriz de covarianzas de , hemos deducido que
Σ xΛ x* , donde Λ es la matriz diagonal de autovalores y x la matriz de autovectores
normalizados por columnas. Esto nos lleva a que el análisis de componentes
principales induce una fatorización estructural del matriz de covarianzas Σ del vector
, … , % $ . Vamos a utilizar esta factorización para obtener algunas
propiedades.
9
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
1.3.1. Propiedad de invarianza
En las condiciones descritas anteriormente, donde Σ xΛ x* , tenemos que:
A6Σ A6xΛ x* A6Λxx* A6Λ
Es decir:
%
%
[ 456. } + , + }%% A6Σ A6Λ G + , + G% [ 456'. .\
.\
Esta invarianza es en realidad la base de la aplicación práctica del análisis de
componentes principales, puesto que la proporción de la varianza total del vector ,
que es debida a la j-ésima componente principal, '/ , es ~
~X
@ U,U~r
, 1 1, … , .
En la práctica, se las componentes principales son tales que unas pocas explican un
alto porcentaje de la varianza total, merece la pena sustituir el vector original por
dichas componente principales.
También resulta invariante la varianza generalizada (Wilks) respecto de las
variables originales y respecto de las componentes principales, es decir, |Σ| |xΛ x* | |Λ|.
1.3.2. Correlación entre las CP y las variables originales.
Sean ' , … , '% , las componentes principales asociadas al vector aleatorio de
matriz de covarianzas conocida Σ y G. , D. sus autovalores-autovectores. Definimos
como €s* 0, … ,0,1,0, … ,0, es decir, un vector de ceros con un uno en la posición t.
Conocido esto, vamos a calcular el valor de ‚ƒ ,„… .
Como ‚ƒ ,„… †‡ˆ‚ƒ ,„… ; veamos cuánto vale 789'. , s .
|‰Šv ‚ƒ ‹‰Šv„… 789'. , s 789s , '. 789€s* , D.* €s* Σ D. €s* G. D. G. €s* D. G. D.s
donde D.s corresponde a la componente k-ésima del vector propio D. .
Tenemos que 456'. G. , 456. }ss , así que:
‚ƒ ,„… 789'. , s |456'. ‹ 456s G. D.s
|G. |}ss
|G. D.s
|}ss
; 0, t 1, … , Este es un resultado importante, ya que de esta forma podemos medir la
importancia que cada variable original, s , tiene sobre cada componente principal '. .
A raíz de la expresión, deducimos que cuanto mayor sea la k-ésima componente de D. ,
|D.s |, mayor será la correlación entre s e '. .
10
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
1.3.3. Componentes principales sobre la matriz de correlación Sea el vector aleatorio , … , % $, donde ŒŽ   , … , % y
789 Σ. Definimos  l05y:} , … }%% ;. Estandarizando el vector nos
quedaría:
‘ z /N H 
‘
}z
_ - a’
‘%%
0
0
`
}%z
H
“_
a
% H %
En el caso del vector ‘, como está estandarizado, la matriz de covarianzas coincide
con la matriz de correlaciones, quedando:
7866 7866‘ 789‘ 789”z
/N H  H * z
/N
• z
/N
Σ z
/N
El siguiente resultado nos dice que las componentes principales no son invariantes
ni homogéneas frente a esta transformación.
Lema 2: La i-ésima componente principal del vector tipificado ‘ con matriz de
covarianzas , viene dada por '. –.* ‘ –.* z /N H , 0 1, … , siendo –. los
autovectores asociados a los autovalores G. de , cumpliéndose la propiedad de que
G M GN M , M G% M 0, y verificándose además que:
%
%
[ 456'. [ 456‘. .\
.\
Nota: En la práctica, habitualmente se usa la tipificación, especialmente cuando el
rango de medición es muy diferente.
1.3.4. Estructuras especiales de En algunos casos particulares, nos encontramos con matrices de covarianzas con
una forma peculiar, sobretodo en problemas de biología:
σN
N
Σ dσ
σN
σN
σN
σN
,
,
σN
σN e
,̀ σN
11
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
donde la matriz de correlaciones vendría dada por:
1

d


1

,
,


e
,̀ 1
Si obtenemos los valores propios de , resolviendo la ecuación | H GK| 0,
cuando  es positivo, nos queda:
G 1 + H 1
GN , G% 1 H 
Es decir, nos queda una raíz de rango máximo, G , y otra de multiplicidad H 1. El
autovector asociado a la primera raíz, G , viene dado por – 1, … ,1* f z /N.
Con respecto a la raíz mútiple, le corresponde un subespacio de dimensión H 1
en el que podemos definir unos vectores ortonormales de la forma:
–N 1, H1,0, … ,0, … ,0* √1 f 2z
–™ 1,1, H2, … ,0, … ,0* √2 f 3z
–. 1,1, … , H0 H 1,0, … ,0* |0 H 1 f 0z
–% 1,1,1, … ,1, H H 1* | H 1 f z
La primera componente principal vendría dada por ' – * z
que explicaría un
+
%
~
zœ
œ
de la varianza total.
/N
f ∑%.\ . ,
1.3.5. Muestras de combinaciones lineales de variables aleatorias
Sea , … , % $ un vector aleatorio, y i$ una combinación lineal definida. Si
tomamos una muestra de tamaño , la combinaciones lineales muestrales quedarían:
i * f/ i f / + , + i% f%/ ,
1 1, … , 
siendo f/ f / , … , f%/ el j-ésimo individuo de la muestra.
La varianza muestral de las combinaciones lineales muestrales vendrá dada por:
1
i * f H i * fž N + i * fN H i * fž N + , + i * fŸ H i * fž N Ž H1
12
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
1
i * f H fž f H fž * i + i * fN H fž fN H fž * i + , + i * fŸ H fž fŸ H fž * iŽ H1
1
i * f H fž f H fž * + fN H fž fN H fž * + , + fŸ H fž fŸ H fž * Ži H1
∑Ÿ
f0 H f $
.\ f0 H f
i
i i * ¡i
H1
*
Si suponemos otra combinación lineal distinta ¢ * para la misma muestra,
tendríamos que su media muestral sería ¢ * fž y su varianza muestral ¢ * ¡ ¢. La covarianza
muestral entre las dos combinaciones lineales vendría dada por:
1
¢ * f H ¢ * fž i * f H i * fž $ + , + ¢ * fŸ H ¢ * fž i * fŸ H i * fž $Ž H1
1
¢ * f H fž f H fž * i + ¢ * fN H fž fN H fž * i + , + ¢ * fŸ H fž fŸ H fž * iŽ H1
¢$
f H fž f H fž * + fN H fž fN H fž * + , + fŸ H fž fŸ H fž *
i ¢*¡ i
H1
1.4. Análisis de Componentes Principales Muestral (ACPM)
Supongamos que disponemos de una muestra aleatoria de una población
, … , % $ de tamaño , f , fN , … , fŸ . Dicha población tiene un vector de
medias ŒŽ  y matriz de covarianzas 789Ž Σ desconocida. Llamaremos como
fž y ¡ a la media muestral y matriz de covarianza muestral respectivamente. El objetivo,
como en el caso teórico, es conseguir explicar el mayor porcentaje posible de variación
de la muestra con unas combinaciones lineales incorreladas de las variables que hagan
máximas las varianzas.
Una combinación lineal para la muestra f , fN , … , fŸ viene dada por:
).* f/ ) . f / + )N. fN/ + , + )%. f%/ ; 1 1, … , 
Nos queda que para cada combinación lineal ).* f/ , una media muestral ).* f , una
varianza muestral ).* ¡). , y para cada par ).* f/ y )s* f/ una covarianza muestral ).* ¡)s .
Llamamos primera componente principal muestral a una combinación lineal ) * tal que al considerar sus  valores sobre la muestra, 2) * f , ) * fN , … , ) * fŸ 3, éstos hacen
máxima la varianza 4562) * f , ) * fN , … , ) * fŸ 3Ž ) * ¡) sujeto a la restricción ) * ) 1.
Llamamos segunda componente principal muestral a una combinación lineal )N* tal que al considerar sus  valores sobre la muestra, 2)N* f , )N* fN , … , )N* fŸ 3, éstos hacen
máxima la varianza 4562)N* f , )N* fN , … , )N* fŸ 3Ž )N* ¡)N sujeto a la restricción de que
)N* )N 1 y que sea incorrelada con la anterior,
13
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
7892) * f , ) * fN , … , ) * fŸ 3, 2)N* f , )N* fN , … , )N* fŸ 3Ž 0
En términos matriciales, ) * ¡)N )N* ¡) 0.
Llamamos i-ésima componente principal muestral a una combinación lineal ).* tal
que al considerar sus  valores sobre la muestra, 2).* f , ).* fN , … , ).* fŸ 3, éstos hacen
máxima la varianza 4562).* f , ).* fN , … , ).* fŸ 3Ž ).* ¡). sujeto a la restricción de que
).* ). 1 y que sea incorrelada con las anteriores,
7892)s* f , )s* fN , … , )s* fŸ 3, 2).* f , ).* fN , … , ).* fŸ 3Ž 0 ; t 1, … , 0 H 1
En términos matriciales, )s* ¡). ).* ¡)s 0; t £ 0.
Teorema 2: Sea , … , % $ un vector aleatorio con vector de medias ŒŽ  y
matriz de covarianzas 789Ž u desconocida. Sea una muestra f , fN , … , fŸ de ,
con f/ :f / , fN/ , … , f%/ ;, 1 1, … , . La media muestral y la covarianza muestral
vendrían dados respectivamente por:
Ÿ
¡ ¤./ 1
fž [ f.

Ÿ
.\
1
[f.s H fž. f/s H fž. H1
s\
Sean G¥ M G¥N M , M G¥% M 0 los autovalores de ¡, obtenidos de la ecuación
|¡ H GK| 0. Sean D̂ , D̂N , … , D̂% los respectivos autovectores.
Sean Q§. D̂. f las componentes principales muestrales, donde f es cualquier
observación de la variable .
Se cumple que:
45605jk5 ¨CD¤A65)Q§. G¥.
7895605jk5 ¨CD¤A65)Q§. , Q§s 0, 0 b 1
ž©§ƒ ,h… D̂s. ªG¥.
|¤ss
%
45605jk5 «8A5) ¨CD¤A65) [ ¤.. G¥ + , + G¥%
.\
Es habitual, al igual que en el caso del modelo teórico, tipificar las observaciones.
Así que tipificando la muestra 2f , … , fŸ 3, siendo f/ f / , … , f%/ , se obtiene:
14
Análisis de Componente Principales
Es decir,
k./ Ÿ
.\
¬z
k/ 
f./ H fž.
1
kž [ k/ 0

Obtenemos que:
Trabajo Fin de Máster
|¤..
/N
2011/12
:f/ H fž ;
, 0 1, … , ; 1 1, … , 
Ÿ
1
¬
¡­ [k. H kžk. H kž* H1
.\
¬ es la matriz de correlación muestral, ¬ 
¬z
Donde /N
¬z
¡
/N
1.5. Análisis de Componentes Principales en poblaciones
normales.
Hasta este punto, no hemos supuesto en ningún momento que el vector aleatorio
, … , % $ sea normal -variante, sino sólo que Œ  y 789 Σ. Hemos
visto dos casos:
1. Cuando Σ es conocida, así que G. y D. son conocidos determinísticamente.
2. Cuando Σ es desconocida, así que hemos basado el análisis de componentes
principales en una muestra de la población. Como no conocíamos Σ, hemos
trabajado sobre la matriz de cuasivarianza muestra ¡.
Para conocer el comportamiento de G¥. y D̂. y, en definitiva, de Q§. , obtenidos en el
análisis de componentes principales muestral, es preciso basarse en la distribución en
el muestreo de G¥. , raíces características de la matriz muestra ¡ y, en consecuencia, hay
¬ y de sus raíces §. .
que modelizar la distribución de ¡ o, de manera análoga, de Para esto, tenemos que modelizar el vector , y el caso bien conocido del Análisis
Multivariante teórico corresponde a la distribución normal multivariante % , Σ. El
esquema sería:
Si ® % , Σ, Σ g 0 desconocida, y % h Ÿ es la matriz de la muestra, sabemos
¯
¯
*
y Σ° , donde ] ∑Ÿ
que ¡ .\ f. H fž f. H fž .
Ÿz
Ÿ
15
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Según el teorema de Dyskstra, si Σ g 0, entonces ¡ (o ]) son definidas positivas y
todos sus autovalores son distintos. Si Σ no es definida positiva, puede utilizarse la
modelización normal con 65jyΣ .
En el caso normal, vamos a ver algunos contrastes básicos de carácter asintótico
sobre los autovalores G¥. . Suponemos que todos los autovalores son distintos y
positivos, G g GN g , g G% g 0.
1.5.1. Resultados de Anderson-Girschick
Supuestas las condiciones de normalidad descritas anteriormente, sea G¥ G¥ , G¥N , … , G¥% $ y D̂ , D̂N , … , D̂% los autovalores y autovectores de ¡, y análogamente
G G , GN , … , G% y D , DN , … , D% los autovalores y autovectores de Σ. Sea
Λ l05yG , GN , … , G% y
%
Œ. G. [
s\
s±.
Entonces:
Gs
D D*
Gs H G. N s s
√G¥ H G ® % 0,2λN √D̂. H D. ® % 0, Œ. Además, cada G¥. se distribuye independientemente de los elementos del
respectivo D̂. .
Nota: Del resultado anterior, √G¥ H G ® % 0,2λN , cuando  tiende a ∞, como
la matriz de covarianza de la normal multivariante asintótica es diagonal, deducimos
que los G¥. se distribuyen independientemente.
Obtenemos también que, aproximadamente G¥. ® G. , 2GN. /. Esto nos permite
establecer intervalos de confianza al 1001 H –% como:
µ:¶G¥. H G. ¶ k·/N G. |2/; 1 H –
¸
G¥.
1 + k·/N |2/
G. G¥.
¸
1 H k·/N |2/
Hay que tener cuidado con estos intervalos cuando un G. es muy grande y  no lo
sea, ya que se producen intervalos muy amplios, y pueden dar lugar a error. Se
recomienda trabajar siempre que se pueda con la matriz de correlaciones .
Nota: Del resultado dado anteriormente por √D̂. H D. ® % 0, Œ. , cuando 
tiende a ∞, los D̂. se distribuyen normalmente alrededor de D. . Pero los elementos de
16
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
D̂. están correlacionados, no son independientes, y el grado de correlación depende de
la separación de los autovalores G , GN , … , G% que no se conocen, y del tamaño .
Los errores típicos aproximados de los coeficientes D̂s. , componentes de D̂. ,
vienen dados por la diagonal de Œ°. , donde Œ°. coincide con Œ. , sustituyendo Gs por G¥s .
Ÿ
Debemos tener en cuenta que en estos resultados asintóticos de Anderson (1963)
y Girschichk (1939), para que sean ciertos, las raíces características teóricas de Σ en la
distribución base tienen que ser distintas y no nulas. Además, la matriz Œ. depende, en
elemento fuera de la diagonal principal, de los valores teóricos que no son conocidos.
1.6. Cálculo de las Componentes Principales poblacionales
Sea , … , % $ un vector aleatorio -variante con ŒŽ  y matriz de
covarianza conocida Σ. Vamos a considerar los casos en que la matriz de covarianza es
semidefinida positiva y que puede tener raíces múltiples. Suponemos además que
 0, ya que solo nos interesan las varianzas y covarianzas de .
La primera componente principal de , es una combinación lineal normalizada
' ) , donde ) ) , … , ) % y ) * ) 1, con la cual se pretende que la varianza
sea máxima, es decir, resolver el problema:
max2456' 3 max2) * Σ) 3
A5) BCD ) * ) 1
?@
Para esto, construimos la función de los multiplicadores de Lagrange:
Φ ) ) * Σ ) – G ) * ) H 1
Derivamos respecto a ) , igualamos a cero y despajamos para obtener el máximo:
IΦ ) 2Σ ) H 2G) 0
I)
J
Σ H GK) 0
Como ) b 0, ya que ) * ) 1, el anterior sistema tiene solución distinta de 0 si la
matriz Σ – GK es singular, lo que quiere decir que:
|Σ – GK| 0
Deducimos de esto que G es un autovalor de Σ, y ) el autovector asociado. Como
la matriz de covarianzas Σ es de orden y semidefinida positiva, sabemos que tendrá
autovalores positivos:
G M GN M , M G% M 0
17
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Del sistema Σ H GK) 0, tenemos que Σ ) G) , por tanto:
*
456' ) * Σ) ) * G) G )O
) G
Como nuestro objetivo es maximizar la 456' G, tomaremos como G el
mayor autovalor, es decir, G .
Se define finalmente la primera componente principal como la función lineal
normalizada dada por:
%
' D * [ D. .
.\
La varianza de la primera componente principal viene dada por 456' G
Nota: No hemos supuesto en ningún momento que siga una distribución en
particular. Si se distribuye según una normal -variante con matriz de covarianzas u,
definida positiva, entonces las superficies de densidad de probabilidad constante son
los elipsoides de concentración y la primera componente principal, ' D * ,
representa el eje mayor principal de este eloipsoide. Bajo la suposición de normalidad,
las componentes principales implicarán una rotación de los ejes coordenados a los ejes
principales de estos elipsoides. Si existen raíces múltiples, dichos ejes no estarán
unívocamente determinados.
La segunda componente principal de , es una combinación lineal normalizada
'N )N , donde )N )N , … , )N% y )N* )N 1, con la cual se pretende que la varianza
sea máxima y que esté incorrelada con ' , es decir, resolver el problema:
max2456'N 3 max2)N* Σ)N 3
?P
A5) BCD )N* )N 1 Q 789'N , ' )N* ΣD 0
De la condición 789'N , ' )N* ΣD 0 y como sabemos que ΣD GD , nos
queda que 789'N , ' )N* ΣD )N* GD G)N* D 0, de donde obtenemos que la
segunda condición es equivalente a:
)N* D 0
Es decir, que los dos vectores sean ortogonales. Construimos la función de los
multiplicadores de Lagrange:
ΦN )N )N* Σ )N – G )N* )N H 1 H R )N* D
Derivamos respecto a )N , igualamos a cero y despajamos para obtener el máximo:
IΦN )N 2Σ )N H 2G)N H RD 0
I)N
18
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Multiplicamos la igualdad anterior por D * , obteniendo:
*
*
2D * Σ )N H 2G DO
)N H R DT
D 0
S
J
R 2D * Σ )N 2789' , 'N 0
De este modo:
IΦN )N 2Σ )N H 2G)N 0 J Σ H GK)N 0
I)N
Y efectuando el mismo razonamiento que en el caso anterior, deducimos que G
sería un autovalor de Σ, concretamente GN , y )N el autovector asociado DN .
Resumimos por tanto que la segunda componente principal vendrá dada por:
%
'N DN* [ DN. .
.\
La varianza de la segunda componente principal vendrá dada por: 456'N GN
Utilizando un método similar al de inducción, podemos construir de esta forma
hasta la componente principal 6, 6 £ , encontrando una combinación lineal
%
'v Dv* ∑.\ D.v . , donde Dv es el vector característico asociado al autovalor Gv , la
6-ésima raíz característica de mayor magnitud. Para construir la ¹ + -ésima
componente principal, buscamos una combinación lineal normalizada )vU , que
tenga varianza máxima, y sea incorrelada con todas las componente principales
anteriores, ' , 'N , … 'v .
Todo esto queda resumido en resolver el problema:
*
max2456'vU 3 max2)vU
Σ)vU 3
?ºY@
*
*
A5) BCD )vU
)vU 1 Q 789'vU , '. )vU
ΣD. 0 ; Z0 1, … , 6
*
De la condición 789'vU , '. )vU
ΣD. 0; Z0 1, … , 6 y de ΣD. G. D. ; Z0 *
*
*
1, … , 6, nos queda que 789'vU , '. )vU
ΣD. )vU
GD. G)vU
D. 0, de donde
obtenemos que la segunda condición es equivalente a:
*
)vU
D. 0; Z0 1, … , 6
Es decir, que el vector )vU es ortogonal a los vectores propios D. , 0 1, … , 6.
Haciendo uso de los multiplicadores de Lagrange, construimos la función:
v
*
*
*
ΦvU )vU )vU
Σ )vU – G )vU
)vU H 1 H [ R. )vU
D.
.\
19
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Derivamos respecto a )vU , igualamos a cero y despajamos para obtener el
máximo:
v
IΦvU )vU 2Σ )vU H 2G)vU – [ R. D. 0
I)vU
.\
Como en el caso anterior, multiplicando sucesivamente por D * , … , Dv* , obtenemos
que:
R. 0; Z0 1, … , 6
De este modo:
IΦvU )vU 2Σ )vU H 2G)vU 0 J Σ H GK)vU 0
I)vU
Y efectuando el mismo razonamiento que en el caso anterior, deducimos que G
sería un autovalor de Σ, concretamente GvU . Mientras que )vU el autovector asociado
DvU .
Resumimos por tanto que la 6 + 1-ésima componente principal vendrá dada por:
'vU *
DvU
%
[ DvU ,. .
.\
Y la varianza de la 6 + 1-ésima componente principal será: 456'vU GvU
Hay que tener cuidado en el caso de que GvU 0 y G. 0 para 0 b 6 + 1, ya
que la condición D.* Σ DvU 0 no implica que D.* DvU 0. En este caso, se
reemplazaría DvU por una combinación lineal de DvU y el D. para el cual G. 0, y
construiríamos el nuevo DvU ortogonal a todos los D. , 0 1, … , 6.
1.7. Manejo simultáneo de todas las componentes principales.
Sea µ D , DN , … , D% la matriz de vectores característicos normalizados de Σ, y
Λ l05yG , GN , … , G% , donde G M GN M , M G% son todas las raíces características
ordenadas de Σ. Sabemos que µ* µ K, por lo que µ* Σ µ Λ. En estas condiciones
podemos enunciar el siguiente resultado:
Teorema 3: Existe una transformación ortogonal ' µ$, tal que 789µ » donde
» es una matriz diagonal de elementos G M GN M , M G% M 0 que son las raíces
ordenadas de u. La 0-ésima columna de µ, D. , satisface u H G. KD. 0. Las
componentes de ' son incorreladas, e '. tiene varianza máxima entre todas las
combinaciones lineales normalizadas incorreladas con ' , 'N , … , '.z .
20
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
El vector ' es llamado el vector de componentes principales de . En el caso de
raíces múltiples, por ejemplo, GvU , GvU¼ G, tenemos que u H G. K–. 0,
0 6 + 1, … , 6 + . Esto es, –. , 0 6 + 1, … , 6 + son vectores característicos de
u. Veamos que no puede haber otro vector más, es decir, probaremos que no se
puede encontrar otro vector linealmente independiente a –vU , … , –vU¼ solución de
u H G K– 0.
Para ver esto, tomamos ∑%.\ 5. –. (5. escalares), solución de u H G K– 0, con
lo que:
%
%
%
%
G [ 5. –. Σ _[ 5. –. a [ 5. Σ–. [ 5. G. –.
.\
.\
.\
.\
Como G5. G. 5. , tenemos que 5. 0, a menos que 0 6 + 1, … , 6 + .
Si –vU , … , –vU¼ son soluciones de u H G K– 0, entonces, para cualquier
matriz no singular 7, –vU , … , –vU¼ · 7, es también una solución de u H G K– 0. A partir de la condición de ortonormalidad de –vU , … , –vU¼ se concluye que 7 es
una matriz ortogonal. Podemos enunciar entonces el siguiente teorema.
Teorema 4: Si GvU , GvU¼ G, entonces u H G K es una matriz de rango
H . Además, los correspondientes vectores característicos DvU , DvU¼ están
únicamente determinados salvo multiplicación por la derecha por una matriz
ortogonal.
1.8. Test basados en la matriz de covarianzas muestrales.
Vamos a ver algunos test basados en la matriz de covarianzas muestrales ¡, que
nos servirán para contrastar la igualdad de múltiples raíces características.
1.8.1. Test de Barlett Este test sirve para contrastar que los H t autovalores más pequeños son todos
iguales.
½S : GsU GsUN , G%
Se construye el estadístico siguiente:
wS d H t H 1 H
2
2B + 1 + B
6
s
e ’H ln|¡| + [ ln )/ + B ln )“
/\
21
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
B Ht
donde:
)/ 1-ésima raíz característica mayor de ¡
s
1
) ’A6¡ H [ )/ “
B
/\
Dicho estadístico, bajo la hipótesis nula, sigue una distribución Á N con N H t H
1 H t + 2 grados de libertad, asintóticamente. Así que rechazaremos la hipótesis
N
.
nula a un nivel de significación 1 H –, cuando wS g Á·;
1
H1+2
2
Para el caso particular de t 0, es decir, del contraste de igualdad de todas las
raíces características, ½S : GsU GsUN , G% , nos quedaría el estadístico:
1
2
H _ H 1 H 2 + 1 + a :ln|¡| + ln1/ A6¡;
6
que sigue una distribución Á1NH1+2 .
2
1.8.2. Test de Bartlett-Lawley Se trata de una corrección del test anterior, en el que igualmente se trata de
contrastar la hipótesis:
½S : GsU GsUN , G% G
Este test se basa en la matriz de covarianzas muestrales ¡, que viene dada por:
Ÿ
1
¡ [f. H fž f. H fž $

.\
Sabemos que un una población normal multivariante % , Σ, con Σ g 0,
tenemos que ¡ es una estimación de la matriz de covarianzas, ¡ Σ°.
Este resultado nos dice que para contrastar la hipótesis nula ½S : GsU GsUN , G% G, sobre la base de ¡ Σ°, se obtiene construye la variable:
s
1
2
1
 H t H 1 H Ã2 H t +
+ 1Ä + GN [
Å·
G. H GN
6
Ht
¶Σ°¶
· ÂH ln Æ s
∏.\
.\
%zs
A6Σ° H ∑s.\ G¥.
È + ln Æ
È Å
Ht
G¥.
22
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Esta variable se comporta, con un orden de aproximación de 1/ N , según una Chi
cuadrado Á1NHtH1Ht+2 .
2
Como podemos observar, esta variable depende de valores no conocidos, como son
G, y las raíces características de Σ, dadas por G. , por lo que no es un estadístico. Para
que esto sea aplicable en la práctica, sustituiremos los valores de G. por sus
estimadores máximo verosímiles, G¥. , los autovalores de ¡, y el valor de G por:
%
s
1
1
_A6¡ H [ G¥. a _ [ G¥. a
G¥ Ht
Ht
.\
.\sU
Quedando finalmente el estadístico:
N s
%
1
2
1
1
ÉS ʝ H t H 1 H Ã2 H t +
+ 1Ä +
_ [ G¥. a [
Ë
N
H t
G. H GN
6
Ht
¶Σ°¶
· ÂH ln Æ s
∏.\
Y rechazando finalmente
N
ÉS g Á·;
1
HtH1Ht+2
.\sU
%zs
A6Σ° H ∑s.\ G¥.
È + ln Æ
È Å
Ht
G¥.
la
igualdad
de
raíces
.\
características
si
2
1.8.3. Test de Anderson El test de Anderson, es una generalización del test de Barlett, con el cual
podremos contrastar la igualdad de un conjunto de raíces características consecutivas,
no solo el conjunto de las más pequeñas. Es decir, si tenemos el conjunto de
autovalores ordenados:
G g GN g , g GÌ g GÌU g , g GÌUv g GÌUvU g , g G%
La hipótesis a contrastar sería:
½S : GÌU , GÌUv G
A partir del método del cociente de verosimilitudes y su comportamiento
asintótico, se llega al siguiente estadístico:
ÌUv
ÌUv
1
H H 1 [ ln G¥. +  H 16 ln ’ [ G¥. “
6
.\ÌU
N
.
que sigue una distribución Chi cuadrado Á·;
1
6H16+2
.\ÌU
2
23
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Es claro que cuando B + 6 (igualdad de las últimas H B raíces), este test
coincide con el de Bartlett.
Para el caso particular de contrastar que todas las raíces características son iguales
(en este caso t 0), nos quedaría el siguiente estadístico. Este caso es denominado,
caso de esfericidad.
%
1
2
H _ H 1 H 2 + 1 + a _ln|¡| + ln1/ [ G¥. a 6
N
que sigue una distribución Chi cuadrado Á·;
.
1
H1+2
.\
2
Nota: En la práctica, el test de Bartlett-Lawley se usa habitualmente para el caso en
que se han obtenido ya “t” componentes principales, y se quiere saber si las “ H t”
restantes no son significativas. Esto es, si es verdad la hipótesis nula, con un G
pequeño, podremos prescindir de las componentes principales restantes.
1.9. Test basado en la matriz de correlaciones muestrales
En la práctica del análisis de componentes principales muestral, habitualmente es
preciso tipificar los valores observados, debido por ejemplo a que las variables tienen
diferentes escalas de medida. Esto nos hace que los test visto anteriormente queden
inutilizables. Vamos a ver por tanto un test basado en la matriz de correlaciones ,
estimada por máxima verosimilitud en el caso de una población normal multivariante
¬.
por la matriz de correlaciones muestrales Este problema fue estudiado primeramente por Lawley, y recogido y aplicado por
Dhrymes entre otros. La hipótesis nula vendría dada por:
½S : sU sUN , % ; t £ donde . son las raíces características de , cuyos estimadores máximos verosímiles
¬ ). Tenemos que el estadístico:
vienen dados por §. (los autovalores de ¬¶
¬ H ∑s.\ §. %zs
¶
A6
 H 1 ÂH ln s
+ ln Æ
È Å
Ht
∏.\ §.
se comporta bajo ½S asintóticamente, con un orden de aproximación de 1/, según
una Chi cuadrado Á N con grados de libertad:
24
Análisis de Componente Principales
Trabajo Fin de Máster
%
2011/12
%
%
%
1
1
N N
N
‹ H t H 1 H t + 2 H
Ê H t H 1 [ [ i./
./ [ [ i.. i// ./
Ë
2
Ht
.\ /\
.\ /\
donde i./ es la componente 0, 1 de la matriz 7 K H Í Í * ; siendo Í la matriz de
vectores característicos por columnas de las t primeras raíces características de Σ.
Observamos que ‹ depende me muchos parámetros desconocidos, como es el caso
de  y ./ , por lo que no se trata de un verdadero estadístico. Para poder ser usada en
la práctica, se calculará ‹ usando los estimadores máximo verosímiles de los
parámetros desconocidos, y redondeando al entero más próximo. En general, este
cálculo se hará con la ayuda de un ordenador.
1.9.1. Casos particulares de test basados en Un test fácilmente aplicable, y que nos interesará siempre rechazar, es comprobar
si la matriz de correlaciones coincide con la matriz identidad. Si la hipótesis nula fuese
cierta, aceptaríamos que todas las variables son independientes, y no tendría sentido
realizar el análisis de componentes principales. Este test se denomina test de
esfericidad sobre .
Se trata de contrastar la hipótesis:
½S : K
½ :b K
Tenemos que el estadístico:
1
¦
H Ν H 1 H 2 + 5Ð ln¶
6
N
bajo la hipótesis nula, sigue una distribución Chi cuadrado Á%%z
/N .
Otro test muy útil en la práctica, sobre todo en el campo de la Biología, es el caso
en que la matriz de covarianzas Σ tiene la forma:
σN σN , σN
N
σN , σN e
Σ dσ
σN σN ,̀ σN
o equivalentemente, que la matriz de correlaciones sea del tipo:
1

S d


1

, 
, 
e
,̀ 1
25
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Nos interesaría contrastar la hipótesis:
½S : S
½ : b S
Se rechazaría ½S con un nivel de significación 1 H –, si:
%
H1
N
Â[6.s H 6ž N H Ò§ [6žs H 6ž N Å g Á·;%UN%U
N
1 H 6ž .Ñs
donde:
%
s\
/N
1
6žs [ 6.s ; t 1, … , H1
6ž .\
.±s
2
[ 6.s
H 1
.Ñs
H 1 21 H 1 H 6ž N 3
Ò§ H H 21 H 6ž N
N
1.10. Selección del número de componentes principales
Una de las mayores dificultades en el análisis de componentes principales, es
seleccionar el número óptimo de componentes, es decir, el menor número posible de
éstas, que expliquen la mayor variabilidad posible. Existen varios test que permiten
fundamentar objetivamente tal decisión, pero las fuertes hipótesis bajo los que se
obtienen y la dificultad de los mismos, los hacen prácticamente inviables, y más aún
cuando se trabaja con la matriz de correlaciones .
En la práctica se usan habitualmente ciertos criterio para la elección del número
de componentes, según se esté trabajando con la matriz de covarianzas muestrales o
con la matriz de correlaciones muestrales.
1.10.1. Actuación con la matriz de covarianzas muestrales
Uno de los métodos más utilizados en la práctica es el porcentaje de variabilidad
explicado por las primeras componentes principales. El porcentaje de información
proporcionado por las t t £ primeras componentes se obtiene como:
∑s.\ G¥.
· 100%
∑% G¥.
.\
26
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
En general, se obtiene el número de componentes principales que explique un
porcentaje de la varianza próximo a un valor prefijado, por ejemplo, un 80%. Este
porcentaje varía habitualmente según el campo en que se esté trabajando, puesto que
un estudio social, se usaría un porcentaje alrededor del 60%, mientras que en un
estudio médico o científico, este porcentaje sería próximo al 80%.
Otro método utilizado es la estabilidad de las raíces características, ya que si a
partir de la t componente principal, los autovalores se estabilizan, aumentar la
dimensión apenas aportaría más variabilidad. Para esto, es de gran utilidad construir
un gráfico de sedimentación con las diferentes raíces.
1.10.2. Actuación con la matriz de correlaciones muestrales
En la mayoría de los problemas prácticos nos encontraremos en esta situación,
trabajando con la matriz de correlaciones, así que veremos los criterios de selección
del número de componentes más habituales:
Criterio del Kaiser (1958), o criterio de la raíz característica mayor que 1. Se
seleccionan aquellas componentes principales cuyo autovalor es mayor que 1, de esta
forma nos garantizamos que las componentes principales seleccionadas expliquen más
variabilidad que una variable observable u original. Estudios de Montecarlo han
probado que es más correcto el punto de corte G‹ 0$7.
Este criterio se podría extender también al caso de la matriz de covarianzas,
suponiendo como punto de corte la media de las varianzas, es decir, G‹ A6¡/.
Estudios de Montecarlo consideran usar como punto de corte 0* 7 · G‹.
Criterio de Cattell (1966), o “Screen test”. Consiste en representar gráficamente
en el eje de ordenadas los autovalores, y en el eje de abscisas las componentes
extraídas según su orden de extracción. En general se podrán distinguir dos tramos
claros, uno constituido por muy pocos puntos y con una pendiente negativa muy
grande, y otro en el que se encuentran la mayoría de los puntos con un decaimiento
muy lento. Este criterio consiste en elegir tantas componentes como puntos haya en el
primer tramo de la curva.
Criterio de Horn (1965). Se representan los autovalores de las componentes
principales igual que en el “Screen test”. Por otra parte, se consideran t conjuntos de
una normal -variante, de tamaño N todos, de los cuales conoceremos la estructura de
correlación. Se generan estas t muestras, se calculan los “autovalores-medios” (media
aritmética de los autovalores de los t casos) y se van representando uno a uno. Es de
esperar que la ordenada 1 se alcance en /2. El criterio consiste en quedarse con las
componentes principales anteriores al punto de cruce.
27
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
1.11. Análisis de componentes principales y observaciones
anómalas
La explicación técnica de las representaciones gráficas en la interpretación del
Análisis de Componentes Principales, se basa en la idea antes expuesta de considerar
el comportamiento de “f/ H 95)86 6Dl0i€8 565 f/ ”, es decir, en medir el error
cometido al ajustar el dato mediante las componentes principales.
Ó; 1 1, … , ”, mediante una matriz ] 5 , … , 5Ÿ ,
El error de ajuste “f/ H f
vendrá dado por:
Ÿ
%
Ÿ
D6686 [:f1 H fž H 5/ ; :f1 H fž H 5/ ; [ [f01 H fž . H 5./ N
*
/\
.\ /\
En definitiva, suponemos que la matriz f1 H fž , f2 H fž , … , f H fž % h Ÿ
ajustada por la matriz ] 5 , … , 5Ÿ % h Ÿ .
es
En general podemos suponer que 6y] 6 £ mín , . Esta condición se
podrá precisar más si nos encontramos bajo la hipótesis de normalidad.
Por otro lado, en el análisis de componentes principales muestral, las
componentes vienen dadas por
Q§. D̂.* ‘ D̂ . k + D̂N. kN + , + D̂%. k% ; 0 1, … , con variables tipificadas; o bien por
Q§. D̂.* D̂ . f + D̂N. fN + , + D̂%. f% ; 0 1, … , Matricialmente tenemos:
Q§% h
D̂
, D̂% *% h % · % h
Si se consideran los valores de las componentes principales sobre toda la muestra
f/ ; 1 1, … , , tendremos:
'°% h Ÿ
Q§
’ Q§%
,
,
Q§
Ÿ
- “ D̂
Q§%Ÿ
, D̂% *% h % · % h Ÿ
En efecto:
28
Análisis de Componente Principales
Q§. D̂.*
:D̂
.
Trabajo Fin de Máster
f
, D̂%. ; _ - a D̂ . f + D̂N. fN + , + D̂%. f%
f%
D̂ f + D̂N fN + , + D̂% f%
D̂
×
Ú × f
+
D̂
f
+
,
+
D̂
f
D̂
Q§ Ö .
N. N
%. % Ù Ö D̂ .
ÕD̂ % f + D̂N% fN + , + D̂%% f% Ø ÕD̂ %
D̂ *
× -* Ú
Ö D̂. Ù · D̂
*
D̂
Õ %Ø
,
D̂.
…
D̂%
- Ú f
… D̂%. _ - a Ù
f%
… D̂%% Ø
, D̂% $ · considerando toda la muestra f/ ; 1 1, … ,  tenemos
'°% h Ÿ
Q§
× Ö Q§.
ÕQ§%
,
,
,
Q§
Ÿ
- Ú
Q§.Ÿ Ù D̂ ,
Q§%Ÿ Ø
D̂ ,
Despejando nos queda:
:D̂ ,
y desarrollando tenemos:
D̂
’ D̂%
de donde:
Es decir
,
,
D̂ .
D̂%.
,
,
2011/12
f
× f*
, D̂% % h % · Ö .
f
Õ %
D̂.
D̂.
, D̂% *% h % f
D̂.
, D̂% ; · '° f
Q§
%
× - “ · Ö Q§.
D̂%%
Q
§
Õ %
D̂
f/ :D̂ , D̂.
,
,
,
,
…
…
fŸ % h Ÿ
,
f
Ÿ
f.Ÿ Ú - Ù
f%Ÿ
Ø
fŸ f
- Ú × Q§.Ÿ Ù Ö f.
f
Q§%Ÿ Ø Õ %
Q§
…
Ÿ
…
f
Ÿ
… f.Ÿ Ú
- Ù
… f%Ÿ
Ø
Q§ /
, D̂% ; · ’ - “ ; 1 1, … , 
Q§ %
f/ Q§ / D̂ + Q§N/ D̂N + , + Q§./ D̂. + , + Q§%/ D̂% D̂ * f/ D̂ + D̂N* f/ D̂N + , + D̂.* f/ D̂. + , D̂%* f/ D̂%
29
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Deducimos por tanto que si tomamos un conjunto formado por las primeras B
componentes principales y el conjunto de las H B últimas, y la parte de f/ que es
explicada por ambos conjuntos de componentes principales, es decir:
Q§ / D̂ + , + Q§Ì/ D̂Ì
Q§ÌU ,/ D̂ÌU + , Q§%/ D̂%
Consideramos el ajuste de f/ mediante:
f/ H Q§ / D̂ + , + Q§Ì/ D̂Ì Mientras que “Q§ÌU ,/ D̂ÌU + , Q§%/ D̂% “ será el error cometido en la aproximación.
Una medida para el error puede ser la longitud al cuadrado, es decir:
N
B§ÌU
,/
N
+ , + B§%/
Este error será grande en la medida en que sobre alguno de los “ejes principales”
D̂ÌU ; … ; D̂% la coordenada respectiva sea grande. Es claro que esta medida del error
será menor, por otra parte, cuanto mejor sea el ajuste del dato f/ por las B primeras
componentes principales, y es claro también que si una observación es
estructuralmente anómala frente a las demás, provocará que el error sea grande.
Esto puede servir como un método para la detección de observaciones anómalas,
supuesto que estructuralmente las B componentes principales primeras ajustan bien al
conjunto de las observaciones y se buscan entonces las que estructuralmente son
erróneas (“outliers”). Es preciso entonces conocer el error global sobre toda la muestra
que se comete al aproximar estructuralmente por las primeras B componentes
principales todos los elementos de la muestra. Para ello es preciso analizar la
“geometría” del análisis de componentes principales muestral.
Ó; 1 1, … , ” por una matriz ] 5 , … , 5Ÿ , con
Teorema: Al aproximar “f/ H f
rango 6y] 6 £ íj, , el error global
Ÿ
[:f1 H fž H 5/ ; :f1 H fž H 5/ ;
*
/\
se minimiza cuando se toma por ] la matriz ]¥ Œ° Q§
Œ° D̂
, D̂v formada con los primeros 6 autovectores. De modo que
]¥% h Ÿ D̂
, Q§v $ donde
Q§
, D̂v % h v _ - a
5§
Q§v v h Ÿ
, 5§Ÿ 30
Análisis de Componente Principales
Trabajo Fin de Máster
con 5§/ Q§ / D̂ + , + Q§v/ D̂v y siendo
Q§
/
,
Q§v/ D̂ * :f1 H fž ;
,
2011/12
D̂v* f1 H fž los valores de las primeras 6 componentes principales muestrales sobre el elemento 1ésimo de la muestra, centrado en fž .
El mínimo alcanzado (“error cuadrático”) vale:
Ÿ
[:f1 H fž H 5/ ; :f1 H fž H 5/ ;  H 1G¥vU + , + G¥% /\
*
Nota: Este teorema nos da el error cometido al aproximar toda la muestra por las
primeras 6 componentes principales y, además, nos lo expresa en términos de los
autovalores muestrales. Pero también nos interpreta el significado de las componentes
principales obtenidas mediante la minimización de un error cuadrático cometido al
aproximar la muestra centrada por los 5/ : se minimiza el error cuando la aproximación
] se construye precisamente con las 6 primeras componentes principales, con
6y] 6 £ íj, .
1.12. Representaciones gráficas en el ACP.
Podemos establecer unas útiles prácticas gráficas que nos servirán para
comprobar la normalidad de las componentes principales obtenidas, para la detección
de datos anómalos y para obtener una idea de la estructura geométrica de las
componentes.
Para la comprobación de la normalidad de las primeras componentes principales,
se representan gráficamente los pares Q§. , Q§s . Si queremos aceptar una normalidad
conjunta, el contorno de los valores de Q§. , Q§s sobre f/ ; 1 1, … ,  deberá ser
sensiblemente elíptico para valores no anómalos. En segundo lugar se representa vía
una “Q-Q plot” los valores de cada componente principal sobre la muestra, donde
también nos servirá para detectar valores anómalos.
Una técnica gráfica muy utilizada para obtener una idea de la estructura de las
componentes principales es el gráfico “biplot”. Se trata de un gráfico que representa
las filas (variables) y las columnas (individuos) de una matriz de datos %hŸ . Estos
datos se representan tomando como ejes coordenados pares de componentes
principales, y de esta forma observar la relación de los individuos y de las variables con
las diferentes componentes, así como la detección de valores anómalos.
31
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
1.13. Aplicaciones del ACP: ACP sobre k-grupos
Es común en la práctica encontrarse con una muestra no aleatoria e
independiente, proveniente de varias poblaciones distintas. En este caso se puede
optar por dos caminos:
1. Aplicar el análisis de componentes principales a cada grupo por separado, y
comparar las componentes principales deducidas en cada caso.
2. Plantear un tratamiento global de la situación, como es el ANOVA respecto de
un test de diferencia de medias dos a dos.
El objetivo será contrastar si los grupos son homogéneos respecto de su estructura
de componentes principales. Si dicha estructura no se conoce, se hará el análisis sobre
toda la muestra y podrá ser utilizado para obtener posibles cluster o grupos entre
ellos.
Algunos modelos que nos resuelven esta situación son:
1.13.1. Modelo de Okamoto o “modelo de efectos fijos”
Supongamos definidas las componentes principales escritas de manera centrada:
Q§. D̂.* f H fž ;
'° D̂ , D̂.
, D̂% * H fž que aplicada a la muestra f/ ; 1 1, … ,  dará los valores:
Q§./ D̂.* :f/ H fž ;;
0 1, … , ; 1 1, … , 
Vimos que f/ Q§ / D̂ + Q§N/ D̂N + , + Q§./ D̂. + , + Q§%/ D̂% , de donde quedándonos
con las B primeras componentes principales tenemos que:
f/ Q§ / D̂ + , + Q§Ì/ D̂Ì 2+Q§ÌU ,/ D̂ÌU + , Q§%/ D̂% 3
de donde la )-ésima componente de f/ viene dada por:
%
f/? Q§ / D̂ ? + , + Q§Ì/ D̂Ì? + [ Q§v/ D̂v?
v\ÌU
Esto sugiere el modelo teórico:
Ì
f/? Û? + [ v/ v? + Ü/? ; 1 1, … , ; 0 1, … , v\
32
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
en el que los v? y v/ son tales que verifican propiedades análogas a las verificadas
por los D̂. (ortogonalidad) y por la covarianza entre Q§?/ (covarianzas nulas). Bajo esta
estructura puede efectuarse un análisis de la varianza.
1.13.2. El ACP y la Regresión lineal
Se considera un modelo de regresión lineal múltiple:
Q. ÛS + Û f. + , + Û%z f.,%z + Ü. ; 0 1, … , 
Q. – + Û f. H fž . + , + Û%z f.,%z H fž .%z + Ü. ; 0 1, … , 
De forma matricial tenemos:
donde:
QŸz – · 1Ÿ + ݟ h % Û% h + ܟ h
Û –; Û ; … ; Û%z $
ݟ h % f H fž
,
fŸ H fž Tenemos que la matriz de cuadrados viene dada por:
Ÿ
Ý$Ý% h % [f. H fž f. H fž *
.\
Sabemos que la matriz de covarianzas muestrales es Ÿz Ý$Ý.
Supongamos que un autovalor muestral G¥ es próximo a cero y su correspondiente
vector es D̂ . Entonces:
:Ý * Ý;D̂ H G¥D̂ 0 J :Ý * Ý;D̂ Þ 0 J D̂ * Ý * ÝD̂ Þ 0 J ÝD̂ Þ 0
Lo que significa que hay multicolinealidad.
Si hay un cierto número de restricciones lineales, H t, entonces:
¬ N Þ 0; ß
¬ :ß
¬ ¶ß
¬N;
Ý · ß
siendo ßN una matriz f H t. En este caso general, el Modelo Lineal de Regresión
se puede volver a escribir en términos de las componentes principales de ß , es decir,
de à componentes principales no nulas. En efecto:
¬ :ß
¬ * Û; :Ý ß
¬ ¶0;:ß
¬ * Û; Ý ß
¬ :ß
¬ * Û;
ÝÛ Ý ß
33
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
1.14. Resultados previos: Elipsoides equiprobables en una
; y combinaciones lineales de un vector aleatorio
multidimensional.
Supongamos un vector aleatorio que sigue una distribución á% ; u con u
definida positiva. Si se considera la familia de elipsoides
H * Σ z H  i ; i g 0
es claro que tal densidad es constante para cada elipsoide con un i concreto.Por otra
parte, dicha familia tiene como centro al vector , mientras que las características de Σ
determinan la forma y orientación de los elipsoides.
Se sabe que existe un elipsoide especial cuando i + 2, llamado “elipsoide de
concentración”, caracterizado por verificar la siguiente propiedad:
1
Γ2 + 1
âf ã|Σ|z + 2%/N å %/N
0
;
;
¤0 f H * Σ z f H  + 2æ
âCD65
tiene la misma media y matriz de covarianzas que la ley á% ; u.
Nos planteamos ahora el cálculo de los “ejes principales”, y ello lo hacemos por un
método analítico, los multiplicadores de Lagrange, en vista de la metodología que
luego se utilizará en el Análisis de Componentes Principales. Supongamos una recta
desde el centro del elipsoide , a la superficie del mismo, así que tendrá que cumplir:
maxh f H * f H Ž ; donde f H * Σ z f H  i
Sabemos que f H * f H  es el cuadrado de la semilongitud de tal eje
principal cuando f se encuentra en la superficie, a un punto para el que se verifique el
máximo indicado.
Vamos a obtener el máximo mediante multiplicadores de Lagrange:
Φf, G f H * f H  H Gf H * Σ z f H  H i
Derivamos con respecto a “f”, igualamos a 0 y resolvemos:
IΦf, G
f H  H G Σ z f H  0
If
J K H G Σ z f H  0 J Σ H G Kf H  0
34
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Como hemos supuesto que Σ es definida positiva, todas sus raíces características
son reales y no nulas, G M GN M , M G% M 0. Estas raíces son solución de |Σ H G K| 0, si tomamos la mayor de ellas G , tenemos que el eje principal mayor está en la
dirección determinada por el vector característico D , y el cuadrado de la longitud de
dicho eje principal será:
4f H * f H  4G f H * Σ z f H  4 G i
Para calcular el resto de ejes, volvemos a realizar el cálculo tomando
sucesivamente las raíces características en orden decreciente, y los respectivos
vectores propios. En el caso de encontrarnos con una raíz característica múltiple, con
un orden de multiplicidad 6, el elipsoide es hiperesférico en el subespacio 6dimensional correspondiente. Si todas las raíces características son diferentes, todos
los ejes principales serían ortogonales.
Todo esto se puede aplicar al análisis de componentes principales, utilizando los
ejes principales calculados en la familia de elipsoides para definir una transformación.
Como nos encontramos en el caso de una normal multivariante, podemos hablar
de ejes principales en su sentido geométrico. En efecto, sea la transformación:
' :' , … , '% ; ] H 
*
donde sigue una distribución á% ; u, ] D , … , D% con D , … , D% autovalores
normalizados de u g 0. Según la transformación anterior tenemos que ' sigue una
normal á% 0; ]* u].
Si todas las raíces de u son distintas, entonces ] es ortogonal, es decir ]* ]z .
Por tanto, tenemos una transformación ' ] H  tal que ]* u] es diagonal, lo que
quiere decir que las componentes '. de ' son incorreladas, y los elementos de la
diagonal principal de ]* u] son las varianzas de las diferentes componentes de '. .
De esta forma es posible definir una transformación ortogonal o giro llevando el
sistema de referencia al origen  y girando los ejes hasta coincidir con los ejes
principales, de tal forma que se transforma el vector en uno ' que, respecto de
dicho sistema nuevo, tiene sus componentes incorreladas, de tal forma además, que la
longitud de los ejes de cualquier elipsoide dado i g 0 es proporcional a la varianza
de las variables '. .
1.14.1. Combinaciones lineales de un vector aleatorio Dado un vector aleatorio , … , % $, no necesariamente normal, con media
ŒŽ  y matriz de covarianzas 789 Σ, es claro que si tomamos una
combinación lineal
35
Análisis de Componente Principales
se verifica
Trabajo Fin de Máster
– * ; con – :– , … , –% ;
Œ– * Ž – *  ;
2011/12
*
789– * X – * Σ –
Por tanto, si sigue una normal multivariante á% ; u, tomando combinaciones
lineales – * , tenemos que sigue una distribución:
á% – * ; – * Σ –
36
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Aplicación a Datos Reales
Se pretende realizar un estudio sobre los records obtenidos por cada país en las
diferentes carreras de atletismo. Se han tomado los datos de los records masculinos
nacionales obtenidos en 58 países diferentes de las disciplinas: 100 metros, 110
metros vallas, 200 metros, 400 metros, 800 metros, 1.500 metros, 3.000 metros
obstáculos, 5.000 metros, 10.000 metros y Maratón (42.195 metros).
Los 58 países que han sido considerados poseían una participación significativa en
los Juegos Olímpicos de Londres 2012 (una participación superior los 35 atletas), y los
records han sido obtenidos con una posterioridad a 1990.
Los países seleccionados, agrupados por continentes son los siguientes:
África. 8 países
Angola
Argelia
Egipto
Etiopia
Kenia
Marruecos
Nigeria
Sudafrica
América. 14 países
Argentina
Bolivia
Brasil
Canada
Colombia
Cuba
Chile
EEUU
Jamaica
Mexico
Paraguay
Peru
Uruguay
Venezuela
China
India
Iran
Israel
Japon
Kazajstan
Turquia
Eslovenia
España
Finlandia
Francia
Grecia
Holanda
Hungria
Irlanda
Italia
Lituania
Asia. 9 países
ArabiaSaudi
CoreaSur
Europa. 25 países
Alemania
Belgica
Bulgaria
Croacia
Dinamarca
Noruega
Polonia
Portugal
Reino Unido
RepCheca
Rusia
Serbia
Suecia
Suiza
Ucrania
Oceanía. 2 países
Australia
N. Zelanda
Los records obtenidos por los diferentes países vienen recogidos en la Tabla 1. Los
datos correspondientes a las pruebas de 800 metros en adelante, han sido pasados a
minutos, para poder trabajar con ellos. Hay que tener en cuenta de 1 min. 43 seg. no
es 1’43 minutos, sino 1’72 minutos.
37
Análisis de Componente Principales
Países
Alemania
Angola
ArabiaSaudi
Argelia
Argentina
Australia
Belgica
Bolivia
Brasil
Bulgaria
Canada
Colombia
CoreaSur
Croacia
Cuba
Chile
China
Dinamarca
EEUU
Egipto
Eslovenia
España
Etiopia
Finlandia
Francia
Grecia
Holanda
Hungria
India
Iran
Irlanda
Israel
Italia
Jamaica
Japon
Kazajstan
Kenia
Lituania
Marruecos
Mexico
Nigeria
Noruega
NZelanda
Paraguay
Peru
Polonia
Portugal
RepCheca
Rusia
Serbia
Sudafrica
Suecia
Suiza
Turquia
Ucrania
UK
Uruguay
Venezuela
100m
110mV
200m
Trabajo Fin de Máster
400m
800m
1500m 3000mO
2011/12
5Km
10Km
Maratón
10.06
13.05
20.2
44.33
01:43.7
03:31.6
08:09.5
12:54.7
27:21.5
2:08:47
10.49
14.11
21.15
47.38
01:47.5
03:40.0
08:56.8
13:40.1
28:20.0
2:11:40
10.13
13.60
20.42
44.66
01:43.7
03:31.8
08:08.1
12:58.6
28:01.8
2:20:35
10.34
13.46
20.62
45.13
01:43.1
03:27.4
08:10.2
12:50.9
27:58.0
2:09:54
10.23
13.92
20.37
46.18
01:46.0
03:38.6
08:25.6
13:19.6
27:38.7
2:09:57
9.93
13.29
20.06
44.38
01:44.4
03:31.1
08:16.2
12:55.8
27:24.9
2:07:51
10.02
13.25
20.19
44.43
01:43.9
03:34.1
08:10.0
12:49.7
26:52.3
2:07:20
10.6
14.79
21.32
47.72
01:48.2
03:45.6
08:58.6
14:06.7
29:05.8
2:17:49
10
13.29
19.89
44.29
01:41.8
03:33.2
08:14.4
13:19.4
27:28.1
2:06:05
10.13
13.33
20.2
45.32
01:46.3
03:39.5
08:25.0
13:13.1
27:56.3
2:11:26
9.84
13.08
20.17
44.44
01:43.7
03:31.7
08:12.6
13:14.0
27:23.6
2:10:09
10.17
13.27
20.49
45.62
01:44.3
03:43.0
08:44.5
13:29.7
27:53.0
2:11:17
10.23
13.48
20.41
45.37
01:44.1
03:38.6
08:42.9
13:43.0
28:23.6
2:07:20
10.25
13.54
20.76
45.64
01:44.1
03:33.3
08:40.1
13:37.8
28:24.3
2:17:05
9.98
12.87
20.06
44.14
01:42.9
03:35.0
08:26.2
13:44.8
28:49.0
2:10:53
10.1
13.78
20.15
45.92
01:45.7
03:39.0
08:29.0
13:23.7
28:05.6
2:12:19
10.16
12.88
20.42
45.25
01:46.4
03:36.5
08:10.5
13:25.1
28:08.7
2:08:15
10.29
13.82
20.52
45.89
01:41.1
03:31.2
08:23.6
13:25.4
27:54.8
2:09:43
9.69
12.80
19.32
43.18
01:42.6
03:29.3
08:06.8
12:53.6
26:48.0
2:05:38
10.13
14.06
20.36
46.08
01:45.0
03:38.2
08:55.1
14:03.0
29:34.0
2:19:39
10.13
13.56
20.47
45.43
01:46.8
03:39.3
08:17.0
13:32.8
28:32.9
2:11:50
10.14
13.33
20.59
44.96
01:43.7
03:28.9
08:07.4
12:57.3
27:14.4
2:06:52
10.61
15.04
21.3
45.42
01:42.5
03:31.1
08:06.2
12:37.4
26:17.5
2:03:59
10.21
13.35
20.47
45.49
01:44.1
03:36.3
08:10.7
13:16.3
27:31.0
2:10:46
9.92
12.97
19.8
44.46
01:43.2
03:29.0
08:01.2
12:58.8
27:22.8
2:06:36
10.11
13.37
19.85
45.11
01:45.0
03:36.7
08:24.0
13:28.6
28:07.2
2:12:04
9.91
13.15
19.85
45.68
01:43.5
03:32.9
08:04.9
13:13.1
27:26.3
2:08:21
10.08
13.32
20.11
45.42
01:45.4
03:35.6
08:18.0
13:27.0
28:01.9
2:12:10
10.30
13.65
20.73
45.48
01:45.8
03:38.0
08:30.9
13:29.7
28:02.9
2:12:00
10.24
13.5
20.84
45.81
01:44.7
03:37.1
08:33.9
13:53.4
29:22.7
2:28:23
10.18
13.3
20.3
44.77
01:44.8
03:33.5
08:24.1
13:03.5
27:39.6
2:09:15
10.2
13.85
20.86
45.71
01:46.5
03:40.9
08:24.1
13:31.4
28:12.9
2:14:21
10.01
13.28
19.72
45.19
01:43.7
03:32.8
08:08.6
13:05.6
27:16.5
2:07:22
9.58
13.12
19.19
44.4
01:45.2
03:39.2
08:52.8
13:33.1
28:32.4
2:16:39
10.00
13.39
20.03
44.78
01:46.2
03:37.4
08:18.9
13:13.2
27:35.1
2:06:16
10.08
13.49
20.34
45.52
01:47.0
03:37.5
08:27.4
13:35.6
27:58.9
2:11:59
10.26
13.69
20.43
44.18
01:40.9
03:26.3
07:53.6
12:39.7
26:27.9
2:03:02
10.14
13.6
20.74
45.73
01:46.6
03:40.9
08:22.2
13:17.9
27:31.5
2:12:35
10.09
13.79
20.5
45.03
01:43.2
03:26.0
07:55.3
12:49.3
26:38.1
2:05:27
10.21
13.81
20.4
44.31
01:46.3
03:36.7
08:25.7
13:07.8
27:08.2
2:07:19
9.85
13.42
19.84
44.17
01:45.9
03:42.8
08:58.6
14:15.5
29:04.5
2:16:06
9.99
13.55
19.89
46.11
01:42.6
03:35.4
08:12.1
13:06.4
27:32.5
2:10:17
10.11
13.71
20.42
46.09
01:44.3
03:30.4
08:14.1
13:10.2
27:42.0
2:08:59
10.5
14.57
21.42
46.62
01:50.2
03:48.7
08:52.6
14:28.7
30:23.0
2:20:48
10.43
13.75
20.69
45.3
01:49.2
03:43.7
08:28.7
13:55.1
28:56.5
2:11:36
10
13.27
19.98
44.62
01:43.2
03:34.5
08:09.1
13:17.7
27:53.6
2:07:39
9.86
13.47
20.01
46.11
01:44.9
03:30.1
08:19.8
13:02.9
27:12.5
2:06:36
10.23
13.27
20.59
44.91
01:44.8
03:34.9
08:23.8
13:25.0
27:47.9
2:11:57
10.1
13.09
20.23
44.6
01:42.0
03:32.3
08:15.5
13:12.0
27:53.1
2:09:07
10.34
13.6
20.74
45.3
01:44.8
03:34.8
08:28.8
13:31.2
27:58.4
2:12:40
10.06
13.24
20.11
44.59
01:42.7
03:33.6
08:11.5
13:14.2
27:29.9
2:06:33
10.18
13.35
20.3
44.56
01:45.5
03:36.5
08:05.8
13:17.6
27:55.7
2:10:38
10.16
13.41
20.41
44.99
01:42.5
03:31.8
08:22.2
13:07.5
27:53.2
2:07:23
10.37
14.03
20.86
46.18
01:44.3
03:31.4
08:17.8
13:06.0
27:29.3
2:10:25
10.07
13.22
20
45.11
01:45.1
03:30.3
08:21.7
13:10.8
27:59.8
2:07:15
2:07:13
9.87
12.91
19.87
44.36
01:41.7
03:29.7
08:08.0
12:53.1
26:46.6
10.15
14.89
20.46
45.02
01:49.5
03:43.5
08:23.0
13:47.6
28:52.3
2:12:48
10.3
13.62
20.58
45.55
01:43.5
03:37.0
08:24.1
13:22.3
28:41.4
2:11:25
Tabla 1: Records Nacionales
38
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
2.1. Análisis exploratorio
Descriptivos
La Tabla 2 recoge algunas medidas de posición y dispersión de las diferentes
variables. Observamos que en general, los valores se encuentran bastante centrados,
con unas varianzas relativamente pequeñas. Los percentiles 5 y 95 están bastante
próximos a la mediana. Se puede observar mejor la distribución de las variables y la
detección de datos extremos con los diagramas de cajas (Gráfico 1-10).
Variables
Media
Varianza
Mínimo
Percentil5
Percentil25
Mediana
Percentil75
Percentil95
Máximo
100m
10.13
0.04
9.58
9.85
10.01
10.13
10.23
10.49
10.61
110mV
13.53
0.22
12.80
12.91
13.27
13.44
13.71
14.60
15.04
200m
20.34
0.19
19.19
19.79
20.06
20.39
20.59
21.17
21.42
400m
45.21
0.65
43.18
44.18
44.59
45.22
45.67
46.25
47.72
800m
104.65
3.53
100.90
101.79
103.28
104.55
105.88
107.78
109.50
1500m
3.59
0.01
3.43
3.48
3.53
3.58
3.65
3.72
3.82
3000mO
8.39
0.06
7.90
8.07
8.17
8.40
8.56
8.88
8.98
5000m
13.34
0.15
12.62
12.83
13.10
13.30
13.52
14.06
14.48
10000m
27.90
0.59
26.30
26.76
27.44
27.89
28.20
29.14
30.38
Maraton
130.70
20.64
123.03
125.61
127.34
130.22
132.05
139.79
148.38
Tabla 2
Diagramas de cajas
Paraguay
21.0
20.5
13.5
20.0
10.0
13.0
19.5
9.8
9.6
Paraguay
Uruguay
Bolivia
Jamaica
Jamaica
Gráfico 1: 100 metros
21.5
Etiopia
14.0
10.2
15.0
Bolivia
14.5
Etiopia
10.4
10.6
Se observa que en la carrera de velocidad de los 100 metros, nos encontramos
varios datos extremos, los países de Etiopía y Bolivia con el record más lento en esta
carrera, y el caso de Jamaica, con el record más rápido (el famoso registro de 9’58
segundos de Usain Bolt en el mundial de atletismo de Berlín 2009). En la carrera de los
110 metros vallas, nos encontramos cuatro países con datos de records lentos atípicos,
Etiopía, Uruguay, Bolivia y Paraguay.
Gráfico 2: 110 metros vallas
Gráfico 3: 200 metros
Con respecto a la prueba de los 200 metros, se observa que Paraguay tiene un
record significativamente lento respecto al resto de los países, al contrario que
Jamaica, con una marca bastante buena (registro de 19’19 segundos perteneciente a
Usain Bolt, en el mundial de atletismo de Berlín 2009).
39
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
En la prueba de los 400 metros nos encontramos dos países con datos extremos
lentos, pertenecientes a los países de Bolivia y Angola. En las carreras de 800 metros,
1.500 metros y 3.000 metros obstáculos no se encuentran datos significativamente
anómalos.
3.8
Bolivia
3.5
43
102
44
104
45
3.6
106
46
3.7
108
47
Angola
Gráfico 4: 400 metros
Gráfico 5: 800 metros
Gráfico 6: 1.500 metros
9.0
14.5
Para las pruebas de largo fondo, nos encontramos varios datos extremos con
registros lentos, en el caso de los 5.000 metros, Paraguay y Nigeria, en los 10.000
metros Paraguay y Egipto y en la maratón, Irán, Paraguay, Arabia Saudí y Egipto.
Paraguay
8.0
13.0
8.2
8.4
13.5
8.6
14.0
8.8
Nigeria
Gráfico 7: 3.000 metros Obstáculos
Gráfico 8: 5.000 metros
Iran
145
30
Paraguay
Paraguay
ArabiaSaudi
Egipto
125
27
130
28
135
29
140
Egipto
Gráfico 9: 10.000 metros
Gráfico 10: Maratón
40
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Después de este análisis nos llama la atención los pobres registros en general de
Paraguay, tanto en pruebas velocidad como de resistencia. También las magníficas
marcas de Jamaica en las pruebas de velocidad, y los altos tiempos de Bolivia y Etiopía
en las pruebas de corta distancia.
2.2. Covarianza y correlación entre las variables
Las matrices de covarianzas y correlaciones vienen dadas respectivamente en las
tablas 3 y 4.
En la matriz de correlaciones observamos como en general, los valores altos se
concentran en torno a la diagonal, mientras que cuando nos alejamos de ésta, las
correlaciones disminuyen. Esto es lógico que ocurra, puesto que cuando un país tiene
buenos registros en una prueba, ocurrirá algo parecido en pruebas similares.
Variables
100m
110mV
200m
400m
800m
1500m
3000mO
5000m
10000m
Maraton
100m 110mV
0.04
0.06
0.06
0.22
0.08
0.14
0.10
0.23
0.09
0.30
0.00
0.02
0.01
0.04
0.02
0.06
0.04
0.10
0.19
0.58
200m
0.08
0.14
0.19
0.22
0.23
0.01
0.03
0.05
0.10
0.65
400m
0.10
0.23
0.22
0.65
0.53
0.03
0.10
0.13
0.25
1.47
800m 1500m 3000mO 5000m 10000m Maraton
0.09
0.00
0.01
0.02
0.04
0.19
0.30
0.02
0.04
0.06
0.10
0.58
0.23
0.01
0.03
0.05
0.10
0.65
0.53
0.03
0.10
0.13
0.25
1.47
3.53
0.11
0.21
0.36
0.66
3.14
0.11
0.01
0.01
0.03
0.05
0.21
0.21
0.01
0.06
0.07
0.14
0.69
0.36
0.03
0.07
0.15
0.27
1.23
0.66
0.05
0.14
0.27
0.59
2.75
3.14
0.21
0.69
1.23
2.75
20.64
Tabla 3: Matriz de Covarianzas
Variables
100m
110mV
200m
400m
800m
1500m
3000mO
5000m
10000m
Maraton
100m 110mV
1.00
0.70
0.70
1.00
0.92
0.71
0.61
0.61
0.24
0.34
0.30
0.40
0.24
0.30
0.25
0.32
0.27
0.28
0.21
0.27
200m
0.92
0.71
1.00
0.64
0.27
0.32
0.29
0.29
0.30
0.33
400m
0.61
0.61
0.64
1.00
0.35
0.44
0.47
0.43
0.41
0.40
800m 1500m 3000mO 5000m 10000m Maraton
0.24
0.30
0.24
0.25
0.27
0.21
0.34
0.40
0.30
0.32
0.28
0.27
0.27
0.32
0.29
0.29
0.30
0.33
0.35
0.44
0.47
0.43
0.41
0.40
1.00
0.69
0.45
0.50
0.46
0.37
0.69
1.00
0.70
0.82
0.72
0.57
0.45
0.70
1.00
0.78
0.74
0.61
0.50
0.82
0.78
1.00
0.92
0.71
0.46
0.72
0.74
0.92
1.00
0.79
0.37
0.57
0.61
0.71
0.79
1.00
Tabla 4: Matriz de Correlaciones
Como se está trabajando con variables medidas en diferentes escalas de tiempo,
las pruebas de 100 metros, 110 metros vallas, 200 metros, 400 metros y 800 metros,
en segundos, y las pruebas de 1.500 metros, 3.000 metros obstáculos, 5.000 metros,
10.000 metros y Maratón, en minutos, utilizaremos para el análisis la matriz de
correlaciones.
41
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
El gráfico 11 muestra los diagramas de dispersión de los diferentes pares de
variables. Se observa que hay una relación lineal entre las carreras de las tres
categorías, corta distancia, media distancia y larga distancia.
14.0
15.0
43 44 45 46 47
3.5
3.6 3.7 3.8
13.0
14.0
125
135
145
10.4
13.0
15.0
9.6
X100m
21.5
13.0
X110mV
46
19.5
X200m
108
43
X400m
3.8
102
X800m
8.0 8.6
3.5
X1500m
14.5
X3000mO
27 29
13.0
X5Km
145
X10Km
125
Maraton
9.6
10.0
10.4
19.5
20.5
21.5
102
106
8.0
8.4
8.8
27
28
29 30
Gráfico 11: Diagramas de dispersión
2.3. Test de Hipótesis sobre la Matriz de Correlaciones
Un test que siempre hay que realizar en el análisis de componentes principales, es
el test de independencia de las variables, puesto que si las variables son
independientes, no tendría sentido realizar dicho estudio. Para comprobar la
independencia de las variables, basta con contrastar que la matriz de correlaciones
coincide con la matriz identidad, es decir:
Î
Tenemos que el estadístico:
½S : K æ
½ :b K
1
N
¦
Áqh%
H Ν H 1 H 2 + 5Ð ln¶
6
N
bajo la hipótesis nula, sigue una distribución Chi cuadrado Á%%z
/N .
42
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
N
Para la matriz de correlaciones tenemos que Áqh%
494$99, mientras que el
N
valor crítico correspondientes viene dado por ÁSo éê; %%z /N 61.66, por lo que se
rechaza la hipótesis nula ½S : K, y aceptaremos que las variables no son
independientes.
Otro test interesante en el análisis de componentes principales es comprobar que
los últimos valores son idénticos entre sí e iguales a cero. La hipótesis nula vendría
dada por:
½S : sU sUN , % ; t £ ¬ . Tenemos que el estadístico:
donde . son las raíces características de N
Áqh%
¦
¬ H ∑s.\ §. %zs
¶
A6
 H 1 ÂH ln s
+ ln Æ
È Å
Ht
∏.\ §.
se comporta bajo ½S asintóticamente, con un orden de aproximación de 1/, según
una Chi cuadrado Á N con grados de libertad:
%
%
%
%
1
1
N N
N
Ê H t H 1 [ [ i./
./ [ [ i.. i// ./
Ë
‹ H t H 1 H t + 2 H
2
Ht
.\ /\
.\ /\
donde i./ es la componente 0, 1 de la matriz 7 K H Í Í * ; siendo Í la matriz de
vectores característicos por columnas de las t primeras raíces características de Σ.
Los diferentes valores dados por el estadístico y sus correspondientes regiones
críticas se recogen en la tabla 5.
Orden Estadistico ChiCuadrado GL
630.21
72.15
54
0
285.35
60.48
44
1
143.58
49.80
35
2
99.90
40.11
27
3
83.34
31.41
20
4
66.55
23.68
14
5
43.90
16.92
9
6
24.12
11.07
5
7
4.01
5.99
2
8
Tabla 5: Test igualdad valores propios
En la tabla 5 observamos que se rechaza la hipótesis nula a un nivel de confianza
del 0’05, para los ocho primeros factores, y se acepta a partir del octavo, es decir,
aceptamos que é  S 0.
43
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
2.4. Cálculo de las Componentes Principales
En primer lugar, se obtienen los valores propios de la matriz de correlaciones, que
coincidirán con las varianzas de las diferentes componentes principales. Dichos valores
vienen dados en la tabla 5, donde también se muestra el porcentaje de la varianza
total explicada por cada componente principal.
Orden
1
2
3
4
5
6
7
8
9
10
Varianza Porcentaje Porcentaje
Explicada Explicado Acumulado
5.405
54.05%
54.05%
2.085
20.85%
74.90%
0.782
7.82%
82.72%
0.452
4.52%
87.24%
0.386
3.86%
91.11%
0.342
3.42%
94.53%
0.247
2.47%
97.00%
0.172
1.72%
98.72%
0.081
0.81%
99.53%
0.047
0.47%
100.00%
Tabla 6: Varianza Explicada
0
0
1
1
2
2
3
3
4
4
5
5
Estos valores se muestran representados en el gráfico 12, el cual nos ayudará a
escoger el número de componentes principales a retener en el análisis. Si escogemos
dos componentes principales, explicaremos el 74’9% de la varianza total, mientras que
con tres componentes, el 82’7%. El método del Kaiser nos aconseja tomar el mismo
número de componentes que autovalores mayores que 1, que en este caso serían dos,
aunque estudios recientes aconsejan tomar las componentes cuyos valores propios
son superiores a 0’7, así que optaremos finalmente por retener tres componentes.
2
4
6
8
10
Gráfico 12: Representación de los autovalores
Una vez decidido el número de componentes principales a retener, construimos
dichas componentes. Esto es lo mismo que obtener los vectores propios asociados a
los tres valores propios más grandes. La tabla 6 recoge el valor de los vectores propios,
44
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
por columnas, ordenados desde el perteneciente al mayor autovalor hasta el menor.
Las componentes principales no son más que combinaciones lineales de las variables
originales.
Comp. 1
-0.260
-0.275
-0.281
-0.308
-0.274
-0.359
-0.340
-0.367
-0.359
-0.318
Comp. 2
-0.498
-0.395
-0.467
-0.265
0.108
0.199
0.228
0.282
0.276
0.220
Comp. 3
0.074
-0.121
0.115
0.069
-0.782
-0.327
0.104
0.105
0.254
0.396
Comp. 4 Comp. 5 Comp. 6 Comp. 7
0.245
-0.241
-0.306
-0.074
-0.045
-0.062
0.840
0.148
0.287
-0.058
-0.289
0.142
-0.702
0.455
-0.164
-0.319
0.182
0.333
-0.195
0.170
0.006
-0.263
0.074
-0.288
-0.429
-0.344
-0.164
0.698
0.022
-0.256
0.058
-0.359
0.177
-0.058
-0.001
-0.250
0.336
0.600
0.131
0.244
Tabla 7: Componentes Principales
Comp. 8
0.038
0.142
-0.117
-0.003
0.293
-0.706
0.019
0.195
0.496
-0.309
Comp. 9 Comp. 10
0.541
0.410
0.011
-0.018
-0.586
-0.377
0.005
-0.028
-0.020
0.071
0.151
-0.214
0.062
0.016
-0.495
0.541
0.289
-0.551
0.087
0.201
Tenemos que las componentes principales vienen dadas por:
' H0.26 H 0.275 N H 0.281 ™ H 0.308 ë H 0.274 ê H
H0.359 ì H 0.34 í H 0.367 î H 0.359 é H 0.318 S
'N H0.498 H 0.395 N H 0.467 ™ H 0.265 ë + 0.108 ê +
+0.108 ì + 0.199 í + 0.228 î + 0.276 é + 0.22 S
'™ 0.074 H 0.121 N + 0.115 ™ + 0.169 ë H 0.782 ê H
H0.327 ì + 0.104 í + 0.105 î + 0.254 é + 0.396 S
La primera componente principal es prácticamente proporcional a todas las
variables, lo que significa que si para un país, esta componente toma un valor muy
pequeño (muy negativo), significa que tendrá tiempos altos en el cómputo general de
todas las pruebas, lo que quiere decir que el país no tiene buenos resultados. En el
caso de tomar un valor alto, implicaría que tienen buenos tiempos en general.
La segunda componente principal tiene coeficientes positivos para las pruebas de
velocidad (100 metros, 110 metros vallas, 200 metros y 400 metros) y valores
negativos para las carreras de medio fondo (800 metros, 1.500 metros y 3.000 metros
obstáculos) y largo fondo (5.000 metros, 10.000 metros y Maratón). Lo que significa,
que para valores altos de esta componente, el país tiene mejores registros en medio y
largo fondo que en pruebas de corta distancia, y viceversa.
La tercera componente principal tiene coeficientes negativos para las pruebas de
110 metros vallas, 800 metros y 1.500, y positivos para las restantes. Aunque
observamos que los valores con una magnitud suficientemente grande son los
negativos dados para los 800 metros y 1.500 metros, y los positivos dados para las
pruebas de largo fondo. Esto nos puede hacer pensar que esta tercera componente
discrimina entre las pruebas de media distancia y larga distancia.
45
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
2.5. Relación entre las Variables y las Componentes Principales
La taba 7 muestra la correlación de cada variable con las tres componentes
principales construidas.
Variables
Comp. 1 Comp. 2 Comp. 3
100m
-0.60
-0.72
0.07
110mV
-0.64
-0.57
-0.11
200m
-0.65
-0.67
0.10
400m
-0.72
-0.38
0.06
800m
-0.64
0.16
-0.69
1500m
-0.83
0.29
-0.29
3000mO
-0.79
0.33
0.09
5000m
-0.85
0.41
0.09
10000m
-0.83
0.40
0.22
Maraton
-0.74
0.32
0.35
Tabla 8: Correlaciones entre Variables y C.P.
Estos datos refuerzan nuestra descripción sobre las diferentes componentes
principales. Los gráficos 13, 14 y 15 recogen en un diagrama bidimensional la posición
de las variables respecto a las componentes.
Comp.2
X5Km
X10Km
Comp.2
X3000mO
Maraton
X1500m
X800m
Comp.1
X5Km
X10Km
X3000mO
Maraton
X1500m
X800m
Comp.1
X400m
X400m
X110mV
X200m
X100m
X110mV
X200m
X100m
Gráfico 13: Posición de las variables respecto de las componentes 1 y 2
En el gráfico 13 observamos lo que ya habíamos comentado, la primera
componente no discrimina según la variable, ya que es prácticamente proporcional a
todas, mientras que la segunda componente discrimina entre las pruebas de corta
distancia y las pruebas de media y larga distancia.
46
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Del gráfico 14 obtenemos que la tercera componente principal distingue
claramente entre las pruebas de largo fondo y medio fondo.
Comp.3
Comp.3
Maraton
X10Km
X5Km
X3000mO X200m
X400m X100m
Maraton
Comp.1
X10Km
X200m
X5Km
X3000mO
X100m
X400m
X110mV
Comp.1
X110mV
X1500m
X1500m
X800m
X800m
Gráfico 14: Posición de las variables respecto de las componentes 1 y 3
En el gráfico 15 observamos que estas dos variables conjuntas discriminan entre
los tres tipos de categorías, corta, media y larga distancia. Destacamos que la prueba
de los 3.000 metros obstáculos se agrupa junto a las carreras de largo fondo.
Comp.3
Comp.3
Maraton
X10Km
X200m
X100m
Maraton
X5Km
X3000mO
X400m
X10Km
Comp.2
X200m
X100m
X110mV
X5Km
X3000mO
X400m
Comp.2
X110mV
X1500m
X1500m
X800m
X800m
Gráfico 15: Posición de las variables respecto de las componentes 1 y 3
47
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
2.6. Contribución y Calidad de las Variables
La tabla 8 recoge la contribución de cada variable en la construcción de cada
componente principal. Obtenemos que para la obtención de la primera componente
principal, la variable de los 5.000 metros, así como la de los 1.500 metros y la de los
10.000 metros han sido las que más han contribuido. Con respecto a la segunda
componente principal, la variable que más ha contribuido ha sido la de los 100 metros,
y para la tercera, la de los 800 metros, con un porcentaje superior al 61%.
Variables
Comp. 1
Comp. 2
Comp. 3
100m
6.75%
24.76%
0.55%
110mV
7.59%
15.62%
1.46%
200m
7.88%
21.80%
1.33%
400m
9.47%
7.05%
0.48%
800m
7.48%
1.16%
61.12%
1500m
12.86%
3.96%
10.69%
3000mO
11.55%
5.19%
1.08%
5000m
13.44%
7.97%
1.11%
10000m
12.88%
7.64%
6.46%
Maraton
10.10%
4.85%
15.72%
Tabla 9: Contribuciones de cada variable
La tabla 9 dispone de la calidad de cada variable obtenida por cada componente,
es decir, el porcentaje de la varianza explicada de cada variable por cada una de las
componentes principales construidas. Se observa que más del 50% de la varianza de la
variable 100 metros, es explicada por la segunda componente. En el caso de la variable
1.500 metros, aproximadamente un 70% de su varianza es explicada por la primera
componente. La variable 800 metros es explicada con aproximadamente un 50% por la
tercera componente principal. Es obvio que la media de cada columna, coincidirá con
la varianza total explicada por cada componente.
Variables
X100m
X110mV
X200m
X400m
X800m
X1500m
X3000mO
X5Km
X10Km
Maraton
TOTAL
Comp1
36.48%
41.02%
42.59%
51.18%
40.45%
69.48%
62.43%
72.66%
69.59%
54.62%
54.05%
Comp2
51.61%
32.57%
45.45%
14.69%
2.42%
8.26%
10.81%
16.61%
15.92%
10.11%
20.85%
Comp3
0.43%
1.14%
1.04%
0.38%
47.82%
8.36%
0.85%
0.87%
5.05%
12.30%
7.82%
Tabla 10: Varianza explicada por cada C.P.
48
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
La tabla 10 recoge la varianza acumulada explicada por cada componente
principal. Obtenemos que las variables 800 metros, 5.000 metros y 10.000 metros son
las que mejor calidad tienen, puesto que más del 90% de su varianza queda explicada
por las tres primeras componentes. Caso contrario de la variable 400 metros, con un
porcentaje explicado del 66’25%, y las variables 110 metros vallas y 3.000 metros
obstáculos, con aproximadamente un 75%.
Variables
X100m
X110mV
X200m
X400m
X800m
X1500m
X3000mO
X5Km
X10Km
Maraton
TOTAL
Comp1
36.48%
41.02%
42.59%
51.18%
40.45%
69.48%
62.43%
72.66%
69.59%
54.62%
54.05%
Comp2
88.09%
73.59%
88.05%
65.87%
42.87%
77.74%
73.24%
89.27%
85.52%
64.73%
74.90%
Comp3
88.53%
74.73%
89.09%
66.25%
90.69%
86.10%
74.09%
90.14%
90.57%
77.03%
82.72%
Resto
11.47%
25.27%
10.91%
33.75%
9.31%
13.90%
25.91%
9.86%
9.43%
22.97%
17.28%
Tabla 11: Varianza explicada acumulada por cada C.P.
2.7. Relación entre los Países y las Componentes Principales
Los gráficos 16 y 17 representan la localización de los países respecto de las dos
primeras componentes principales seleccionadas. La primera componente principal
indica la rapidez en el cómputo general de todas las pruebas, mientras que la segunda
discrimina entre las pruebas de corta distancia y media y larga distancia.
Jamaica
Nigeria
Cuba
EEUU
Egipto
Iran
Paraguay
Bolivia
Grecia
Canada
Kazajstan Hungria
Eslovenia
Japon
Polonia
Bulgaria Ucrania
Colombia
Brasil
Sudafrica
UK
Holanda
AustraliaFrancia
China
CoreaSur
Chile
Alemania
RusiaItalia
Peru
Uruguay
RepCheca
Suecia
Noruega
Portugal
ArabiaSaudi
Irlanda
Lituania
Croacia
Belgica
IsraelIndia
Venezuela Finlandia
MexicoSuiza
Serbia
Argentina
NZelanda
España
Dinamarca
Argelia
Angola
Marruecos
Turquia
Kenia
Etiopia
Gráfico 16: Posición de los Países respecto a las componentes 1 y 2
49
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Jamaica
Nigeria
Cuba
EEUU
Egipto
Iran
Paraguay
Bolivia
Grecia
Canada
Hungria
Kazajstan
Bulgaria
Eslovenia
Polonia
Colombia
China Japon
Brasil
Ucrania
Sudafrica
UK
Holanda
AustraliaFrancia
CoreaSur
Chile
Alemania
Italia
Peru
Uruguay
RepCheca
Suecia Rusia
Noruega
Portugal
ArabiaSaudi
Irlanda
Lituania
Croacia
Belgica
Israel
Venezuela
India
Suiza
Serbia
Argentina
Mexico
Finlandia
NZelanda
España
Dinamarca
Argelia
Angola
Marruecos
Kenia
Turquia
Etiopia
Gráfico 17: Posición de los Países respecto a las componentes 1 y 2
Según el gráfico 16, los países con mejores marcas en general son EEUU, Reino
Unido, Francia, Marruecos y Kenia, aunque el caso de EEUU destaca por sus buenas
marcas en las carreras de velocidad, mientras que Kenia y Marruecos en las carreras de
larga distancia. Los países con peores registros son Paraguay, Bolivia, Egipto, Irán y
Angola. Etiopía, como caso particular, posee unas marcas generales normales, pero
tener un valor tan negativo respecto a la segunda componente implica que posee
tiempos muy bajos en las pruebas de resistencia y altos en las pruebas de velocidad. Es
el caso contrario que Jamaica, el cual tiene tiempos muy buenos para las pruebas de
corta distancia, y altos para las carreras de largo fondo.
Iran
Dinamarca
Paraguay
Bolivia
Egipto
Angola
Peru
Croacia
ArabiaSaudi
Argelia
Cuba
Rusia
Venezuela
Suiza
Kenia
Brasil
UK
Noruega
Serbia
Turquia
NZelandaSudafrica
RepCheca
Polonia
Canada
CoreaSur
España
Finlandia
Francia
Jamaica
Colombia Grecia
Holanda
Nigeria
Marruecos
Ucrania Italia
Hungria
Etiopia
EEUU
Irlanda
India
Australia
Chile
Portugal
Belgica
Suecia
Israel
Eslovenia
China
Kazajstan
Argentina
Lituania
Bulgaria
Japon
Mexico
Alemania
Uruguay
Gráfico 18: Posición de los Países respecto a las componentes 1 y 3
50
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Iran
Dinamarca
Paraguay
Croacia
Egipto
ArabiaSaudi
Cuba Argelia
Venezuela
Suiza
Rusia
Kenia
Brasil
UK
Noruega
NZelanda
Serbia Turquia
Sudafrica
RepCheca
Polonia
Canada
CoreaSur
España
Finlandia
Francia
Jamaica
Holanda
Colombia
Nigeria
Marruecos
Ucrania
Etiopia
Irlanda
India
Grecia
Italia
Hungria
Australia
Chile
Suecia
Portugal
Belgica
Israel
Eslovenia
Kazajstan
Argentina
China
Lituania
Bulgaria
Bolivia
Angola
Mexico Japon
Peru
EEUU
Alemania
Uruguay
Gráfico 19: Posición de los Países respecto a las componentes 1 y 3
Los gráficos 18 y 19 representan la localización de los países respecto de la
primera y tercera componente principal. La tercera componente principal discrimina
entre las pruebas de media distancia y larga distancia, así que obtenemos que países
como Irán y Egipto, como tiempos general altos, destacan en las pruebas de medio
fondo, caso contrario a países como Japón y Alemania, que poseen registros generales
buenos, pero en las pruebas de medio fondo, los tiempos son mayores.
Los gráficos 20 y 21 representan la localización de los países respecto de la
segunda y tercera componente principal. Tenemos que países como Uruguay, tiene sus
peores registros en las pruebas de medio fondo, y países como Irán, sus mejores
marcas las posee en las pruebas de 800 metros y 1.500 metros.
Iran
Dinamarca
Argelia
Croacia
Paraguay
ArabiaSaudi
Venezuela
Suiza
Egipto
Cuba
Rusia
Kenia
Turquia
Etiopia
UK
Brasil
Serbia NoruegaSudafrica
NZelanda
RepChecaPolonia
Canada
España Finlandia
CoreaSur
Francia
Holanda
Colombia
Marruecos
Grecia
Ucrania
IndiaIrlanda Italia Hungria
Australia
Bolivia
Chile
Suecia
Belgica
Portugal
Israel
Eslovenia
Angola
ChinaKazajstan
Argentina Lituania Bulgaria
Mexico
EEUU
Nigeria
Jamaica
Japon
Alemania
Peru
Uruguay
Gráfico 20: Posición de los Países respecto a las componentes 2 y 3
51
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Iran
Dinamarca
Croacia
Paraguay
ArabiaSaudi
Egipto
Cuba
Rusia
Venezuela
Suiza
Noruega UK
Kenia
RepCheca Brasil
Serbia
Sudafrica
Turquia
NZelanda
Polonia
Canada
España
CoreaSur
Finlandia
Francia
Holanda
Colombia
Marruecos
Grecia EEUU
Ucrania
Hungria
India
Australia
Bolivia
Irlanda
Italia
Eslovenia
Angola
Chile
Portugal
Belgica
Suecia
Israel
China
Kazajstan
Argentina
LituaniaBulgaria
Argelia
Etiopia
Mexico
Nigeria
Jamaica
Japon
Alemania
Peru
Uruguay
Gráfico 21: Posición de los Países respecto a las componentes 2 y 3
2.8. Contribución y Calidad de los Países
La tabla 11 recoge la contribución de cada país en la construcción de cada
componente principal, calidad de representación cada país obtenida por cada
componente, es decir, el porcentaje de la varianza explicada de cada país por cada una
de las componentes principales construidas. También se muestra el porcentaje de
varianza explicada acumulada.
Variables
Contribuciones
Comp1 Comp2 Comp3
Varianza Explicada
Comp1 Comp2
Comp3
Varianza Explicada Acumulada
Comp1
Comp2
Comp3
Resto
0.95%
0.06%
5.98%
35.10%
0.84%
31.84%
35.10%
35.95%
67.79%
32.21%
Alemania
4.88%
3.08%
1.04%
71.71%
17.45%
2.22%
71.71%
89.17%
91.39%
8.61%
Angola
0.06%
0.01%
3.59%
2.38%
0.14%
20.26%
2.38%
2.51%
22.78%
77.22%
ArabiaSaudi
0.24%
1.82%
3.20%
10.94%
32.28%
21.34%
10.94%
43.21%
64.56%
35.44%
Argelia
0.39%
0.52%
1.88%
33.12%
16.93%
23.09%
33.12%
50.05%
73.14%
26.86%
Argentina
1.62%
0.13%
0.27%
87.30%
2.60%
2.13%
87.30%
89.91%
92.03%
7.97%
Australia
1.90%
0.06%
0.68%
85.10%
0.98%
4.44%
85.10%
86.08%
90.52%
9.48%
Belgica
15.23%
2.11%
0.33%
92.91%
4.97%
0.29%
92.91%
97.88%
98.17%
1.83%
Bolivia
1.71%
0.24%
0.63%
71.67%
3.88%
3.81%
71.67%
75.55%
79.36%
20.64%
Brasil
0.05%
0.27%
1.92%
7.43%
15.00%
40.28%
7.43%
22.43%
62.71%
37.29%
Bulgaria
1.35%
0.74%
0.08%
70.47%
14.78%
0.60%
70.47%
85.25%
85.85%
14.15%
Canada
0.56%
0.29%
0.00%
32.67%
6.52%
0.01%
32.67%
39.19%
39.20%
60.80%
Colombia
0.40%
0.09%
0.05%
30.63%
2.70%
0.54%
30.63%
33.33%
33.87%
66.13%
CoreaSur
0.76%
0.02%
4.63%
44.60%
0.46%
39.41%
44.60%
45.06%
84.47%
15.53%
Croacia
0.04%
4.50%
3.26%
1.43%
60.32%
16.40%
1.43%
61.75%
78.15%
21.85%
Cuba
0.37%
0.10%
0.53%
45.10%
4.54%
9.45%
45.10%
49.64%
59.09%
40.91%
Chile
0.02%
0.10%
1.36%
1.64%
2.92%
14.65%
1.64%
4.56%
19.21%
80.79%
China
0.00%
1.65%
7.20%
0.04%
31.21%
51.07%
0.04%
31.25%
82.32%
17.68%
Dinamarca
7.67%
3.09%
0.09%
84.57%
13.14%
0.14%
84.57%
97.71%
97.85%
2.15%
EEUU
4.46%
1.72%
4.17%
71.02%
10.54%
9.61%
71.02%
81.56%
91.17%
8.83%
Egipto
Tabla 12: Contribución de cada País, Varianza Explicada y Varianza Explicada Acumulada por cada C.P.
52
Análisis de Componente Principales
Variables
Contribuciones
Comp1 Comp2 Comp3
Trabajo Fin de Máster
Varianza Explicada
Comp1
Comp2
Comp3
2011/12
Varianza Explicada Acumulada
Comp1
Comp2
Comp3
Resto
0.94%
0.45%
0.86%
68.82%
12.81%
9.05%
68.82%
81.63%
90.68%
9.32%
Eslovenia
1.25%
1.41%
0.04%
62.73%
27.24%
0.27%
62.73%
89.98%
90.24%
9.76%
España
0.16%
26.08%
0.09%
1.46%
89.29%
0.12%
1.46%
90.75%
90.87%
9.13%
Etiopia
0.05%
0.36%
0.04%
9.15%
26.18%
0.99%
9.15%
35.33%
36.32%
63.68%
Finlandia
3.51%
0.23%
0.02%
93.27%
2.33%
0.07%
93.27%
95.60%
95.67%
4.33%
Francia
0.00%
1.03%
0.04%
0.11%
64.40%
0.92%
0.11%
64.51%
65.43%
34.57%
Grecia
1.18%
0.17%
0.00%
56.74%
3.19%
0.01%
56.74%
59.93%
59.94%
40.06%
Holanda
0.00%
0.40%
0.09%
0.19%
40.42%
3.62%
0.19%
40.61%
44.23%
55.77%
Hungria
0.73%
0.21%
0.13%
77.06%
8.40%
2.02%
77.06%
85.46%
87.49%
12.51%
India
3.97%
0.95%
12.42%
51.62%
4.74%
23.37%
51.62%
56.36%
79.74%
20.26%
Iran
0.21%
0.01%
0.12%
46.44%
1.00%
3.76%
46.44%
47.44%
51.20%
48.80%
Irlanda
1.39%
0.12%
0.68%
75.21%
2.59%
5.32%
75.21%
77.80%
83.12%
16.88%
Israel
1.44%
0.06%
0.16%
77.61%
1.25%
1.29%
77.61%
78.85%
80.14%
19.86%
Italia
0.00%
17.42%
0.00%
0.03%
86.64%
0.01%
0.03%
86.67%
86.67%
13.33%
Jamaica
0.29%
0.31%
4.72%
25.88%
10.61%
60.76%
25.88%
36.49%
97.25%
2.75%
Japon
0.53%
0.57%
1.55%
44.95%
18.87%
19.13%
44.95%
63.81%
82.95%
17.05%
Kazajstan
4.71%
5.80%
0.75%
63.20%
30.02%
1.45%
63.20%
93.23%
94.68%
5.32%
Kenia
0.75%
0.01%
1.83%
42.72%
0.30%
14.99%
42.72%
43.02%
58.01%
41.99%
Lituania
2.65%
4.07%
0.01%
57.67%
34.18%
0.03%
57.67%
91.85%
91.88%
8.12%
Marruecos
0.05%
0.28%
5.02%
3.65%
7.45%
49.30%
3.65%
11.09%
60.40%
39.60%
Mexico
1.08%
11.68%
0.02%
17.43%
72.52%
0.04%
17.43%
89.95%
89.99%
10.01%
Nigeria
0.41%
0.01%
0.50%
24.18%
0.15%
4.25%
24.18%
24.33%
28.58%
71.42%
Noruega
0.01%
0.64%
0.22%
1.27%
24.47%
3.16%
1.27%
25.74%
28.90%
71.10%
NZelanda
16.08%
0.02%
4.18%
92.37%
0.04%
3.47%
92.37%
92.42%
95.89%
4.11%
Paraguay
3.54%
0.04%
6.46%
66.39%
0.26%
17.56%
66.39%
66.65%
84.21%
15.79%
Peru
0.93%
0.30%
0.15%
67.97%
8.52%
1.63%
67.97%
76.50%
78.13%
21.87%
Polonia
0.81%
0.01%
0.68%
34.81%
0.17%
4.22%
34.81%
34.98%
39.20%
60.80%
Portugal
0.05%
0.00%
0.17%
9.15%
0.29%
4.36%
9.15%
9.45%
13.80%
86.20%
RepCheca
0.81%
0.04%
1.80%
65.50%
1.39%
21.09%
65.50%
66.89%
87.98%
12.02%
Rusia
0.37%
0.41%
0.37%
45.70%
19.36%
6.62%
45.70%
65.06%
71.68%
28.32%
Serbia
0.61%
0.18%
0.32%
44.35%
5.07%
3.36%
44.35%
49.42%
52.78%
47.22%
Sudafrica
0.10%
0.01%
0.64%
12.87%
0.34%
11.47%
12.87%
13.20%
24.67%
75.33%
Suecia
0.39%
0.26%
1.39%
43.61%
11.24%
22.63%
43.61%
54.85%
77.47%
22.53%
Suiza
0.05%
5.27%
0.26%
2.10%
89.39%
1.64%
2.10%
91.49%
93.13%
6.87%
Turquia
0.35%
0.21%
0.05%
32.27%
7.39%
0.67%
32.27%
39.66%
40.33%
59.67%
Ucrania
4.45%
0.17%
0.63%
93.91%
1.42%
1.92%
93.91%
95.33%
97.26%
2.74%
UK
3.18%
0.01%
11.19%
46.38%
0.07%
23.65%
46.38%
46.45%
70.10%
29.90%
Uruguay
0.31%
0.22%
1.54%
33.71%
9.22%
24.59%
33.71%
42.93%
67.51%
32.49%
Venezuela
Tabla 12: Contribución de cada País, Varianza Explicada y Varianza Explicada Acumulada por cada C.P.
En la tabla 11 se observa que Bolivia, Paraguay y EEUU son los países que más
contribuyen a la primera componente principal, Etiopía, Jamaica y México a la segunda
componente principal, e Irán y Uruguay a la tercera con un 12% aproximadamente.
Con respecto a la varianza explicada, en el caso de España el 62’73% lo es por la
primera componente principal, el 27’24% por la segunda y el 0’27% por la tercera, en
total un 90’24% de la varianza de España queda explicada por las tres primeras
componentes. Los países mejor explicados son Bolivia, EEUU, Francia, Japón y Reino
Unido, con más de un 95%, y los menos, Arabia Saudí, China, República Checa y Suecia,
con menos de un 25%.
53
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
2.9. Relación entre Países y Variables
El gráfico 22 muestra la relación conjunta entre las variables y los Países. Vemos
como hay dos grupos de variables diferenciados, las pruebas de velocidad y las de
resistencia. Cuanto más cerca queda un país de uno de estos grupos, peores registros
tiene en sus pruebas, obteniendo que EEUU posee tiempos muy bajos en general, y
Jamaica únicamente en las carreras de distancias cortas. Kenia, Marruecos y Etiopía
poseen registros muy buenos en pruebas de media y larga distancia. Los peores
registros en general son de Paraguay y Bolivia.
-6
-4
-2
0
2
4
4
Nigeria
X5Km
X10Km
X3000mO
Maraton
X1500m
Cuba
EEUU
2
0.5
Jamaica
Paraguay
Bolivia
0
Grecia
Canada
Kazajstan
Eslovenia
Hungria
Japon
Bulgaria
Polonia
Colombia
Brasil
Francia
Ucrania
Sudafrica
Holanda
UK
Australia
Chile
China
CoreaSur
Alemania
Italia
Rusia
Peru
Uruguay
RepCheca
Suecia
Noruega
Portugal
Irlanda
Lituania ArabiaSaudi
Croacia
Belgica
Israel
India
Venezuela
Suiza
Mexico
Finlandia
SerbiaNZelanda
Argentina
España
Dinamarca
Argelia
Angola
Marruecos
Turquia
Kenia
-2
0.0
X800m Egipto
Iran
-0.5
-4
X400m
X110mV
Etiopia
-0.5
0.0
Gráfico 22: Posición de las variables y los países
-6
X200m
X100m
0.5
54
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Anexo 1: Funciones del paquete ade4
Las dos funciones específicas del paquete “ade4” utilizadas en R para el Análisis de
Componentes Principales son “dudi.pca” e “inertia.dudi”. Su sintaxis es:
dudi.pca (df, row.w = rep(1, nrow(df))/nrow(df),col.w = rep(1, ncol(df)),center = TRUE,
scale = TRUE,scannf = TRUE, nf = 2)
donde:
•
df: es un data frame con n filas (individuos) y p columnas (variables numéricas).
•
row.w: es opcional y es el peso de las columnas (por defecto uniforme).
•
col.w: es opcional y es el peso de las filas.
•
center: es un valor lógico o numérico. Si es True, se centra por la media, si es
False no se centra. Si es un vector numérico, la longitud debe ser igual al
número de columnas.
•
scale: es un valor lógico que indica si el vector de columnas debe ser
normalizado por los pesos de row.w.
•
scannf: valor lógico que indica si el gráfico de sedimentación será facilitado.
•
nf: si scannf es False, nf es un entero que indica el número de componentes a
retener.
Los resultados que devuelve esta función son:
•
tab: es el data frame analizado, dependiendo de la transformación de los datos.
•
cw: pesos de las columnas.
•
lw: pesos de las filas.
•
eig: los autovalores.
•
rank: rango de la matriz analizada.
•
nf: número de factores.
55
Análisis de Componente Principales
Trabajo Fin de Máster
•
c1: los valores de las componentes principales retenidas, coincide con los
vectores propios.
•
l1: la posición de los individuos respecto a las componentes principales
retenidas.
•
co: la correlación de las variables con las componentes principales retenidas.
•
li: el valor de la componente principal para cada individuo.
•
call: devuelve los datos introducidos para la función.
•
cent: el vector de medias de las variables.
•
norm: el vector que contiene las desviaciones de las variables.
2011/12
inertia.dudi(dudi, row.inertia = FALSE, col.inertia = FALSE)
donde:
•
dudi: es un objeto de clase dudi, devuelto por la función dudi.pca.
•
row.inertia: valor lógico. Si es TRUE, devuelve la contribución de las filas a cada
componente, y la varianza explicada de cada fila por cada componente.
•
col.inertia: valor lógico. Si es TRUE, devuelve la contribución de las columnas a
cada componente, y la varianza explicada de cada columna por cada
componente.
Los resultados que devuelve esta función son:
•
TOT: Varianza total explicada por cada componente. Absoluta, acumulada y
porcentaje explicado.
•
row.abs: Contribución de cada fila a cada componente.
•
row.rel: Varianza explicada de cada fila por cada componente.
•
row.cum: Varianza explicada acumulada de cada fila por cada componente.
•
col.abs: Contribución de cada columna a cada componente.
•
col.rel: Varianza explicada de cada columna por cada componente.
•
col.cum: Varianza explicada acumulada de cada columna por cada componente.
56
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Anexo 2: Programación en R.
#Cargamos librerías y directorio
>
>
>
>
+
>
options(warn=-1)
library(ade4)
memory.size(4000)
directorio <- "C:\\Documents and Settings\\joseantonio\\
Escritorio\\TFM"
setwd(directorio)
#Leemos datos
> datos <- read.table("datosatletismo.txt",header=T,row.names=1)
#Análisis Descriptivo, para esto construimos una función que nos
#devuelve la tabla completa
> descriptivos <- function(datos=NA)
+
{tabla <- data.frame(c("Media","Varianza","Mínimo",
+
"Percentil5","Percentil25","Mediana","Percentil75",
+
"Percentil95","Máximo"))
+
for(i in 1:ncol(datos))
+
{media <- mean(datos[,i])
+
varianza <- var(datos[,i])
+
perc <- quantile(datos[,i],probs=c(0,0.05,0.25,
+
0.5,0.75,0.95,1))
+
+
vector <- c(media,varianza,perc)
+
tabla <- cbind(tabla,vector)
+
}
+
+
colnames(tabla)<-c("Variables",colnames(datos))
+
+
return(tabla)
+
}
> descriptivos(datos)
# llamamos a la función
#Gráficos de cajas, usamos la función boxplot, y la función
#identity para obtener los nombre de los valores que datos
#extremos
>
+
>
+
boxplot(x=datos$X100m,xlab="100 metros",
cex.lab=1.7,col="grey")
identify(rep(1,length(datos$X100m)),datos$X100m,
rownames(datos))
> boxplot(x=datos$X110mV,xlab="110 m. vallas",
+ cex.lab=1.7,col="grey")
57
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
> identify(rep(1,length(datos$X110mV)),datos$X110mV,
+ rownames(datos))
>
+
>
+
boxplot(x=datos$X200m,xlab="200 metros",
cex.lab=1.7,col="grey")
identify(rep(1,length(datos$X200m)),datos$X200m,
rownames(datos))
>
+
>
+
boxplot(x=datos$X400m,xlab="400 metros",
cex.lab=1.7,col="grey")
identify(rep(1,length(datos$X400m)),datos$X400m,
rownames(datos))
>
+
>
+
boxplot(x=datos$X800m,xlab="800 metros",
cex.lab=1.7,col="grey")
identify(rep(1,length(datos$X800m)),datos$X800m,
rownames(datos))
>
+
>
+
boxplot(x=datos$X1500m,xlab="1500 metros",
cex.lab=1.7,col="grey")
identify(rep(1,length(datos$X1500m)),datos$X1500m,
rownames(datos))
>
+
>
+
boxplot(x=datos$X3000mO,xlab="3.000 m. Obstáculos",
cex.lab=1.7,col="grey")
identify(rep(1,length(datos$X3000mO)),datos$X3000mO,
rownames(datos))
> boxplot(x=datos$X5Km,xlab="5.000 metros",
+ cex.lab=1.7,col="grey")
> identify(rep(1,length(datos$X5Km)),datos$X5Km,rownames(datos))
>
+
>
+
boxplot(x=datos$X10Km,xlab="10.000 metros",
cex.lab=1.7,col="grey")
identify(rep(1,length(datos$X10Km)),datos$X10Km,
rownames(datos))
> boxplot(x=datos$Maraton,xlab="Maratón",cex.lab=1.7,col="grey")
> identify(rep(1,length(datos$Maraton)),datos$Maraton,
+ rownames(datos))
#Matrices de covarianza y correlaciones
> var(datos)
> cor(datos)
#Diagramas de dispersión entre las diferentes variables
plot(datos)
#Test de Hipótesis, creamos dos funciones para los dos test que
#se van a realizar
58
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
> TestIndep <- function(datos=NA,nivel=NA)
+ {N <- nrow(datos)
+
p <- ncol(datos)
+
corr <- cor(datos)
+
+
Xexp <- -(N-1-(2*p+5)/6)*log(det(corr))
+
+
gl <- p*(p-1)/2
+
Xteo <- qchisq(nivel,gl, lower.tail = T)
+
+
tabla <- data.frame("Estadistico"=Xexp,
+
"ChiCuadrado"=Xteo,"GL"=gl)
+ return(tabla)
+ }
> TestIndep(datos,0.95)
#Llamamos a la función TestIndep
> TestR <- function(datos=NA, q=NA, ro=NA, nivel=NA)
+
{N <- nrow(datos)
+
p <- ncol(datos)
+
vp <- eigen(cor(datos))$values
+
vecp <- eigen(cor(datos))$vectors[,1:q]
+
I <- matrix(0,p,p)
+
I[row(I)==col(I)] <- 1
+
c <- I - vecp%*%t(vecp)
+
corr <- cor(datos)
+
a <- det(corr)/prod(vp[1:q])
+
b <- sum(vp[(q+1):p])/(p-q)
+
Xexp <- (N-1)*(-log(a)+(p-q)*log(b))
+
+
d <- sum(c*c*corr*corr)
+
e <- c(0)
+
for(i in 1:p)
+
for(j in 1:p)
+
e <- e + c[i,i]*c[j,j]*corr[i,j]*corr[i,j]
+
f <- abs(((p-q-1)*(p-q+2)/2) - ((p-q-1)*ro*d*e)/(p-q))
+
gl <- round(f)
+
+
Xteo <- qchisq(nivel, gl, lower.tail = T)
+
+
tabla <- data.frame("Estadistico"=Xexp,
+
"ChiCuadrado"=Xteo,"GL"=gl)
+
+
return(tabla)
+
}
#Llamamos a la función TestR con “ro”=0 y un n.c.=0.95
> for(i in 0:9) print(TestR(datos,i,0,0.95))
#Valores propios y vectores propios
> eigen(cor(datos))$values
> eigen(cor(datos))$vectors
#Valores propios
#Vectores propios
59
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
#ANÁLISIS DE COMPONENTES PRINCIPALES (funciones del paquete
#ade4)
> acp <- dudi.pca(df=datos,scannf=T)
> acpi <- inertia.dudi(acp,row.inertia=T,col.inertia=T)
> acp$co
> acp$c1
#Correlación entre las componentes principales
#Valor de las componentes principales
#Gráficos de las variables
> s.label(acp$co[,c(1,2)],boxes=F,clabel=0.9,cgrid=0)
> s.corcircle(acp$co[,c(1,2)],clabel=0.9,grid=T)
> s.label(acp$co[,c(1,3)],boxes=F,clabel=0.9,cgrid=0)
> s.corcircle(acp$co[,c(1,3)],clabel=0.9,grid=T)
> s.label(acp$co[,c(2,3)],boxes=F,clabel=0.9,cgrid=0)
> s.corcircle(acp$co[,c(2,3)],clabel=0.9,grid=T)
#Contribución y calidad de las variables
> acpi$col.abs/10000
> acpi$col.rel/10000
> acpi$col.cum/10000
#Gráficos países
> s.label(acp$li[,c(1,2)],boxes=F,clabel=1,cgrid=0)
> s.corcircle(acp$li[,c(1,2)],clabel=0.9,grid=T)
> s.label(acp$li[,c(1,3)],boxes=F,clabel=1,cgrid=0)
> s.corcircle(acp$li[,c(1,3)],clabel=0.8,grid=T)
> s.label(acp$li[,c(2,3)],boxes=F,clabel=1,cgrid=0)
> s.corcircle(acp$li[,c(2,3)],clabel=0.8,grid=T)
#Contribución y calidad de los países
> acpi$row.abs/10000
> acpi$row.rel/10000
> acpi$row.cum/10000
#Gráfico relación entre Países y Variables
> biplot(acp$co[,c(1,2)],acp$li[,c(1,2)])
60
Análisis de Componente Principales
Trabajo Fin de Máster
2011/12
Bibliografía
Parte teórica
•
Anderson, T. W. 1984. An introduction to multivariate statistical analysis. John
Wiley & Sons.
•
Anderson, T.W., and H. Rubin. 1956. “Statistical inference in factor analysis.”
Proceedings of the third Berkeley Symp. Volumen Vol. V. University of
California, Berkeley, 111-150.
•
Bartlett, M. S. 1947. “Multivariante Analysis.” Journal of the Royal Statistical
Society Suppl. 9B:176-197.
•
Basilewsky, A. 1994. Statistical factor analysis and related methods: theory and
aplications. New York: John Wiley and Sons.
•
Crawley, M. J. 2007. The R book. Wiley.
•
Johnson, R. A., and D. W. Wichern. 1998, Applied multivariate statistical
analysis. Prentice-Hall.
•
Lawley, D. N., and E. Maxwell. 1971. Factor analysis as a statistical method. Ed.
Butterworths, London.
•
Schwarz, G. 1987. “Estimathing the dimensión of a model.” Annals of Statistics
6: 431-464.
•
SPSS. 2005. SPSS 15. Manual de usuario. Chicago.
•
Thurstone, L. L. 1945. Multiple-Factor Analysis. University Chicago Press.
Parte práctica
•
•
•
•
•
•
•
http://en.wikipedia.org/wiki/Greek_records_in_athletics
http://en.wikipedia.org/wiki/Irish_records_in_athletics
http://en.wikipedia.org/wiki/Italian_records_in_athletics
http://en.wikipedia.org/wiki/Dutch_records_in_athletics
http://en.wikipedia.org/wiki/Portuguese_records_in_athletics
http://en.wikipedia.org/wiki/Spanish_records_in_athletics
http://en.wikipedia.org/wiki/Swedish_records_in_athletics
61
Análisis de Componente Principales
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Trabajo Fin de Máster
2011/12
http://en.wikipedia.org/wiki/Swiss_records_in_athletics
http://en.wikipedia.org/wiki/British_records_in_athletics
http://en.wikipedia.org/wiki/Japanese_records_in_athletics
http://en.wikipedia.org/wiki/Canadian_records_in_athletics
http://en.wikipedia.org/wiki/United_States_records_in_athletics
http://en.wikipedia.org/wiki/Iranian_records_in_athletics
http://en.wikipedia.org/wiki/Israeli_records_in_athletics
http://en.wikipedia.org/wiki/Saudi_Arabian_records_in_athletics
http://en.wikipedia.org/wiki/Turkish_records_in_athletics
http://en.wikipedia.org/wiki/Chinese_records_in_athletics
http://en.wikipedia.org/wiki/Indian_records_in_athletics
http://en.wikipedia.org/wiki/Norwegian_records_in_athletics
http://en.wikipedia.org/wiki/Australian_records_in_athletics
http://en.wikipedia.org/wiki/Hungarian_records_in_athletics
http://en.wikipedia.org/wiki/Polish_records_in_athletics
http://en.wikipedia.org/wiki/Russian_records_in_athletics
http://en.wikipedia.org/wiki/Bolivian_records_in_athletics
http://en.wikipedia.org/wiki/Argentine_records_in_athletics
http://en.wikipedia.org/wiki/Brazilian_records_in_athletics
http://en.wikipedia.org/wiki/Chilean_records_in_athletics
http://en.wikipedia.org/wiki/Colombian_records_in_athletics
http://en.wikipedia.org/wiki/Paraguayan_records_in_athletics
http://en.wikipedia.org/wiki/Peruvian_records_in_athletics
http://en.wikipedia.org/wiki/Uruguayan_records_in_athletics
http://en.wikipedia.org/wiki/Venezuelan_records_in_athletics
http://en.wikipedia.org/wiki/Mexican_records_in_athletics
http://en.wikipedia.org/wiki/Belgian_records_in_athletics
http://en.wikipedia.org/wiki/Jamaican_records_in_athletics
http://en.wikipedia.org/wiki/Finnish_records_in_athletics
http://en.wikipedia.org/wiki/Danish_records_in_athletics
http://en.wikipedia.org/wiki/French_records_in_athletics
http://en.wikipedia.org/wiki/German_records_in_athletics
http://en.wikipedia.org/wiki/Kenyan_records_in_athletics
http://en.wikipedia.org/wiki/Ethiopian_records_in_athletics
http://en.wikipedia.org/wiki/Egyptian_records_in_athletics
http://en.wikipedia.org/wiki/Moroccan_records_in_athletics
http://en.wikipedia.org/wiki/Angolan_records_in_athletics
http://en.wikipedia.org/wiki/Algerian_records_in_athletics
http://en.wikipedia.org/wiki/Comorian_records_in_athletics
http://en.wikipedia.org/wiki/South_Korean_records_in_athletics
http://en.wikipedia.org/wiki/Croatian_records_in_athletics
http://en.wikipedia.org/wiki/Cuban_records_in_athletics
http://en.wikipedia.org/wiki/Slovenian_records_in_athletics
http://en.wikipedia.org/wiki/Kazakhstani_records_in_athletics
http://en.wikipedia.org/wiki/Lithuanian_records_in_athletics
http://en.wikipedia.org/wiki/Nigerian_records_in_athletics
http://en.wikipedia.org/wiki/New_Zealand_records_in_athletics
http://en.wikipedia.org/wiki/Czech_records_in_athletics
http://en.wikipedia.org/wiki/South_African_records_in_athletics
62
Análisis de Componente Principales
Trabajo Fin de Máster
•
•
http://en.wikipedia.org/wiki/Ukrainian_records_in_athletics
http://en.wikipedia.org/wiki/Serbian_records_in_athletics
•
http://www.juegosenlondres2012.com/atletas/por-paises
2011/12
63
Descargar