Análisis de Componentes Principales. Clasificación de Países según las carreras de atletismo. Trabajo Fin de Máster Realizado por: José Antonio Sánchez Rivera Tutor: Dr. D. Ramón Gutiérrez Sánchez Máster en Estadística Aplicada. A Departamento de Estadística e Investigación Operativa. Universidad de Granada. 2011/2012 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Índice 1. MODELO DE ANÁLISIS DE COMPONENTES PRINCIPALES ...................... 3 1.1. Introducción: .................................................................................................. 3 1.2. Construcción de las Componentes Principales ................................................. 4 1.2.1. 1.2.2. 1.3. Construcción sucesiva de las componentes principales ....................................5 Construcción conjunta de las componentes principales ...................................8 Estructura de la matriz de covarianza en el ACP. .......................................... 9 1.3.1. Propiedad de invarianza .................................................................................. 10 1.3.2. Correlación entre las CP y las variables originales. ............................................ 10 1.3.3. Estructuras especiales de .............................................................................. 11 1.3.4. Componentes principales sobre la matriz de correlación ............................... 11 1.3.5. Muestras de combinaciones lineales de variables aleatorias............................. 12 1.4. Análisis de Componentes Principales Muestral (ACPM) ................................. 13 1.5. Análisis de Componentes Principales en poblaciones normales. .................... 15 1.5.1. Resultados de Anderson-Girschick ................................................................... 16 1.6. Cálculo de las Componentes Principales poblacionales .................................. 17 1.7. Manejo simultáneo de todas las componentes principales. ........................... 20 1.8. Test basados en la matriz de covarianzas muestrales. ................................ 21 1.8.1. 1.8.2. 1.8.3. 1.9. Test de Barlett .................................................................................... 21 Test de Bartlett-Lawley ....................................................................... 22 Test de Anderson ................................................................................ 23 Test basado en la matriz de correlaciones muestrales ............................... 24 1.9.1. Casos particulares de test basados en .......................................................... 25 1.10. Selección del número de componentes principales ........................................ 26 1.10.1. Actuación con la matriz de covarianzas muestrales .............................................. 26 1.10.2. Actuación con la matriz de correlaciones muestrales ........................................... 27 1.11. Análisis de componentes principales y observaciones anómalas.................... 28 1.12. Representaciones gráficas en el ACP. ............................................................ 31 1 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 1.13. Aplicaciones del ACP: ACP sobre k-grupos ..................................................... 32 1.13.1. Modelo de Okamoto o “modelo de efectos fijos” .................................... 32 1.13.2. El ACP y la Regresión lineal ................................................................................. 33 1.14. Resultados previos: Elipsoides equiprobables en una ; y combinaciones lineales de un vector aleatorio multidimensional. ................................................... 34 1.14.1. Combinaciones lineales de un vector aleatorio ................................................. 35 2. APLICACIÓN A DATOS REALES ............................................................ 37 2.1. Análisis exploratorio ........................................................................................ 39 2.2. Covarianza y correlación entre las variables ..................................................... 41 2.3. Test de Hipótesis sobre la Matriz de Correlaciones ........................................... 42 2.4. Cálculo de las Componentes Principales ........................................................... 44 2.5. Relación entre las Variables y las Componentes Principales .............................. 46 2.6. Contribución y Calidad de las Variables ............................................................ 48 2.7. Relación entre los Países y las Componentes Principales ................................... 49 2.8. Contribución y Calidad de los Países ................................................................. 52 2.9. Relación entre Países y Variables ..................................................................... 54 3. ANEXO 1: FUNCIONES DEL PAQUETE ade4 ......................................... 55 4. ANEXO 2: PROGRAMACIÓN EN R ....................................................... 57 5. BIBLIOGRAFÍA .................................................................................... 61 2 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Modelo de Análisis de Componentes Principales 1.1. Introducción: En la práctica, cuando se recoge información de una muestra de datos, lo más habitual es tomar el mayor número posible de variables. Sin embargo, si tomamos demasiadas variables sobre un conjunto de objetos, por ejemplo 20 variables, tendríamos que considerar 20 180 posibles coeficientes de correlación; si 2 hablamos de 40 variables, nos encontraríamos con hasta 40 780 coeficientes. 2 Obtener más de 40 variables de estudio, ya sea en un ámbito empresarial, social, económico o cualquier otro campo, no es nada extraño, puesto que hay muchos estudios que requieren de la recogida de una gran cantidad de propiedades y características. Evidentemente, en un caso así es difícil visualizar relaciones entre las variables. Otro problema que se plantea es la fuerte correlación que muchas veces se presenta entre las variables, ya que si tomamos demasiadas variables (cosa que en general sucede cuando no se sabe demasiado sobre los datos), lo normal es que estén relacionadas o que midan lo mismo bajo distintos puntos de vista. Un ejemplo habitual sería en un estudio médico, donde la presión sanguínea a la salida del corazón y la salida de los pulmones están fuertemente relacionadas. Se hace necesario en estos casos reducir el número de variables. Es importante resaltar el hecho de que el concepto de mayor información se relaciona con el de mayor variabilidad o varianza. Cuanto mayor sea la variabilidad de los datos (varianza) se considera que existe mayor información, lo cual está relacionado con el concepto de entropía. Una de las técnicas para la reducción de variables es el Análisis de Componentes Principales, que fue inicialmente desarrollado por Pearson a finales del siglo XIX y posteriormente fue estudiado por Hotelling en los años 30 del siglo XX. Sin embargo, hasta la aparición de los ordenadores no se empezó a popularizar. Para estudiar las relaciones que se presentan entre “” variables correlacionadas, es decir, que miden información común, se puede transformar el conjunto original de variables en otro conjunto de nuevas variables incorreladas entre sí, que no tenga repetición o redundancia en la información, llamado conjunto de componentes principales. 3 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Las nuevas variables son combinaciones lineales de las anteriores y se van construyendo según el orden de importancia en cuanto a la variabilidad total que recogen de la muestra. La manera ideal sería buscar “” variables ( ) que sean combinaciones lineales de las “” originales y que estén incorreladas, recogiendo la mayor parte de la información o variabilidad posible de los datos. Está claro que si las variables originales están incorreladas de partida, entonces no tiene sentido realizar un análisis de componentes principales. El análisis de componentes principales es una técnica matemática que no requiere la suposición de normalidad multivariante de los datos, aunque en el análisis de componentes principales paramétrico que aquí abordaremos, el vector aleatorio , … , # $ con el cual trabajaremos, se supondrá modelizado a la hora de realizar inferencia por una distribución normal -dimensional. 1.2. Construcción de las Componentes Principales Me manera global, el análisis de componentes principales pretende explicar la estructura de covarianza de un vector aleatorio , … , % $ buscando un nuevo sistema de ejes coordenados que indiquen las direcciones de mayor variabilidad, ya sea en una situación teórica con matriz de covarianza Σ conocida, o con una matriz de covarianza Σ estimada a partir de una muestra. Este nuevo sistema de ejes coordenados es a lo que denominaremos las componentes principales. Vamos a trabajar en primer lugar con el modelo teórico en el cuál, para un vector aleatorio , … , % $ conocemos la matriz de covarianzas “Σ” o la matriz de correlaciones “”. Como ya hemos dicho, las componentes principales de un vector aleatorio dimensional , … , % $, son combinaciones lineales incorreladas entre sí. Obtenemos por tanto componentes principales ' , … , '% , de la forma: ' ) * ) * + , + ) * % % * '% )%* )%* + , + )%% % A partir de esto deducimos que para dos componentes principales cualesquiera, '. e '/ , para cualquier 0 y 1 en 21, … , 3 tenemos: 456'. 456).* ).* Σ). 789:'. , '/ ; 789:).* , )/* ; ).* Σ)/ Se denominan Componentes Principales (CP) de , … , # $, a las combinaciones lineales ' , … , '# que son incorreladas entre sí y que hacen máximas las varianzas 456'. ).* Σ). , 0 1, … , . 4 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 1.2.1. Construcción sucesiva de las componentes principales Para la construcción de la primera componente principal se obtendrá una combinación lineal ' ) * ) * + , + ) * % % tal que la varianza sea máxima. Para maximizar 456' ) * Σ) , nos encontramos con una indeterminación, ya que dicha varianza aumentará sin más que multiplicar ) ) , … , ) % por una constante positiva. Para evitar esto, impondremos la restricción de que los vectores ). sean unitarios. Por tanto, haciendo uso de los multiplicadores de Lagrange, resolveremos el siguiente problema: max2456' 3 max2) * Σ) 3 A5) BCD ) * ) 1 ?@ Para esto, construimos la función de los multiplicadores de Lagrange: Φ ) ) * Σ ) – G ) * ) H 1 Derivamos respecto a ) , igualamos a cero y despajamos para obtener el máximo: IΦ ) 2Σ ) H 2G) 0 I) J Σ H GK) 0 Por el Teorema de Roché-Frobenius, para que el anterior sistema tenga solución distinta de 0, la matriz Σ – GK tiene que ser singular, lo que quiere decir que: |Σ – GK| 0 Deducimos de esto que G es un autovalor de Σ. Como la matriz de covarianzas Σ es de orden y semidefinida positiva, sabemos que tendrá autovalores positivos: G M GN M , M G% M 0 Del sistema Σ H GK) 0, tenemos que Σ ) G) , por tanto: * ) G 456' ) * Σ) ) * G) G )O Como nuestro objetivo es maximizar la 456' G, tomaremos como G el mayor autovalor, es decir, G . Finalizamos deduciendo a partir de Σ – G K) 0 que ) es el autovector de Σ asociado al autovalor G , que lo llamaremos D . Resumimos por tanto que la primera componente principal vendrá dada por: ' D* 5 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Y la varianza será: 456' G Para la construcción de la segunda componente principal se obtendrá una * combinación lineal 'N )N* )N* + , + )N% % tal que la varianza sea máxima y sea incorrelada con ' . Por tanto, haciendo uso de los multiplicadores de Lagrange, resolveremos el siguiente problema: max2456'N 3 max2)N* Σ)N 3 ?P A5) BCD )N* )N 1 Q 789'N , ' )N* ΣD 0 De la condición 789'N , ' )N* ΣD 0 y como sabemos que ΣD GD , nos queda que 789'N , ' )N* ΣD )N* GD G)N* D 0, de donde obtenemos que la segunda condición es equivalente a: )N* D 0 Es decir, que los dos vectores sean ortogonales. Construimos la función de los multiplicadores de Lagrange: ΦN )N )N* Σ )N – G )N* )N H 1 H R )N* D Derivamos respecto a )N , igualamos a cero y despajamos para obtener el máximo: IΦN )N 2Σ )N H 2G)N H RD 0 I)N Multiplicamos la igualdad anterior por D * , obteniendo: * * 2D * Σ )N H 2G DO )N H R DT D 0 S J R 2D * Σ )N 2789' , 'N 0 De este modo: IΦN )N 2Σ )N H 2G)N 0 J Σ H GK)N 0 I)N Y efectuando el mismo razonamiento que en el caso anterior, deducimos que G sería un autovalor de Σ, concretamente GN , y )N el autovector asociado DN . Resumimos por tanto que la segunda componente principal vendrá dada por: Y la varianza será: 456'N GN 'N DN* 6 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Para la construcción de la (j+1)-ésima componente principal se obtendrá una * * * )/U combinación lineal '/U )/U , + , + )/U ,% % tal que la varianza sea máxima y sea incorrelada con ' , … , '/ . Como en los casos anteriores, haciendo uso de los multiplicadores de Lagrange, resolveremos el siguiente problema: * Σ)/U W maxV456:'/U ;W maxV)/U ?XY@ * * A5) BCD )/U )/U 1 Q 789:'/U , '. ; )/U ΣD. 0 ; Z0 1, … , 1 * De la condición 789:'/U , '. ; )/U ΣD. 0; Z0 1, … , 1 y como sabemos que * * ΣD. G. D. ; Z0 1, … , 1, nos queda que 789:'/U , '. ; )/U ΣD. )/U GD. * G)/U D. 0, de donde obtenemos que la segunda condición es equivalente a: * )/U D. 0; Z0 1, … , 1 Es decir, que el vector )/U es ortogonal a los vectores propios D. , 0 1, … , 1. Construimos la función de los multiplicadores de Lagrange: / * * * Φ/U :)/U ; )/U Σ )/U – G :)/U )/U H 1; H [ R. )/U D. .\ Derivamos respecto a )/U , igualamos a cero y despajamos para obtener el máximo: / IΦ/U :)/U ; 2Σ )/U H 2G)/U – [ R. D. 0 I)/U .\ Como en el caso anterior, multiplicando sucesivamente por D * , … , D/* , obtenemos que: R. 0; Z0 1, … , 1 De este modo: IΦ/U :)/U ; 2Σ )/U H 2G)/U 0 J Σ H GK)/U 0 I)/U Y efectuando el mismo razonamiento que en el caso anterior, deducimos que G sería un autovalor de Σ, concretamente G/U , y )/U el autovector asociado D/U . Resumimos por tanto que la (j+1)-ésima componente principal vendrá dada por: * '/U D/U Y la varianza será: 456:'/U ; G/U 7 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 En general, tenemos que ' ' , … , '% $ se puede expresar como el producto de una matriz formada por los autovectores y el vector , … , % $. ' ]· D donde Como tenemos que: ] D , … , D% _ D% , D% ` - a , D%% 456'. G. ; Z0 1, … , 789:'. , '/ ; 0, Z0, 1 1, … , ; 0 b 1 Nos queda que la matriz de covarianza de ' viene dada por: G 0 Λ 456' d 0 0 GN 0 , , ,̀ 0 0 e G% De donde deducimos que: Λ 456' ]* 456] ]* Σ ] O como la matriz ] es ortogonal, es decir, ]* ] K, tenemos también que: Σ ] Λ ]$ 1.2.2. Construcción conjunta de las componentes principales En lugar de ir obteniendo sucesivamente las componentes principales como en el apartado anterior, resolviendo los diferentes problemas de máximos condicionados mediante los multiplicadores de Lagrange, se puede actuar globalmente desde el comienzo. Lógicamente se obtendrá los mismos resultados, pero tendremos que usar el siguiente resultado de maximización. Lema 1 (Lema de maximización). Sea ] una matriz f definida positiva, con autovalores G M GN M , M G% g 0 y autovectores normalizados D , … , D% y sea “f” un vector f 1, arbitrario no nulo. Se cumple entonces que: f * ]f G , 5)i5jk5l8 Dj f D h f*f f * ]f G% , 5)i5jk5l8 Dj f D% min h;h o h\S f * f max 8 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 f * ]f GsU , 5)i5jk5l8 Dj f DsU , t 1,2, … , H 1 hpq@ ,…,qr f * f max A partir de este resultado, se puede deducir que: Teorema 1: Teorema de componentes principales: Sea , … , % $ un vector aleatorio con matriz de covarianzas conocida u definida positiva y real y sean G M GN M , M G% g 0 los autovalores y D , … , D% los autovectores de u. La i-ésima componente principal '. antes definida viene dada por: '. D.* D. + , + D.% % ; 0 1, … , Si hay autovalores iguales, pongamos Gs , … , GsUv , los autovectores Ds , … , DsUv asociados no son únicos, por lo que, en este caso, las respectivas componentes principales no serán únicas. Nota: Dada una matriz w, f , definida positiva, con autovalores G M GN M , M G% g 0 y autovectores D , … , D% . Se puede obtener su descomposición espectral como: % w [ G. D. D.* .\ Sea la matriz x D , … , D% formada por columnas por los autovectores normalizados, y Λ l05yG , GN , … , G% . Sabemos que x* x K. Conocido esto, podemos definir w z y w wz % 1 xΛz x* [ D. D.* G. .\ /N . w /N xΛ /N % x* [ |G. D. D.* .\ 1.3. Estructura de la matriz de covarianza en el ACP. Dado Σ, definida positiva, la matriz de covarianzas de , hemos deducido que Σ xΛ x* , donde Λ es la matriz diagonal de autovalores y x la matriz de autovectores normalizados por columnas. Esto nos lleva a que el análisis de componentes principales induce una fatorización estructural del matriz de covarianzas Σ del vector , … , % $ . Vamos a utilizar esta factorización para obtener algunas propiedades. 9 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 1.3.1. Propiedad de invarianza En las condiciones descritas anteriormente, donde Σ xΛ x* , tenemos que: A6Σ A6xΛ x* A6Λxx* A6Λ Es decir: % % [ 456. } + , + }%% A6Σ A6Λ G + , + G% [ 456'. .\ .\ Esta invarianza es en realidad la base de la aplicación práctica del análisis de componentes principales, puesto que la proporción de la varianza total del vector , que es debida a la j-ésima componente principal, '/ , es ~ ~X @ U,U~r , 1 1, … , . En la práctica, se las componentes principales son tales que unas pocas explican un alto porcentaje de la varianza total, merece la pena sustituir el vector original por dichas componente principales. También resulta invariante la varianza generalizada (Wilks) respecto de las variables originales y respecto de las componentes principales, es decir, |Σ| |xΛ x* | |Λ|. 1.3.2. Correlación entre las CP y las variables originales. Sean ' , … , '% , las componentes principales asociadas al vector aleatorio de matriz de covarianzas conocida Σ y G. , D. sus autovalores-autovectores. Definimos como s* 0, … ,0,1,0, … ,0, es decir, un vector de ceros con un uno en la posición t. Conocido esto, vamos a calcular el valor de , . Como , , ; veamos cuánto vale 789'. , s . |v v 789'. , s 789s , '. 789s* , D.* s* Σ D. s* G. D. G. s* D. G. D.s donde D.s corresponde a la componente k-ésima del vector propio D. . Tenemos que 456'. G. , 456. }ss , así que: , 789'. , s |456'. 456s G. D.s |G. |}ss |G. D.s |}ss ; 0, t 1, … , Este es un resultado importante, ya que de esta forma podemos medir la importancia que cada variable original, s , tiene sobre cada componente principal '. . A raíz de la expresión, deducimos que cuanto mayor sea la k-ésima componente de D. , |D.s |, mayor será la correlación entre s e '. . 10 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 1.3.3. Componentes principales sobre la matriz de correlación Sea el vector aleatorio , … , % $, donde , … , % y 789 Σ. Definimos l05y:} , … }%% ;. Estandarizando el vector nos quedaría: z /N H }z _ - a %% 0 0 ` }%z H _ a % H % En el caso del vector , como está estandarizado, la matriz de covarianzas coincide con la matriz de correlaciones, quedando: 7866 7866 789 789z /N H H * z /N z /N Σ z /N El siguiente resultado nos dice que las componentes principales no son invariantes ni homogéneas frente a esta transformación. Lema 2: La i-ésima componente principal del vector tipificado con matriz de covarianzas , viene dada por '. .* .* z /N H , 0 1, … , siendo . los autovectores asociados a los autovalores G. de , cumpliéndose la propiedad de que G M GN M , M G% M 0, y verificándose además que: % % [ 456'. [ 456. .\ .\ Nota: En la práctica, habitualmente se usa la tipificación, especialmente cuando el rango de medición es muy diferente. 1.3.4. Estructuras especiales de En algunos casos particulares, nos encontramos con matrices de covarianzas con una forma peculiar, sobretodo en problemas de biología: σN N Σ dσ σN σN σN σN , , σN σN e ,̀ σN 11 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 donde la matriz de correlaciones vendría dada por: 1 d 1 , , e ,̀ 1 Si obtenemos los valores propios de , resolviendo la ecuación | H GK| 0, cuando es positivo, nos queda: G 1 + H 1 GN , G% 1 H Es decir, nos queda una raíz de rango máximo, G , y otra de multiplicidad H 1. El autovector asociado a la primera raíz, G , viene dado por 1, … ,1* f z /N. Con respecto a la raíz mútiple, le corresponde un subespacio de dimensión H 1 en el que podemos definir unos vectores ortonormales de la forma: N 1, H1,0, … ,0, … ,0* √1 f 2z 1,1, H2, … ,0, … ,0* √2 f 3z . 1,1, … , H0 H 1,0, … ,0* |0 H 1 f 0z % 1,1,1, … ,1, H H 1* | H 1 f z La primera componente principal vendría dada por ' * z que explicaría un + % ~ z de la varianza total. /N f ∑%.\ . , 1.3.5. Muestras de combinaciones lineales de variables aleatorias Sea , … , % $ un vector aleatorio, y i$ una combinación lineal definida. Si tomamos una muestra de tamaño , la combinaciones lineales muestrales quedarían: i * f/ i f / + , + i% f%/ , 1 1, … , siendo f/ f / , … , f%/ el j-ésimo individuo de la muestra. La varianza muestral de las combinaciones lineales muestrales vendrá dada por: 1 i * f H i * f N + i * fN H i * f N + , + i * f H i * f N H1 12 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 1 i * f H f f H f * i + i * fN H f fN H f * i + , + i * f H f f H f * i H1 1 i * f H f f H f * + fN H f fN H f * + , + f H f f H f * i H1 ∑ f0 H f $ .\ f0 H f i i i * ¡i H1 * Si suponemos otra combinación lineal distinta ¢ * para la misma muestra, tendríamos que su media muestral sería ¢ * f y su varianza muestral ¢ * ¡ ¢. La covarianza muestral entre las dos combinaciones lineales vendría dada por: 1 ¢ * f H ¢ * f i * f H i * f $ + , + ¢ * f H ¢ * f i * f H i * f $ H1 1 ¢ * f H f f H f * i + ¢ * fN H f fN H f * i + , + ¢ * f H f f H f * i H1 ¢$ f H f f H f * + fN H f fN H f * + , + f H f f H f * i ¢*¡ i H1 1.4. Análisis de Componentes Principales Muestral (ACPM) Supongamos que disponemos de una muestra aleatoria de una población , … , % $ de tamaño , f , fN , … , f . Dicha población tiene un vector de medias y matriz de covarianzas 789 Σ desconocida. Llamaremos como f y ¡ a la media muestral y matriz de covarianza muestral respectivamente. El objetivo, como en el caso teórico, es conseguir explicar el mayor porcentaje posible de variación de la muestra con unas combinaciones lineales incorreladas de las variables que hagan máximas las varianzas. Una combinación lineal para la muestra f , fN , … , f viene dada por: ).* f/ ) . f / + )N. fN/ + , + )%. f%/ ; 1 1, … , Nos queda que para cada combinación lineal ).* f/ , una media muestral ).* f , una varianza muestral ).* ¡). , y para cada par ).* f/ y )s* f/ una covarianza muestral ).* ¡)s . Llamamos primera componente principal muestral a una combinación lineal ) * tal que al considerar sus valores sobre la muestra, 2) * f , ) * fN , … , ) * f 3, éstos hacen máxima la varianza 4562) * f , ) * fN , … , ) * f 3 ) * ¡) sujeto a la restricción ) * ) 1. Llamamos segunda componente principal muestral a una combinación lineal )N* tal que al considerar sus valores sobre la muestra, 2)N* f , )N* fN , … , )N* f 3, éstos hacen máxima la varianza 4562)N* f , )N* fN , … , )N* f 3 )N* ¡)N sujeto a la restricción de que )N* )N 1 y que sea incorrelada con la anterior, 13 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 7892) * f , ) * fN , … , ) * f 3, 2)N* f , )N* fN , … , )N* f 3 0 En términos matriciales, ) * ¡)N )N* ¡) 0. Llamamos i-ésima componente principal muestral a una combinación lineal ).* tal que al considerar sus valores sobre la muestra, 2).* f , ).* fN , … , ).* f 3, éstos hacen máxima la varianza 4562).* f , ).* fN , … , ).* f 3 ).* ¡). sujeto a la restricción de que ).* ). 1 y que sea incorrelada con las anteriores, 7892)s* f , )s* fN , … , )s* f 3, 2).* f , ).* fN , … , ).* f 3 0 ; t 1, … , 0 H 1 En términos matriciales, )s* ¡). ).* ¡)s 0; t £ 0. Teorema 2: Sea , … , % $ un vector aleatorio con vector de medias y matriz de covarianzas 789 u desconocida. Sea una muestra f , fN , … , f de , con f/ :f / , fN/ , … , f%/ ;, 1 1, … , . La media muestral y la covarianza muestral vendrían dados respectivamente por: ¡ ¤./ 1 f [ f. .\ 1 [f.s H f. f/s H f. H1 s\ Sean G¥ M G¥N M , M G¥% M 0 los autovalores de ¡, obtenidos de la ecuación |¡ H GK| 0. Sean D̂ , D̂N , … , D̂% los respectivos autovectores. Sean Q§. D̂. f las componentes principales muestrales, donde f es cualquier observación de la variable . Se cumple que: 45605jk5 ¨CD¤A65)Q§. G¥. 7895605jk5 ¨CD¤A65)Q§. , Q§s 0, 0 b 1 ©§ ,h D̂s. ªG¥. |¤ss % 45605jk5 «8A5) ¨CD¤A65) [ ¤.. G¥ + , + G¥% .\ Es habitual, al igual que en el caso del modelo teórico, tipificar las observaciones. Así que tipificando la muestra 2f , … , f 3, siendo f/ f / , … , f%/ , se obtiene: 14 Análisis de Componente Principales Es decir, k./ .\ ¬z k/ f./ H f. 1 k [ k/ 0 Obtenemos que: Trabajo Fin de Máster |¤.. /N 2011/12 :f/ H f ; , 0 1, … , ; 1 1, … , 1 ¬ ¡­ [k. H kk. H k* H1 .\ ¬ es la matriz de correlación muestral, ¬ ¬z Donde /N ¬z ¡ /N 1.5. Análisis de Componentes Principales en poblaciones normales. Hasta este punto, no hemos supuesto en ningún momento que el vector aleatorio , … , % $ sea normal -variante, sino sólo que y 789 Σ. Hemos visto dos casos: 1. Cuando Σ es conocida, así que G. y D. son conocidos determinísticamente. 2. Cuando Σ es desconocida, así que hemos basado el análisis de componentes principales en una muestra de la población. Como no conocíamos Σ, hemos trabajado sobre la matriz de cuasivarianza muestra ¡. Para conocer el comportamiento de G¥. y D̂. y, en definitiva, de Q§. , obtenidos en el análisis de componentes principales muestral, es preciso basarse en la distribución en el muestreo de G¥. , raíces características de la matriz muestra ¡ y, en consecuencia, hay ¬ y de sus raíces §. . que modelizar la distribución de ¡ o, de manera análoga, de Para esto, tenemos que modelizar el vector , y el caso bien conocido del Análisis Multivariante teórico corresponde a la distribución normal multivariante % , Σ. El esquema sería: Si ® % , Σ, Σ g 0 desconocida, y % h es la matriz de la muestra, sabemos ¯ ¯ * y Σ° , donde ] ∑ que ¡ .\ f. H f f. H f . z 15 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Según el teorema de Dyskstra, si Σ g 0, entonces ¡ (o ]) son definidas positivas y todos sus autovalores son distintos. Si Σ no es definida positiva, puede utilizarse la modelización normal con 65jyΣ . En el caso normal, vamos a ver algunos contrastes básicos de carácter asintótico sobre los autovalores G¥. . Suponemos que todos los autovalores son distintos y positivos, G g GN g , g G% g 0. 1.5.1. Resultados de Anderson-Girschick Supuestas las condiciones de normalidad descritas anteriormente, sea G¥ G¥ , G¥N , … , G¥% $ y D̂ , D̂N , … , D̂% los autovalores y autovectores de ¡, y análogamente G G , GN , … , G% y D , DN , … , D% los autovalores y autovectores de Σ. Sea Λ l05yG , GN , … , G% y % . G. [ s\ s±. Entonces: Gs D D* Gs H G. N s s √G¥ H G ® % 0,2λN √D̂. H D. ® % 0, . Además, cada G¥. se distribuye independientemente de los elementos del respectivo D̂. . Nota: Del resultado anterior, √G¥ H G ® % 0,2λN , cuando tiende a ∞, como la matriz de covarianza de la normal multivariante asintótica es diagonal, deducimos que los G¥. se distribuyen independientemente. Obtenemos también que, aproximadamente G¥. ® G. , 2GN. /. Esto nos permite establecer intervalos de confianza al 1001 H % como: µ:¶G¥. H G. ¶ k·/N G. |2/; 1 H ¸ G¥. 1 + k·/N |2/ G. G¥. ¸ 1 H k·/N |2/ Hay que tener cuidado con estos intervalos cuando un G. es muy grande y no lo sea, ya que se producen intervalos muy amplios, y pueden dar lugar a error. Se recomienda trabajar siempre que se pueda con la matriz de correlaciones . Nota: Del resultado dado anteriormente por √D̂. H D. ® % 0, . , cuando tiende a ∞, los D̂. se distribuyen normalmente alrededor de D. . Pero los elementos de 16 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 D̂. están correlacionados, no son independientes, y el grado de correlación depende de la separación de los autovalores G , GN , … , G% que no se conocen, y del tamaño . Los errores típicos aproximados de los coeficientes D̂s. , componentes de D̂. , vienen dados por la diagonal de °. , donde °. coincide con . , sustituyendo Gs por G¥s . Debemos tener en cuenta que en estos resultados asintóticos de Anderson (1963) y Girschichk (1939), para que sean ciertos, las raíces características teóricas de Σ en la distribución base tienen que ser distintas y no nulas. Además, la matriz . depende, en elemento fuera de la diagonal principal, de los valores teóricos que no son conocidos. 1.6. Cálculo de las Componentes Principales poblacionales Sea , … , % $ un vector aleatorio -variante con y matriz de covarianza conocida Σ. Vamos a considerar los casos en que la matriz de covarianza es semidefinida positiva y que puede tener raíces múltiples. Suponemos además que 0, ya que solo nos interesan las varianzas y covarianzas de . La primera componente principal de , es una combinación lineal normalizada ' ) , donde ) ) , … , ) % y ) * ) 1, con la cual se pretende que la varianza sea máxima, es decir, resolver el problema: max2456' 3 max2) * Σ) 3 A5) BCD ) * ) 1 ?@ Para esto, construimos la función de los multiplicadores de Lagrange: Φ ) ) * Σ ) – G ) * ) H 1 Derivamos respecto a ) , igualamos a cero y despajamos para obtener el máximo: IΦ ) 2Σ ) H 2G) 0 I) J Σ H GK) 0 Como ) b 0, ya que ) * ) 1, el anterior sistema tiene solución distinta de 0 si la matriz Σ – GK es singular, lo que quiere decir que: |Σ – GK| 0 Deducimos de esto que G es un autovalor de Σ, y ) el autovector asociado. Como la matriz de covarianzas Σ es de orden y semidefinida positiva, sabemos que tendrá autovalores positivos: G M GN M , M G% M 0 17 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Del sistema Σ H GK) 0, tenemos que Σ ) G) , por tanto: * 456' ) * Σ) ) * G) G )O ) G Como nuestro objetivo es maximizar la 456' G, tomaremos como G el mayor autovalor, es decir, G . Se define finalmente la primera componente principal como la función lineal normalizada dada por: % ' D * [ D. . .\ La varianza de la primera componente principal viene dada por 456' G Nota: No hemos supuesto en ningún momento que siga una distribución en particular. Si se distribuye según una normal -variante con matriz de covarianzas u, definida positiva, entonces las superficies de densidad de probabilidad constante son los elipsoides de concentración y la primera componente principal, ' D * , representa el eje mayor principal de este eloipsoide. Bajo la suposición de normalidad, las componentes principales implicarán una rotación de los ejes coordenados a los ejes principales de estos elipsoides. Si existen raíces múltiples, dichos ejes no estarán unívocamente determinados. La segunda componente principal de , es una combinación lineal normalizada 'N )N , donde )N )N , … , )N% y )N* )N 1, con la cual se pretende que la varianza sea máxima y que esté incorrelada con ' , es decir, resolver el problema: max2456'N 3 max2)N* Σ)N 3 ?P A5) BCD )N* )N 1 Q 789'N , ' )N* ΣD 0 De la condición 789'N , ' )N* ΣD 0 y como sabemos que ΣD GD , nos queda que 789'N , ' )N* ΣD )N* GD G)N* D 0, de donde obtenemos que la segunda condición es equivalente a: )N* D 0 Es decir, que los dos vectores sean ortogonales. Construimos la función de los multiplicadores de Lagrange: ΦN )N )N* Σ )N – G )N* )N H 1 H R )N* D Derivamos respecto a )N , igualamos a cero y despajamos para obtener el máximo: IΦN )N 2Σ )N H 2G)N H RD 0 I)N 18 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Multiplicamos la igualdad anterior por D * , obteniendo: * * 2D * Σ )N H 2G DO )N H R DT D 0 S J R 2D * Σ )N 2789' , 'N 0 De este modo: IΦN )N 2Σ )N H 2G)N 0 J Σ H GK)N 0 I)N Y efectuando el mismo razonamiento que en el caso anterior, deducimos que G sería un autovalor de Σ, concretamente GN , y )N el autovector asociado DN . Resumimos por tanto que la segunda componente principal vendrá dada por: % 'N DN* [ DN. . .\ La varianza de la segunda componente principal vendrá dada por: 456'N GN Utilizando un método similar al de inducción, podemos construir de esta forma hasta la componente principal 6, 6 £ , encontrando una combinación lineal % 'v Dv* ∑.\ D.v . , donde Dv es el vector característico asociado al autovalor Gv , la 6-ésima raíz característica de mayor magnitud. Para construir la ¹ + -ésima componente principal, buscamos una combinación lineal normalizada )vU , que tenga varianza máxima, y sea incorrelada con todas las componente principales anteriores, ' , 'N , … 'v . Todo esto queda resumido en resolver el problema: * max2456'vU 3 max2)vU Σ)vU 3 ?ºY@ * * A5) BCD )vU )vU 1 Q 789'vU , '. )vU ΣD. 0 ; Z0 1, … , 6 * De la condición 789'vU , '. )vU ΣD. 0; Z0 1, … , 6 y de ΣD. G. D. ; Z0 * * * 1, … , 6, nos queda que 789'vU , '. )vU ΣD. )vU GD. G)vU D. 0, de donde obtenemos que la segunda condición es equivalente a: * )vU D. 0; Z0 1, … , 6 Es decir, que el vector )vU es ortogonal a los vectores propios D. , 0 1, … , 6. Haciendo uso de los multiplicadores de Lagrange, construimos la función: v * * * ΦvU )vU )vU Σ )vU – G )vU )vU H 1 H [ R. )vU D. .\ 19 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Derivamos respecto a )vU , igualamos a cero y despajamos para obtener el máximo: v IΦvU )vU 2Σ )vU H 2G)vU – [ R. D. 0 I)vU .\ Como en el caso anterior, multiplicando sucesivamente por D * , … , Dv* , obtenemos que: R. 0; Z0 1, … , 6 De este modo: IΦvU )vU 2Σ )vU H 2G)vU 0 J Σ H GK)vU 0 I)vU Y efectuando el mismo razonamiento que en el caso anterior, deducimos que G sería un autovalor de Σ, concretamente GvU . Mientras que )vU el autovector asociado DvU . Resumimos por tanto que la 6 + 1-ésima componente principal vendrá dada por: 'vU * DvU % [ DvU ,. . .\ Y la varianza de la 6 + 1-ésima componente principal será: 456'vU GvU Hay que tener cuidado en el caso de que GvU 0 y G. 0 para 0 b 6 + 1, ya que la condición D.* Σ DvU 0 no implica que D.* DvU 0. En este caso, se reemplazaría DvU por una combinación lineal de DvU y el D. para el cual G. 0, y construiríamos el nuevo DvU ortogonal a todos los D. , 0 1, … , 6. 1.7. Manejo simultáneo de todas las componentes principales. Sea µ D , DN , … , D% la matriz de vectores característicos normalizados de Σ, y Λ l05yG , GN , … , G% , donde G M GN M , M G% son todas las raíces características ordenadas de Σ. Sabemos que µ* µ K, por lo que µ* Σ µ Λ. En estas condiciones podemos enunciar el siguiente resultado: Teorema 3: Existe una transformación ortogonal ' µ$, tal que 789µ » donde » es una matriz diagonal de elementos G M GN M , M G% M 0 que son las raíces ordenadas de u. La 0-ésima columna de µ, D. , satisface u H G. KD. 0. Las componentes de ' son incorreladas, e '. tiene varianza máxima entre todas las combinaciones lineales normalizadas incorreladas con ' , 'N , … , '.z . 20 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 El vector ' es llamado el vector de componentes principales de . En el caso de raíces múltiples, por ejemplo, GvU , GvU¼ G, tenemos que u H G. K. 0, 0 6 + 1, … , 6 + . Esto es, . , 0 6 + 1, … , 6 + son vectores característicos de u. Veamos que no puede haber otro vector más, es decir, probaremos que no se puede encontrar otro vector linealmente independiente a vU , … , vU¼ solución de u H G K 0. Para ver esto, tomamos ∑%.\ 5. . (5. escalares), solución de u H G K 0, con lo que: % % % % G [ 5. . Σ _[ 5. . a [ 5. Σ. [ 5. G. . .\ .\ .\ .\ Como G5. G. 5. , tenemos que 5. 0, a menos que 0 6 + 1, … , 6 + . Si vU , … , vU¼ son soluciones de u H G K 0, entonces, para cualquier matriz no singular 7, vU , … , vU¼ · 7, es también una solución de u H G K 0. A partir de la condición de ortonormalidad de vU , … , vU¼ se concluye que 7 es una matriz ortogonal. Podemos enunciar entonces el siguiente teorema. Teorema 4: Si GvU , GvU¼ G, entonces u H G K es una matriz de rango H . Además, los correspondientes vectores característicos DvU , DvU¼ están únicamente determinados salvo multiplicación por la derecha por una matriz ortogonal. 1.8. Test basados en la matriz de covarianzas muestrales. Vamos a ver algunos test basados en la matriz de covarianzas muestrales ¡, que nos servirán para contrastar la igualdad de múltiples raíces características. 1.8.1. Test de Barlett Este test sirve para contrastar que los H t autovalores más pequeños son todos iguales. ½S : GsU GsUN , G% Se construye el estadístico siguiente: wS d H t H 1 H 2 2B + 1 + B 6 s e H ln|¡| + [ ln )/ + B ln ) /\ 21 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 B Ht donde: )/ 1-ésima raíz característica mayor de ¡ s 1 ) A6¡ H [ )/ B /\ Dicho estadístico, bajo la hipótesis nula, sigue una distribución Á N con N H t H 1 H t + 2 grados de libertad, asintóticamente. Así que rechazaremos la hipótesis N . nula a un nivel de significación 1 H , cuando wS g Á·; 1 H1+2 2 Para el caso particular de t 0, es decir, del contraste de igualdad de todas las raíces características, ½S : GsU GsUN , G% , nos quedaría el estadístico: 1 2 H _ H 1 H 2 + 1 + a :ln|¡| + ln1/ A6¡; 6 que sigue una distribución Á1NH1+2 . 2 1.8.2. Test de Bartlett-Lawley Se trata de una corrección del test anterior, en el que igualmente se trata de contrastar la hipótesis: ½S : GsU GsUN , G% G Este test se basa en la matriz de covarianzas muestrales ¡, que viene dada por: 1 ¡ [f. H f f. H f $ .\ Sabemos que un una población normal multivariante % , Σ, con Σ g 0, tenemos que ¡ es una estimación de la matriz de covarianzas, ¡ Σ°. Este resultado nos dice que para contrastar la hipótesis nula ½S : GsU GsUN , G% G, sobre la base de ¡ Σ°, se obtiene construye la variable: s 1 2 1  H t H 1 H Ã2 H t + + 1Ä + GN [ Å· G. H GN 6 Ht ¶Σ°¶ · ÂH ln Æ s ∏.\ .\ %zs A6Σ° H ∑s.\ G¥. È + ln Æ È Å Ht G¥. 22 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Esta variable se comporta, con un orden de aproximación de 1/ N , según una Chi cuadrado Á1NHtH1Ht+2 . 2 Como podemos observar, esta variable depende de valores no conocidos, como son G, y las raíces características de Σ, dadas por G. , por lo que no es un estadístico. Para que esto sea aplicable en la práctica, sustituiremos los valores de G. por sus estimadores máximo verosímiles, G¥. , los autovalores de ¡, y el valor de G por: % s 1 1 _A6¡ H [ G¥. a _ [ G¥. a G¥ Ht Ht .\ .\sU Quedando finalmente el estadístico: N s % 1 2 1 1 ÉS Ê H t H 1 H Ã2 H t + + 1Ä + _ [ G¥. a [ Ë N H t G. H GN 6 Ht ¶Σ°¶ · ÂH ln Æ s ∏.\ Y rechazando finalmente N ÉS g Á·; 1 HtH1Ht+2 .\sU %zs A6Σ° H ∑s.\ G¥. È + ln Æ È Å Ht G¥. la igualdad de raíces .\ características si 2 1.8.3. Test de Anderson El test de Anderson, es una generalización del test de Barlett, con el cual podremos contrastar la igualdad de un conjunto de raíces características consecutivas, no solo el conjunto de las más pequeñas. Es decir, si tenemos el conjunto de autovalores ordenados: G g GN g , g GÌ g GÌU g , g GÌUv g GÌUvU g , g G% La hipótesis a contrastar sería: ½S : GÌU , GÌUv G A partir del método del cociente de verosimilitudes y su comportamiento asintótico, se llega al siguiente estadístico: ÌUv ÌUv 1 H H 1 [ ln G¥. + H 16 ln [ G¥. 6 .\ÌU N . que sigue una distribución Chi cuadrado Á·; 1 6H16+2 .\ÌU 2 23 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Es claro que cuando B + 6 (igualdad de las últimas H B raíces), este test coincide con el de Bartlett. Para el caso particular de contrastar que todas las raíces características son iguales (en este caso t 0), nos quedaría el siguiente estadístico. Este caso es denominado, caso de esfericidad. % 1 2 H _ H 1 H 2 + 1 + a _ln|¡| + ln1/ [ G¥. a 6 N que sigue una distribución Chi cuadrado Á·; . 1 H1+2 .\ 2 Nota: En la práctica, el test de Bartlett-Lawley se usa habitualmente para el caso en que se han obtenido ya “t” componentes principales, y se quiere saber si las “ H t” restantes no son significativas. Esto es, si es verdad la hipótesis nula, con un G pequeño, podremos prescindir de las componentes principales restantes. 1.9. Test basado en la matriz de correlaciones muestrales En la práctica del análisis de componentes principales muestral, habitualmente es preciso tipificar los valores observados, debido por ejemplo a que las variables tienen diferentes escalas de medida. Esto nos hace que los test visto anteriormente queden inutilizables. Vamos a ver por tanto un test basado en la matriz de correlaciones , estimada por máxima verosimilitud en el caso de una población normal multivariante ¬. por la matriz de correlaciones muestrales Este problema fue estudiado primeramente por Lawley, y recogido y aplicado por Dhrymes entre otros. La hipótesis nula vendría dada por: ½S : sU sUN , % ; t £ donde . son las raíces características de , cuyos estimadores máximos verosímiles ¬ ). Tenemos que el estadístico: vienen dados por §. (los autovalores de ¬¶ ¬ H ∑s.\ §. %zs ¶ A6 H 1 ÂH ln s + ln Æ È Å Ht ∏.\ §. se comporta bajo ½S asintóticamente, con un orden de aproximación de 1/, según una Chi cuadrado Á N con grados de libertad: 24 Análisis de Componente Principales Trabajo Fin de Máster % 2011/12 % % % 1 1 N N N H t H 1 H t + 2 H Ê H t H 1 [ [ i./ ./ [ [ i.. i// ./ Ë 2 Ht .\ /\ .\ /\ donde i./ es la componente 0, 1 de la matriz 7 K H Í Í * ; siendo Í la matriz de vectores característicos por columnas de las t primeras raíces características de Σ. Observamos que depende me muchos parámetros desconocidos, como es el caso de y ./ , por lo que no se trata de un verdadero estadístico. Para poder ser usada en la práctica, se calculará usando los estimadores máximo verosímiles de los parámetros desconocidos, y redondeando al entero más próximo. En general, este cálculo se hará con la ayuda de un ordenador. 1.9.1. Casos particulares de test basados en Un test fácilmente aplicable, y que nos interesará siempre rechazar, es comprobar si la matriz de correlaciones coincide con la matriz identidad. Si la hipótesis nula fuese cierta, aceptaríamos que todas las variables son independientes, y no tendría sentido realizar el análisis de componentes principales. Este test se denomina test de esfericidad sobre . Se trata de contrastar la hipótesis: ½S : K ½ :b K Tenemos que el estadístico: 1 ¬¶ H Î H 1 H 2 + 5Ð ln¶ 6 N bajo la hipótesis nula, sigue una distribución Chi cuadrado Á%%z /N . Otro test muy útil en la práctica, sobre todo en el campo de la Biología, es el caso en que la matriz de covarianzas Σ tiene la forma: σN σN , σN N σN , σN e Σ dσ σN σN ,̀ σN o equivalentemente, que la matriz de correlaciones sea del tipo: 1 S d 1 , , e ,̀ 1 25 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Nos interesaría contrastar la hipótesis: ½S : S ½ : b S Se rechazaría ½S con un nivel de significación 1 H , si: % H1 N Â[6.s H 6 N H Ò§ [6s H 6 N Å g Á·;%UN%U N 1 H 6 .Ñs donde: % s\ /N 1 6s [ 6.s ; t 1, … , H1 6 .\ .±s 2 [ 6.s H 1 .Ñs H 1 21 H 1 H 6 N 3 Ò§ H H 21 H 6 N N 1.10. Selección del número de componentes principales Una de las mayores dificultades en el análisis de componentes principales, es seleccionar el número óptimo de componentes, es decir, el menor número posible de éstas, que expliquen la mayor variabilidad posible. Existen varios test que permiten fundamentar objetivamente tal decisión, pero las fuertes hipótesis bajo los que se obtienen y la dificultad de los mismos, los hacen prácticamente inviables, y más aún cuando se trabaja con la matriz de correlaciones . En la práctica se usan habitualmente ciertos criterio para la elección del número de componentes, según se esté trabajando con la matriz de covarianzas muestrales o con la matriz de correlaciones muestrales. 1.10.1. Actuación con la matriz de covarianzas muestrales Uno de los métodos más utilizados en la práctica es el porcentaje de variabilidad explicado por las primeras componentes principales. El porcentaje de información proporcionado por las t t £ primeras componentes se obtiene como: ∑s.\ G¥. · 100% ∑% G¥. .\ 26 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 En general, se obtiene el número de componentes principales que explique un porcentaje de la varianza próximo a un valor prefijado, por ejemplo, un 80%. Este porcentaje varía habitualmente según el campo en que se esté trabajando, puesto que un estudio social, se usaría un porcentaje alrededor del 60%, mientras que en un estudio médico o científico, este porcentaje sería próximo al 80%. Otro método utilizado es la estabilidad de las raíces características, ya que si a partir de la t componente principal, los autovalores se estabilizan, aumentar la dimensión apenas aportaría más variabilidad. Para esto, es de gran utilidad construir un gráfico de sedimentación con las diferentes raíces. 1.10.2. Actuación con la matriz de correlaciones muestrales En la mayoría de los problemas prácticos nos encontraremos en esta situación, trabajando con la matriz de correlaciones, así que veremos los criterios de selección del número de componentes más habituales: Criterio del Kaiser (1958), o criterio de la raíz característica mayor que 1. Se seleccionan aquellas componentes principales cuyo autovalor es mayor que 1, de esta forma nos garantizamos que las componentes principales seleccionadas expliquen más variabilidad que una variable observable u original. Estudios de Montecarlo han probado que es más correcto el punto de corte G 0$7. Este criterio se podría extender también al caso de la matriz de covarianzas, suponiendo como punto de corte la media de las varianzas, es decir, G A6¡/. Estudios de Montecarlo consideran usar como punto de corte 0* 7 · G. Criterio de Cattell (1966), o “Screen test”. Consiste en representar gráficamente en el eje de ordenadas los autovalores, y en el eje de abscisas las componentes extraídas según su orden de extracción. En general se podrán distinguir dos tramos claros, uno constituido por muy pocos puntos y con una pendiente negativa muy grande, y otro en el que se encuentran la mayoría de los puntos con un decaimiento muy lento. Este criterio consiste en elegir tantas componentes como puntos haya en el primer tramo de la curva. Criterio de Horn (1965). Se representan los autovalores de las componentes principales igual que en el “Screen test”. Por otra parte, se consideran t conjuntos de una normal -variante, de tamaño N todos, de los cuales conoceremos la estructura de correlación. Se generan estas t muestras, se calculan los “autovalores-medios” (media aritmética de los autovalores de los t casos) y se van representando uno a uno. Es de esperar que la ordenada 1 se alcance en /2. El criterio consiste en quedarse con las componentes principales anteriores al punto de cruce. 27 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 1.11. Análisis de componentes principales y observaciones anómalas La explicación técnica de las representaciones gráficas en la interpretación del Análisis de Componentes Principales, se basa en la idea antes expuesta de considerar el comportamiento de “f/ H 95)86 6Dl0i8 565 f/ ”, es decir, en medir el error cometido al ajustar el dato mediante las componentes principales. Ó; 1 1, … , ”, mediante una matriz ] 5 , … , 5 , El error de ajuste “f/ H f vendrá dado por: % D6686 [:f1 H f H 5/ ; :f1 H f H 5/ ; [ [f01 H f . H 5./ N * /\ .\ /\ En definitiva, suponemos que la matriz f1 H f , f2 H f , … , f H f % h ajustada por la matriz ] 5 , … , 5 % h . es En general podemos suponer que 6y] 6 £ mín , . Esta condición se podrá precisar más si nos encontramos bajo la hipótesis de normalidad. Por otro lado, en el análisis de componentes principales muestral, las componentes vienen dadas por Q§. D̂.* D̂ . k + D̂N. kN + , + D̂%. k% ; 0 1, … , con variables tipificadas; o bien por Q§. D̂.* D̂ . f + D̂N. fN + , + D̂%. f% ; 0 1, … , Matricialmente tenemos: Q§% h D̂ , D̂% *% h % · % h Si se consideran los valores de las componentes principales sobre toda la muestra f/ ; 1 1, … , , tendremos: '°% h Q§ Q§% , , Q§ - D̂ Q§% , D̂% *% h % · % h En efecto: 28 Análisis de Componente Principales Q§. D̂.* :D̂ . Trabajo Fin de Máster f , D̂%. ; _ - a D̂ . f + D̂N. fN + , + D̂%. f% f% D̂ f + D̂N fN + , + D̂% f% D̂ × Ú × f + D̂ f + , + D̂ f D̂ Q§ Ö . N. N %. % Ù Ö D̂ . ÕD̂ % f + D̂N% fN + , + D̂%% f% Ø ÕD̂ % D̂ * × -* Ú Ö D̂. Ù · D̂ * D̂ Õ %Ø , D̂. … D̂% - Ú f … D̂%. _ - a Ù f% … D̂%% Ø , D̂% $ · considerando toda la muestra f/ ; 1 1, … , tenemos '°% h Q§ × Ö Q§. ÕQ§% , , , Q§ - Ú Q§. Ù D̂ , Q§% Ø D̂ , Despejando nos queda: :D̂ , y desarrollando tenemos: D̂ D̂% de donde: Es decir , , D̂ . D̂%. , , 2011/12 f × f* , D̂% % h % · Ö . f Õ % D̂. D̂. , D̂% *% h % f D̂. , D̂% ; · '° f Q§ % × - · Ö Q§. D̂%% Q § Õ % D̂ f/ :D̂ , D̂. , , , , … … f % h , f f. Ú - Ù f% Ø f f - Ú × Q§. Ù Ö f. f Q§% Ø Õ % Q§ … … f … f. Ú - Ù … f% Ø Q§ / , D̂% ; · - ; 1 1, … , Q§ % f/ Q§ / D̂ + Q§N/ D̂N + , + Q§./ D̂. + , + Q§%/ D̂% D̂ * f/ D̂ + D̂N* f/ D̂N + , + D̂.* f/ D̂. + , D̂%* f/ D̂% 29 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Deducimos por tanto que si tomamos un conjunto formado por las primeras B componentes principales y el conjunto de las H B últimas, y la parte de f/ que es explicada por ambos conjuntos de componentes principales, es decir: Q§ / D̂ + , + Q§Ì/ D̂Ì Q§ÌU ,/ D̂ÌU + , Q§%/ D̂% Consideramos el ajuste de f/ mediante: f/ H Q§ / D̂ + , + Q§Ì/ D̂Ì Mientras que “Q§ÌU ,/ D̂ÌU + , Q§%/ D̂% “ será el error cometido en la aproximación. Una medida para el error puede ser la longitud al cuadrado, es decir: N B§ÌU ,/ N + , + B§%/ Este error será grande en la medida en que sobre alguno de los “ejes principales” D̂ÌU ; … ; D̂% la coordenada respectiva sea grande. Es claro que esta medida del error será menor, por otra parte, cuanto mejor sea el ajuste del dato f/ por las B primeras componentes principales, y es claro también que si una observación es estructuralmente anómala frente a las demás, provocará que el error sea grande. Esto puede servir como un método para la detección de observaciones anómalas, supuesto que estructuralmente las B componentes principales primeras ajustan bien al conjunto de las observaciones y se buscan entonces las que estructuralmente son erróneas (“outliers”). Es preciso entonces conocer el error global sobre toda la muestra que se comete al aproximar estructuralmente por las primeras B componentes principales todos los elementos de la muestra. Para ello es preciso analizar la “geometría” del análisis de componentes principales muestral. Ó; 1 1, … , ” por una matriz ] 5 , … , 5 , con Teorema: Al aproximar “f/ H f rango 6y] 6 £ íj, , el error global [:f1 H f H 5/ ; :f1 H f H 5/ ; * /\ se minimiza cuando se toma por ] la matriz ]¥ ° Q§ ° D̂ , D̂v formada con los primeros 6 autovectores. De modo que ]¥% h D̂ , Q§v $ donde Q§ , D̂v % h v _ - a 5§ Q§v v h , 5§ 30 Análisis de Componente Principales Trabajo Fin de Máster con 5§/ Q§ / D̂ + , + Q§v/ D̂v y siendo Q§ / , Q§v/ D̂ * :f1 H f ; , 2011/12 D̂v* f1 H f los valores de las primeras 6 componentes principales muestrales sobre el elemento 1ésimo de la muestra, centrado en f . El mínimo alcanzado (“error cuadrático”) vale: [:f1 H f H 5/ ; :f1 H f H 5/ ; H 1G¥vU + , + G¥% /\ * Nota: Este teorema nos da el error cometido al aproximar toda la muestra por las primeras 6 componentes principales y, además, nos lo expresa en términos de los autovalores muestrales. Pero también nos interpreta el significado de las componentes principales obtenidas mediante la minimización de un error cuadrático cometido al aproximar la muestra centrada por los 5/ : se minimiza el error cuando la aproximación ] se construye precisamente con las 6 primeras componentes principales, con 6y] 6 £ íj, . 1.12. Representaciones gráficas en el ACP. Podemos establecer unas útiles prácticas gráficas que nos servirán para comprobar la normalidad de las componentes principales obtenidas, para la detección de datos anómalos y para obtener una idea de la estructura geométrica de las componentes. Para la comprobación de la normalidad de las primeras componentes principales, se representan gráficamente los pares Q§. , Q§s . Si queremos aceptar una normalidad conjunta, el contorno de los valores de Q§. , Q§s sobre f/ ; 1 1, … , deberá ser sensiblemente elíptico para valores no anómalos. En segundo lugar se representa vía una “Q-Q plot” los valores de cada componente principal sobre la muestra, donde también nos servirá para detectar valores anómalos. Una técnica gráfica muy utilizada para obtener una idea de la estructura de las componentes principales es el gráfico “biplot”. Se trata de un gráfico que representa las filas (variables) y las columnas (individuos) de una matriz de datos %h . Estos datos se representan tomando como ejes coordenados pares de componentes principales, y de esta forma observar la relación de los individuos y de las variables con las diferentes componentes, así como la detección de valores anómalos. 31 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 1.13. Aplicaciones del ACP: ACP sobre k-grupos Es común en la práctica encontrarse con una muestra no aleatoria e independiente, proveniente de varias poblaciones distintas. En este caso se puede optar por dos caminos: 1. Aplicar el análisis de componentes principales a cada grupo por separado, y comparar las componentes principales deducidas en cada caso. 2. Plantear un tratamiento global de la situación, como es el ANOVA respecto de un test de diferencia de medias dos a dos. El objetivo será contrastar si los grupos son homogéneos respecto de su estructura de componentes principales. Si dicha estructura no se conoce, se hará el análisis sobre toda la muestra y podrá ser utilizado para obtener posibles cluster o grupos entre ellos. Algunos modelos que nos resuelven esta situación son: 1.13.1. Modelo de Okamoto o “modelo de efectos fijos” Supongamos definidas las componentes principales escritas de manera centrada: Q§. D̂.* f H f ; '° D̂ , D̂. , D̂% * H f que aplicada a la muestra f/ ; 1 1, … , dará los valores: Q§./ D̂.* :f/ H f ;; 0 1, … , ; 1 1, … , Vimos que f/ Q§ / D̂ + Q§N/ D̂N + , + Q§./ D̂. + , + Q§%/ D̂% , de donde quedándonos con las B primeras componentes principales tenemos que: f/ Q§ / D̂ + , + Q§Ì/ D̂Ì 2+Q§ÌU ,/ D̂ÌU + , Q§%/ D̂% 3 de donde la )-ésima componente de f/ viene dada por: % f/? Q§ / D̂ ? + , + Q§Ì/ D̂Ì? + [ Q§v/ D̂v? v\ÌU Esto sugiere el modelo teórico: Ì f/? Û? + [ v/ v? + Ü/? ; 1 1, … , ; 0 1, … , v\ 32 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 en el que los v? y v/ son tales que verifican propiedades análogas a las verificadas por los D̂. (ortogonalidad) y por la covarianza entre Q§?/ (covarianzas nulas). Bajo esta estructura puede efectuarse un análisis de la varianza. 1.13.2. El ACP y la Regresión lineal Se considera un modelo de regresión lineal múltiple: Q. ÛS + Û f. + , + Û%z f.,%z + Ü. ; 0 1, … , Q. + Û f. H f . + , + Û%z f.,%z H f .%z + Ü. ; 0 1, … , De forma matricial tenemos: donde: Qz · 1 + Ý h % Û% h + Ü h Û ; Û ; … ; Û%z $ Ý h % f H f , f H f Tenemos que la matriz de cuadrados viene dada por: Ý$Ý% h % [f. H f f. H f * .\ Sabemos que la matriz de covarianzas muestrales es z Ý$Ý. Supongamos que un autovalor muestral G¥ es próximo a cero y su correspondiente vector es D̂ . Entonces: :Ý * Ý;D̂ H G¥D̂ 0 J :Ý * Ý;D̂ Þ 0 J D̂ * Ý * ÝD̂ Þ 0 J ÝD̂ Þ 0 Lo que significa que hay multicolinealidad. Si hay un cierto número de restricciones lineales, H t, entonces: ¬ N Þ 0; ß ¬ :ß ¬ ¶ß ¬N; Ý · ß siendo ßN una matriz f H t. En este caso general, el Modelo Lineal de Regresión se puede volver a escribir en términos de las componentes principales de ß , es decir, de à componentes principales no nulas. En efecto: ¬ :ß ¬ * Û; :Ý ß ¬ ¶0;:ß ¬ * Û; Ý ß ¬ :ß ¬ * Û; ÝÛ Ý ß 33 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 1.14. Resultados previos: Elipsoides equiprobables en una ; y combinaciones lineales de un vector aleatorio multidimensional. Supongamos un vector aleatorio que sigue una distribución á% ; u con u definida positiva. Si se considera la familia de elipsoides H * Σ z H i ; i g 0 es claro que tal densidad es constante para cada elipsoide con un i concreto.Por otra parte, dicha familia tiene como centro al vector , mientras que las características de Σ determinan la forma y orientación de los elipsoides. Se sabe que existe un elipsoide especial cuando i + 2, llamado “elipsoide de concentración”, caracterizado por verificar la siguiente propiedad: 1 Γ2 + 1 âf ã|Σ|z + 2%/N å %/N 0 ; ; ¤0 f H * Σ z f H + 2æ âCD65 tiene la misma media y matriz de covarianzas que la ley á% ; u. Nos planteamos ahora el cálculo de los “ejes principales”, y ello lo hacemos por un método analítico, los multiplicadores de Lagrange, en vista de la metodología que luego se utilizará en el Análisis de Componentes Principales. Supongamos una recta desde el centro del elipsoide , a la superficie del mismo, así que tendrá que cumplir: maxh f H * f H ; donde f H * Σ z f H i Sabemos que f H * f H es el cuadrado de la semilongitud de tal eje principal cuando f se encuentra en la superficie, a un punto para el que se verifique el máximo indicado. Vamos a obtener el máximo mediante multiplicadores de Lagrange: Φf, G f H * f H H Gf H * Σ z f H H i Derivamos con respecto a “f”, igualamos a 0 y resolvemos: IΦf, G f H H G Σ z f H 0 If J K H G Σ z f H 0 J Σ H G Kf H 0 34 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Como hemos supuesto que Σ es definida positiva, todas sus raíces características son reales y no nulas, G M GN M , M G% M 0. Estas raíces son solución de |Σ H G K| 0, si tomamos la mayor de ellas G , tenemos que el eje principal mayor está en la dirección determinada por el vector característico D , y el cuadrado de la longitud de dicho eje principal será: 4f H * f H 4G f H * Σ z f H 4 G i Para calcular el resto de ejes, volvemos a realizar el cálculo tomando sucesivamente las raíces características en orden decreciente, y los respectivos vectores propios. En el caso de encontrarnos con una raíz característica múltiple, con un orden de multiplicidad 6, el elipsoide es hiperesférico en el subespacio 6dimensional correspondiente. Si todas las raíces características son diferentes, todos los ejes principales serían ortogonales. Todo esto se puede aplicar al análisis de componentes principales, utilizando los ejes principales calculados en la familia de elipsoides para definir una transformación. Como nos encontramos en el caso de una normal multivariante, podemos hablar de ejes principales en su sentido geométrico. En efecto, sea la transformación: ' :' , … , '% ; ] H * donde sigue una distribución á% ; u, ] D , … , D% con D , … , D% autovalores normalizados de u g 0. Según la transformación anterior tenemos que ' sigue una normal á% 0; ]* u]. Si todas las raíces de u son distintas, entonces ] es ortogonal, es decir ]* ]z . Por tanto, tenemos una transformación ' ] H tal que ]* u] es diagonal, lo que quiere decir que las componentes '. de ' son incorreladas, y los elementos de la diagonal principal de ]* u] son las varianzas de las diferentes componentes de '. . De esta forma es posible definir una transformación ortogonal o giro llevando el sistema de referencia al origen y girando los ejes hasta coincidir con los ejes principales, de tal forma que se transforma el vector en uno ' que, respecto de dicho sistema nuevo, tiene sus componentes incorreladas, de tal forma además, que la longitud de los ejes de cualquier elipsoide dado i g 0 es proporcional a la varianza de las variables '. . 1.14.1. Combinaciones lineales de un vector aleatorio Dado un vector aleatorio , … , % $, no necesariamente normal, con media y matriz de covarianzas 789 Σ, es claro que si tomamos una combinación lineal 35 Análisis de Componente Principales se verifica Trabajo Fin de Máster * ; con : , … , % ; * * ; 2011/12 * 789 * X * Σ Por tanto, si sigue una normal multivariante á% ; u, tomando combinaciones lineales * , tenemos que sigue una distribución: á% * ; * Σ 36 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Aplicación a Datos Reales Se pretende realizar un estudio sobre los records obtenidos por cada país en las diferentes carreras de atletismo. Se han tomado los datos de los records masculinos nacionales obtenidos en 58 países diferentes de las disciplinas: 100 metros, 110 metros vallas, 200 metros, 400 metros, 800 metros, 1.500 metros, 3.000 metros obstáculos, 5.000 metros, 10.000 metros y Maratón (42.195 metros). Los 58 países que han sido considerados poseían una participación significativa en los Juegos Olímpicos de Londres 2012 (una participación superior los 35 atletas), y los records han sido obtenidos con una posterioridad a 1990. Los países seleccionados, agrupados por continentes son los siguientes: África. 8 países Angola Argelia Egipto Etiopia Kenia Marruecos Nigeria Sudafrica América. 14 países Argentina Bolivia Brasil Canada Colombia Cuba Chile EEUU Jamaica Mexico Paraguay Peru Uruguay Venezuela China India Iran Israel Japon Kazajstan Turquia Eslovenia España Finlandia Francia Grecia Holanda Hungria Irlanda Italia Lituania Asia. 9 países ArabiaSaudi CoreaSur Europa. 25 países Alemania Belgica Bulgaria Croacia Dinamarca Noruega Polonia Portugal Reino Unido RepCheca Rusia Serbia Suecia Suiza Ucrania Oceanía. 2 países Australia N. Zelanda Los records obtenidos por los diferentes países vienen recogidos en la Tabla 1. Los datos correspondientes a las pruebas de 800 metros en adelante, han sido pasados a minutos, para poder trabajar con ellos. Hay que tener en cuenta de 1 min. 43 seg. no es 1’43 minutos, sino 1’72 minutos. 37 Análisis de Componente Principales Países Alemania Angola ArabiaSaudi Argelia Argentina Australia Belgica Bolivia Brasil Bulgaria Canada Colombia CoreaSur Croacia Cuba Chile China Dinamarca EEUU Egipto Eslovenia España Etiopia Finlandia Francia Grecia Holanda Hungria India Iran Irlanda Israel Italia Jamaica Japon Kazajstan Kenia Lituania Marruecos Mexico Nigeria Noruega NZelanda Paraguay Peru Polonia Portugal RepCheca Rusia Serbia Sudafrica Suecia Suiza Turquia Ucrania UK Uruguay Venezuela 100m 110mV 200m Trabajo Fin de Máster 400m 800m 1500m 3000mO 2011/12 5Km 10Km Maratón 10.06 13.05 20.2 44.33 01:43.7 03:31.6 08:09.5 12:54.7 27:21.5 2:08:47 10.49 14.11 21.15 47.38 01:47.5 03:40.0 08:56.8 13:40.1 28:20.0 2:11:40 10.13 13.60 20.42 44.66 01:43.7 03:31.8 08:08.1 12:58.6 28:01.8 2:20:35 10.34 13.46 20.62 45.13 01:43.1 03:27.4 08:10.2 12:50.9 27:58.0 2:09:54 10.23 13.92 20.37 46.18 01:46.0 03:38.6 08:25.6 13:19.6 27:38.7 2:09:57 9.93 13.29 20.06 44.38 01:44.4 03:31.1 08:16.2 12:55.8 27:24.9 2:07:51 10.02 13.25 20.19 44.43 01:43.9 03:34.1 08:10.0 12:49.7 26:52.3 2:07:20 10.6 14.79 21.32 47.72 01:48.2 03:45.6 08:58.6 14:06.7 29:05.8 2:17:49 10 13.29 19.89 44.29 01:41.8 03:33.2 08:14.4 13:19.4 27:28.1 2:06:05 10.13 13.33 20.2 45.32 01:46.3 03:39.5 08:25.0 13:13.1 27:56.3 2:11:26 9.84 13.08 20.17 44.44 01:43.7 03:31.7 08:12.6 13:14.0 27:23.6 2:10:09 10.17 13.27 20.49 45.62 01:44.3 03:43.0 08:44.5 13:29.7 27:53.0 2:11:17 10.23 13.48 20.41 45.37 01:44.1 03:38.6 08:42.9 13:43.0 28:23.6 2:07:20 10.25 13.54 20.76 45.64 01:44.1 03:33.3 08:40.1 13:37.8 28:24.3 2:17:05 9.98 12.87 20.06 44.14 01:42.9 03:35.0 08:26.2 13:44.8 28:49.0 2:10:53 10.1 13.78 20.15 45.92 01:45.7 03:39.0 08:29.0 13:23.7 28:05.6 2:12:19 10.16 12.88 20.42 45.25 01:46.4 03:36.5 08:10.5 13:25.1 28:08.7 2:08:15 10.29 13.82 20.52 45.89 01:41.1 03:31.2 08:23.6 13:25.4 27:54.8 2:09:43 9.69 12.80 19.32 43.18 01:42.6 03:29.3 08:06.8 12:53.6 26:48.0 2:05:38 10.13 14.06 20.36 46.08 01:45.0 03:38.2 08:55.1 14:03.0 29:34.0 2:19:39 10.13 13.56 20.47 45.43 01:46.8 03:39.3 08:17.0 13:32.8 28:32.9 2:11:50 10.14 13.33 20.59 44.96 01:43.7 03:28.9 08:07.4 12:57.3 27:14.4 2:06:52 10.61 15.04 21.3 45.42 01:42.5 03:31.1 08:06.2 12:37.4 26:17.5 2:03:59 10.21 13.35 20.47 45.49 01:44.1 03:36.3 08:10.7 13:16.3 27:31.0 2:10:46 9.92 12.97 19.8 44.46 01:43.2 03:29.0 08:01.2 12:58.8 27:22.8 2:06:36 10.11 13.37 19.85 45.11 01:45.0 03:36.7 08:24.0 13:28.6 28:07.2 2:12:04 9.91 13.15 19.85 45.68 01:43.5 03:32.9 08:04.9 13:13.1 27:26.3 2:08:21 10.08 13.32 20.11 45.42 01:45.4 03:35.6 08:18.0 13:27.0 28:01.9 2:12:10 10.30 13.65 20.73 45.48 01:45.8 03:38.0 08:30.9 13:29.7 28:02.9 2:12:00 10.24 13.5 20.84 45.81 01:44.7 03:37.1 08:33.9 13:53.4 29:22.7 2:28:23 10.18 13.3 20.3 44.77 01:44.8 03:33.5 08:24.1 13:03.5 27:39.6 2:09:15 10.2 13.85 20.86 45.71 01:46.5 03:40.9 08:24.1 13:31.4 28:12.9 2:14:21 10.01 13.28 19.72 45.19 01:43.7 03:32.8 08:08.6 13:05.6 27:16.5 2:07:22 9.58 13.12 19.19 44.4 01:45.2 03:39.2 08:52.8 13:33.1 28:32.4 2:16:39 10.00 13.39 20.03 44.78 01:46.2 03:37.4 08:18.9 13:13.2 27:35.1 2:06:16 10.08 13.49 20.34 45.52 01:47.0 03:37.5 08:27.4 13:35.6 27:58.9 2:11:59 10.26 13.69 20.43 44.18 01:40.9 03:26.3 07:53.6 12:39.7 26:27.9 2:03:02 10.14 13.6 20.74 45.73 01:46.6 03:40.9 08:22.2 13:17.9 27:31.5 2:12:35 10.09 13.79 20.5 45.03 01:43.2 03:26.0 07:55.3 12:49.3 26:38.1 2:05:27 10.21 13.81 20.4 44.31 01:46.3 03:36.7 08:25.7 13:07.8 27:08.2 2:07:19 9.85 13.42 19.84 44.17 01:45.9 03:42.8 08:58.6 14:15.5 29:04.5 2:16:06 9.99 13.55 19.89 46.11 01:42.6 03:35.4 08:12.1 13:06.4 27:32.5 2:10:17 10.11 13.71 20.42 46.09 01:44.3 03:30.4 08:14.1 13:10.2 27:42.0 2:08:59 10.5 14.57 21.42 46.62 01:50.2 03:48.7 08:52.6 14:28.7 30:23.0 2:20:48 10.43 13.75 20.69 45.3 01:49.2 03:43.7 08:28.7 13:55.1 28:56.5 2:11:36 10 13.27 19.98 44.62 01:43.2 03:34.5 08:09.1 13:17.7 27:53.6 2:07:39 9.86 13.47 20.01 46.11 01:44.9 03:30.1 08:19.8 13:02.9 27:12.5 2:06:36 10.23 13.27 20.59 44.91 01:44.8 03:34.9 08:23.8 13:25.0 27:47.9 2:11:57 10.1 13.09 20.23 44.6 01:42.0 03:32.3 08:15.5 13:12.0 27:53.1 2:09:07 10.34 13.6 20.74 45.3 01:44.8 03:34.8 08:28.8 13:31.2 27:58.4 2:12:40 10.06 13.24 20.11 44.59 01:42.7 03:33.6 08:11.5 13:14.2 27:29.9 2:06:33 10.18 13.35 20.3 44.56 01:45.5 03:36.5 08:05.8 13:17.6 27:55.7 2:10:38 10.16 13.41 20.41 44.99 01:42.5 03:31.8 08:22.2 13:07.5 27:53.2 2:07:23 10.37 14.03 20.86 46.18 01:44.3 03:31.4 08:17.8 13:06.0 27:29.3 2:10:25 10.07 13.22 20 45.11 01:45.1 03:30.3 08:21.7 13:10.8 27:59.8 2:07:15 2:07:13 9.87 12.91 19.87 44.36 01:41.7 03:29.7 08:08.0 12:53.1 26:46.6 10.15 14.89 20.46 45.02 01:49.5 03:43.5 08:23.0 13:47.6 28:52.3 2:12:48 10.3 13.62 20.58 45.55 01:43.5 03:37.0 08:24.1 13:22.3 28:41.4 2:11:25 Tabla 1: Records Nacionales 38 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 2.1. Análisis exploratorio Descriptivos La Tabla 2 recoge algunas medidas de posición y dispersión de las diferentes variables. Observamos que en general, los valores se encuentran bastante centrados, con unas varianzas relativamente pequeñas. Los percentiles 5 y 95 están bastante próximos a la mediana. Se puede observar mejor la distribución de las variables y la detección de datos extremos con los diagramas de cajas (Gráfico 1-10). Variables Media Varianza Mínimo Percentil5 Percentil25 Mediana Percentil75 Percentil95 Máximo 100m 10.13 0.04 9.58 9.85 10.01 10.13 10.23 10.49 10.61 110mV 13.53 0.22 12.80 12.91 13.27 13.44 13.71 14.60 15.04 200m 20.34 0.19 19.19 19.79 20.06 20.39 20.59 21.17 21.42 400m 45.21 0.65 43.18 44.18 44.59 45.22 45.67 46.25 47.72 800m 104.65 3.53 100.90 101.79 103.28 104.55 105.88 107.78 109.50 1500m 3.59 0.01 3.43 3.48 3.53 3.58 3.65 3.72 3.82 3000mO 8.39 0.06 7.90 8.07 8.17 8.40 8.56 8.88 8.98 5000m 13.34 0.15 12.62 12.83 13.10 13.30 13.52 14.06 14.48 10000m 27.90 0.59 26.30 26.76 27.44 27.89 28.20 29.14 30.38 Maraton 130.70 20.64 123.03 125.61 127.34 130.22 132.05 139.79 148.38 Tabla 2 Diagramas de cajas Paraguay 21.0 20.5 13.5 20.0 10.0 13.0 19.5 9.8 9.6 Paraguay Uruguay Bolivia Jamaica Jamaica Gráfico 1: 100 metros 21.5 Etiopia 14.0 10.2 15.0 Bolivia 14.5 Etiopia 10.4 10.6 Se observa que en la carrera de velocidad de los 100 metros, nos encontramos varios datos extremos, los países de Etiopía y Bolivia con el record más lento en esta carrera, y el caso de Jamaica, con el record más rápido (el famoso registro de 9’58 segundos de Usain Bolt en el mundial de atletismo de Berlín 2009). En la carrera de los 110 metros vallas, nos encontramos cuatro países con datos de records lentos atípicos, Etiopía, Uruguay, Bolivia y Paraguay. Gráfico 2: 110 metros vallas Gráfico 3: 200 metros Con respecto a la prueba de los 200 metros, se observa que Paraguay tiene un record significativamente lento respecto al resto de los países, al contrario que Jamaica, con una marca bastante buena (registro de 19’19 segundos perteneciente a Usain Bolt, en el mundial de atletismo de Berlín 2009). 39 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 En la prueba de los 400 metros nos encontramos dos países con datos extremos lentos, pertenecientes a los países de Bolivia y Angola. En las carreras de 800 metros, 1.500 metros y 3.000 metros obstáculos no se encuentran datos significativamente anómalos. 3.8 Bolivia 3.5 43 102 44 104 45 3.6 106 46 3.7 108 47 Angola Gráfico 4: 400 metros Gráfico 5: 800 metros Gráfico 6: 1.500 metros 9.0 14.5 Para las pruebas de largo fondo, nos encontramos varios datos extremos con registros lentos, en el caso de los 5.000 metros, Paraguay y Nigeria, en los 10.000 metros Paraguay y Egipto y en la maratón, Irán, Paraguay, Arabia Saudí y Egipto. Paraguay 8.0 13.0 8.2 8.4 13.5 8.6 14.0 8.8 Nigeria Gráfico 7: 3.000 metros Obstáculos Gráfico 8: 5.000 metros Iran 145 30 Paraguay Paraguay ArabiaSaudi Egipto 125 27 130 28 135 29 140 Egipto Gráfico 9: 10.000 metros Gráfico 10: Maratón 40 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Después de este análisis nos llama la atención los pobres registros en general de Paraguay, tanto en pruebas velocidad como de resistencia. También las magníficas marcas de Jamaica en las pruebas de velocidad, y los altos tiempos de Bolivia y Etiopía en las pruebas de corta distancia. 2.2. Covarianza y correlación entre las variables Las matrices de covarianzas y correlaciones vienen dadas respectivamente en las tablas 3 y 4. En la matriz de correlaciones observamos como en general, los valores altos se concentran en torno a la diagonal, mientras que cuando nos alejamos de ésta, las correlaciones disminuyen. Esto es lógico que ocurra, puesto que cuando un país tiene buenos registros en una prueba, ocurrirá algo parecido en pruebas similares. Variables 100m 110mV 200m 400m 800m 1500m 3000mO 5000m 10000m Maraton 100m 110mV 0.04 0.06 0.06 0.22 0.08 0.14 0.10 0.23 0.09 0.30 0.00 0.02 0.01 0.04 0.02 0.06 0.04 0.10 0.19 0.58 200m 0.08 0.14 0.19 0.22 0.23 0.01 0.03 0.05 0.10 0.65 400m 0.10 0.23 0.22 0.65 0.53 0.03 0.10 0.13 0.25 1.47 800m 1500m 3000mO 5000m 10000m Maraton 0.09 0.00 0.01 0.02 0.04 0.19 0.30 0.02 0.04 0.06 0.10 0.58 0.23 0.01 0.03 0.05 0.10 0.65 0.53 0.03 0.10 0.13 0.25 1.47 3.53 0.11 0.21 0.36 0.66 3.14 0.11 0.01 0.01 0.03 0.05 0.21 0.21 0.01 0.06 0.07 0.14 0.69 0.36 0.03 0.07 0.15 0.27 1.23 0.66 0.05 0.14 0.27 0.59 2.75 3.14 0.21 0.69 1.23 2.75 20.64 Tabla 3: Matriz de Covarianzas Variables 100m 110mV 200m 400m 800m 1500m 3000mO 5000m 10000m Maraton 100m 110mV 1.00 0.70 0.70 1.00 0.92 0.71 0.61 0.61 0.24 0.34 0.30 0.40 0.24 0.30 0.25 0.32 0.27 0.28 0.21 0.27 200m 0.92 0.71 1.00 0.64 0.27 0.32 0.29 0.29 0.30 0.33 400m 0.61 0.61 0.64 1.00 0.35 0.44 0.47 0.43 0.41 0.40 800m 1500m 3000mO 5000m 10000m Maraton 0.24 0.30 0.24 0.25 0.27 0.21 0.34 0.40 0.30 0.32 0.28 0.27 0.27 0.32 0.29 0.29 0.30 0.33 0.35 0.44 0.47 0.43 0.41 0.40 1.00 0.69 0.45 0.50 0.46 0.37 0.69 1.00 0.70 0.82 0.72 0.57 0.45 0.70 1.00 0.78 0.74 0.61 0.50 0.82 0.78 1.00 0.92 0.71 0.46 0.72 0.74 0.92 1.00 0.79 0.37 0.57 0.61 0.71 0.79 1.00 Tabla 4: Matriz de Correlaciones Como se está trabajando con variables medidas en diferentes escalas de tiempo, las pruebas de 100 metros, 110 metros vallas, 200 metros, 400 metros y 800 metros, en segundos, y las pruebas de 1.500 metros, 3.000 metros obstáculos, 5.000 metros, 10.000 metros y Maratón, en minutos, utilizaremos para el análisis la matriz de correlaciones. 41 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 El gráfico 11 muestra los diagramas de dispersión de los diferentes pares de variables. Se observa que hay una relación lineal entre las carreras de las tres categorías, corta distancia, media distancia y larga distancia. 14.0 15.0 43 44 45 46 47 3.5 3.6 3.7 3.8 13.0 14.0 125 135 145 10.4 13.0 15.0 9.6 X100m 21.5 13.0 X110mV 46 19.5 X200m 108 43 X400m 3.8 102 X800m 8.0 8.6 3.5 X1500m 14.5 X3000mO 27 29 13.0 X5Km 145 X10Km 125 Maraton 9.6 10.0 10.4 19.5 20.5 21.5 102 106 8.0 8.4 8.8 27 28 29 30 Gráfico 11: Diagramas de dispersión 2.3. Test de Hipótesis sobre la Matriz de Correlaciones Un test que siempre hay que realizar en el análisis de componentes principales, es el test de independencia de las variables, puesto que si las variables son independientes, no tendría sentido realizar dicho estudio. Para comprobar la independencia de las variables, basta con contrastar que la matriz de correlaciones coincide con la matriz identidad, es decir: Î Tenemos que el estadístico: ½S : K æ ½ :b K 1 N ¬¶ Áqh% H Î H 1 H 2 + 5Ð ln¶ 6 N bajo la hipótesis nula, sigue una distribución Chi cuadrado Á%%z /N . 42 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 N Para la matriz de correlaciones tenemos que Áqh% 494$99, mientras que el N valor crítico correspondientes viene dado por ÁSo éê; %%z /N 61.66, por lo que se rechaza la hipótesis nula ½S : K, y aceptaremos que las variables no son independientes. Otro test interesante en el análisis de componentes principales es comprobar que los últimos valores son idénticos entre sí e iguales a cero. La hipótesis nula vendría dada por: ½S : sU sUN , % ; t £ ¬ . Tenemos que el estadístico: donde . son las raíces características de N Áqh% ¬¶ ¬ H ∑s.\ §. %zs ¶ A6 H 1 ÂH ln s + ln Æ È Å Ht ∏.\ §. se comporta bajo ½S asintóticamente, con un orden de aproximación de 1/, según una Chi cuadrado Á N con grados de libertad: % % % % 1 1 N N N Ê H t H 1 [ [ i./ ./ [ [ i.. i// ./ Ë H t H 1 H t + 2 H 2 Ht .\ /\ .\ /\ donde i./ es la componente 0, 1 de la matriz 7 K H Í Í * ; siendo Í la matriz de vectores característicos por columnas de las t primeras raíces características de Σ. Los diferentes valores dados por el estadístico y sus correspondientes regiones críticas se recogen en la tabla 5. Orden Estadistico ChiCuadrado GL 630.21 72.15 54 0 285.35 60.48 44 1 143.58 49.80 35 2 99.90 40.11 27 3 83.34 31.41 20 4 66.55 23.68 14 5 43.90 16.92 9 6 24.12 11.07 5 7 4.01 5.99 2 8 Tabla 5: Test igualdad valores propios En la tabla 5 observamos que se rechaza la hipótesis nula a un nivel de confianza del 0’05, para los ocho primeros factores, y se acepta a partir del octavo, es decir, aceptamos que é S 0. 43 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 2.4. Cálculo de las Componentes Principales En primer lugar, se obtienen los valores propios de la matriz de correlaciones, que coincidirán con las varianzas de las diferentes componentes principales. Dichos valores vienen dados en la tabla 5, donde también se muestra el porcentaje de la varianza total explicada por cada componente principal. Orden 1 2 3 4 5 6 7 8 9 10 Varianza Porcentaje Porcentaje Explicada Explicado Acumulado 5.405 54.05% 54.05% 2.085 20.85% 74.90% 0.782 7.82% 82.72% 0.452 4.52% 87.24% 0.386 3.86% 91.11% 0.342 3.42% 94.53% 0.247 2.47% 97.00% 0.172 1.72% 98.72% 0.081 0.81% 99.53% 0.047 0.47% 100.00% Tabla 6: Varianza Explicada 0 0 1 1 2 2 3 3 4 4 5 5 Estos valores se muestran representados en el gráfico 12, el cual nos ayudará a escoger el número de componentes principales a retener en el análisis. Si escogemos dos componentes principales, explicaremos el 74’9% de la varianza total, mientras que con tres componentes, el 82’7%. El método del Kaiser nos aconseja tomar el mismo número de componentes que autovalores mayores que 1, que en este caso serían dos, aunque estudios recientes aconsejan tomar las componentes cuyos valores propios son superiores a 0’7, así que optaremos finalmente por retener tres componentes. 2 4 6 8 10 Gráfico 12: Representación de los autovalores Una vez decidido el número de componentes principales a retener, construimos dichas componentes. Esto es lo mismo que obtener los vectores propios asociados a los tres valores propios más grandes. La tabla 6 recoge el valor de los vectores propios, 44 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 por columnas, ordenados desde el perteneciente al mayor autovalor hasta el menor. Las componentes principales no son más que combinaciones lineales de las variables originales. Comp. 1 -0.260 -0.275 -0.281 -0.308 -0.274 -0.359 -0.340 -0.367 -0.359 -0.318 Comp. 2 -0.498 -0.395 -0.467 -0.265 0.108 0.199 0.228 0.282 0.276 0.220 Comp. 3 0.074 -0.121 0.115 0.069 -0.782 -0.327 0.104 0.105 0.254 0.396 Comp. 4 Comp. 5 Comp. 6 Comp. 7 0.245 -0.241 -0.306 -0.074 -0.045 -0.062 0.840 0.148 0.287 -0.058 -0.289 0.142 -0.702 0.455 -0.164 -0.319 0.182 0.333 -0.195 0.170 0.006 -0.263 0.074 -0.288 -0.429 -0.344 -0.164 0.698 0.022 -0.256 0.058 -0.359 0.177 -0.058 -0.001 -0.250 0.336 0.600 0.131 0.244 Tabla 7: Componentes Principales Comp. 8 0.038 0.142 -0.117 -0.003 0.293 -0.706 0.019 0.195 0.496 -0.309 Comp. 9 Comp. 10 0.541 0.410 0.011 -0.018 -0.586 -0.377 0.005 -0.028 -0.020 0.071 0.151 -0.214 0.062 0.016 -0.495 0.541 0.289 -0.551 0.087 0.201 Tenemos que las componentes principales vienen dadas por: ' H0.26 H 0.275 N H 0.281 H 0.308 ë H 0.274 ê H H0.359 ì H 0.34 í H 0.367 î H 0.359 é H 0.318 S 'N H0.498 H 0.395 N H 0.467 H 0.265 ë + 0.108 ê + +0.108 ì + 0.199 í + 0.228 î + 0.276 é + 0.22 S ' 0.074 H 0.121 N + 0.115 + 0.169 ë H 0.782 ê H H0.327 ì + 0.104 í + 0.105 î + 0.254 é + 0.396 S La primera componente principal es prácticamente proporcional a todas las variables, lo que significa que si para un país, esta componente toma un valor muy pequeño (muy negativo), significa que tendrá tiempos altos en el cómputo general de todas las pruebas, lo que quiere decir que el país no tiene buenos resultados. En el caso de tomar un valor alto, implicaría que tienen buenos tiempos en general. La segunda componente principal tiene coeficientes positivos para las pruebas de velocidad (100 metros, 110 metros vallas, 200 metros y 400 metros) y valores negativos para las carreras de medio fondo (800 metros, 1.500 metros y 3.000 metros obstáculos) y largo fondo (5.000 metros, 10.000 metros y Maratón). Lo que significa, que para valores altos de esta componente, el país tiene mejores registros en medio y largo fondo que en pruebas de corta distancia, y viceversa. La tercera componente principal tiene coeficientes negativos para las pruebas de 110 metros vallas, 800 metros y 1.500, y positivos para las restantes. Aunque observamos que los valores con una magnitud suficientemente grande son los negativos dados para los 800 metros y 1.500 metros, y los positivos dados para las pruebas de largo fondo. Esto nos puede hacer pensar que esta tercera componente discrimina entre las pruebas de media distancia y larga distancia. 45 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 2.5. Relación entre las Variables y las Componentes Principales La taba 7 muestra la correlación de cada variable con las tres componentes principales construidas. Variables Comp. 1 Comp. 2 Comp. 3 100m -0.60 -0.72 0.07 110mV -0.64 -0.57 -0.11 200m -0.65 -0.67 0.10 400m -0.72 -0.38 0.06 800m -0.64 0.16 -0.69 1500m -0.83 0.29 -0.29 3000mO -0.79 0.33 0.09 5000m -0.85 0.41 0.09 10000m -0.83 0.40 0.22 Maraton -0.74 0.32 0.35 Tabla 8: Correlaciones entre Variables y C.P. Estos datos refuerzan nuestra descripción sobre las diferentes componentes principales. Los gráficos 13, 14 y 15 recogen en un diagrama bidimensional la posición de las variables respecto a las componentes. Comp.2 X5Km X10Km Comp.2 X3000mO Maraton X1500m X800m Comp.1 X5Km X10Km X3000mO Maraton X1500m X800m Comp.1 X400m X400m X110mV X200m X100m X110mV X200m X100m Gráfico 13: Posición de las variables respecto de las componentes 1 y 2 En el gráfico 13 observamos lo que ya habíamos comentado, la primera componente no discrimina según la variable, ya que es prácticamente proporcional a todas, mientras que la segunda componente discrimina entre las pruebas de corta distancia y las pruebas de media y larga distancia. 46 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Del gráfico 14 obtenemos que la tercera componente principal distingue claramente entre las pruebas de largo fondo y medio fondo. Comp.3 Comp.3 Maraton X10Km X5Km X3000mO X200m X400m X100m Maraton Comp.1 X10Km X200m X5Km X3000mO X100m X400m X110mV Comp.1 X110mV X1500m X1500m X800m X800m Gráfico 14: Posición de las variables respecto de las componentes 1 y 3 En el gráfico 15 observamos que estas dos variables conjuntas discriminan entre los tres tipos de categorías, corta, media y larga distancia. Destacamos que la prueba de los 3.000 metros obstáculos se agrupa junto a las carreras de largo fondo. Comp.3 Comp.3 Maraton X10Km X200m X100m Maraton X5Km X3000mO X400m X10Km Comp.2 X200m X100m X110mV X5Km X3000mO X400m Comp.2 X110mV X1500m X1500m X800m X800m Gráfico 15: Posición de las variables respecto de las componentes 1 y 3 47 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 2.6. Contribución y Calidad de las Variables La tabla 8 recoge la contribución de cada variable en la construcción de cada componente principal. Obtenemos que para la obtención de la primera componente principal, la variable de los 5.000 metros, así como la de los 1.500 metros y la de los 10.000 metros han sido las que más han contribuido. Con respecto a la segunda componente principal, la variable que más ha contribuido ha sido la de los 100 metros, y para la tercera, la de los 800 metros, con un porcentaje superior al 61%. Variables Comp. 1 Comp. 2 Comp. 3 100m 6.75% 24.76% 0.55% 110mV 7.59% 15.62% 1.46% 200m 7.88% 21.80% 1.33% 400m 9.47% 7.05% 0.48% 800m 7.48% 1.16% 61.12% 1500m 12.86% 3.96% 10.69% 3000mO 11.55% 5.19% 1.08% 5000m 13.44% 7.97% 1.11% 10000m 12.88% 7.64% 6.46% Maraton 10.10% 4.85% 15.72% Tabla 9: Contribuciones de cada variable La tabla 9 dispone de la calidad de cada variable obtenida por cada componente, es decir, el porcentaje de la varianza explicada de cada variable por cada una de las componentes principales construidas. Se observa que más del 50% de la varianza de la variable 100 metros, es explicada por la segunda componente. En el caso de la variable 1.500 metros, aproximadamente un 70% de su varianza es explicada por la primera componente. La variable 800 metros es explicada con aproximadamente un 50% por la tercera componente principal. Es obvio que la media de cada columna, coincidirá con la varianza total explicada por cada componente. Variables X100m X110mV X200m X400m X800m X1500m X3000mO X5Km X10Km Maraton TOTAL Comp1 36.48% 41.02% 42.59% 51.18% 40.45% 69.48% 62.43% 72.66% 69.59% 54.62% 54.05% Comp2 51.61% 32.57% 45.45% 14.69% 2.42% 8.26% 10.81% 16.61% 15.92% 10.11% 20.85% Comp3 0.43% 1.14% 1.04% 0.38% 47.82% 8.36% 0.85% 0.87% 5.05% 12.30% 7.82% Tabla 10: Varianza explicada por cada C.P. 48 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 La tabla 10 recoge la varianza acumulada explicada por cada componente principal. Obtenemos que las variables 800 metros, 5.000 metros y 10.000 metros son las que mejor calidad tienen, puesto que más del 90% de su varianza queda explicada por las tres primeras componentes. Caso contrario de la variable 400 metros, con un porcentaje explicado del 66’25%, y las variables 110 metros vallas y 3.000 metros obstáculos, con aproximadamente un 75%. Variables X100m X110mV X200m X400m X800m X1500m X3000mO X5Km X10Km Maraton TOTAL Comp1 36.48% 41.02% 42.59% 51.18% 40.45% 69.48% 62.43% 72.66% 69.59% 54.62% 54.05% Comp2 88.09% 73.59% 88.05% 65.87% 42.87% 77.74% 73.24% 89.27% 85.52% 64.73% 74.90% Comp3 88.53% 74.73% 89.09% 66.25% 90.69% 86.10% 74.09% 90.14% 90.57% 77.03% 82.72% Resto 11.47% 25.27% 10.91% 33.75% 9.31% 13.90% 25.91% 9.86% 9.43% 22.97% 17.28% Tabla 11: Varianza explicada acumulada por cada C.P. 2.7. Relación entre los Países y las Componentes Principales Los gráficos 16 y 17 representan la localización de los países respecto de las dos primeras componentes principales seleccionadas. La primera componente principal indica la rapidez en el cómputo general de todas las pruebas, mientras que la segunda discrimina entre las pruebas de corta distancia y media y larga distancia. Jamaica Nigeria Cuba EEUU Egipto Iran Paraguay Bolivia Grecia Canada Kazajstan Hungria Eslovenia Japon Polonia Bulgaria Ucrania Colombia Brasil Sudafrica UK Holanda AustraliaFrancia China CoreaSur Chile Alemania RusiaItalia Peru Uruguay RepCheca Suecia Noruega Portugal ArabiaSaudi Irlanda Lituania Croacia Belgica IsraelIndia Venezuela Finlandia MexicoSuiza Serbia Argentina NZelanda España Dinamarca Argelia Angola Marruecos Turquia Kenia Etiopia Gráfico 16: Posición de los Países respecto a las componentes 1 y 2 49 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Jamaica Nigeria Cuba EEUU Egipto Iran Paraguay Bolivia Grecia Canada Hungria Kazajstan Bulgaria Eslovenia Polonia Colombia China Japon Brasil Ucrania Sudafrica UK Holanda AustraliaFrancia CoreaSur Chile Alemania Italia Peru Uruguay RepCheca Suecia Rusia Noruega Portugal ArabiaSaudi Irlanda Lituania Croacia Belgica Israel Venezuela India Suiza Serbia Argentina Mexico Finlandia NZelanda España Dinamarca Argelia Angola Marruecos Kenia Turquia Etiopia Gráfico 17: Posición de los Países respecto a las componentes 1 y 2 Según el gráfico 16, los países con mejores marcas en general son EEUU, Reino Unido, Francia, Marruecos y Kenia, aunque el caso de EEUU destaca por sus buenas marcas en las carreras de velocidad, mientras que Kenia y Marruecos en las carreras de larga distancia. Los países con peores registros son Paraguay, Bolivia, Egipto, Irán y Angola. Etiopía, como caso particular, posee unas marcas generales normales, pero tener un valor tan negativo respecto a la segunda componente implica que posee tiempos muy bajos en las pruebas de resistencia y altos en las pruebas de velocidad. Es el caso contrario que Jamaica, el cual tiene tiempos muy buenos para las pruebas de corta distancia, y altos para las carreras de largo fondo. Iran Dinamarca Paraguay Bolivia Egipto Angola Peru Croacia ArabiaSaudi Argelia Cuba Rusia Venezuela Suiza Kenia Brasil UK Noruega Serbia Turquia NZelandaSudafrica RepCheca Polonia Canada CoreaSur España Finlandia Francia Jamaica Colombia Grecia Holanda Nigeria Marruecos Ucrania Italia Hungria Etiopia EEUU Irlanda India Australia Chile Portugal Belgica Suecia Israel Eslovenia China Kazajstan Argentina Lituania Bulgaria Japon Mexico Alemania Uruguay Gráfico 18: Posición de los Países respecto a las componentes 1 y 3 50 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Iran Dinamarca Paraguay Croacia Egipto ArabiaSaudi Cuba Argelia Venezuela Suiza Rusia Kenia Brasil UK Noruega NZelanda Serbia Turquia Sudafrica RepCheca Polonia Canada CoreaSur España Finlandia Francia Jamaica Holanda Colombia Nigeria Marruecos Ucrania Etiopia Irlanda India Grecia Italia Hungria Australia Chile Suecia Portugal Belgica Israel Eslovenia Kazajstan Argentina China Lituania Bulgaria Bolivia Angola Mexico Japon Peru EEUU Alemania Uruguay Gráfico 19: Posición de los Países respecto a las componentes 1 y 3 Los gráficos 18 y 19 representan la localización de los países respecto de la primera y tercera componente principal. La tercera componente principal discrimina entre las pruebas de media distancia y larga distancia, así que obtenemos que países como Irán y Egipto, como tiempos general altos, destacan en las pruebas de medio fondo, caso contrario a países como Japón y Alemania, que poseen registros generales buenos, pero en las pruebas de medio fondo, los tiempos son mayores. Los gráficos 20 y 21 representan la localización de los países respecto de la segunda y tercera componente principal. Tenemos que países como Uruguay, tiene sus peores registros en las pruebas de medio fondo, y países como Irán, sus mejores marcas las posee en las pruebas de 800 metros y 1.500 metros. Iran Dinamarca Argelia Croacia Paraguay ArabiaSaudi Venezuela Suiza Egipto Cuba Rusia Kenia Turquia Etiopia UK Brasil Serbia NoruegaSudafrica NZelanda RepChecaPolonia Canada España Finlandia CoreaSur Francia Holanda Colombia Marruecos Grecia Ucrania IndiaIrlanda Italia Hungria Australia Bolivia Chile Suecia Belgica Portugal Israel Eslovenia Angola ChinaKazajstan Argentina Lituania Bulgaria Mexico EEUU Nigeria Jamaica Japon Alemania Peru Uruguay Gráfico 20: Posición de los Países respecto a las componentes 2 y 3 51 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Iran Dinamarca Croacia Paraguay ArabiaSaudi Egipto Cuba Rusia Venezuela Suiza Noruega UK Kenia RepCheca Brasil Serbia Sudafrica Turquia NZelanda Polonia Canada España CoreaSur Finlandia Francia Holanda Colombia Marruecos Grecia EEUU Ucrania Hungria India Australia Bolivia Irlanda Italia Eslovenia Angola Chile Portugal Belgica Suecia Israel China Kazajstan Argentina LituaniaBulgaria Argelia Etiopia Mexico Nigeria Jamaica Japon Alemania Peru Uruguay Gráfico 21: Posición de los Países respecto a las componentes 2 y 3 2.8. Contribución y Calidad de los Países La tabla 11 recoge la contribución de cada país en la construcción de cada componente principal, calidad de representación cada país obtenida por cada componente, es decir, el porcentaje de la varianza explicada de cada país por cada una de las componentes principales construidas. También se muestra el porcentaje de varianza explicada acumulada. Variables Contribuciones Comp1 Comp2 Comp3 Varianza Explicada Comp1 Comp2 Comp3 Varianza Explicada Acumulada Comp1 Comp2 Comp3 Resto 0.95% 0.06% 5.98% 35.10% 0.84% 31.84% 35.10% 35.95% 67.79% 32.21% Alemania 4.88% 3.08% 1.04% 71.71% 17.45% 2.22% 71.71% 89.17% 91.39% 8.61% Angola 0.06% 0.01% 3.59% 2.38% 0.14% 20.26% 2.38% 2.51% 22.78% 77.22% ArabiaSaudi 0.24% 1.82% 3.20% 10.94% 32.28% 21.34% 10.94% 43.21% 64.56% 35.44% Argelia 0.39% 0.52% 1.88% 33.12% 16.93% 23.09% 33.12% 50.05% 73.14% 26.86% Argentina 1.62% 0.13% 0.27% 87.30% 2.60% 2.13% 87.30% 89.91% 92.03% 7.97% Australia 1.90% 0.06% 0.68% 85.10% 0.98% 4.44% 85.10% 86.08% 90.52% 9.48% Belgica 15.23% 2.11% 0.33% 92.91% 4.97% 0.29% 92.91% 97.88% 98.17% 1.83% Bolivia 1.71% 0.24% 0.63% 71.67% 3.88% 3.81% 71.67% 75.55% 79.36% 20.64% Brasil 0.05% 0.27% 1.92% 7.43% 15.00% 40.28% 7.43% 22.43% 62.71% 37.29% Bulgaria 1.35% 0.74% 0.08% 70.47% 14.78% 0.60% 70.47% 85.25% 85.85% 14.15% Canada 0.56% 0.29% 0.00% 32.67% 6.52% 0.01% 32.67% 39.19% 39.20% 60.80% Colombia 0.40% 0.09% 0.05% 30.63% 2.70% 0.54% 30.63% 33.33% 33.87% 66.13% CoreaSur 0.76% 0.02% 4.63% 44.60% 0.46% 39.41% 44.60% 45.06% 84.47% 15.53% Croacia 0.04% 4.50% 3.26% 1.43% 60.32% 16.40% 1.43% 61.75% 78.15% 21.85% Cuba 0.37% 0.10% 0.53% 45.10% 4.54% 9.45% 45.10% 49.64% 59.09% 40.91% Chile 0.02% 0.10% 1.36% 1.64% 2.92% 14.65% 1.64% 4.56% 19.21% 80.79% China 0.00% 1.65% 7.20% 0.04% 31.21% 51.07% 0.04% 31.25% 82.32% 17.68% Dinamarca 7.67% 3.09% 0.09% 84.57% 13.14% 0.14% 84.57% 97.71% 97.85% 2.15% EEUU 4.46% 1.72% 4.17% 71.02% 10.54% 9.61% 71.02% 81.56% 91.17% 8.83% Egipto Tabla 12: Contribución de cada País, Varianza Explicada y Varianza Explicada Acumulada por cada C.P. 52 Análisis de Componente Principales Variables Contribuciones Comp1 Comp2 Comp3 Trabajo Fin de Máster Varianza Explicada Comp1 Comp2 Comp3 2011/12 Varianza Explicada Acumulada Comp1 Comp2 Comp3 Resto 0.94% 0.45% 0.86% 68.82% 12.81% 9.05% 68.82% 81.63% 90.68% 9.32% Eslovenia 1.25% 1.41% 0.04% 62.73% 27.24% 0.27% 62.73% 89.98% 90.24% 9.76% España 0.16% 26.08% 0.09% 1.46% 89.29% 0.12% 1.46% 90.75% 90.87% 9.13% Etiopia 0.05% 0.36% 0.04% 9.15% 26.18% 0.99% 9.15% 35.33% 36.32% 63.68% Finlandia 3.51% 0.23% 0.02% 93.27% 2.33% 0.07% 93.27% 95.60% 95.67% 4.33% Francia 0.00% 1.03% 0.04% 0.11% 64.40% 0.92% 0.11% 64.51% 65.43% 34.57% Grecia 1.18% 0.17% 0.00% 56.74% 3.19% 0.01% 56.74% 59.93% 59.94% 40.06% Holanda 0.00% 0.40% 0.09% 0.19% 40.42% 3.62% 0.19% 40.61% 44.23% 55.77% Hungria 0.73% 0.21% 0.13% 77.06% 8.40% 2.02% 77.06% 85.46% 87.49% 12.51% India 3.97% 0.95% 12.42% 51.62% 4.74% 23.37% 51.62% 56.36% 79.74% 20.26% Iran 0.21% 0.01% 0.12% 46.44% 1.00% 3.76% 46.44% 47.44% 51.20% 48.80% Irlanda 1.39% 0.12% 0.68% 75.21% 2.59% 5.32% 75.21% 77.80% 83.12% 16.88% Israel 1.44% 0.06% 0.16% 77.61% 1.25% 1.29% 77.61% 78.85% 80.14% 19.86% Italia 0.00% 17.42% 0.00% 0.03% 86.64% 0.01% 0.03% 86.67% 86.67% 13.33% Jamaica 0.29% 0.31% 4.72% 25.88% 10.61% 60.76% 25.88% 36.49% 97.25% 2.75% Japon 0.53% 0.57% 1.55% 44.95% 18.87% 19.13% 44.95% 63.81% 82.95% 17.05% Kazajstan 4.71% 5.80% 0.75% 63.20% 30.02% 1.45% 63.20% 93.23% 94.68% 5.32% Kenia 0.75% 0.01% 1.83% 42.72% 0.30% 14.99% 42.72% 43.02% 58.01% 41.99% Lituania 2.65% 4.07% 0.01% 57.67% 34.18% 0.03% 57.67% 91.85% 91.88% 8.12% Marruecos 0.05% 0.28% 5.02% 3.65% 7.45% 49.30% 3.65% 11.09% 60.40% 39.60% Mexico 1.08% 11.68% 0.02% 17.43% 72.52% 0.04% 17.43% 89.95% 89.99% 10.01% Nigeria 0.41% 0.01% 0.50% 24.18% 0.15% 4.25% 24.18% 24.33% 28.58% 71.42% Noruega 0.01% 0.64% 0.22% 1.27% 24.47% 3.16% 1.27% 25.74% 28.90% 71.10% NZelanda 16.08% 0.02% 4.18% 92.37% 0.04% 3.47% 92.37% 92.42% 95.89% 4.11% Paraguay 3.54% 0.04% 6.46% 66.39% 0.26% 17.56% 66.39% 66.65% 84.21% 15.79% Peru 0.93% 0.30% 0.15% 67.97% 8.52% 1.63% 67.97% 76.50% 78.13% 21.87% Polonia 0.81% 0.01% 0.68% 34.81% 0.17% 4.22% 34.81% 34.98% 39.20% 60.80% Portugal 0.05% 0.00% 0.17% 9.15% 0.29% 4.36% 9.15% 9.45% 13.80% 86.20% RepCheca 0.81% 0.04% 1.80% 65.50% 1.39% 21.09% 65.50% 66.89% 87.98% 12.02% Rusia 0.37% 0.41% 0.37% 45.70% 19.36% 6.62% 45.70% 65.06% 71.68% 28.32% Serbia 0.61% 0.18% 0.32% 44.35% 5.07% 3.36% 44.35% 49.42% 52.78% 47.22% Sudafrica 0.10% 0.01% 0.64% 12.87% 0.34% 11.47% 12.87% 13.20% 24.67% 75.33% Suecia 0.39% 0.26% 1.39% 43.61% 11.24% 22.63% 43.61% 54.85% 77.47% 22.53% Suiza 0.05% 5.27% 0.26% 2.10% 89.39% 1.64% 2.10% 91.49% 93.13% 6.87% Turquia 0.35% 0.21% 0.05% 32.27% 7.39% 0.67% 32.27% 39.66% 40.33% 59.67% Ucrania 4.45% 0.17% 0.63% 93.91% 1.42% 1.92% 93.91% 95.33% 97.26% 2.74% UK 3.18% 0.01% 11.19% 46.38% 0.07% 23.65% 46.38% 46.45% 70.10% 29.90% Uruguay 0.31% 0.22% 1.54% 33.71% 9.22% 24.59% 33.71% 42.93% 67.51% 32.49% Venezuela Tabla 12: Contribución de cada País, Varianza Explicada y Varianza Explicada Acumulada por cada C.P. En la tabla 11 se observa que Bolivia, Paraguay y EEUU son los países que más contribuyen a la primera componente principal, Etiopía, Jamaica y México a la segunda componente principal, e Irán y Uruguay a la tercera con un 12% aproximadamente. Con respecto a la varianza explicada, en el caso de España el 62’73% lo es por la primera componente principal, el 27’24% por la segunda y el 0’27% por la tercera, en total un 90’24% de la varianza de España queda explicada por las tres primeras componentes. Los países mejor explicados son Bolivia, EEUU, Francia, Japón y Reino Unido, con más de un 95%, y los menos, Arabia Saudí, China, República Checa y Suecia, con menos de un 25%. 53 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 2.9. Relación entre Países y Variables El gráfico 22 muestra la relación conjunta entre las variables y los Países. Vemos como hay dos grupos de variables diferenciados, las pruebas de velocidad y las de resistencia. Cuanto más cerca queda un país de uno de estos grupos, peores registros tiene en sus pruebas, obteniendo que EEUU posee tiempos muy bajos en general, y Jamaica únicamente en las carreras de distancias cortas. Kenia, Marruecos y Etiopía poseen registros muy buenos en pruebas de media y larga distancia. Los peores registros en general son de Paraguay y Bolivia. -6 -4 -2 0 2 4 4 Nigeria X5Km X10Km X3000mO Maraton X1500m Cuba EEUU 2 0.5 Jamaica Paraguay Bolivia 0 Grecia Canada Kazajstan Eslovenia Hungria Japon Bulgaria Polonia Colombia Brasil Francia Ucrania Sudafrica Holanda UK Australia Chile China CoreaSur Alemania Italia Rusia Peru Uruguay RepCheca Suecia Noruega Portugal Irlanda Lituania ArabiaSaudi Croacia Belgica Israel India Venezuela Suiza Mexico Finlandia SerbiaNZelanda Argentina España Dinamarca Argelia Angola Marruecos Turquia Kenia -2 0.0 X800m Egipto Iran -0.5 -4 X400m X110mV Etiopia -0.5 0.0 Gráfico 22: Posición de las variables y los países -6 X200m X100m 0.5 54 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Anexo 1: Funciones del paquete ade4 Las dos funciones específicas del paquete “ade4” utilizadas en R para el Análisis de Componentes Principales son “dudi.pca” e “inertia.dudi”. Su sintaxis es: dudi.pca (df, row.w = rep(1, nrow(df))/nrow(df),col.w = rep(1, ncol(df)),center = TRUE, scale = TRUE,scannf = TRUE, nf = 2) donde: • df: es un data frame con n filas (individuos) y p columnas (variables numéricas). • row.w: es opcional y es el peso de las columnas (por defecto uniforme). • col.w: es opcional y es el peso de las filas. • center: es un valor lógico o numérico. Si es True, se centra por la media, si es False no se centra. Si es un vector numérico, la longitud debe ser igual al número de columnas. • scale: es un valor lógico que indica si el vector de columnas debe ser normalizado por los pesos de row.w. • scannf: valor lógico que indica si el gráfico de sedimentación será facilitado. • nf: si scannf es False, nf es un entero que indica el número de componentes a retener. Los resultados que devuelve esta función son: • tab: es el data frame analizado, dependiendo de la transformación de los datos. • cw: pesos de las columnas. • lw: pesos de las filas. • eig: los autovalores. • rank: rango de la matriz analizada. • nf: número de factores. 55 Análisis de Componente Principales Trabajo Fin de Máster • c1: los valores de las componentes principales retenidas, coincide con los vectores propios. • l1: la posición de los individuos respecto a las componentes principales retenidas. • co: la correlación de las variables con las componentes principales retenidas. • li: el valor de la componente principal para cada individuo. • call: devuelve los datos introducidos para la función. • cent: el vector de medias de las variables. • norm: el vector que contiene las desviaciones de las variables. 2011/12 inertia.dudi(dudi, row.inertia = FALSE, col.inertia = FALSE) donde: • dudi: es un objeto de clase dudi, devuelto por la función dudi.pca. • row.inertia: valor lógico. Si es TRUE, devuelve la contribución de las filas a cada componente, y la varianza explicada de cada fila por cada componente. • col.inertia: valor lógico. Si es TRUE, devuelve la contribución de las columnas a cada componente, y la varianza explicada de cada columna por cada componente. Los resultados que devuelve esta función son: • TOT: Varianza total explicada por cada componente. Absoluta, acumulada y porcentaje explicado. • row.abs: Contribución de cada fila a cada componente. • row.rel: Varianza explicada de cada fila por cada componente. • row.cum: Varianza explicada acumulada de cada fila por cada componente. • col.abs: Contribución de cada columna a cada componente. • col.rel: Varianza explicada de cada columna por cada componente. • col.cum: Varianza explicada acumulada de cada columna por cada componente. 56 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Anexo 2: Programación en R. #Cargamos librerías y directorio > > > > + > options(warn=-1) library(ade4) memory.size(4000) directorio <- "C:\\Documents and Settings\\joseantonio\\ Escritorio\\TFM" setwd(directorio) #Leemos datos > datos <- read.table("datosatletismo.txt",header=T,row.names=1) #Análisis Descriptivo, para esto construimos una función que nos #devuelve la tabla completa > descriptivos <- function(datos=NA) + {tabla <- data.frame(c("Media","Varianza","Mínimo", + "Percentil5","Percentil25","Mediana","Percentil75", + "Percentil95","Máximo")) + for(i in 1:ncol(datos)) + {media <- mean(datos[,i]) + varianza <- var(datos[,i]) + perc <- quantile(datos[,i],probs=c(0,0.05,0.25, + 0.5,0.75,0.95,1)) + + vector <- c(media,varianza,perc) + tabla <- cbind(tabla,vector) + } + + colnames(tabla)<-c("Variables",colnames(datos)) + + return(tabla) + } > descriptivos(datos) # llamamos a la función #Gráficos de cajas, usamos la función boxplot, y la función #identity para obtener los nombre de los valores que datos #extremos > + > + boxplot(x=datos$X100m,xlab="100 metros", cex.lab=1.7,col="grey") identify(rep(1,length(datos$X100m)),datos$X100m, rownames(datos)) > boxplot(x=datos$X110mV,xlab="110 m. vallas", + cex.lab=1.7,col="grey") 57 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 > identify(rep(1,length(datos$X110mV)),datos$X110mV, + rownames(datos)) > + > + boxplot(x=datos$X200m,xlab="200 metros", cex.lab=1.7,col="grey") identify(rep(1,length(datos$X200m)),datos$X200m, rownames(datos)) > + > + boxplot(x=datos$X400m,xlab="400 metros", cex.lab=1.7,col="grey") identify(rep(1,length(datos$X400m)),datos$X400m, rownames(datos)) > + > + boxplot(x=datos$X800m,xlab="800 metros", cex.lab=1.7,col="grey") identify(rep(1,length(datos$X800m)),datos$X800m, rownames(datos)) > + > + boxplot(x=datos$X1500m,xlab="1500 metros", cex.lab=1.7,col="grey") identify(rep(1,length(datos$X1500m)),datos$X1500m, rownames(datos)) > + > + boxplot(x=datos$X3000mO,xlab="3.000 m. Obstáculos", cex.lab=1.7,col="grey") identify(rep(1,length(datos$X3000mO)),datos$X3000mO, rownames(datos)) > boxplot(x=datos$X5Km,xlab="5.000 metros", + cex.lab=1.7,col="grey") > identify(rep(1,length(datos$X5Km)),datos$X5Km,rownames(datos)) > + > + boxplot(x=datos$X10Km,xlab="10.000 metros", cex.lab=1.7,col="grey") identify(rep(1,length(datos$X10Km)),datos$X10Km, rownames(datos)) > boxplot(x=datos$Maraton,xlab="Maratón",cex.lab=1.7,col="grey") > identify(rep(1,length(datos$Maraton)),datos$Maraton, + rownames(datos)) #Matrices de covarianza y correlaciones > var(datos) > cor(datos) #Diagramas de dispersión entre las diferentes variables plot(datos) #Test de Hipótesis, creamos dos funciones para los dos test que #se van a realizar 58 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 > TestIndep <- function(datos=NA,nivel=NA) + {N <- nrow(datos) + p <- ncol(datos) + corr <- cor(datos) + + Xexp <- -(N-1-(2*p+5)/6)*log(det(corr)) + + gl <- p*(p-1)/2 + Xteo <- qchisq(nivel,gl, lower.tail = T) + + tabla <- data.frame("Estadistico"=Xexp, + "ChiCuadrado"=Xteo,"GL"=gl) + return(tabla) + } > TestIndep(datos,0.95) #Llamamos a la función TestIndep > TestR <- function(datos=NA, q=NA, ro=NA, nivel=NA) + {N <- nrow(datos) + p <- ncol(datos) + vp <- eigen(cor(datos))$values + vecp <- eigen(cor(datos))$vectors[,1:q] + I <- matrix(0,p,p) + I[row(I)==col(I)] <- 1 + c <- I - vecp%*%t(vecp) + corr <- cor(datos) + a <- det(corr)/prod(vp[1:q]) + b <- sum(vp[(q+1):p])/(p-q) + Xexp <- (N-1)*(-log(a)+(p-q)*log(b)) + + d <- sum(c*c*corr*corr) + e <- c(0) + for(i in 1:p) + for(j in 1:p) + e <- e + c[i,i]*c[j,j]*corr[i,j]*corr[i,j] + f <- abs(((p-q-1)*(p-q+2)/2) - ((p-q-1)*ro*d*e)/(p-q)) + gl <- round(f) + + Xteo <- qchisq(nivel, gl, lower.tail = T) + + tabla <- data.frame("Estadistico"=Xexp, + "ChiCuadrado"=Xteo,"GL"=gl) + + return(tabla) + } #Llamamos a la función TestR con “ro”=0 y un n.c.=0.95 > for(i in 0:9) print(TestR(datos,i,0,0.95)) #Valores propios y vectores propios > eigen(cor(datos))$values > eigen(cor(datos))$vectors #Valores propios #Vectores propios 59 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 #ANÁLISIS DE COMPONENTES PRINCIPALES (funciones del paquete #ade4) > acp <- dudi.pca(df=datos,scannf=T) > acpi <- inertia.dudi(acp,row.inertia=T,col.inertia=T) > acp$co > acp$c1 #Correlación entre las componentes principales #Valor de las componentes principales #Gráficos de las variables > s.label(acp$co[,c(1,2)],boxes=F,clabel=0.9,cgrid=0) > s.corcircle(acp$co[,c(1,2)],clabel=0.9,grid=T) > s.label(acp$co[,c(1,3)],boxes=F,clabel=0.9,cgrid=0) > s.corcircle(acp$co[,c(1,3)],clabel=0.9,grid=T) > s.label(acp$co[,c(2,3)],boxes=F,clabel=0.9,cgrid=0) > s.corcircle(acp$co[,c(2,3)],clabel=0.9,grid=T) #Contribución y calidad de las variables > acpi$col.abs/10000 > acpi$col.rel/10000 > acpi$col.cum/10000 #Gráficos países > s.label(acp$li[,c(1,2)],boxes=F,clabel=1,cgrid=0) > s.corcircle(acp$li[,c(1,2)],clabel=0.9,grid=T) > s.label(acp$li[,c(1,3)],boxes=F,clabel=1,cgrid=0) > s.corcircle(acp$li[,c(1,3)],clabel=0.8,grid=T) > s.label(acp$li[,c(2,3)],boxes=F,clabel=1,cgrid=0) > s.corcircle(acp$li[,c(2,3)],clabel=0.8,grid=T) #Contribución y calidad de los países > acpi$row.abs/10000 > acpi$row.rel/10000 > acpi$row.cum/10000 #Gráfico relación entre Países y Variables > biplot(acp$co[,c(1,2)],acp$li[,c(1,2)]) 60 Análisis de Componente Principales Trabajo Fin de Máster 2011/12 Bibliografía Parte teórica • Anderson, T. W. 1984. An introduction to multivariate statistical analysis. John Wiley & Sons. • Anderson, T.W., and H. Rubin. 1956. “Statistical inference in factor analysis.” Proceedings of the third Berkeley Symp. Volumen Vol. V. University of California, Berkeley, 111-150. • Bartlett, M. S. 1947. “Multivariante Analysis.” Journal of the Royal Statistical Society Suppl. 9B:176-197. • Basilewsky, A. 1994. Statistical factor analysis and related methods: theory and aplications. New York: John Wiley and Sons. • Crawley, M. J. 2007. The R book. Wiley. • Johnson, R. A., and D. W. Wichern. 1998, Applied multivariate statistical analysis. Prentice-Hall. • Lawley, D. N., and E. Maxwell. 1971. Factor analysis as a statistical method. Ed. Butterworths, London. • Schwarz, G. 1987. “Estimathing the dimensión of a model.” Annals of Statistics 6: 431-464. • SPSS. 2005. SPSS 15. Manual de usuario. Chicago. • Thurstone, L. L. 1945. Multiple-Factor Analysis. University Chicago Press. Parte práctica • • • • • • • http://en.wikipedia.org/wiki/Greek_records_in_athletics http://en.wikipedia.org/wiki/Irish_records_in_athletics http://en.wikipedia.org/wiki/Italian_records_in_athletics http://en.wikipedia.org/wiki/Dutch_records_in_athletics http://en.wikipedia.org/wiki/Portuguese_records_in_athletics http://en.wikipedia.org/wiki/Spanish_records_in_athletics http://en.wikipedia.org/wiki/Swedish_records_in_athletics 61 Análisis de Componente Principales • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • Trabajo Fin de Máster 2011/12 http://en.wikipedia.org/wiki/Swiss_records_in_athletics http://en.wikipedia.org/wiki/British_records_in_athletics http://en.wikipedia.org/wiki/Japanese_records_in_athletics http://en.wikipedia.org/wiki/Canadian_records_in_athletics http://en.wikipedia.org/wiki/United_States_records_in_athletics http://en.wikipedia.org/wiki/Iranian_records_in_athletics http://en.wikipedia.org/wiki/Israeli_records_in_athletics http://en.wikipedia.org/wiki/Saudi_Arabian_records_in_athletics http://en.wikipedia.org/wiki/Turkish_records_in_athletics http://en.wikipedia.org/wiki/Chinese_records_in_athletics http://en.wikipedia.org/wiki/Indian_records_in_athletics http://en.wikipedia.org/wiki/Norwegian_records_in_athletics http://en.wikipedia.org/wiki/Australian_records_in_athletics http://en.wikipedia.org/wiki/Hungarian_records_in_athletics http://en.wikipedia.org/wiki/Polish_records_in_athletics http://en.wikipedia.org/wiki/Russian_records_in_athletics http://en.wikipedia.org/wiki/Bolivian_records_in_athletics http://en.wikipedia.org/wiki/Argentine_records_in_athletics http://en.wikipedia.org/wiki/Brazilian_records_in_athletics http://en.wikipedia.org/wiki/Chilean_records_in_athletics http://en.wikipedia.org/wiki/Colombian_records_in_athletics http://en.wikipedia.org/wiki/Paraguayan_records_in_athletics http://en.wikipedia.org/wiki/Peruvian_records_in_athletics http://en.wikipedia.org/wiki/Uruguayan_records_in_athletics http://en.wikipedia.org/wiki/Venezuelan_records_in_athletics http://en.wikipedia.org/wiki/Mexican_records_in_athletics http://en.wikipedia.org/wiki/Belgian_records_in_athletics http://en.wikipedia.org/wiki/Jamaican_records_in_athletics http://en.wikipedia.org/wiki/Finnish_records_in_athletics http://en.wikipedia.org/wiki/Danish_records_in_athletics http://en.wikipedia.org/wiki/French_records_in_athletics http://en.wikipedia.org/wiki/German_records_in_athletics http://en.wikipedia.org/wiki/Kenyan_records_in_athletics http://en.wikipedia.org/wiki/Ethiopian_records_in_athletics http://en.wikipedia.org/wiki/Egyptian_records_in_athletics http://en.wikipedia.org/wiki/Moroccan_records_in_athletics http://en.wikipedia.org/wiki/Angolan_records_in_athletics http://en.wikipedia.org/wiki/Algerian_records_in_athletics http://en.wikipedia.org/wiki/Comorian_records_in_athletics http://en.wikipedia.org/wiki/South_Korean_records_in_athletics http://en.wikipedia.org/wiki/Croatian_records_in_athletics http://en.wikipedia.org/wiki/Cuban_records_in_athletics http://en.wikipedia.org/wiki/Slovenian_records_in_athletics http://en.wikipedia.org/wiki/Kazakhstani_records_in_athletics http://en.wikipedia.org/wiki/Lithuanian_records_in_athletics http://en.wikipedia.org/wiki/Nigerian_records_in_athletics http://en.wikipedia.org/wiki/New_Zealand_records_in_athletics http://en.wikipedia.org/wiki/Czech_records_in_athletics http://en.wikipedia.org/wiki/South_African_records_in_athletics 62 Análisis de Componente Principales Trabajo Fin de Máster • • http://en.wikipedia.org/wiki/Ukrainian_records_in_athletics http://en.wikipedia.org/wiki/Serbian_records_in_athletics • http://www.juegosenlondres2012.com/atletas/por-paises 2011/12 63