Tareas de la minería de datos: análisis factorial CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR Tareas de la minería de datos: análisis factorial ● Descubrimiento de factores (análisis factorial) ● ● El análisis factorial es un nombre genérico que se da a una clase de métodos multivariantes cuyo propósito principal es encontrar la estructura subyacente en una tabla de datos (factores ocultos). Generalmente hablando, aborda el problema de cómo analizar la estructura de las interrelaciones (correlaciones) entre un gran número de variables con la definición de una serie de dimensiones subyacentes comunes, conocidas como factores. 2 de 54 Tareas de la minería de datos: análisis factorial ● Descubrimiento de factores (análisis factorial) ● ● ● Se puede considerar cada factor como una variable dependiente que es función del conjunto entero de las variables observadas. El objetivo central es el resumen y la reducción de datos. Métodos ● ● ● ● Análisis en componentes principales (ACP). Análisis factorial de correspondencias simples y múltiples (AFC). Análisis canónico (AC). Análisis discriminante (AD). 3 de 54 Análisis en componentes principales (ACP) ● ● ● ● El ACP es el método de minería de datos más utilizado en algunos países, como por ejemplo, Francia. Fue propuesto en 1933 por Hostelling. La primera implementación computacional se dio en los años 60. Fue aplicado para analizar encuestas de opinión pública por Jean Pages. 4 de 54 Análisis en componentes principales ● Objetivo: construir un pequeño número de nuevas variables (componentes) en las cuales se concentre la mayor cantidad posible de información, tal como se muestra en la figura: 5 de 54 ACP: datos de entrada ● Se parte de una tabla de datos: ( x 11 ⋮ X = xi 1 ⋮ xn1 … x1 j ⋱ ⋮ … xi j ⋮ ⋮ … xn j … x1 m ⋮ ⋮ … xi m ⋱ ⋮ … xn m Variable j 6 de 54 ) Individuo i ACP: ejemplo de datos Matemáticas Ciencias Español Historia Educación Física Lucía 7,0 6,5 9,2 8,6 8,0 Pedro 7,5 9,4 7,3 7,0 7,0 Inés 7,6 9,2 8,0 8,0 7,5 Luis 5,0 6,5 6,5 7,0 9,0 Andrés 6,0 6,0 7,8 8,9 7,3 Ana 7,8 9,6 7,7 8,0 6,5 Carlos 6,3 6,4 8,2 9,0 7,2 José 7,9 9,7 7,5 8,0 6,0 Sonia 6,0 6,0 6,5 5,5 8,7 María 6,8 7,2 8,7 9,0 7,0 7 de 54 ACP: nubes de puntos ● Individuos – filas: Luis ● 5,0 6,5 6,5 7,0 Variables – columnas: Español 9,2 7,3 8,0 6,5 7,8 7,7 8,2 7,5 6,5 8,7 8 de 54 ∈ℝ 10 9,0 ∈ℝ 5 ACP: nubes de puntos 9 de 54 ACP: nube de puntos 10 de 54 ACP: componentes principales Datos Componentes C1 C2 C3 C4 C5 Lucia 0,3231 1,7725 1,1988 -0,055 0,0036 7,0 Pedro 0,6654 -1,6387 0,1455 -0,0231 -0,1234 8,0 7,5 Ines 1,0025 -0,5157 0,6289 0,5164 0,1429 6,5 7,0 9,0 Luis -3,1721 -0,2628 -0,382 0,6778 -0,0625 6,0 7,8 8,9 7,3 Andres -0,4889 1,3654 -0,8352 -0,1558 0,1234 7,8 9,6 7,7 8,0 6,5 Ana 1,7086 -1,0217 -0,1271 0,0668 0,0253 Carlos 6,3 6,4 8,2 9,0 7,2 Carlos 0,0676 1,4623 -0,5062 -0,1179 0,0131 José 7,9 9,7 7,5 8,0 6,0 Jose 2,0119 -1,2759 -0,5422 -0,1978 0,0174 Sonia 6,0 6,0 6,5 5,5 8,7 Sonia -3,042 -1,2549 0,4488 -0,64 0,0379 María 6,8 7,2 8,7 9,0 7,0 Maria 0,9239 1,3694 -0,0293 -0,0715 -0,1777 Matemáticas Ciencias Español Historia Educación Física Lucía 7,0 6,5 9,2 8,6 8,0 Pedro 7,5 9,4 7,3 7,0 Inés 7,6 9,2 8,0 Luis 5,0 6,5 Andrés 6,0 Ana 11 de 54 ACP: componentes principales Datos Componentes Matemáticas Ciencias Español Historia Educación Física Lucía 7,0 6,5 9,2 8,6 8,0 Pedro 7,5 9,4 7,3 7,0 7,0 Inés 7,6 9,2 8,0 8,0 7,5 Luis 5,0 6,5 6,5 7,0 9,0 Andrés 6,0 6,0 7,8 8,9 7,3 Ana 7,8 9,6 7,7 8,0 6,5 Carlos 6,3 6,4 8,2 9,0 7,2 José 7,9 9,7 7,5 8,0 6,0 Sonia 6,0 6,0 6,5 5,5 8,7 María 6,8 7,2 8,7 9,0 7,0 C1 C2 Lucia 0,3231 1,7725 Pedro 0,6654 -1,6387 Ines 1,0025 -0,5157 Luis -3,1721 -0,2628 Andres -0,4889 1,3654 Ana 1,7086 -1,0217 Carlos 0,0676 1,4623 Jose 2,0119 -1,2759 Sonia -3,042 -1,2549 Maria 0,9239 1,3694 12 de 54 ACP: plano principal Componentes C1 C2 Lucia 0,3231 1,7725 Pedro 0,6654 -1,6387 Ines 1,0025 -0,5157 Luis -3,1721 -0,2628 Andres -0,4889 1,3654 Ana 1,7086 -1,0217 Carlos 0,0676 1,4623 Jose 2,0119 -1,2759 Sonia -3,042 -1,2549 Maria 0,9239 1,3694 13 de 54 ACP: círculo de correlaciones 14 de 54 ACP: punto de vista óptimo ● Objetivo: encontrar el mejor plano (subespacio) para ver la nube de puntos. 15 de 54 ACP: punto de vista óptimo 16 de 54 ACP: el problema 17 de 54 Análisis en componentes principales 18 de 54 ACP: cálculo de los factores y de los componentes principales 19 de 54 Análisis en componentes principales 20 de 54 Análisis en componentes principales 21 de 54 Análisis en componentes principales 22 de 54 Análisis en componentes principales 23 de 54 ACP: representación de los individuos 24 de 54 ACP: representación de los individuos 25 de 54 ACP: representación de los individuos 26 de 54 ACP: representación de los individuos Datos Componentes C1 C2 C3 C4 C5 Lucia 0,3231 1,7725 1,1988 -0,055 0,0036 7,0 Pedro 0,6654 -1,6387 0,1455 -0,0231 -0,1234 8,0 7,5 Ines 1,0025 -0,5157 0,6289 0,5164 0,1429 6,5 7,0 9,0 Luis -3,1721 -0,2628 -0,382 0,6778 -0,0625 6,0 7,8 8,9 7,3 Andres -0,4889 1,3654 -0,8352 -0,1558 0,1234 7,8 9,6 7,7 8,0 6,5 Ana 1,7086 -1,0217 -0,1271 0,0668 0,0253 Carlos 6,3 6,4 8,2 9,0 7,2 Carlos 0,0676 1,4623 -0,5062 -0,1179 0,0131 José 7,9 9,7 7,5 8,0 6,0 Jose 2,0119 -1,2759 -0,5422 -0,1978 0,0174 Sonia 6,0 6,0 6,5 5,5 8,7 Sonia -3,042 -1,2549 0,4488 -0,64 0,0379 María 6,8 7,2 8,7 9,0 7,0 Maria 0,9239 1,3694 -0,0293 -0,0715 -0,1777 Matemáticas Ciencias Español Historia Educación Física Lucía 7,0 6,5 9,2 8,6 8,0 Pedro 7,5 9,4 7,3 7,0 Inés 7,6 9,2 8,0 Luis 5,0 6,5 Andrés 6,0 Ana 27 de 54 ACP: representación de los individuos Matemáticas Ciencias Español Historia Educación Física Lucía 7,0 6,5 9,2 8,6 8,0 Pedro 7,5 9,4 7,3 7,0 7,0 Inés 7,6 9,2 8,0 8,0 7,5 Luis 5,0 6,5 6,5 7,0 9,0 Andrés 6,0 6,0 7,8 8,9 7,3 Ana 7,8 9,6 7,7 8,0 6,5 Carlos 6,3 6,4 8,2 9,0 7,2 José 7,9 9,7 7,5 8,0 6,0 Sonia 6,0 6,0 6,5 5,5 María 6,8 7,2 8,7 9,0 C1 C2 C3 Lucia 0,3231 1,1988 Pedro 0,6654 0,1455 Ines 1,0025 0,6289 Luis -3,1721 -0,382 Andres -0,4889 -0,8352 Ana 1,7086 -0,1271 8,7 Carlos 0,0676 -0,5062 7,0 Jose 2,0119 -0,5422 Sonia -3,042 0,4488 Maria 0,9239 -0,0293 28 de 54 C4 C5 ACP: representación de los individuos C1 C2 C3 Lucia 0,3231 1,1988 Pedro 0,6654 0,1455 Ines 1,0025 0,6289 Luis -3,1721 -0,382 Andres -0,4889 -0,8352 Ana 1,7086 -0,1271 Carlos 0,0676 -0,5062 Jose 2,0119 -0,5422 Sonia -3,042 0,4488 Maria 0,9239 -0,0293 C4 C5 29 de 54 ACP: espacio de las variables 30 de 54 ACP: espacio de las variables 31 de 54 ACP: espacio de las variables 32 de 54 ACP: representación de las variables 33 de 54 ACP: representación de las variables 34 de 54 ACP: representación de las variables C1 C2 C3 C4 C5 Lucia 0,3231 1,7725 1,1988 -0,055 0,0036 Pedro 0,6654 -1,6387 0,1455 -0,0231 -0,1234 Ines 1,0025 -0,5157 0,6289 0,5164 0,1429 Luis -3,1721 -0,2628 -0,382 0,6778 -0,0625 Andres -0,4889 1,3654 -0,8352 -0,1558 0,1234 Ana 1,7086 -1,0217 -0,1271 0,0668 0,0253 Carlos 0,0676 1,4623 -0,5062 -0,1179 0,0131 Jose 2,0119 -1,2759 -0,5422 -0,1978 0,0174 Sonia -3,042 -1,2549 0,4488 -0,64 0,0379 Maria 0,9239 1,3694 -0,0293 -0,0715 -0,1777 35 de 54 ACP: representación de las variables C1 C2 C3 Lucia 0,3231 1,7725 Pedro 0,6654 -1,6387 Ines 1,0025 -0,5157 Luis -3,1721 -0,2628 Andres -0,4889 1,3654 Ana 1,7086 -1,0217 Carlos 0,0676 1,4623 Jose 2,0119 -1,2759 Sonia -3,042 -1,2549 Maria 0,9239 1,3694 36 de 54 C4 C5 ACP: representación de las variables 37 de 54 ACP: calidad de los gráficos 38 de 54 ACP: calidad de los gráficos 39 de 54 Calidad de los gráficos 40 de 54 Inercia Explicada = 90.43% Inercia Explicada = 64.79% Inercia explicada por los ejes autovalor porcentaje de varianza porcentaje de varianza acumulativa C1 2.893249673 57.8649935 57.86499 C2 1.628650425 32.5730085 90.43800 C3 0.346596049 6.9319210 97.36992 C4 0.122612460 2.4522492 99.82217 C5 0.008891393 0.1778279 100.00000 Análisis en componentes principales 44 de 54 Análisis en componentes principales ● Relaciones de dualidad: ● Equivalencia de los dos análisis: 45 de 54 Análisis en componentes principales 46 de 54 Análisis en componentes principales 47 de 54 ACP: algoritmo 48 de 54 ACP: algoritmo ACP: algoritmo ACP: algoritmo Individuos suplementarios Variables suplementarias ¡Gracias por su atención! ¿Preguntas?