Tareas de la minería de datos: análisis factorial

Anuncio
Tareas de la minería de datos:
análisis factorial
CI-2352 Intr. a la minería de datos
Prof. Braulio José Solano Rojas
ECCI, UCR
Tareas de la minería de datos:
análisis factorial
●
Descubrimiento de factores (análisis factorial)
●
●
El análisis factorial es un nombre genérico que se
da a una clase de métodos multivariantes cuyo
propósito principal es encontrar la estructura
subyacente en una tabla de datos (factores
ocultos).
Generalmente hablando, aborda el problema de
cómo analizar la estructura de las interrelaciones
(correlaciones) entre un gran número de variables
con la definición de una serie de dimensiones
subyacentes comunes, conocidas como factores.
2 de 54
Tareas de la minería de datos:
análisis factorial
●
Descubrimiento de factores (análisis factorial)
●
●
●
Se puede considerar cada factor como una variable
dependiente que es función del conjunto entero de
las variables observadas.
El objetivo central es el resumen y la reducción de
datos.
Métodos
●
●
●
●
Análisis en componentes principales (ACP).
Análisis factorial de correspondencias simples y
múltiples (AFC).
Análisis canónico (AC).
Análisis discriminante (AD).
3 de 54
Análisis en componentes
principales (ACP)
●
●
●
●
El ACP es el método de minería de datos más
utilizado en algunos países, como por ejemplo,
Francia.
Fue propuesto en 1933 por Hostelling.
La primera implementación computacional se
dio en los años 60.
Fue aplicado para analizar encuestas de
opinión pública por Jean Pages.
4 de 54
Análisis en componentes principales
●
Objetivo: construir un pequeño número de
nuevas variables (componentes) en las cuales
se concentre la mayor cantidad posible de
información, tal como se muestra en la figura:
5 de 54
ACP: datos de entrada
●
Se parte de una tabla de datos:
(
x 11
⋮
X = xi 1
⋮
xn1
… x1 j
⋱ ⋮
… xi j
⋮ ⋮
… xn j
… x1 m
⋮ ⋮
… xi m
⋱ ⋮
… xn m
Variable j
6 de 54
)
Individuo i
ACP: ejemplo de datos
Matemáticas
Ciencias
Español
Historia
Educación
Física
Lucía
7,0
6,5
9,2
8,6
8,0
Pedro
7,5
9,4
7,3
7,0
7,0
Inés
7,6
9,2
8,0
8,0
7,5
Luis
5,0
6,5
6,5
7,0
9,0
Andrés
6,0
6,0
7,8
8,9
7,3
Ana
7,8
9,6
7,7
8,0
6,5
Carlos
6,3
6,4
8,2
9,0
7,2
José
7,9
9,7
7,5
8,0
6,0
Sonia
6,0
6,0
6,5
5,5
8,7
María
6,8
7,2
8,7
9,0
7,0
7 de 54
ACP: nubes de puntos
●
Individuos – filas:
Luis
●
5,0
6,5
6,5
7,0
Variables – columnas:
Español
9,2
7,3
8,0
6,5
7,8
7,7
8,2
7,5
6,5
8,7
8 de 54
∈ℝ
10
9,0
∈ℝ
5
ACP: nubes de puntos
9 de 54
ACP: nube de puntos
10 de 54
ACP: componentes principales
Datos
Componentes
C1
C2
C3
C4
C5
Lucia
0,3231
1,7725
1,1988
-0,055
0,0036
7,0
Pedro
0,6654
-1,6387
0,1455
-0,0231
-0,1234
8,0
7,5
Ines
1,0025
-0,5157
0,6289
0,5164
0,1429
6,5
7,0
9,0
Luis
-3,1721
-0,2628
-0,382
0,6778
-0,0625
6,0
7,8
8,9
7,3
Andres
-0,4889
1,3654
-0,8352
-0,1558
0,1234
7,8
9,6
7,7
8,0
6,5
Ana
1,7086
-1,0217
-0,1271
0,0668
0,0253
Carlos
6,3
6,4
8,2
9,0
7,2
Carlos
0,0676
1,4623
-0,5062
-0,1179
0,0131
José
7,9
9,7
7,5
8,0
6,0
Jose
2,0119
-1,2759
-0,5422
-0,1978
0,0174
Sonia
6,0
6,0
6,5
5,5
8,7
Sonia
-3,042
-1,2549
0,4488
-0,64
0,0379
María
6,8
7,2
8,7
9,0
7,0
Maria
0,9239
1,3694
-0,0293
-0,0715
-0,1777
Matemáticas
Ciencias
Español
Historia
Educación
Física
Lucía
7,0
6,5
9,2
8,6
8,0
Pedro
7,5
9,4
7,3
7,0
Inés
7,6
9,2
8,0
Luis
5,0
6,5
Andrés
6,0
Ana
11 de 54
ACP: componentes principales
Datos
Componentes
Matemáticas
Ciencias
Español
Historia
Educación
Física
Lucía
7,0
6,5
9,2
8,6
8,0
Pedro
7,5
9,4
7,3
7,0
7,0
Inés
7,6
9,2
8,0
8,0
7,5
Luis
5,0
6,5
6,5
7,0
9,0
Andrés
6,0
6,0
7,8
8,9
7,3
Ana
7,8
9,6
7,7
8,0
6,5
Carlos
6,3
6,4
8,2
9,0
7,2
José
7,9
9,7
7,5
8,0
6,0
Sonia
6,0
6,0
6,5
5,5
8,7
María
6,8
7,2
8,7
9,0
7,0
C1
C2
Lucia
0,3231
1,7725
Pedro
0,6654
-1,6387
Ines
1,0025
-0,5157
Luis
-3,1721
-0,2628
Andres
-0,4889
1,3654
Ana
1,7086
-1,0217
Carlos
0,0676
1,4623
Jose
2,0119
-1,2759
Sonia
-3,042
-1,2549
Maria
0,9239
1,3694
12 de 54
ACP: plano principal
Componentes
C1
C2
Lucia
0,3231
1,7725
Pedro
0,6654
-1,6387
Ines
1,0025
-0,5157
Luis
-3,1721
-0,2628
Andres
-0,4889
1,3654
Ana
1,7086
-1,0217
Carlos
0,0676
1,4623
Jose
2,0119
-1,2759
Sonia
-3,042
-1,2549
Maria
0,9239
1,3694
13 de 54
ACP: círculo de correlaciones
14 de 54
ACP: punto de vista óptimo
●
Objetivo: encontrar el mejor plano
(subespacio) para ver la nube de puntos.
15 de 54
ACP: punto de vista óptimo
16 de 54
ACP: el problema
17 de 54
Análisis en componentes principales
18 de 54
ACP: cálculo de los factores y de
los componentes principales
19 de 54
Análisis en componentes principales
20 de 54
Análisis en componentes principales
21 de 54
Análisis en componentes principales
22 de 54
Análisis en componentes principales
23 de 54
ACP: representación de los
individuos
24 de 54
ACP: representación de los
individuos
25 de 54
ACP: representación de los
individuos
26 de 54
ACP: representación de los
individuos
Datos
Componentes
C1
C2
C3
C4
C5
Lucia
0,3231
1,7725
1,1988
-0,055
0,0036
7,0
Pedro
0,6654
-1,6387
0,1455
-0,0231
-0,1234
8,0
7,5
Ines
1,0025
-0,5157
0,6289
0,5164
0,1429
6,5
7,0
9,0
Luis
-3,1721
-0,2628
-0,382
0,6778
-0,0625
6,0
7,8
8,9
7,3
Andres
-0,4889
1,3654
-0,8352
-0,1558
0,1234
7,8
9,6
7,7
8,0
6,5
Ana
1,7086
-1,0217
-0,1271
0,0668
0,0253
Carlos
6,3
6,4
8,2
9,0
7,2
Carlos
0,0676
1,4623
-0,5062
-0,1179
0,0131
José
7,9
9,7
7,5
8,0
6,0
Jose
2,0119
-1,2759
-0,5422
-0,1978
0,0174
Sonia
6,0
6,0
6,5
5,5
8,7
Sonia
-3,042
-1,2549
0,4488
-0,64
0,0379
María
6,8
7,2
8,7
9,0
7,0
Maria
0,9239
1,3694
-0,0293
-0,0715
-0,1777
Matemáticas
Ciencias
Español
Historia
Educación
Física
Lucía
7,0
6,5
9,2
8,6
8,0
Pedro
7,5
9,4
7,3
7,0
Inés
7,6
9,2
8,0
Luis
5,0
6,5
Andrés
6,0
Ana
27 de 54
ACP: representación de los
individuos
Matemáticas
Ciencias
Español
Historia
Educación
Física
Lucía
7,0
6,5
9,2
8,6
8,0
Pedro
7,5
9,4
7,3
7,0
7,0
Inés
7,6
9,2
8,0
8,0
7,5
Luis
5,0
6,5
6,5
7,0
9,0
Andrés
6,0
6,0
7,8
8,9
7,3
Ana
7,8
9,6
7,7
8,0
6,5
Carlos
6,3
6,4
8,2
9,0
7,2
José
7,9
9,7
7,5
8,0
6,0
Sonia
6,0
6,0
6,5
5,5
María
6,8
7,2
8,7
9,0
C1
C2
C3
Lucia
0,3231
1,1988
Pedro
0,6654
0,1455
Ines
1,0025
0,6289
Luis
-3,1721
-0,382
Andres
-0,4889
-0,8352
Ana
1,7086
-0,1271
8,7
Carlos
0,0676
-0,5062
7,0
Jose
2,0119
-0,5422
Sonia
-3,042
0,4488
Maria
0,9239
-0,0293
28 de 54
C4
C5
ACP: representación de los
individuos
C1
C2
C3
Lucia
0,3231
1,1988
Pedro
0,6654
0,1455
Ines
1,0025
0,6289
Luis
-3,1721
-0,382
Andres
-0,4889
-0,8352
Ana
1,7086
-0,1271
Carlos
0,0676
-0,5062
Jose
2,0119
-0,5422
Sonia
-3,042
0,4488
Maria
0,9239
-0,0293
C4
C5
29 de 54
ACP: espacio de las variables
30 de 54
ACP: espacio de las variables
31 de 54
ACP: espacio de las variables
32 de 54
ACP: representación de las
variables
33 de 54
ACP: representación de las
variables
34 de 54
ACP: representación de las
variables
C1
C2
C3
C4
C5
Lucia
0,3231
1,7725
1,1988
-0,055
0,0036
Pedro
0,6654
-1,6387
0,1455
-0,0231
-0,1234
Ines
1,0025
-0,5157
0,6289
0,5164
0,1429
Luis
-3,1721
-0,2628
-0,382
0,6778
-0,0625
Andres
-0,4889
1,3654
-0,8352
-0,1558
0,1234
Ana
1,7086
-1,0217
-0,1271
0,0668
0,0253
Carlos
0,0676
1,4623
-0,5062
-0,1179
0,0131
Jose
2,0119
-1,2759
-0,5422
-0,1978
0,0174
Sonia
-3,042
-1,2549
0,4488
-0,64
0,0379
Maria
0,9239
1,3694
-0,0293
-0,0715
-0,1777
35 de 54
ACP: representación de las
variables
C1
C2
C3
Lucia
0,3231
1,7725
Pedro
0,6654
-1,6387
Ines
1,0025
-0,5157
Luis
-3,1721
-0,2628
Andres
-0,4889
1,3654
Ana
1,7086
-1,0217
Carlos
0,0676
1,4623
Jose
2,0119
-1,2759
Sonia
-3,042
-1,2549
Maria
0,9239
1,3694
36 de 54
C4
C5
ACP: representación de las
variables
37 de 54
ACP: calidad de los gráficos
38 de 54
ACP: calidad de los gráficos
39 de 54
Calidad de los gráficos
40 de 54
Inercia Explicada = 90.43%
Inercia Explicada = 64.79%
Inercia explicada por los ejes
autovalor
porcentaje de varianza
porcentaje de
varianza
acumulativa
C1 2.893249673
57.8649935
57.86499
C2 1.628650425
32.5730085
90.43800
C3 0.346596049
6.9319210
97.36992
C4 0.122612460
2.4522492
99.82217
C5 0.008891393
0.1778279
100.00000
Análisis en componentes principales
44 de 54
Análisis en componentes principales
●
Relaciones de dualidad:
●
Equivalencia de los dos análisis:
45 de 54
Análisis en componentes principales
46 de 54
Análisis en componentes principales
47 de 54
ACP: algoritmo
48 de 54
ACP: algoritmo
ACP: algoritmo
ACP: algoritmo
Individuos suplementarios
Variables suplementarias
¡Gracias por su atención!
¿Preguntas?
Descargar