Reducción de la Dimensionalidad en Análisis de Datos

Anuncio
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Reducción de la
Dimensionalidad en Análisis
de Datos
Javier Trejos – Coordinador
Eduardo Piza, Alex Murillo, Mario
Villalobos, Alejandra Jiménez
CIMPA, Universidad de Costa Rica
Instituto Tecnológico de Costa Rica
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Contenido – I Parte
1. Introduccion al Análisis Multidimensional
Lineal
2. Análisis en Componentes Principales
3. Análisis de Correspondencias
4. Clasificación Automática
5. Análisis Factorial Discriminante
6. Analisis de Tablas Múltiples
7. Esccalamiento Multidimensional
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Contenido – II Parte
1. Clasificación Numérica y Optimización
Combinatoria
2. Clasificación Binaria
3. Clasificación Bimodal
4. Esccalamiento Multidimensional
5. Regresión No Lineal
6. Selección de Variables en Regresión
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Tipos de técnicas multivariadas
• Técnicas Factoriales: tratan de reducir la dimensión del problema
encontrando variables sintéticas en las que se proyectan los
individuos o las variables
–
–
–
–
Análisis en Componentes Principales (ACP)
Análisis de Correspondencias (AFC) y (ACM)
Escalamiento Multidimensional (MDS)
Análisis de Tablas Múltiples (Statis)
• Técnicas de Clasificación: tratan de reducir la dimensión del
problema encontrando un número reducido de grupos homogéneos
– Clasificación Jerárquica (CAJA)
– Método de Nubes Dinámicas o k-means (MND)
• Técnicas Explicativas: para explicar el comportamiento de una
variable dependiente
– Regresión
– Discriminación (AFD)
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Los Principios del Análisis de
Datos según J.P Benzécri
1. La estadística no es probabilidad
2. El modelo debe seguir a los datos y no
lo inverso
3. Procesar informaciones que
conciernan al mayor número posible
de dimensiones
4. El computador es indispensable
5. Abandonar técnicas pre-informáticas
(técnicas, no ciencia)
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Ejemplo: Análisis en Componentes
Principales
• 1900: Pearson trabaja caso de dos variables
• 1933: Hotelling publica el caso general
• 1958: Libro de Anderson, usando v.a.
normales
• 1971: J.P. Pagès dicta curso en la
Universidad de Paris, sin ninguna
hipótesis de normalidad
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Espacios vectoriales asociados a
una tabla de datos
X: n individuos descritos por p variables cuantitativas.
X: matriz n x p
1
j
p
1
i
n
1
i
j
p
i
x K xi K x
Punto de Rp:
 xi1 
 
 M 

j 
x i =  xi 
 M 
 p 
 xi 
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Espacios vectoriales asociados a
una tabla de datos
E = Rp: espacio de individuos
contiene los n puntos-individuos
{e , e ,..., e }: base canónica de E
1
2
p
p
x i = ∑ xij e j
j =1
E*: espacio dual de E (E*= {f: E→R/f lineal })
1 si j = k
e1* , e*2 ,..., e*p  : base dual-canónica: *
e j ek = 




0 si j ≠ k
( )
Reducción de la Dimensionalidad en Análisis de Datos
Espacio de variables
CIMPA-UCR
1
1
j
j
1
p
x
M
i
xij
M
n
xnj
Punto de Rn:
 x1j 
 
 M 
j
x =  xij 
 M 
 j 
 xn 
Reducción de la Dimensionalidad en Análisis de Datos
Espacio de variables
CIMPA-UCR
F=Rn: espacio de variables
contiene los p puntos-variables
{f , f
1
2
}
,..., f n : base canónica de F
j
n
x = ∑ xij f i
i =1
F* : espacio dual de F
 f * , f * ,..., f *  : base dual-canónica
 1 2
n


*
( )
fi fk
1 si i=k
= δ ik = 
0 si i≠k
Reducción de la Dimensionalidad en Análisis de Datos
Métricas
CIMPA-UCR
Sea M matriz simétrica mij = m ji , M = M t
definida
∀x : x t Mx = 0 ⇔ x = 0
positiva
∀x : x t Mx ≥ 0
M: p×p
• Producto interno en E
∀x, y ∈ E : x, y
• Norma:
x
M
=
x, x
M
M
= x t My
= x t Mx
• Distancia:
d M ( x, y ) = x − y
M
Reducción de la Dimensionalidad en Análisis de Datos
Métricas
CIMPA-UCR
• Isomorfismos: M : E → E *
x a M (x )
con M (x )( y ) = x, y
M
• Forma bilineal:
M :E×E → R
( x, y ) a x, y M
• Forma cuadrática:
Ej:
1 0

M = I p = 
0 1
M :E →R
x a x, x
M
M = D1
σ2
 1σ x2
=
 0

0 

1
σ2p 
´x 
Reducción de la Dimensionalidad en Análisis de Datos
Métrica de pesos en F
CIMPA-UCR
n
Pesos:
pi > 0
tq
∑p
=1
i
i =1
Sea
 p1


D = diag ( pi ) = 



p2
0



O

pn  n×n
Métrica → prod. interno, norma, distancia, isomorfismo, f. bil...
• Tendencia central:
resumir x∈F en α∈R
x
α1n
o
1
 
1n =  M 
1
 n
Reducción de la Dimensionalidad en Análisis de Datos
Métrica de pesos en F
CIMPA-UCR
n
α=
t
x,1n
D
1n ,1n
D
x D1n
= t
=
1n D1n
∑px
i i
i =1
n
∑p
x
= =x
1
i
i =1
• Dispersión:
x − x1n
2
D
(
) (
= ∑ p (x − x )
t
= x − x1n D x − x1n
n
2
i
i
)
= var(x ) = σ x2
i =1
• Norma: (x = 0) x
n
t
D
= x Dx =
2
p
x
∑ i i =σx
i =1
Reducción de la Dimensionalidad en Análisis de Datos
Métrica de pesos en F
CIMPA-UCR
(
• Angulos: x = y = 0
)
n
cos D (x, y ) =
=
cov( x, y )
σ xσ y
x, y
x
D
y
∑pxy
i i
D
=
D
i
σ xσ y
x
= r ( x, y )
y
θ
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Geometría de las variables
• Varianza: Norma
(datos centrados)
1 n 2
1 = x
t
var(x ) = ∑ xi = x diag   x
n i =1
n
con
1 0 K 0


1  0 1 K 0
D= 
O 
n M


0
1 

2
D
 x1 
 
x= M 
x 
 n
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Geometría de las variables
• Correlación: Coseno
1
xi yi
t
∑
x, y D
x
Dy
cos( x, y )
n
=
=
=
r ( x, y ) =
2
2
x y
x y
var( x ) var( y )
x y
= cos α
x
x
y
y
y
r ( x, y ) ≈ 1
r ( x, y ) ≈ 0
x
r (x, y ) ≈ −1
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Nubes de puntos
• N = (X,M,D) con:
– X: tabla de datos
– M: metrica en el espacio de individuos E
– D: metrica de pesos en el espacio de variables F
Reducción de la Dimensionalidad en Análisis de Datos
Inercia
CIMPA-UCR
n
I a ( N ) = ∑ pi x i − a M = I g (N ) + g − a M
2
2
i =1
Mínima para a = g
g
Centrar: g → 0
o
n
I ( N ) = ∑ pi x i
i =1
2
M
n
(
g = ∑ pi x i = x ,..., x
i =1
1
p
)
Reducción de la Dimensionalidad en Análisis de Datos
Inercia
CIMPA-UCR
 n
I ( N ) = traza ∑ pi x i
 i =1

 =
M

2
n
(
t
p
traza
x
∑ i
i Mxi
)
i =1
n


t
t
= ∑ pi traza xi xi M = traza ∑ pi xi xi M 
 i =1

i =1
= traza (VM )
n
(
)
p
I (N ) = traza(VM ) = ∑ λ j con λj valor propio de VM
j =1
Obs: caso clásico (si M=Id)
p
( )
I (N ) = ∑ var x j
j =1
dispersión
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Aplicación lineal asociada a X
 p k  p k *
e x i = e  ∑ xi e k  = ∑ xi e j e k
k =1
k =1


p
*
j
()
( )
*
j
= ∑ xik δ jk =xij
k =1
r
e ( x1 ) → x1j 
 rj
M
M → x
* r
e j ( xn ) → xnj 

*
j
Hay una aplicación que asocia e*j ∈ E * con xr j ∈ F
X : E* → F
(tiene matriz X)
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Aplicación lineal asociada a Xt


f (x ) = f  ∑ x f  = ∑ x δ = x
*
*
j
i
i
n
 h =1
n
j
h
h

j
h
j
ih
i
h =1
* r
f i x1 → xi1 
 r
M
M  → xi
* rp
f i ( x ) → xip 

( )
r
x
Hay una aplicación que asocia f i ∈ F con i ∈ E
*
X t : F * → E (tiene matriz Xt)
*
Reducción de la Dimensionalidad en Análisis de Datos
CIMPA-UCR
Esquema de dualidad
E = Rp: espacio de individuos
Xt
E
F*
F = Rn: espacio de variables
M: métrica en E
M
V
W
D
D: métrica de pesos en F
X: tabla de datos centrados
V = X t DX
Nube de puntos:
N = (X , M , D)
E*
W = XMX t
X
F
Descargar