Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Reducción de la Dimensionalidad en Análisis de Datos Javier Trejos – Coordinador Eduardo Piza, Alex Murillo, Mario Villalobos, Alejandra Jiménez CIMPA, Universidad de Costa Rica Instituto Tecnológico de Costa Rica Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Contenido – I Parte 1. Introduccion al Análisis Multidimensional Lineal 2. Análisis en Componentes Principales 3. Análisis de Correspondencias 4. Clasificación Automática 5. Análisis Factorial Discriminante 6. Analisis de Tablas Múltiples 7. Esccalamiento Multidimensional Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Contenido – II Parte 1. Clasificación Numérica y Optimización Combinatoria 2. Clasificación Binaria 3. Clasificación Bimodal 4. Esccalamiento Multidimensional 5. Regresión No Lineal 6. Selección de Variables en Regresión Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Tipos de técnicas multivariadas • Técnicas Factoriales: tratan de reducir la dimensión del problema encontrando variables sintéticas en las que se proyectan los individuos o las variables – – – – Análisis en Componentes Principales (ACP) Análisis de Correspondencias (AFC) y (ACM) Escalamiento Multidimensional (MDS) Análisis de Tablas Múltiples (Statis) • Técnicas de Clasificación: tratan de reducir la dimensión del problema encontrando un número reducido de grupos homogéneos – Clasificación Jerárquica (CAJA) – Método de Nubes Dinámicas o k-means (MND) • Técnicas Explicativas: para explicar el comportamiento de una variable dependiente – Regresión – Discriminación (AFD) Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Los Principios del Análisis de Datos según J.P Benzécri 1. La estadística no es probabilidad 2. El modelo debe seguir a los datos y no lo inverso 3. Procesar informaciones que conciernan al mayor número posible de dimensiones 4. El computador es indispensable 5. Abandonar técnicas pre-informáticas (técnicas, no ciencia) Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Ejemplo: Análisis en Componentes Principales • 1900: Pearson trabaja caso de dos variables • 1933: Hotelling publica el caso general • 1958: Libro de Anderson, usando v.a. normales • 1971: J.P. Pagès dicta curso en la Universidad de Paris, sin ninguna hipótesis de normalidad Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Espacios vectoriales asociados a una tabla de datos X: n individuos descritos por p variables cuantitativas. X: matriz n x p 1 j p 1 i n 1 i j p i x K xi K x Punto de Rp: xi1 M j x i = xi M p xi Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Espacios vectoriales asociados a una tabla de datos E = Rp: espacio de individuos contiene los n puntos-individuos {e , e ,..., e }: base canónica de E 1 2 p p x i = ∑ xij e j j =1 E*: espacio dual de E (E*= {f: E→R/f lineal }) 1 si j = k e1* , e*2 ,..., e*p : base dual-canónica: * e j ek = 0 si j ≠ k ( ) Reducción de la Dimensionalidad en Análisis de Datos Espacio de variables CIMPA-UCR 1 1 j j 1 p x M i xij M n xnj Punto de Rn: x1j M j x = xij M j xn Reducción de la Dimensionalidad en Análisis de Datos Espacio de variables CIMPA-UCR F=Rn: espacio de variables contiene los p puntos-variables {f , f 1 2 } ,..., f n : base canónica de F j n x = ∑ xij f i i =1 F* : espacio dual de F f * , f * ,..., f * : base dual-canónica 1 2 n * ( ) fi fk 1 si i=k = δ ik = 0 si i≠k Reducción de la Dimensionalidad en Análisis de Datos Métricas CIMPA-UCR Sea M matriz simétrica mij = m ji , M = M t definida ∀x : x t Mx = 0 ⇔ x = 0 positiva ∀x : x t Mx ≥ 0 M: p×p • Producto interno en E ∀x, y ∈ E : x, y • Norma: x M = x, x M M = x t My = x t Mx • Distancia: d M ( x, y ) = x − y M Reducción de la Dimensionalidad en Análisis de Datos Métricas CIMPA-UCR • Isomorfismos: M : E → E * x a M (x ) con M (x )( y ) = x, y M • Forma bilineal: M :E×E → R ( x, y ) a x, y M • Forma cuadrática: Ej: 1 0 M = I p = 0 1 M :E →R x a x, x M M = D1 σ2 1σ x2 = 0 0 1 σ2p ´x Reducción de la Dimensionalidad en Análisis de Datos Métrica de pesos en F CIMPA-UCR n Pesos: pi > 0 tq ∑p =1 i i =1 Sea p1 D = diag ( pi ) = p2 0 O pn n×n Métrica → prod. interno, norma, distancia, isomorfismo, f. bil... • Tendencia central: resumir x∈F en α∈R x α1n o 1 1n = M 1 n Reducción de la Dimensionalidad en Análisis de Datos Métrica de pesos en F CIMPA-UCR n α= t x,1n D 1n ,1n D x D1n = t = 1n D1n ∑px i i i =1 n ∑p x = =x 1 i i =1 • Dispersión: x − x1n 2 D ( ) ( = ∑ p (x − x ) t = x − x1n D x − x1n n 2 i i ) = var(x ) = σ x2 i =1 • Norma: (x = 0) x n t D = x Dx = 2 p x ∑ i i =σx i =1 Reducción de la Dimensionalidad en Análisis de Datos Métrica de pesos en F CIMPA-UCR ( • Angulos: x = y = 0 ) n cos D (x, y ) = = cov( x, y ) σ xσ y x, y x D y ∑pxy i i D = D i σ xσ y x = r ( x, y ) y θ Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Geometría de las variables • Varianza: Norma (datos centrados) 1 n 2 1 = x t var(x ) = ∑ xi = x diag x n i =1 n con 1 0 K 0 1 0 1 K 0 D= O n M 0 1 2 D x1 x= M x n Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Geometría de las variables • Correlación: Coseno 1 xi yi t ∑ x, y D x Dy cos( x, y ) n = = = r ( x, y ) = 2 2 x y x y var( x ) var( y ) x y = cos α x x y y y r ( x, y ) ≈ 1 r ( x, y ) ≈ 0 x r (x, y ) ≈ −1 Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Nubes de puntos • N = (X,M,D) con: – X: tabla de datos – M: metrica en el espacio de individuos E – D: metrica de pesos en el espacio de variables F Reducción de la Dimensionalidad en Análisis de Datos Inercia CIMPA-UCR n I a ( N ) = ∑ pi x i − a M = I g (N ) + g − a M 2 2 i =1 Mínima para a = g g Centrar: g → 0 o n I ( N ) = ∑ pi x i i =1 2 M n ( g = ∑ pi x i = x ,..., x i =1 1 p ) Reducción de la Dimensionalidad en Análisis de Datos Inercia CIMPA-UCR n I ( N ) = traza ∑ pi x i i =1 = M 2 n ( t p traza x ∑ i i Mxi ) i =1 n t t = ∑ pi traza xi xi M = traza ∑ pi xi xi M i =1 i =1 = traza (VM ) n ( ) p I (N ) = traza(VM ) = ∑ λ j con λj valor propio de VM j =1 Obs: caso clásico (si M=Id) p ( ) I (N ) = ∑ var x j j =1 dispersión Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Aplicación lineal asociada a X p k p k * e x i = e ∑ xi e k = ∑ xi e j e k k =1 k =1 p * j () ( ) * j = ∑ xik δ jk =xij k =1 r e ( x1 ) → x1j rj M M → x * r e j ( xn ) → xnj * j Hay una aplicación que asocia e*j ∈ E * con xr j ∈ F X : E* → F (tiene matriz X) Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Aplicación lineal asociada a Xt f (x ) = f ∑ x f = ∑ x δ = x * * j i i n h =1 n j h h j h j ih i h =1 * r f i x1 → xi1 r M M → xi * rp f i ( x ) → xip ( ) r x Hay una aplicación que asocia f i ∈ F con i ∈ E * X t : F * → E (tiene matriz Xt) * Reducción de la Dimensionalidad en Análisis de Datos CIMPA-UCR Esquema de dualidad E = Rp: espacio de individuos Xt E F* F = Rn: espacio de variables M: métrica en E M V W D D: métrica de pesos en F X: tabla de datos centrados V = X t DX Nube de puntos: N = (X , M , D) E* W = XMX t X F