LINEAR DISCRIMINANT ANALYSIS Miguel Cárdenas-Montes La maldición de la dimensionalidad obliga a implementar técnicas que mejoren la clasificación de los datos. Una de las técnicas más populares para preprocesar datos es la denominada Linear Discriminant Analysis, la cual mejora la separabilidad de las clases antes de su clasificación. Objetivos de esta unidad: Conocer el funcionamiento y ámbito de uso de Linear Discriminant Analysis (LDA) para el preprocesado de datos y mejora posterior de su clasificación. Este documento puede contener imprecisiones o errores. Por favor no lo utilice para citarlo como una fuente fiable. 1 LDA La diferencia entre PCA (Análisis de Componentes Principales) y LDA reside en el objetivo final de la técnica. PCA se usa para reducir la dimensionalidad de los datos manteniendo la máxima varianza de los datos. Por otro lado, LDA intenta maximizar la separabilidad de las clases de datos presentes. En los ejemplos mostrados en las figuras 1 y 2 se puede apreciar como la proyección sobre los ejes cartesianos no consigue separar los datos por clases. Sin embargo existen ejes, como se muestra en la figura 3, que sí separan adecuadamente los datos por clases. El proposito de LDA es buscar de entre todos los ejes que separan los datos por clases, aquel que maximiza la separación. En la ecuación 1 se presenta la cantidad que se maximiza cuando se encuentra la dirección apropiada para separar los datos por clases. max ( µ1 − µ2 )2 σ12 + σ22 (1) donde µ es la media y σ es la varianza, ambas dentro del ámbito de cada clase. 2 Figura 1: Datos bidimensionales proyectados sobre el eje X. Los datos proyectados sobre este eje no quedan separados por clases. Figura 2: Datos bidimensionales proyectados sobre el eje Y. Los datos proyectados sobre este eje no quedan separados por clases. Ejemplo Numérico El cálculo de la direccion w que maximiza la ecuación 1 puede realizarse mediante dos métodos. Aquí se presenta el ejemplo más sencillo. Sea el conjunto de puntos (figura 4) de la clase 1: X1 = ( x1 , x2 ) = ((4, 2), (2, 4), (2, 3), (3, 6), (4, 4)), y el conjunto de puntos de la clase 2: X2 = ( x1 , x2 ) = ((9, 10), (6, 8), (9, 5), (8, 7), (10, 8)). Figura 3: Datos separados por clases cuando son proyectados sobre un eje adecuadamente seleccionado. m Figura 4: Ejemplo práctico de aplicación de LDA. 10 10 8 8 6 6 Y m Y 2 4 4 2 2 0 0 2 4 X 6 8 10 (a) Datos originales. 0 0 2 4 X 6 8 10 (b) Datos originales con la línea de proyección que maximiza la separabilidad de las clases. Para cada clase se construye su matriz de covarianza. En el ejemplo es para la primera clase: ! 1,0 −0,5 −0,5 3,3 y para la segunda clase: 2,3 −0,05 −0,05 3,3 ! Posteriormente se contruya la matriz de dispersión dentro de las clases como Sw = S1 + S2: ! 3,3 −0,55 −0,55 6,6 También se construye la media de los puntos de cada clase: µ1 = (3,0, 3,6) y µ2 = (8,4, 7,6), y se hace la diferencia µ1 − µ2 = (−5,1, −4,0). Finalmente se calcula el producto de la inversa de la matriz Sw por µ1 − µ2 . ! −15,62 −1 w = Sw · ( µ1 − µ2 ) = −23,43 La recta que pasa por los puntos (0, 0) y (−15,62, −23,43) también pasa por (15,62, 23,43). Esta recta está representada justo a los datos en la figura 4. Como se puede apreciar, la proyección de los puntos sobre dicha recta los separa por clases.