5. ESTRATEGIA DE ANÁLISIS DE TABLAS T(n, p) DE GRANDES DIMENSIONES Para comprender la estructura de la información de una tabla T(n, p) de grandes dimensiones es necesario combinar el Análisis de Componentes Principales con las técnicas de clasificación. 5.1. ¿Por qué se debe combinar el ACP con las técnicas de clasificación...? El ACP de una tabla T(n, p) de grandes dimensiones es necesario... pero insuficiente. a) El análisis factorial es necesario F Permite determinar el número de dimensiones pertinentes (factores continuos) que deben ser consideradas para comprender la estructura de la información de la tabla. F Permite observar la organización espacial de las clases de objetos observados. La capacidad descriptiva de los ejes factoriales (representación de comparaciones en un espacio continuo) es irreemplazable. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°62 b) El análisis factorial es insuficiente... Por las siguientes razones: 1. Dificultades de interpretación ; reducción excesiva de dimensiones ; deformaciones ✜ Dificultad de interpretar las proximidades entre los n objetos de la tabla T(n, p) en planos de orden superior al segundo plano principal. La visualización de proximidades entre los n objetos se limita a los 2 o 3 primeros ejes factoriales, pero el número de dimensiones «interesantes» puede ser muy superior. ✜ Reducción excesiva del espacio, lo cual puede producir deformaciones y superposiciones ficticias entre los objetos. ☞ La clasificación hecha sobre todas las dimensiones (o sobre el subespacio «interesante») produce una partición que toma en cuenta la dimensión real de la nube de puntos, corrigiendo las deformaciones producidas por las operaciones de proyección. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°63 2. Carencia de robustez ✜ Un objeto «extremo» (¿valor «aberrante»?) tiene una marcada influencia sobre el primer factor y - en consecuencia- sobre todas las dimensiones siguientes, ligadas a la primera por la exigencia de ortogonalidad. ☞ La mayoría de los métodos de clasificación son robustos. Los primeros nudos de un dendrograma (formados por objetos que presentan las distancias menores) son independientes de la presencia de objetos aislados. 3. Representaciones gráficas intrincadas ✜ La visualización de centenares de puntos puede hacer incomprensibles los gráficos factoriales, impidiendo el reagrupamiento de los individuos en clases homogéneas. ☞ Los métodos de clasificación pueden ayudar a la interpretación de los planos factoriales, identificando «zonas» correspondientes a clases bien descriptas. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°64 5.2. ¿Cómo combinar el ACP con las técnicas de clasificación...? El análisis de la información de una tabla T(n, p) de grandes dimensiones, se realiza en cuatro etapas. 10 Etapa : Análisis factorial de la tabla T(n, p) Esta primera etapa es indispensable... ✔ ✔ En razón de la capacidad descriptiva del método. Para observar la organización espacial de las clases de individuos. ✔ Para operar un «filtro» sobre las dimensiones importantes de la estructura de la información de la tabla T(n, p). Objetivos de esta etapa : ✧ Verificar la clasificabilidad de los n individuos observados. ✧ Determinar el número k de dimensiones (k < p) del subespacio factorial que permite representar lo esencial de la estructura de la información de la tabla T(n, p), filtrando las fluctuaciones aleatorias o las variaciones no-sistemáticas contenidas en la misma («alisado» de la estructura de la información). Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°65 20 Etapa : Clasificación Jerárquica Ascendente a partir de la «tabla de factores» Fα(n, k) Esta etapa es necesaria... ✔ Porque los resultados producidos por un procedimiento de agregación en torno a «centros móviles» varían según el número de clases elegido. ✔ Las distancias iniciales entre los n individuos se calculan en el espacio de los k primeros ejes factoriales que fueron seleccionados. Se emplea para ello la distancia euclidiana clásica. ✔ La C.J.A. se realiza con el método de Ward. Objetivo de esta etapa : ✧ Determinar el número s de clases correspondiente a una «buena» partición de los n individuos observados. 30 Etapa : Partición de los n individuos a partir de la «tabla de factores» Fα(n, k) Objetivo de esta etapa : ✧ Construcción de la partición Ps de los n individuos en s clases. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°66 40 Etapa : Descripción automática de las clases ✔ Para el conjunto de las p variables de T(n, p) [activas y/o ilustrativas], se calculan los indicadores de desvíos entre los valores de los grupos de individuos que componen cada clase y los valores del conjunto de individuos observados (ver sección §6). ✔ Los valores-test permiten ordenar esos desvíos por orden de interés. Objetivo de esta etapa : ✧ Caracterizar las clases de la partición Ps con las variables de la tabla T(n, p). 50 Etapa : Ubicación de las clases en en los planos factoriales ✔ Proyección de los Centros de Gravedad de las clases de la partición Ps en el primer plano factorial de las variables activas. Objetivo : poner en evidencia ciertas «trayectorias» ignoradas por el proceso discontinuo de construcción de la partición Ps. ✔ Representación de la nube de puntos-individuos en los primeros planos principales, utilizando la etiqueta del número de clase a la cual pertenece cada individuo. Objetivo : representar la densidad y la dispersión de las clases de partición Ps. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°67