6. ESTRATEGIA DE ANÁLISIS DE TABLAS LÓGICAS TL(n, K) DE GRANDES DIMENSIONES Sabemos que la Tabla Lógica TL(n, K) es una transformación, con propiedades numéricas específicas, de la Tabla de Códigos Condensados correspondiente TCC(n, p). Siendo p el número de variables categoriales que presentan, en total, K atributos distintos. Las dimensiones de una TL (n, K) dependen entonces : - del número p de variables activas conservadas en un análisis, puesto que el número de modalidades por variable es relativamente constante para las p variables y - en general - inferior a una decena. - del número n de unidades de observación seleccionadas. Para el análisis de los datos de una encuesta social se construyen unidades temáticas compuestas de algunas decenas de variables (por ejemplo : escalas de opinión), lo cual da origen a tablas de tipo TCC(n, p) con algunas decenas de columnas y a las tablas de tipo TL (n, K) correspondientes, con algunas centenas de columnas. Por otra parte, en ese tipo de estudios, el número n de unidades de observación es -muy amenudo- superior a 1000. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°136 De modo que, es muy común que el cientista social se encuentre abocado al análisis de tablas de tipo TL(n, K) de grandes dimensiones. Por otra parte, la construcción de una tipología de las n unidades de observación, en base a las p variables categoriales observadas, es uno de los objetivos fundamentales del análisis de ese tipo de tablas estadísticas(*). Para comprender la estructura de la información de una tabla TL(n, K) de grandes dimensiones es imprescindible combinar el Análisis de Correspondencias Múltiples con las técnicas de clasificación. (*) Cf. E. C RIVISQUI , Presentación del Método de Análisis Factorial de Correspondencias Simples y Múltiples, sección §M. Objetivos del Análisis Factorial de Correspondencias Múltiples. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°137 6.1. ¿Por qué se debe combinar el AFCM con las técnicas de clasificación...? El AFCM de una tabla TL(n, K) de grandes dimensiones es necesario... pero es siempre insuficiente. a) El análisis factorial es necesario F Permite determinar el número de dimensiones pertinentes que deben ser consideradas para comprender la estructura de la información de la tabla observada. F F Permite observar la organización espacial de las clases facilitando, eventualmente, la observación de tendencias en la definición de las mismas. La capacidad descriptiva de los ejes factoriales es irremplazable. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°138 b) El análisis factorial es insuficiente... Por las tres razones siguientes : 1. Dificultades de interpretación ; reducción excesiva de dimensiones ; deformaciones ✜ Dificultad de interpretar las proximidades entre los «individuos» de la tabla en planos de orden superior al segundo plano principal. ✜ La visualización de proximidades entre los n objetos se limita a los 2 o 3 primeros ejes factoriales, pero el número de dimensiones «interesantes» puede ser muy superior. ✜ Reducción excesiva del espacio, lo cual puede producir deformaciones y superposiciones ficticias entre los objetos. F La clasificación hecha sobre todas las dimensiones «interesantes», produce una partición que toma en cuenta la dimensión real de la nube de puntos-perfiles, corrigiendo las deformaciones producidas por las operaciones de proyección. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°139 2. Carencia de robustez ✜ F Un «individuo extremo» tiene una marcada influencia sobre el primer factor y -en consecuencia- sobre todas las dimensiones siguientes, ligadas a la primera por la exigencia de ortogonalidad. La mayoría de los métodos de clasificación son robustos. Los primeros nodos de un dendrograma (formados por los «individuos» más similares) son independientes de la presencia de «individuos» aislados. 3. Representaciones gráficas intrincadas ✜ F La visualización de varias centenas de puntos-individuos puede hacer incomprensibles los gráficos factoriales, impidiendo el reagrupamiento de los individuos en clases homogéneas. Los métodos de clasificación pueden ayudar a la interpretación de los planos factoriales, identificando «zonas» correspondientes a clases de perfiles bien descriptas. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°140 6.2. ¿Cómo combinar el AFCM con las técnicas de clasificación...? El análisis de la información de una tabla TL(n, K) de grandes dimensiones se realiza en cinco etapas. 10 Etapa : Análisis factorial de la tabla TL(n, K) Esta etapa es indispensable... ✔ ✔ ✔ En razón de la capacidad descriptiva del método. Para observar la disposición espacial de las clases de perfiles. Para operar un «filtro» sobre las dimensiones importantes de la estructura de la información de la tabla TL(n, K). Objetivos de la etapa : ✧ Verificar la clasificabilidad de los n individuos de la tabla. ✧ Determinar el número q de dimensiones ( q < K ) del subespacio factorial que permite representar lo esencial de la estructura de la información de la tabla TL(n, K), filtrando las fluctuaciones aleatorias o las variaciones no-sistematicas de la misma («alisado»). Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°141 20 Etapa : Clasificación Jerárquica Ascendente a partir de la «tabla de factores» Fα(n, q) Esta etapa es necesaria... ✔ Porque los resultados producidos por un procedimiento de agregación en torno a «centros móviles» varían según el número de clases elegido. ✔ Las distancias iniciales entre los individuos se calculan en el espacio de los q primeros ejes factoriales que fueron seleccionados. Se emplea para ello la distancia euclidiana clásica calculada con las coordenadas factoriales, lo cual es equivalente a la distancia del Chi2 en el espacio original. F Como la tabla de coordenadas factoriales Fα(n, q) es una tabla de variables cuantitativas, se emplea el método de Ward para realizar la Clasificación Jerárquica Ascendente de los n individuos. Objetivo de esta etapa : ✧ Determinar, a partir del dendrograma de la C.J.A., el número s de clases correspondiente a una «buena» partición de los n individuos de la tabla TL (n, K). Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°142 30 Etapa : Partición de las J líneas de TL(n, K) a partir de la «tabla de factores» Fα(n, q) Objetivo de la etapa: ✧ Mediante un procedimiento de agregación en torno a «centros móviles» se construye la partición Ps de los n individuos de TL(n, K) en s clases. 40 Etapa : Descripción automática de las clases ✔ Para el conjunto de las frecuencias activas y/o ilustrativas de la tabla TL(n, K) se calculan los indicadores de desvíos entre los valores de los subgrupos de individuos que componen cada clase y los valores del conjunto de los individuos. ✔ Los valores-test permiten ordenar esos desvíos por orden de interés. Objetivo de esta etapa : ✧ Caracterizar las clases de la partición Ps mediante los K atributos de las variables en columna de la tabla TL(n, K) y los atributos ilustrativos asociados al análisis. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°143 50 Etapa :Ubicación de las clases en los planos factoriales ✔ Proyección de los Centros de Gravedad de las clases de la partición Ps en el primer plano principal de la nube de puntos individuos activos, utilizando la etiqueta del número de clase a la cual pertenece cada individuo. ✔ Proyección de los Centros de Gravedad de las clases de la partición Ps en el primer plano principal de la nube de puntos-modalidades activas. Objetivo de esta etapa : ✧ Poner en evidencia ciertas «trayectorias» ignoradas por el proceso discontinuo de construcción de la partición Ps. Nota : En general, las TL(n, K) presentan varias centenas de líneas. Por ello, muy amenudo es conveniente optar por un procedimiento mixto de agregación en lugar de las etapas 2 y 3 presentadas anteriormente. Sobre los procedimientos mixtos de agregación vea la sección §II parte. 7. Métodos mixtos de clasificación. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°144