Análisis factorial: preferencia del análisis de factor común frente al análisis de componentes principales José López Ruiz y José Antonio Pérez-Gil La elección del análisis de Componentes Principales versus Factor Común en tareas de i nvestigación exploratoria de datos, no es una cuestión fácil. Ello es debido a que ambas técnicas sirven a propósitos similares, y comparten características matemáticas muy parecidas, aún cuando conceptualmente se fundamentan en modelos teóricos diferentes. El objeto principal del Análisis Factorial es simplificar el análisis complejo de un conjunto más o menos numeroso de variables interrelacionadas entre sí obteniéndose un número reducido de factores o funciones que se establecen como descriptores de las interrelaciones observadas. La estimación de las medidas de cada uno de los factores para cada caso de estudio, construcción de Escalas de medidas-, se justifica por criterios de simplificación o parsimonia y por el uso de estos factores como medidas que pueden ser puestas en relación con otras variables observadas. Se puede establecer que el valor que toma la función o factor, para un sujeto dado, puede estimarse como una combinación lineal de las variables originales. Esto puede expresarse como Fk= EBjk Xjn (1), donde Xjn es el valor en puntuaciones típicas de la j-ésima variable en el sujeto n; Bjk es el coeficiente o peso de la j-ésima variable en el k-ésimo factor. El Análisis de Componentes Principales suele utilizarse como procedimiento alternativo al Análisis de Factor Común. Estos componentes se obtienen mediante una transformación matemática de la matriz de correlaciones de las variables observada en una matriz que permita establecer combinaciones lineales al modo de las obtenidas en el procedimiento de factor común y tal que puedan ser aplicados los métodos de construcción de escalas de medidas de los componentes principales. Los componentes se obtienen por combinaciones lineales de las variables observadas con las ponderaciones proporcionales a los pesos de los componentes, expresándose como PCm =E[Bij / li) Xj ] (2), donde Bij es el peso de la j-ésima variable en el iésimo componente; li es el autovalor asociado al componente i-ésimo, y Xj es la j-ésima variable observada. Aún cuando las expresiones (1) y (2) son similares, existe una diferencia fundamental referida a la Varianza acumulada por cada uno de los factores y componentes en las respectivas expresiones (Jöreskog, 1979). En el análisis de componentes principales la variabilidad está referida a la varianza total, quedando ésta repartida proporcionalmente entre cada uno de los componentes. En el procedimiento de Factor común la varianza acumulada por cada factor está referida a la varianza explicada o "comunalidad", dado que la varianza total se descompone en sus dos componentes: la parte de varianza explicada, acumulada por los factores comunes, y la parte de varianza específica o "unicidad" que queda excluida de los factores comunes y asignada a la aportación de los factores únicos o específicos. Entendemos que este tratamiento diferencial de la variabilidad es una fuentede error responsable de resultados diferentes en investigaciones aplicadas. La mayor proporción de varianza acumulada por los componentes principales suponen que cada componente acumula parte de varianza explicada y parte de varianza no explicada, como muestra Jöreskog (op. cit.). Con esta investigación pretendemos mostrar los aspectos relevantes que hacen crítico el uso de uno u otro procedimiento. Método Sujetos Por simulación se obtuvo tanto una muestra de 300 sujetos, como las puntuaciones obtenidas por ellos en nueve escalas de medidas, (X1, X2, ..., X9). Dichas escalas fueron construidas de modo que se ajustaran a las restricciones de aplicación que imponen los modelos de análisis de las técnicas a utilizar. Instrumentos Se han utilizado los procedimientos estadísticos: Factor Analysis, Anova, Crosstab, Npar y Quick-Clusters, contenidos en el paquete estadístico paraciencias sociales, SPSS/PC+ V.2.0. Procedimiento Se analizó la matriz inicial de datos realizando un Análisis Factorial mediante los procedimientos Máxima Verosimilitud (ML) y Análisis de Componentes Principales (PC), especificando rotación Varimax, resultando seis escalas de medida, tres para los factores comunes y tres para los componentes resultantes del análisis; estas escalas se construyeron utilizando el Procedimiento de Regresión. Como material de estudio se eligieron las siguientes escalas: escalaF1 y escala PC1 correspondientes al primer factor y primer componente respectivamente resultantes del procedimiento ML y PC, y en el que las saturaciones relevantes correspondieron a las variables observadas, X1, X2 y X3; escala F2, y escala PC2 correspondientes al segundo factor y segundo componente respectivamente resultantes del procedimiento ML y PC, y en el que las saturaciones relevantes correspondieron a las variables observadas, X4, X5 y X6; escala F3, y escala PC3 correspondientes al tercer factor y tercer componente respectivamente resultantes del procedimiento ML y PC, y en el que las saturaciones relevantes correspondieron a las variables observadas, X7, X8 y X9. Con el fin de obtener un elemento de referencia externa estas escala fueron puestas en relación, mediante ANOVA, con una variable de agrupamiento obtenida de la aplicación del procedimiento Quick-Cluster con las nueve variables observadasXI,..., X9; dicha variable así obtenida (G 1) proporcionó dos valores o agrupamientos distintos para los sujetos. Resultados La Tabla l. presenta los valores de las nueve escalas en la prueba de bondad de ajuste a la función de probabilidad Normal de Kolmogorov-Smirnov. En la Tabla 2 se puede observar las saturaciones de cada variable sobre lostres factores y tres componentes respectivamente extraídos en el Análisis Factorial. La Tabla 3 presenta el porcentaje de varianza acumulada por los factores comunes y componentes principales obtenidos en ambos procedimiento. A continuación se ofrecen los resultados del Análisis de Varianza realizado con la variable Grupo (G1) y los factores y componentes. Tabla 4. E1 ANOVA realizado permitió mostrar que los dos grupos obtenidos en el procedimiento Quick Cluster presentaron puntuaciones significativamente distintas, (p< 0.01), en todos los factores y componentes a excepción del factor F3 en el que la puntuaciones de los sujetos en el factor, no reportan diferencias significativas (p=.6765) en los dos subgrupos, F=.17, para gl=1,298. Discusión Entendemos que los resultados del presente trabajo se ajustan a las restricciones que imponen los procedimientos utilizados, (Ver Tablas 1 y 2), y que apoyan nuestra hipótesis. Esperábamos que al aplicar un análisis de varianza de los factores y componentes con la variable G1, la varianza explicada por los factores fuese menor que en los Componentes principales. En efecto si comparamos cada factor con el componente principal equivalente se observan estas diferencias en la varianza explicada. Esto se traduce en diferencias en el estadístico F y por consiguiente en la probabilidad asociada a cada comparación. Aun cuando estas diferencias quedan constatadas, también es cierto que la proporción de varianza acumulada por ambos términos (factor y componente equivalente) suele ser suficientemente grande como para que la toma de decisión sean coincidentes, es decir se tomen en el mismo sentido. No obstante estas diferencias se hacen criticas conforme el autovalor obtenido en la matriz de correlaciones se aproxima a la unidad. Se constata que para el tercer autovalor de la matriz inicial su valor es 1.15. Como se puede observar en la Tabla 3, este autovalor reporta valores distintos en la matriz final que se obtiene en cada uno de los dos procedimientos usados, y esta diferencia se traduce en proporciones distintas de varianza común acumulada según qué procedimiento se use. Esta diferencia de varianza se traduce en estadísticos F distintos y en diferentes probabilidades asignada en el ANOVA y por consiguiente en tomar decisiones distintas según qué procedimiento se utilice; así si utilizamos el componente PC3 tendremos que concluir que existen diferencias significativas (p<.0061) entre los valores del componente en cada grupo, y si por el contrario usamos el factor común F3 la decisión a tomar es justamente la contraria, es decir, concluiríamos que no existen diferencias significativas (p=.6765) entre los valores del factor en cada grupo. Ver Tabla 4. No obstante, en la misma tabla, puede observarse que aunque la significación de PC3 el porcentaje de v arianza explicada por él mismo es ínfima (2.5%). A pesar de que el Análisis de Componentes principales ha venido siendo el procedimiento más usado, recientemente son cada vez más numerosos los autores que describen el Análisis de Factor Común como el procedimiento preferido (McArdle,1990; Steiger, 1990). Tomando como referencia la matriz inicial, en términos de varianza acumulada en los factores y los componentes equivalentes se obtienen resultados similares cuando el autovalor asociado es grande; en el caso de que el autovalor tome valores en torno a la unidad se presentan diferencias en los resultados. En consecuencia consideramos que la característica de ser más conservador cl procedimiento de factor común queda apoyada por los resultados de este trabajo y en este sentido consideramos adecuado preferir el procedimiento de factor común frente al de componentes principales. Conclusiones Las escalas de medida para los factores utilizando el procedimiento de máxima verosimilitud en el análisis del factor común, se muestran más conservadoras en la toma de decisión en comparación a las obtenidas utilizando análisis de componentes principales. Cuando el autovalor en la matriz inicial arroja valores en torno a la unidad, la elección del procedimiento del factor común (ML) o componente principal se hace crítico. Frente al análisis de componenetes principales, las escalas construidas con el método de máxima verosimilitud del análisis del factor común permiten delimitar con mayor precisión la significación del análisis de varianza entre los factores hipotetizados y variables externas. Referencias JÖ RESKOG, k.G. & SÖRBOM, D. (1979) " Advances in Factor Analysis and Structural Equation Models ". Cambridge, Massachusetts: Abt Books. MCARDLE,J.J.(1990). Principles versus Principals of Structural Factor Analyses. "Multivariate Behavioral Research", 25 (1), 81-87. STEIGER. J.H. (1990). Some Additional Thoughs on Components, Factor, and Factor Indeterminacy. "Multivariate Behavioral Research", 25 (1), 81-87.