Análisis factorial: preferencia del análisis de factor común frente al

Anuncio
Análisis factorial: preferencia del análisis
de factor común frente al análisis de
componentes principales
José López Ruiz y José Antonio Pérez-Gil
La elección del análisis de Componentes Principales versus Factor Común en tareas de
i nvestigación exploratoria de datos, no es una cuestión fácil. Ello es debido a que ambas técnicas
sirven a propósitos similares, y comparten características matemáticas muy parecidas, aún
cuando conceptualmente se fundamentan en modelos teóricos diferentes.
El objeto principal del Análisis Factorial es simplificar el análisis complejo de un conjunto
más o menos numeroso de variables interrelacionadas entre sí obteniéndose un número reducido
de factores o funciones que se establecen como descriptores de las interrelaciones observadas.
La estimación de las medidas de cada uno de los factores para cada caso de estudio, construcción de Escalas de medidas-, se justifica por criterios de simplificación o parsimonia y
por el uso de estos factores como medidas que pueden ser puestas en relación con otras variables
observadas.
Se puede establecer que el valor que toma la función o factor, para un sujeto dado, puede
estimarse como una combinación lineal de las variables originales. Esto puede expresarse como
Fk= EBjk Xjn (1), donde Xjn es el valor en puntuaciones típicas de la j-ésima variable en el sujeto
n; Bjk es el coeficiente o peso de la j-ésima variable en el k-ésimo factor.
El Análisis de Componentes Principales suele utilizarse como procedimiento alternativo al
Análisis de Factor Común. Estos componentes se obtienen mediante una transformación
matemática de la matriz de correlaciones de las variables observada en una matriz que permita
establecer combinaciones lineales al modo de las obtenidas en el procedimiento de factor común
y tal que puedan ser aplicados los métodos de construcción de escalas de medidas de los
componentes principales. Los componentes se obtienen por combinaciones lineales de las
variables observadas con las ponderaciones proporcionales a los pesos de los componentes,
expresándose como PCm =E[Bij / li) Xj ] (2), donde Bij es el peso de la j-ésima variable en el iésimo componente; li es el autovalor asociado al componente i-ésimo, y Xj es la j-ésima variable
observada.
Aún cuando las expresiones (1) y (2) son similares, existe una diferencia fundamental
referida a la Varianza acumulada por cada uno de los factores y componentes en las respectivas
expresiones (Jöreskog, 1979). En el análisis de componentes principales la variabilidad está
referida a la varianza total, quedando ésta repartida proporcionalmente entre cada uno de los
componentes. En el procedimiento de Factor común la varianza acumulada por cada factor está
referida a la varianza explicada o "comunalidad", dado que la varianza total se descompone en
sus dos componentes: la parte de varianza explicada, acumulada por los factores comunes, y la
parte de varianza específica o "unicidad" que queda excluida de los factores comunes y asignada
a la aportación de los factores únicos o específicos.
Entendemos que este tratamiento diferencial de la variabilidad es una fuentede error
responsable de resultados diferentes en investigaciones aplicadas. La mayor proporción de
varianza acumulada por los componentes principales suponen que cada componente acumula
parte de varianza explicada y parte de varianza no explicada, como muestra Jöreskog (op. cit.).
Con esta investigación pretendemos mostrar los aspectos relevantes que hacen crítico el uso de
uno u otro procedimiento.
Método
Sujetos
Por simulación se obtuvo tanto una muestra de 300 sujetos, como las puntuaciones obtenidas
por ellos en nueve escalas de medidas, (X1, X2, ..., X9). Dichas escalas fueron construidas de
modo que se ajustaran a las restricciones de aplicación que imponen los modelos de análisis de
las técnicas a utilizar.
Instrumentos
Se han utilizado los procedimientos estadísticos: Factor Analysis, Anova, Crosstab, Npar y
Quick-Clusters, contenidos en el paquete estadístico paraciencias sociales, SPSS/PC+ V.2.0.
Procedimiento
Se analizó la matriz inicial de datos realizando un Análisis Factorial mediante los
procedimientos Máxima Verosimilitud (ML) y Análisis de Componentes Principales (PC),
especificando rotación Varimax, resultando seis escalas de medida, tres para los factores
comunes y tres para los componentes resultantes del análisis; estas escalas se construyeron
utilizando el Procedimiento de Regresión. Como material de estudio se eligieron las siguientes
escalas: escalaF1 y escala PC1 correspondientes al primer factor y primer componente
respectivamente resultantes del procedimiento ML y PC, y en el que las saturaciones relevantes
correspondieron a las variables observadas, X1, X2 y X3; escala F2, y escala PC2 correspondientes al segundo factor y segundo componente respectivamente resultantes del procedimiento
ML y PC, y en el que las saturaciones relevantes correspondieron a las variables observadas, X4,
X5 y X6; escala F3, y escala PC3 correspondientes al tercer factor y tercer componente
respectivamente resultantes del procedimiento ML y PC, y en el que las saturaciones relevantes
correspondieron a las variables observadas, X7, X8 y X9.
Con el fin de obtener un elemento de referencia externa estas escala fueron puestas en
relación, mediante ANOVA, con una variable de agrupamiento obtenida de la aplicación del
procedimiento Quick-Cluster con las nueve variables observadasXI,..., X9; dicha variable así
obtenida (G 1) proporcionó dos valores o agrupamientos distintos para los sujetos.
Resultados
La Tabla l. presenta los valores de las nueve escalas en la prueba de bondad de ajuste a la
función de probabilidad Normal de Kolmogorov-Smirnov.
En la Tabla 2 se puede observar las saturaciones de cada variable sobre lostres factores y tres
componentes respectivamente extraídos en el Análisis Factorial.
La Tabla 3 presenta el porcentaje de varianza acumulada por los factores comunes
y componentes principales obtenidos en ambos procedimiento.
A continuación se ofrecen los resultados del Análisis de Varianza realizado con la variable
Grupo (G1) y los factores y componentes. Tabla 4.
E1 ANOVA realizado permitió mostrar que los dos grupos obtenidos en el procedimiento
Quick Cluster presentaron puntuaciones significativamente distintas, (p< 0.01), en todos los
factores y componentes a excepción del factor F3 en el que la puntuaciones de los sujetos en el
factor, no reportan diferencias significativas (p=.6765) en los dos subgrupos, F=.17, para
gl=1,298.
Discusión
Entendemos que los resultados del presente trabajo se ajustan a las restricciones que imponen
los procedimientos utilizados, (Ver Tablas 1 y 2), y que apoyan nuestra hipótesis. Esperábamos
que al aplicar un análisis de varianza de los factores y componentes con la variable G1, la varianza
explicada por los factores fuese menor que en los Componentes principales. En efecto si
comparamos cada factor con el componente principal equivalente se observan estas diferencias
en la varianza explicada. Esto se traduce en diferencias en el estadístico F y por consiguiente en
la probabilidad asociada a cada comparación.
Aun cuando estas diferencias quedan constatadas, también es cierto que la proporción de
varianza acumulada por ambos términos (factor y componente equivalente) suele ser
suficientemente grande como para que la toma de decisión sean coincidentes, es decir se tomen
en el mismo sentido. No obstante estas diferencias se hacen criticas conforme el autovalor
obtenido en la matriz de correlaciones se aproxima a la unidad. Se constata que para el tercer
autovalor de la matriz inicial su valor es 1.15. Como se puede observar en la Tabla 3, este
autovalor reporta valores distintos en la matriz final que se obtiene en cada uno de los dos
procedimientos usados, y esta diferencia se traduce en proporciones distintas de varianza común
acumulada según qué procedimiento se use. Esta diferencia de varianza se traduce en estadísticos
F distintos y en diferentes probabilidades asignada en el ANOVA y por consiguiente en tomar
decisiones distintas según qué procedimiento se utilice; así si utilizamos el componente PC3
tendremos que concluir que existen diferencias significativas (p<.0061) entre los valores del
componente en cada grupo, y si por el contrario usamos el factor común F3 la decisión a tomar
es justamente la contraria, es decir, concluiríamos que no existen diferencias significativas
(p=.6765) entre los valores del factor en cada grupo. Ver Tabla 4.
No obstante, en la misma tabla, puede observarse que aunque la significación de PC3 el
porcentaje de v arianza explicada por él mismo es ínfima (2.5%).
A pesar de que el Análisis de Componentes principales ha venido siendo el procedimiento
más usado, recientemente son cada vez más numerosos los autores que describen el Análisis de
Factor Común como el procedimiento preferido (McArdle,1990; Steiger, 1990). Tomando como
referencia la matriz inicial, en términos de varianza acumulada en los factores y los componentes
equivalentes se obtienen resultados similares cuando el autovalor asociado es grande; en el caso
de que el autovalor tome valores en torno a la unidad se presentan diferencias en los resultados.
En consecuencia consideramos que la característica de ser más conservador cl procedimiento de
factor común queda apoyada por los resultados de este trabajo y en este sentido consideramos
adecuado preferir el procedimiento de factor común frente al de componentes principales.
Conclusiones
Las escalas de medida para los factores utilizando el procedimiento de máxima verosimilitud
en el análisis del factor común, se muestran más conservadoras en la toma de decisión en
comparación a las obtenidas utilizando análisis de componentes principales.
Cuando el autovalor en la matriz inicial arroja valores en torno a la unidad, la elección del
procedimiento del factor común (ML) o componente principal se hace crítico.
Frente al análisis de componenetes principales, las escalas construidas con el método de
máxima verosimilitud del análisis del factor común permiten delimitar con mayor precisión la
significación del análisis de varianza entre los factores hipotetizados y variables externas.
Referencias
JÖ RESKOG, k.G. & SÖRBOM, D. (1979) " Advances in Factor Analysis and Structural
Equation Models ". Cambridge, Massachusetts: Abt Books.
MCARDLE,J.J.(1990). Principles versus Principals of Structural Factor Analyses. "Multivariate
Behavioral Research", 25 (1), 81-87.
STEIGER. J.H. (1990). Some Additional Thoughs on Components, Factor, and Factor
Indeterminacy. "Multivariate Behavioral Research", 25 (1), 81-87.
Descargar