Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 6 Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas Cuaderno técnico 6 Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas Cuaderno técnico 6 Salvador Zamora Muñoz Lucía Monroy Cazorla César Chávez Álvarez Revisión técnica: Antonio Saade Hazin Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas Cuaderno técnico 6 D.R. © 2009, Centro Nacional de Evaluación para la Educación Superior, A.C. (Ceneval) Av. Camino al Desierto de los Leones 19, Col. San Ángel, Deleg. Álvaro Obregón, C.P. 01000, México, D.F. www.ceneval.edu.mx Diseño: Mónica Cortés Genis Formación: Alvaro Edel Reynoso Castañeda Primera edición, septiembre de 2010 Impreso en México • Printed in México Directorio Dirección General Rafael Vidal Uribe Dirección General Adjunta de los EGEL Jorge Hernández Uralde Dirección General Adjunta de los EXANI José O. Medel Bello Dirección General Adjunta de Programas Especiales Rocío Llarena de Thierry Dirección General Adjunta Técnica y de Investigación Lucía Monroy Cazorla Dirección General Adjunta de Operación Francisco Javier Apreza García Méndez Dirección General Adjunta de Difusión Javier Díaz de la Serna Braojos Dirección General Adjunta de Administración Francisco Javier Anaya Torres Dirección de Procesos Ópticos y Calificación María del Socorro Martínez de Luna Dirección de Tecnologías de la Información y las Comunicaciones Francisco Manuel Otero Flores Índice Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Capítulo I Antecedentes históricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Capítulo II ¿Qué es el análisis factorial? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 El modelo de factores 17 Supuestos del modelo 18 Métodos de extracción de factores 19 Selección del número de factores que serán extraídos 20 Criterio a priori (tipos de análisis factorial) 20 Criterio de la raíz latente (eigenvalor >1) 21 Criterio del gráfico de codo (contraste de caída) 22 Criterio del porcentaje de varianza explicada 23 Interpretación de la matriz de cargas factoriales 23 Un concepto muy controvertido: rotación de factores 26 Rotaciones ortogonales 26 Rotaciones oblicuas 27 Valoración de las comunalidades 28 Puntajes factoriales 25 Bondad de ajuste del modelo de factores 28 Análisis factorial con variables discretas 29 Capítulo III Fundamentos técnicos del análisis factorial . . . . . . . . . . . . . . . . . . . 31 Aspectos formales 31 Soluciones múltiples al modelo 34 Número máximo de factores 35 Métodos de estimación 38 Máxima verosimilitud Mínimos cuadrados Mínimos cuadrados generalizados Mínimos cuadrados ponderados Método de rotación de ejes principales Prueba sobre el número de factores en el modelo Puntajes factoriales Método de Bartlett o de mínimos cuadrados ponderados Método de Thompson o de regresión 39 40 40 40 41 41 42 42 43 Capítulo IV Aplicación con variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . 45 Descripción general del EXANI-I 45 Definición del ejemplo 46 Análisis en SPSS 48 Análisis en R 63 Capítulo V Aplicación con variables discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Objetivo 69 Descripción de las variables 69 Análisis en R 86 Un comentario final 90 Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 Anexo 1 Códigos en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Índice de tablas Tabla 1. Artículos publicados sobre análisis factorial en diferentes disciplinas, 1904-2004 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Tabla 2. Matriz de cargas factoriales para un caso hipotético . . . . . . . . . . . . . . . . 24 Tabla 3. Directrices para la identificación de cargas factoriales significativas, basadas en el tamaño de la muestra . . . . . . . . . . . . . . . . . 25 Tabla 4. Medidas de correlación entre variables . . . . . . . . . . . . . . . . . . . . . . . . . 29 Tabla 5. Dominios evaluados por el EXANI-I . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Tabla 6. Matriz de correlaciones entre las variables que evalúa el EXANI-I . . . . . . . 51 Tabla 7. Pruebas KMO y de efericidad de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . 53 Tabla 8. Comunalidades del modelo unifactorial del EXANI-I . . . . . . . . . . . . . . . . 57 Tabla 9. Total de la varianza explicada por el modelo unifactorial del EXANI-I . . . . 57 Tabla 10. Cargas factoriales de las variables manifiestas . . . . . . . . . . . . . . . . . . . . 58 Tabla 11. Matriz de correlaciones reproducidas por el modelo . . . . . . . . . . . . . . . . 60 Tabla 12. Matriz de correlaciones con niveles de significancia . . . . . . . . . . . . . . . . 62 Índice de figuras Figura 1. Crecimiento en las publicaciones sobre análisis factorial . . . . . . . . . . . . . 13 Figura 2. Representación del modelo unifactorial . . . . . . . . . . . . . . . . . . . . . . . . . 16 Figura 3. Representación del modelo multifactorial . . . . . . . . . . . . . . . . . . . . . . . . 16 Figura 4. Explicación de la ecuación del modelo de factores . . . . . . . . . . . . . . . . . 18 Figura 5. Gráfico de codo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Figura 6. Modelo unifactorial del EXANI-I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Prefacio E l Centro Nacional de Evaluación para la Educación Superior (Ceneval) es una institución de carácter eminentemente técnico. A lo largo de tres lustros su actividad esencial ha sido promover la calidad de la educación mediante evaluaciones válidas, confiables y pertinentes de los aprendizajes. Primordialmente, evalúa los conocimientos y habilidades adquiridos por los individuos en los procesos de enseñanza-aprendizaje, formales o no formales, de los sistemas educativos. Así contribuye a la toma de decisiones fundamentadas. De hecho, con sus servicios de evaluación atiende instituciones de educación media superior y superior, autoridades educativas, organizaciones profesionales y otras instancias públicas y privadas y, desde luego, al destinatario final –y el más importante– de sus pruebas: el propio sustentante. Con la serie Cuadernos técnicos el Centro promueve también el uso de herramientas de análisis en círculos cada vez más amplios. El propósito de estos títulos es contribuir a elevar la calidad de la educación mexicana y fomentar una auténtica cultura de la evaluación. La inteligencia, el nivel de ansiedad o el grado de satisfacción no pueden medirse directamente. Los especialistas las denominan variables latentes o constructos; y para estimarlas lo hacen mediante variables manifiestas, como podrían ser la respuesta a un reactivo o el número de aciertos en un examen. La teoría que sustenta el empleo del análisis factorial –tema de estudio del presente texto– asume que la variable latente es continua: los individuos pueden ordenarse de mayor a menor nivel del atributo bajo estudio. El propósito es analizar la estructura de correlación entre un grupo de variables medidas, asumiendo que la asociación entre ellas puede ser explicada por una o más variables latentes, que en el caso del análisis factorial se les reconoce como factores. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 9 Capítulo I Antecedentes históricos E l primer planteamiento del análisis factorial se remonta a principios del siglo xx, cuando Charles Spearman (1904) hizo un estudio sobre la medición de la inteligencia. Conjeturó que si dos habilidades están correlacionadas, entonces cada una está compuesta por dos factores: uno que les es común, responsable de la correlación, y otro que es específico pues determina la diferencia entre ambas. En los primeros años de esta herramienta metodológica el enfoque predominante era asumir a priori que en los datos subyacía una estructura unifactorial. Thurstone (1935) propuso un cambio en la conceptualización del análisis factorial sugiriendo que los datos analizados podrían explicarse por más de una variable latente (factor); que lo importante era determinar el número de factores que podrían ser identificados. El estudio de inteligencia Thurstone (1938) propuso que la inteligencia puede ser explicada por siete factores. En 1936 la Sociedad de Psicometría fundó una revista de investigación especializada: Psychometrika, en cuyas páginas se publicaron entre finales de los años treinta y principios de los cincuenta numerosos artículos sobre cuestiones relacionadas con el desarrollo del análisis factorial, tales como la estimación de las comunalidades, la extracción de factores comunes, la determinación del número de factores, la rotación de los factores, la estimación de los puntajes factoriales, los métodos para acelerar la velocidad de los cálculos y la indeterminación de los modelos. En la actualidad, el uso del análisis factorial como herramienta metodológica se ha extendido a diversos ámbitos del quehacer científico: la psicología (en estudios de habilidades, motivación, aprendizaje, etcétera); la pedagogía (en estudios relacionados con el aprovechamiento escolar, la tipología de profesores, etcétera); la sociología (en dimensiones de grupo, actitudes políticas, afinidad política, etcétera), y en muchas otras disciplinas (ecología, economía, medicina, metrología...). Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 11 Como una muestra del uso de esta técnica estadística en los años recientes, Kaplunovsky (2006) presentó los resultados de una exploración realizada en internet en mayo de 2004. Detectó 3,460 artículos relacionados con este método cuantitativo y los clasificó de acuerdo con los campos del conocimiento en que se habían generado los datos, los cuales se muestran en la tabla 1. En la figura 1 se muestra el incremento que han tenido, en los últimos 15 años, los estudios que utilizan el análisis factorial en la información. Tabla 1. Artículos publicados sobre análisis factorial en diferentes disciplinas, 1904-2004 12 Área 19041980 19811985 19861990 19911995 19952000 20002004 Total Biología Química Cromatografía Ecología Economía Alimentación Geriatría Procesamiento de imágenes Industria Resonancia magnética Medicina Metodología Investigación de operaciones Fisiología Psiquiatría Psicología Espectroscopia 18 12 4 2 14 1 8 2 4 1 30 10 1 20 15 93 11 17 14 7 4 12 4 5 7 0 1 32 25 1 26 14 86 27 20 36 16 11 9 5 10 22 2 3 64 31 1 38 39 159 40 23 53 22 15 4 2 9 27 6 6 67 49 9 39 61 219 50 47 88 24 61 20 17 25 38 38 25 109 125 42 51 137 379 108 41 77 15 45 26 21 31 51 28 13 116 151 41 29 99 344 90 166 280 88 138 85 50 88 147 78 49 418 391 95 203 365 1280 326 Cuaderno técnico 6 Figura 1. Crecimiento en las publicaciones sobre análisis factorial Publicaciones Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas Publicaciones sin Psychology 13 Capítulo II ¿Qué es el análisis factorial? E l análisis factorial es una técnica estadística multivariada que se incorpora a la metodología cuantitativa que involucra variables latentes.1 Estas variables no observables, denominadas frecuentemente constructos, son variables que no pueden medirse de manera directa: se estiman a través de variables manifiestas (observadas). Ejemplos de variables latentes podrían ser la inteligencia, el nivel de ansiedad, el nivel socioeconómico, el capital cultural, el grado de satisfacción con un producto o el nivel de razonamiento verbal. Variables observadas podrían ser la respuesta a un reactivo de un examen, el número de aciertos en un examen, la intensidad con que se lanzó una pelota, el número de computadoras en una vivienda, etcétera. En el análisis factorial se asume que la variable latente es continua: los individuos pueden ordenarse de mayor a menor nivel del atributo bajo estudio. El objetivo primordial de esta herramienta es estudiar la estructura de correlación entre un grupo de variables medidas, asumiendo que la asociación entre las variables puede ser explicada por una o más variables latentes, que en el caso del análisis factorial se les reconoce como factores. Dicho de otra manera, la correlación entre el grupo de variables se explica por la presencia de los factores subyacentes a ellas. En el caso de que esta estructura de correlación pueda explicarse a través de un solo factor, estaremos ante un modelo unifactorial; por el contrario, si necesitamos más de un factor para explicar estas correlaciones, utilizaremos un modelo multifactorial. En este último caso, se espera que las variables que componen cada uno de estos factores estén fuertemente correlacionadas, y con correlaciones débiles con las variables que componen el resto de los factores. Cuando se representa gráficamente un modelo latente, como el análisis factorial, es común representar los factores con un óvalo o círculo, y las variables manifiestas con un cuadrado o rectángulo. Las flechas van del factor a las 1 Véase el Cuaderno técnico sobre análisis de clases latentes para una definición más extensa de este tipo de variables. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 15 variables, indicando que el factor es una variable explicativa y las variables manifiestas son variables dependientes. En las figuras 2 y 3 se muestra la representación gráfica de un modelo unifactorial y otro multifactorial, respectivamente. Figura 2. Representación del modelo unifactorial V1 V2 V3 V4 Habilidad matemática V5 V6 V7 V8 V9 V10 Figura 3. Representación del modelo multifactorial V1 Resolución problemas V2 V3 V4 V5 V6 Series numéricas V7 V8 V9 V10 16 Cuaderno técnico 6 El modelo de factores En este apartado se explicarán los aspectos básicos de la teoría que sustenta el análisis factorial y se pospone su explicación formal, en términos matemáticos, hasta el capítulo 3: Fundamentos técnicos del análisis factorial. Supongamos que tenemos un conjunto de variables observadas X1, X2,..., Xp y se asume que en este conjunto subyacen k factores (el número de factores debe ser estrictamente menor al número de variables observadas). De acuerdo con lo que hemos planteado en secciones anteriores, los factores son variables latentes que explican la asociación entre las variables manifiestas (en este caso las X’s); entonces, podemos pensar el modelo de factores de manera similar al modelo de regresión lineal, en el que se exprese esta relación entre factores y variables, de la siguiente forma: Los factores f1, f2,...,fk, juegan el papel de variables explicativas, y cada una de las X’s el de variables de respuesta; las λ’s son los coeficientes asociados a cada factor, y reciben el nombre de cargas factoriales; por último, los errores del modelo son las u’s. En este sentido, el modelo está determinando por las variables y no por los individuos. Las cargas factoriales indican la correlación entre cada variable y el factor correspondiente; así, una variable con mayor carga factorial será más representativa del factor. De este modo, las cargas factoriales sirven para interpretar la función que cumple cada variable para definir cada uno de los factores. En la figura 4 se identifican las variables que intervienen en el modelo factorial. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 17 Figura 4. Explicación de la ecuación del modelo de factores Variable observada Factores Cargas factoriales Error Supuestos del modelo En el modelo de factores, a f1, f2,...,fk se les denomina factores comunes y a u1, u2,...,up factores específicos. Los supuestos básicos sobre los que se construye el modelo son los siguientes: 1. Los factores comunes fj j=1,2,...,k no están correlacionados y tienen media cero y varianza uno. 2. Los factores específicos ui no están correlacionados y tienen media cero y varianza Ψi i=1,2,...,p. 3. Los factores comunes no están correlacionados con los factores específicos. Bajo estos supuestos es posible descomponer la varianza de cada una de las variables observables del modelo o variables indicadoras (Xi ), en dos componentes no correlacionados. Por un lado la varianza común, conocida como la comunalidad 18 Cuaderno técnico 6 de la variable y que representa la varianza de la variable Xi que es explicada por los factores comunes y, por el otro, la varianza específica conocida como especificidad y que es la varianza no explicada por estos factores comunes. Los factores comunes y sus características asociadas (comunalidades, especificidades, número, etcétera) representan el objeto de interés en el análisis factorial. Métodos de extracción de factores Todas las técnicas de estimación del modelo factorial parten del supuesto de que los factores iniciales que serán extraídos de la matriz de correlaciones de las variables indicadoras no estarán correlacionados. El objetivo de los métodos de extracción de factores es minimizar la distancia entre la matriz de correlaciones observada y la matriz de correlaciones que se desprende del modelo (matriz que especifica el modelo de factores). La diferencia entre los métodos radica en la definición de “distancia” que utilizan para llegar a la solución. El método de mínimos cuadrados, por ejemplo, se ocupa de minimizar la suma de cuadrados de las diferencias entre estas dos matrices, por lo que los valores de los parámetros que logren este objetivo serán los estimadores finales. Uno de los métodos más comunes para la extracción de factores es el conocido como Factorización de ejes principales (Principal axis factoting). Se trata de un método iterativo para estimar las comunalidades y subsecuentemente extraer los factores. Este método es igual al que se usa en la técnica multivariada conocida como Análisis de componentes principales, salvo que no se realiza sobre la matriz original de correlación (véanse detalles en el capítulo 3). Los factores se extraen de manera sucesiva, por lo que la solución final consiste en factores ortogonales. El primer factor se obtiene de forma que explique la mayor cantidad de la varianza común; el segundo se extrae de una matriz de correlación residual que se obtiene una vez que se toma en cuenta la influencia del primer factor. Este Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 19 proceso continúa hasta que se ha extraído un número suficiente de factores. En el siguiente apartado revisaremos algunos criterios para determinar el número de factores con que se debería detener este proceso. Selección del número de factores por ser extraídos Uno de los objetivos del análisis factorial es la reducción de los datos originales a un número menor de variables, pero podría ocurrir que –dado un conjunto de datos– se tengan soluciones muy diferentes, dependiendo del número de factores considerado. Por tal motivo son varios los criterios que pueden servirnos de guía para determinar cuántos factores extraer. En el capítulo 3 determinaremos el número máximo de factores que se pueden extraer, dependiendo del número de variables indicadoras que se incluyan en el modelo; y a continuación explicaremos la lógica de algunos criterios utilizados para la selección del número de factores por extraer en el análisis; comenzaremos con los criterios teóricos que definen el análisis factorial confirmatorio y con algunos criterios estadísticos que nos ayudarán a seleccionar el número exacto de factores por extraer en el marco del análisis factorial exploratorio. Criterio a priori (tipos de análisis factorial) En muchas ocasiones no se tiene certeza sobre el número de factores k que subyacen en la estructura de datos; por ende, se puede realizar la extracción de factores de manera secuencial, se inicia con k=1 y se llega hasta un número de factores que permita lograr un buen ajuste del modelo a los datos. Este procedimiento de incorporar factores hasta lograr un buen ajuste da lugar al llamado análisis factorial exploratorio, en el que el investigador no conoce de antemano el número de factores que subyacen en las variables observadas. Una desventaja de este tipo de análisis: puede ocurrir que los factores encontrados no tengan 20 Cuaderno técnico 6 ninguna interpretación para el investigador. Por el contrario, cuando en una investigación se determina de forma precisa el número de factores, se está ante un análisis factorial confirmatorio. La forma usual de proponer este número de factores es en atención a alguna teoría propuesta en el área de aplicación. En este caso, los objetivos de la investigación se centran en la confirmación del número de factores y, consecuentemente, en la validación de esta teoría mediante la evidencia empírica proporcionada por los datos. Si el ajuste estadístico de los datos al modelo teórico es satisfactorio, se podrá concluir que el modelo es adecuado. Entonces, cuando el análisis factorial es de tipo exploratorio, se tiene la necesidad de decidir cuántos factores se deben retener en el análisis. En seguida se enuncian algunos criterios establecidos para decidir este número. Criterio de la raíz latente (eigenvalor >1) La lógica que sigue este criterio se basa en la idea de que cada uno de los factores extraídos debería justificar, al menos, la varianza de una variable individual (de lo contrario se incumpliría con el objetivo de reducir la dimensión de los datos originales). El análisis factorial –al igual que otras técnicas multivariadas– utiliza eigenvalores (raíces latentes) y sus correspondientes eigenvectores para consolidar la varianza en una matriz. En el contexto del análisis factorial, los eigenvalores representan la cantidad de varianza de todas las variables indicadoras que puede ser explicada por un factor determinado. Cada una de las variables contribuye con un valor de 1 en el eigenvalor (varianza) total.2 Por lo tanto, de acuerdo con este criterio, deberían elegirse los factores con eigenvalores mayores a 1 para garantizar que explican la varianza de al menos una variable. 2 Esto se debe a que el análisis se realiza con variables estandarizadas, por lo que la varianza de cada una de ellas es igual a uno. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 21 Criterio del gráfico de codo (contraste de caída) Este criterio consiste en analizar el comportamiento de los eigenvalores asociados a los factores extraídos, para determinar un punto de corte entre la pendiente pronunciada de los eigenvalores altos y la pendiente (más bien plana) de los eigenvalores bajos. La siguiente figura representa los primeros 11 factores extraídos en el análisis factorial de un conjunto de reactivos que componen el área de un examen. Figura 5. Gráfico de codo Gráfico de codo (scree - plot) 3.5 Eigenvalor 3.0 2.5 2.0 Criterio de contraste de caída 1.5 1.0 0.5 1 2 3 4 5 6 7 8 9 10 11 Del lado izquierdo de la gráfica un punto sobresale de los demás, haciendo que la pendiente de la línea que une todos los puntos cambie drásticamente en el lugar correspondiente al segundo factor. En este sitio, todo el conjunto de factores se 22 Cuaderno técnico 6 divide en dos grupos, el primero compuesto solamente por el primer factor, que explica una cantidad mayor de varianza que cualquiera de los diez factores restantes pertenecientes al segundo grupo y para los que la cantidad de varianza explicada parece haberse estabilizado. Por lo tanto, con este criterio deberíamos incluir sólo el primer factor. Criterio del porcentaje de varianza explicada Este criterio consiste en analizar el porcentaje acumulado de la varianza total extraída. Esto es, se busca asegurar que el número de factores extraídos alcance a explicar un porcentaje determinado de la varianza total de los datos. Aunque no se ha determinado un porcentaje preciso de varianza explicada que sirva como umbral para concluir con la extracción de factores, algunos autores sugieren que en el caso de aplicaciones concernientes a las Ciencias Naturales se puede detener el proceso cuando se alcance 95% de la varianza o cuando la inclusión de un factor adicional contribuya con menos de 5% a la varianza explicada acumulada. Para el caso de las Ciencias Sociales los criterios propuestos son más laxos. Se habla de continuar la extracción de factores hasta lograr 60% de la varianza total (Hair et al., 1998/1999). Interpretación de la matriz de cargas factoriales Una vez que se han estimado las cargas factoriales es importante establecer criterios que permitan interpretar los resultados obtenidos. Esta interpretación hará posible establecer una conexión entre los resultados vertidos por el análisis factorial y los constructos teóricos relacionados con los datos. En este sentido, la extracción de un determinado número de factores por los criterios estadísticos ya mencionados, carecerá de sentido si no podemos darle un significado lógico a cada uno de ellos, que además esté justificado teóricamente. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 23 Las cargas factoriales indican la correlación entre cada variable y el factor correspondiente, de ahí que una variable con mayor carga factorial será más representativa del factor. Tomando en cuenta esto, un análisis de la matriz de cargas factoriales puede ayudarnos a identificar cómo se agrupan las variables manifiestas para conformar cada uno de los factores resultantes del modelo, e incluso a etiquetarlos. Una vez que sabemos cuáles de las variables manifiestas “cargan” en el factor 1, por ejemplo, podemos deducir qué tipo de constructo teórico está representado por dicho factor. En la siguiente tabla se muestra la matriz de cargas factoriales para un ejemplo hipotético en el que se realizó un análisis factorial con las respuestas a 10 reactivos de opción múltiple de una prueba. Los primeros 5 (RM1 a RM5) son reactivos del área de Razonamiento matemático, mientras que los últimos cinco (RV1 a RV5) corresponden al área de Razonamiento verbal. Tabla 2. Matriz de cargas factoriales para un caso hipotético Área Variable (Reactivo) Factor 1 2 Razonamiento verbal RM1 RM2 RM3 RM4 RM5 0.6 0.5 0.6 0.6 0.5 0.1 0.1 0.2 0.1 0.1 Razonamiento matemático RV1 RV2 RV3 RV4 RV5 0.1 0.2 0.1 0.2 0.2 0.6 0.6 0.6 0.6 0.7 De acuerdo con estos resultados, podemos identificar al factor 1 con una influencia común en las primeras cinco variables y al factor 2 con una influencia común en las últimas cinco. De esta manera podríamos dividir el total de 24 Cuaderno técnico 6 variables (reactivos) en dos grupos, que no se traslapan, y que son indicativos de dos variables latentes diferentes: Razonamiento matemático (factor 1) y Razonamiento verbal (factor 2). ¿Cómo podemos determinar si una carga factorial es lo suficientemente “grande” para concluir que la correlación entre la variable y el factor es significativa? Hair et al. (1998/1999) proponen ciertas directrices para determinar si una carga factorial es o no significativa, dependiendo del tamaño de la muestra utilizada para el análisis (esta tabla se basa en estudios de potencia estadística): Tabla 3. Directrices para la identificación de cargas factoriales significativas, basadas en el tamaño de la muestra Carga factorial Tamaño muestral necesario para la significancia- (a) 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 352 250 200 150 120 100 85 70 60 50 (a) La significancia se basa en un nivel de significación de 0.05, una potencia de 80% y los errores estándar supuestamente dos veces mayores que los coeficientes convencionales de correlación En el ejemplo anterior la interpretación fue muy sencilla, porque cada variable resultó estadisticamente significativa para un solo factor. Sin embargo, este no es el caso frecuente. A continuación se describe un procedimiento que puede ayudar a clarificar la interpretación de los resultados. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 25 Un concepto muy controversial: rotación de factores Cuando el modelo en cuestión está determinado por un solo factor, su solución es única; sin embargo, las soluciones de los modelos multifactoriales, no son siempre únicas, ya que cuando existen dos o más factores significativos, las distintas combinaciones posibles pueden interpretarse de distintas maneras (véanse “soluciones múltiples al modelo” en el capítulo 3). Este aspecto ha suscitado críticas sobre el análisis factorial, ya que se piensa que depende de cuestiones subjetivas, que pudieran encaminar las soluciones a resultados preconcebidos por el investigador. Estas críticas son erróneas en dos aspectos: primero, el investigador no obtiene la solución que él desea; segundo, es más adecuado decir que la misma solución puede expresarse de diferentes maneras; de hecho, varias características de las soluciones –por ejemplo las comunalidades– permanecen inalteradas. Rotación –nombre que se le da al proceso de cambiar de una solución a otra– proviene de la representación geométrica de este procedimiento. La razón principal para rotar una solución es clarificar la estructura de las cargas factoriales. Los factores deben tener un significado claro para el investigador, a partir del contexto de aplicación. Si la estructura que muestran las cargas factoriales de la solución inicial son confusas o difíciles de interpretar, una rotación puede proporcionar una estructura más fácil de interpretar. Rotaciones ortogonales Uno de los patrones de cargas factoriales más usuales y de hecho más deseables es la llamada estructura simple de cargas factoriales. Se dice que las cargas factoriales presentan una estructura simple si cada variable tiene una gran carga en un solo factor, con cargas cercanas a cero en el resto de los factores. Una de las rotaciones ortogonales (los nuevos ejes después de la rotación siguen siendo ortogonales) que procura generar una estructura de cargas simple es la rotación 26 Cuaderno técnico 6 varimax, implementada en la mayoría de los paquetes estadísticos. No hay garantía de que una rotación produzca necesariamente una estructura de cargas simple, pero, de hacerlo, puede ayudar a una interpretación mucho más fácil de los factores. Existen otras rotaciones ortogonales (como quartimax y equimax), pero ninguna tiene la popularidad de varimax. Rotaciones oblicuas Contrario a las rotaciones ortogonales, las rotaciones oblicuas permiten relajar la restricción de ortogonalidad con el fin de ganar simplicidad en la interpretación de los factores. Con este método los factores resultan correlacionados, aunque generalmente esta correlación es pequeña. El uso de rotaciones oblicuas se justifica porque en muchos contextos es lógico suponer que los factores están correlacionados. Pese a que pueden ser de utilidad en algunas situaciones, estas rotaciones raramente se usan, a diferencia de las ortogonales. Entre las rotaciones oblicuas, promax es conceptualmente simple; sin embargo, la más popular es oblimin. Valoración de las comunalidades Además del análisis de la matriz de cargas factoriales, es importante verificar si cada una de las variables incluidas en el análisis son explicadas aceptablemente por el modelo. Esto puede lograrse analizando la estimación final de las comunalidades. Puesto que la comunalidad representa la proporción de la varianza de la variable indicadora que es explicada por los factores comunes del modelo, Hair et al. (1998/1999) proponen que las variables con una comunalidad menor a 0.5 carecen de una explicación suficiente y no deberían ser consideradas en la interpretación final del análisis. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 27 Puntajes factoriales Una vez realizado el análisis factorial, quizá con alguna rotación de los factores, el paso final es asignar los puntajes factoriales (scores) a cada individuo en la muestra. Esta construcción de puntajes genera una nueva variable por cada factor en el modelo. Usualmente estas variables derivadas del análisis factorial pueden utilizarse como insumo para otros procedimientos estadísticos de interés. Existen dos métodos para construir estos puntajes factoriales, a saber: el método de Bartlett o de mínimos cuadrados ponderados y el método de Thompson o de regresión (capítulo 3). Bondad de ajuste del modelo de factores Dado que el análisis factorial se realiza a través de un modelo, ¿qué tan bien ajusta este modelo a nuestros datos? Un primer elemento de juicio lo constituye la matriz de residuos, definida por: que es la diferencia entre nuestra matriz observada de correlaciones y la matriz de correlaciones reproducida por el modelo de factores. Si estas diferencias son pequeñas, se puede afirmar que el modelo de factores ajusta bien a los datos. Los valores de estas matrices están acotados entre –1 y 1, de modo que las diferencias deben ser realmente pequeñas. Paquetes estadísticos como spss remarcan diferencias menores o iguales a 0.05. Obsérvese además que los elementos en la diagonal de esta matriz de residuos son las especificidades del modelo. Un buen ajuste significa, en este caso, que el modelo con k factores es adecuado para nuestra información. 28 Cuaderno técnico 6 Análisis factorial con variables discretas El análisis factorial estándar se realiza con variables continuas; sin embargo, en muchas áreas de aplicación lo usual es tener variables medidas en escalas nominal u ordinal. En estos casos, lo adecuado es realizar el análisis respetando el orden de medición de las variables involucradas. Dado que el análisis factorial se basa en el uso de la matriz de correlación, una manera de considerar la escala de medición de las distintas variables involucradas en el estudio es calcular el tipo de correlación que corresponda a cada par de variables, de acuerdo con su escala particular. En este sentido, la tabla siguiente muestra el tipo de correlación que conviene calcular, de acuerdo con el orden de medición de las variables involucradas. Tabla 4. Medidas de correlación entre variables Escala de medición Continua Continua Pearson Ordinal Ordinal Dicotómica Poliserial Punto biserial Policórica Policórica Dicotómica Tetracórica El análisis factorial supone la existencia de una variable latente continua con distribución normal. De esta manera, cuando se utilizan variables discretas (ordinales y dicotómicas), estás se utilizan como si fueran continuas. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 29 Capítulo III Fundamentos técnicos del análisis factorial Aspectos formales E n este apartado presentaremos algunos aspectos formales de la teoría que sustenta este análisis. La presentación se hará de manera general, considerando el modelo multifactorial del que se desprende, como caso particular, el modelo unifactorial. A lo largo de la exposición se definirán algunos de los conceptos relacionados con esos modelos. Supongamos que tenemos un conjunto de variables observadas X1, X2,..., Xp y se asume que en este conjunto subyacen k factores con k<<p. Sin perder generalidad, podemos suponer que las variables están centradas sobre sus medias, i.e.; tienen media cero. Una manera usual de escribir el modelo factorial es a través de su representación en forma matricial: Donde, Con X, la matriz de datos, Λ la matriz de cargas factoriales, y f y U son los vectores de variables no observables. A f1, f2,...,fk se les denomina factores comunes (comunalidad) y a u1, u2,...,up factores específicos (especificidad). Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 31 Algunos supuestos sobre los que se construye el modelo son: 1. Los factores comunes fj j=1,2,...,k no están correlacionados y tienen media cero y varianza uno. 2. Los factores específicos ui no están correlacionados y tienen media cero y varianzaΨi i=1,2,...,p. 3. Los factores comunes no están correlacionados con los factores específicos. Bajo estos supuestos tenemos que: con hi2 conocida como la comunalidad de la variable, que es la varianza de la variable Xi , explicada por los factores comunes, y Ψi conocida como especificidad, la varianza no explicada por estos factores comunes. Además, podemos observar que los factores comunes explican las relaciones entre las variables medidas del estudio, y así se convierten en el objeto de interés de este análisis. Es por lo tanto importante que estén bien determinados y puedan ser interpretados en el contexto de la aplicación que les dio origen. La inclusión de los factores específicos en el modelo obedece al hecho de que es generalmente imposible expresar de manera exacta a nuestras p variables por medio de un número más reducido k de factores. 32 Cuaderno técnico 6 Es común hacer el análisis factorial con las variables estandarizadas, i.e., variables con media cero y varianza uno; entonces lo que tenemos son correlaciones entre las variables, en lugar de covarianzas. Si denotamos como R a la matriz de correlación de X la matriz de datos estandarizados, la descomposición anterior se puede escribir, de forma matricial, como con Ψ una matriz diagonal con elementos , e I la matriz idéntica, que tiene unos en la diagonal y ceros fuera de ella. De aquí tenemos para toda i ≠ j además entonces, el objetivo del análisis factorial es determinar k: número de factores, ^ Λ y Ψ utilizando la matriz de correlación muestral R. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 33 Soluciones múltiples al modelo Un aspecto muy importante es que la solución del modelo de factores no es única, en el sentido de que si tenemos una matriz ortogonal M (la condición de ortogonalidad => MM’=I), podemos escribir: Entonces, si Λ es una matriz de cargas factoriales, ΛM también lo es, para toda matriz ortogonal, M. Por lo tanto, la matriz de cargas factoriales no es única, y esto implica que los factores tampoco son únicos. Para garantizar una solución única en este modelo debemos anexar alguna restricción. La forma usual de este tipo de restricciones es alguna de las siguientes: con Λ y D matrices diagonales. Obsérvese que el producto de Λ’Λ no genera una matriz diagonal, aunque las restricciones del modelo exigen que lo sea, es decir que los elementos fuera de la diagonal de este producto sean cero. Por ello, y ya que fuera de la diagonal tenemos k(k-1) elementos, entonces es necesario este número de restricciones para garantizar una solución única del modelo. 34 Cuaderno técnico 6 Número máximo de factores De acuerdo con la discusión anterior, conviene saber cuál es el máximo número de factores que podemos extraer de un conjunto de p variables manifiestas. En este tipo de análisis ¿quién o qué constituye nuestra información? Como la idea es descomponer la matriz de correlación, entonces los elementos no redundantes de ésta, representan nuestra información. En el caso de que tengamos p variables indicadoras, el número de elementos no redundantes es p(p+1)/2. Ahora bien, necesitamos estimar p*k cargas factoriales totales y p especificidades, entonces necesitamos estimar p(k+1) parámetros de nuestro modelo. Y necesitamos imponer a este número de parámetros por estimar, k(k-1) restricciones para obtener una solución única. Es lógico suponer que esta diferencia entre los parámetros por estimar y las restricciones no debe exceder el número de elementos no redundantes de la matriz de correlación (nuestra información observada). Entonces, se debe cumplir que: A partir de esta desigualdad podemos observar que el mínimo de variables requeridas para extraer un factor es 3 (véase que en este caso se cumple la igualdad). Con cinco variables manifiestas podemos tener a lo más dos factores; con 20 el número máximo de factores puede ser hasta de 14; sin embargo, en la práctica no se busca encontrar este número máximo, sino aquel que nos permita explicar de la mejor manera posible las correlaciones entre estas variables medidas. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 35 Un ejemplo interesante Como acotamos en el párrafo anterior, cuando se tienen tres variables manifiestas y un solo factor, se cumple la igualdad en este criterio para el número máximo de factores. Al respecto, Everitt (2001) proporciona el siguiente ejemplo, que, además de tratar con detalle esta situación, nos proporcionará una visión clara de los procesos inmersos en la solución de estos modelos. Se tienen las calificaciones de exámenes de un grupo de estudiantes, en las asignaturas de X1: Literatura clásica, X2: Francés y X3: Inglés, de las que se obtiene la siguiente matriz de correlaciones: X1 X 2 X3 como no puede ser de otra forma, asumimos que un único factor subyace a este conjunto de variables, que podríamos denominar habilidades lingüísticas, por ejemplo. Entonces, el proceso para estimar los parámetros es el siguiente: Escribamos inicialmente el modelo de factores: como comentamos líneas arriba, el objetivo es encontrar, a partir de la matriz de correlación R, las matrices Λ̂ y Ψ̂. En este caso tenemos: 36 Cuaderno técnico 6 de este sistema se desprenden las ecuaciones: λ1λ2=0.83 λ1λ3=0.78 λ2λ3=0.67 de donde concluimos que λ1λ2 λ3 = √ 0.83 * 0.78 * 0.67 = 0.6586 y finalmente obtenemos que: De las relaciones se tiene que por lo que Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 37 podemos observar que todos los parámetros estimados tienen valores admisibles. Supongamos ahora que tomamos una nueva muestra sobre estos exámenes, que arroja la siguiente matriz de correlación: entonces, realizando el procedimiento anterior llegamos a: que tiene dos parámetros estimados inadmisibles, var(X1)= Ψ̂1 =-0.44 y λ̂1 =1.2. Este último debido a que estima la correlación entre X1 y f1, por lo que no puede ser mayor que uno. El ejemplo muestra que la igualdad en el criterio del número máximo de factores que se pueden extraer, puede generar resultados inapropiados, por lo que es preferible considerar la desigualdad estricta. También ilustra el principio sobre el que se basa el proceso de estimación: igualar la matriz de correlaciones generada por el modelo, que involucra a los parámetros que lo componen, con la matriz de correlación estimada con la información. Métodos de estimación Si definimos como Σ( − θ ) a la matriz de correlaciones que se desprende del modelo, y a S, la respectiva de los datos, entonces el objetivo de los métodos de 38 Cuaderno técnico 6 estimación es minimizar alguna función de distancia entre estas dos matrices, es decir, la función por minimizar es de la forma: con G alguna función específica. Los valores en Σ( θ− ) que minimicen esta función de distancia serán los estimadores de sus parámetros. Tomando en cuenta que Σ se puede descomponer como: los procesos que minimizan esta función de distancia entre estas dos matrices son equivalentes a encontrar los estimadores de Λ y Ψ tales que: este hecho ya se había evidenciado en el ejemplo mostrado anteriormente. Máxima verosimilitud En este caso, la función de distancia se desprende de la verosimilitud del modelo, y tiene la forma aunque en este método el objetivo es maximizar la verosimilitud, cabe recordar que maximizar es equivalente a minimizar el negativo de esta verosimilitud. Este método de estimación demanda que X tenga una distribución normal multivariada, hecho que en la práctica es muy difícil que se cumpla. No obstante, se ha encontrado que el método es robusto ante desviaciones de la normalidad. Sin embargo, es inadecuado su uso con variables nominales u ordinales. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 39 Mínimos cuadrados En este caso, la función que se minimiza es: que también puede considerarse una medida de distancia entre la matriz observada S y la matriz generada por el modelo Σ. Se minimiza la suma de cuadrados de las diferencias entre estas dos matrices. Nuevamente, los valores de los parámetros que minimicen esta función serán los estimadores. Mínimos cuadrados generalizados Este método es una generalización del de mínimos cuadrados; la función por minimizar es: la intención es minimizar la suma de cuadrados de todos los elementos en este producto de matrices. Mínimos cuadrados ponderados En este método el objetivo es minimizar la diferencia entre la matriz generada por el modelo y la estimada por nuestros datos, ponderando estas diferencias por una matriz de pesos. Concretamente, la función que debemos minimizar tiene la forma: con Ψ la matriz definida anteriormente. 40 Cuaderno técnico 6 Método de rotación de ejes principales En este caso se utiliza la llamada matriz reducida S* definida como por lo que los elementos en la diagonal de S* son las comunalidades estimadas. Este proceso requiere de una estimación inicial de estas comunalidades. Los métodos más frecuentes para estas estimaciones iniciales son: • El coeficiente de correlación múltiple entre cada Xi y el resto de las variables, y • El mayor coeficiente de correlación, en valor absoluto, entre Xi y cualquiera de las otras variables, es decir: a partir de las estimaciones iniciales de las comunalidades se hace un proceso de componentes principales sobre S* para encontrar las cargas factoriales. Posteriormente se actualizan los estimadores de las comunalidades. El proceso continúa de forma iterativa, hasta que el cambio en las estimaciones entre dos iteraciones consecutivas es prácticamente nulo. Prueba sobre el número de factores en el modelo En esta prueba el objetivo es contrastar si el modelo con k factores que hemos propuesto ajusta bien a los datos. En otras palabras: si k factores son suficientes para explicar la estructura de correlación subyacente a las variables medidas. Esta prueba supone que la matriz de datos X tiene una distribución normal multivariada. Bajo este supuesto tenemos que: Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 41 cuyo estadístico de prueba es: que se distribuye como una χ2v con v = ½[( p - k)2 - ( p + k)], entonces rechazar H0 implica que el número de factores elegido no es suficiente para la descripción adecuada de la estructura de correlación, y hay necesidad de agregar más factores. Esta prueba se basa en la normalidad multivariada de X, que es difícil de cumplir, por lo que, en la mayoría de los casos, sólo se podrá usar como una referencia. Puntajes factoriales Método de Bartlett o de mínimos cuadrados ponderados El desarrollo de este método de construcción de puntajes es como sigue: Generamos Z: Matriz de datos estandarizados. Entonces, el modelo de factores se puede expresar en función de Z, como: Z=Λf+U con U~(0,Ψ) De donde tenemos que: U’U=(Z-Λf )’(Z-Λf ) (Mínimos cuadrados) o U’Ψ-1U=(Z-Λf )’ Ψ-1(Z-Λf ) (Mínimos cuadrados ponderados) con Ψ una matriz de pesos. 42 Cuaderno técnico 6 Bartlett sugiere encontrar f que minimice: El valor fi que minimiza esta expresión es: entonces, se toma a fi como el puntaje factorial del individuo i, i=1,2,...,n. Método de Thompson o de regresión Se supone X, f normales. Los puntajes son: Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 43 Capítulo IV Aplicación con variables continuas E n este capítulo ejemplificaremos cómo realizar un análisis factorial con variables continuas. Los análisis se presentan en dos paquetes: spss que es, tal vez, uno de los paquetes estadísticos más usados en las ciencias sociales, y R, que es un paquete gratuito, de gran desarrollo en estos tiempos. En el ejemplo vamos a trabajar utilizando datos de aplicaciones reales del Examen Nacional de Ingreso a la Educación Media Superior (exani-i). Descripción general del EXANI-I El exani-i es un examen de selección que elabora el Ceneval y que presentan los estudiantes que terminaron la secundaria y desean continuar sus estudios de educación media superior. Este examen evalúa sólo los conocimientos y habilidades que se consideran indispensables para el progreso de los alumnos en el bachillerato. El examen cuenta con dos secciones: 1. Habilidades intelectuales, que se integra con las subáreas de habilidad de razonamiento verbal y de habilidad de razonamiento matemático. 2. Conocimientos disciplinarios, que se estructura con ocho subáreas relativas a las asignaturas del plan de estudios de educación secundaria: español, historia, geografía, formación cívica y ética, matemáticas, física, química y biología. El Ceneval otorga a las instituciones educativas una calificación global de los sustentantes, que es utilizada para seleccionar a los estudiantes que podrán ingresar a su oferta educativa. Esta calificación global se proporciona en una escala (índice Ceneval) que va de 700 a 1300 puntos, que es una transformación lineal del número total de aciertos obtenido por cada sustentante. Hasta finales de 2008, la calificación global del examen incluía a las 10 áreas evaluadas. Sin embargo, en 2009, con la intención de responder a las demandas de los usuarios, el exani-i fue modificado sustancialmente, convirtiéndolo en Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 45 un examen alineado al nuevo currículo de la secundaria, que ofrece una prueba para selección (examen normativo) y diversas opciones para diagnóstico (exámenes criteriales). Dado que aún no se cuenta con datos suficientes del exani-i de nueva generación, el ejemplo que presentamos considera información del 2008, aunque los resultados no se puedan generalizar para la nueva estructura del examen. Definición del ejemplo Objetivo Comprobar que la variable latente “habilidad académica” es un factor que puede explicar la asociación de los dominios que se evalúan en el exani-i . Descripción de las variables En este primer ejemplo se consideró la información de 1011 sustentantes que presentaron el exani-i en junio de 2008. Las variables manifiestas del modelo reportan el número de aciertos que obtienen los sustentantes del exani-i en cada una de las 10 áreas que se evalúan en el examen. En la tabla 5 se presentan los dominios que explora el exani-i , y el número de reactivos con los que se explora esa variable. 46 Cuaderno técnico 6 Tabla 5. Dominios evaluados por el exani-i Dominio Núm. de reactivos 1. Habilidad verbal (HV) 2. Español (ESP) 3. Historia (HIS) 4. Geografía (GEO) 5. Educación cívica y ética (FCE) 6. Habilidad matemática (HM) 7. Matemáticas (MAT) 8. Física (FIS) 9. Química (QUI) 10.Biología (BIO) 16 12 12 12 12 16 12 12 12 12 En la figura 6 se muestra gráficamente el modelo factorial que se comprobará mediante un factorial confirmatorio. Figura 6. Modelo unifactorial del exani-i HV ESP HIS GEO Habilidad académica FCE HM MAT FIS QUIM BIO Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 47 Análisis en spss Antes de iniciar el análisis factorial conviene que el investigador analice la estructura de correlación de las variables bajo estudio y obtenga algunos datos descriptivos. El paquete SPSS ofrece algunas opciones que permiten explorar los datos antes de realizar el análisis factorial. En esta sección mostraremos algunas de estas herramientas y mencionaremos su utilidad. En el módulo Reducción de Datos (Data Reduction) de spss se encuentra la opción para realizar el análisis factorial (Factor). En esta sección el paquete estadístico tiene la posibilidad de efectuar algunos análisis descriptivos. 48 Cuaderno técnico 6 Si presionamos el botón Descriptivos (Descriptives), aparecerá una ventana para seleccionar varias estadísticas relacionadas con la matriz de correlación generada por nuestros datos. Veamos qué información nos proporcionan algunas de sus opciones (esta información se desplegará una vez que se activaron las opciones y al momento de ejecutar el análisis factorial): Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 49 Coeficientes (Coeficients) Reporta la matriz de correlaciones entre las variables involucradas en nuestro estudio. Al analizarla podemos ver la magnitud de asociación entre las variables, identificando las variables que están muy asociadas (correlaciones altas) y las que no lo están (correlaciones bajas). Determinar si las correlaciones son fuertes o importantes depende del ámbito de aplicación y del tamaño de la muestra. En la tabla 6 se muestra la matriz de correlación de las variables de nuestro ejemplo. La primera tabla (Correlación) muestra las correlaciones entre las variables. El rango va de 0.558 (correlación entre habilidad matemática (HM) y matemáticas (MAT)) a 0.360 (correlación entre física (FIS) y educación cívica y ética (FCE)). En la segunda tabla (Sig. Unilateral) se aprecia que todas estas correlaciones son estadísticamente significativas (p-value=0). Estas correlaciones pueden considerarse como importantes en el ámbito de las investigaciones educativas. 50 Cuaderno técnico 6 Tabla 6. Matriz de correlaciones entre las variables que evalúa el exani-i Determinante de la matriz Una medida global de la correlación entre todas las variables la proporciona el Determinante de la matriz. Si este determinante está cercano a cero, será indicativo de que existe una estructura de correlación importante entre las variables, y el análisis factorial puede ser pertinente. En este conjunto de datos, el determinante (en la parte inferior izquierda de la tabla anterior) es: 0.021, que es cercano a cero, e indica que la estructura de correlación en este conjunto de variables es buena. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 51 kmo, una prueba de adecuación muestral La llamada medida de adecuación muestral (Measure of Sampling Adequacy)está definida por: Esta prueba es un índice que compara los coeficientes de correlación (r 2ij ) con los coeficientes de correlación parcial (r 2ij·m ). Esta última correlación es la correlación entre dos variables, eliminando el efecto de las restantes variables incluidas en el análisis. Entonces, si un par de variables está fuertemente correlacionada con el resto, la correlación parcial debe ser pequeña, ya que implica que buena parte de la correlación entre estas variables puede ser explicada por las otras variables en el análisis. Esto significa que está presente una fuerte estructura de correlación entre ellas y, por lo tanto, tiene sentido realizar el análisis de factores. En el ejemplo, el denominador de la expresión anterior será cercano en magnitud al numerador, puesto que la contribución de las correlaciones parciales es prácticamente nula, y el índice kmo estará cercano a uno. Por el contrario, si esta correlación parcial es grande, implica que estas variables tienen poca correlación con el resto, lo que significa una estructura de correlación débil entre el conjunto, y pone en tela de duda el análisis factorial. En este escenario, la contribución de las correlaciones parciales es importante, y el denominador será mucho mayor que el numerador, con kmo próximo a cero. Como regla empírica se considera que si kmo<0.6, es inadecuado realizar un análisis factorial a los datos. En la tabla 7 se muestra que el resultado de esta prueba fue de 0.94, lo que indica que sí conviene realizar el análisis factorial. 52 Cuaderno técnico 6 La prueba de esfericidad de Bartlett Si no hubiera estructura de correlación entre las variables involucradas en el análisis factorial, la matriz de correlación sería la matriz identidad, es decir, tendría ceros fuera de la diagonal (no habría correlación entre cualesquiera dos variables) y unos en la diagonal. Entonces, debemos probar –como parte fundamental para iniciar nuestro análisis factorial– que la matriz de correlaciones de nuestros datos es distinta de la identidad. A este respecto, la prueba de esfericidad de Bartlett contrasta la hipótesis nula de que la matriz de correlación es la identidad contra la hipótesis alternativa de que es distinta de la identidad. Desafortunadamente, esta prueba asume que las variables tienen una distribución normal multivariada, por lo que en muchas aplicaciones debe usarse únicamente como una referencia. Los resultados de esta prueba, en nuestro caso, pueden consultarse en la tabla 7. Tabla 7. Pruebas kmo y de esfericidad de Bartlett kmo y pruebas de Bartlett Medida de adecuación muestral de Kaiser-Meyer-Olkin Prueba de esfericidad de Bartlett 0.94 Chi-cuadrado aproximado gl Sig. 3872.928 45 .000 Ambas pruebas evidencian que la estructura de correlación entre nuestras variables es fuerte. Una vez que tenemos una idea de las variables que se encuentran asociadas y las que no, y que las pruebas kmo y de Bartlett nos indiquen que en general todas nuestras variables están correlacionadas, iniciaremos el análisis factorial de los datos. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 53 Estimación del modelo factorial En el módulo de análisis factorial se deberán especificar ciertas condiciones medulares antes de iniciar el análisis de los datos, tales como el número de factores y el método de extracción. Estas opciones pueden seleccionarse en la ventana Extracción (Extraction) que se despliega desde la ventana principal del Análisis factorial. Nota: El programa spss tiene seleccionado, por defecto, el método de extracción de Componentes principales. Sin embargo, este método representa un análisis conceptualmente diferente al análisis factorial común que se abordó en este cuaderno. Además, no debe confundirse con el método de Factorización de ejes principales que es el que utilizaremos en todos los ejemplos. Número de factores Existen dos posibilidades de análisis factorial: una es el análisis confirmatorio (cuando se desea probar una estructura factorial) y la otra es el análisis exploratorio (cuando se desconoce la estructura de factores). Cuando se realiza un análisis exploratorio se suele utilizar como criterio inicial retener en el análisis todos los factores cuyo Eigenvalor (Valor propio) asociado sea 54 Cuaderno técnico 6 mayor que uno. La razón para esta decisión es que, ya que el análisis se realiza con las variables estandarizadas, entonces cada una de ellas tiene varianza uno, por lo que se considera que si un factor no explica más varianza que la de una variable, entonces no tiene sentido considerarlo. Sin embargo, en el ejemplo que estamos trabajando realizaremos un análisis confirmatorio, dado que deseamos probar que las variables que se evalúan en el exani-i pueden ser ajustadas en una estructura unidimensional. Método de extracción Aquí decidiremos qué método de estimación debemos utilizar. Se acostumbra utilizar el de máxima verosimilitud, pero este método es muy demandante de supuestos que deben cumplir las variables bajo estudio. Un método menos demandante de supuestos –y por lo tanto más recomendable para las variables que se incorporarán en el modelo– es el método de Factorización de ejes principales (Principal axis factoring). Fue escogido para nuestro análisis de los datos. En la ventana Extracción (Extraction) se presentan opciones para elegir la matriz por utilizar: de correlación o covarianza. Asimismo, una ventana para desplegar la solución de los factores sin rotar y, finalmente, en esta parte del módulo se puede solicitar que en los resultados se incluya una gráfica de sedimentación (gráfica de codo o scree plot). Para llevar a cabo el análisis de los datos del ejemplo que estamos trabajando, elegimos las siguientes opciones: • Método: Factorización de ejes principales (Principal axis factoring) • Analizar: Matriz de correlación (correlation matrix) • Número de factores: 1 Como sólo tendremos un factor, no podremos rotarlo ni observar el gráfico de codo. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 55 Resultados del análisis Una vez seleccionadas las opciones para el análisis, debemos elegir las 10 variables que incluiremos y presionar el botón Aceptar en la pantalla principal de Análisis factorial. La tabla 8 muestra las comunalidades de las variables involucradas. Podemos observar que la proporción de varianza de cada variable (Extracción), que explica este factor, fluctúa entre 35% y 53.1%, lo que implica que una gran parte de estas varianzas no son explicadas por el factor. En la salida del paquete una columna denominada Inicial (Initial) corresponde al valor inicial utilizado por el proceso iterativo. En la tabla 9 se muestran los Eigenvalores asociados a cada factor, y su respectivo porcentaje de varianza explicada. Como nosotros sólo seleccionamos un factor, el porcentaje correspondiente es 44.448%, cercano al 60% recomendado en aplicaciones en Ciencias Sociales. 56 Cuaderno técnico 6 Tabla 8. Comunalidades del modelo unifactorial del exani-i Comunalidades Inicial Extracción HV ESP HIS GEO FCE HM MAT FIS QUI BIO .486 .465 .361 .389 .350 .449 .460 .324 .435 .358 .531 .522 .396 .427 .380 .483 .494 .350 .474 .392 Tabla 9. Total de la varianza explicada por el modelo unifactorial del exani-i Varianza total explicada Autovalores iniciales Factor Total % de la varianza % acumulado 1 2 3 4 5 6 7 8 9 10 4.996 .760 .678 .634 .569 .549 .493 .476 .447 .398 49.965 7.603 6.775 6.338 5.692 5.489 4.933 4.756 4.469 3.981 49.965 57.567 64.343 70.680 76.373 81.862 86.794 91.550 96.019 100.000 Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas Sumas de las saturaciones al cuadrado de la extracción Total % de la varianza 4.449 44.448 % acumulado 44.448 57 Finalmente, la tabla 10 muestra las cargas factoriales de cada una de las variables observadas con el factor. Estas cargas representan la correlación de la variable con el factor. En este caso, puede observarse que las cargas van de 0.591 a 0.729. El juicio sobre qué tan fuertes son estas correlaciones se deja a criterio del área de aplicación. En investigaciones educativas, estas correlaciones podrían considerarse como buenas, con lo que confirmamos que el exani-i tiene una estructurara unifactorial subyacente. Con los resultados del ejemplo podríamos concluir que la variable latente “habilidad académica” es suficiente para explicar la relación que mantienen las 10 variables manifiestas (dominios), así que brindar una calificación global del exani-i no resulta inadecuado, ya que todas las variables que se evalúan están asociadas entre sí. Tabla 10. Cargas factoriales de las variables manifiestas Matriz factoriala HV ESP HIS GEO FCE HM MAT FIS QUI BIO Factor 1 .729 .723 .629 .654 .616 .695 .703 .591 .688 .626 Método de extracción: Factorización del eje principal. a 1 factores extraídos. Requeridas 4 iteraciones. 58 Cuaderno técnico 6 Es muy importante que el investigador detecte si hay un grupo de variables con cargas factoriales bajas –un claro indicio de que esas variables no pueden ser explicadas por el factor. En este caso convendría revisar la teoría o evaluar otro modelo. Bondad de ajuste ¿Qué tan bien ajusta a los datos este modelo unifactorial? Para responder esta pregunta analizaremos la matriz de residuos (para desplegar esta matriz es necesario seleccionar la opción Reproducida (Reproduced) en la ventana Descriptivos (Descriptives). En la primera sección de la tabla 11, denominada Correlación reproducida, se muestra la matriz que reproduce el modelo con nuestro único factor extraído. La diagonal son las comunalidades (compárese con la tabla correspondiente). Los valores fuera de la diagonal son las correlaciones entre las variables, reproducidas por el modelo unifactorial. Para juzgar qué tan bien las reproduce, observamos la segunda sección de la tabla: Residual. La diagonal, no mostrada en la salida, debe ser la especificidad de cada variable (1 - comunalidad). Si la calculamos, confirmaremos que mucha de la varianza de nuestras variables no es explicada por el modelo. En la tabla 11 se observa que únicamente 8% de las diferencias entre las correlaciones observadas y calculadas por este modelo de un factor sobrepasan el corte por defecto de spss (0.05), lo que establece un buen ajuste sobre las correlaciones entre las variables. Desafortunadamente, spss no despliega una prueba formal sobre el ajuste que se logra con este factor, así que no podemos determinar si es suficiente para lograr un buen ajuste. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 59 Tabla 11. Matriz de correlaciones reproducidas por el modelo Puntajes factoriales Finalmente, podemos obtener los puntajes que le corresponden a cada uno de los individuos en la base, dado el modelo unifactorial. En este paquete se encuentran en la ventana Puntuaciones (Scores) y contiene tres opciones: Regresión (Regression), Bartlett y Anderson-Rubin. Las dos primeras fueron descritas previamente. Estos puntajes podrían ser de utilidad en algún análisis posterior. 60 Cuaderno técnico 6 Análisis en R ¿Por qué realizar este análisis con este software gratuito? La justificación radica en el hecho de que, además de ser libre (http://www.gnu.org), en este momento es uno de los paquetes más utilizados en la investigación estadística. El programa R es mantenido y actualizado esencialmente por la comunidad de investigadores en estadística, lo que le sitúa a la vanguardia de los desarrollos recientes en esta disciplina. Una característica que comparte con s-plus es la enorme riqueza gráfica que posee. Intentemos rehacer en este paquete todos los pasos que hicimos en spss. Importa aclarar que R funciona a base de comandos, así que hay que escribirlos para ejecutarlos. En seguida se presentan los principales resultados del análisis y en el anexo 1 se describen las instrucciones para obtenerlos. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 61 Descriptivos Tabla 12. Matriz de correlaciones con niveles de significancia HV ESP HIS GEO FCE HM MAT FIS QUI BIO HV 1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 ESP 0.546 1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 HIS 0.487 0.453 1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 GEO 0.516 0.454 0.428 1.000 0.000 0.000 0.000 0.000 0.000 0.000 FCE 0.494 0.453 0.424 0.429 1.000 0.000 0.000 0.000 0.000 0.000 HM 0.511 0.525 0.396 0.457 0.386 1.000 0.000 0.000 0.000 0.000 MAT 0.465 0.510 0.394 0.472 0.392 0.558 1.000 0.000 0.000 0.000 FIS 0.374 0.438 0.367 0.365 0.360 0.422 0.439 1.000 0.000 0.000 QUI 0.476 0.475 0.429 0.408 0.401 0.466 0.513 0.459 1.000 0.000 BIO 0.449 0.433 0.420 0.392 0.385 0.408 0.437 0.361 0.490 1.000 Obsérvese que por arriba de la diagonal están los niveles de significancia y, por debajo, las correlaciones entre pares de variables. • Determinante de la matriz de correlaciones 0.0212698 • La prueba kmo arroja el siguiente valor 0.9131283 • Prueba de esfericidad de Bartlett El estadístico de prueba en este caso es: 62 Cuaderno técnico 6 con n, el número de individuos en el estudio, p el número de variables, y |R|, el determinante de la matriz de correlación. En nuestro caso tenemos: n =1011, p=10 y |R|=0.0212698 Tras realizar los cálculos obtenemos: T = 3872.928, que al comparar contra una χ2(45), nos proporciona un p-value de cero. Todos los análisis mostrados indican que es adecuado realizar el análisis factorial. Implementaremos un análisis confirmatorio con un único factor y método de extracción: Factorización de ejes principales. Al hacerlo en R, obtenemos los siguientes resultados: f.solЅ/values 4.449 0.195 0.118 0.029 0.005 -0.038 -0.049 -0.066 -0.080 -0.114 f.solЅ/rotation "none" f.solЅ/n.obs 1011 f.solЅ/communality HV ESP HIS GEO FCE HM MAT FIS QUI BIO 0.531 0.522 0.396 0.427 0.380 0.483 0.494 0.350 0.474 0.392 f.solЅ/loadings Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 63 Loadings: PA1 HV 0.729 ESP 0.723 HIS 0.629 GEO 0.654 FCE 0.616 HM 0.695 MAT 0.703 FIS 0.591 QUI 0.688 BIO 0.626 PA1 SS loadings 4.449 Proportion Var 0.445 f.solЅ/residual 64 HV ESP HIS GEO FCE HV 0.469 0.019 0.028 0.040 0.045 ESP 0.019 0.478 -0.002 -0.019 0.007 HIS 0.028 -0.002 0.604 0.017 0.036 -0.041 -0.049 -0.005 -0.004 0.026 GEO 0.040 -0.019 0.017 0.573 0.026 FCE 0.045 0.007 0.026 0.620 -0.042 -0.041 -0.005 -0.023 0.000 0.036 HM MAT FIS QUI BIO 0.005 -0.047 -0.057 -0.025 -0.007 0.022 0.002 0.002 0.011 -0.023 -0.020 0.013 -0.022 -0.042 -0.017 HM 0.005 0.022 -0.041 0.002 -0.042 0.517 0.070 0.011 -0.012 -0.027 MAT -0.047 0.002 -0.049 0.013 -0.041 0.070 0.506 0.023 0.029 -0.003 FIS -0.057 0.011 -0.005 -0.022 -0.005 0.011 0.023 0.650 0.052 -0.009 QUI -0.025 -0.023 -0.004 -0.042 -0.023 -0.012 0.029 0.052 0.526 0.059 BIO -0.007 -0.020 0.026 -0.017 0.000 -0.027 -0.003 -0.009 0.059 0.608 Cuaderno técnico 6 f.solЅ/fit 0.885 f.solЅ/fit.off 0.995 f.solЅ/dof 35 f.solЅ/objective 0.1269227 f.solЅ/statistic 123.3586 f.solЅ/pval 8.903534e-12 f.solЅ/communality.iterations 4.996 4.503 4.454 4.449 4.449 La identificación de los elementos mostrados en la salida es: Values: Eigenvalores de la matriz. En nuestro caso, sólo es de interés el primer eigenvalor, 4.449 asociado a nuestro único factor. Rotation: Indica el tipo de rotación que se eligió. Cuando se extrae un solo factor, no existe posibilidad de rotación, por eso se indicó none. n.obs: Número de observaciones en la base de datos. Communality: Las comunalidades de cada variable en el modelo. Loadings: Las cargas factoriales de cada variable. SS loading y proportion Var: El eigenvalor y la proporción de varianza asociados al factor extraído. Residuals: La matriz de residuos, que resulta de restar a la matriz original, la matriz reproducida por el modelo. Observamos que en la diagonal aparecen las especificidades de cada variable, cuyo rango va de 0.469 a 0.650, que comprueba que mucha de la varianza de cada variable no es explicada por el modelo unifactorial. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 65 fit: Medida de bondad de ajuste del modelo. Esta medida estima el grado de reducción en la matriz correlación, que logra el modelo. Una reducción óptima sería 1. fit.off: Medida de bondad de ajuste del modelo, para los elementos fuera de la diagonal de la matriz de correlación. Es decir, qué tan bien ajusta el modelo a las correlaciones entre variables, y no a la correlación de cada variable. dof: Grados de libertad, que es el número de correlaciones observadas no redundantes, menos el número de parámetros independientes en el modelo en este caso, tenemos p =10 y k =1, por lo que tenemos 35 g.l. objective: Valor que toma la función que se va a maximizar por el método de máxima verosimilitud, cuando se evalúa en los puntos máximos encontrados. Se usa para calcular la prueba de bondad de ajuste. statistic: Esta estadística se basa en el valor de la función (objective=f ), y es similar a la prueba de Bartlett. y se usa para probar si el número de factores extraído proporciona una bondad de ajuste adecuada. pval: El valor de significancia descritivo ( p- value) asociado a la estadística anterior. Como podemos observar, este valor indica que un factor no es suficiente para explicar totalmente la estructura de correlación de nuestros datos. Communality.iterations: Historia de las iteraciones de las comunalidades. scores ( f.solЅ/scores): Guarda los puntajes factoriales de los sujetos, por cada uno de los factores extraídos. 66 Cuaderno técnico 6 Como hemos observado, es posible reproducir los resultados del análisis factorial que obtuvimos a través de spss, utilizando R. Observamos que no todos estos resultados están disponibles de forma automática; para generar algunos de ellos tuvimos que recurrir a programas sencillos. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 67 Capítulo V Aplicación con variables discretas Objetivo C omprobar que el dominio de Matemáticas del exani-ii es un constructo unidimensional. Descripción de las variables Este ejemplo utiliza una base de datos de los sustentantes del Examen Nacional de Ingreso a la Educación Superior (exani-ii). En esta ocasión las variables manifiestas son los reactivos de opción múltiple que exploran el dominio, de modo que la base de datos está conformada por vectores que incluyen valores de 0 y 1. Se asignó 1 a la respuesta correcta y 0 a la incorrecta. Evaluaremos la dimensionalidad del constructo de Matemáticas, que es explorado con 16 preguntas. Desafortunadamente, el paquete spss no considera la escala de medición de las variables en el análisis de factores; por ende, no es un programa que pueda ser usado cuando las variables manifiestas son discretas (ordinales o dicotómicas). En su lugar, usaremos statistica (otro paquete estadístico comercial), que sí permite realizar el análisis con este tipo de variables, pero que no calcula los puntajes factoriales asociados a cada sujeto en la base. Como en el área de educación se presentan muchos casos en los que las variables se miden en escala dicotómica (respuesta correcta o incorrecta), mostraremos detalladamente el uso de este paquete para construir un factor con este tipo de variables. Lo primero que debemos mencionar es que para considerar la escala dicotómica de las variables, es necesario construir una matriz de correlaciones tetracórica (véase la tabla correspondiente). La correlación tetracórica estima la correlación de Pearson que obtendríamos si las variables fueran medidas Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 69 en escala continua. En otras palabras, la correlación tetracórica de nuestras variables dicotómicas observadas es igual a la correlación de Pearson entre sus correspondientes variables latentes continuas. La base de datos La siguiente pantalla muestra un segmento de la base de datos: Como queremos realizar el análisis factorial, a partir de la matriz de correlaciones tetracóricas, debemos calcularla antes de hacer la extracción del factor. statistica no construye estas matrices en su módulo de análisis de factores, pero la calcula en el modulo de confiabilidad. La trayectoria que hay que seguir es: Statistics → Multivariate Exploratory Techniques → Reliability / Item Analysis. 70 Cuaderno técnico 6 Activando este último menú, se despliega la siguiente ventana: Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 71 En Variables vamos a seleccionar las variables que intervendrán en este análisis. La activamos y aparecen los nombres de las variables en nuestra base, como se muestra en la siguiente ventana: Seleccionamos las 16 variables correspondientes a los reactivos de Matemáticas (Mat_1 a Mat_16) y presionamos el botón OK. Ahora aparece la siguiente ventana: 72 Cuaderno técnico 6 Observemos que aparece el rango de variables que elegimos. En seguida, seleccionamos la pestaña Advanced y tenemos la ventana siguiente: En este punto, en Correlation matrix seleccionamos Tetrachoric r (quick cos p approx.) Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 73 Calculamos la matriz tetracórica pulsando OK y tenemos la siguiente ventana: Observamos que se ha calculado la matriz que se deseaba: tetracórica. Pulsamos Matrix y Matrix en la siguiente pantalla, para que se despliegue la matriz: 74 Cuaderno técnico 6 Manteniendo abierta esta ventana, realizamos la trayectoria: Statistics → Multivariate Exploratory Techniques → Factor Analysis. Con esto se desplegará la siguiente ventana: Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 75 Observemos que en Input file aparece seleccionada la opción Correlation Matrix, que significa que tomará la matriz tetracórica que calculamos, para realizar el análisis de factores correspondiente. Pulsamos Variables y aparecerá: En esta ventana hay que seleccionar las variables que intervendrán en el análisis de factores. Seleccionamos todas las variables y pulsamos OK. 76 Cuaderno técnico 6 En la ventana del análisis factorial aparecerá marcado ALL después de Variables, para indicar que hemos elegido todas las variables de la matriz de correlación tetracórica, para realizar el análisis. Nuevamente pulsamos OK y obtenemos la siguiente ventana: En Maximum no. of factors ajustamos a un factor y después seleccionamos la pestaña Advanced: Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 77 Elegimos el método de extracción: Principal axis method, y ejecutamos el análisis presionando el botón OK. Aparecerá la siguiente ventana: 78 Cuaderno técnico 6 Observamos que se realizó el proceso con 16 variables. El método de extracción fue el seleccionado (Principal axis factoring). El número de factores extraídos es uno con un eigenvalor asociado de 7.83974. Pero éste no es todo el despliegue de resultados: observamos otras opciones de información en Explained variance, Loading, Scores, Descriptive, Eigenvalues y Summarary factor loadings. Veamos qué contiene cada una de estas posibilidades. Al activar el menú Explained variance tenemos la siguiente ventana: Que contiene tres menús: • Eigenvalues: Despliega los eigenvalores, que sirven para calcular el porcentaje de varianza que explica cada factor, y el porcentaje que explica un conjunto de factores. • Communalities: Contiene las comunalidades de cada variable, es decir, la varianza de cada variable que es explicada por este único factor. • Reproduced/residual corrs: Contiene la matriz de correlaciones reproducida por el modelo y la matriz resultante de restar las correlaciones reproducidas de Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 79 las correlaciones observadas (matriz de residuos). Obsérvese que se recalcarán en color rojo las diferencias mayores a 0.1. Este punto de corte puede modificarse en el menú correspondiente. Mostramos en seguida las tres pantallas descritas: Obsérvese que sólo 48.99% de la varianza es explicada por este factor. 80 Cuaderno técnico 6 Las comunalidades (From 1 Factor) oscilan entre 0.166344 (Mat_9) y 0.806765 (Mat_1), lo que significa que una cantidad considerable de la varianza de estas variables es explicada por el factor extraído. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 81 Matriz de correlaciones reproducida: 82 Cuaderno técnico 6 Matriz de residuales: En esta última pantalla aparecen las diferencias entre las correlaciones observadas y las reproducidas por el modelo. Como ninguna diferencia es superior a 0.1, nada aparece marcado de color rojo. Si queremos tomar el mismo criterio que tiene por defecto spss, debemos ajustar esta diferencia a 0.05, con lo que obtendríamos la siguiente matriz: Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 83 Podemos observar que el número de diferencias mayores a 0.05 es de 22, que representa aproximadamente 9% del total de correlaciones. La siguiente ventana es Loadings: 84 Cuaderno técnico 6 En esta ventana se muestra la opción Summary Factor Loadings que servirá para mostrar las cargas factoriales. Pero además aparece la opción Highlight factor loadings greather than que permitirá establecer un punto de corte a partir del cual se señalarán con color rojo las cargas factoriales; por defecto esta opción muestra el valor de 0.70. Este punto de corte es excesivo en áreas como la educativa, en donde se asume que una carga mayor que 0.3 es importante. Presentamos en la siguiente pantalla los resultados de estos menús, señalando las cargas mayores de 0.3 (en valor absoluto): Observemos que ninguna variable está por debajo de este punto de corte (de hecho la carga más baja fue de -0.4078, para el reactivo 9), lo que implica que la formación de este factor resulta, en principio, una decisión adecuada. Todas las cargas factoriales resultan negativas, hecho curioso ya que esperaríamos correlaciones Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 85 positivas de las variables con el factor. Una simple reflexión de las cargas factoriales las haría positivas, para que estuvieran más acorde con lo esperado. Finalmente, el menú de Scores ofrece la opción Factor score coeficients, Factor scores y Save factor scores. Estos dos últimos menús permiten ver los puntajes factoriales asignados a cada observación en la base, además de que permite salvarlas como nuevas variables, para usos posteriores. Como adelantamos, statistica no construye los puntajes factoriales cuando se trabaja a partir de una matriz de correlaciones tetracóricas, por lo que estos dos menús no están activados. Análisis en R El reto para realizar el análisis factorial con variables discretas es calcular la matriz que corresponda, en este caso, a variables medidas en escala dicotómica, es decir, una matriz de correlaciones tetracóricas. Para hacer este análisis en R, hay que llamar al paquete polycor para calcular la matriz tetracórica. Y posteriormente analizarla con cualquiera de las rutinas para hacer análisis factorial. Al igual que en el ejemplo con variables continuas, a continuación presentaremos los resultados del análisis y en el anexo 1 proporcionaremos las instrucciones necesarias para llevarlo a cabo. • Matriz de correlaciones tetracóricas Dado el tamaño de esta matriz, no conviene desplegarla. Está guardada en la variable tetra.corre. • Estadística kmo 0.874379 • Determinante de la matriz 0.0003244013 86 Cuaderno técnico 6 Tanto el determinante de la matriz como la estadística kmo sugieren que el análisis factorial puede ser adecuado para estas variables. Los resultados del análisis factorial están guardados en el objeto: f.cat, para saber qué elementos componen este objeto, tecleamos: names(f.cat) "values” "rotation" "n.obs" "communality" "loadings" "residual" "fit" "uniquenesses" "fit.off" "dof" "objective" "criteria" "statistic" "pval" "communality. iterations" "factors" Varios de estos elementos han sido discutidos con anterioridad. Resultados del análisis factorial f.catЅ/values 7.147 0.307 0.194 0.112 0.094 0.048 0.041 -0.002 -0.026 -0.051 -0.075 -0.081 -0.097 -0.124 -0.157 -0.182 Sólo nos interesa el primer eigenvalor: 7.147 f.catЅ/rotation "none" No realizamos rotaciones, ya que extrajimos un solo factor f.catЅ/n.obs 3943 Trabajamos con 3943 sujetos en la base f.catЅ/communality M1 M2 M3 M4 M5 M6 M7 M8 0.690 0.708 0.275 0.696 0.381 0.608 0.352 0.226 M9 M10 M11 M12 M13 M14 M15 M16 0.156 0.385 0.544 0.529 0.344 0.395 0.265 0.592 Las comunalidades muestran poca varianza explicada por este factor, para algunas de las variables del análisis. f.catЅ/loadings Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 87 Loadings: PA1 M1 0.831 M2 0.842 M3 0.524 M4 0.835 M5 0.617 M6 0.780 M7 0.593 M8 0.475 M9 0.395 M10 0.621 M11 0.737 M12 0.727 M13 0.586 M14 0.628 M15 0.515 M16 0.770 PA1 SS loadings 7.147 Proportion Var 0.447 Las cargas factoriales están, en general, por arriba de 0.3. Ninguna muestra una carga menor a este punto de corte. La proporción de varianza que explica este factor es del 44.7%. f.catЅ/fit 0.912 f.catЅ/fit.of 0.995 88 Cuaderno técnico 6 Se tiene un buen ajuste fuera de la diagonal de la matriz, es decir, el modelo de factores reproduce bien las correlaciones entre las variables, y hay un buen grado de reducción de la matriz de correlación, ya que el valor de fit está cercano a uno. f.catЅ/uniquenesses M1 M2 M3 M4 M5 M6 M7 M8 0.310 0.292 0.725 0.304 0.619 0.392 0.648 0.774 M9 M10 M11 M12 M13 M14 M15 M16 0.844 0.615 0.456 0.471 0.656 0.605 0.735 0.408 Algunas de las varianzas específicas son muy grandes, lo que confirma la poca explicación del factor sobre las varianzas de ciertas variables. f.catЅ/dof 104 f.catЅ/objective 0.5111483 f.catЅ/STATISTIC 2008.113 f.catЅ/PVAL 0.00 Este último valor ( pval) evidencia que un solo factor no es suficiente para explicar las asociaciones entre las variables. Finalmente, la función que utilizamos para realizar este análisis ( factor.pa) no construye de forma automática los puntajes factoriales de los sujetos en la base. Lo que debemos hacer es utilizar algunos de los elementos que ya tenemos, para construir “paso a paso” dichos puntajes. En seguida mostramos los puntajes de los primeros 20 individuos en la base: factores[1:20] Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 89 1.1954 1.0955 1.1349 0.9218 1.1192 1.1684 1.2468 1.1312 1.0182 1.3128 1.2650 1.3128 1.2344 1.1954 1.3128 1.2793 1.0053 1.0749 1.2087 1.2564 Un comentario final El objetivo de este trabajo fue mostrar la teoría que sustenta el análisis de factores, de uso común en las investigaciones educativas. Asimismo, se ejemplificaron, con casos prácticos, los elementos que se desprenden de este análisis. Estos ejemplos se presentaron en los paquetes estadísticos spss, statistica y r. 90 Cuaderno técnico 6 Bibliografía Bartholomew, D.J. et al. (2000). The analysis and interpretation of multivariate data for social scientists. Boca Raton, Florida: Chapman & Hall/CRC. Bartholomew, D.J. y Knott, M. (1999). Latent Variable Models and Factor Analysis. London: Arnold Publishers. Brown, T.A. (2006). Confirmatory Factor Analysis for Applied Research. Nueva York: The Guilford Press. Everitt, B.S. y Graham, D. (2001). Applied Multivariate Data Analysis. Nueva York: Oxford University Press. Hair, J.F. et al. (1999). Análisis Multivariante (E. Prentice & D. Cano, trads.). Madrid, España: Pearson/Prentice Hall. (Trabajo original publicado en 1998). Kaplunovsky, A.S. (2006). Why using factor analysis? (dedicated to the centenary of factor analysis). Israel: Holon Academic Institute of Technology, Research Center for Quantum Communication Engineering. Pett, M.A. et al. (2003). Making Sense of Factor Análisis: The Use of Factor Analysis for Instrument Development in Health Care Serearch. California: SAGE. Spearman, C. (1904). General Intelligence, objectively determined and mesured. Illinois: American Journal of Psychology. Thurstone, L.L. (1935). The vectors of mind. Illinois: University of Chicago Press. Thurstone, L.L. (1938). Primary mental abilities. Illinois: University of Chicago Press. Yanai, H. y Ichikawa, M. (2007). Factor analysis. En C. R. Rao y S. Sinharay (Eds.), Handbook of statistics: Vol. 26. Psychometrics (pp. 257–296). Amsterdam: North-Holland. Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 91 Anexo I Códigos en R E n seguida se muestra el código utilizado para los dos ejemplos del paquete R. Se recomienda al lector que intente reproducir esta secuencia de instrucciones con sus propios datos, para que pueda apreciar el despliegue de información que proporciona este paquete. Para desplegar los resultados es suficiente teclear el nombre de la variable donde están guardados; (a<- b) significa que en a se guardan los resultados generados por la instrucción b. Si no hay esta asignación, el resultado se despliega en la pantalla del paquete. Cuando el paquete básico de R no posee alguna rutina se puede recurrir a paquetes especializados, que se cargan a voluntad del usuario. Una forma simple de cargar estos paquetes es con la instrucción: install.packages (“nombre del paquete”), para lo que se necesita estar conectado a Internet. La secuencia de instrucciones #Instrucciones para los ejemplos en R #Ejemplo con variables continuas # Importar datos de un archivo .dat ceneval<-read.table("C:/Documents and Settings/guero/Desktop/facejem.dat",header=TRUE) #Se selecciona la sub base de interés: De la variable 33 a la 42. EJ1<-ceneval[,33:42] # Función que calcula la matriz de correlación y su nivel de significancia corProb <- function(X, dfr = nrow(X) - 2) { R <- cor(X) above <- row(R) < col(R) r2 <- R[above]^2 Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 93 Fstat <- r2 * dfr / (1 - r2) R[above] <- 1-pf(Fstat, 1, dfr) class(R) <- "corProb" R } #Se ejecuta la función con la matriz de datos corr.sig<-corProb(EJ1,nrow(EJ1)-2) # Se da formato a la matriz de correlación, identificando las variables que la constituyen EJ1.matrix<-matrix(corr.sig,nrow=10,ncol=10,byrow=TRUE, list(c("HV","ESP","HIS","GEO","FCE","HM","MAT","FIS","QUI","BIO"),c(" HV","ESP","HIS","GEO","FCE","HM","MAT","FIS","QUI","BIO"))) # Se despliega la matriz con los valores redondeados a tres cifras. mat.corre<-round(EJ1.matrix,digits=3) # Función que calcula el valor del estadístico KMO kmo.test <- function(M){ library(corpcor) cor.sq = cor(M)^2 cor.sumsq = (sum(cor.sq)-dim(cor.sq)[1])/2 pcor.sq = cor2pcor(cor(M))^2 pcor.sumsq = (sum(pcor.sq)-dim(pcor.sq)[1])/2 kmo = sum(pcor.sq)/(sum(pcor.sq)+pcor.sumsq) return(kmo) } #Se ejecuta la función con la matriz de correlación de nuestros datos. kmo.test(EJ1.matrix) #Se calcula el determinante de la matriz det(EJ1.matrix) # Paquete que permite el uso del método de principal axis factor 94 Cuaderno técnico 6 library(psych) # Se corre el análisis a partir de la base de datos: EJ1 f.sol<-factor.pa( EJ1,nfactors=1,residuals=TRUE, rotate="none",n. obs=1011,min.err=0.001,digits=3,max.iter=50,scores=TRUE) =============================================== ========================================= #Ejemplo con variables dicotómicas # Base que contiene las variables dicotómicas cencat<-read.table("C:/Documents and Settings/USUARIO/Desktop/BASEMAT.txt",header=TRUE,colClasses="factor") # Paquete que permite el cálculo de la matriz tetracórica library(polycor) #Paquete para extraer los factores a través del método de factores principales (principal axis) library(psych) # Cálculo de la matriz tetracórica con las 16 variables en la base: M1-M16 cor.mat2<-hetcor(cencat[,1:16],ML=FALSE,digits=3) # Se le da formato a la matriz anterior # Se redondean los resultados de esta matriz a tres dígitos mat.cor2<-matrix(cor.mat2$correlations,nrow=16,ncol=16,byrow=TRUE, list(c("M1","M2","M3","M4","M5","M6","M7","M8","M9","M10","M11","M12"," M13","M14","M15","M16"), c("M1","M2","M3","M4","M5","M6","M7","M8","M 9","M10","M11","M12","M13","M14","M15","M16"))) tetra.corre<-round(mat.cor2,digits=3) # Función que calcula el estadístico KMO kmo.test <- function(M){ library(corpcor) cor.sq = cor(M)^2 cor.sumsq = (sum(cor.sq)-dim(cor.sq)[1])/2 Análisis factorial: una técnica para evaluar la dimensionalidad de las pruebas 95 pcor.sq = cor2pcor(cor(M))^2 pcor.sumsq = (sum(pcor.sq)-dim(pcor.sq)[1])/2 kmo = sum(pcor.sq)/(sum(pcor.sq)+pcor.sumsq) return(kmo) } kmo.test(tetra.corre) det(tetra.corre) # Extracción de los factores por el método de principal axis factor y a partir de la matriz de correlaciones f.cat<-factor.pa(tetra.corre,nfactors=1,residuals=TRUE,rotate="none", n.obs=3943,min.err=0.0001,digits=3,max.iter=50) #Todos los resultados que guarda el objeto f.cat. Para ver cada resultado hay que escribir f.cat$nombre names(f.cat) #Para construir los puntajes factoriales, cargamos la base pero sin declarar como factores(STRINGS) a las variables X<-read.table("C:/Documents and Settings/USUARIO/Desktop/BASEMAT.txt",header=TRUE) #Vamos a construir "a mano" los factores. R<-tetra.corre L<-f.cat$loadings Y<-X[,1:16] factores<-t(t(L)%*%solve(R)%*%t(Y)) 96 Cuaderno técnico 6 El Centro Nacional de Evaluación para la Educación Superior es una asociación civil sin fines de lucro constituida formalmente el 28 de abril de 1994, como consta en la escritura pública número 87036 pasada ante la fe del notario 49 del Distrito Federal. Sus órganos de gobierno son la Asamblea General, el Consejo Directivo y la Dirección General. Su máxima autoridad es la Asamblea General, cuya integración se presenta a continuación, según el sector al que pertenecen los asociados, así como los porcentajes que les corresponden en la toma de decisiones: Asociaciones e instituciones educativas (40%): Asociación Nacional de Universidades e Instituciones de Educación Superior, A.C. (ANUIES); Federación de Instituciones Mexicanas Particulares de Educación Superior, A.C. (FIMPES); Instituto Politécnico Nacional (IPN); Instituto Tecnológico y de Estudios Superiores de Monterrey (ITESM); Universidad Autónoma del Estado de México (UAEM); Universidad Autónoma de San Luis Potosí (UASLP); Universidad Autónoma de Yucatán (UADY); Universidad Nacional Autónoma de México (UNAM); Universidad Popular Autónoma del Estado de Puebla (UPAEP); Universidad Tecnológica de México (UNITEC). Asociaciones y colegios de profesionales (20%): Barra Mexicana Colegio de Abogados, A.C.; Colegio Nacional de Actuarios, A.C.; Colegio Nacional de Psicólogos, A.C.; Federación de Colegios y Asociaciones de Médicos Veterinarios y Zootecnistas de México, A.C.; Instituto Mexicano de Contadores Públicos, A.C. Organizaciones productivas y sociales (20%): Academia de Ingeniería, A.C.; Academia Mexicana de Ciencias, A.C.; Academia Nacional de Medicina, A.C.; Fundación ICA, A.C. Autoridades educativas gubernamentales (20%): Secretaría de Educación Pública. • Ceneval, A.C.®, EXANI-I®, EXANI-II® son marcas registradas ante la Secretaría de Comercio y Fomento Industrial con el número 478968 del 29 de julio de 1994. EGEL®, con el número 628837 del 1 de julio de 1999, y EXANI-III®, con el número 628839 del 1 de julio de 1999. • Inscrito en el Registro Nacional de Instituciones Científicas y Tecnológicas del Consejo Nacional de Ciencia y Tecnología con el número 506 desde el 10 de marzo de 1995. • Organismo Certificador acreditado por el Consejo de Normalización y Certificación de Competencia Laboral (CONOCER) (1998). • Miembro de la International Association for Educational Assessment. • Miembro de la European Association of Institutional Research. • Miembro del Consortium for North American Higher Education Collaboration. • Miembro del Institutional Management for Higher Education de la OCDE. La publicación de esta obra la realizó el Centro Nacional de Evaluación para la Educación Superior, A.C. Se terminó de imprimir el 29 de octubre de 2010 en los talleres de Winkilis, Bugambilias 131, Col. El Rosario, México, D.F., C.P. 09930, con un tiraje de 500 ejemplares