Índice general 3. Análisis Factorial 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Fases en el Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Definición del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Hipótesis del modelo. Modelo Factorial Ortogonal y Oblicuo . . . . . . . . . . . . 3.5. Modelo Factorial Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6. Estimación del modelo factorial. Caso ortogonal . . . . . . . . . . . . . . . . . . . 3.6.1. Método de las Componentes Principales . . . . . . . . . . . . . . . . . . . 3.6.2. Método del Factor Principal . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.3. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . 3.7. Número de factores que conservar . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8. Rotaciones factoriales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.1. Rotaciones ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.2. Rotaciones oblicuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9. Puntuaciones factoriales o factor scores . . . . . . . . . . . . . . . . . . . . . . . 3.9.1. Cálculo de las puntuaciones mediante Mı́nimos Cuadrados . . . . . . . . . 3.9.2. Cálculo de las puntuaciones mediante métodos de regresión condicionada 3.10. Algunas consideraciones sobre las interpretaciones . . . . . . . . . . . . . . . . . 3.11. Algunos comentarios adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.11.1. Análisis Factorial y Análisis de Componentes Principales . . . . . . . . . 3.11.2. Análisis Factorial Exploratorio y Confirmatorio . . . . . . . . . . . . . . . 3.11.3. Análisis Factorial tipo R y tipo Q . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 5 6 7 8 9 9 10 11 11 12 12 13 13 14 14 15 15 16 16 2 Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz Capı́tulo 3 Análisis Factorial 3.1. Introducción El Análisis Factorial es una técnica multivariante cuyos orı́genes hay que buscarlos a principios del siglo XX en los estudios de Karl Pearson y Charles Spearman sobre la inteligencia, distinguiéndose en la misma un factor general y un cierto número de factores especı́ficos. Debido a este hecho el Análisis Factorial fue desarrollado en sus principios por cientı́ficos interesados en medidas psicométricas. Paradójicamente, visto hoy dı́a, los argumentos sobre las interpretaciones psicológicas de los estudios pioneros ası́ como la falta de facilidades computacionales impidieron su desarrollo como un método estadı́stico. La aparición de rápidos ordenadores ha ayudado en gran manera a profundizar en los aspectos teóricos y computacionales, abandonándose técnicas originales al mismo tiempo que se han disipado gran parte de las dudas y controversias originales. El propósito esencial del Análisis Factorial es descubrir, si es posible, las relaciones existentes entre diversas variables y expresarlas en términos de unas pocas cantidades aleatorias subyacentes, pero no observables, llamada factores. La motivación general asociada a esta técnica puede describirse si suponemos que las variables en estudio pueden ser agrupadas según sus correlaciones de tal forma que las variables pertenecientes a un mismo grupo están altamente correladas entre ellas pero tienen bajas correlaciones con las variables de un grupo diferente. De esta forma es concebible que cada grupo de variables represente una construcción simple o factor que es responsable de las correlaciones observadas. Esta es una cuestión vital puesto que una parte importante del contenido de cualquier área de la ciencia consiste en mostrar qué elementos están relacionados entre sı́ y cómo es esta relación. En este orden de cosas, en determinadas ciencias, las variables que se relacionan están definidas con precisión y son ampliamente aceptadas por la comunidad cientı́fica como las variables que merecen ser estudiadas. En múltiples casos las variables están especificadas de forma exacta mediante relaciones matemáticas pero en otros casos las variables están definidas con menos precisión, sin existir un acuerdo total entre los cientı́ficos respecto a los aspectos anteriormente mencionados. En este sentido el Análisis Factorial representa un cuerpo de doctrina que puede ayudar a los cientı́ficos a definir sus propias variables con mayor precisión y decidir cuáles merece la pena estudiar y relacionar, al mismo tiempo que puede ayudar a comprender mejor las interrelaciones cuando son muchas las variables ante las cuales uno ha de enfrentarse. El Análisis Factorial puede ser considerado como una extensión del Análisis de Componentes Principales. Ambos tienen en común aproximar la estructura de covarianza asociada al problema en estudio si bien la aproximación dada por el Análisis Factorial es bastante más elaborada. 3 4 Francisco Torres Ruiz 3.2. Fases en el Análisis Factorial Si bien se ha establecido que el fin primordial del Análisis Factorial es investigar, a partir de las medidas de un conjunto de variables, qué dimensiones pueden usarse para explicar las interrelaciones existentes entre las mismas (Análisis Factorial Exploratorio), no es esta la única posible utilidad de esta técnica multivariante. Por ejemplo, uno puede desear probar una teorı́a sobre el número y naturaleza de los factores necesarios para explicar las interrelaciones entre las variables que está estudiando o bien puede desear verificar hallazgos previos usando una nueva muestra de la misma población o una muestra de una población diferente (Análisis Factorial Confirmatorio). Cualesquiera que sean los objetivos del análisis, habrá que seguir los siguientes pasos: 1. Seleccionar las variables. 2. Calcular la matriz de covarianzas o la de correlaciones de las variables. 3. Extraer los factores. 4. Rotar los factores. 5. Interpretar la matriz de factores rotados. Por lo tanto el punto de partida del Análisis Factorial es la matriz de covarianzas o de correlaciones muestrales calculada a partir de la muestra obtenida de las variables en estudio. Cuando hay un gran número de variables y muchas correlaciones significativas entre ellas, es prácticamente imposible explicar el complejo entramado de interrelaciones existentes. El Análisis Factorial proporciona un medio para estudiar estas interrelaciones postulando la existencia de factores o dimensiones subyacentes que explican los valores que aparecen en la matriz de correlaciones. Para fijar ideas y a tı́tulo de ejemplo podemos pensar que un factor tamaño puede explicar la correlación entre el peso y la altura y lo harı́a de tal forma que se podrı́a ordenar a las personas a lo largo de un continuo que irı́a desde el más grande al más pequeño. La correlación real existente entre el peso y la altura podrı́a explicarse por el hecho de que ambas variables participan de una relación con ese factor tamaño. Hay que tener en cuenta que el Análisis Factorial no entra en disquisiciones acerca de si es más útil emplear un único concepto como tamaño o usar dos conceptos como altura y peso. Se limita a proporcionar un número, lo menor posible, de factores que pueden servir como sustitutos de un número grande de variables. Este paso se realiza mediante un proceso llamado extracción de factores que consiste en extraer factores (ya veremos cómo) a partir de la matriz de covarianzas o la de correlaciones hasta que las correlaciones residuales sean tan próximas a cero que pueda considerarse que no poseen un significado apreciable. Son varios los procedimientos existentes para ello pero todos persiguen calcular coeficientes que representen los pesos (cargas factoriales o saturaciones) de las variables en cada factor, coeficientes que representarán el grado de relación (realmente es una correlación) entre las variables y los factores. Sin embargo el Análisis Factorial no termina con la extracción de los factores y el cálculo de las cargas factoriales puesto que en esta primera etapa la estructura factorial obtenida suele ser bastante compleja debido al más que probable solapamiento de los factores con muchas variables lo cual dificulta en gran manera la interpretación de las interrelaciones factor-variable. Ello conduce al problema de la rotación de los ejes factoriales cuyo objetivo es conseguir simplificar la estructura factorial de forma que afloren lo más claramente posible las interrelaciones más significativas y se devalúen las menos importantes. Esto no significa ningún cambio en las relaciones anteriormente halladas sino tan sólo es otra forma de mostrarlas con la particularidad de clarificarlas lo mejor posible. Una vez realizadas estas fases, la última etapa es la de intentar interpretar el significado de los factores con la ayuda del conocimiento sobre las variables que entraron en el Análisis Factorial y cualquier otra Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz 5 información pertinente. Se seleccionan las variables que en cada factor rotado tiene pesos altos y se investiga respecto a las caracterı́sticas en común entre ellas para ası́ poder dar un nombre apropiado a cada factor que ha sido identificado. 3.3. Definición del modelo Sea X = (X1 , . . . , Xp )0 un vector aleatorio p-dimensional cuyas componentes son observables y supongamos que tiene media µ = (µ1 , · · · , µp )0 y matriz de covarianzas Σ. El modelo factorial supone que X puede expresarse como combinación lineal de unas pocas variables aleatorias no observables F1 , . . . , Fm (m ≤ p) llamadas factores comunes y p fuentes adicionales de variación 1 , . . . , p llamadas errores o más frecuentemente factores especı́ficos. En forma desarrollada tenemos, para un individuo concreto: x1 = µ1 + l11 F1 + . . . + l1m Fm + 1 .. . xi = µi + li1 F1 + . . . + lim Fm + i .. . xp = µp + lp1 F1 + . . . + lpm Fm + p escrito en forma matricial x1 .. . xi = . .. xp µ1 .. . µi + .. . µp l11 .. . l12 ··· l1m li1 .. . li2 ··· lim lp1 lp2 ··· lpm F1 .. . Fj + . .. Fm 1 .. . i .. . p y abreviadamente X = µ + LF + ε. En la anterior expresión podemos comentar: 1. Los coeficientes lij se denominan cargas factoriales (factor loadings en la denominación anglosajona) o saturaciones factoriales de la i-ésima variable sobre el j-ésimo factor, por lo que la matriz L se llama la matriz de cargas factoriales. 2. El i-ésimo factor especı́fico, i , está asociado sólo con la i-ésima variable Xi . 3. Observamos que todas las variables se expresan en términos de una constante y de m + p variables (F1 , . . . , Fm , 1 , . . . , p ) que no son observables. Para fijar ideas consideremos un cuestionario de p preguntas pasado a N individuos y sea X = (X1 , . . . , Xp ) el vector que contiene las respuestas a las preguntas del mismo. Para el individuo i-ésimo el modelo factorial supone xi1 = µ1 + l11 Fi1 + · · · + lk1 Fik + · · · + lm1 Fim + i1 .. . xij = µj + l1j Fi1 + · · · + lkj Fik + · · · + lmj Fim + ij .. . xip = µp + l1p Fi1 + · · · + lkp Fik + · · · + lmp Fim + ip donde Estadı́stica Multivariante aplicada a la Geologı́a. 6 Francisco Torres Ruiz xij es la puntuación obtenida en la pregunta j por el individuo i. µj es la puntuación promedio de la pregunta j-ésima en la población. Fik es la puntuación alcanzada por el individuo i en el factor común k-ésimo asociado al total de preguntas. Los llamaremos puntuaciones factoriales o factor scores. lkj son las llamadas cargas factoriales o saturaciones o factor loadings. Son los coeficientes que determinan el peso que el factor k-ésimo ejerce sobre la respuesta j-ésima de cada individuo. Si bien los factores Fk son comunes a todas las preguntas, el peso de cada factor puede variar según la pregunta considerada. ij es, para el individuo i, la parte de la puntuación de la pregunta j que no puede ser explicada por los factores comunes. Es la suma de un error de medida (inherente a toda medición) más un factor especı́fico relacionado sólo con dicha pregunta. En resumen, la expresión xij = µj + m X lkj Fik + ij , i = 1, . . . , N , j = 1, . . . , p, determina que la k=1 respuesta j-ésima del individuo i-ésimo es la suma ponderada de sus puntuaciones en los factores comunes más el promedio de la puntuación en la población y más una componente o factor especı́fico de cada pregunta. Notemos que aunque los factores son comunes a las preguntas, las puntuaciones alcanzadas por cada individuo en cada uno de ellos (Fik ) son distintas pero no ası́ las cargas factoriales o saturaciones que están asociadas a cada pregunta, determinando ası́ el peso del factor correspondiente. Nota 3.3.1 Las columnas de la matriz L pueden considerarse como m vectores en un espacio p dimensional y generarán algún subespacio de cierta dimensión (suponiendo que son linealmente independientes). De esta forma los factor scores o puntuaciones factoriales Fik representarán las coordenadas de N puntos en dicho espacio que denominaremos espacio de los factores. Asimismo los valores incluidos en las columnas de la matriz L corresponden a los coeficientes de las combinaciones lineales de las variables que definen los factores y representan las coordenadas de las variables en el espacio de los factores. 3.4. Hipótesis del modelo. Modelo Factorial Ortogonal y Oblicuo Cuando en el modelo anterior se supone que el vector F de factores es aleatorio se considera que: 1. Los factores tienen media cero. 2. El vector F tiene matriz de covarianzas genérica Φ. Además suponemos 1. Los errores especı́ficos i tienen media cero y son incorrelados, con matriz de covarianzas diagonal Ψ. 2. Los errores especı́ficos y los factores son incorrelados. De aquı́ se deduce 1. Las variables Xi tienen media µi , i = 1, . . . , p. Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz 7 2. El vector de variables X tiene matriz de covarianzas Σ = LΦL0 + Ψ. y con ello 1. Cov[Xi , Xj ] = σij = m X m X liu ljv Cov[Fu , Fv ] + Cov[i , j ] = u=1 v=1 Si i 6= j, σij = Si i = j, σi2 = 2. Cov[Xi , Fj ] = m X m X m X liu ljv φuv + ψij y en particular u=1 v=1 m X m X liu ljv φuv u=1 v=1 m X 2 liu φuu + ψii u=1 liu φuv u=1 En el modelo planteado existe una indeterminación. En efecto, sea Cm×m una matriz no singular y sea F ∗ = C −1 F y L∗ = LC. Entonces podemos escribir X = µ + LF + ε = µ + L∗ C −1 CF ∗ + ε = µ + L∗ F ∗ + ε por lo que ambos modelos son equivalentes. Además la estructura de covarianza de X no se ve alterada 0 pero sı́ las covarianzas entre X y los nuevos factores comunes ya que Cov[X, F ∗ ] = LΦC −1 . Una forma de paliar, en parte, la indeterminación es exigir que los factores tengan varianza uno y sean incorrelados, o sea Φ = Im . En tal caso se dice que los factores son ortogonales y el modelo factorial recibe el nombre de ortogonal. En el caso contrario los factores se dicen oblicuos y el modelo factorial se dice oblicuo. Decimos que en el caso ortogonal se palı́a en parte el problema puesto que puede demostrarse en tal caso que la matriz C es ortogonal. Por lo tanto el modelo está determinado salvo rotaciones ortogonales de los ejes factoriales, lo cual motiva el problema de la rotación. 3.5. Modelo Factorial Ortogonal A continuación nos centramos en el modelo factorial ortogonal X = µ + LF + ε, donde µi representa la media de la variable Xi . i es el i-ésimo factor especı́fico, asociado sólo a Xi . Fj es el j-ésimo factor común, asociado a todas las variables. lij es la carga o peso del j-ésimo factor sobre la i-ésima variable. F y son incorrelados entre sı́. Los factores Fj tienen media cero, varianza uno y son incorrelados. Los errores i tienen media cero, son incorrelados y tienen varianza ψii . Las hipótesis anteriores implican Estadı́stica Multivariante aplicada a la Geologı́a. 8 Francisco Torres Ruiz 1. Var[Xi ] = σi2 = m X 2 liu + ψii = h2i + ψii . u=1 2. Cov[Xi , Xj ] = σij = m X liu lju , i 6= j. u=1 3. Cov[Xi , Fj ] = lij De estas expresiones podemos deducir lo siguiente: 1. La varianza de Xi se descompone en dos términos: uno atribuible a los m factores comunes, y que recibe el nombre de comunalidad y otra debida al factor especı́fico y que se llama varianza especı́fica h2 ψii o unicidad. Si notamos por h2i a la comunalidad se tiene que σi2 = h2i +ψii , por lo que i2 + 2 = 1, y σi σi h2i con ello 2 representa la proporción de varianza de la variable Xi explicada por los factores comunes. σi Además se verifica que dicho cociente es el coeficiente de correlación múltiple al cuadrado entre la variable Xi y los factores. Con ello un valor alto de la comunalidad (próximo a σi2 ) significa que dicha variable está bien representada en el espacio de los factores. 2. Las saturaciones factoriales representan la relación existente entre la variable Xi y el factor Fj ya que se corresponden con las covarianzas entre ellos. Notemos que en el caso de trabajar con datos tipificados se verifica h2i +ψii = 1 por lo que la comunalidad es directamente el coeficiente de correlación lineal múltiple al cuadrado entre las variables y los factores. Además, en este caso, lij es la correlación entre Xi y Fj por lo que se corresponde con el coseno del ángulo formado por la variable Xi y el eje Fj . Por lo tanto, cuanto mayor sea lij en valor absoluto (y no olvidemos que es la coordenada de Xi en el eje Fj ) mayor será la relación de tal variable con el eje. Además, y siempre 2 en el caso tipificado, lij determina la proporción de varianza de la variable Xi explicada solamente por el eje factorial Fj . 3.6. Estimación del modelo factorial. Caso ortogonal La situación que se plantea es la siguiente: dado un vector p-dimensional de componentes correladas y dada una muestra aleatoria, se desea representar adecuadamente esos datos usando el modelo anterior con el objetivo de reproducir los datos con un número pequeño de factores. Para ello debemos conocer las coordenadas de las variables en el espacio de los factores (cargas o saturaciones factoriales) ası́ como las varianzas asociadas a los factores especı́ficos. En definitiva se trata de reproducir la estructura de covarianza Σ = LL0 + Ψ en el caso ortogonal (Σ = LΦL0 + Ψ en el caso oblicuo) y posteriormente calcular las coordenadas de los individuos en el espacio de los factores (puntuaciones factoriales). En resumen, hay que estimar los parámetros lij y ψii para lo cual habrá que partir de la matriz de covarianzas de la muestra de partida, o de la de correlaciones en el caso de trabajar con los datos tipificados. Varios son los procedimientos que se pueden emplear para ello, entre los que podemos citar: 1. Método de las componentes principales. 2. Método del factor principal. Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz 9 3. Método de máxima verosimilitud. Es el único para el cual se impone la hipótesis de normalidad del vector X de variables. Estos son los más habituales en los programas de ordenador, si bien se pueden citar otros como 1. Método del centroide. Hoy dı́a está en desuso ya que fue concebido para simplificar los cálculos antes de la generalización del empleo de los ordenadores. 2. Método del residuo mı́nimo o de mı́nimos cuadrados. Observamos que son diversos los procedimientos que se pueden usar, a lo que hay que unir el hecho de que las soluciones pueden rotarse de modo que se consiga una mejor representación de los factores. Por ello es recomendable que en los casos prácticos se emplee más de un método de estimación y de rotación puesto que de la coherencia de los resultados en el caso de ser relativamente coincidentes podremos deducir el grado de adecuación de un modelo de análisis factorial a unos datos concretos. A continuación describimos algunas caracterı́sticas de los procedimientos más habituales en la práctica. 3.6.1. Método de las Componentes Principales En lo que sigue nos basaremos en la descomposición espectral de una matriz definida positiva, según la p X cual si Ap×p es una matriz definida positiva, entonces A = λi ei e0i , siendo λi los autovalores de A y ei los i=1 correspondientes autovectores. Considerando ahora la matriz de covarianzas Σ podemos escribir Σ = LL0 p √ √ donde L = [ λ1 e1 , λ2 e2 , . . . , λp ep ]. Con ello tenemos representada la estructura de covarianza a partir de tantos factores como variables, p, siendo nulas las varianzas especı́ficas. La j-ésima columna de la matriz p p de cargas factoriales L es λj ej , o sea, salvo el factor de escala λj , el j-ésimo factor se corresponde con la j-ésima componente principal. No obstante hay que tener en cuenta que esta factorización no es útil ya que proporciona tantos factores como variables. Una forma de reducir el número de factores es conservar los m ≤ p factores asociados a los m mayores autovalores de la matriz de varianzas-covarianzas. Por lo tanto nos quedamos con la estructura m X √ √ √ 2 lij , factorial proporcionada por Σ = LL0 +Ψ, donde L = [ λ1 e1 , λ2 e2 , . . . , λm em ] y donde ψi = σi2 − j=1 i = 1, . . . , p. Esta representación factorial se conoce con el nombre de solución por el método de componentes principales cuando se aplica a la matriz de covarianzas muestral S o a la de correlaciones R puesto que las cargas factoriales son proporcionales a los coeficientes de las primeras componentes principales muestrales. Observemos que al ser los factores ortogonales, si el número de factores crece, las cargas factoriales correspondientes a los factores ya extraı́dos no cambian. Sólo hay que ir añadiendo las correspondientes a los nuevos factores incluidos. 3.6.2. Método del Factor Principal Este método es una modificación del método de componentes principales. El planteamiento siguiente lo estableceremos para la matriz de correlaciones si bien también se puede desarrollar para la matriz de covarianzas. Por lo tanto partimos de la estructura teórica R = LL0 + Ψ, de donde LL0 = R − Ψ. Ahora bien, si la especificación del modelo es correcta con m ≤ p factores, se tiene 1 = h2i + ψi . No olvidemos que las unicidades ψi son desconocidas pero imaginemos que se dispone de unas estimaciones iniciales ∗ suyas, ψi∗ . Por lo tanto si reemplazamos los elementos de la diagonal de R por h∗2 i = 1 − ψi , obtenemos Estadı́stica Multivariante aplicada a la Geologı́a. 10 Francisco Torres Ruiz una nueva matriz Rγ que se suele conocer con el nombre de matriz de correlaciones reducida. A dicha matriz se le vuelve a aplicar principales, obteniéndose una nueva matriz de p de componentes p ∗ el∗ método λ1 e1 , . . . , λ∗m e∗m . Con ello se dispone de unas nuevas reestimaciones de las cargas factoriales L∗γ = m X ∗2 = comunalidades h∗2 lij , estimaciones con las cuales se puede repetir el proceso anterior. i j=1 En este desarrollo hay que tener algunas precauciones. En efecto, algunos autovalores λ∗i pudieran ser negativos ya que en la etapa inicial se parte de una estimación de las comunalidades por lo que este es un problema que hay que solucionar. La forma más usual de actuar es tomar las comunalidades iniciales h∗2 i como los cuadrados de los coeficientes de correlación múltiple entre la variable Xi y las p − 1 variables restantes. Ante la descripción de este procedimiento se puede observar que el método de componentes principales es un caso particular de él en el que se toman las comunalidades iniciales iguales a uno. Asimismo hay que decir que en la práctica, si el número de variables es grande y el número de factores pequeño, ambos procedimientos conducen a cargas factoriales similares. 3.6.3. Método de máxima verosimilitud En 1945 Lawley fue el primero que consideró el modelo factorial introduciendo una hipótesis acerca de la distribución del vector X. Concretamente se supone que el vector de factores comunes F y el de factores especı́ficos ε se distribuyen, de forma conjunta, según una ley normal (lo cual, junto con su incorrelación, significa la independencia de ambos tipos de factores). A partir de dicha hipótesis se deduce que X también se distribuye de forma normal con lo cual, si se dispone de una muestra de tamaño N procedente de X, se puede obtener la función de verosimilitud 1 0 −1 0 0 −N − N2p S + N (X − µ)(X − µ) |LL + Ψ| 2 exp − tr (LL + Ψ) L(L, Ψ, µ) = (2π) 2 Observemos que si en la expresión anterior cambiamos L por LO, con O una matriz ortogonal, la verosimilitud no cambia por lo que el estimador máximo verosı́mil de L no es único. Para ello hay que añadir alguna condición que es que la matriz L0 Ψ−1 L sea diagonal. Ahora observamos que la función de verosimilitud anterior puede ser expresada como (N −1)p N −1 1 L(L, Ψ, µ) = (2π)− 2 |LL0 + Ψ|− 2 exp − tr (LL0 + Ψ)−1 S 2 N −p 0 − 21 0 2 ×(2π) |LL + Ψ| exp − tr (X − µ)(X − µ) 2 Por lo tanto, al maximizar en µ, es inmediato que µ b = X. Ası́ pues el problema de maximización queda reducido a Max L(L, Ψ, µ) =Max L(L, Ψ, X). Mediante derivación matricial puede demostrarse que esta L,Ψ L,Ψ maximización conduce al sistema resultado Teorema 3.6.1 Los estimadores máximo verosı́miles de L y Ψ del modelo factorial ortogonal obedecen al sistema de ecuaciones siguiente: S 0 b b b diag LL + Ψ = diag N S b −1 b b b0 Ψ b −1 L) b Ψ L = L(I + L N Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz 11 Hay que notar que en el caso oblicuo, para el cual se tiene la estructura de covarianza Σ = LΦL0 + Ψ, el método de máxima verosimilitud conduce al sistema siguiente S 0 b b b b − LΦL Ψ = diag N −1 −1 b 0 −1 b 0 0 b −1 S b −1 b b b b b b b ΦLΨ L + I = LΨ L LΨ Ψ L N S S b b 0 b −1 0 0 −1 0 −1 b b b b b b −1 b b b b b = ΦL I − LL + Φ LL + Φ Ψ ΦL LL + Φ I− N N sistemas que, en ambos casos, hay que resolver mediante procedimientos numéricos. 3.7. Número de factores que conservar La matriz factorial estimada puede representar más factores de los necesarios para explicar la estructura de los datos. Entonces, ¿con cuántos nos quedamos? Hay diversas reglas de las cuales comentamos algunas: 1. Regla de Kaiser: Se seleccionan los factores con autovalores asociados mayores que uno (suele ser la opción por defecto en los principales programas de ordenador). La razón que puede llevar a usarla es que para los datos tipificados el aumento de varianza debe, por lo menos, ser igual a la varianza de al menos una variable, que es uno al estar tipicadas. 2. Porcentaje de varianza explicada: Se fija un porcentaje de varianza (inercia de la nube de puntos) que se desea explicar como mı́nimo y se seleccionan los factores necesarios para ello. 3. Gráfica Scree-Plot o gráfico de sedimentación: Se trata de una representación en la que el eje de abscisas se representa el número de factores y en el de ordenadas los autovalores. Los factores con varianzas altas se suelen distinguir de los de baja varianza explicada. El punto de selección viene dado por el punto de inflexión en la gráfica. 3.8. Rotaciones factoriales Como sabemos, la matriz de cargas factoriales o saturaciones indica la relación existente entre los factores y las variables. En ocasiones, a partir de ella, es difı́cil interpretar el significado de los factores sobre todo si hay diversos factores que comparten variables. Con ello queremos decir que puede haber diversas variables que presenten correlaciones parecidas y altas con diversos factores, lo cual hace difı́cil su interpretación. Por otra parte el hecho de que el modelo esté identificado salvo una matriz C no singular (ortogonal en el caso del modelo ortogonal) nos lleva a poder rotar los ejes, que representan a los factores, con el objetivo de buscar la solución más interpretable. Lo que se busca es aproximarse al llamado Principio de Estructura Simple (Thurstone, 1945) según el cual: 1. Cada factor debe tener unos pocos pesos altos (variables saturadas en dicho factor) y los otros próximos a cero. 2. Cada variable no debe estar saturada en más de un factor. 3. Dos factores distintos deben presentar distribuciones diferentes de saturaciones altas y bajas. Si bien estos requisitos no se verifican siempre, buscamos aquella solución que más se aproxime a este principio. Entre las rotaciones destacamos dos tipos: ortogonales y oblicuas. Estadı́stica Multivariante aplicada a la Geologı́a. 12 3.8.1. Francisco Torres Ruiz Rotaciones ortogonales Son las rotaciones más aplicadas en la práctica puesto que conservan los ángulos rectos en las representaciones gráficas. Su idea es maximizar la varianza de los cuadrados de las cargas factoriales. Ası́ se dispersa los valores al máximo, aumentando los mayores y disminuyendo los más pequeños. Analı́ticamente se basan en ! p !# " p p m X m X X X γ X 2 2 2 2 cij cik − c cik Min p i=1 ij γ∈[0,1] i=1 i=1 k=1 j6=k donde los valores cij corresponden a las cargas factoriales rotadas. Atendiendo al valor de γ se tienen distintas rotaciones ortogonales. Ası́ cuando γ = 0 estamos ante la rotación Cuartimax. En este caso se puede comprobar que el criterio de minimización equivale a maximizar m p m p 1 XX 2 1 XX 2 (cij − c2 )2 donde c2 = c pm j=1 i=1 pm j=1 i=1 ij Observemos que lo que se está haciendo es maximizar la varianza de los cuadrados de todas las cargas factoriales en bloque. Cuando γ = 1 estamos ante la rotación Varimax, para la cual el criterio seguido es equivalente a maximizar m p p 2 1 XX 2 1X 2 cij − c2· c donde c2· = p j=1 i=1 p i=1 ij y que se diferencia del anterior en que actúa por columnas de la matriz de cargas, con lo cual se maximiza la dispersión de las mismas pero para cada factor separadamente, siendo (tal vez por ello) el procedimiento más empleado. Otras rotaciones ortogonales son la equimax, que está a medio camino entre las dos anteriores (γ = p/2) y la bicuartimax, con γ = 0,5. Por último hay que comentar que es usual emplear la llamada normalización de Kaiser al aplicar los criterios anteriores. El criterio se basa en considerar los factor loadings normalizados en el sentido de dividirlos por la raı́z cuadrada de la comunalidad de la variable i-ésima, o sea, tratar con c∗ij = cij /hi , i = 1, . . . , p, j = 1, . . . , m. Con ello se persigue que las variables con menor comunalidad tengan un peso relativo mayor en la determinación de la estructura final. Ası́, por ejemplo, tenemos el criterio varimax normalizado, o de Kaiser. 3.8.2. Rotaciones oblicuas Cuando Thurstone propone la idea de una estructura simple estaba pensando en sistemas de ejes ortogonales. Sin embargo, no siempre puede probarse la existencia de correlaciones nulas entre los factores, por lo que es posible que rotaciones no ortogonales puedan conducir a estructuras factoriales más simples. Ası́ una rotación oblicua es más general que una ortogonal ya que no impone la restricción de que los factores tengan correlaciones nulas entre sı́. La principal ventaja sobre la ortogonal es que, después de llevarla a cabo, si los factores resultantes son ortogonales, se tiene la seguridad de que la ortogonalidad no ha venido impuesta por el método de rotación. La versión oblicua de los métodos anteriores nos conduce a los procedimientos Oblimin Directos en los cuales la función a minimizar es la misma pero con la salvedad de que γ ∈ (−∞, 0], de tal forma que cuanto más negativo sea γ mayor correlación existirá entre los nuevos factores rotados. Cuando γ = 0 tenemos el método Cuartimin directo que es la versión oblicua del cuartimax si bien ahora hay que tener Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz 13 en cuenta que no se está maximizando la varianza de las cargas factoriales. Entonces, ¿qué persiguen las rotaciones oblicuas?. Para ello conviene previamente comentar algunos aspectos del modelo factorial: 1. Estructura factorial: no es más que la matriz de correlaciones entre las variables Xi y los factores rotados. Por lo tanto coincide, si la rotación es ortogonal, con la matriz de cargas factoriales rotadas. 2. Factores de referencia: asociado a cada factor rotado podemos encontrar un nuevo factor que sea incorrelados con los rotados. A esos nuevos factores que pueden ser hallados se les llaman factores de referencia. Evidentemente, si la rotación es ortogonal esos factores coinciden con los primeros. 3. Estructura factorial de referencia o estructura de referencia: es la matriz de correlaciones entre las variables Xi y los factores de referencia. Si la rotación fuera ortogonal esta matriz coincide con la estructura factorial citada anteriormente. Por lo tanto, ası́ como las rotaciones ortogonales intentan encontrar la estructura factorial más simple, las oblicuas hacen lo mismo pero con la estructura de referencia. Por lo tanto si llamamos vij a la correlación entre Xi y el eje de referencia Gj , las rotaciones oblicuas persiguen Min γ∈[0,1] " p m X m X X k=1 j6=k 2 2 vij vik i=1 γ − p p X i=1 ! 2 vij p X !# 2 vik i=1 Los métodos de rotación que siguen esta filosofı́a se llaman, genéricamente, Oblimin Indirectos. Para γ = 0 tenemos el cuartimin indirecto, para γ = 1 el covarimin y para γ = 0,5 el bicuartimin. Además cuanto más próximo esté γ a cero los ejes son más oblicuos y cuanto más cerca estén a uno lo serán menos, pudiéndose emplear el criterio de normalización de Kaiser comentado anteriormente. 3.9. Puntuaciones factoriales o factor scores Las puntuaciones factoriales o factor scores se pueden definir como los valores que alcanzan los individuos en los factores y son estimaciones de los valores que toman los mismos. Pueden interpretarse como las coordenadas de los individuos en el espacio de los factores por lo que realmente estamos consiguiendo reducir la dimensionalidad del problema al pasar de un espacio de dimensión p (variables originales) a otro de dimensión m ≤ p (los factores pueden considerarse como nuevas variables). En cualquier caso hay que tener en cuenta que estos valores pueden ser usados como datos para posteriores análisis en los que se trate a los mismos individuos pero sustituyendo las variables originales por los factores obtenidos. El problema que surge es cómo calcular dichas puntuaciones dado que ni los factores ni los errores son observables además de ser aleatorios. Se han planteado varias posibilidades de cálculo, entre ellos el procedimiento de Mı́nimos Cuadrados Ponderados y el de Métodos de Regresión Condicionada. 3.9.1. Cálculo de las puntuaciones mediante Mı́nimos Cuadrados La idea que se persigue es la siguiente: dado que el modelo viene dado por la expresión X = µ + LF + ε, se trata de estimar F de tal forma que se haga mı́nima la suma de los cuadrados de los errores (ponderada por la varianza de los mismos o unicidades), o sea, Min ε0 Ψ−1 ε =Min (X − µ − LF )0 Ψ−1 (X − µ − LF ) F F Estadı́stica Multivariante aplicada a la Geologı́a. 14 Francisco Torres Ruiz lo cual no es más que el criterio de mı́nimos cuadrados, en este caso ponderados por las unicidades. La solución técnica pasa por la aplicación de los Mı́nimos Cuadrados Generalizados de Aitken, obteniéndose Fb = (L0 Ψ−1 L)−1 L0 Ψ−1 (X − µ). Como en la práctica no se conocen µ, L y Ψ habrá que actuar con sus estimaciones. Con ello, para cada individuo se tiene que sus puntuaciones factoriales son b0 Ψ b −1 L) b −1 L b0 Ψ b −1 (Xj − X), j = 1, . . . , N . Dependiendo del método de estimación empleado para Fbj = (L las cargas factoriales los factor scores adoptan una expresión diferente. Por ejemplo con el de máxima veb0 Ψ bL b=∆ b rosimilitud hay que tener en cuenta la condición de unicidad por la que se exigı́a que la matriz L fuera diagonal. Con el de componentes principales se supone que las unicidades son uno o próximas a uno, con lo cual pasamos de mı́nimos cuadrados ponderados a mı́nimos cuadrados ordinarios y con ello b 0 L) b −1 L b 0 (Xj − X). Realizando los cálculos oportunos se puede comprobar que en este caso los Fbj = (L factor scores no son más que los valores de las m primeras componentes principales, evaluadas en xj , con q el añadido del factor de escala 1/ 3.9.2. bi λ Cálculo de las puntuaciones mediante métodos de regresión condicionada Para desarrollar este método tenemos que volver a situarnos en la hipótesis de normalidad, o sea, F Np [0; Φ] y ε Np [0; Ψ] siendo ambas distribuciones independientes. Con ello es inmediato que Y = X −µ Np [0; LΦL0 + Ψ]. Además la distribución conjunta de X − µ y F es una normal Np+m [0, Σ∗ ], donde, en general LΦL0 + Ψ L ∗ Σ = L0 Φ para el modelo genérico y donde Φ = Im para el ortogonal. De esta forma podemos considerar la distribución condicionada de los factores al vector Y = y. En particular la media condicionada, teórica, será E [F |Y = y] = L0 (LΦL0 + Ψ)−1 (x − µ). Por lo tanto las puntuaciones factoriales de cada individuo b 0 (L bΦ bL b 0 + Ψ) b −1 (xj − x), j = 1, . . . , N . vendrán dadas por fbj = L 3.10. Algunas consideraciones sobre las interpretaciones 1. Si el modelo ajustado es ortogonal, cargas factoriales altas significan gran relación de la variable con el factor en el que la alcanza (saturación de la variable en el factor). 2. Al imprimir la matriz de cargas factoriales conviene suprimir las más pequeñas para clarificar la estructura factorial y ordenarla según las cargas. 3. A la hora de seleccionar las saturaciones más significativas, y en el caso de datos tipificados, se suele emplear una regla empı́rica en la que las cargas, en valor absoluto, mayores a 0.30 se consideran en un nivel mı́nimo, las mayores a 0.4 se consideran más importante y las mayores de 0.5 se consideran significativas. Además, dado que la carga factorial es la correlación entre la variable y el factor, su cuadrado es la parte de varianza total de la variable explicada por el factor. Ası́ una carga de 0.3 implica, aproximadamente, una explicación del 10 %, una carga del 0.5 lleva asociada un porcentaje de varianza explicada de la variable alrededor del 25 %, mientras que para que un factor explique el 50 % de la varianza ha de contar con una carga que supere el valor 0.7. En el caso de variables sin tipificar el planteamiento es el mismo pero con la salvedad de que, para tener la interpretación anterior, las saturaciones al cuadrado deben previamente dividirse por la comunalidad de cada variable. Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz 15 4. Cada factor contiene grupos de variables correladas entre sı́, positiva o negativamente. Dos variables contenidas en un mismo factor con cargas factoriales de signo opuesto y altas en valor absoluto indican, por un lado, alta correlación con el factor y, por otro, oposición entre ellas atendiendo al significado que tenga el factor. 5. En cualquier caso hay que nombrar los factores y darles significación. Para ello es fundamental tener conocimiento sobre la materia concreta a la que se refieren los datos. 6. En ocasiones, y para ayudar a la interpretación, es conveniente ordenar los individuos según los factores (en orden creciente o decreciente). Ası́ para un factor fijo y ordenados los individuos podemos observar los valores que toman sobre las variables que conforman el factor y de esta manera sacar conclusiones sobre la naturaleza del factor y describir qué es lo que está representando respecto a los datos. 7. En cuanto a las representaciones gráficas asociadas al Análisis Factorial podemos distinguir: De las variables: representan las variables en el espacio de los factores con coordenadas las cargas factoriales. Suelen representarse los planos factoriales que mayor varianza expliquen. Conviene representarlos con la rotación que más clarifique la estructura factorial. De los individuos: representan los individuos en el espacio de los factores con coordenadas las puntuaciones factoriales. Son útiles si se pretende investigar a los individuos con mayor y/o menor puntuación en un factor (más y menos asociación con el mismo). Además puede servir para detectar grupos de individuos homogéneos. 8. Conviene usar varios métodos de extracción de factores y rotaciones para comprobar la estabilidad de la solución obtenida, no tanto en los valores estimados como en la estructura factorial hallada. 3.11. Algunos comentarios adicionales 3.11.1. Análisis Factorial y Análisis de Componentes Principales Aunque el Análisis Factorial y el Análisis de Componentes Principales son técnicas encuadras dentro de lo que se conoce como técnicas de reducción de datos, existe diferencias conceptuales entre ambas. El objetivo fundamental del A.C.P. es reducir el número de variables originales a unas pocas tales que forman unas nuevas variables que expliquen el máximo de la varianza total de los datos. Por otro lado el Análisis Factorial tiene como principal objetivo buscar los factores subyacentes a unos datos, o sea, construcciones latentes que pueden explicar las interdependencias entre las variables. Por lo tanto el A.C.P. hace especial énfasis en la varianza total de la muestra mientras que el A.F. lo hace sobre las correlaciones. En realidad lo que ocurre es que dos técnicas diferentes emplean el mismo algoritmo de resolución como es el de construcción de las componentes principales, método ideado por Hotelling en 1933 como paso para abordar el problema de reducción de dimensiones y que posteriormente fue visto por el mismo autor como un fin en sı́ mismo. Por ello no es extraño que exista una confusión acerca de las diferencias de ambos procedimientos. Para algunos autores el A.C.P. es una técnica en sı́ misma que puede ser usado en distintas situaciones, siendo el A.F. una de ellas. Otros, sin embargo, contemplen el A.C.P. como el primer paso del A.F., el cual puede completarse con las rotaciones de los ejes, si bien otros autores, más en la lı́nea de los primeros, consideran que las rotaciones no forman parte propiamente del A.F. Incluso hay autores que distinguen entre ambos procedimientos y reservan el nombre de Análisis Factorial para el caso de extracción por cualquier método que no sea el de componentes principales. Ası́ pues la confusión está servida. Algunas razones que aumentan este hecho son: Estadı́stica Multivariante aplicada a la Geologı́a. 16 Francisco Torres Ruiz 1. El punto de partida habitual de ambos métodos es una matriz de correlaciones. 2. Uno de los procedimientos de extracción de factores en A.F. se llama de componentes principales. 3. Algunos de los principales programas de ordenador incluyen el A.C.P. dentro del A.F. (B.M.D.P., Spss, Systat), aunque hay otros como Statgraphics o S-Plus que si diferencia entre ellos. Aunque se pueden desgranar múltiples visiones de las diferencias entre ambas técnicas (como las comentadas anteriormente) quizás la forma más intuitiva es la siguiente: el A.C.P. describe aspectos observables en los datos ya que su objetivo es presentar los datos de otra forma (cambio de base del espacio de variables al de factores) sin hacer ninguna suposición sobre las estructuras subyacentes. Por su parte el A.F. pretende pasar de un conjunto de variables observadas a un número menor de factores no observables tomando como hipótesis de partida que las variables iniciales son combinaciones lineales de los factores latentes. El A.F. suele ser empleado en campos como la Psicologı́a y la Educación en donde se buscan nuevas variables que sean interpretables. Por otro lado el A.C.P. suele ser empleado en campos como el Marketing y la Biologı́a buscando simplemente la reducción de dimensionalidad antes comentada. 3.11.2. Análisis Factorial Exploratorio y Confirmatorio En el A.F. exploratorio el investigador no tiene un conocimiento previo acerca de la estructura factorial, por lo que no se formula ninguna hipótesis sobre las cargas factoriales, sino que los factores se deducen a partir de los datos. Es decir, el investigador va en busca de un modelo teórico que pueda explicar la correlación entre las variables latentes. En al A.F. confirmatorio sı́ se posee información a priori sobre la estructura factorial. Por lo tanto el objetivo no es buscar factores sino verificar o confirmar la estructura planteada como conocida, dando origen a los modelos LISREL. 3.11.3. Análisis Factorial tipo R y tipo Q 1. Tipo R. Observemos que el procedimiento descrito gira alrededor de la estructura de covarianza Σ = LL0 + Ψ para lo cual hay que factorizar la matriz de varianzas-covarianzas muestral o la de correlaciones en el caso de trabajar con los datos tipificados. Asimismo notemos que, intrı́nsecamente, la extracción de los factores y la determinación de las saturaciones equivale a obtener grupos homogéneos de variables que determinan y definen los factores. 2. Tipo Q. A la vista de lo comentado en apartado anterior nos cabe la pregunta ¿ese planteamiento es simétrico en el sentido de realizar el mismo proceso con los individuos? Es decir, ¿podemos con esta técnica hallar grupos homogéneos de individuos? Estadı́sticamente hablando nos encontramos con un problema y es que no tiene significado estadı́stico la covarianza o correlación entre individuos, si bien es calculable desde el punto de vista teórico. O sea, tendrı́amos que calcular dichas correlaciones aunque algunos programas de ordenador más especı́ficos y con la idea de dar mayor interpretación a la relación entre individuos, calculan como medida inicial de asociación entre los mismos el coseno del ángulo que forman los vectores p-dimensionales que definen a los individuos, o sea p X xik xjk cos(θij ) = v k=1 uX p u p 2 X t xik x2jk k=1 Estadı́stica Multivariante aplicada a la Geologı́a. k=1 Francisco Torres Ruiz 17 y, a partir de la matriz θ de elementos θij , desarrollar la técnica en el sentido anteriormente descrito. Conviene decir que es usual que en este tipo de análisis haya un factor muy predominante, sobre todo si la muestra es bastante homogénea. Por ello conviene extraer al menos dos factores y representar los individuos según las cargas factoriales obtenidas (los individuos estarán en un cı́rculo de radio unidad). De esta forma se pueden observar individuos homogéneos que serán aquellos que en dicha representación presentan ángulos entre ellos más pequeños. De todas formas hay que comentar que si se desea realizar un análisis de este tipo se acompañe de otra técnica en esta dirección como puede ser un Análisis Cluster por individuos. Estadı́stica Multivariante aplicada a la Geologı́a.