Tema 3

Índice general 3. Análisis Factorial 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Fases en el Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Definición del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Hipótesis del modelo. Modelo Factorial Ortogonal y Oblicuo . . . . . . . . . . . . 3.5. Modelo Factorial Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6. Estimación del modelo factorial. Caso ortogonal . . . . . . . . . . . . . . . . . . . 3.6.1. Método de las Componentes Principales . . . . . . . . . . . . . . . . . . . 3.6.2. Método del Factor Principal . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.3. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . 3.7. Número de factores que conservar . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8. Rotaciones factoriales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.1. Rotaciones ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.2. Rotaciones oblicuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9. Puntuaciones factoriales o factor scores . . . . . . . . . . . . . . . . . . . . . . . 3.9.1. Cálculo de las puntuaciones mediante Mı́nimos Cuadrados . . . . . . . . . 3.9.2. Cálculo de las puntuaciones mediante métodos de regresión condicionada 3.10. Algunas consideraciones sobre las interpretaciones . . . . . . . . . . . . . . . . . 3.11. Algunos comentarios adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.11.1. Análisis Factorial y Análisis de Componentes Principales . . . . . . . . . 3.11.2. Análisis Factorial Exploratorio y Confirmatorio . . . . . . . . . . . . . . . 3.11.3. Análisis Factorial tipo R y tipo Q . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 5 6 7 8 9 9 10 11 11 12 12 13 13 14 14 15 15 16 16 2 Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz Capı́tulo 3 Análisis Factorial 3.1. Introducción El Análisis Factorial es una técnica multivariante cuyos orı́genes hay que buscarlos a principios del siglo XX en los estudios de Karl Pearson y Charles Spearman sobre la inteligencia, distinguiéndose en la misma un factor general y un cierto número de factores especı́ficos. Debido a este hecho el Análisis Factorial fue desarrollado en sus principios por cientı́ficos interesados en medidas psicométricas. Paradójicamente, visto hoy dı́a, los argumentos sobre las interpretaciones psicológicas de los estudios pioneros ası́ como la falta de facilidades computacionales impidieron su desarrollo como un método estadı́stico. La aparición de rápidos ordenadores ha ayudado en gran manera a profundizar en los aspectos teóricos y computacionales, abandonándose técnicas originales al mismo tiempo que se han disipado gran parte de las dudas y controversias originales. El propósito esencial del Análisis Factorial es descubrir, si es posible, las relaciones existentes entre diversas variables y expresarlas en términos de unas pocas cantidades aleatorias subyacentes, pero no observables, llamada factores. La motivación general asociada a esta técnica puede describirse si suponemos que las variables en estudio pueden ser agrupadas según sus correlaciones de tal forma que las variables pertenecientes a un mismo grupo están altamente correladas entre ellas pero tienen bajas correlaciones con las variables de un grupo diferente. De esta forma es concebible que cada grupo de variables represente una construcción simple o factor que es responsable de las correlaciones observadas. Esta es una cuestión vital puesto que una parte importante del contenido de cualquier área de la ciencia consiste en mostrar qué elementos están relacionados entre sı́ y cómo es esta relación. En este orden de cosas, en determinadas ciencias, las variables que se relacionan están definidas con precisión y son ampliamente aceptadas por la comunidad cientı́fica como las variables que merecen ser estudiadas. En múltiples casos las variables están especificadas de forma exacta mediante relaciones matemáticas pero en otros casos las variables están definidas con menos precisión, sin existir un acuerdo total entre los cientı́ficos respecto a los aspectos anteriormente mencionados. En este sentido el Análisis Factorial representa un cuerpo de doctrina que puede ayudar a los cientı́ficos a definir sus propias variables con mayor precisión y decidir cuáles merece la pena estudiar y relacionar, al mismo tiempo que puede ayudar a comprender mejor las interrelaciones cuando son muchas las variables ante las cuales uno ha de enfrentarse. El Análisis Factorial puede ser considerado como una extensión del Análisis de Componentes Principales. Ambos tienen en común aproximar la estructura de covarianza asociada al problema en estudio si bien la aproximación dada por el Análisis Factorial es bastante más elaborada. 3 4 Francisco Torres Ruiz 3.2. Fases en el Análisis Factorial Si bien se ha establecido que el fin primordial del Análisis Factorial es investigar, a partir de las medidas de un conjunto de variables, qué dimensiones pueden usarse para explicar las interrelaciones existentes entre las mismas (Análisis Factorial Exploratorio), no es esta la única posible utilidad de esta técnica multivariante. Por ejemplo, uno puede desear probar una teorı́a sobre el número y naturaleza de los factores necesarios para explicar las interrelaciones entre las variables que está estudiando o bien puede desear verificar hallazgos previos usando una nueva muestra de la misma población o una muestra de una población diferente (Análisis Factorial Confirmatorio). Cualesquiera que sean los objetivos del análisis, habrá que seguir los siguientes pasos: 1. Seleccionar las variables. 2. Calcular la matriz de covarianzas o la de correlaciones de las variables. 3. Extraer los factores. 4. Rotar los factores. 5. Interpretar la matriz de factores rotados. Por lo tanto el punto de partida del Análisis Factorial es la matriz de covarianzas o de correlaciones muestrales calculada a partir de la muestra obtenida de las variables en estudio. Cuando hay un gran número de variables y muchas correlaciones significativas entre ellas, es prácticamente imposible explicar el complejo entramado de interrelaciones existentes. El Análisis Factorial proporciona un medio para estudiar estas interrelaciones postulando la existencia de factores o dimensiones subyacentes que explican los valores que aparecen en la matriz de correlaciones. Para fijar ideas y a tı́tulo de ejemplo podemos pensar que un factor tamaño puede explicar la correlación entre el peso y la altura y lo harı́a de tal forma que se podrı́a ordenar a las personas a lo largo de un continuo que irı́a desde el más grande al más pequeño. La correlación real existente entre el peso y la altura podrı́a explicarse por el hecho de que ambas variables participan de una relación con ese factor tamaño. Hay que tener en cuenta que el Análisis Factorial no entra en disquisiciones acerca de si es más útil emplear un único concepto como tamaño o usar dos conceptos como altura y peso. Se limita a proporcionar un número, lo menor posible, de factores que pueden servir como sustitutos de un número grande de variables. Este paso se realiza mediante un proceso llamado extracción de factores que consiste en extraer factores (ya veremos cómo) a partir de la matriz de covarianzas o la de correlaciones hasta que las correlaciones residuales sean tan próximas a cero que pueda considerarse que no poseen un significado apreciable. Son varios los procedimientos existentes para ello pero todos persiguen calcular coeficientes que representen los pesos (cargas factoriales o saturaciones) de las variables en cada factor, coeficientes que representarán el grado de relación (realmente es una correlación) entre las variables y los factores. Sin embargo el Análisis Factorial no termina con la extracción de los factores y el cálculo de las cargas factoriales puesto que en esta primera etapa la estructura factorial obtenida suele ser bastante compleja debido al más que probable solapamiento de los factores con muchas variables lo cual dificulta en gran manera la interpretación de las interrelaciones factor-variable. Ello conduce al problema de la rotación de los ejes factoriales cuyo objetivo es conseguir simplificar la estructura factorial de forma que afloren lo más claramente posible las interrelaciones más significativas y se devalúen las menos importantes. Esto no significa ningún cambio en las relaciones anteriormente halladas sino tan sólo es otra forma de mostrarlas con la particularidad de clarificarlas lo mejor posible. Una vez realizadas estas fases, la última etapa es la de intentar interpretar el significado de los factores con la ayuda del conocimiento sobre las variables que entraron en el Análisis Factorial y cualquier otra Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz 5 información pertinente. Se seleccionan las variables que en cada factor rotado tiene pesos altos y se investiga respecto a las caracterı́sticas en común entre ellas para ası́ poder dar un nombre apropiado a cada factor que ha sido identificado. 3.3. Definición del modelo Sea X = (X1 , . . . , Xp )0 un vector aleatorio p-dimensional cuyas componentes son observables y supongamos que tiene media µ = (µ1 , · · · , µp )0 y matriz de covarianzas Σ. El modelo factorial supone que X puede expresarse como combinación lineal de unas pocas variables aleatorias no observables F1 , . . . , Fm (m ≤ p) llamadas factores comunes y p fuentes adicionales de variación 1 , . . . , p llamadas errores o más frecuentemente factores especı́ficos. En forma desarrollada tenemos, para un individuo concreto: x1 = µ1 + l11 F1 + . . . + l1m Fm + 1 .. . xi = µi + li1 F1 + . . . + lim Fm + i .. . xp = µp + lp1 F1 + . . . + lpm Fm + p escrito en forma matricial    x1  ..    .       xi  =      .    ..   xp   µ1 ..    .     µi  +   ..     . µp l11 .. . l12 ··· l1m li1 .. . li2 ··· lim lp1 lp2 ··· lpm    F1   ..    .        Fj  +      .     ..   Fm  1 ..  .   i   ..  .  p y abreviadamente X = µ + LF + ε. En la anterior expresión podemos comentar: 1. Los coeficientes lij se denominan cargas factoriales (factor loadings en la denominación anglosajona) o saturaciones factoriales de la i-ésima variable sobre el j-ésimo factor, por lo que la matriz L se llama la matriz de cargas factoriales. 2. El i-ésimo factor especı́fico, i , está asociado sólo con la i-ésima variable Xi . 3. Observamos que todas las variables se expresan en términos de una constante y de m + p variables (F1 , . . . , Fm , 1 , . . . , p ) que no son observables. Para fijar ideas consideremos un cuestionario de p preguntas pasado a N individuos y sea X = (X1 , . . . , Xp ) el vector que contiene las respuestas a las preguntas del mismo. Para el individuo i-ésimo el modelo factorial supone xi1 = µ1 + l11 Fi1 + · · · + lk1 Fik + · · · + lm1 Fim + i1 .. . xij = µj + l1j Fi1 + · · · + lkj Fik + · · · + lmj Fim + ij .. . xip = µp + l1p Fi1 + · · · + lkp Fik + · · · + lmp Fim + ip donde Estadı́stica Multivariante aplicada a la Geologı́a. 6 Francisco Torres Ruiz xij es la puntuación obtenida en la pregunta j por el individuo i. µj es la puntuación promedio de la pregunta j-ésima en la población. Fik es la puntuación alcanzada por el individuo i en el factor común k-ésimo asociado al total de preguntas. Los llamaremos puntuaciones factoriales o factor scores. lkj son las llamadas cargas factoriales o saturaciones o factor loadings. Son los coeficientes que determinan el peso que el factor k-ésimo ejerce sobre la respuesta j-ésima de cada individuo. Si bien los factores Fk son comunes a todas las preguntas, el peso de cada factor puede variar según la pregunta considerada. ij es, para el individuo i, la parte de la puntuación de la pregunta j que no puede ser explicada por los factores comunes. Es la suma de un error de medida (inherente a toda medición) más un factor especı́fico relacionado sólo con dicha pregunta. En resumen, la expresión xij = µj + m X lkj Fik + ij , i = 1, . . . , N , j = 1, . . . , p, determina que la k=1 respuesta j-ésima del individuo i-ésimo es la suma ponderada de sus puntuaciones en los factores comunes más el promedio de la puntuación en la población y más una componente o factor especı́fico de cada pregunta. Notemos que aunque los factores son comunes a las preguntas, las puntuaciones alcanzadas por cada individuo en cada uno de ellos (Fik ) son distintas pero no ası́ las cargas factoriales o saturaciones que están asociadas a cada pregunta, determinando ası́ el peso del factor correspondiente. Nota 3.3.1 Las columnas de la matriz L pueden considerarse como m vectores en un espacio p dimensional y generarán algún subespacio de cierta dimensión (suponiendo que son linealmente independientes). De esta forma los factor scores o puntuaciones factoriales Fik representarán las coordenadas de N puntos en dicho espacio que denominaremos espacio de los factores. Asimismo los valores incluidos en las columnas de la matriz L corresponden a los coeficientes de las combinaciones lineales de las variables que definen los factores y representan las coordenadas de las variables en el espacio de los factores. 3.4. Hipótesis del modelo. Modelo Factorial Ortogonal y Oblicuo Cuando en el modelo anterior se supone que el vector F de factores es aleatorio se considera que: 1. Los factores tienen media cero. 2. El vector F tiene matriz de covarianzas genérica Φ. Además suponemos 1. Los errores especı́ficos i tienen media cero y son incorrelados, con matriz de covarianzas diagonal Ψ. 2. Los errores especı́ficos y los factores son incorrelados. De aquı́ se deduce 1. Las variables Xi tienen media µi , i = 1, . . . , p. Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz 7 2. El vector de variables X tiene matriz de covarianzas Σ = LΦL0 + Ψ. y con ello 1. Cov[Xi , Xj ] = σij = m X m X liu ljv Cov[Fu , Fv ] + Cov[i , j ] = u=1 v=1 Si i 6= j, σij = Si i = j, σi2 = 2. Cov[Xi , Fj ] = m X m X m X liu ljv φuv + ψij y en particular u=1 v=1 m X m X liu ljv φuv u=1 v=1 m X 2 liu φuu + ψii u=1 liu φuv u=1 En el modelo planteado existe una indeterminación. En efecto, sea Cm×m una matriz no singular y sea F ∗ = C −1 F y L∗ = LC. Entonces podemos escribir X = µ + LF + ε = µ + L∗ C −1 CF ∗ + ε = µ + L∗ F ∗ + ε por lo que ambos modelos son equivalentes. Además la estructura de covarianza de X no se ve alterada 0 pero sı́ las covarianzas entre X y los nuevos factores comunes ya que Cov[X, F ∗ ] = LΦC −1 . Una forma de paliar, en parte, la indeterminación es exigir que los factores tengan varianza uno y sean incorrelados, o sea Φ = Im . En tal caso se dice que los factores son ortogonales y el modelo factorial recibe el nombre de ortogonal. En el caso contrario los factores se dicen oblicuos y el modelo factorial se dice oblicuo. Decimos que en el caso ortogonal se palı́a en parte el problema puesto que puede demostrarse en tal caso que la matriz C es ortogonal. Por lo tanto el modelo está determinado salvo rotaciones ortogonales de los ejes factoriales, lo cual motiva el problema de la rotación. 3.5. Modelo Factorial Ortogonal A continuación nos centramos en el modelo factorial ortogonal X = µ + LF + ε, donde µi representa la media de la variable Xi . i es el i-ésimo factor especı́fico, asociado sólo a Xi . Fj es el j-ésimo factor común, asociado a todas las variables. lij es la carga o peso del j-ésimo factor sobre la i-ésima variable. F y son incorrelados entre sı́. Los factores Fj tienen media cero, varianza uno y son incorrelados. Los errores i tienen media cero, son incorrelados y tienen varianza ψii . Las hipótesis anteriores implican Estadı́stica Multivariante aplicada a la Geologı́a. 8 Francisco Torres Ruiz 1. Var[Xi ] = σi2 = m X 2 liu + ψii = h2i + ψii . u=1 2. Cov[Xi , Xj ] = σij = m X liu lju , i 6= j. u=1 3. Cov[Xi , Fj ] = lij De estas expresiones podemos deducir lo siguiente: 1. La varianza de Xi se descompone en dos términos: uno atribuible a los m factores comunes, y que recibe el nombre de comunalidad y otra debida al factor especı́fico y que se llama varianza especı́fica h2 ψii o unicidad. Si notamos por h2i a la comunalidad se tiene que σi2 = h2i +ψii , por lo que i2 + 2 = 1, y σi σi h2i con ello 2 representa la proporción de varianza de la variable Xi explicada por los factores comunes. σi Además se verifica que dicho cociente es el coeficiente de correlación múltiple al cuadrado entre la variable Xi y los factores. Con ello un valor alto de la comunalidad (próximo a σi2 ) significa que dicha variable está bien representada en el espacio de los factores. 2. Las saturaciones factoriales representan la relación existente entre la variable Xi y el factor Fj ya que se corresponden con las covarianzas entre ellos. Notemos que en el caso de trabajar con datos tipificados se verifica h2i +ψii = 1 por lo que la comunalidad es directamente el coeficiente de correlación lineal múltiple al cuadrado entre las variables y los factores. Además, en este caso, lij es la correlación entre Xi y Fj por lo que se corresponde con el coseno del ángulo formado por la variable Xi y el eje Fj . Por lo tanto, cuanto mayor sea lij en valor absoluto (y no olvidemos que es la coordenada de Xi en el eje Fj ) mayor será la relación de tal variable con el eje. Además, y siempre 2 en el caso tipificado, lij determina la proporción de varianza de la variable Xi explicada solamente por el eje factorial Fj . 3.6. Estimación del modelo factorial. Caso ortogonal La situación que se plantea es la siguiente: dado un vector p-dimensional de componentes correladas y dada una muestra aleatoria, se desea representar adecuadamente esos datos usando el modelo anterior con el objetivo de reproducir los datos con un número pequeño de factores. Para ello debemos conocer las coordenadas de las variables en el espacio de los factores (cargas o saturaciones factoriales) ası́ como las varianzas asociadas a los factores especı́ficos. En definitiva se trata de reproducir la estructura de covarianza Σ = LL0 + Ψ en el caso ortogonal (Σ = LΦL0 + Ψ en el caso oblicuo) y posteriormente calcular las coordenadas de los individuos en el espacio de los factores (puntuaciones factoriales). En resumen, hay que estimar los parámetros lij y ψii para lo cual habrá que partir de la matriz de covarianzas de la muestra de partida, o de la de correlaciones en el caso de trabajar con los datos tipificados. Varios son los procedimientos que se pueden emplear para ello, entre los que podemos citar: 1. Método de las componentes principales. 2. Método del factor principal. Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz 9 3. Método de máxima verosimilitud. Es el único para el cual se impone la hipótesis de normalidad del vector X de variables. Estos son los más habituales en los programas de ordenador, si bien se pueden citar otros como 1. Método del centroide. Hoy dı́a está en desuso ya que fue concebido para simplificar los cálculos antes de la generalización del empleo de los ordenadores. 2. Método del residuo mı́nimo o de mı́nimos cuadrados. Observamos que son diversos los procedimientos que se pueden usar, a lo que hay que unir el hecho de que las soluciones pueden rotarse de modo que se consiga una mejor representación de los factores. Por ello es recomendable que en los casos prácticos se emplee más de un método de estimación y de rotación puesto que de la coherencia de los resultados en el caso de ser relativamente coincidentes podremos deducir el grado de adecuación de un modelo de análisis factorial a unos datos concretos. A continuación describimos algunas caracterı́sticas de los procedimientos más habituales en la práctica. 3.6.1. Método de las Componentes Principales En lo que sigue nos basaremos en la descomposición espectral de una matriz definida positiva, según la p X cual si Ap×p es una matriz definida positiva, entonces A = λi ei e0i , siendo λi los autovalores de A y ei los i=1 correspondientes autovectores. Considerando ahora la matriz de covarianzas Σ podemos escribir Σ = LL0 p √ √ donde L = [ λ1 e1 , λ2 e2 , . . . , λp ep ]. Con ello tenemos representada la estructura de covarianza a partir de tantos factores como variables, p, siendo nulas las varianzas especı́ficas. La j-ésima columna de la matriz p p de cargas factoriales L es λj ej , o sea, salvo el factor de escala λj , el j-ésimo factor se corresponde con la j-ésima componente principal. No obstante hay que tener en cuenta que esta factorización no es útil ya que proporciona tantos factores como variables. Una forma de reducir el número de factores es conservar los m ≤ p factores asociados a los m mayores autovalores de la matriz de varianzas-covarianzas. Por lo tanto nos quedamos con la estructura m X √ √ √ 2 lij , factorial proporcionada por Σ = LL0 +Ψ, donde L = [ λ1 e1 , λ2 e2 , . . . , λm em ] y donde ψi = σi2 − j=1 i = 1, . . . , p. Esta representación factorial se conoce con el nombre de solución por el método de componentes principales cuando se aplica a la matriz de covarianzas muestral S o a la de correlaciones R puesto que las cargas factoriales son proporcionales a los coeficientes de las primeras componentes principales muestrales. Observemos que al ser los factores ortogonales, si el número de factores crece, las cargas factoriales correspondientes a los factores ya extraı́dos no cambian. Sólo hay que ir añadiendo las correspondientes a los nuevos factores incluidos. 3.6.2. Método del Factor Principal Este método es una modificación del método de componentes principales. El planteamiento siguiente lo estableceremos para la matriz de correlaciones si bien también se puede desarrollar para la matriz de covarianzas. Por lo tanto partimos de la estructura teórica R = LL0 + Ψ, de donde LL0 = R − Ψ. Ahora bien, si la especificación del modelo es correcta con m ≤ p factores, se tiene 1 = h2i + ψi . No olvidemos que las unicidades ψi son desconocidas pero imaginemos que se dispone de unas estimaciones iniciales ∗ suyas, ψi∗ . Por lo tanto si reemplazamos los elementos de la diagonal de R por h∗2 i = 1 − ψi , obtenemos Estadı́stica Multivariante aplicada a la Geologı́a. 10 Francisco Torres Ruiz una nueva matriz Rγ que se suele conocer con el nombre de matriz de correlaciones reducida. A dicha matriz se le vuelve a aplicar principales, obteniéndose una nueva matriz de p de componentes p ∗ el∗ método λ1 e1 , . . . , λ∗m e∗m . Con ello se dispone de unas nuevas reestimaciones de las cargas factoriales L∗γ = m X ∗2 = comunalidades h∗2 lij , estimaciones con las cuales se puede repetir el proceso anterior. i j=1 En este desarrollo hay que tener algunas precauciones. En efecto, algunos autovalores λ∗i pudieran ser negativos ya que en la etapa inicial se parte de una estimación de las comunalidades por lo que este es un problema que hay que solucionar. La forma más usual de actuar es tomar las comunalidades iniciales h∗2 i como los cuadrados de los coeficientes de correlación múltiple entre la variable Xi y las p − 1 variables restantes. Ante la descripción de este procedimiento se puede observar que el método de componentes principales es un caso particular de él en el que se toman las comunalidades iniciales iguales a uno. Asimismo hay que decir que en la práctica, si el número de variables es grande y el número de factores pequeño, ambos procedimientos conducen a cargas factoriales similares. 3.6.3. Método de máxima verosimilitud En 1945 Lawley fue el primero que consideró el modelo factorial introduciendo una hipótesis acerca de la distribución del vector X. Concretamente se supone que el vector de factores comunes F y el de factores especı́ficos ε se distribuyen, de forma conjunta, según una ley normal (lo cual, junto con su incorrelación, significa la independencia de ambos tipos de factores). A partir de dicha hipótesis se deduce que X también se distribuye de forma normal con lo cual, si se dispone de una muestra de tamaño N procedente de X, se puede obtener la función de verosimilitud 1 0 −1 0 0 −N − N2p S + N (X − µ)(X − µ) |LL + Ψ| 2 exp − tr (LL + Ψ) L(L, Ψ, µ) = (2π) 2 Observemos que si en la expresión anterior cambiamos L por LO, con O una matriz ortogonal, la verosimilitud no cambia por lo que el estimador máximo verosı́mil de L no es único. Para ello hay que añadir alguna condición que es que la matriz L0 Ψ−1 L sea diagonal. Ahora observamos que la función de verosimilitud anterior puede ser expresada como (N −1)p N −1 1 L(L, Ψ, µ) = (2π)− 2 |LL0 + Ψ|− 2 exp − tr (LL0 + Ψ)−1 S 2 N −p 0 − 21 0 2 ×(2π) |LL + Ψ| exp − tr (X − µ)(X − µ) 2 Por lo tanto, al maximizar en µ, es inmediato que µ b = X. Ası́ pues el problema de maximización queda reducido a Max L(L, Ψ, µ) =Max L(L, Ψ, X). Mediante derivación matricial puede demostrarse que esta L,Ψ L,Ψ maximización conduce al sistema resultado Teorema 3.6.1 Los estimadores máximo verosı́miles de L y Ψ del modelo factorial ortogonal obedecen al sistema de ecuaciones siguiente: S 0 b b b diag LL + Ψ = diag N S b −1 b b b0 Ψ b −1 L) b Ψ L = L(I + L N Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz 11 Hay que notar que en el caso oblicuo, para el cual se tiene la estructura de covarianza Σ = LΦL0 + Ψ, el método de máxima verosimilitud conduce al sistema siguiente S 0 b b b b − LΦL Ψ = diag N −1 −1 b 0 −1 b 0 0 b −1 S b −1 b b b b b b b ΦLΨ L + I = LΨ L LΨ Ψ L N S S b b 0 b −1 0 0 −1 0 −1 b b b b b b −1 b b b b b = ΦL I − LL + Φ LL + Φ Ψ ΦL LL + Φ I− N N sistemas que, en ambos casos, hay que resolver mediante procedimientos numéricos. 3.7. Número de factores que conservar La matriz factorial estimada puede representar más factores de los necesarios para explicar la estructura de los datos. Entonces, ¿con cuántos nos quedamos? Hay diversas reglas de las cuales comentamos algunas: 1. Regla de Kaiser: Se seleccionan los factores con autovalores asociados mayores que uno (suele ser la opción por defecto en los principales programas de ordenador). La razón que puede llevar a usarla es que para los datos tipificados el aumento de varianza debe, por lo menos, ser igual a la varianza de al menos una variable, que es uno al estar tipicadas. 2. Porcentaje de varianza explicada: Se fija un porcentaje de varianza (inercia de la nube de puntos) que se desea explicar como mı́nimo y se seleccionan los factores necesarios para ello. 3. Gráfica Scree-Plot o gráfico de sedimentación: Se trata de una representación en la que el eje de abscisas se representa el número de factores y en el de ordenadas los autovalores. Los factores con varianzas altas se suelen distinguir de los de baja varianza explicada. El punto de selección viene dado por el punto de inflexión en la gráfica. 3.8. Rotaciones factoriales Como sabemos, la matriz de cargas factoriales o saturaciones indica la relación existente entre los factores y las variables. En ocasiones, a partir de ella, es difı́cil interpretar el significado de los factores sobre todo si hay diversos factores que comparten variables. Con ello queremos decir que puede haber diversas variables que presenten correlaciones parecidas y altas con diversos factores, lo cual hace difı́cil su interpretación. Por otra parte el hecho de que el modelo esté identificado salvo una matriz C no singular (ortogonal en el caso del modelo ortogonal) nos lleva a poder rotar los ejes, que representan a los factores, con el objetivo de buscar la solución más interpretable. Lo que se busca es aproximarse al llamado Principio de Estructura Simple (Thurstone, 1945) según el cual: 1. Cada factor debe tener unos pocos pesos altos (variables saturadas en dicho factor) y los otros próximos a cero. 2. Cada variable no debe estar saturada en más de un factor. 3. Dos factores distintos deben presentar distribuciones diferentes de saturaciones altas y bajas. Si bien estos requisitos no se verifican siempre, buscamos aquella solución que más se aproxime a este principio. Entre las rotaciones destacamos dos tipos: ortogonales y oblicuas. Estadı́stica Multivariante aplicada a la Geologı́a. 12 3.8.1. Francisco Torres Ruiz Rotaciones ortogonales Son las rotaciones más aplicadas en la práctica puesto que conservan los ángulos rectos en las representaciones gráficas. Su idea es maximizar la varianza de los cuadrados de las cargas factoriales. Ası́ se dispersa los valores al máximo, aumentando los mayores y disminuyendo los más pequeños. Analı́ticamente se basan en ! p !# " p p m X m X X X γ X 2 2 2 2 cij cik − c cik Min p i=1 ij γ∈[0,1] i=1 i=1 k=1 j6=k donde los valores cij corresponden a las cargas factoriales rotadas. Atendiendo al valor de γ se tienen distintas rotaciones ortogonales. Ası́ cuando γ = 0 estamos ante la rotación Cuartimax. En este caso se puede comprobar que el criterio de minimización equivale a maximizar m p m p 1 XX 2 1 XX 2 (cij − c2 )2 donde c2 = c pm j=1 i=1 pm j=1 i=1 ij Observemos que lo que se está haciendo es maximizar la varianza de los cuadrados de todas las cargas factoriales en bloque. Cuando γ = 1 estamos ante la rotación Varimax, para la cual el criterio seguido es equivalente a maximizar m p p 2 1 XX 2 1X 2 cij − c2· c donde c2· = p j=1 i=1 p i=1 ij y que se diferencia del anterior en que actúa por columnas de la matriz de cargas, con lo cual se maximiza la dispersión de las mismas pero para cada factor separadamente, siendo (tal vez por ello) el procedimiento más empleado. Otras rotaciones ortogonales son la equimax, que está a medio camino entre las dos anteriores (γ = p/2) y la bicuartimax, con γ = 0,5. Por último hay que comentar que es usual emplear la llamada normalización de Kaiser al aplicar los criterios anteriores. El criterio se basa en considerar los factor loadings normalizados en el sentido de dividirlos por la raı́z cuadrada de la comunalidad de la variable i-ésima, o sea, tratar con c∗ij = cij /hi , i = 1, . . . , p, j = 1, . . . , m. Con ello se persigue que las variables con menor comunalidad tengan un peso relativo mayor en la determinación de la estructura final. Ası́, por ejemplo, tenemos el criterio varimax normalizado, o de Kaiser. 3.8.2. Rotaciones oblicuas Cuando Thurstone propone la idea de una estructura simple estaba pensando en sistemas de ejes ortogonales. Sin embargo, no siempre puede probarse la existencia de correlaciones nulas entre los factores, por lo que es posible que rotaciones no ortogonales puedan conducir a estructuras factoriales más simples. Ası́ una rotación oblicua es más general que una ortogonal ya que no impone la restricción de que los factores tengan correlaciones nulas entre sı́. La principal ventaja sobre la ortogonal es que, después de llevarla a cabo, si los factores resultantes son ortogonales, se tiene la seguridad de que la ortogonalidad no ha venido impuesta por el método de rotación. La versión oblicua de los métodos anteriores nos conduce a los procedimientos Oblimin Directos en los cuales la función a minimizar es la misma pero con la salvedad de que γ ∈ (−∞, 0], de tal forma que cuanto más negativo sea γ mayor correlación existirá entre los nuevos factores rotados. Cuando γ = 0 tenemos el método Cuartimin directo que es la versión oblicua del cuartimax si bien ahora hay que tener Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz 13 en cuenta que no se está maximizando la varianza de las cargas factoriales. Entonces, ¿qué persiguen las rotaciones oblicuas?. Para ello conviene previamente comentar algunos aspectos del modelo factorial: 1. Estructura factorial: no es más que la matriz de correlaciones entre las variables Xi y los factores rotados. Por lo tanto coincide, si la rotación es ortogonal, con la matriz de cargas factoriales rotadas. 2. Factores de referencia: asociado a cada factor rotado podemos encontrar un nuevo factor que sea incorrelados con los rotados. A esos nuevos factores que pueden ser hallados se les llaman factores de referencia. Evidentemente, si la rotación es ortogonal esos factores coinciden con los primeros. 3. Estructura factorial de referencia o estructura de referencia: es la matriz de correlaciones entre las variables Xi y los factores de referencia. Si la rotación fuera ortogonal esta matriz coincide con la estructura factorial citada anteriormente. Por lo tanto, ası́ como las rotaciones ortogonales intentan encontrar la estructura factorial más simple, las oblicuas hacen lo mismo pero con la estructura de referencia. Por lo tanto si llamamos vij a la correlación entre Xi y el eje de referencia Gj , las rotaciones oblicuas persiguen Min γ∈[0,1] " p m X m X X k=1 j6=k 2 2 vij vik i=1 γ − p p X i=1 ! 2 vij p X !# 2 vik i=1 Los métodos de rotación que siguen esta filosofı́a se llaman, genéricamente, Oblimin Indirectos. Para γ = 0 tenemos el cuartimin indirecto, para γ = 1 el covarimin y para γ = 0,5 el bicuartimin. Además cuanto más próximo esté γ a cero los ejes son más oblicuos y cuanto más cerca estén a uno lo serán menos, pudiéndose emplear el criterio de normalización de Kaiser comentado anteriormente. 3.9. Puntuaciones factoriales o factor scores Las puntuaciones factoriales o factor scores se pueden definir como los valores que alcanzan los individuos en los factores y son estimaciones de los valores que toman los mismos. Pueden interpretarse como las coordenadas de los individuos en el espacio de los factores por lo que realmente estamos consiguiendo reducir la dimensionalidad del problema al pasar de un espacio de dimensión p (variables originales) a otro de dimensión m ≤ p (los factores pueden considerarse como nuevas variables). En cualquier caso hay que tener en cuenta que estos valores pueden ser usados como datos para posteriores análisis en los que se trate a los mismos individuos pero sustituyendo las variables originales por los factores obtenidos. El problema que surge es cómo calcular dichas puntuaciones dado que ni los factores ni los errores son observables además de ser aleatorios. Se han planteado varias posibilidades de cálculo, entre ellos el procedimiento de Mı́nimos Cuadrados Ponderados y el de Métodos de Regresión Condicionada. 3.9.1. Cálculo de las puntuaciones mediante Mı́nimos Cuadrados La idea que se persigue es la siguiente: dado que el modelo viene dado por la expresión X = µ + LF + ε, se trata de estimar F de tal forma que se haga mı́nima la suma de los cuadrados de los errores (ponderada por la varianza de los mismos o unicidades), o sea, Min ε0 Ψ−1 ε =Min (X − µ − LF )0 Ψ−1 (X − µ − LF ) F F Estadı́stica Multivariante aplicada a la Geologı́a. 14 Francisco Torres Ruiz lo cual no es más que el criterio de mı́nimos cuadrados, en este caso ponderados por las unicidades. La solución técnica pasa por la aplicación de los Mı́nimos Cuadrados Generalizados de Aitken, obteniéndose Fb = (L0 Ψ−1 L)−1 L0 Ψ−1 (X − µ). Como en la práctica no se conocen µ, L y Ψ habrá que actuar con sus estimaciones. Con ello, para cada individuo se tiene que sus puntuaciones factoriales son b0 Ψ b −1 L) b −1 L b0 Ψ b −1 (Xj − X), j = 1, . . . , N . Dependiendo del método de estimación empleado para Fbj = (L las cargas factoriales los factor scores adoptan una expresión diferente. Por ejemplo con el de máxima veb0 Ψ bL b=∆ b rosimilitud hay que tener en cuenta la condición de unicidad por la que se exigı́a que la matriz L fuera diagonal. Con el de componentes principales se supone que las unicidades son uno o próximas a uno, con lo cual pasamos de mı́nimos cuadrados ponderados a mı́nimos cuadrados ordinarios y con ello b 0 L) b −1 L b 0 (Xj − X). Realizando los cálculos oportunos se puede comprobar que en este caso los Fbj = (L factor scores no son más que los valores de las m primeras componentes principales, evaluadas en xj , con q el añadido del factor de escala 1/ 3.9.2. bi λ Cálculo de las puntuaciones mediante métodos de regresión condicionada Para desarrollar este método tenemos que volver a situarnos en la hipótesis de normalidad, o sea, F Np [0; Φ] y ε Np [0; Ψ] siendo ambas distribuciones independientes. Con ello es inmediato que Y = X −µ Np [0; LΦL0 + Ψ]. Además la distribución conjunta de X − µ y F es una normal Np+m [0, Σ∗ ], donde, en general LΦL0 + Ψ L ∗ Σ = L0 Φ para el modelo genérico y donde Φ = Im para el ortogonal. De esta forma podemos considerar la distribución condicionada de los factores al vector Y = y. En particular la media condicionada, teórica, será E [F |Y = y] = L0 (LΦL0 + Ψ)−1 (x − µ). Por lo tanto las puntuaciones factoriales de cada individuo b 0 (L bΦ bL b 0 + Ψ) b −1 (xj − x), j = 1, . . . , N . vendrán dadas por fbj = L 3.10. Algunas consideraciones sobre las interpretaciones 1. Si el modelo ajustado es ortogonal, cargas factoriales altas significan gran relación de la variable con el factor en el que la alcanza (saturación de la variable en el factor). 2. Al imprimir la matriz de cargas factoriales conviene suprimir las más pequeñas para clarificar la estructura factorial y ordenarla según las cargas. 3. A la hora de seleccionar las saturaciones más significativas, y en el caso de datos tipificados, se suele emplear una regla empı́rica en la que las cargas, en valor absoluto, mayores a 0.30 se consideran en un nivel mı́nimo, las mayores a 0.4 se consideran más importante y las mayores de 0.5 se consideran significativas. Además, dado que la carga factorial es la correlación entre la variable y el factor, su cuadrado es la parte de varianza total de la variable explicada por el factor. Ası́ una carga de 0.3 implica, aproximadamente, una explicación del 10 %, una carga del 0.5 lleva asociada un porcentaje de varianza explicada de la variable alrededor del 25 %, mientras que para que un factor explique el 50 % de la varianza ha de contar con una carga que supere el valor 0.7. En el caso de variables sin tipificar el planteamiento es el mismo pero con la salvedad de que, para tener la interpretación anterior, las saturaciones al cuadrado deben previamente dividirse por la comunalidad de cada variable. Estadı́stica Multivariante aplicada a la Geologı́a. Francisco Torres Ruiz 15 4. Cada factor contiene grupos de variables correladas entre sı́, positiva o negativamente. Dos variables contenidas en un mismo factor con cargas factoriales de signo opuesto y altas en valor absoluto indican, por un lado, alta correlación con el factor y, por otro, oposición entre ellas atendiendo al significado que tenga el factor. 5. En cualquier caso hay que nombrar los factores y darles significación. Para ello es fundamental tener conocimiento sobre la materia concreta a la que se refieren los datos. 6. En ocasiones, y para ayudar a la interpretación, es conveniente ordenar los individuos según los factores (en orden creciente o decreciente). Ası́ para un factor fijo y ordenados los individuos podemos observar los valores que toman sobre las variables que conforman el factor y de esta manera sacar conclusiones sobre la naturaleza del factor y describir qué es lo que está representando respecto a los datos. 7. En cuanto a las representaciones gráficas asociadas al Análisis Factorial podemos distinguir: De las variables: representan las variables en el espacio de los factores con coordenadas las cargas factoriales. Suelen representarse los planos factoriales que mayor varianza expliquen. Conviene representarlos con la rotación que más clarifique la estructura factorial. De los individuos: representan los individuos en el espacio de los factores con coordenadas las puntuaciones factoriales. Son útiles si se pretende investigar a los individuos con mayor y/o menor puntuación en un factor (más y menos asociación con el mismo). Además puede servir para detectar grupos de individuos homogéneos. 8. Conviene usar varios métodos de extracción de factores y rotaciones para comprobar la estabilidad de la solución obtenida, no tanto en los valores estimados como en la estructura factorial hallada. 3.11. Algunos comentarios adicionales 3.11.1. Análisis Factorial y Análisis de Componentes Principales Aunque el Análisis Factorial y el Análisis de Componentes Principales son técnicas encuadras dentro de lo que se conoce como técnicas de reducción de datos, existe diferencias conceptuales entre ambas. El objetivo fundamental del A.C.P. es reducir el número de variables originales a unas pocas tales que forman unas nuevas variables que expliquen el máximo de la varianza total de los datos. Por otro lado el Análisis Factorial tiene como principal objetivo buscar los factores subyacentes a unos datos, o sea, construcciones latentes que pueden explicar las interdependencias entre las variables. Por lo tanto el A.C.P. hace especial énfasis en la varianza total de la muestra mientras que el A.F. lo hace sobre las correlaciones. En realidad lo que ocurre es que dos técnicas diferentes emplean el mismo algoritmo de resolución como es el de construcción de las componentes principales, método ideado por Hotelling en 1933 como paso para abordar el problema de reducción de dimensiones y que posteriormente fue visto por el mismo autor como un fin en sı́ mismo. Por ello no es extraño que exista una confusión acerca de las diferencias de ambos procedimientos. Para algunos autores el A.C.P. es una técnica en sı́ misma que puede ser usado en distintas situaciones, siendo el A.F. una de ellas. Otros, sin embargo, contemplen el A.C.P. como el primer paso del A.F., el cual puede completarse con las rotaciones de los ejes, si bien otros autores, más en la lı́nea de los primeros, consideran que las rotaciones no forman parte propiamente del A.F. Incluso hay autores que distinguen entre ambos procedimientos y reservan el nombre de Análisis Factorial para el caso de extracción por cualquier método que no sea el de componentes principales. Ası́ pues la confusión está servida. Algunas razones que aumentan este hecho son: Estadı́stica Multivariante aplicada a la Geologı́a. 16 Francisco Torres Ruiz 1. El punto de partida habitual de ambos métodos es una matriz de correlaciones. 2. Uno de los procedimientos de extracción de factores en A.F. se llama de componentes principales. 3. Algunos de los principales programas de ordenador incluyen el A.C.P. dentro del A.F. (B.M.D.P., Spss, Systat), aunque hay otros como Statgraphics o S-Plus que si diferencia entre ellos. Aunque se pueden desgranar múltiples visiones de las diferencias entre ambas técnicas (como las comentadas anteriormente) quizás la forma más intuitiva es la siguiente: el A.C.P. describe aspectos observables en los datos ya que su objetivo es presentar los datos de otra forma (cambio de base del espacio de variables al de factores) sin hacer ninguna suposición sobre las estructuras subyacentes. Por su parte el A.F. pretende pasar de un conjunto de variables observadas a un número menor de factores no observables tomando como hipótesis de partida que las variables iniciales son combinaciones lineales de los factores latentes. El A.F. suele ser empleado en campos como la Psicologı́a y la Educación en donde se buscan nuevas variables que sean interpretables. Por otro lado el A.C.P. suele ser empleado en campos como el Marketing y la Biologı́a buscando simplemente la reducción de dimensionalidad antes comentada. 3.11.2. Análisis Factorial Exploratorio y Confirmatorio En el A.F. exploratorio el investigador no tiene un conocimiento previo acerca de la estructura factorial, por lo que no se formula ninguna hipótesis sobre las cargas factoriales, sino que los factores se deducen a partir de los datos. Es decir, el investigador va en busca de un modelo teórico que pueda explicar la correlación entre las variables latentes. En al A.F. confirmatorio sı́ se posee información a priori sobre la estructura factorial. Por lo tanto el objetivo no es buscar factores sino verificar o confirmar la estructura planteada como conocida, dando origen a los modelos LISREL. 3.11.3. Análisis Factorial tipo R y tipo Q 1. Tipo R. Observemos que el procedimiento descrito gira alrededor de la estructura de covarianza Σ = LL0 + Ψ para lo cual hay que factorizar la matriz de varianzas-covarianzas muestral o la de correlaciones en el caso de trabajar con los datos tipificados. Asimismo notemos que, intrı́nsecamente, la extracción de los factores y la determinación de las saturaciones equivale a obtener grupos homogéneos de variables que determinan y definen los factores. 2. Tipo Q. A la vista de lo comentado en apartado anterior nos cabe la pregunta ¿ese planteamiento es simétrico en el sentido de realizar el mismo proceso con los individuos? Es decir, ¿podemos con esta técnica hallar grupos homogéneos de individuos? Estadı́sticamente hablando nos encontramos con un problema y es que no tiene significado estadı́stico la covarianza o correlación entre individuos, si bien es calculable desde el punto de vista teórico. O sea, tendrı́amos que calcular dichas correlaciones aunque algunos programas de ordenador más especı́ficos y con la idea de dar mayor interpretación a la relación entre individuos, calculan como medida inicial de asociación entre los mismos el coseno del ángulo que forman los vectores p-dimensionales que definen a los individuos, o sea p X xik xjk cos(θij ) = v k=1 uX p u p 2 X t xik x2jk k=1 Estadı́stica Multivariante aplicada a la Geologı́a. k=1 Francisco Torres Ruiz 17 y, a partir de la matriz θ de elementos θij , desarrollar la técnica en el sentido anteriormente descrito. Conviene decir que es usual que en este tipo de análisis haya un factor muy predominante, sobre todo si la muestra es bastante homogénea. Por ello conviene extraer al menos dos factores y representar los individuos según las cargas factoriales obtenidas (los individuos estarán en un cı́rculo de radio unidad). De esta forma se pueden observar individuos homogéneos que serán aquellos que en dicha representación presentan ángulos entre ellos más pequeños. De todas formas hay que comentar que si se desea realizar un análisis de este tipo se acompañe de otra técnica en esta dirección como puede ser un Análisis Cluster por individuos. Estadı́stica Multivariante aplicada a la Geologı́a.

Tema 3

Documentos relacionados

Productos

Apoyo

Tema 3

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib