Tema 3

Anuncio
Índice general
3. Análisis Factorial
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Fases en el Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Definición del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4. Hipótesis del modelo. Modelo Factorial Ortogonal y Oblicuo . . . . . . . . . . . .
3.5. Modelo Factorial Ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6. Estimación del modelo factorial. Caso ortogonal . . . . . . . . . . . . . . . . . . .
3.6.1. Método de las Componentes Principales . . . . . . . . . . . . . . . . . . .
3.6.2. Método del Factor Principal . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6.3. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . .
3.7. Número de factores que conservar . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8. Rotaciones factoriales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8.1. Rotaciones ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8.2. Rotaciones oblicuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.9. Puntuaciones factoriales o factor scores . . . . . . . . . . . . . . . . . . . . . . .
3.9.1. Cálculo de las puntuaciones mediante Mı́nimos Cuadrados . . . . . . . . .
3.9.2. Cálculo de las puntuaciones mediante métodos de regresión condicionada
3.10. Algunas consideraciones sobre las interpretaciones . . . . . . . . . . . . . . . . .
3.11. Algunos comentarios adicionales . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.11.1. Análisis Factorial y Análisis de Componentes Principales . . . . . . . . .
3.11.2. Análisis Factorial Exploratorio y Confirmatorio . . . . . . . . . . . . . . .
3.11.3. Análisis Factorial tipo R y tipo Q . . . . . . . . . . . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
4
5
6
7
8
9
9
10
11
11
12
12
13
13
14
14
15
15
16
16
2
Estadı́stica Multivariante aplicada a la Geologı́a.
Francisco Torres Ruiz
Capı́tulo 3
Análisis Factorial
3.1.
Introducción
El Análisis Factorial es una técnica multivariante cuyos orı́genes hay que buscarlos a principios del siglo
XX en los estudios de Karl Pearson y Charles Spearman sobre la inteligencia, distinguiéndose en la misma
un factor general y un cierto número de factores especı́ficos. Debido a este hecho el Análisis Factorial fue
desarrollado en sus principios por cientı́ficos interesados en medidas psicométricas. Paradójicamente, visto
hoy dı́a, los argumentos sobre las interpretaciones psicológicas de los estudios pioneros ası́ como la falta de
facilidades computacionales impidieron su desarrollo como un método estadı́stico. La aparición de rápidos
ordenadores ha ayudado en gran manera a profundizar en los aspectos teóricos y computacionales, abandonándose técnicas originales al mismo tiempo que se han disipado gran parte de las dudas y controversias
originales.
El propósito esencial del Análisis Factorial es descubrir, si es posible, las relaciones existentes entre
diversas variables y expresarlas en términos de unas pocas cantidades aleatorias subyacentes, pero no
observables, llamada factores. La motivación general asociada a esta técnica puede describirse si suponemos
que las variables en estudio pueden ser agrupadas según sus correlaciones de tal forma que las variables
pertenecientes a un mismo grupo están altamente correladas entre ellas pero tienen bajas correlaciones
con las variables de un grupo diferente. De esta forma es concebible que cada grupo de variables represente
una construcción simple o factor que es responsable de las correlaciones observadas. Esta es una cuestión
vital puesto que una parte importante del contenido de cualquier área de la ciencia consiste en mostrar
qué elementos están relacionados entre sı́ y cómo es esta relación. En este orden de cosas, en determinadas
ciencias, las variables que se relacionan están definidas con precisión y son ampliamente aceptadas por
la comunidad cientı́fica como las variables que merecen ser estudiadas. En múltiples casos las variables
están especificadas de forma exacta mediante relaciones matemáticas pero en otros casos las variables
están definidas con menos precisión, sin existir un acuerdo total entre los cientı́ficos respecto a los aspectos
anteriormente mencionados. En este sentido el Análisis Factorial representa un cuerpo de doctrina que
puede ayudar a los cientı́ficos a definir sus propias variables con mayor precisión y decidir cuáles merece
la pena estudiar y relacionar, al mismo tiempo que puede ayudar a comprender mejor las interrelaciones
cuando son muchas las variables ante las cuales uno ha de enfrentarse.
El Análisis Factorial puede ser considerado como una extensión del Análisis de Componentes Principales. Ambos tienen en común aproximar la estructura de covarianza asociada al problema en estudio si
bien la aproximación dada por el Análisis Factorial es bastante más elaborada.
3
4
Francisco Torres Ruiz
3.2.
Fases en el Análisis Factorial
Si bien se ha establecido que el fin primordial del Análisis Factorial es investigar, a partir de las
medidas de un conjunto de variables, qué dimensiones pueden usarse para explicar las interrelaciones
existentes entre las mismas (Análisis Factorial Exploratorio), no es esta la única posible utilidad de esta
técnica multivariante. Por ejemplo, uno puede desear probar una teorı́a sobre el número y naturaleza de
los factores necesarios para explicar las interrelaciones entre las variables que está estudiando o bien puede
desear verificar hallazgos previos usando una nueva muestra de la misma población o una muestra de una
población diferente (Análisis Factorial Confirmatorio).
Cualesquiera que sean los objetivos del análisis, habrá que seguir los siguientes pasos:
1. Seleccionar las variables.
2. Calcular la matriz de covarianzas o la de correlaciones de las variables.
3. Extraer los factores.
4. Rotar los factores.
5. Interpretar la matriz de factores rotados.
Por lo tanto el punto de partida del Análisis Factorial es la matriz de covarianzas o de correlaciones
muestrales calculada a partir de la muestra obtenida de las variables en estudio. Cuando hay un gran
número de variables y muchas correlaciones significativas entre ellas, es prácticamente imposible explicar
el complejo entramado de interrelaciones existentes. El Análisis Factorial proporciona un medio para
estudiar estas interrelaciones postulando la existencia de factores o dimensiones subyacentes que explican
los valores que aparecen en la matriz de correlaciones. Para fijar ideas y a tı́tulo de ejemplo podemos
pensar que un factor tamaño puede explicar la correlación entre el peso y la altura y lo harı́a de tal
forma que se podrı́a ordenar a las personas a lo largo de un continuo que irı́a desde el más grande al
más pequeño. La correlación real existente entre el peso y la altura podrı́a explicarse por el hecho de que
ambas variables participan de una relación con ese factor tamaño. Hay que tener en cuenta que el Análisis
Factorial no entra en disquisiciones acerca de si es más útil emplear un único concepto como tamaño o usar
dos conceptos como altura y peso. Se limita a proporcionar un número, lo menor posible, de factores que
pueden servir como sustitutos de un número grande de variables. Este paso se realiza mediante un proceso
llamado extracción de factores que consiste en extraer factores (ya veremos cómo) a partir de la matriz de
covarianzas o la de correlaciones hasta que las correlaciones residuales sean tan próximas a cero que pueda
considerarse que no poseen un significado apreciable. Son varios los procedimientos existentes para ello pero
todos persiguen calcular coeficientes que representen los pesos (cargas factoriales o saturaciones) de las
variables en cada factor, coeficientes que representarán el grado de relación (realmente es una correlación)
entre las variables y los factores.
Sin embargo el Análisis Factorial no termina con la extracción de los factores y el cálculo de las cargas
factoriales puesto que en esta primera etapa la estructura factorial obtenida suele ser bastante compleja
debido al más que probable solapamiento de los factores con muchas variables lo cual dificulta en gran
manera la interpretación de las interrelaciones factor-variable. Ello conduce al problema de la rotación de
los ejes factoriales cuyo objetivo es conseguir simplificar la estructura factorial de forma que afloren lo
más claramente posible las interrelaciones más significativas y se devalúen las menos importantes. Esto no
significa ningún cambio en las relaciones anteriormente halladas sino tan sólo es otra forma de mostrarlas
con la particularidad de clarificarlas lo mejor posible.
Una vez realizadas estas fases, la última etapa es la de intentar interpretar el significado de los factores
con la ayuda del conocimiento sobre las variables que entraron en el Análisis Factorial y cualquier otra
Estadı́stica Multivariante aplicada a la Geologı́a.
Francisco Torres Ruiz
5
información pertinente. Se seleccionan las variables que en cada factor rotado tiene pesos altos y se investiga
respecto a las caracterı́sticas en común entre ellas para ası́ poder dar un nombre apropiado a cada factor
que ha sido identificado.
3.3.
Definición del modelo
Sea X = (X1 , . . . , Xp )0 un vector aleatorio p-dimensional cuyas componentes son observables y supongamos que tiene media µ = (µ1 , · · · , µp )0 y matriz de covarianzas Σ. El modelo factorial supone que X
puede expresarse como combinación lineal de unas pocas variables aleatorias no observables F1 , . . . , Fm
(m ≤ p) llamadas factores comunes y p fuentes adicionales de variación 1 , . . . , p llamadas errores o más
frecuentemente factores especı́ficos. En forma desarrollada tenemos, para un individuo concreto:
x1 = µ1 + l11 F1 + . . . + l1m Fm + 1
..
.
xi = µi + li1 F1 + . . . + lim Fm + i
..
.
xp = µp + lp1 F1 + . . . + lpm Fm + p
escrito en forma matricial

 
x1
 ..  
 .  

 
 xi  = 

 
 .  
 ..  
xp
 
µ1
..  

. 
 

µi  + 

..  


.
µp
l11
..
.
l12
···
l1m
li1
..
.
li2
···
lim
lp1
lp2
···
lpm

 
F1
  ..  
 .  

 
  Fj  + 

 
 .  
  ..  
Fm

1
.. 
. 

i 

.. 
. 
p
y abreviadamente X = µ + LF + ε. En la anterior expresión podemos comentar:
1. Los coeficientes lij se denominan cargas factoriales (factor loadings en la denominación anglosajona)
o saturaciones factoriales de la i-ésima variable sobre el j-ésimo factor, por lo que la matriz L se
llama la matriz de cargas factoriales.
2. El i-ésimo factor especı́fico, i , está asociado sólo con la i-ésima variable Xi .
3. Observamos que todas las variables se expresan en términos de una constante y de m + p variables
(F1 , . . . , Fm , 1 , . . . , p ) que no son observables.
Para fijar ideas consideremos un cuestionario de p preguntas pasado a N individuos y sea X =
(X1 , . . . , Xp ) el vector que contiene las respuestas a las preguntas del mismo. Para el individuo i-ésimo el
modelo factorial supone
xi1 = µ1 + l11 Fi1 + · · · + lk1 Fik + · · · + lm1 Fim + i1
..
.
xij = µj + l1j Fi1 + · · · + lkj Fik + · · · + lmj Fim + ij
..
.
xip = µp + l1p Fi1 + · · · + lkp Fik + · · · + lmp Fim + ip
donde
Estadı́stica Multivariante aplicada a la Geologı́a.
6
Francisco Torres Ruiz
xij es la puntuación obtenida en la pregunta j por el individuo i.
µj es la puntuación promedio de la pregunta j-ésima en la población.
Fik es la puntuación alcanzada por el individuo i en el factor común k-ésimo asociado al total de
preguntas. Los llamaremos puntuaciones factoriales o factor scores.
lkj son las llamadas cargas factoriales o saturaciones o factor loadings. Son los coeficientes que
determinan el peso que el factor k-ésimo ejerce sobre la respuesta j-ésima de cada individuo. Si bien
los factores Fk son comunes a todas las preguntas, el peso de cada factor puede variar según la
pregunta considerada.
ij es, para el individuo i, la parte de la puntuación de la pregunta j que no puede ser explicada por
los factores comunes. Es la suma de un error de medida (inherente a toda medición) más un factor
especı́fico relacionado sólo con dicha pregunta.
En resumen, la expresión xij = µj +
m
X
lkj Fik + ij , i = 1, . . . , N , j = 1, . . . , p, determina que la
k=1
respuesta j-ésima del individuo i-ésimo es la suma ponderada de sus puntuaciones en los factores comunes
más el promedio de la puntuación en la población y más una componente o factor especı́fico de cada
pregunta. Notemos que aunque los factores son comunes a las preguntas, las puntuaciones alcanzadas por
cada individuo en cada uno de ellos (Fik ) son distintas pero no ası́ las cargas factoriales o saturaciones
que están asociadas a cada pregunta, determinando ası́ el peso del factor correspondiente.
Nota 3.3.1 Las columnas de la matriz L pueden considerarse como m vectores en un espacio p dimensional y generarán algún subespacio de cierta dimensión (suponiendo que son linealmente independientes). De
esta forma los factor scores o puntuaciones factoriales Fik representarán las coordenadas de N puntos en
dicho espacio que denominaremos espacio de los factores. Asimismo los valores incluidos en las columnas
de la matriz L corresponden a los coeficientes de las combinaciones lineales de las variables que definen
los factores y representan las coordenadas de las variables en el espacio de los factores.
3.4.
Hipótesis del modelo. Modelo Factorial Ortogonal y Oblicuo
Cuando en el modelo anterior se supone que el vector F de factores es aleatorio se considera que:
1. Los factores tienen media cero.
2. El vector F tiene matriz de covarianzas genérica Φ.
Además suponemos
1. Los errores especı́ficos i tienen media cero y son incorrelados, con matriz de covarianzas diagonal
Ψ.
2. Los errores especı́ficos y los factores son incorrelados.
De aquı́ se deduce
1. Las variables Xi tienen media µi , i = 1, . . . , p.
Estadı́stica Multivariante aplicada a la Geologı́a.
Francisco Torres Ruiz
7
2. El vector de variables X tiene matriz de covarianzas Σ = LΦL0 + Ψ.
y con ello
1. Cov[Xi , Xj ] = σij =
m X
m
X
liu ljv Cov[Fu , Fv ] + Cov[i , j ] =
u=1 v=1
Si i 6= j, σij =
Si i = j, σi2 =
2. Cov[Xi , Fj ] =
m
X
m X
m
X
liu ljv φuv + ψij y en particular
u=1 v=1
m X
m
X
liu ljv φuv
u=1 v=1
m
X
2
liu
φuu + ψii
u=1
liu φuv
u=1
En el modelo planteado existe una indeterminación. En efecto, sea Cm×m una matriz no singular y sea
F ∗ = C −1 F y L∗ = LC. Entonces podemos escribir
X = µ + LF + ε = µ + L∗ C −1 CF ∗ + ε = µ + L∗ F ∗ + ε
por lo que ambos modelos son equivalentes. Además la estructura de covarianza de X no se ve alterada
0
pero sı́ las covarianzas entre X y los nuevos factores comunes ya que Cov[X, F ∗ ] = LΦC −1 .
Una forma de paliar, en parte, la indeterminación es exigir que los factores tengan varianza uno y sean
incorrelados, o sea Φ = Im . En tal caso se dice que los factores son ortogonales y el modelo factorial recibe
el nombre de ortogonal. En el caso contrario los factores se dicen oblicuos y el modelo factorial se dice
oblicuo.
Decimos que en el caso ortogonal se palı́a en parte el problema puesto que puede demostrarse en tal
caso que la matriz C es ortogonal. Por lo tanto el modelo está determinado salvo rotaciones ortogonales
de los ejes factoriales, lo cual motiva el problema de la rotación.
3.5.
Modelo Factorial Ortogonal
A continuación nos centramos en el modelo factorial ortogonal X = µ + LF + ε, donde
µi representa la media de la variable Xi .
i es el i-ésimo factor especı́fico, asociado sólo a Xi .
Fj es el j-ésimo factor común, asociado a todas las variables.
lij es la carga o peso del j-ésimo factor sobre la i-ésima variable.
F y son incorrelados entre sı́.
Los factores Fj tienen media cero, varianza uno y son incorrelados.
Los errores i tienen media cero, son incorrelados y tienen varianza ψii .
Las hipótesis anteriores implican
Estadı́stica Multivariante aplicada a la Geologı́a.
8
Francisco Torres Ruiz
1. Var[Xi ] =
σi2
=
m
X
2
liu
+ ψii = h2i + ψii .
u=1
2. Cov[Xi , Xj ] = σij =
m
X
liu lju , i 6= j.
u=1
3. Cov[Xi , Fj ] = lij
De estas expresiones podemos deducir lo siguiente:
1. La varianza de Xi se descompone en dos términos: uno atribuible a los m factores comunes, y que
recibe el nombre de comunalidad y otra debida al factor especı́fico y que se llama varianza especı́fica
h2 ψii
o unicidad. Si notamos por h2i a la comunalidad se tiene que σi2 = h2i +ψii , por lo que i2 + 2 = 1, y
σi
σi
h2i
con ello 2 representa la proporción de varianza de la variable Xi explicada por los factores comunes.
σi
Además se verifica que dicho cociente es el coeficiente de correlación múltiple al cuadrado entre la
variable Xi y los factores. Con ello un valor alto de la comunalidad (próximo a σi2 ) significa que
dicha variable está bien representada en el espacio de los factores.
2. Las saturaciones factoriales representan la relación existente entre la variable Xi y el factor Fj ya
que se corresponden con las covarianzas entre ellos.
Notemos que en el caso de trabajar con datos tipificados se verifica h2i +ψii = 1 por lo que la comunalidad
es directamente el coeficiente de correlación lineal múltiple al cuadrado entre las variables y los factores.
Además, en este caso, lij es la correlación entre Xi y Fj por lo que se corresponde con el coseno del ángulo
formado por la variable Xi y el eje Fj . Por lo tanto, cuanto mayor sea lij en valor absoluto (y no olvidemos
que es la coordenada de Xi en el eje Fj ) mayor será la relación de tal variable con el eje. Además, y siempre
2
en el caso tipificado, lij
determina la proporción de varianza de la variable Xi explicada solamente por el
eje factorial Fj .
3.6.
Estimación del modelo factorial. Caso ortogonal
La situación que se plantea es la siguiente: dado un vector p-dimensional de componentes correladas
y dada una muestra aleatoria, se desea representar adecuadamente esos datos usando el modelo anterior
con el objetivo de reproducir los datos con un número pequeño de factores.
Para ello debemos conocer las coordenadas de las variables en el espacio de los factores (cargas o
saturaciones factoriales) ası́ como las varianzas asociadas a los factores especı́ficos. En definitiva se trata
de reproducir la estructura de covarianza Σ = LL0 + Ψ en el caso ortogonal (Σ = LΦL0 + Ψ en el
caso oblicuo) y posteriormente calcular las coordenadas de los individuos en el espacio de los factores
(puntuaciones factoriales). En resumen, hay que estimar los parámetros lij y ψii para lo cual habrá que
partir de la matriz de covarianzas de la muestra de partida, o de la de correlaciones en el caso de trabajar
con los datos tipificados.
Varios son los procedimientos que se pueden emplear para ello, entre los que podemos citar:
1. Método de las componentes principales.
2. Método del factor principal.
Estadı́stica Multivariante aplicada a la Geologı́a.
Francisco Torres Ruiz
9
3. Método de máxima verosimilitud. Es el único para el cual se impone la hipótesis de normalidad
del vector X de variables.
Estos son los más habituales en los programas de ordenador, si bien se pueden citar otros como
1. Método del centroide. Hoy dı́a está en desuso ya que fue concebido para simplificar los cálculos
antes de la generalización del empleo de los ordenadores.
2. Método del residuo mı́nimo o de mı́nimos cuadrados.
Observamos que son diversos los procedimientos que se pueden usar, a lo que hay que unir el hecho de
que las soluciones pueden rotarse de modo que se consiga una mejor representación de los factores. Por ello
es recomendable que en los casos prácticos se emplee más de un método de estimación y de rotación puesto
que de la coherencia de los resultados en el caso de ser relativamente coincidentes podremos deducir el
grado de adecuación de un modelo de análisis factorial a unos datos concretos. A continuación describimos
algunas caracterı́sticas de los procedimientos más habituales en la práctica.
3.6.1.
Método de las Componentes Principales
En lo que sigue nos basaremos en la descomposición espectral de una matriz definida positiva, según la
p
X
cual si Ap×p es una matriz definida positiva, entonces A =
λi ei e0i , siendo λi los autovalores de A y ei los
i=1
correspondientes
autovectores.
Considerando ahora la matriz de covarianzas Σ podemos escribir Σ = LL0
p
√
√
donde L = [ λ1 e1 , λ2 e2 , . . . , λp ep ]. Con ello tenemos representada la estructura de covarianza a partir
de tantos factores como variables,
p, siendo nulas las varianzas especı́ficas.
La j-ésima columna de la matriz
p
p
de cargas factoriales L es λj ej , o sea, salvo el factor de escala λj , el j-ésimo factor se corresponde con
la j-ésima componente principal.
No obstante hay que tener en cuenta que esta factorización no es útil ya que proporciona tantos factores
como variables. Una forma de reducir el número de factores es conservar los m ≤ p factores asociados a los
m mayores autovalores de la matriz de varianzas-covarianzas. Por lo tanto nos quedamos con la estructura
m
X
√
√
√
2
lij
,
factorial proporcionada por Σ = LL0 +Ψ, donde L = [ λ1 e1 , λ2 e2 , . . . , λm em ] y donde ψi = σi2 −
j=1
i = 1, . . . , p.
Esta representación factorial se conoce con el nombre de solución por el método de componentes principales cuando se aplica a la matriz de covarianzas muestral S o a la de correlaciones R puesto que las
cargas factoriales son proporcionales a los coeficientes de las primeras componentes principales muestrales. Observemos que al ser los factores ortogonales, si el número de factores crece, las cargas factoriales
correspondientes a los factores ya extraı́dos no cambian. Sólo hay que ir añadiendo las correspondientes a
los nuevos factores incluidos.
3.6.2.
Método del Factor Principal
Este método es una modificación del método de componentes principales. El planteamiento siguiente
lo estableceremos para la matriz de correlaciones si bien también se puede desarrollar para la matriz de
covarianzas. Por lo tanto partimos de la estructura teórica R = LL0 + Ψ, de donde LL0 = R − Ψ. Ahora
bien, si la especificación del modelo es correcta con m ≤ p factores, se tiene 1 = h2i + ψi . No olvidemos
que las unicidades ψi son desconocidas pero imaginemos que se dispone de unas estimaciones iniciales
∗
suyas, ψi∗ . Por lo tanto si reemplazamos los elementos de la diagonal de R por h∗2
i = 1 − ψi , obtenemos
Estadı́stica Multivariante aplicada a la Geologı́a.
10
Francisco Torres Ruiz
una nueva matriz Rγ que se suele conocer con el nombre de matriz de correlaciones reducida. A dicha
matriz se le vuelve a aplicar
principales, obteniéndose una nueva matriz de
p de componentes
p ∗ el∗ método
λ1 e1 , . . . , λ∗m e∗m . Con ello se dispone de unas nuevas reestimaciones de las
cargas factoriales L∗γ =
m
X
∗2
=
comunalidades h∗2
lij
, estimaciones con las cuales se puede repetir el proceso anterior.
i
j=1
En este desarrollo hay que tener algunas precauciones. En efecto, algunos autovalores λ∗i pudieran ser
negativos ya que en la etapa inicial se parte de una estimación de las comunalidades por lo que este es
un problema que hay que solucionar. La forma más usual de actuar es tomar las comunalidades iniciales
h∗2
i como los cuadrados de los coeficientes de correlación múltiple entre la variable Xi y las p − 1 variables
restantes.
Ante la descripción de este procedimiento se puede observar que el método de componentes principales
es un caso particular de él en el que se toman las comunalidades iniciales iguales a uno. Asimismo hay
que decir que en la práctica, si el número de variables es grande y el número de factores pequeño, ambos
procedimientos conducen a cargas factoriales similares.
3.6.3.
Método de máxima verosimilitud
En 1945 Lawley fue el primero que consideró el modelo factorial introduciendo una hipótesis acerca de
la distribución del vector X. Concretamente se supone que el vector de factores comunes F y el de factores
especı́ficos ε se distribuyen, de forma conjunta, según una ley normal (lo cual, junto con su incorrelación,
significa la independencia de ambos tipos de factores). A partir de dicha hipótesis se deduce que X también
se distribuye de forma normal con lo cual, si se dispone de una muestra de tamaño N procedente de X,
se puede obtener la función de verosimilitud
1 0
−1
0
0
−N
− N2p
S + N (X − µ)(X − µ)
|LL + Ψ| 2 exp − tr (LL + Ψ)
L(L, Ψ, µ) = (2π)
2
Observemos que si en la expresión anterior cambiamos L por LO, con O una matriz ortogonal, la
verosimilitud no cambia por lo que el estimador máximo verosı́mil de L no es único. Para ello hay que
añadir alguna condición que es que la matriz L0 Ψ−1 L sea diagonal. Ahora observamos que la función de
verosimilitud anterior puede ser expresada como
(N −1)p
N −1
1 L(L, Ψ, µ) = (2π)− 2 |LL0 + Ψ|− 2 exp − tr (LL0 + Ψ)−1 S
2
N −p
0
− 21
0
2
×(2π) |LL + Ψ| exp − tr (X − µ)(X − µ)
2
Por lo tanto, al maximizar en µ, es inmediato que µ
b = X. Ası́ pues el problema de maximización queda
reducido a Max L(L, Ψ, µ) =Max L(L, Ψ, X). Mediante derivación matricial puede demostrarse que esta
L,Ψ
L,Ψ
maximización conduce al sistema resultado
Teorema 3.6.1 Los estimadores máximo verosı́miles de L y Ψ del modelo factorial ortogonal obedecen al
sistema de ecuaciones siguiente:
S
0
b
b
b
diag LL + Ψ = diag
N
S b −1 b b
b0 Ψ
b −1 L)
b
Ψ L = L(I + L
N
Estadı́stica Multivariante aplicada a la Geologı́a.
Francisco Torres Ruiz
11
Hay que notar que en el caso oblicuo, para el cual se tiene la estructura de covarianza Σ = LΦL0 + Ψ,
el método de máxima verosimilitud conduce al sistema siguiente
S
0
b
b
b
b
− LΦL
Ψ = diag
N
−1 −1 b 0
−1 b 0
0 b −1 S b −1 b
b
b
b
b
b
b
ΦLΨ L + I = LΨ L
LΨ
Ψ L
N
S
S b b 0 b −1
0
0
−1
0
−1
b
b
b
b
b
b −1
b
b
b
b
b
= ΦL I − LL + Φ
LL + Φ
Ψ
ΦL LL + Φ
I−
N
N
sistemas que, en ambos casos, hay que resolver mediante procedimientos numéricos.
3.7.
Número de factores que conservar
La matriz factorial estimada puede representar más factores de los necesarios para explicar la estructura
de los datos. Entonces, ¿con cuántos nos quedamos? Hay diversas reglas de las cuales comentamos algunas:
1. Regla de Kaiser: Se seleccionan los factores con autovalores asociados mayores que uno (suele ser
la opción por defecto en los principales programas de ordenador). La razón que puede llevar a usarla
es que para los datos tipificados el aumento de varianza debe, por lo menos, ser igual a la varianza
de al menos una variable, que es uno al estar tipicadas.
2. Porcentaje de varianza explicada: Se fija un porcentaje de varianza (inercia de la nube de puntos)
que se desea explicar como mı́nimo y se seleccionan los factores necesarios para ello.
3. Gráfica Scree-Plot o gráfico de sedimentación: Se trata de una representación en la que el eje
de abscisas se representa el número de factores y en el de ordenadas los autovalores. Los factores
con varianzas altas se suelen distinguir de los de baja varianza explicada. El punto de selección viene
dado por el punto de inflexión en la gráfica.
3.8.
Rotaciones factoriales
Como sabemos, la matriz de cargas factoriales o saturaciones indica la relación existente entre los
factores y las variables. En ocasiones, a partir de ella, es difı́cil interpretar el significado de los factores
sobre todo si hay diversos factores que comparten variables. Con ello queremos decir que puede haber
diversas variables que presenten correlaciones parecidas y altas con diversos factores, lo cual hace difı́cil su
interpretación.
Por otra parte el hecho de que el modelo esté identificado salvo una matriz C no singular (ortogonal
en el caso del modelo ortogonal) nos lleva a poder rotar los ejes, que representan a los factores, con el
objetivo de buscar la solución más interpretable. Lo que se busca es aproximarse al llamado Principio de
Estructura Simple (Thurstone, 1945) según el cual:
1. Cada factor debe tener unos pocos pesos altos (variables saturadas en dicho factor) y los otros
próximos a cero.
2. Cada variable no debe estar saturada en más de un factor.
3. Dos factores distintos deben presentar distribuciones diferentes de saturaciones altas y bajas.
Si bien estos requisitos no se verifican siempre, buscamos aquella solución que más se aproxime a este
principio. Entre las rotaciones destacamos dos tipos: ortogonales y oblicuas.
Estadı́stica Multivariante aplicada a la Geologı́a.
12
3.8.1.
Francisco Torres Ruiz
Rotaciones ortogonales
Son las rotaciones más aplicadas en la práctica puesto que conservan los ángulos rectos en las representaciones gráficas. Su idea es maximizar la varianza de los cuadrados de las cargas factoriales. Ası́ se
dispersa los valores al máximo, aumentando los mayores y disminuyendo los más pequeños. Analı́ticamente
se basan en
! p
!#
" p
p
m X
m
X
X
X
γ X 2
2 2
2
cij cik −
c
cik
Min
p i=1 ij
γ∈[0,1]
i=1
i=1
k=1 j6=k
donde los valores cij corresponden a las cargas factoriales rotadas. Atendiendo al valor de γ se tienen
distintas rotaciones ortogonales. Ası́ cuando γ = 0 estamos ante la rotación Cuartimax. En este caso se
puede comprobar que el criterio de minimización equivale a maximizar
m
p
m
p
1 XX 2
1 XX 2
(cij − c2 )2 donde c2 =
c
pm j=1 i=1
pm j=1 i=1 ij
Observemos que lo que se está haciendo es maximizar la varianza de los cuadrados de todas las cargas
factoriales en bloque. Cuando γ = 1 estamos ante la rotación Varimax, para la cual el criterio seguido es
equivalente a maximizar
m
p
p
2
1 XX 2
1X 2
cij − c2·
c
donde c2· =
p j=1 i=1
p i=1 ij
y que se diferencia del anterior en que actúa por columnas de la matriz de cargas, con lo cual se maximiza
la dispersión de las mismas pero para cada factor separadamente, siendo (tal vez por ello) el procedimiento más empleado. Otras rotaciones ortogonales son la equimax, que está a medio camino entre las dos
anteriores (γ = p/2) y la bicuartimax, con γ = 0,5.
Por último hay que comentar que es usual emplear la llamada normalización de Kaiser al aplicar los
criterios anteriores. El criterio se basa en considerar los factor loadings normalizados en el sentido de
dividirlos por la raı́z cuadrada de la comunalidad de la variable i-ésima, o sea, tratar con c∗ij = cij /hi ,
i = 1, . . . , p, j = 1, . . . , m. Con ello se persigue que las variables con menor comunalidad tengan un peso
relativo mayor en la determinación de la estructura final. Ası́, por ejemplo, tenemos el criterio varimax
normalizado, o de Kaiser.
3.8.2.
Rotaciones oblicuas
Cuando Thurstone propone la idea de una estructura simple estaba pensando en sistemas de ejes
ortogonales. Sin embargo, no siempre puede probarse la existencia de correlaciones nulas entre los factores,
por lo que es posible que rotaciones no ortogonales puedan conducir a estructuras factoriales más simples.
Ası́ una rotación oblicua es más general que una ortogonal ya que no impone la restricción de que los
factores tengan correlaciones nulas entre sı́. La principal ventaja sobre la ortogonal es que, después de
llevarla a cabo, si los factores resultantes son ortogonales, se tiene la seguridad de que la ortogonalidad no
ha venido impuesta por el método de rotación.
La versión oblicua de los métodos anteriores nos conduce a los procedimientos Oblimin Directos en
los cuales la función a minimizar es la misma pero con la salvedad de que γ ∈ (−∞, 0], de tal forma que
cuanto más negativo sea γ mayor correlación existirá entre los nuevos factores rotados. Cuando γ = 0
tenemos el método Cuartimin directo que es la versión oblicua del cuartimax si bien ahora hay que tener
Estadı́stica Multivariante aplicada a la Geologı́a.
Francisco Torres Ruiz
13
en cuenta que no se está maximizando la varianza de las cargas factoriales. Entonces, ¿qué persiguen las
rotaciones oblicuas?. Para ello conviene previamente comentar algunos aspectos del modelo factorial:
1. Estructura factorial: no es más que la matriz de correlaciones entre las variables Xi y los factores
rotados. Por lo tanto coincide, si la rotación es ortogonal, con la matriz de cargas factoriales rotadas.
2. Factores de referencia: asociado a cada factor rotado podemos encontrar un nuevo factor que sea
incorrelados con los rotados. A esos nuevos factores que pueden ser hallados se les llaman factores
de referencia. Evidentemente, si la rotación es ortogonal esos factores coinciden con los primeros.
3. Estructura factorial de referencia o estructura de referencia: es la matriz de correlaciones
entre las variables Xi y los factores de referencia. Si la rotación fuera ortogonal esta matriz coincide
con la estructura factorial citada anteriormente.
Por lo tanto, ası́ como las rotaciones ortogonales intentan encontrar la estructura factorial más simple,
las oblicuas hacen lo mismo pero con la estructura de referencia. Por lo tanto si llamamos vij a la correlación
entre Xi y el eje de referencia Gj , las rotaciones oblicuas persiguen
Min
γ∈[0,1]
" p
m X
m
X
X
k=1 j6=k
2 2
vij
vik
i=1
γ
−
p
p
X
i=1
!
2
vij
p
X
!#
2
vik
i=1
Los métodos de rotación que siguen esta filosofı́a se llaman, genéricamente, Oblimin Indirectos. Para
γ = 0 tenemos el cuartimin indirecto, para γ = 1 el covarimin y para γ = 0,5 el bicuartimin. Además
cuanto más próximo esté γ a cero los ejes son más oblicuos y cuanto más cerca estén a uno lo serán menos,
pudiéndose emplear el criterio de normalización de Kaiser comentado anteriormente.
3.9.
Puntuaciones factoriales o factor scores
Las puntuaciones factoriales o factor scores se pueden definir como los valores que alcanzan los individuos en los factores y son estimaciones de los valores que toman los mismos. Pueden interpretarse como
las coordenadas de los individuos en el espacio de los factores por lo que realmente estamos consiguiendo
reducir la dimensionalidad del problema al pasar de un espacio de dimensión p (variables originales) a
otro de dimensión m ≤ p (los factores pueden considerarse como nuevas variables). En cualquier caso hay
que tener en cuenta que estos valores pueden ser usados como datos para posteriores análisis en los que se
trate a los mismos individuos pero sustituyendo las variables originales por los factores obtenidos.
El problema que surge es cómo calcular dichas puntuaciones dado que ni los factores ni los errores
son observables además de ser aleatorios. Se han planteado varias posibilidades de cálculo, entre ellos el
procedimiento de Mı́nimos Cuadrados Ponderados y el de Métodos de Regresión Condicionada.
3.9.1.
Cálculo de las puntuaciones mediante Mı́nimos Cuadrados
La idea que se persigue es la siguiente: dado que el modelo viene dado por la expresión X = µ + LF + ε,
se trata de estimar F de tal forma que se haga mı́nima la suma de los cuadrados de los errores (ponderada
por la varianza de los mismos o unicidades), o sea,
Min ε0 Ψ−1 ε =Min (X − µ − LF )0 Ψ−1 (X − µ − LF )
F
F
Estadı́stica Multivariante aplicada a la Geologı́a.
14
Francisco Torres Ruiz
lo cual no es más que el criterio de mı́nimos cuadrados, en este caso ponderados por las unicidades.
La solución técnica pasa por la aplicación de los Mı́nimos Cuadrados Generalizados de Aitken, obteniéndose Fb = (L0 Ψ−1 L)−1 L0 Ψ−1 (X − µ). Como en la práctica no se conocen µ, L y Ψ habrá que actuar con sus estimaciones. Con ello, para cada individuo se tiene que sus puntuaciones factoriales son
b0 Ψ
b −1 L)
b −1 L
b0 Ψ
b −1 (Xj − X), j = 1, . . . , N . Dependiendo del método de estimación empleado para
Fbj = (L
las cargas factoriales los factor scores adoptan una expresión diferente. Por ejemplo con el de máxima veb0 Ψ
bL
b=∆
b
rosimilitud hay que tener en cuenta la condición de unicidad por la que se exigı́a que la matriz L
fuera diagonal. Con el de componentes principales se supone que las unicidades son uno o próximas a
uno, con lo cual pasamos de mı́nimos cuadrados ponderados a mı́nimos cuadrados ordinarios y con ello
b 0 L)
b −1 L
b 0 (Xj − X). Realizando los cálculos oportunos se puede comprobar que en este caso los
Fbj = (L
factor scores no son más que los valores
de las m primeras componentes principales, evaluadas en xj , con
q
el añadido del factor de escala 1/
3.9.2.
bi
λ
Cálculo de las puntuaciones mediante métodos de regresión condicionada
Para desarrollar este método tenemos que volver a situarnos en la hipótesis de normalidad, o sea,
F
Np [0; Φ] y ε
Np [0; Ψ] siendo ambas distribuciones independientes. Con ello es inmediato que
Y = X −µ
Np [0; LΦL0 + Ψ]. Además la distribución conjunta de X − µ y F es una normal Np+m [0, Σ∗ ],
donde, en general
LΦL0 + Ψ L
∗
Σ =
L0
Φ
para el modelo genérico y donde Φ = Im para el ortogonal. De esta forma podemos considerar la distribución condicionada de los factores al vector Y = y. En particular la media condicionada, teórica,
será E [F |Y = y] = L0 (LΦL0 + Ψ)−1 (x − µ). Por lo tanto las puntuaciones factoriales de cada individuo
b 0 (L
bΦ
bL
b 0 + Ψ)
b −1 (xj − x), j = 1, . . . , N .
vendrán dadas por fbj = L
3.10.
Algunas consideraciones sobre las interpretaciones
1. Si el modelo ajustado es ortogonal, cargas factoriales altas significan gran relación de la variable con
el factor en el que la alcanza (saturación de la variable en el factor).
2. Al imprimir la matriz de cargas factoriales conviene suprimir las más pequeñas para clarificar la
estructura factorial y ordenarla según las cargas.
3. A la hora de seleccionar las saturaciones más significativas, y en el caso de datos tipificados, se suele
emplear una regla empı́rica en la que las cargas, en valor absoluto, mayores a 0.30 se consideran en
un nivel mı́nimo, las mayores a 0.4 se consideran más importante y las mayores de 0.5 se consideran
significativas. Además, dado que la carga factorial es la correlación entre la variable y el factor, su
cuadrado es la parte de varianza total de la variable explicada por el factor. Ası́ una carga de 0.3
implica, aproximadamente, una explicación del 10 %, una carga del 0.5 lleva asociada un porcentaje
de varianza explicada de la variable alrededor del 25 %, mientras que para que un factor explique el
50 % de la varianza ha de contar con una carga que supere el valor 0.7.
En el caso de variables sin tipificar el planteamiento es el mismo pero con la salvedad de que, para
tener la interpretación anterior, las saturaciones al cuadrado deben previamente dividirse por la
comunalidad de cada variable.
Estadı́stica Multivariante aplicada a la Geologı́a.
Francisco Torres Ruiz
15
4. Cada factor contiene grupos de variables correladas entre sı́, positiva o negativamente. Dos variables
contenidas en un mismo factor con cargas factoriales de signo opuesto y altas en valor absoluto
indican, por un lado, alta correlación con el factor y, por otro, oposición entre ellas atendiendo al
significado que tenga el factor.
5. En cualquier caso hay que nombrar los factores y darles significación. Para ello es fundamental tener
conocimiento sobre la materia concreta a la que se refieren los datos.
6. En ocasiones, y para ayudar a la interpretación, es conveniente ordenar los individuos según los
factores (en orden creciente o decreciente). Ası́ para un factor fijo y ordenados los individuos podemos
observar los valores que toman sobre las variables que conforman el factor y de esta manera sacar
conclusiones sobre la naturaleza del factor y describir qué es lo que está representando respecto a los
datos.
7. En cuanto a las representaciones gráficas asociadas al Análisis Factorial podemos distinguir:
De las variables: representan las variables en el espacio de los factores con coordenadas las
cargas factoriales. Suelen representarse los planos factoriales que mayor varianza expliquen.
Conviene representarlos con la rotación que más clarifique la estructura factorial.
De los individuos: representan los individuos en el espacio de los factores con coordenadas
las puntuaciones factoriales. Son útiles si se pretende investigar a los individuos con mayor y/o
menor puntuación en un factor (más y menos asociación con el mismo). Además puede servir
para detectar grupos de individuos homogéneos.
8. Conviene usar varios métodos de extracción de factores y rotaciones para comprobar la estabilidad
de la solución obtenida, no tanto en los valores estimados como en la estructura factorial hallada.
3.11.
Algunos comentarios adicionales
3.11.1.
Análisis Factorial y Análisis de Componentes Principales
Aunque el Análisis Factorial y el Análisis de Componentes Principales son técnicas encuadras dentro
de lo que se conoce como técnicas de reducción de datos, existe diferencias conceptuales entre ambas. El
objetivo fundamental del A.C.P. es reducir el número de variables originales a unas pocas tales que forman
unas nuevas variables que expliquen el máximo de la varianza total de los datos. Por otro lado el Análisis
Factorial tiene como principal objetivo buscar los factores subyacentes a unos datos, o sea, construcciones
latentes que pueden explicar las interdependencias entre las variables. Por lo tanto el A.C.P. hace especial
énfasis en la varianza total de la muestra mientras que el A.F. lo hace sobre las correlaciones.
En realidad lo que ocurre es que dos técnicas diferentes emplean el mismo algoritmo de resolución
como es el de construcción de las componentes principales, método ideado por Hotelling en 1933 como
paso para abordar el problema de reducción de dimensiones y que posteriormente fue visto por el mismo
autor como un fin en sı́ mismo. Por ello no es extraño que exista una confusión acerca de las diferencias
de ambos procedimientos. Para algunos autores el A.C.P. es una técnica en sı́ misma que puede ser usado
en distintas situaciones, siendo el A.F. una de ellas. Otros, sin embargo, contemplen el A.C.P. como el
primer paso del A.F., el cual puede completarse con las rotaciones de los ejes, si bien otros autores, más
en la lı́nea de los primeros, consideran que las rotaciones no forman parte propiamente del A.F. Incluso
hay autores que distinguen entre ambos procedimientos y reservan el nombre de Análisis Factorial para el
caso de extracción por cualquier método que no sea el de componentes principales. Ası́ pues la confusión
está servida. Algunas razones que aumentan este hecho son:
Estadı́stica Multivariante aplicada a la Geologı́a.
16
Francisco Torres Ruiz
1. El punto de partida habitual de ambos métodos es una matriz de correlaciones.
2. Uno de los procedimientos de extracción de factores en A.F. se llama de componentes principales.
3. Algunos de los principales programas de ordenador incluyen el A.C.P. dentro del A.F. (B.M.D.P.,
Spss, Systat), aunque hay otros como Statgraphics o S-Plus que si diferencia entre ellos.
Aunque se pueden desgranar múltiples visiones de las diferencias entre ambas técnicas (como las comentadas anteriormente) quizás la forma más intuitiva es la siguiente: el A.C.P. describe aspectos observables
en los datos ya que su objetivo es presentar los datos de otra forma (cambio de base del espacio de variables al de factores) sin hacer ninguna suposición sobre las estructuras subyacentes. Por su parte el A.F.
pretende pasar de un conjunto de variables observadas a un número menor de factores no observables
tomando como hipótesis de partida que las variables iniciales son combinaciones lineales de los factores
latentes. El A.F. suele ser empleado en campos como la Psicologı́a y la Educación en donde se buscan
nuevas variables que sean interpretables. Por otro lado el A.C.P. suele ser empleado en campos como el
Marketing y la Biologı́a buscando simplemente la reducción de dimensionalidad antes comentada.
3.11.2.
Análisis Factorial Exploratorio y Confirmatorio
En el A.F. exploratorio el investigador no tiene un conocimiento previo acerca de la estructura factorial,
por lo que no se formula ninguna hipótesis sobre las cargas factoriales, sino que los factores se deducen
a partir de los datos. Es decir, el investigador va en busca de un modelo teórico que pueda explicar la
correlación entre las variables latentes.
En al A.F. confirmatorio sı́ se posee información a priori sobre la estructura factorial. Por lo tanto
el objetivo no es buscar factores sino verificar o confirmar la estructura planteada como conocida, dando
origen a los modelos LISREL.
3.11.3.
Análisis Factorial tipo R y tipo Q
1. Tipo R. Observemos que el procedimiento descrito gira alrededor de la estructura de covarianza
Σ = LL0 + Ψ para lo cual hay que factorizar la matriz de varianzas-covarianzas muestral o la de
correlaciones en el caso de trabajar con los datos tipificados. Asimismo notemos que, intrı́nsecamente, la extracción de los factores y la determinación de las saturaciones equivale a obtener grupos
homogéneos de variables que determinan y definen los factores.
2. Tipo Q. A la vista de lo comentado en apartado anterior nos cabe la pregunta ¿ese planteamiento
es simétrico en el sentido de realizar el mismo proceso con los individuos? Es decir, ¿podemos con
esta técnica hallar grupos homogéneos de individuos?
Estadı́sticamente hablando nos encontramos con un problema y es que no tiene significado estadı́stico
la covarianza o correlación entre individuos, si bien es calculable desde el punto de vista teórico. O sea,
tendrı́amos que calcular dichas correlaciones aunque algunos programas de ordenador más especı́ficos
y con la idea de dar mayor interpretación a la relación entre individuos, calculan como medida inicial
de asociación entre los mismos el coseno del ángulo que forman los vectores p-dimensionales que
definen a los individuos, o sea
p
X
xik xjk
cos(θij ) = v k=1
uX
p
u p 2 X
t
xik
x2jk
k=1
Estadı́stica Multivariante aplicada a la Geologı́a.
k=1
Francisco Torres Ruiz
17
y, a partir de la matriz θ de elementos θij , desarrollar la técnica en el sentido anteriormente descrito.
Conviene decir que es usual que en este tipo de análisis haya un factor muy predominante, sobre todo
si la muestra es bastante homogénea. Por ello conviene extraer al menos dos factores y representar
los individuos según las cargas factoriales obtenidas (los individuos estarán en un cı́rculo de radio
unidad). De esta forma se pueden observar individuos homogéneos que serán aquellos que en dicha
representación presentan ángulos entre ellos más pequeños. De todas formas hay que comentar que
si se desea realizar un análisis de este tipo se acompañe de otra técnica en esta dirección como puede
ser un Análisis Cluster por individuos.
Estadı́stica Multivariante aplicada a la Geologı́a.
Descargar