2. Análisis factorial

Anuncio
2.
Análisis factorial
Técnica estadı́stica multivariante que tiene por objeto descubrir las relaciones entre un grupo de
variables y expresarlas mediante un número mı́nimo de cantidades aleatorias no observables
(factores comunes) y una variable simple (factor especı́fico).
Los factores comunes generarán la estructura de covarianza del vector aleatorio y el factor
especı́fico explicará la varianza de cada componente del vector.
La formulación y los primeros desarrollos de la técnica tienen su origen en Psicologı́a y se
atribuyen a Spearman (1904). Lawley (1940), asumiendo distribución normal para el vector
aleatorio, estimó los coeficientes factoriales usando el método de máxima verosimilitud.
2.1.
Definición del modelo factorial
Sea X = (X1 , . . . , Xp )0 un vector aleatorio observable con vector de medias µ y matriz de covarianzas
Σ
E[X] = µ,
Cov[X] = Σ = (σij ) matriz definida positiva
Se asume que cada componente Xi del vector X puede expresarse como una combinación lineal de
m variables no observables F1 , . . . , Fm (m ≤ p), sobre las que puede superponerse un conjunto de
errores e1 , . . . , ep ,
x1 = µ1 + λ11 F1 + · · · + λ1m Fm + e1
..
.
xi = µi + λi1 F1 + · · · + λim Fm + ei
..
.
xp = µp + λp1 F1 + · · · + λpm Fm + ep
escrito en forma matricial

 
x1
 ..  
 .  

 
 xi  = 
 .  
 ..  
xp
 
µ1
..  
.  
 
µi  + 

.. 
.  
µp
λ11 · · ·
..
.
λi1 · · ·
..
.

λ1m
..  
. 

λim  

.. 
. 
λp1 · · · λpm
 
F1
..  
.  
 
Fj  + 

.. 
.  
Fm

e1
.. 
. 

ei 
.. 
. 
ep
y abreviadamente X = µ + ΛF + e donde
- F = (F1 , . . . Fj , . . . , Fm )0 vector de variables no observables denominados factores comunes,
- e = (e1 , . . . ei , . . . , ep )0 vector de errores denominados factores especı́ficos,
- Λ = (λij )p×m matriz de coeficientes desconocidos denominados cargas factoriales o saturaciones
factoriales de la i-ésima variable sobre el j-ésimo factor.
11
2.1.1.
Interpretación del modelo factorial en la práctica
Dado un conjunto de datos relativos a n individuos que han sido estudiados según las variables
X1 , . . . , Xp , el modelo factorial para la observación i-ésima (i = 1, . . . , n) se escribe:
xi1 = µ1 + λ11 Fi1 + · · · + λk1 Fik + · · · + λm1 Fim + ei1
..
.
xij = µj + λ1j Fi1 + · · · + λkj Fik + · · · + λmj Fim + eij
..
.
xip = µj + λ1p Fi1 + · · · + λkp Fik + · · · + λmp Fim + eip
donde:
xij es el valor de la variable j-ésima sobre el individuo i-ésimo.
µj representa el valor promedio de la variable j-ésima en la población.
Fik es la puntuación obtenida por el individuo i-ésimo en el factor común k-ésimo, puntuaciones
factoriales.
λkj es el peso que el factor k-ésimo ejerce sobre el valor que cada individuo presenta en la variable
j-ésima, cargas o saturaciones factoriales.
eij representa la parte de la variable j-ésima que no puede ser explicada por los factores comunes
para el individuo i-ésimo. Es suma de un error de medida (inherente a toda medición) y un
factor especı́fico relacionado sólo con la variable j-ésima.
La expresión
xij = µj +
m
X
λkj Fik + eij ,
i = 1, . . . , n j = 1, . . . , p
k=1
determina que la respuesta del individuo i-ésimo en la variable j-ésima es la suma ponderada de sus
puntuaciones en los factores comunes más el promedio de dichas respuestas en la población y más
una componente o factor que es especı́fico de cada variable.
2.1.2.
Hipótesis en el modelo factorial. Modelo factorial ortogonal y oblicuo
El vector F = (F1 , . . . , Fm )0 de factores comunes puede ser aleatorio o puede ser un parámetro
desconocido que varı́e para cada observación. Cuando F sea un vector aleatorio se asumirán una
serie de hipótesis sobre el modelo.
Factores comunes
- Los factores Fj tienen media 0.
- El vector F = (F1 , . . . Fj , . . . , Fm )0 tiene matriz de covarianzas genérica Φ.
Factores especı́ficos
- Los factores especı́ficos ei tienen media 0.
- Los factores especı́ficos ei son incorrelados , con matriz de covarianzas diagonal Ψ.
12
Factores especı́ficos y factores comunes
Los factores especı́ficos ei y comunes Fj son incorrelados.
Problema de indeterminación del modelo
En el modelo planteado existe una indeterminación. Dada una matriz Cm×m no singular, si definimos
otro vector de factores comunes F∗ = C−1 F y otra matriz Λ∗ = ΛC, entonces:
X = µ + ΛF + e = µ + Λ∗ C−1 CF∗ + e = µ + Λ∗ F∗ + e
y ambos modelos son equivalentes.
Solución parcial: Exigir que los factores comunes tengan varianza 1 y sean incorrelados entre sı́,
es decir, Φ = Im .
(La solución es parcial porque la indeterminación se reduce al caso en que C es ortogonal, es
decir, el modelo ajustado serı́a único salvo rotaciones ortogonales.)
Modelo factorial ortogonal
Un modelo factorial X = µ + ΛF + e verificando las hipótesis
(i) Los factores comunes Fj tienen media 0, y matriz de covarianzas Φ.
(ii) Los factores especı́ficos ei tienen media 0 y son incorrelados, con matriz de covarianzas diagonal,
Ψ.
(iii) Los factores especı́ficos ei y comunes Fj son incorrelados.
(iv) Los factores comunes tienen varianza 1 y son incorrelados, es decir, Φ = Im .
se dice que tiene factores ortogonales y el modelo recibe el nombre de modelo factorial ortogonal.
Modelo factorial oblicuo
Un modelo factorial X = µ + ΛF + e verificando las hipótesis (i)-(iii) se dice que tiene factores
oblicuos y el modelo se denomina modelo factorial oblicuo.
Comunalidades y especificidades
Sea X = µ + ΛF + e un modelo factorial. De las hipótesis (i)-(iii) del modelo se sigue
1. Las variables Xi tienen media µi , i = 1, . . . , p.
2. El vector X = (X1 , . . . Xp )0 tiene matriz de covarianzas Σ = ΛΦΛ0 + Ψ.
y de ahı́
(a) Cov[Xi , Xj ] = σij =
=
m X
m
X
u=1 v=1
m X
m
X
λiu λjv Cov[Fu , Fv ] + Cov[ei , ej ]
λiu λjv φuv + ψij
u=1 v=1
siendo
13
σij =
m X
m
X
λiu λjv φuv , i 6= j
u=1 v=1
σi2 =
m
X
λ2iu φuu + ψii , i = j
u=1
(b) Cov[Xi , Fj ] =
m
X
λiu φuv
u=1
Considerando un modelo factorial ortogonal, de las hipótesis (i)-(iv) se sigue que el vector X tiene
matriz de covarianzas Σ = ΛΛ0 + Ψ. Por tanto,
(a) V ar[Xi ] =
σi2
=
m
X
.
λ2iu + ψii = ci + ψii .
u=1
(b) Cov[Xi , Xj ] = σij =
m
X
λiu λju para i 6= j.
u=1
(c) Cov[Xi , Fj ] = λij .
Se deduce:
La varianza de la variable Xi , σi2 , se puede descomponer en un sumando que expresa la variabilidad
de la variable debida a los factores comunes y que se denomina comunalidad (ci ) y otro sumando
que expresa la variabilidad de la variable debida a los factores especı́ficos y que se llama varianza
especı́fica o especificidad (ψii ).
Se tiene que
ci
ψii
+ 2 = 1,
2
σi
σi
y ci /σi2 representa la proporción de varianza de la variable Xi explicada por los factores comunes
(coeficiente de correlación múltiple al cuadrado entre la variable Xi y los factores comunes).
Un valor alto de la comunalidad (próximo a σi2 ) significa que dicha variable está bien
representada en el espacio de factores.
Las saturaciones factoriales λij representan la relación existente entre la variable Xi y el factor Fj
(es la covarianza entre ellos).
Si se trabaja con datos tipificados (matriz de correlaciones), σi2 = ci + ψii = 1, por lo que:
La comunalidad ci es directamente el coeficiente de correlación lineal múltiple entre variables
y factores al cuadrado.
λij es la correlación entre la variable Xi y el factor Fj , de modo que λ2ij es la proporción de
varianza de la variable Xi explicada solamente por el eje factorial Fj .
14
2.2.
Estimación del modelo factorial ortogonal
Sea X = (X1 , . . . , Xp )0 un vector p-dimensional de componentes correladas. Se dispone de una
muestra aleatoria de n datos y se desea reproducir esos datos de forma adecuada usando un modelo
factorial con el menor número posible de factores.
Para ello se necesita conocer las coordenadas de las variables en el espacio de los factores comunes
(cargas factoriales) λij , y las varianzas asociadas a los factores especı́ficos, ψii , partiendo de la matriz
de covarianzas de la muestra o de la de correlaciones en el caso de trabajar con los datos tipificados.
2.2.1.
Métodos de estimación
Método de las Componentes Principales.
Se basa en el cálculo de las componentes principales asociadas al vector de variables.
Método del Factor Principal.
Es una generalización del método de las componentes principales.
Método de Máxima Verosimilitud ( Lawley, 1945).
Parte de la hipótesis de que el vector de factores comunes F y el de factores especı́ficos e, se
distribuyen, de forma conjunta, según una ley normal.
Método del Centroide.
Concebido para simplificar cálculos antes de la generalización del uso de ordenadores actualmente está en desuso.
Método del Residuo Mı́nimo o de Mı́nimos Cuadrados.
Describimos a continuación los más habituales en la práctica.
Método de las componentes principales.
Sean l1 , . . . , lp los autovalores de la matriz de covarianzas Σ y v1 , . . . , vp los correspondientes autovectores. Entonces, se puede escribir
p
p
p
Σ = ΛΛ0 , Λ = [ l1 v1 , l2 v2 , . . . , lp vp ]
Con ello se representa la estructura de covarianza de X a partir de tantos factores como variables,
p, siendo nulas las varianzas especı́ficas. La j-ésima columna de la matriz de cargas factoriales Λ es
p
lj vj
p
(salvo el factor de escala lj , el j-ésimo factor se corresponde con la j-ésima componente principal).
Para reducir el número de factores se consideran los m ≤ p factores asociados a los m mayores autovalores de la matriz de varianzas-covarianzas, seleccionándose la estructura factorial proporcionada
por
Σ = ΛΛ0 + Ψ,
donde
m
X
p
p
p
2
Λ = [ l1 v1 , l2 v2 , . . . , lm vm ], ψi = σi −
λ2ij , i = 1, . . . , p
j=1
15
Esta representación factorial se puede aplicar a la matriz de covarianzas muestral S o la matriz de
correlaciones muestral R.
Método del factor principal
Sea R = ΛΛ0 + Ψ la matriz de correlaciones. Se sigue que
ΛΛ0 = R − Ψ
Si la especificación del modelo es correcta con m ≤ p factores, se tiene
1 = ci + ψi
∗
Asumamos que se dispone de unas estimaciones iniciales de las especifidades desconocidas, ψi . Reemplazando los elementos de la diagonal de R por
c∗i = 1 − ψi∗
se obtiene una nueva matriz Rγ que se conoce con el nombre de matriz de correlaciones reducida.
Se aplica el método de componentes principales sobre la matriz de correlaciones reducida obteniéndose
una nueva matriz de cargas factoriales
p
p
? v? ]
Λ?γ = [ l1? v1? , . . . , lm
m
Se dispone ası́ de nuevas reestimaciones de las comunalidades
c∗i
=
m
X
λ?2
ij
j=1
con las que se puede repetir el proceso anterior.
Al partir en la etapa inicial de una estimación de las comunalidades, para evitar autovalores con valor
negativo, suelen tomarse como comunalidades iniciales los cuadrados de los coeficientes de correlación
múltiple entre la variable Xi y las p − 1 variables restantes.
Observaciones
El método de componentes principales es una caso particular de este procedimiento en el que se
toman las comunalidades iniciales iguales a 1.
Si el número de variables es grande y el número de factores es pequeño, ambos procedimientos
conducen a cargas factoriales similares.
Método de máxima verosimilitud
Este es un método debido a Lawley (1945).
Se supone que el vector de factores comunes F y el de factores especı́ficos e se distribuyen, de forma
conjunta, según una ley normal. Se deduce de ahı́ la normalidad del vector de variables originales X.
Si se dispone de una muestra aleatoria de tamaño N de X, la función de verosimilitud vendrá dada
por
L(Λ, Ψ, µ) =
1
×
0
N/2
(2π)N p/2
|ΛΛ + Ψ|
1 0
−1
0
× exp − Tr (ΛΛ + Ψ) S + N (X̄ − µ)(X̄ − µ)
2
16
Al maximizar en µ se llega a µ
b = X̄ y
máx L(Λ, Ψ, µ) = máx L(Λ, Ψ, X̄)
Λ,Ψ
Λ,Ψ
Puede entonces demostrarse el siguiente resultado (derivación matricial).
Teorema 1
Los estimadores máximo verosı́miles de Λ y Ψ en el modelo
factorial ortogonal, Λ̂ y Ψ̂ respectivamente,
se deducen del sistema
S
(i) diag Ψ̂ + Λ̂Λ̂0 = diag
N
S −1
(ii)
Ψ̂ Λ̂ = Λ̂ I + Λ̂0 Ψ−1 Λ̂
N
Para el modelo factorial oblicuo con Σ = ΛΦΛ0 + Ψ, se tiene lo siguiente.
Teorema 2
Los estimadores máximo verosı́miles de Λ, Φ y Ψ en el modelo
factorial oblicuo, Λ̂, Φ̂ y Ψ̂ respectivamente, vienen dados por el
sistema
S
0
(i)
Ψ̂ = diag
− Λ̂Φ̂Λ̂
N
−1
−1
−1 0 −1
0 −1 S
(ii) Φ̂Λ̂Ψ̂ Λ̂ + I = Λ̂Ψ̂ Λ̂
Λ̂ Ψ̂
Ψ̂ Λ̂
N
S
(Λ̂Λ̂0 + Ψ̂−1 )
=
(iii) Φ̂Λ̂ Λ̂Λ̂0 + Ψ̂−1 I −
N
S
= Φ̂Λ̂ I − (Λ̂Λ̂0 + Ψ̂−1 )
Ψ̂−1
N
2.2.2.
Número de factores a conservar
La matriz factorial estimada puede representar más factores de los necesarios para explicar la estructura de los datos. La selección del número de ellos a considerar se puede hacer siguiendo diversas
reglas.
1. Regla de Kaiser
Se seleccionan los factores con autovalores asociados mayores que uno.
2. Porcentaje de Varianza Explicada
Se fija un porcentaje de la varianza de los datos que se desea explicar como mı́nimo, y se
seleccionan los factores necesarios para conseguirlo.
3. Gráfico de Sedimentación
Representación gráfica en la que se considera en el eje de abscisas el número de factores y en el
de ordenadas los autovalores. Los factores con varianzas altas se suelen distinguir de aquellos
con varianza explicada pequeña. El punto de selección viene dado por el punto de inflexión en
la gráfica.
17
2.3.
Rotaciones factoriales
En ocasiones es difı́cil interpretar el significado de los factores a partir de la matriz de cargas factoriales, sobre todo si aparecen varios factores compartiendo variables. Puede haber distintas variables
que muestren correlaciones altas con varios factores haciendo difı́cil su interpretación.
El hecho de que el modelo esté identificado salvo una matriz C no singular (ortogonal en el caso del
modelo ortogonal) sugiere le posibilidad de rotar los ejes que representan los factores para buscar la
solución más fácilmente interpretable.
Se trata de intentar aproximarse al denominado Principio de Estructura Simple (Thurstone, 1947)
según el cual
1. Cada factor debe contener cargas altas y cargas próximas a cero (es decir, debe tener importancia en la explicación de sólo algunas de las variables).
2. Cada variable debe ser explicada por un sólo factor.
3. Factores distintos deben presentar distribución de cargas altas y bajas distinta.
(Concreción del Principio general de parsimonia en la explicación cientı́fica, que establece que de
todas las soluciones posibles debe preferirse la más sencilla)
Existen dos tipos de rotaciones: Rotaciones ortogonales y Rotaciones oblicuas. Tanto en las rotaciones
ortogonales como en las de tipo oblicuo, la comunalidad de cada variable no se ve modificada.
2.3.1.
Rotaciones ortogonales
Conservan los ángulos rectos en las representaciones gráficas. Se basan en la idea de maximizar la
varianza de los cuadrados de las cargas factoriales, con lo que se consigue que los valores se dispersen
al máximo, aumentando los mayores y disminuyendo los más pequeños.
Formalmente se basan en
mı́n
γ∈[0,1]
" p
m X
m
X
X
k=1 j6=k
i=1
γ
c̃2ij c̃2ik −
p
p
X
!
c̃2ij
i=1
p
X
!#
c̃2ik
i=1
donde los valores c̃ij corresponden a las cargas factoriales rotadas.
Según los distintos valores de γ se tienen distintas rotaciones ortogonales.
(i) Cuando γ = 0 la rotación se dice Cuartimax. En este caso se puede comprobar que la
minimización anterior equivale a maximizar
m
p
2
1 XX 2
c̃ij − c2
pm j=1 i=1
m
p
1 XX 2
donde c =
c̃ . Nótese que lo que se hace es maximizar la varianza de los cuadrados
pm j=1 i=1 ij
de todas las cargas en bloque.
2
18
(ii) Cuando γ = 1 la rotación se denomina Varimax. En este caso la minimización equivale a
maximizar
p
m
2
1 XX 2
c̃ij − c.2
p j=1 i=1
p
1X 2
c̃ . La diferencia con el método anterior es que actúa por columnas en la
donde c. =
p i=1 ij
matriz de cargas con lo que se maximiza su dispersión pero para cada factor separadamente.
Se trata del procedimiento más utilizado.
2
(iii) Cuando γ = p/2 la rotación se denomina Equimax.
(iv) Cuando γ = 0,5 la rotación se denomina Bicuartimax.
Observación: Al aplicar los criterios anteriores suele utilizarse la denominada normalización de
Kaiser que se basa en considerar las cargas factoriales normalizadas en el sentido de dividirlas por
la raı́z cuadrada de la comunalidad de la i-ésima variable, es decir, manejar
√
c̃∗ij = c̃ij / ci , i = 1, . . . , p, j = 1, . . . , m
Se intenta ası́ que las variables con menor comunalidad tengan un peso relativo mayor en la determinación de la estructura final. Ası́ se tiene, por ejemplo, el criterio varimax normalizado o criterio
de Kaiser.
2.3.2.
Rotaciones oblicuas
Los ejes no son ortogonales y los factores no estarán incorrelados.
La versión oblicua de los métodos anteriores conduce a los procedimientos Oblimin Directos en los
que la función a minimizar es la misma pero con γ ∈ (−∞, 0] de tal forma que cuanto más negativo
sea γ mayor correlación existirá entre los nuevos factores rotados.
Cuando γ = 0 se tiene el método Cuartimin directo que es la versión oblicua del cuartimax aunque
no se está maximizando la varianza de las cargas factoriales.
En cuanto al objetivo de estos métodos, es distinto al de las ortogonales. Para establecerlo tengamos
en cuenta los siguientes aspectos del modelo factorial:
(a) Estructura factorial: es la matriz de correlaciones entre las variables Xi y los factores rotados.
En caso de rotación ortogonal, coincide con la matriz de cargas factoriales rotadas.
(b) Factores de referencia: asociado a cada factor rotado se puede encontrar un nuevo factor que sea
incorrelado con los rotados. A esos nuevos factores de les llama factores de referencia. Obviamente
si la rotación es ortogonal esos factores coinciden con los primeros.
(c) Estructura factorial de referencia o estructura de referencia: es la matriz de correlaciones entre
las variables Xi y los factores de referencia. Si la rotación es ortogonal la matriz coincide con la
estructura factorial.
19
Se puede entonces decir que mientras las rotaciones ortogonales intentan encontrar la estructura
factorial más simple, las oblicuas hacen lo mismo pero con la estructura de referencia.
De ahı́ que llamando vij a la correlación entre Xi y el eje de referencia Gi , las rotaciones oblicuas
persiguen
" p
!
!#
p
p
m X
m
X
X
X
X
γ
2
2
−
mı́n
vij2 vik
vij2
vik
γ∈[0,1]
p
i=1
i=1
i=1
k=1 j6=k
Los métodos de rotación que siguen esta filosofı́a se llaman Oblimin indirectos.
(i) Para γ = 0 se tiene el método de rotación Cuartimin indirecto.
(ii) Para γ = 1 la rotación se dice Covarimin.
(iii) Para γ = 0,5 la rotación se conoce como Bicuartimin.
Además, cuanto más próximo esté γ a cero los ejes son más oblicuos y cuanto más cerca estén de
1 lo serán menos, pudiéndose también emplear el criterio de normalización de Kaiser.
2.4.
Puntuaciones Factoriales
Las puntuaciones factoriales son estimaciones de los valores que toman los individuos en los factores.
Se interpretan como las coordenadas de los individuos en el espacio de los factores, por lo que se
consigue reducir la dimensionalidad del problema al pasar de un espacio de dimensión p (variables
originales) a uno de dimensión m ≤ p (factores, nuevas variables a considerar).
Estos valores podrı́an ser usados como datos para posteriores análisis en los que se trabaje con los
mismos individuos sustituyendo las variables originales por los nuevos factores obtenidos.
Surge el problema del cómo calcular estas puntuaciones ante el hecho de que ni los factores ni los
errores son observables, son aleatorios. Son varios los métodos para el cálculo de las puntuaciones
factoriales.
(i) Método de Regresión
Las puntuaciones resultantes tienen de media 0 y varianza el cuadrado de la correlación múltiple
entre las puntuaciones factoriales estimadas y los valores factoriales verdaderos.
Las puntuaciones pueden estar correlacionadas, incluso cuando los factores son ortogonales.
(ii) Método de Bartlett
Las puntuaciones resultantes tienen media de 0.
Se minimiza la suma de cuadrados de los factores comunes sobre el rango de las variables.
(iii) Método de Anderson-Rubin
Es una modificación del método de Bartlett que permite asegurar la ortogonalidad de los
factores estimados. Las puntuaciones resultantes tienen media 0, desviación tı́pica 1 y no están
correladas entre sı́.
20
2.5.
Tests de hipótesis en modelos factoriales
Cuando se pretende analizar la conveniencia de la aplicación del Análisis Factorial a un conjunto
de variables, se realizan contrastes previos a la extracción de los factores. Entre ellos destacamos los
siguientes:
Contraste de Esfericidad de Bartlett
Se contrasta si las correlaciones entre las variables son todas igual a cero, es decir si la matriz de
correlaciones es una matriz identidad
H0 : R = I
H1 : R 6= I
La hipótesis alternativa asume que el determinante de R, indicador de la varianza generalizada de
dicha matriz, es distinto de uno. Un determinante próximo a cero indica que una o más variables
pueden expresarse como combinación lineal de las otras variables.
El estadı́stico de contraste es
B =− n−1−
1
ln |R|
6(2p + 5)
siendo |R| el determinante de la matriz de correlaciones, con distribución en el muestreo χ2 con
1/2(p2 − p) grados de libertad.
Rechazar H0 serı́a indicativo de correlaciones entre las variables y tendrı́a sentido el análisis factorial.
Condición de aplicabilidad: variables procedentes de una población con distribución normal multivariante.
Medida de Adecuación Muestral de Kaiser, Meyer y Olkin
Contrasta si las correlaciones parciales entre las variables son pequeñas, mediante el cálculo de la
medida
n X
n
X
2
rij
KM O =
i=1 j=1
n
n
n X
n
XX
X
2
rij +
s2ij
i=1 j=1
i=1 j=1
donde
rij coeficiente de correlación lineal de Pearson entre las variables i-ésima y j-ésima (i 6= j)
sij coeficiente de correlación parcial entre las variables i-ésima y j-ésima (i 6= j)
Valores altos (por encima de 0.5) para la medida KMO indican que el modelo es adecuado.
Los contrastes que se aplican después de la extracción de los factores pretenden evaluar el modelo
factorial una vez estimado.
21
Test de la Razón de Verosimilitudes
Se considera X = (X1 , . . . , Xp )0 un vector aleatorio con distribución normal p-variante con matriz
de covarianza Σ definida positiva y una muestra aleatoria de tamaño N xj = (xj1 , . . . , xjp )0 ,
j = 1, . . . , N de
Se plantea el contraste de las hipótesis
H0 : Σ = ΛΛ0 + Ψ
H1 : Σ matriz simétrica definida positiva
La función de verosimilitud para la muestra vendrá dada por
(
)
N
X
1
1
L(Σ, µ) =
· exp − Traza Σ−1
(xj − µ)(xj − µ)0
(2π)N p/2 |Σ|N/2
2
j=1
y, por tanto,
1
1
L(Σ, µ) =
· exp − N p
(2π)N p/2 |S/N |N/2
2
máxH1
Bajo H0 L(Σ, µ) se reduce a
L(Λ, Ψ, µ) =
1
×
0
N/2
)
( |ΛΛ + Ψ|
N
X
1
(xj − µ)(xj − µ)0
× exp − Traza (ΛΛ0 + Ψ)−1
2
j=1
(2π)N p/2
y
máxH0 L(Λ, Ψ, µ) =
1
×
0 + Ψ̂|N/2
(2π)N p/2
|
Λ̂
Λ̂
1
0
−1
× exp − Traza (Λ̂Λ̂ + Ψ̂) s
2
donde Λ̂ y Ψ̂ son los obtenidos del Teorema 1.
Por tanto, el test de la razón de verosimilitudes rechaza H0 siempre que
"
#N/2
|s/N |
1
1
0
−1
λ=
· exp
Traza (Λ̂Λ̂ + Ψ̂) s − np ≥ c
2
2
|Λ̂Λ̂0 + Ψ̂|
( N − 1 = n) c depende del nivel de significación α del test.
En muestras de tamaño grande
P [−2 log λ ≤ z] = P [χ2ν ≤ z]
1
ν = p(p + 1) −
2
1
mp + p − m(m + 1) + m
2
(Box, 1949)
22
Test de Bondad de Ajuste para Mı́nimos Cuadrados
Se contrasta si el número de factores seleccionados para un modelo es adecuado o no mediante un
test de bondad de ajuste basado en un estadı́stico tipo chi-cuadrado.
La hipótesis nula considera que el número de factores es apropiado.
Significaciones bajas (próximas a 0.05) indicarán que debe cambirse el número de factores seleccionado.
23
Descargar