Componentes principales ciencias

Anuncio
ANÁLISIS DE COMPONENTES
PRINCIPALES
INTRODUCCIÓN
El objetivo principal de la mayorı́a de las técnicas numéricas de análisis multivariado, es
reducir la dimensión de nuestros datos. Por supuesto, si esta reducción se puede hacer a 2
ó 3 dimensiones, se tiene la posibilidad de una visión gráfica de los mismos. Obvio, siempre
es posible hacer la reducción a este número de dimensiones, pero es importante juzgar si
éstas son suficientes para resumir la información contenida en todas las variables. Una de las
técnicas de reducción de dimensión más populares es la que reduce las variables originales a
variables derivadas conocidas como Componentes Principales.
Objetivos
• Reducir la dimensión de los datos (q << p)
• Generar nuevas variables: Componentes principales
Para qué
• Explorar datos multivariados
• Encontrar agrupaciones
• Como auxiliar para combatir la multicolinealidad en los modelos de regresión
¿Qué hace?
Forma nuevas variables llamadas Componentes Principales (c.p.) con las siguientes caracterı́sticas:
1) No están correlacionadas (bajo el supuesto de distribución normal, son independientes)
2) La primera c.p. explica la mayor cantidad de varianza de los datos, que sea posible
3) Cada componente subsecuente explica la mayor cantidad de la variabilidad restante de
1
los datos, que sea posible.
Las componentes son de la forma:
′
Zi = ai X = a1i X1 + a2i X2 + · · · + api Xp
i = 1, 2, ..., p
o
′
Zi = ai (X − µ) (centradas)
Es decir, son combinaciones lineales de las p variables.
′
Entonces, debe elegirse a1 un vector de norma uno, ka1 k = a1 a1 = 1, de tal manera que:
′
V ar(Z1 ) = V ar(a1 ′ X) = a1 V ar(X)a1 = a′1 Σa1 sea máxima
Bajo un argumento de álgebra lineal, se puede demostrar que el valor de a1 que hace máxima
la varianza de la primer componente, Z1 , es el eigenvector, a1 , asociado al primer eigenvalor
de la matriz Σ, λ1 . Para el segundo componente Z2 es el eigenvector, a2 , asociado al segundo
eigenvalor λ2 , con λ1 > λ2 y ası́ sucesivamente.
Además se tiene que
V ar(Z1 ) = λ1 , V ar(Z2 ) = λ2 , etc.
y por construcción se tiene también que cov(Z1 , Z2 ) = 0. En genearal cov(Zi , Zj ) = 0 para
toda i 6= j i, j = 1, 2, ..., p
Como Σ es definida positiva, tenemos que:
p
P
i=1
λi =
p
P
V ar(Xi ) =
p
P
V ar(Zi )
i=1
i=1
Por esta razón se dice que el i-ésimo componente principal explica una proporción de varianza
igual a:
λi
,
p
P
λi
y los primeros q de ellos
i=1
q
P
i=1
p
P
i=1
2
λi
λi
q≤p
Como sabemos Σ es desconocida, pero la podemos estimar con S la matriz de varianzacovarianza muestral, lo que proporciona los estimadores
λ̂i
y
âi
¿Matriz de varianza-covarianza o de correlación?
¿Cuándo una, cuándo otra?
Varianza-covarianza
• Variables medidas en las mismas unidades o, por lo menos, en unidades comparables
• Varianzas de tamaño semejante.
Si las variables no están medidas en las mismas unidades, entonces cualquier cambio en
la escala de medición en una o más variables tendrá un efecto sobre las c.p. Por ejemplo,
supongamos que una variable que se midió originalmente en pies, se cambió a pulgadas. Esto
significa que la varianza de la variable se incrementará en 122 = 144. Ya que c.p. se basa
en la varianza, esta variable tendrı́a una mayor influencia sobre los c.p. cuando se mide en
pulgadas que en pies.
Si una variable tiene una varianza mucho mayor que las demás, dominará el primer componente principal, sin importar la estructura de covarianza de las variables.
Si no se tienen las condiciones para realizar un análisis de c.p. con la matriz de varianzacovarianza, se recomienda hacerlo con la matriz de correlación.
Aplicar análisis de c.p. a la matriz de correlación, es equivalente a aplicarlo a datos estandarizados (“puntajes z”), en lugar de los datos crudos. Realizar el análisis de c.p. con
la matriz de correlación, implica intrı́nsecamente asumir que todas las variables tienen igual
importancia dentro del análisis, supuesto que no siempre puede ser cierto.
Pueden presentarse situaciones en donde las variables no estén en unidades comparables y
en las que el investigador considere que tienen una importancia distinta. Algunos paquetes
estadı́sticos permiten asignar pesos a las variables. Entonces se procederı́a a estandarizar
las variables y posteriormente asignar pesos mayores a aquéllas que el investigador considere
más importantes.
3
Análisis de c.p. con la matriz de correlación
Estandarizar los datos, hacer análisis de c.p. utilizando la matriz de correlación en lugar de
la de varianza-covarianza.
Importante: El análisis de c.p. transforma un conjunto de variables correlacionadas en
un nuevo conjunto de variables no correlacionadas. Si las variables originales no están correlacionadas o están muy poco correlacionadas esta técnica no tiene ninguna utilidad y la
dimensión real de los datos es la misma que el número de variables medidas.
¿Cómo decidir cuántas componentes es apropiado considerar?
• Porcentaje de varianza explicada requerido (Matriz de varianza-covarianza)
• Porcentaje requerido γ ∗ 100% de la variabilidad total.
Encontrar el número de componentes que cubra este requerimiento. Este criterio depende
de la población bajo estudio y del investigador.
Gráfica de codo (SCREE). Cuando los puntos en la gráfica tienden a nivelarse (horizontalmente), los eigenvalores están lo suficientemente cercanos a cero y pueden ignorarse.
Entonces, elegir el número de componentes igual al número de eigenvalores antes de que la
gráfica se nivele.
Desafortunadamente, mientras más componentes se requiere, menos útiles resultan cada una.
4
0.5
1.0
eigenvalores
1.5
Gráfica de codo
1
2
3
4
5
6
7
Indice
Matriz de correlación.
• Los criterios mostrados para la matriz de varianza-covarianza.
• Uno más. Considerar el número de componentes cuyo eigenvalor sea mayor que uno.
Interpretación de las cargas factoriales
Las covarianza entre el vector de variables originales X y la i-ésima componente principal
Zi , es:
′
′
′
′
Cov(X, Zi ) = Cov X, ai X = ai Cov(X, X) = ai Σ = ai λi
′
ya que ai es solución del sistema:
5
i = 1, 2, ..., p
(Σ − λi I) ai = 0
Entonces, la covarianza entre la i-ésima componente y la j-ésima variable es:
Cov(Xj , Zi ) = λi aij
De donde tenemos:
λi aij
Cor(Xj , Zi ) = q
=
2
λi σjj
√
λi aij
σjj
El peso que tiene la variable i en la componente j, está dado por aij . El tamaño relativo de
las aij ′ s reflejan la contribución relativa de cada variable en la componente. Para interpretar,
en el contexto de los datos, una componente, debemos analizar el patrón de las aij de cada
componente.
Si utilizamos la matriz de correlación para realizar el análisis de c.p. entonces
a∗ij =
p
λj aij
se interpreta como el coeficiente de correlación entre la variable j y el componente i. Esta
es una de las interpretaciones particularmente más usuales.
Análisis de la matriz de componentes principales
Denotemos por Z a la matriz de componentes principales, entonces
Z = XA
con



A = (a1 , a2 , ..., ap ) = 

6
a11 a21 · · · ap1
a12 a22 · · · ap2
..
.
.. . .
. ..
.
.
a1p a2p · · · app





Propiedades de A.
• En la matriz A, cada columna es un vector propio de Σ.
′
′
′
• A A = AA = Ip ⇒ A = A−1 ⇒ A es ortogonal
• ΣA = AΛ con Λ = diag (λ1 , ..., λp ) , λ1 ≥ λ2 ≥ · · · λp (resultado análogo a Σai = λi ai )
Estructura de correlación
′
′
• V ar(Z) = V ar(XA) = A ΣA = A AΛ = Λ. Entonces Cov(Zi , Zj ) = 0, si i 6= j
y V ar(Zi ) = λi ≥ V ar(Zj ) = λj si i ≤ j
Además
′
′
′
traza(Σ) = traza(ΣAA ) = traza(A ΛA) = traza(AA )Λ = traza(Λ) =
p
X
λj .
j=1
Ya que traza(Σ) =
p
X
2
σjj
. Entonces
j=1
p
X
λj es una medida de la variación total de los datos (variación total de X)
j=1
Entonces, la proporción de esta varianza que explica una sola componente es
λi
(% varianza explicada por Zi ),
p
P
λj
j=1
k
P
j=1
p
P
λi
λj
(% varianza explicada por las primeras k componente principales, k ≤ p)
j=1
Notas importantes
• Habı́amos escrito la correlación entre la j-ésima variable y la i-ésima componente como
7
λi aij
=
Cor(Xj , Zi ) = q
2
λi σjj
√
λi aij
= r Xj Z i
σjj
Estas correlaciones pueden utilizarse para evaluar las relaciones entre las componentes Zi y
las variables originlaes Xj , como sigue
p
X
2
=
rX
j Zi
i=1
p
P
λi a2ij
i=1
=
σij2
σij2
=1
σij2
ya que
p
X
′
′
λi a2ij = ai Λai es el i-ésimo elemento de la matriz AΣA . Por lo tanto
i=1
2
rX
puede verse como la proporción de varianza de Xj explicada por Zi
j Zi
• Puntajes de los individuos
′
Zi = A Xi
proporciona las coordenadas de la observación Xi en el nuevo sistema de ejes generado por
las c.p.
′
zij = aj Xi =
p
X
ajk xik
k=1
es el valor de la j-ésima componente para el i-ésimo individuo.
Entonces, podemos representar un individuo en el plano, mediante la pareja (zi1 , zi2 ).
Ya que uno de los usos comunes de esta técnica es identificar individuos similares, es importante tener en cuenta que las c.p. preservan la distancia entre las observaciones, como
mostraremos en seguida.
Denotemos por Zi : Vector de c.p. del individuo Xi y por Zj : Vector de c.p. del individuo Xj .
Entonces, se trata de mostrar que la distancia entre estas componentes es igual a la distancia
8
entre los vectores originales de los sujetos.
′
kZi − Zj k2 = (Zi − Zj ) (Zi − Zj )
′
′ ′
′
′
= A Xi − A Xj
A Xi − A Xj
′ ′
= A (Xi − Xj )
A (Xi − Xj )
′
′
′
= (Xi − Xj ) AA (Xi − Xj )
′
= (Xi − Xj ) AA−1 (Xi − Xj )
(A es ortogonal)
′
= (Xi − Xj ) Ip (Xi − Xj )
′
= (Xi − Xj ) (Xi − Xj )
= kXi − Xj k2
Observación. Esta distancia se conserva en el espacio original de los vectrores, que es de
diminsión p. Si sólo tomamos pocas componentes (2 ó 3) para representar las observaciones,
entonces
2
kXi − Xj k2 ≈ Z∗i − Z∗j con Z∗ un vector de dimensión 2 ó 3, únicamente. Esta aproximación será adecuada si estas
pocas dimensiones explican un alto porcentaje de la varianza total de los datos.
Aplicación de c.p. con variables medidas en diversas escalas
El análisis de c.p. se realiza, generalmente, utilizando variables continuas; no obstante, existen aplicaciones donde se presentan diversas escalas de medición en las variables. Una manera
generaliza de abordar esta situación, es realizar el análisis ignorando la escala de medición,
i.e., suponiendo que todas provienen de una escala de intervalo. En este caso, la correlación
entre cualquier par de variables, es la de Pearson. El hecho de no respetar la escala de cada
variable, propicia que las correlaciones sean más pequeñas de lo debido, lo que, para una
técnica basada en la asociación entre las variables, resulta poco deseable. Otra alternativa
es construir variables dummy’s con las variables medidas en escalas nominal y ordinal. Este
9
procedimiento tiene la desventaja de incrementar el número de variables dentro del análisis
(hay que recordar que si una variable nominal u ordinal tiene k categorı́as, entonces genera
un número igual de variables dummy’s). Este incremento de dimensión repercutirá en el
hecho de que tendremos menos posibilidades de poder representar nuestros datos en pocas
dimensiones, i.e., tendremos poca varianza explicada por unas cuantas dimensiones.
Una forma alternativa de enfrentar este problema, es utilizando la matriz de correlaciones
policóricas. En esta matriz se utiliza un tipo de correlación de acuerdo a la escala de medición
de las dos variables en cuestión. La siguiente tabla muestra las correlaciones que se sugiere
calcular.
Escala de medición Continua Ordinal
Dicotómica
Continua
Pearson Policórica Punto biserial
Ordinal
Policórica
Policórica
Dicotómica
Tetracórica
Una vez calculada esta matriz, el análisis de c.p. se lleva a cabo utilizándola para realizar
todos los procesos de cálculo.
10
Descargar