Análisis Factorial General y Análisis de Componentes Principales.

Capı́tulo 4 Análisis Factorial General y Análisis de Componentes Principales. 4.1. Análisis Factorial General (AFG). Introducción. Sea una tabla rectangular de valores numéricos, representados por una matriz Xn×p , con términos xij . Nos planteamos la siguiente cuestión: ¿Es posible reconstruir los np valores xij , a partir de un número menor de valores numéricos? Por ejemplo: Supongamos que existieran dos vectores un×1 y vp×1 tales que X = uv ′ . Se habrı́a reconstruido X, con un total de (n + p) valores numéricos. Observese que en este caso, X es de rango 1. No es esperable encontrar una situación tan sencilla. En general, la reconstrucción habrá que hacerla en términos de una aproximación de rango q de la forma X = u1 v1′ + · · · + uq vq′ + E (4.1) en donde En×p es una matriz con términos suficientemente pequeños para que los vectores uα , vα , α = 1, . . . , q, es decir, un total de q(n + p) valores numéricos, reconstruyan satisfactoriamente la matriz X inicial. La cuestión práctica que inmediatamente se plantea es esta: ¿Cómo buscar la representación de rango q para X? Vamos a adoptar aquı́ una vı́a geométrica, tı́pica de los métodos factoriales del Análisis de Datos. En capı́tulos posteriores la búsqueda de una descomposición de X en la forma dada por 4.1 se analizará desde un punto de vista más general utilizando la d escomposición de valores singulares de X. En realidad, la tabla X va a dar a lugar a dos representaciones: Por un lado las n filas se pueden considerar como las coordenadas de n puntos en el espacio p-dimensional Rp y las p columnas, se pueden considerar como las coordenadas de p puntos en Rn . Se habla de las nubes de puntos–fila y puntos–columna, respectivamente. Procederemos a considerar el problema de la aproximación de rango q para X en dos aspectos complementarios: 1. A partir de los n puntos–fila, consideramos el ajuste de un subespacio vectorial a dicha nube de puntos–fila, en el espacio de las columnas. 2. A partir de los p puntos–columnas, consideramos el ajuste de un subespacio vectorial a dicha nube de puntos–columna en el espacio de las filas. 4.2. Ajuste, por un subespacio vectorial en Rp , de la nube de puntos–fila. El punto de partida es la nube de los n puntos–fila, en un subespacio p–dimensional (columnas de X). Tratamos de representar dicha nube en un subespacio q–dimensional (q < p). Esto será posible si, al menos aproximadamente, dicha nube está contenida en un subespacio vectorial q–dimensional del espacio vectorial 2 Análisis Factorial General y Análisis de Componentes Principales. p–dimensional. De tal forma que existirán q nuevos ejes y por tanto nq números, por un lado, y pq números por otro (las coordenadas de los nuevos ejes respecto de los p iniciales), de tal forma que sustituiremos np números, por nq + pq = (n + p)q nuevos valores numéricos. En resumen vamos a ajustar, con un criterio que después especificaremos, la nube de los n puntos–fila por un subespacio vectorial en Rp , q–dimensional (q < p), suponiendo que Rp está dotado con la distancia euclı́dea habitual. 4.2.1. Cálculo del ajuste del subespacio vectorial en Rp . El caso más sencillo es el de buscar una recta F1 , que pase por el origen y que se ajuste lo mejor posible p ∑ a la nube. Sea u un vector unitario en la dirección de F1 . Por tanto u′ u = 1 y u2j = 1. Por otra parte las i=1 n filas de Xn×p up×1 , son los n productos escalares de cada fila (punto de Rp ) por u, es decir, las longitudes de las proyecciones de los n puntos sobre la recta F1 . Además, la distancia OP al cuadrado es la suma del cuadrado de su proyección sobre F1 más la distancia al cuadrado de P a F1 . Es evidente que en la igualdad 2 d2 (O; P ) = (proyección sobre F1 ) + d2 (P ; F1 ) (4.2) es equivalente, al estar fijado el primer miembro, minimizar d2 (P ; F1 ) que maximizar la proyección sobre F1 al cuadrado. También es claro que hemos de considerar todos los puntos. Este último cuadrado será: ′ (Xu) (Xu) = u′ X ′ Xu, de modo que si el criterio para encontrar la recta ajustada F1 (que pasa por el origen) es el de maximizar la suma de los cuadrados de todas las proyecciones de los n puntos–fila, habrá que encontrar un u tal que máx{u′ X ′ Xu} (4.3) con la restricción u′ u = 1. Supongamos que la solución es el subespacio u = u1 . Se demostrará después que el subespacio de dos dimensiones, óptimo, contiene a u1 y se calculará buscando un u2 unitario y ortogonal a u1 de tal manera que u2 sea la solución de máx {u′ X ′ Xu} ; u′2 u1 = 0; u′2 u2 = 1. (4.4) Ası́ sucesivamente se obtienen u1 , u2 , . . . , uq ; q < p, en donde cada ui es ortogonal a u1 , . . . , ui−1 y además u′i ui = 1. Resolución técnica del problema de Máximo. Técnicamente, la cuestión se resuelve mediante el método de los multiplicadores de Lagrange. Ası́: máx {u′ X ′ Xu} ; u′ u = 1 → ϕ(λ) = u′ X ′ Xu − λ (u′ u − 1) ∂ϕ(λ) = 2X ′ Xu − 2λu = 0; X ′ Xu = λu; ∂u de modo que el vector buscado, u, es un vector propio de X ′ X. Por otra parte, el máximo alcanzado será λ ya que X ′ Xu = λu → u′ X ′ Xu = λu′ u = λ (4.5) Es decir que el máximo alcanzado es un valor propio de X ′ X. Por tanto el vector buscado será el vector u = u1 correspondiente al mayor autovalor λ = λ1 . Busquemos ahora el subespacio bidimensional que se ajusta lo mejor posible a la nube de los n puntos–fila. Sea t otro vector unitario pasando por el origen, que maximiza t′ X ′ Xt (4.6) 4.2 Ajuste, por un subespacio vectorial en Rp , de la nube de puntos–fila. 3 y que cumple las restricciones t′ t = 1 y t′ u1 = 0 (ortogonal a u1 ). La función de Lagrange (Lagrangiano) correspondiente a este problema es ϕ(λ; µ) = t′ X ′ Xt − λ(t′ t − 1) − µt′ u1 ∂ϕ(λ; µ) = 0 ⇔ 2X ′ Xt − 2λt − µu1 = 0 ∂t 2u′1 X ′ Xt − 2λu′1 t − µu′1 u1 = 0 Es decir: 2 [u′1 X ′ X − λu′1 ] t − µu′1 u1 = 0 Pero u′1 X ′ X = λu′1 . Por tanto µ = 0 y el problema se reduce de nuevo a X ′ Xt = λt que puede escribirse como (X ′ X − λ) t = 0, luego t será el autovector asociado al segundo autovalor de X ′ X en orden decreciente. Este resultado se extiende a todos los autovalores λ1 , λ2 , λ3 , . . . , λr donde r = rg (X ′ X). Definición 4.1 Llamamos subespacio óptimo q–dimensional ajustado, en Rp , a la nube de puntos, al subespacio engendrado por los autovectores asociados a los q primeros autovalores de (X ′ X). Ası́ pues a la nube de puntos–fila, de n elementos, en Rp , se le puede ajustar un subespacio vectorial de dimensión q (q < p), óptimo en el sentido de mı́nimos cuadrados (mı́nima suma de distancias desde los puntos–fila al subespacio ajustado), de tal manera que dicho subespacio está engendrado por vectores unitarios u1 , . . . , uq , tales que uα es ortogonal a u1 , . . . , uα−1 , para α = 2, . . . , q; los uα son unitarios y maximizan u′α X ′ Xuα . 4.2.2. Ajuste a la nube de puntos–columna de un subespacio en Rn . Si ahora consideramos los puntos–columna, es decir que consideramos la matriz de datos X interpretada como una nube de p puntos–columna en un espacio n–dimensional Rn . La situación es totalmente análoga a la vista antes en Rp , salvo que técnicamente, ahora, las proyecciones de los puntos de la nube sobre el subespacio de ajuste son las p filas del vector de productos escalares ( ′ Xp×n vn×1 ) (4.7) p×1 en donde con v se denota al vector n–dimensional, en Rn , de los cosenos directores del subespacio ajustado (que en la primera etapa es una recta que pasa por el origen, equivalente a la F1 en el caso anterior, que designamos G1 . Por tanto, la suma de proyecciones al cuadrado de todos los puntos de la nube de p puntos, sobre la recta G1 , se escribirá: ′ (X ′ v) (X ′ v) = v ′ XX ′ v ( ) (4.8) ′ Xn×p Xp×n , n×n que habrá que maximizar. Obsérvese que en este caso se tiene la matriz mientras que antes ′ tenı́amos la matriz X Xp×p . La solución a este problema es análoga a la del anterior, generándose una base v1 , . . . , vq del subespacio óptimo ajustado a la nube, subespacio de dimensión q, que se obtiene en los términos siguientes: 1. v1 , . . . , vq son tales que vi′ vi = 1; i = 1, . . . , q. 2. vi es el autovector correspondiente al autovalor µi de la matriz XX ′ , siendo µi el mayor autovalor quitando los µ1 , . . . , µi−1 mayores anteriores. 3. vi es ortogonal a v1 , . . . , vi−1 ; i = 2, . . . , q. 4. vi′ XX ′ vi es máximo en cada etapa y su valor es µi . 4 Análisis Factorial General y Análisis de Componentes Principales. 4.3. Relación entre los subespacios ajustados en Rp y en Rn . Hasta ahora, a la nube de n puntos–fila p–dimensionales, por un lado, y a la nube de p puntos–columna n– dimensionales por otro, se han ajustado dos subespacios óptimos, generados, respectivamente, por los vectores {u1 , . . . , uq } y {v1 , . . . , vq }, considerando que los subespacios sean de la misma dimensión, q, en ambos casos. Fijémonos en el autovector α-ésimo de XX ′ , vα , es decir, el asociado al α–ésimo mayor autovalor de XX ′ , es decir, que vα verı́fica XX ′ vα = µα vα Si rg(X) = r, entonces, rg(XX ′ ) = r, y es claro que r ≤ mı́n(p, n). Por tanto, a lo sumo, hay r autovalores de XX ′ , no nulos. Efectuemos algunos cálculos. De la expresión XX ′ vα = µα vα se obtiene: X ′ (XX ′ ) vα = µα X ′ vα es decir: X ′ X (X ′ vα ) = µα (X ′ vα ) Por tanto, a cada vector propio vα de (XX ′ ) le corresponde un autovector uα = X ′ vα de (X ′ X), y ello respecto del mismo autovalor µα . Es decir que todo autovalor de XX ′ , no nulo, lo es también de X ′ X. Y los autovectores correspondientes al mismo autovalor µα , en X ′ X y en XX ′ están relacionados en la forma: uα = kα (X ′ vα ) ; kα constante. P or tanto el conjunto de autovalores µα : α = 1, . . . , r es un subconjunto del de autovalores λα . Haciéndolo ahora al revés, tenemos, (X ′ X) uα = λα uα X (X ′ X) uα = λα Xuα (XX ′ ) (Xuα ) = λα (Xuα ) y se concluye, análogamente, que todo autovalor de X ′ X lo es también de XX ′ , y vα = kα′ Xuα ; kα′ constante. Por tanto λα = µα ; α = 1, . . . , r. Imponiendo que u′α uα = vα′ vα = 1, se concluye que: 1 kα = kα′ = √ λα Por tanto:     uα =    vα = 1 √ X ′ vα λα 1 √ Xuα λα (4.9) Definición 4.2 El eje Fα , soporte de uα , se llama α–ésimo eje factorial de Rp . El eje Gα , soporte de vα , se llama α–ésimo eje factorial de Rn . Las coordenadas de los puntos de la nube sobre el eje α–ésimo en Rp (resp. Rn ) son las componentes del vector Xuα (resp. X ′ vα ). 4.4 Reconstrucción de la matriz de datos X. 4.4. 5 Reconstrucción de la matriz de datos X. Hasta ahora se han reconstruido aproximadamente las posiciones de los puntos de la nube de Rp (resp.Rn ) a partir de las coordenadas de esos puntos sobre la base del subespacio vectorial ajustado (mı́nimos cuadrados). Tratamos ahora de reconstruir la matriz de datos inicial (es decir, las coordenadas de los puntos en Rp ) a partir de los q ejes obtenidos. Se tiene que: √ 1 vα = √ Xuα ; Xuα = λα vα λα ( p ) p ∑ ∑ √ √ ′ ′ ′ uα uα = λα vα u′α Xuα uα = λα vα uα ; X α=1 α=1 Pero obsérvese que   u′1   uα u′α = [u1 |u2 | · · · |up ]  ...  = U U ′ = U U −1 = I α=1 u′p p ∑ Por tanto, p ∑ √ X= λα vα(n×1) u′α(1×p) (4.10) α=1 aproximada será la que se limite a los q primeros ejes, válida en la medida en que √ Una reconstrucción √ λq+1 , . . . , λp sean pequeños. q ∑ √ En tal caso, X ≈ X ∗ = λα vα u′α . Si en Rp , por ejemplo, el eje factorial u1 es por sı́ solo capaz de α=1 localizar satisfactoriamente las posiciones de los puntos, es porque el valor propio λ1 debe ser mucho más importante que los demás puesto que λ1 = u′1 X ′ Xu1 mide la suma de los cuadrados de las proyecciones de los puntos sobre u1 (es decir las distancias al cuadrado de los puntos proyectados, al origen). En general, una referencia formada por los q primeros ejes factoriales, permitirá reconstruir las posiciones de los puntos con buena precisión en caso que λ1 +λ2 +· · ·+λq sea una proporción importante de λ1 +· · ·+λp . Técnicamente, por otra parte, λ1 + · · · + λp = p ∑ λα = tr [X ′ X] = ∑∑ α=1 i x2ij (4.11) j Esta reconstrucción aproximada, X ∗ , de X es en efecto conseguida por sólo q × (n + p) números: Los que √ determinan los q vectores λα vα y los q vectores uα , es decir, qn + qp, de modo que los np números que constituyen la matriz inicial X, son sustituidos por q(n + p). Una medida de la calidad de la reconstrucción es el porcentaje de inercia, τq , dado por: q ∑ τq = α=1 p ∑ λα (4.12) λα α=1 Por otra parte, en virtud de 4.11, τq se puede expresar también ası́: 6 Análisis Factorial General y Análisis de Componentes Principales. ∑ x∗ij 2 i,j τq = ∑ x2ij (4.13) i,j donde con x∗ij se designan los elementos de X ∗ . 4.5. Algunas conclusiones sobre el Análisis Factorial General. 1. Dada una tabla de datos, se pueden obtener representaciones de nubes de puntos en dos espacios, de tal manera que los ajustes en dichos espacios están relacionados. 2. Se ha dotado a la tabla numérica inicial de una estructura vectorial euclı́dea, con dos espacios: El de las columnas, en donde tenemos la nube de puntos–fila, Rp , y el de las filas, Rn , en el que se tiene la nube de puntos–columna. 4.6. Análisis en Componentes Principales (ACP). Como antes se ha dicho, el Análisis en Componentes Principales, ACP, considera una matriz R de datos iniciales de carácter no simétrico: Sus componentes, rij , son valores numéricos que, de manera continua, miden la variable j–ésima (columnas) en el i–ésimo individuo (filas). Veamos a continuación cómo el Análisis Factorial General se adapta a esta situación, de manera que tengamos en cuenta que se trata de una tabla estadı́stica y no de una mera matriz numérica R que hubiera que reducir o explicar en base a un conjunto menor de números. Queda pues concretada la situación inicial en estos términos: 1. El espacio de las filas está constituido por n individuos. 2. El espacio de las columnas está constituido por p variables. Ası́ pues, disponemos de una tabla de datos R = (rij ); i = 1, . . . , n; j = 1, . . . , p; sobre la que vamos a efectuar en primer lugar el Análisis en Rp , previa concreción de la matriz X. 4.7. Análisis en el espacio de las variables Rp . Según el AFG, consideraremos en una primera fase los n puntos–fila en el espacio vectorial Rp de las columnas (variables). En primer lugar, y dada la naturaleza estadı́stica de la tabla inicial R, vamos a definir sobre qué matriz, X, transformada de la tabla R, vamos a realizar el AFG. En realidad, cuando se tiene una situación práctica del tipo que estamos considerando (variables– individuos), l as variables pueden ser muy heterogéneas en cuanto a sus valores medios. También desde luego lo pueden ser respecto a su d ispersión, provocada por escalas de medida a veces muy diferentes, pero esta otra fuente de heterogeneidad no la consideramos en una primera fase. Ası́ pues, ¿como eliminar el efecto de la heterogeneidad de medidas? Hagamos una interpretación geométrica de la situación. No olvidemos que hemos de realizar (Análisis en Rp ) el ajuste en Rp (espacio de columnas–variables) de un subespacio que describa aproximadamente la nube de puntos–fila (los individuos), con los criterios definidos en el AFG. Este subespacio, como tal, contiene siempre al origen en el planteamiento básico del AFG, en donde no se considera la naturaleza estadı́stica de la tabla sino meramente su caracter numérico. Ahora, sin embargo, tenemos una información adicional sobre los valores numéricos, información estadı́stica, que permite tratar la heterogeneidad de las medidas de las variables como un factor tanto a considerar como a eliminar, en su posible efecto no deseado, a la hora de describir la proximidad de los puntos fila. Gráficamente lo que ocurre es que la posición de la nube de puntos–fila (individuos) cambia, respecto del origen, frente a la adoptada en el AFG en donde no se considera el efecto de las medias en cada variable. 4.7 Análisis en el espacio de las variables Rp . 7 En lenguaje geométrico, es claro que el espacio afı́n H1 es presumiblemente más apropiado para describir la nube de puntos–fila que el espacio vectorial H0 (subespacio del Rp ). Considerar este subespacio afı́n, no altera la filosofı́a general del AFG, ya que lo que estadı́sticamente interesa es la forma de la nube, no la posición de ésta respecto del origen. Técnicamente hablando, interesa pasar el origen al centro de gravedad (punto medio, cuyas coordenadas son las dadas por las p medias, rj , en las p variables), porque ası́, la búsqueda de la recta H1 (subespacio afı́n, cuando el origen está en 0) puede reducirse a la búsqueda de un H0 tal como se ha realizado en el AFG, pero respecto de un origen colocado en el centro de gravedad. Analı́ticamente, estas consideraciones geométricas equivalen a lo siguiente: Sean h∑ i y hj las proyecciones 2 de dos puntos sobre una recta H1 . Consideremos el criterio de maximizar la suma (hi − hj ) , es decir i,j maximizar la suma de todas las diferencias de proyecciones de todos los pares al cuadrado. Si esta suma se desarrolla, se puede ver que vale: 2n n ∑ ( )2 hi − h (4.14) i=1 en donde h denota la proyección media, es decir la media aritmética de las proyecciones de todos los puntos sobre la recta H1 . En efecto n ∑ n ∑ [ ]2 hi − h − hj + h = 2 (hi − hj ) = i,j=1 i,j=1 = n ∑ [( ) ( )]2 hi − h − hj − h = i,j=1 = n ∑ ( n n ∑ ∑ )2 ( )2 ( )( ) hi − h + hj − h − 2 hi − h hj − h = i,j=1 = 2n n ∑ i,j=1 ( )2 hi − h − 2 i=1 i,j=1 n ∑ ( n ∑ )( ) ( )2 hi − h hj − h = 2n hi − h i,j=1 i=1 El último paso, se ha dado en virtud de que: n ∑ ( n n n n ∑ ∑ ∑ ∑ )( ) 2 hi − h hj − h = hi hj − h hi − h hj + h = i,j=1 i,j=1 = n ∑ hi hj − 2h i,j=1 =n n ∑ ( ∑n j=1 hi i,j=1 hj = n2 h i=1 n 2 i,j=1 i,j=1 2 hi + n2 h = i,j=1 ) n ( ∑n i=1 n ∑ − 2nh hi n ∑ ∑n j=1 n i ) hj 2 2 + n2 h = 2 − 2n2 h + n2 h = 2 2 = n2 h − 2n2 h + n2 h = 0 c.q.d. Es claro entonces, que si hicieramos h = 0, el problema de maximización planteado, que conducirá a la recta H1 , serı́a un caso particular del problema de maximización planteado en el AFG (maximizar la suma de cuadrados de todas las proyecciones). Pero ¿qué es hacer h = 0? La respuesta es evidente: E s trasladar el origen de coordenadas al centro de gravedad de la nube. Es decir, considerar los valores x∗ij = rij − rj 8 Análisis Factorial General y Análisis de Componentes Principales. La matriz final X, no obstante, se define ası́: rij − rj √ n xij = (4.15) 1 transformación pues que pasa de la matriz inicial R = (rij ) a la X = (xij ). El factor √ se añade para que, n al aplicar el AFG, y tener que considerar X ′ X, aparezca la matriz de covarianzas muestrales. En efecto, ( )′ ( ) rij − rj rij − rj ′ √ √ XX= = Cp×p (4.16) n n p×n n×p es la matriz de covarianzas muestrales. Es decir,  r −r  X = (xij )n×p =   11 √ r12 √−r 2 n 1 n .. . .. . rn1 √−r 1 n rn2 √−r 2 n ··· .. . ··· r1p −r p √ n .. . rnp −r p √ n     n×p de modo que:   ′ Xp×n Xn×p =    r11 √−r 1 n .. . r1p −r p √ n rn1 √−r 1 n ··· .. . ··· .. . rnp −r p √ n n ∑ (ri1 − r1 )2  n   n i=1  ∑ (ri2 − r2 )(ri1 − r1 )  = n  i=1   ..  . ···         n ∑ i=1 p×n r11 √−r 1 n .. . rn1 √−r 1 n ··· .. . ··· (ri1 − r1 )(ri2 − r2 ) n ··· .. . ··· r1p −r p √ n .. . rnp −r p √ n      = n×p ···     ···     ..  .  · · · p×p En una segunda fase, como antes decı́amos, también debe tenerse en cuenta la heterogeneidad de las escalas de medida, que produce en muchos casos una dispersión muy heterogénea en las variables. La forma tı́pica de reducir el efecto de la heterogeneidad en las dispersiones de las variables, a la hora de medir la proximidad de los i ndividuos, es efectuar el paso a una matriz X dada en la forma: ( X = (xij ) = ) n 1∑ rij − rj 2 √ ; s2j = (rij − rj ) n i=1 sj n (4.17) Dados dos individuos (i–ésimo e i′ –ésimo), la distancia al cuadrado entre ellos será (en sentido euclı́deo clásico): d2 (i, i′ ) = = )2 p ( ∑ r′ −r rij − rj √ − i j√ j = sj n sj n j=1 p p ∑ 1 ∑ (rij − ri′ j )2 (rij − ri′ j )2 = s2j · n n j=1 s2j j=1 y es evidente que, al dividir cada término por la varianza muestral s2j correspondiente de cada variable (j = 1, . . . , p), se reduce el efecto de la heterogeneidad de las mismas, de modo que cada variable aporta una contribución análoga a la distancia o proximidad entre individuos. En este caso, además, es claro que l a matriz X ′ X no es otra cosa que la matriz de correlaciones muestrales. En efecto, obsérvese que, a partir de la matriz C dada en la expresión 4.16, la expresión 4.17 puede escribirse matricialmente en la forma 1 1 1 1 V − 2 CV − 2 , en donde V = diag(s21 , s22 , . . . , s2p ). Pero V − 2 CV − 2 = X ′ X = R en donde Rp×p es la matriz de coeficientes de correlación tipo Pearson. 4.8 Ajuste en Rn de la nube de puntos–columna. 9 Resumen. El ajuste a la nube de puntos–fila (individuos) en Rp (espacio de las variables), en el Análisis de Componentes Principales, se efectúa a dos niveles: ( ) rij − rj √ 1. Sobre la matriz transformada: X = (Análisis en Componentes Principales), de modo n n×p ( ′ ) que se aplica el AFG a Xp×n Xn×p p×p para ajustar la nube en Rp . ) rij − rj √ (Análisis en Componentes Principales Normalizado) 2. Sobre la matriz transformada: X = sj n ′ de modo que se aplica el AFG a (X X) que es la matriz de correlaciones muestrales. ( Las coordenadas de los puntos–fila sobre los ejes factoriales soportes de los autovectores uα de X ′ X son globalmente expresadas como Xuα , y este vector columna n × 1 tiene en cada componente √ la coordenada de un punto–fila respecto del α–ésimo eje. Por otra parte, según vimos en AFG, Xuα = λα vα , en donde vα es el autovector α–ésimo en el otro espacio Rn ; es decir, autovector de XX ′ . 4.8. Ajuste en Rn de la nube de puntos–columna. Como en los planteamientos generales del AFG, también en el ACP cabe ajustar a los p puntos–columna (variables), en Rn , un subespacio vectorial o afı́n. Lo que ocurre en ACP es que la matriz inicial R, o sus transformadas X, no son simétricas en i, j. Es más, la transformación que lleva de R a X (en los dos casos antes definidos) no es simétrica en los ı́ndices i, j, y ha de interpretarse en un sentido muy diferente. La transformación xij = rij − rj implica trasladar el origen en Rp , al punto centro de gravedad de la nube de los n puntos–fila. En cambio, interpretada en Rn (es decir en j), la transformación xij = rij − rj equivale a efectuar la operación matricial X = P · R, en donde    1− 1 i=j n P = (pij ); pij = 1   − i ̸= j n Comprobemos que, en efecto, es X = P · R.    P ·R=  1 − n1 − n1 .. . − n1 1 − n1 .. . ··· ··· .. . − n1 − n1 ···  − n1 − n1 .. . 1− r11 − rn11 − rn21 − · · · − rnn1  r21 − r21 − r22 − · · · − r2n n n n  = ..  . rn1 − rnn1 − rnn2 − · · · − rnn n  r11 − r1   r21 − r1 =  ..  . rn1 − r1 1 n           n×n r12 − r12 − r2 ··· r22 − r2 .. . ··· .. . ··· rn2 − r2 r12 n r11 r21 .. . r12 r22 .. . ··· ··· .. . r1p r2p .. . rn1 rn2 ··· rnp − r22 n ··· .. . ··· − ··· − r1p − rp .. . .. . rnp − rp rn2 n ··· ··· .. .      = n×p    =  ···    =X   Esta transformación —que también aparece, como es sabido, en el estudio de los Modelos Lineales— significa geométricamente algo bien distinto de una traslación del origen en Rp : Equivale a una proyección paralela a la primera bisectriz en Rn . 10 Análisis Factorial General y Análisis de Componentes Principales. rij − rj √ en Rp , dividiendo En el caso del ACP normalizado, cuando se efectúa además el cambio de escala s n j √ cada coordenada de un punto–fila por sj n, se realiza una deformación de la nube de puntos–columna (p en total) de tal manera que se llevan los p puntos a una distancia unidad del origen. En efecto: d2 (j, 0) = )2 n ( n 2 ∑ rij − rj 1 ∑ (rij − rj ) √ −0 = = n i=1 s2j sj n i=1 1 = 2 sj ( 1∑ (rij − rj n i=1 n )2 = 1. Y la distancia entre dos puntos–columna, j y j ′ , será: )2 n ( ∑ rij − rj rij ′ − rj ′ √ − √ d (j, j ) = = sj n sj ′ n i=1 ′ 2 1 ∑ (rij ′ − rj ′ ) 2 ∑ (rij − rj )(rij ′ − rj ′ ) 1 ∑ (rij − rj ) + − = 2 2 n i=1 sj n i=1 sj ′ n i=1 sj sj ′ n = n 2 = n 2 s2j ′ s2j + − 2ρjj ′ = 2 (1 − ρjj ′ ) s2j s2j ′ en donde ρjj ′ es el coeficiente de correlación empı́rico entre las variables j y j ′ . Si este coeficiente es muy alto, aproximadamente 1, los puntos columnas están próximos. Si ρjj ′ es mucho menor que 1, entonces están alejados. En virtud de lo visto en AFG, las coordenadas de los puntos–columnas en el eje factorial α, son las √ componentes de X ′ vα que son iguales a uα λα , en donde, en el caso de ACP normalizado, λα , son los autovalores de X ′ X, la matriz de correlaciones C. Recuérdese también que uα son los autovalores de X ′ X. Finalmente cabe observar que en el caso de la matriz considerada en ACP normalizado, la matriz de correlación X ′ X, es claro que: ′ tr(X X) = p ∑ α=1 4.9. λα = ∑ x2ij = p (4.18) i,j Variables e individuos suplementarios en ACP. Suele ocurrir en la práctica que, una vez realizado un ACP con una determinada matriz R de datos iniciales, se conozcan los datos en las p–variables correspondientes a nuevos individuos (Nuevos individuos que se incorporan al estudio, un grupo de individuos–control, etc.) Un caso frecuente en las aplicaciones se produce cuando el número de individuos es muy grande —en encuestas, por ejemplo— y entonces se clasifican en grupos con arreglo a alguna o algunas caracterı́sticas de los mismos (intervalos de ingresos familiares, por ejemplo) que sean de interés. Incluso, a veces, interesan más estas caracterı́sticas de los individuos que ellos mismos. En este caso, se consideran los centros de gravedad de las clases de individuos consideradas y estos centros se consideran individuos nuevos (o suplementarios) y se incorporan y presentan gráficamente como si fueran unos individuos más. También puede darse el caso de incorporar nuevas variables cuyos valores son conocidos para los individuos estudiados, pero que en una primera etapa no se han considerado. Posiblemente, en muchos casos es ası́, porque no constituyen un conjunto homogéneo de caracterı́sticas junto a las que se han seleccionado para realizar el ACP en una primera etapa. El problema, por tanto, es cómo incorporar estos nuevos puntos–individuos (filas) y puntos–columna (variables) al ACP. 4.9 Variables e individuos suplementarios en ACP. 11 1. Consideremos los individuos suplementarios, en primer lugar. Estos constituyen un borde o caja matricial R+ de la matriz R, constituida por las filas correspondientes a los individuos añadidos. Es claro que al incrementar el número de filas de R en la forma [ ] Rn×p Rn×p −→ R+n′ ×p ′ (n+n )×p estas filas–individuos de R+ han de ser comparables con las analizadas en el ACP. Es decir, hay que efectuar sobre las filas de R+ las transformaciones que se han efectuado para realizar el ACP sobre las filas de R. Si denotamos por r+i las filas suplementarias de R+ , serı́a: x+ij = r+ij − rj √ sj n de modo que tendrı́amos ası́ definida la matriz transformada X+ . En tal situación, entonces, las coordenadas de los individuos suplementarios sobre los α–ejes factoriales ya calculados sobre X se toman como las dadas por X+ uα . 2. Análogamente procederemos con las variables suplementarias introducidas. En este caso, R se incrementa con una caja matricial R+ de la forma [ ] + Rn×p −→ Rn×p | Rn×p ′ n×(p+p′ ) y en este caso, para hacer comparables las nuevas columnas (variables) en Rn , con las previamente consideradas, hay que llevarlas a la esfera unidad de Rn , lo que se consigue definiendo para R+ , la matriz X + = (x+ ij ), definida por x+ ij = + rij − r+ j +√ sj n + + en donde r+ j son las medidas de las columnas añadidas de R , y sj las desviaciones tı́picas correspondientes. Una vez definida X + , las coordenadas de estos nuevos puntos–columna, respecto del α–eje previamente ′ calculado con X, vendrán dadas por (X + ) vα . ′ Comentario 4.9.1 Nótese la filosofı́a que se ha empleado para calcular las coordenadas X+ uα y (X + ) vα de los puntos–fila y puntos–columna suplementarios respectivamente: Se mantiene la estructura factorial obtenida a partir de la matriz inicial R sin orlar; por tanto se mantienen los vectores unitarios uα y vα cuyos soportes son los respectivos ejes factoriales Fα y Gα en Rp y Rn y, respecto de estos ejes ya obtenidos, se ubican los nuevos puntos–fila y puntos–columna. Esta metodologı́a o filosofı́a de actuación respecto de los individuos suplementarios, se repetirá en otras técnicas, por ejemplo en Análisis de Correspondencias, como se verá posteriormente.

Análisis Factorial General y Análisis de Componentes Principales.

Documentos relacionados

Productos

Apoyo

Análisis Factorial General y Análisis de Componentes Principales.

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib