Capı́tulo 4 Análisis Factorial General y Análisis de Componentes Principales. 4.1. Análisis Factorial General (AFG). Introducción. Sea una tabla rectangular de valores numéricos, representados por una matriz Xn×p , con términos xij . Nos planteamos la siguiente cuestión: ¿Es posible reconstruir los np valores xij , a partir de un número menor de valores numéricos? Por ejemplo: Supongamos que existieran dos vectores un×1 y vp×1 tales que X = uv ′ . Se habrı́a reconstruido X, con un total de (n + p) valores numéricos. Observese que en este caso, X es de rango 1. No es esperable encontrar una situación tan sencilla. En general, la reconstrucción habrá que hacerla en términos de una aproximación de rango q de la forma X = u1 v1′ + · · · + uq vq′ + E (4.1) en donde En×p es una matriz con términos suficientemente pequeños para que los vectores uα , vα , α = 1, . . . , q, es decir, un total de q(n + p) valores numéricos, reconstruyan satisfactoriamente la matriz X inicial. La cuestión práctica que inmediatamente se plantea es esta: ¿Cómo buscar la representación de rango q para X? Vamos a adoptar aquı́ una vı́a geométrica, tı́pica de los métodos factoriales del Análisis de Datos. En capı́tulos posteriores la búsqueda de una descomposición de X en la forma dada por 4.1 se analizará desde un punto de vista más general utilizando la d escomposición de valores singulares de X. En realidad, la tabla X va a dar a lugar a dos representaciones: Por un lado las n filas se pueden considerar como las coordenadas de n puntos en el espacio p-dimensional Rp y las p columnas, se pueden considerar como las coordenadas de p puntos en Rn . Se habla de las nubes de puntos–fila y puntos–columna, respectivamente. Procederemos a considerar el problema de la aproximación de rango q para X en dos aspectos complementarios: 1. A partir de los n puntos–fila, consideramos el ajuste de un subespacio vectorial a dicha nube de puntos–fila, en el espacio de las columnas. 2. A partir de los p puntos–columnas, consideramos el ajuste de un subespacio vectorial a dicha nube de puntos–columna en el espacio de las filas. 4.2. Ajuste, por un subespacio vectorial en Rp , de la nube de puntos–fila. El punto de partida es la nube de los n puntos–fila, en un subespacio p–dimensional (columnas de X). Tratamos de representar dicha nube en un subespacio q–dimensional (q < p). Esto será posible si, al menos aproximadamente, dicha nube está contenida en un subespacio vectorial q–dimensional del espacio vectorial 2 Análisis Factorial General y Análisis de Componentes Principales. p–dimensional. De tal forma que existirán q nuevos ejes y por tanto nq números, por un lado, y pq números por otro (las coordenadas de los nuevos ejes respecto de los p iniciales), de tal forma que sustituiremos np números, por nq + pq = (n + p)q nuevos valores numéricos. En resumen vamos a ajustar, con un criterio que después especificaremos, la nube de los n puntos–fila por un subespacio vectorial en Rp , q–dimensional (q < p), suponiendo que Rp está dotado con la distancia euclı́dea habitual. 4.2.1. Cálculo del ajuste del subespacio vectorial en Rp . El caso más sencillo es el de buscar una recta F1 , que pase por el origen y que se ajuste lo mejor posible p ∑ a la nube. Sea u un vector unitario en la dirección de F1 . Por tanto u′ u = 1 y u2j = 1. Por otra parte las i=1 n filas de Xn×p up×1 , son los n productos escalares de cada fila (punto de Rp ) por u, es decir, las longitudes de las proyecciones de los n puntos sobre la recta F1 . Además, la distancia OP al cuadrado es la suma del cuadrado de su proyección sobre F1 más la distancia al cuadrado de P a F1 . Es evidente que en la igualdad 2 d2 (O; P ) = (proyección sobre F1 ) + d2 (P ; F1 ) (4.2) es equivalente, al estar fijado el primer miembro, minimizar d2 (P ; F1 ) que maximizar la proyección sobre F1 al cuadrado. También es claro que hemos de considerar todos los puntos. Este último cuadrado será: ′ (Xu) (Xu) = u′ X ′ Xu, de modo que si el criterio para encontrar la recta ajustada F1 (que pasa por el origen) es el de maximizar la suma de los cuadrados de todas las proyecciones de los n puntos–fila, habrá que encontrar un u tal que máx{u′ X ′ Xu} (4.3) con la restricción u′ u = 1. Supongamos que la solución es el subespacio u = u1 . Se demostrará después que el subespacio de dos dimensiones, óptimo, contiene a u1 y se calculará buscando un u2 unitario y ortogonal a u1 de tal manera que u2 sea la solución de máx {u′ X ′ Xu} ; u′2 u1 = 0; u′2 u2 = 1. (4.4) Ası́ sucesivamente se obtienen u1 , u2 , . . . , uq ; q < p, en donde cada ui es ortogonal a u1 , . . . , ui−1 y además u′i ui = 1. Resolución técnica del problema de Máximo. Técnicamente, la cuestión se resuelve mediante el método de los multiplicadores de Lagrange. Ası́: máx {u′ X ′ Xu} ; u′ u = 1 → ϕ(λ) = u′ X ′ Xu − λ (u′ u − 1) ∂ϕ(λ) = 2X ′ Xu − 2λu = 0; X ′ Xu = λu; ∂u de modo que el vector buscado, u, es un vector propio de X ′ X. Por otra parte, el máximo alcanzado será λ ya que X ′ Xu = λu → u′ X ′ Xu = λu′ u = λ (4.5) Es decir que el máximo alcanzado es un valor propio de X ′ X. Por tanto el vector buscado será el vector u = u1 correspondiente al mayor autovalor λ = λ1 . Busquemos ahora el subespacio bidimensional que se ajusta lo mejor posible a la nube de los n puntos–fila. Sea t otro vector unitario pasando por el origen, que maximiza t′ X ′ Xt (4.6) 4.2 Ajuste, por un subespacio vectorial en Rp , de la nube de puntos–fila. 3 y que cumple las restricciones t′ t = 1 y t′ u1 = 0 (ortogonal a u1 ). La función de Lagrange (Lagrangiano) correspondiente a este problema es ϕ(λ; µ) = t′ X ′ Xt − λ(t′ t − 1) − µt′ u1 ∂ϕ(λ; µ) = 0 ⇔ 2X ′ Xt − 2λt − µu1 = 0 ∂t 2u′1 X ′ Xt − 2λu′1 t − µu′1 u1 = 0 Es decir: 2 [u′1 X ′ X − λu′1 ] t − µu′1 u1 = 0 Pero u′1 X ′ X = λu′1 . Por tanto µ = 0 y el problema se reduce de nuevo a X ′ Xt = λt que puede escribirse como (X ′ X − λ) t = 0, luego t será el autovector asociado al segundo autovalor de X ′ X en orden decreciente. Este resultado se extiende a todos los autovalores λ1 , λ2 , λ3 , . . . , λr donde r = rg (X ′ X). Definición 4.1 Llamamos subespacio óptimo q–dimensional ajustado, en Rp , a la nube de puntos, al subespacio engendrado por los autovectores asociados a los q primeros autovalores de (X ′ X). Ası́ pues a la nube de puntos–fila, de n elementos, en Rp , se le puede ajustar un subespacio vectorial de dimensión q (q < p), óptimo en el sentido de mı́nimos cuadrados (mı́nima suma de distancias desde los puntos–fila al subespacio ajustado), de tal manera que dicho subespacio está engendrado por vectores unitarios u1 , . . . , uq , tales que uα es ortogonal a u1 , . . . , uα−1 , para α = 2, . . . , q; los uα son unitarios y maximizan u′α X ′ Xuα . 4.2.2. Ajuste a la nube de puntos–columna de un subespacio en Rn . Si ahora consideramos los puntos–columna, es decir que consideramos la matriz de datos X interpretada como una nube de p puntos–columna en un espacio n–dimensional Rn . La situación es totalmente análoga a la vista antes en Rp , salvo que técnicamente, ahora, las proyecciones de los puntos de la nube sobre el subespacio de ajuste son las p filas del vector de productos escalares ( ′ Xp×n vn×1 ) (4.7) p×1 en donde con v se denota al vector n–dimensional, en Rn , de los cosenos directores del subespacio ajustado (que en la primera etapa es una recta que pasa por el origen, equivalente a la F1 en el caso anterior, que designamos G1 . Por tanto, la suma de proyecciones al cuadrado de todos los puntos de la nube de p puntos, sobre la recta G1 , se escribirá: ′ (X ′ v) (X ′ v) = v ′ XX ′ v ( ) (4.8) ′ Xn×p Xp×n , n×n que habrá que maximizar. Obsérvese que en este caso se tiene la matriz mientras que antes ′ tenı́amos la matriz X Xp×p . La solución a este problema es análoga a la del anterior, generándose una base v1 , . . . , vq del subespacio óptimo ajustado a la nube, subespacio de dimensión q, que se obtiene en los términos siguientes: 1. v1 , . . . , vq son tales que vi′ vi = 1; i = 1, . . . , q. 2. vi es el autovector correspondiente al autovalor µi de la matriz XX ′ , siendo µi el mayor autovalor quitando los µ1 , . . . , µi−1 mayores anteriores. 3. vi es ortogonal a v1 , . . . , vi−1 ; i = 2, . . . , q. 4. vi′ XX ′ vi es máximo en cada etapa y su valor es µi . 4 Análisis Factorial General y Análisis de Componentes Principales. 4.3. Relación entre los subespacios ajustados en Rp y en Rn . Hasta ahora, a la nube de n puntos–fila p–dimensionales, por un lado, y a la nube de p puntos–columna n– dimensionales por otro, se han ajustado dos subespacios óptimos, generados, respectivamente, por los vectores {u1 , . . . , uq } y {v1 , . . . , vq }, considerando que los subespacios sean de la misma dimensión, q, en ambos casos. Fijémonos en el autovector α-ésimo de XX ′ , vα , es decir, el asociado al α–ésimo mayor autovalor de XX ′ , es decir, que vα verı́fica XX ′ vα = µα vα Si rg(X) = r, entonces, rg(XX ′ ) = r, y es claro que r ≤ mı́n(p, n). Por tanto, a lo sumo, hay r autovalores de XX ′ , no nulos. Efectuemos algunos cálculos. De la expresión XX ′ vα = µα vα se obtiene: X ′ (XX ′ ) vα = µα X ′ vα es decir: X ′ X (X ′ vα ) = µα (X ′ vα ) Por tanto, a cada vector propio vα de (XX ′ ) le corresponde un autovector uα = X ′ vα de (X ′ X), y ello respecto del mismo autovalor µα . Es decir que todo autovalor de XX ′ , no nulo, lo es también de X ′ X. Y los autovectores correspondientes al mismo autovalor µα , en X ′ X y en XX ′ están relacionados en la forma: uα = kα (X ′ vα ) ; kα constante. P or tanto el conjunto de autovalores µα : α = 1, . . . , r es un subconjunto del de autovalores λα . Haciéndolo ahora al revés, tenemos, (X ′ X) uα = λα uα X (X ′ X) uα = λα Xuα (XX ′ ) (Xuα ) = λα (Xuα ) y se concluye, análogamente, que todo autovalor de X ′ X lo es también de XX ′ , y vα = kα′ Xuα ; kα′ constante. Por tanto λα = µα ; α = 1, . . . , r. Imponiendo que u′α uα = vα′ vα = 1, se concluye que: 1 kα = kα′ = √ λα Por tanto: uα = vα = 1 √ X ′ vα λα 1 √ Xuα λα (4.9) Definición 4.2 El eje Fα , soporte de uα , se llama α–ésimo eje factorial de Rp . El eje Gα , soporte de vα , se llama α–ésimo eje factorial de Rn . Las coordenadas de los puntos de la nube sobre el eje α–ésimo en Rp (resp. Rn ) son las componentes del vector Xuα (resp. X ′ vα ). 4.4 Reconstrucción de la matriz de datos X. 4.4. 5 Reconstrucción de la matriz de datos X. Hasta ahora se han reconstruido aproximadamente las posiciones de los puntos de la nube de Rp (resp.Rn ) a partir de las coordenadas de esos puntos sobre la base del subespacio vectorial ajustado (mı́nimos cuadrados). Tratamos ahora de reconstruir la matriz de datos inicial (es decir, las coordenadas de los puntos en Rp ) a partir de los q ejes obtenidos. Se tiene que: √ 1 vα = √ Xuα ; Xuα = λα vα λα ( p ) p ∑ ∑ √ √ ′ ′ ′ uα uα = λα vα u′α Xuα uα = λα vα uα ; X α=1 α=1 Pero obsérvese que u′1 uα u′α = [u1 |u2 | · · · |up ] ... = U U ′ = U U −1 = I α=1 u′p p ∑ Por tanto, p ∑ √ X= λα vα(n×1) u′α(1×p) (4.10) α=1 aproximada será la que se limite a los q primeros ejes, válida en la medida en que √ Una reconstrucción √ λq+1 , . . . , λp sean pequeños. q ∑ √ En tal caso, X ≈ X ∗ = λα vα u′α . Si en Rp , por ejemplo, el eje factorial u1 es por sı́ solo capaz de α=1 localizar satisfactoriamente las posiciones de los puntos, es porque el valor propio λ1 debe ser mucho más importante que los demás puesto que λ1 = u′1 X ′ Xu1 mide la suma de los cuadrados de las proyecciones de los puntos sobre u1 (es decir las distancias al cuadrado de los puntos proyectados, al origen). En general, una referencia formada por los q primeros ejes factoriales, permitirá reconstruir las posiciones de los puntos con buena precisión en caso que λ1 +λ2 +· · ·+λq sea una proporción importante de λ1 +· · ·+λp . Técnicamente, por otra parte, λ1 + · · · + λp = p ∑ λα = tr [X ′ X] = ∑∑ α=1 i x2ij (4.11) j Esta reconstrucción aproximada, X ∗ , de X es en efecto conseguida por sólo q × (n + p) números: Los que √ determinan los q vectores λα vα y los q vectores uα , es decir, qn + qp, de modo que los np números que constituyen la matriz inicial X, son sustituidos por q(n + p). Una medida de la calidad de la reconstrucción es el porcentaje de inercia, τq , dado por: q ∑ τq = α=1 p ∑ λα (4.12) λα α=1 Por otra parte, en virtud de 4.11, τq se puede expresar también ası́: 6 Análisis Factorial General y Análisis de Componentes Principales. ∑ x∗ij 2 i,j τq = ∑ x2ij (4.13) i,j donde con x∗ij se designan los elementos de X ∗ . 4.5. Algunas conclusiones sobre el Análisis Factorial General. 1. Dada una tabla de datos, se pueden obtener representaciones de nubes de puntos en dos espacios, de tal manera que los ajustes en dichos espacios están relacionados. 2. Se ha dotado a la tabla numérica inicial de una estructura vectorial euclı́dea, con dos espacios: El de las columnas, en donde tenemos la nube de puntos–fila, Rp , y el de las filas, Rn , en el que se tiene la nube de puntos–columna. 4.6. Análisis en Componentes Principales (ACP). Como antes se ha dicho, el Análisis en Componentes Principales, ACP, considera una matriz R de datos iniciales de carácter no simétrico: Sus componentes, rij , son valores numéricos que, de manera continua, miden la variable j–ésima (columnas) en el i–ésimo individuo (filas). Veamos a continuación cómo el Análisis Factorial General se adapta a esta situación, de manera que tengamos en cuenta que se trata de una tabla estadı́stica y no de una mera matriz numérica R que hubiera que reducir o explicar en base a un conjunto menor de números. Queda pues concretada la situación inicial en estos términos: 1. El espacio de las filas está constituido por n individuos. 2. El espacio de las columnas está constituido por p variables. Ası́ pues, disponemos de una tabla de datos R = (rij ); i = 1, . . . , n; j = 1, . . . , p; sobre la que vamos a efectuar en primer lugar el Análisis en Rp , previa concreción de la matriz X. 4.7. Análisis en el espacio de las variables Rp . Según el AFG, consideraremos en una primera fase los n puntos–fila en el espacio vectorial Rp de las columnas (variables). En primer lugar, y dada la naturaleza estadı́stica de la tabla inicial R, vamos a definir sobre qué matriz, X, transformada de la tabla R, vamos a realizar el AFG. En realidad, cuando se tiene una situación práctica del tipo que estamos considerando (variables– individuos), l as variables pueden ser muy heterogéneas en cuanto a sus valores medios. También desde luego lo pueden ser respecto a su d ispersión, provocada por escalas de medida a veces muy diferentes, pero esta otra fuente de heterogeneidad no la consideramos en una primera fase. Ası́ pues, ¿como eliminar el efecto de la heterogeneidad de medidas? Hagamos una interpretación geométrica de la situación. No olvidemos que hemos de realizar (Análisis en Rp ) el ajuste en Rp (espacio de columnas–variables) de un subespacio que describa aproximadamente la nube de puntos–fila (los individuos), con los criterios definidos en el AFG. Este subespacio, como tal, contiene siempre al origen en el planteamiento básico del AFG, en donde no se considera la naturaleza estadı́stica de la tabla sino meramente su caracter numérico. Ahora, sin embargo, tenemos una información adicional sobre los valores numéricos, información estadı́stica, que permite tratar la heterogeneidad de las medidas de las variables como un factor tanto a considerar como a eliminar, en su posible efecto no deseado, a la hora de describir la proximidad de los puntos fila. Gráficamente lo que ocurre es que la posición de la nube de puntos–fila (individuos) cambia, respecto del origen, frente a la adoptada en el AFG en donde no se considera el efecto de las medias en cada variable. 4.7 Análisis en el espacio de las variables Rp . 7 En lenguaje geométrico, es claro que el espacio afı́n H1 es presumiblemente más apropiado para describir la nube de puntos–fila que el espacio vectorial H0 (subespacio del Rp ). Considerar este subespacio afı́n, no altera la filosofı́a general del AFG, ya que lo que estadı́sticamente interesa es la forma de la nube, no la posición de ésta respecto del origen. Técnicamente hablando, interesa pasar el origen al centro de gravedad (punto medio, cuyas coordenadas son las dadas por las p medias, rj , en las p variables), porque ası́, la búsqueda de la recta H1 (subespacio afı́n, cuando el origen está en 0) puede reducirse a la búsqueda de un H0 tal como se ha realizado en el AFG, pero respecto de un origen colocado en el centro de gravedad. Analı́ticamente, estas consideraciones geométricas equivalen a lo siguiente: Sean h∑ i y hj las proyecciones 2 de dos puntos sobre una recta H1 . Consideremos el criterio de maximizar la suma (hi − hj ) , es decir i,j maximizar la suma de todas las diferencias de proyecciones de todos los pares al cuadrado. Si esta suma se desarrolla, se puede ver que vale: 2n n ∑ ( )2 hi − h (4.14) i=1 en donde h denota la proyección media, es decir la media aritmética de las proyecciones de todos los puntos sobre la recta H1 . En efecto n ∑ n ∑ [ ]2 hi − h − hj + h = 2 (hi − hj ) = i,j=1 i,j=1 = n ∑ [( ) ( )]2 hi − h − hj − h = i,j=1 = n ∑ ( n n ∑ ∑ )2 ( )2 ( )( ) hi − h + hj − h − 2 hi − h hj − h = i,j=1 = 2n n ∑ i,j=1 ( )2 hi − h − 2 i=1 i,j=1 n ∑ ( n ∑ )( ) ( )2 hi − h hj − h = 2n hi − h i,j=1 i=1 El último paso, se ha dado en virtud de que: n ∑ ( n n n n ∑ ∑ ∑ ∑ )( ) 2 hi − h hj − h = hi hj − h hi − h hj + h = i,j=1 i,j=1 = n ∑ hi hj − 2h i,j=1 =n n ∑ ( ∑n j=1 hi i,j=1 hj = n2 h i=1 n 2 i,j=1 i,j=1 2 hi + n2 h = i,j=1 ) n ( ∑n i=1 n ∑ − 2nh hi n ∑ ∑n j=1 n i ) hj 2 2 + n2 h = 2 − 2n2 h + n2 h = 2 2 = n2 h − 2n2 h + n2 h = 0 c.q.d. Es claro entonces, que si hicieramos h = 0, el problema de maximización planteado, que conducirá a la recta H1 , serı́a un caso particular del problema de maximización planteado en el AFG (maximizar la suma de cuadrados de todas las proyecciones). Pero ¿qué es hacer h = 0? La respuesta es evidente: E s trasladar el origen de coordenadas al centro de gravedad de la nube. Es decir, considerar los valores x∗ij = rij − rj 8 Análisis Factorial General y Análisis de Componentes Principales. La matriz final X, no obstante, se define ası́: rij − rj √ n xij = (4.15) 1 transformación pues que pasa de la matriz inicial R = (rij ) a la X = (xij ). El factor √ se añade para que, n al aplicar el AFG, y tener que considerar X ′ X, aparezca la matriz de covarianzas muestrales. En efecto, ( )′ ( ) rij − rj rij − rj ′ √ √ XX= = Cp×p (4.16) n n p×n n×p es la matriz de covarianzas muestrales. Es decir, r −r X = (xij )n×p = 11 √ r12 √−r 2 n 1 n .. . .. . rn1 √−r 1 n rn2 √−r 2 n ··· .. . ··· r1p −r p √ n .. . rnp −r p √ n n×p de modo que: ′ Xp×n Xn×p = r11 √−r 1 n .. . r1p −r p √ n rn1 √−r 1 n ··· .. . ··· .. . rnp −r p √ n n ∑ (ri1 − r1 )2 n n i=1 ∑ (ri2 − r2 )(ri1 − r1 ) = n i=1 .. . ··· n ∑ i=1 p×n r11 √−r 1 n .. . rn1 √−r 1 n ··· .. . ··· (ri1 − r1 )(ri2 − r2 ) n ··· .. . ··· r1p −r p √ n .. . rnp −r p √ n = n×p ··· ··· .. . · · · p×p En una segunda fase, como antes decı́amos, también debe tenerse en cuenta la heterogeneidad de las escalas de medida, que produce en muchos casos una dispersión muy heterogénea en las variables. La forma tı́pica de reducir el efecto de la heterogeneidad en las dispersiones de las variables, a la hora de medir la proximidad de los i ndividuos, es efectuar el paso a una matriz X dada en la forma: ( X = (xij ) = ) n 1∑ rij − rj 2 √ ; s2j = (rij − rj ) n i=1 sj n (4.17) Dados dos individuos (i–ésimo e i′ –ésimo), la distancia al cuadrado entre ellos será (en sentido euclı́deo clásico): d2 (i, i′ ) = = )2 p ( ∑ r′ −r rij − rj √ − i j√ j = sj n sj n j=1 p p ∑ 1 ∑ (rij − ri′ j )2 (rij − ri′ j )2 = s2j · n n j=1 s2j j=1 y es evidente que, al dividir cada término por la varianza muestral s2j correspondiente de cada variable (j = 1, . . . , p), se reduce el efecto de la heterogeneidad de las mismas, de modo que cada variable aporta una contribución análoga a la distancia o proximidad entre individuos. En este caso, además, es claro que l a matriz X ′ X no es otra cosa que la matriz de correlaciones muestrales. En efecto, obsérvese que, a partir de la matriz C dada en la expresión 4.16, la expresión 4.17 puede escribirse matricialmente en la forma 1 1 1 1 V − 2 CV − 2 , en donde V = diag(s21 , s22 , . . . , s2p ). Pero V − 2 CV − 2 = X ′ X = R en donde Rp×p es la matriz de coeficientes de correlación tipo Pearson. 4.8 Ajuste en Rn de la nube de puntos–columna. 9 Resumen. El ajuste a la nube de puntos–fila (individuos) en Rp (espacio de las variables), en el Análisis de Componentes Principales, se efectúa a dos niveles: ( ) rij − rj √ 1. Sobre la matriz transformada: X = (Análisis en Componentes Principales), de modo n n×p ( ′ ) que se aplica el AFG a Xp×n Xn×p p×p para ajustar la nube en Rp . ) rij − rj √ (Análisis en Componentes Principales Normalizado) 2. Sobre la matriz transformada: X = sj n ′ de modo que se aplica el AFG a (X X) que es la matriz de correlaciones muestrales. ( Las coordenadas de los puntos–fila sobre los ejes factoriales soportes de los autovectores uα de X ′ X son globalmente expresadas como Xuα , y este vector columna n × 1 tiene en cada componente √ la coordenada de un punto–fila respecto del α–ésimo eje. Por otra parte, según vimos en AFG, Xuα = λα vα , en donde vα es el autovector α–ésimo en el otro espacio Rn ; es decir, autovector de XX ′ . 4.8. Ajuste en Rn de la nube de puntos–columna. Como en los planteamientos generales del AFG, también en el ACP cabe ajustar a los p puntos–columna (variables), en Rn , un subespacio vectorial o afı́n. Lo que ocurre en ACP es que la matriz inicial R, o sus transformadas X, no son simétricas en i, j. Es más, la transformación que lleva de R a X (en los dos casos antes definidos) no es simétrica en los ı́ndices i, j, y ha de interpretarse en un sentido muy diferente. La transformación xij = rij − rj implica trasladar el origen en Rp , al punto centro de gravedad de la nube de los n puntos–fila. En cambio, interpretada en Rn (es decir en j), la transformación xij = rij − rj equivale a efectuar la operación matricial X = P · R, en donde 1− 1 i=j n P = (pij ); pij = 1 − i ̸= j n Comprobemos que, en efecto, es X = P · R. P ·R= 1 − n1 − n1 .. . − n1 1 − n1 .. . ··· ··· .. . − n1 − n1 ··· − n1 − n1 .. . 1− r11 − rn11 − rn21 − · · · − rnn1 r21 − r21 − r22 − · · · − r2n n n n = .. . rn1 − rnn1 − rnn2 − · · · − rnn n r11 − r1 r21 − r1 = .. . rn1 − r1 1 n n×n r12 − r12 − r2 ··· r22 − r2 .. . ··· .. . ··· rn2 − r2 r12 n r11 r21 .. . r12 r22 .. . ··· ··· .. . r1p r2p .. . rn1 rn2 ··· rnp − r22 n ··· .. . ··· − ··· − r1p − rp .. . .. . rnp − rp rn2 n ··· ··· .. . = n×p = ··· =X Esta transformación —que también aparece, como es sabido, en el estudio de los Modelos Lineales— significa geométricamente algo bien distinto de una traslación del origen en Rp : Equivale a una proyección paralela a la primera bisectriz en Rn . 10 Análisis Factorial General y Análisis de Componentes Principales. rij − rj √ en Rp , dividiendo En el caso del ACP normalizado, cuando se efectúa además el cambio de escala s n j √ cada coordenada de un punto–fila por sj n, se realiza una deformación de la nube de puntos–columna (p en total) de tal manera que se llevan los p puntos a una distancia unidad del origen. En efecto: d2 (j, 0) = )2 n ( n 2 ∑ rij − rj 1 ∑ (rij − rj ) √ −0 = = n i=1 s2j sj n i=1 1 = 2 sj ( 1∑ (rij − rj n i=1 n )2 = 1. Y la distancia entre dos puntos–columna, j y j ′ , será: )2 n ( ∑ rij − rj rij ′ − rj ′ √ − √ d (j, j ) = = sj n sj ′ n i=1 ′ 2 1 ∑ (rij ′ − rj ′ ) 2 ∑ (rij − rj )(rij ′ − rj ′ ) 1 ∑ (rij − rj ) + − = 2 2 n i=1 sj n i=1 sj ′ n i=1 sj sj ′ n = n 2 = n 2 s2j ′ s2j + − 2ρjj ′ = 2 (1 − ρjj ′ ) s2j s2j ′ en donde ρjj ′ es el coeficiente de correlación empı́rico entre las variables j y j ′ . Si este coeficiente es muy alto, aproximadamente 1, los puntos columnas están próximos. Si ρjj ′ es mucho menor que 1, entonces están alejados. En virtud de lo visto en AFG, las coordenadas de los puntos–columnas en el eje factorial α, son las √ componentes de X ′ vα que son iguales a uα λα , en donde, en el caso de ACP normalizado, λα , son los autovalores de X ′ X, la matriz de correlaciones C. Recuérdese también que uα son los autovalores de X ′ X. Finalmente cabe observar que en el caso de la matriz considerada en ACP normalizado, la matriz de correlación X ′ X, es claro que: ′ tr(X X) = p ∑ α=1 4.9. λα = ∑ x2ij = p (4.18) i,j Variables e individuos suplementarios en ACP. Suele ocurrir en la práctica que, una vez realizado un ACP con una determinada matriz R de datos iniciales, se conozcan los datos en las p–variables correspondientes a nuevos individuos (Nuevos individuos que se incorporan al estudio, un grupo de individuos–control, etc.) Un caso frecuente en las aplicaciones se produce cuando el número de individuos es muy grande —en encuestas, por ejemplo— y entonces se clasifican en grupos con arreglo a alguna o algunas caracterı́sticas de los mismos (intervalos de ingresos familiares, por ejemplo) que sean de interés. Incluso, a veces, interesan más estas caracterı́sticas de los individuos que ellos mismos. En este caso, se consideran los centros de gravedad de las clases de individuos consideradas y estos centros se consideran individuos nuevos (o suplementarios) y se incorporan y presentan gráficamente como si fueran unos individuos más. También puede darse el caso de incorporar nuevas variables cuyos valores son conocidos para los individuos estudiados, pero que en una primera etapa no se han considerado. Posiblemente, en muchos casos es ası́, porque no constituyen un conjunto homogéneo de caracterı́sticas junto a las que se han seleccionado para realizar el ACP en una primera etapa. El problema, por tanto, es cómo incorporar estos nuevos puntos–individuos (filas) y puntos–columna (variables) al ACP. 4.9 Variables e individuos suplementarios en ACP. 11 1. Consideremos los individuos suplementarios, en primer lugar. Estos constituyen un borde o caja matricial R+ de la matriz R, constituida por las filas correspondientes a los individuos añadidos. Es claro que al incrementar el número de filas de R en la forma [ ] Rn×p Rn×p −→ R+n′ ×p ′ (n+n )×p estas filas–individuos de R+ han de ser comparables con las analizadas en el ACP. Es decir, hay que efectuar sobre las filas de R+ las transformaciones que se han efectuado para realizar el ACP sobre las filas de R. Si denotamos por r+i las filas suplementarias de R+ , serı́a: x+ij = r+ij − rj √ sj n de modo que tendrı́amos ası́ definida la matriz transformada X+ . En tal situación, entonces, las coordenadas de los individuos suplementarios sobre los α–ejes factoriales ya calculados sobre X se toman como las dadas por X+ uα . 2. Análogamente procederemos con las variables suplementarias introducidas. En este caso, R se incrementa con una caja matricial R+ de la forma [ ] + Rn×p −→ Rn×p | Rn×p ′ n×(p+p′ ) y en este caso, para hacer comparables las nuevas columnas (variables) en Rn , con las previamente consideradas, hay que llevarlas a la esfera unidad de Rn , lo que se consigue definiendo para R+ , la matriz X + = (x+ ij ), definida por x+ ij = + rij − r+ j +√ sj n + + en donde r+ j son las medidas de las columnas añadidas de R , y sj las desviaciones tı́picas correspondientes. Una vez definida X + , las coordenadas de estos nuevos puntos–columna, respecto del α–eje previamente ′ calculado con X, vendrán dadas por (X + ) vα . ′ Comentario 4.9.1 Nótese la filosofı́a que se ha empleado para calcular las coordenadas X+ uα y (X + ) vα de los puntos–fila y puntos–columna suplementarios respectivamente: Se mantiene la estructura factorial obtenida a partir de la matriz inicial R sin orlar; por tanto se mantienen los vectores unitarios uα y vα cuyos soportes son los respectivos ejes factoriales Fα y Gα en Rp y Rn y, respecto de estos ejes ya obtenidos, se ubican los nuevos puntos–fila y puntos–columna. Esta metodologı́a o filosofı́a de actuación respecto de los individuos suplementarios, se repetirá en otras técnicas, por ejemplo en Análisis de Correspondencias, como se verá posteriormente.