XIII. La nube de puntos-variables § § Una variable es representada con un vector en Rn . El conjunto de extremidades de los vectores que representan las variables constituyen la nube de puntos Nk. 2 xim − xm 1 m = ∑ =1= k n i sxm 2 Programa PRESTA - 1999 - Eduardo CRIVISQUI 2 Tr. N°40 § La nube de puntos Nkestá situada en una hiperesfera de radio 1. xim − xm xik − xk 1 cos(m ,k ) = m,k = ∑ n i sxm sxk = corr(m ,k ) = r(m,k ) § La norma de los vectores que representan las variables es igual a 1. § La coordenada de la proyección de una variable sobre otra = coeficiente de correlación entre las variables. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°41 p Balance de los coeficientes de correlación entre las variables = estudio de los ángulos entre los vectores que definen la nube Nk. Pero... El estudio directo es imposible en razón de n las dimensiones de R . El A CP produce las variables sintéticas que ACP constituyen un resúmen de las variables iniciales y que permiten la representación plana aproximada de las variables y de sus ángulos respectivos. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°42 n XIII.1. El A CP en ACP R , espacio de las variables Disponemos de las matrices : Z : matriz de datos centrados-reducidos D : métrica de pesos en Rn I : métrica de R k Podemos definir las direcciones principales sα tales que : Z I Z' D sα = λ α sα , siendo sα 2 D =1 § La primera componente principal c1 es la combinación lineal de las k variables de X que tiene varianza máxima. § La segunda componente principal c2 es la combinación lineal de las k variables de X, ortogonal a la primera componente y que tiene varianza máxima. § y asi siguiendo.... Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°43 Las componentes principales (c1,..., ck) forman n una base ortogonal de R de k dimensiones, en- gendradas por las k variables. Sea : {sα ; α = 1,K , k } , n la base canónica del sub-espacio de R . cα Sea : vα = ; {vα ; α = 1,K ,k} , λα la base ortonormal del sub-espacio de Rk. Se obtiene : k z j = x = ∑ r(z j ,cα )vα , ∀j = 1,K ,k α =1 r j Las k variables centradas-reducidas son vectores cuyas extremidades se ubican sobre la esfera de radio 1. De modo que ∀j = 1,K , K r x j = z j = r ,r ,K , r z j ,c1 z j ,c2 z j ,cα Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°44 XIII.2. Proyección de una variable sobre el primer plano factorial 2 x̂ = ẑ j = ∑ r(z j ,cα )vα ; ∀j = 1,K , K α =1 r j § Las coordenadas de las variables centradas y reducidas sobre el primer plano principal son las correlaciones de las variables con las direcciones principales. XIII.3. Calidad de representación de una variable Trazando el círculo de radio 1, en el primer plano factorial, se puede apreciar la calidad de representación de cada variable. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°45 Como x̂ r 2 j = 1, si la extremidad de x̂rj se ubica cerca del círculo de radio 1, xrj tendrá una buena calidad de representación. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°46 XIII.4. Relaciones entre el espacio de representación de los individuos y el espacio de representación de las variables xik − xk 1 Fs (i) = ∑ s Gs (k ) λs k k La proyección Fs(i) del individuo i, es una combinación lineal de las proyecciones Gs(k) de todas las variables. Si xik > xk , la variable k tiene una contribución positiva a la proyección Fs(i) del ind. i. En cambio, si xik ≤ xk , la variable k tiene una contribución nula o negativa a Fs(i). Proyectando las direcciones de los vectores variables en el espacio de los puntos-individuos, podemos «explicar» la configuración de distancias inter-individuales. Si la k-ésima variable está bien representada en un sub-espacio, la dirección asociada a ese vector puede ser considerada como una buena representación de la k-ésima variable en el espacio de representación de los individuos. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°47 Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°48 Por otra parte: xik − xk 1 1 Gs (k ) = Fs (i ) ∑ n λ s i sk Si dos variables presentan una fuerte correlación positiva, están ubicadas del mismo lado de un eje del espacio de representación de las variables. En el eje correspondiente del espacio de representación de los individuos, dos individuos que presenten fuerte valores sobre esas variables, serán representados en la misma dirección que esas variables. En cambio, dos individuos que presenten valores inferiores al valor promedio sobre esa variables, serán representados en las direcciones opuestas. Los individuos que presentan valores extremos para esas variables quedan situados lejos del origen del espacio de representación. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°49 Atención: No se trata de una representación simultánea de la nube de puntos individuos y de la nube de vectores variables... Debemos tomar en cuenta que : § La coordenada sobre un eje dado de un individuo, está en relación con el conjunto de coordenadas de todas las variables sobre ese mismo eje. No se debe interpretar la posición de un individuo con respecto a una sola variable. § Las variables están representadas por vectores y los individuos lo son por puntos. No se debe interpretar la distancia entre un punto individuo y un conjunto de puntos-variables. Lo importante es el alejamiento del individuo considerado en la dirección de ese conjunto de variables. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°50 XIII. 5. Individuos suplementarios o ilustrativos Sea el individuo : w0 = {w01 ,K , w0k } siendo : g j = {x1,K , xk } y sj = {s 2 , , s K x1 xk 2 } podemos definir el «individuo suplementario, centrado y reducido» de término general : w0 j − g j w = sj r 0j Coordenadas del individuo ilustrativo Fα (w ) = ∑ uαj w0r j p r 0 j =1 Calidad de representación de w0 2 r ( F w ∑ α 0) s ŵ0α = w0 α =1 K j =1 Programa PRESTA - 1999 - Eduardo CRIVISQUI ( ) ∑w r 2 0j Tr. N°51 XIII.6. Variables suplementarias o ilustrativas x10 x 20 Sea : x0 = M M xn0 n n 2 1 2 1 Con : x0 = ∑ xi0 y sx = ∑ (xi 0 − x0 ) 0 n i =1 n i =1 xi0 − x0 podemos definir : x = sx0 r i0 Sea r(x r ,G (k )) : correlación de la variable su0 α plementaria centrada-reducida con la componente principal α. Coordenadas de la variable suplementaria Gα (x0r ) = r(x r ,G 0 α (k )) Programa PRESTA - 1999 - Eduardo CRIVISQUI ∀α = 1,K, K Tr. N°52 Calidad de representación de una variable suplementaria continua x̂ = ∑ r r α =1 x0 ,Gα k r 0 2 s Para el caso de una variable ilustrativa nominal, ver §XIII.8 «valores-test». XIII.7. Impor tancia y ejemplos de los Importancia elementos suplementarios La técnica de elementos suplementarios completa este instrumento de exploración... Constituye el fundamento de la etapa inductiva del proceso de construcción de un objeto de estudio. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°53