Document

El análisis estadı́stico de datos composicionales Vera Pawlowsky-Glahn Dept. d’Informàtica i Matemàtica Aplicada Universitat de Girona [email protected] 1 ejemplo 1: hipótesis genéticas genotipos en el sistema MN de grupos sanguı́neos individuo Ab1 Ab2 Ab3 Ab4 Ab5 Ab6 Ch1 Ch2 Ch3 Ch4 In1 In2 In3 MN 0.13 0.14 0.21 0.37 0.39 0.38 0.49 0.49 0.50 0.51 0.41 0.49 0.49 MM 0.01 0.02 0.01 0.05 0.03 0.07 0.25 0.26 0.28 0.29 0.25 0.24 0.32 NN 0.86 0.84 0.78 0.58 0.58 0.55 0.26 0.25 0.22 0.20 0.26 0.27 0.19 individuo In4 In5 InAm1 InAm2 InAm3 InAm4 InAm5 InAm6 Es1 Es2 Es3 Es4 Es5 MN 0.47 0.46 0.45 0.43 0.44 0.40 0.17 0.18 0.38 0.34 0.33 0.30 0.19 MM 0.41 0.43 0.46 0.48 0.45 0.57 0.81 0.79 0.58 0.60 0.65 0.65 0.80 NN 0.12 0.11 0.09 0.09 0.11 0.03 0.02 0.03 0.04 0.04 0.02 0.05 0.01 Ab = Aborigen; Ch = Chino; In= Indio; InAm = Indio Americano; Es = Eskimo a pesar de la gran variabilidad observable en éstos datos, ¿responden a una estabilidad subyacente, a una ley genética? 2 ejemplo 2: fraccionamiento de olivina magnésica análisis quı́micos de rocas del lago de lava Kilauea Iki (Hawaii) SiO2 TiO2 Al2 O3 Fe2 O3 FeO MnO MgO CaO Na2 O K2 O P2 O5 0.4834 0.4890 0.4570 0.4558 0.4936 0.4667 0.4818 0.4797 0.4699 0.4917 0.4845 0.4794 0.4847 0.4897 0.4874 0.4968 0.4926 0.0233 0.0247 0.0170 0.0154 0.0331 0.0200 0.0234 0.0232 0.0201 0.0273 0.0247 0.0224 0.0235 0.0248 0.0244 0.0303 0.0250 0.1149 0.1240 0.0835 0.0818 0.1212 0.0952 0.1144 0.1119 0.0991 0.1254 0.1181 0.1118 0.1164 0.1205 0.1160 0.1293 0.1233 0.0159 0.0215 0.0212 0.0160 0.0177 0.0217 0.0226 0.0246 0.0213 0.0183 0.0281 0.0241 0.0104 0.0139 0.0138 0.0160 0.0126 0.1004 0.0942 0.1004 0.1046 0.0991 0.0982 0.0947 0.0937 0.0973 0.1002 0.0892 0.0937 0.1037 0.1017 0.1018 0.0969 0.1014 0.0018 0.0017 0.0017 0.0017 0.0017 0.0018 0.0018 0.0018 0.0018 0.0018 0.0018 0.0018 0.0018 0.0018 0.0018 0.0017 0.0018 0.1359 0.1110 0.2311 0.2391 0.1048 0.1934 0.1367 0.1434 0.1832 0.1005 0.1253 0.1465 0.1324 0.1118 0.1235 0.0885 0.1052 0.0986 0.1065 0.0699 0.0680 0.0967 0.0820 0.0988 0.0965 0.0859 0.1055 0.1019 0.0959 0.1013 0.1083 0.1045 0.1098 0.1106 0.0190 0.0202 0.0133 0.0128 0.0225 0.0154 0.0189 0.0186 0.0158 0.0209 0.0193 0.0182 0.0189 0.0173 0.0167 0.0224 0.0202 0.0044 0.0047 0.0032 0.0031 0.0065 0.0038 0.0046 0.0045 0.0037 0.0056 0.0048 0.0041 0.0045 0.0080 0.0079 0.0055 0.0048 0.0023 0.0024 0.0016 0.0015 0.0030 0.0018 0.0022 0.0021 0.0019 0.0026 0.0023 0.0021 0.0023 0.0024 0.0023 0.0027 0.0023 Richter y Moore (1966): la variabilidad en la muestra se debe al fraccionamiento de olivina magnésica a partir de una misma masa magmática ¿confirma el análisis estadı́stico de los datos esta afirmación derivada de observaciones de campo y de análisis petrográficos? 3 datos composicionales x = [x1, . . . , xd] es una composición con d-partes  para todo i = 1, ..., d  xi > 0, d P ⇐⇒  xi = κ (constante) i=1 ejemplos κ=1 : probabilidades asociadas a variables discretas; partes por unidad κ = 100 : análisis quı́micos de rocas; porcentajes en general κ = 180 : ángulos de un triángulo en análisis de formas otras unidades frecuentes: ppm, ppb, ... caracterı́stica esencial: valores relativos 4 espacio muestral: el sı́mplex S d = {x = (x1, x2, . . . , xd)|xi > 0; d X xi = κ} i=1 S 2 ⊂ R2 segmento S 3 ⊂ R3 diagrama ternario S 4 ⊂ R4 tetraedro 5 ¿porqué un enfoque estadı́stico particular para datos composicionales? en el espacio real sumamos vectores, los multiplicamos por constantes, estudiamos su ortogonalidad, medimos distancias, ... posible porque Rd es espacio vectorial Euclı́deo pero: la geometrı́a Euclı́dea de Rd no es una geometrı́a apropiada para fenómenos composicionales porque (a) los resultados pueden no estar en el sı́mplex p.ej. al sumar vectores composicionales, al multiplicarlos por una constante, al calcular regiones de confianza o regiones predictivas (b) las diferencias Euclı́deas no siempre son medidas razonables p.ej. entre el 5% y el 10% hay un incremento relativo del 100%, entre el 50% y el 55% hay un incremento relativo del 10%, pero la distancia Euclı́dea es la misma 6 una geometrı́a especı́fica para el sı́mplex operaciones básicas clausura de z = [z1, ..., zd] ∈ Rd+ " κ · z1 κ · zd C [z] = Pd , · · · , Pd i=1 zi i=1 zi # perturbación de x ∈ S d por y ∈ S d: x ⊕ y = C [x1y1, ..., xdyd] potenciación de x ∈ S d por α ∈ R α ¯ x = C [xα1 , ..., xαd] (S d, ⊕, ¯) es un espacio vectorial real 7 la perturbación: ¿limitación y/o potencialidad en el estudio de fenómenos composicionales? ejemplo: plantel con agua, tierra, y simiente composición en kilos: [180, 120, 60] en proporciones: x0 = [a0, t0, s0] = [3/6, 2/6, 1/6] y transcurrida una noche: x1 = [a1, t1, s1] = [6/9, 2/9, 1/9] perturbación correspondiente al cambio: · ¸ · ¸ 6/9 2/9 1/9 1 1 1 x1 ª x0 = C , , = , , 3/6 2/6 1/6 2 4 4 ¿qué pasó? (a) llovió, resultando [360, 120, 60] kilos de agua, tierra y simiente (b) hizo viento, se llevó tierra y simiente, resultando [180, 60, 30] kilos de agua, tierra y simiente (c) llovió e hizo viento, resultando [270, 90, 45] kilos de agua, tierra y simiente el resultado da siempre la misma composición ⇒ sin información externa es imposible decidir qué escenario es correcto (limitación), pero podemos usarlos como hipótesis de trabajo (potencialidad) 8 producto escalar, norma y distancia d d 1 X X xi yi hx, yia = ln ln 2d i=1 j=1 xj yj v u ¶2 d µ d X u1 X xi ln kxka = t 2d i=1 j=1 xj v u ¶2 d µ d X u1 X xi yi t ln − ln da(x, y) = 2d i=1 j=1 xj yj ¡ Scd, ⊕, ¯, h., .ia ¢ es un espacio Euclı́deo geometrı́a de Aitchison sobre el sı́mplex 9 espacio real Rd sı́mplex S d suma: x + y producto: α · x distancia Euclı́dea: perturbación: x ⊕ y potenciación: α ¯ x distancia de Aitchison: de (x, y) da (x, y) vector de medias: n 1X x` x̄ = n centro métrico: Ln 1 x̄ = n ¯ ( `=1 x`) = C [g1, g2, ..., gd] Ã n !1/n Y gi = xi` `=1 `=1 distancia y traslación: dist. y perturbación: de(x + z, y + z) = de(x, y) da(x ⊕ z, y ⊕ z) = da(x, y) distancia y escalado: dist. y potenciación: de(α · x, α · y) = |α|de(x, y) da(α ¯ x, α ¯ y) = |α|da(x, y) 10 operación centrado: representar x ª x̄ observaciones: (a) la muestra centrada gravitará entorno al baricentro (b) es muy útil para visualizar estructuras en los datos en un diagrama ternario (c) la perturbación transforma lı́neas rectas en lı́neas rectas ⇒ es posible incluir en la representación gráfica tanto tramas de referencia como campos composicionales sin riesgo de distorsión no lineal 11 representación habitual de datos composicionales: coordenadas en la base canónica de Rd: x = x1 [1, 0, . . . , 0] + · · · + xd [0, . . . , 0, 1] Pd = i=1 xi · ei ventaja: fácil de interpretar problemas: (a) no toda combinación de coeficientes lleva a un elemento de S d (valores negativos y nulos no están permitidos) (b) los vectores {e1, e2, . . . , ed} no pertenecen a S d ⇒ no es ni un sistema de generadores, ni una base (c) trabajar con la perturbación y la potenciación no es fácil pero: S d espacio vectorial Euclı́deo ⇒ permite la representación en coordenadas 12 coordenadas alr (additive logratio) µ ¶ x1 x2 xd−1 alr(x) = ln , ln , ..., ln xd xd xd problema: la base no es ortogonal ⇒ da(x, y) 6= de(alr(x), alr(y)) coordenadas clr (centered logratio) µ ¶ x1 x2 xd clr(x) = ln , ln , ..., ln g(x) g(x) g(x) ³Q ´1/d d = media geométrica de x con g(x) = i=1 xi ventaja: da(x, y) = de(clr(x), clr(y)) problema: son coordenadas en un sistema generador de Rd y los puntos se sitúan sobre un hiperplano por el orı́gen ortogonal al vector [1, 1, . . . , 1] ⇒ matriz de covarianzas singular 13 coordenadas ilr (isometric logratio) Ã Qd−1 ! 1 x1 1 x1x2 1 xi ln i=1 ilr(x) = √ ln , √ ln , ..., p xd−1 2 x2 6 x3x3 d(d − 1) d ventaja: coordenadas en una base ortonormal ⇒ da(x, y) = de(ilr(x), ilr(y)) ⇒ la matriz de covarianzas no es singular ⇒ podemos aplicar estadı́stica multivariante habitual a las coordenadas desventaja: resultados difı́ciles de interpretar solución: calcular en coordenadas en una base ortonormal y expresar los resultados en la base canónica de Rd sin abandonar el simplex 14 trabajar en coordenadas permite aplicar cualquier técnica multivariante • permite definir distribuciones en el sı́mplex, p.ej. x sigue una normal en S d ⇐⇒ las coordenadas ilr(x) siguen una normal multivariante en Rd−1 • los parámetros se estiman a partir de la expresión de las observaciones en coordenadas, p.ej. por máxima verosimilitud • pueden construirse regiones predictivas para las observaciones y regiones de confianza para el centro métrico • pueden utilizarse técnicas habituales, como análisis de componentes principales, cluster, discriminante, factorial, ...) • problema: interpretación en partes 15 2 = 0, 5548 ⇐⇒ MN ln NN·MM 2 = 1, 3590 ⇐⇒ MN2 NN·MM = 3, 8922 ⇐⇒ MN2 = 3, 8922 · NN · MM √1 6 MN ln NN·MM ley de la genética de Hardy-Weinberg: MN2 = 4 · NN · MM 16 el biplot como herramienta gráfica del análisis exploratorio es la representación simultánea de las variables y observaciones expresadas en coordenadas clr mediante una aproximación de rango dos elementos principales de un biplot • el origen O • d vértices νi • n casos (observaciones) α` • d radios Oνi • vı́nculos νiνj 17 propiedades h i • |νiνj |2 ≈ Var ln xxji h i xi 2 • |Oνi| ≈ Var ln g(x) h i xj xi • cos(νiOνj ) ≈ Corr ln g(x) , ln g(x) • intersección (νiνj , νk ν`) = M ⇒ ¸ · xk xi cos(νiM νk ) ≈ Corr ln , ln xj x` • νiνj y h νk ν` ≈ en i ángulo recto ⇒ cos(νiM νk ) ≈ 0 ⇒ Corr ln xxji , ln xxk ≈ 0 ⇒ posible independencia ` • biplot de una subcomposición ⇐⇒ seleccionar vértices h i xi • |νiνj | ≈ 0 ⇒ Var ln xj ≈ 0 ⇒ xxji ≈ constante • vértices aprox. colineales ⇒ biplot uni-dimensional ⇒ variabilidad uni-dimensional 18 conclusiones • para el estudio de fenómenos aleatorios en general, y composicionales en particular, es esencial determinar el espacio soporte de las observaciones y optar por una métrica adecuada al problema antes de iniciar el estudio • si el soporte y la métrica corresponden a una estructura de espacio Euclı́deo, en general es más fácil trabajar en coordenadas respecto a una base ortonormal • la geometrı́a de Aitchison en el sı́mplex y las coordenadas clr e ilr permiten aplicar técnicas de análisis de datos e inferencia estadı́stica a conjuntos de datos composicionales sin problemas • el problema pendiente es hallar en cada caso las expresiones que mejor facilitan la interpretación de los resultados 19

Document

Documentos relacionados

Productos

Apoyo

Document

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib