Document

Anuncio
El análisis estadı́stico de datos
composicionales
Vera Pawlowsky-Glahn
Dept. d’Informàtica i Matemàtica Aplicada
Universitat de Girona
[email protected]
1
ejemplo 1: hipótesis genéticas
genotipos en el sistema MN de grupos sanguı́neos
individuo
Ab1
Ab2
Ab3
Ab4
Ab5
Ab6
Ch1
Ch2
Ch3
Ch4
In1
In2
In3
MN
0.13
0.14
0.21
0.37
0.39
0.38
0.49
0.49
0.50
0.51
0.41
0.49
0.49
MM
0.01
0.02
0.01
0.05
0.03
0.07
0.25
0.26
0.28
0.29
0.25
0.24
0.32
NN
0.86
0.84
0.78
0.58
0.58
0.55
0.26
0.25
0.22
0.20
0.26
0.27
0.19
individuo
In4
In5
InAm1
InAm2
InAm3
InAm4
InAm5
InAm6
Es1
Es2
Es3
Es4
Es5
MN
0.47
0.46
0.45
0.43
0.44
0.40
0.17
0.18
0.38
0.34
0.33
0.30
0.19
MM
0.41
0.43
0.46
0.48
0.45
0.57
0.81
0.79
0.58
0.60
0.65
0.65
0.80
NN
0.12
0.11
0.09
0.09
0.11
0.03
0.02
0.03
0.04
0.04
0.02
0.05
0.01
Ab = Aborigen; Ch = Chino; In= Indio;
InAm = Indio Americano; Es = Eskimo
a pesar de la gran variabilidad observable en éstos
datos, ¿responden a una estabilidad subyacente, a
una ley genética?
2
ejemplo 2: fraccionamiento de olivina magnésica
análisis quı́micos de rocas del lago de lava Kilauea Iki (Hawaii)
SiO2
TiO2
Al2 O3
Fe2 O3
FeO
MnO
MgO
CaO
Na2 O
K2 O
P2 O5
0.4834
0.4890
0.4570
0.4558
0.4936
0.4667
0.4818
0.4797
0.4699
0.4917
0.4845
0.4794
0.4847
0.4897
0.4874
0.4968
0.4926
0.0233
0.0247
0.0170
0.0154
0.0331
0.0200
0.0234
0.0232
0.0201
0.0273
0.0247
0.0224
0.0235
0.0248
0.0244
0.0303
0.0250
0.1149
0.1240
0.0835
0.0818
0.1212
0.0952
0.1144
0.1119
0.0991
0.1254
0.1181
0.1118
0.1164
0.1205
0.1160
0.1293
0.1233
0.0159
0.0215
0.0212
0.0160
0.0177
0.0217
0.0226
0.0246
0.0213
0.0183
0.0281
0.0241
0.0104
0.0139
0.0138
0.0160
0.0126
0.1004
0.0942
0.1004
0.1046
0.0991
0.0982
0.0947
0.0937
0.0973
0.1002
0.0892
0.0937
0.1037
0.1017
0.1018
0.0969
0.1014
0.0018
0.0017
0.0017
0.0017
0.0017
0.0018
0.0018
0.0018
0.0018
0.0018
0.0018
0.0018
0.0018
0.0018
0.0018
0.0017
0.0018
0.1359
0.1110
0.2311
0.2391
0.1048
0.1934
0.1367
0.1434
0.1832
0.1005
0.1253
0.1465
0.1324
0.1118
0.1235
0.0885
0.1052
0.0986
0.1065
0.0699
0.0680
0.0967
0.0820
0.0988
0.0965
0.0859
0.1055
0.1019
0.0959
0.1013
0.1083
0.1045
0.1098
0.1106
0.0190
0.0202
0.0133
0.0128
0.0225
0.0154
0.0189
0.0186
0.0158
0.0209
0.0193
0.0182
0.0189
0.0173
0.0167
0.0224
0.0202
0.0044
0.0047
0.0032
0.0031
0.0065
0.0038
0.0046
0.0045
0.0037
0.0056
0.0048
0.0041
0.0045
0.0080
0.0079
0.0055
0.0048
0.0023
0.0024
0.0016
0.0015
0.0030
0.0018
0.0022
0.0021
0.0019
0.0026
0.0023
0.0021
0.0023
0.0024
0.0023
0.0027
0.0023
Richter y Moore (1966): la variabilidad en la muestra se debe al fraccionamiento de olivina magnésica
a partir de una misma masa magmática
¿confirma el análisis estadı́stico de los datos esta
afirmación derivada de observaciones de campo y
de análisis petrográficos?
3
datos composicionales
x = [x1, . . . , xd] es una composición con d-partes

para todo i = 1, ..., d
 xi > 0,
d
P
⇐⇒
 xi = κ (constante)
i=1
ejemplos
κ=1
: probabilidades asociadas a variables
discretas; partes por unidad
κ = 100 : análisis quı́micos de rocas; porcentajes
en general
κ = 180 : ángulos de un triángulo en análisis de
formas
otras unidades frecuentes: ppm, ppb, ...
caracterı́stica esencial: valores relativos
4
espacio muestral: el sı́mplex
S d = {x = (x1, x2, . . . , xd)|xi > 0;
d
X
xi = κ}
i=1
S 2 ⊂ R2
segmento
S 3 ⊂ R3
diagrama ternario
S 4 ⊂ R4
tetraedro
5
¿porqué un enfoque estadı́stico particular para datos
composicionales?
en el espacio real sumamos vectores, los multiplicamos por constantes, estudiamos su ortogonalidad, medimos distancias, ...
posible porque Rd es espacio vectorial Euclı́deo
pero:
la geometrı́a Euclı́dea de Rd no es una geometrı́a
apropiada para fenómenos composicionales porque
(a) los resultados pueden no estar en el sı́mplex
p.ej. al sumar vectores composicionales, al
multiplicarlos por una constante, al calcular
regiones de confianza o regiones predictivas
(b) las diferencias Euclı́deas no siempre son medidas razonables
p.ej. entre el 5% y el 10% hay un incremento
relativo del 100%, entre el 50% y el 55% hay
un incremento relativo del 10%, pero la distancia Euclı́dea es la misma
6
una geometrı́a especı́fica para el sı́mplex
operaciones básicas
clausura de z = [z1, ..., zd] ∈ Rd+
"
κ · z1
κ · zd
C [z] = Pd
, · · · , Pd
i=1 zi
i=1 zi
#
perturbación de x ∈ S d por y ∈ S d:
x ⊕ y = C [x1y1, ..., xdyd]
potenciación de x ∈ S d por α ∈ R
α ¯ x = C [xα1 , ..., xαd]
(S d, ⊕, ¯) es un espacio vectorial real
7
la perturbación: ¿limitación y/o potencialidad en
el estudio de fenómenos composicionales?
ejemplo: plantel con agua, tierra, y simiente
composición en kilos: [180, 120, 60]
en proporciones: x0 = [a0, t0, s0] = [3/6, 2/6, 1/6]
y transcurrida una noche: x1 = [a1, t1, s1] = [6/9, 2/9, 1/9]
perturbación correspondiente al cambio:
·
¸ ·
¸
6/9 2/9 1/9
1 1 1
x1 ª x0 = C
,
,
= , ,
3/6 2/6 1/6
2 4 4
¿qué pasó?
(a) llovió, resultando [360, 120, 60] kilos de agua, tierra
y simiente
(b) hizo viento, se llevó tierra y simiente, resultando
[180, 60, 30] kilos de agua, tierra y simiente
(c) llovió e hizo viento, resultando [270, 90, 45] kilos
de agua, tierra y simiente
el resultado da siempre la misma composición
⇒ sin información externa es imposible decidir qué
escenario es correcto (limitación), pero podemos
usarlos como hipótesis de trabajo (potencialidad)
8
producto escalar, norma y distancia
d
d
1 X X xi yi
hx, yia =
ln ln
2d i=1 j=1 xj yj
v
u
¶2
d µ
d X
u1 X
xi
ln
kxka = t
2d i=1 j=1
xj
v
u
¶2
d µ
d X
u1 X
xi
yi
t
ln − ln
da(x, y) =
2d i=1 j=1
xj
yj
¡
Scd, ⊕, ¯, h., .ia
¢
es un espacio Euclı́deo
geometrı́a de Aitchison sobre el sı́mplex
9
espacio real Rd
sı́mplex S d
suma: x + y
producto: α · x
distancia Euclı́dea:
perturbación: x ⊕ y
potenciación: α ¯ x
distancia de Aitchison:
de (x, y)
da (x, y)
vector de medias:
n
1X
x`
x̄ =
n
centro métrico:
Ln
1
x̄ = n ¯ ( `=1 x`)
= C [g1, g2, ..., gd]
à n
!1/n
Y
gi =
xi`
`=1
`=1
distancia y traslación:
dist. y perturbación:
de(x + z, y + z) = de(x, y)
da(x ⊕ z, y ⊕ z) = da(x, y)
distancia y escalado:
dist. y potenciación:
de(α · x, α · y) = |α|de(x, y) da(α ¯ x, α ¯ y) = |α|da(x, y)
10
operación centrado: representar x ª x̄
observaciones:
(a) la muestra centrada gravitará entorno al baricentro
(b) es muy útil para visualizar estructuras en los
datos en un diagrama ternario
(c) la perturbación transforma lı́neas rectas en lı́neas
rectas ⇒ es posible incluir en la representación
gráfica tanto tramas de referencia como campos
composicionales sin riesgo de distorsión no lineal
11
representación habitual de datos composicionales:
coordenadas en la base canónica de Rd:
x = x1 [1, 0, . . . , 0] + · · · + xd [0, . . . , 0, 1]
Pd
=
i=1 xi · ei
ventaja: fácil de interpretar
problemas:
(a) no toda combinación de coeficientes lleva a un
elemento de S d (valores negativos y nulos no
están permitidos)
(b) los vectores {e1, e2, . . . , ed} no pertenecen a S d ⇒
no es ni un sistema de generadores, ni una base
(c) trabajar con la perturbación y la potenciación
no es fácil
pero:
S d espacio vectorial Euclı́deo ⇒
permite la representación en coordenadas
12
coordenadas alr (additive logratio)
µ
¶
x1
x2
xd−1
alr(x) = ln , ln , ..., ln
xd
xd
xd
problema: la base no es ortogonal ⇒
da(x, y) 6= de(alr(x), alr(y))
coordenadas clr (centered logratio)
µ
¶
x1
x2
xd
clr(x) = ln
, ln
, ..., ln
g(x) g(x)
g(x)
³Q
´1/d
d
= media geométrica de x
con g(x) =
i=1 xi
ventaja: da(x, y) = de(clr(x), clr(y))
problema: son coordenadas en un sistema generador de Rd y los puntos se sitúan sobre un
hiperplano por el orı́gen ortogonal al vector
[1, 1, . . . , 1] ⇒ matriz de covarianzas singular
13
coordenadas ilr (isometric logratio)
Ã
Qd−1 !
1
x1 1
x1x2
1
xi
ln i=1
ilr(x) = √ ln , √ ln
, ..., p
xd−1
2 x2 6 x3x3
d(d − 1)
d
ventaja: coordenadas en una base ortonormal
⇒ da(x, y) = de(ilr(x), ilr(y))
⇒ la matriz de covarianzas no es singular
⇒ podemos aplicar estadı́stica multivariante habitual a las coordenadas
desventaja: resultados difı́ciles de interpretar
solución: calcular en coordenadas en una base
ortonormal y expresar los resultados en la base
canónica de Rd sin abandonar el simplex
14
trabajar en coordenadas permite aplicar cualquier
técnica multivariante
• permite definir distribuciones en el sı́mplex, p.ej.
x sigue una normal en S d ⇐⇒ las coordenadas
ilr(x) siguen una normal multivariante en Rd−1
• los parámetros se estiman a partir de la expresión de las observaciones en coordenadas, p.ej.
por máxima verosimilitud
• pueden construirse regiones predictivas para las
observaciones y regiones de confianza para el
centro métrico
• pueden utilizarse técnicas habituales, como análisis
de componentes principales, cluster, discriminante, factorial, ...)
• problema: interpretación en partes
15
2
=
0, 5548
⇐⇒
MN
ln NN·MM
2
=
1, 3590
⇐⇒
MN2
NN·MM
=
3, 8922
⇐⇒
MN2
=
3, 8922 · NN · MM
√1
6
MN
ln NN·MM
ley de la genética de Hardy-Weinberg:
MN2 = 4 · NN · MM
16
el biplot como herramienta gráfica
del análisis exploratorio
es la representación simultánea de las variables
y observaciones expresadas en coordenadas clr
mediante una aproximación de rango dos
elementos principales de un biplot
• el origen O
• d vértices νi
• n casos (observaciones) α`
• d radios Oνi
• vı́nculos νiνj
17
propiedades
h
i
• |νiνj |2 ≈ Var ln xxji
h
i
xi
2
• |Oνi| ≈ Var ln g(x)
h
i
xj
xi
• cos(νiOνj ) ≈ Corr ln g(x) , ln g(x)
• intersección (νiνj , νk ν`) = M ⇒
¸
·
xk
xi
cos(νiM νk ) ≈ Corr ln , ln
xj
x`
• νiνj y
h νk ν` ≈ en
i ángulo recto ⇒ cos(νiM νk ) ≈ 0 ⇒
Corr ln xxji , ln xxk ≈ 0 ⇒ posible independencia
`
• biplot de una subcomposición ⇐⇒ seleccionar
vértices
h
i
xi
• |νiνj | ≈ 0 ⇒ Var ln xj ≈ 0 ⇒ xxji ≈ constante
• vértices aprox. colineales
⇒ biplot uni-dimensional
⇒ variabilidad uni-dimensional
18
conclusiones
• para el estudio de fenómenos aleatorios en general, y composicionales en particular, es esencial determinar el espacio soporte de las observaciones y optar por una métrica adecuada al
problema antes de iniciar el estudio
• si el soporte y la métrica corresponden a una
estructura de espacio Euclı́deo, en general es
más fácil trabajar en coordenadas respecto a
una base ortonormal
• la geometrı́a de Aitchison en el sı́mplex y las coordenadas clr e ilr permiten aplicar técnicas de
análisis de datos e inferencia estadı́stica a conjuntos de datos composicionales sin problemas
• el problema pendiente es hallar en cada caso las
expresiones que mejor facilitan la interpretación
de los resultados
19
Descargar