Distancias Estadísticas - Instituto Nacional de Estadistica.

Anuncio
ESTADISTICA ESPAÑOLA
Vol. 30, Núm. 1 19, 1989, p^gs. 295 a 378
Distancias Estadísticas
por
CARLES M. CUADRAS ^
Departament d'Estadística
Universitat de Barcelona
RESUMEN
Este artículo trata de la aplicación de las funciones de distancia a la estadística y a1 análisis de datos. Se exponen y discuten
expresiones sobre distancias y coeficientes de similaridad entre
individuos y poblaciones. Se íncluyen también algunas aplicaciones a la biología, genética, psicología, arqueología, lingi.iística,
anélisis de la varianza, regresión y asociación estoc^istica.
Palab^as clave: Distancia de Mahalanobis, distancia de Rao, distancia ultramétrica, coeficientes de similaridad, medidas de
divergencia.
AMS 1984: 62H25; 62H30; 62P99.
1.
INTRODUCCION
Las medidas de distancia entre poblaciones y dentro de poblaciones, han
sido ampliamente utilizadas en numerosos campas científicos: antropología,
agricultura, biología, genética, economía, lingiiística, psicología, sociología,
etc.
^
La noción de distancia estadística junto con sus propiedades constituyen
una importante herramienta, tanto en la estadística matem^tica como en el
análisis de datos. En el primer caso porque mediante una distancia se
?9fi
C^STAC^ISTIC'A ESF'A!^Ol_.A
pueden construir contrastes de hipótesis, estudiar propiedades asintóticas
de estimadores, comparar par^imetros, etc. En el segundo caso, porque fa
distancia es un concepto muy intuitivo, que permite obtener representaciones geométricas, fáciles de entender, ofreciendo al investigador una
importante ayuda para interpretar la estructura de !os datos.
En líneas generales consideramos dos clases de distancias estadísticas
entre individuos y poblaciones:
a1 Los n individuos de una población S2 quedan descritos por una nnatriz
de datos X(n x p), donde p es el número de variables estadísticas (cuantitativas, cualitativas, binarias o categóricasl. EI número n suele ser el tamaño
de una muestra de la población (ejemplo: n= 75 estudiantes universitarios},
pero puede darse el caso de que Sl sea una población finita de n elementos
(ejemplo: las n= 50 provincias españolas). Una distancia ^5;^ = ó(i,j) entre
dos individuos o elementos i,j de S2 es una medida simétrica no negativa
que cuantifica la diferencia entre ambos en relación con las variables. ^ se
puede sumarizar a través de ia matriz de distancias
^f1
^12 • . . ó1n
^2 r
^22 . . . Ú2 n
...............
^n ^
siendo ^5;; = o, cS;,
^n2 ' ' ' ann
V J; .
TABLA 1
Matriz de distancias genéticas entre 6 poblaciones de Drosophila subobscura: Heriot (H), Dalkeith (D), Groningen (G), Viena (V}, Zurich (Z},
Drobak ( Dr)
H
D
C;
^/
Z
Dr
H
D
G
V
Z
Dr
O
0.083
O
0.290
©.276
O
0.399
0.370
0.187
0
0.331
0,3
0.112
0.128
O
0.307
0.307
0.152
0.260
0.235
^
b) Los individuos de cada pablación están caracterizados por un vector
aleatorio X=(X,, ..., XP}, que sigue una distribución de probabilidad f(x^, ...,
xP; f^}. La distancia entre dos individuos i,j, caracterizados por los puntos x;,
DISTANCIAS ESTADISTICAS
297
xj de Rp, es una medida simétrica no negativa ^S Cx,,x^) que dependerá de Q.
Análogamente la distancia entre dos poblaciones será una medida de divergencia ^S (8,,Q2) entre los parámetros que las caracterizan. También puede
ser conveniente introducir una distancia c^ (x;,Q) entre un individuo i y las
parámetros 8.
Se pueden definir también distancias no paramétricas que miden la
divergencia funcional entre funciones de densidad. En .algunos casos están
relacionadas con medidas de entropia.
Tanto en el caso a) como en el b^, en muchas aplicaciones interesa
representar el conjunto S1 con la distancia ^, es decir, (S2, ^), mediante un
espacio geométrico modelo (V,d), donde V es un conjunto geométrico
(espacio euclídeo, variedad de Riemann, grafo, curva, etc.) y d es una
distancia sobre V. Según la técnica de representación utilizada ( análisis de
componentes principales, análisis de coordenadas principales, análisis de
proximidades, análisis de correspondencias, anélisis de cluster, etc.), la
distancia d puede ser euclídea, ultramétrica, aditiva, no euclídea, riemaniana, etc.
La tabla 1 contiene un ejemplo de distancia genética entre un conjunto S^
de poblaciones europeas de D. subobscura. Aunque la distancia d no es
ultramétrica ni aditiva, puede representarse aproximadamente mediante un
espacio ultramétrico (figura 3) o un espacio aditivo (figura 8).
1.1. Propiedades generales
Una distancia ^S sobre un conjunto Sl es una aplicación de S^ x S1 en R, tal
que a cada par (i,/1 hace corresponder un número real ^(i,/1 = S;j, cumpliendo algunas de las siguientes propiedades:
P. 1
^S; j > 0
P. 2
^5;; = 0
P. 3
cSi; _ ^;i
P'
^ij ^ ^ik + ajk
^
P. 5
^;j - 0 si y sólo si
i= j
P. 6
^;j < max { a;k, ^;k }
(desigualdad ultramétrica)
P. 7
^;j + ^k, < max { ^;k + ^^, , ó;, + ^^k }
P. 8
^S;j
es euclídea
P. 9
^S;j
es riemanniana
P.10
^;j
es una divergencia
(desigualdad aditiva)
298
ESTADISTICA E:SPA!'^iC7LA
Observaciones:
1) Una distancia debe cumplir por lo menos P.1, P.2, P.3. Cuando sólo
cumple tales propiedades recibe el nombre de disimi/a^idad.
2) P.8 significa que existen dos puntos x; -{x;,, ..., x;,^)', x^ -{x;,, ..., x;m1'
de R^ tales que
{2)
es decir, ^;^ es la distancia euclídea entre los puntos x;, x^. Entonces {S^ , d)
puede representarse mediante el espacio euclídeo {Rm, dy.
3) P.9 significa que {S^ , ^S) puede ser representado mediante una variedad de R iemann { M, dM).
4) P. 6--^ P.8 ---^ P.4.
5) P. 6-^ P. 7---^ P.4.
6y Supongamos que hernos definido una medida de probabilidad ,u s©bre
S2. Entonces P.1 D significa que ^ es una expresión funcional sobre ^c.
Algunas distancias poseen un calificativo propio según las propiedades
que cumplen ( cuadro 1). Todas estas propiedades las hemos referido a
{S^ , a). En algunos casos, como la distancia de Mahalanobis, ^ verifica
directamente las propiedades P.1 a P.4 y P.8 a P.10. Sin embargo, en
general ^S cumple solo aproximadamente algunas de las propiedades expuestas. Se trata entonces de representar {S2 , ó) a través de un modelo
{V,dj, aproximando cS a d, donde ^ cumple con las suficientes propiedades
requeridas. Por ejemplo, si podemos aproximar á a d, siendo d una distancia
ultramétrica, entonces {V,r^ es un espacio ultramétrico y{S2 ,^S) puede ser
representado a través de un dendograma.
CUADRO 1
Calificación de una distancia según sus propiedades.
Disimilaridad: P.1, P.2, P.3
Distancia métrica: P.1, P.2, P.3, P.4, P.5
Distancia ultramétrica: P.1, P.2, P.3, P.6
Distancia euclídea: P.1, P.2, P.3, P.4, P.8
Distancia aditiva: P.1, P.2, P.3, P.7
Divergencia: P.1, P.2, P.1 O
DISTANCIAS ESTA,DISTIC'AS
2.
299
DlSTANCIAS S06RE MATRICES DE DATOS
2.1. Similaridades
Una similaridad s sobre un conjunto S2 con n individuos, es una aplicacidn de Sl x S2 en R verificando las siguientes propiedades:
1}
0 < s;j < 1
2}
s;; = 1
3}
La cantidad s;^ = s(i,^^ es una medida del grado de semejanza entre dos
elementos i,j, en el sentido de que si ambos son muy parecidos entonces s;j
se aproxima 1. EI concepto de similaridad es especialmente utilizado cuando sobre S^ se han introducido p características cualitativas, que se asocian
a otras tantas variables binarias, que toman el valor 0 si la característica
está ausente y el valor 1 si está presente. La matriz de incidencia individuos x características es una matriz X^(x;k), cuyos elementos son ceros y
unos. La similaridad entre dos individuos i,j queda bien descrita a través de
a, b, c, d, siendo
n
a = ^ x. ikx^^k
k= i
b = ^ (1 - xik} xjk
k=1
C - ^ X;k ( 1 - Xjk}
k=1
d = ^ (1 - x;k} (1 - x^k) ^
^ >'
es decir, a es el número de caracteres presentes comunes, b es el número
de caracteres ausentes en i pero presentes en j, etc. Una similaridad s;^ es
entonces una función de a, b, c.
s;; = f( a, b, c)
tal que es creciente en a, decreciente y simétrica en b y c, vale s;^= 0 si
b+c=p, y s;^= 1 si a+d=p.
NumerOSOS autores (Jaccard, 1900; Kulcynski, 19^8; Russell y Rao,
1940; Sorensen, 1948; Sokal y Michener, 1958) han propuesto coeficientes de similaridad verificando tales propiedades:
s;; _
a
a+b+c
(Jaccard)
^QQ
ESTADISTICA ESPA110LA
a
(Russell y Rao}
D
s;;
a+d
(Sokat y Michener}
p
Sin embargo, otros coef^cientes como
a
s;^ '
(KulcZynski}
b+c
cuyo rango es ^O, ^), no las cumplen.
La asociación entre los n elementos de s2 se expresa a través de una
matriz de simiiaridades
S ^
S1 f
S12 ' ' ' Sfn
S21
S?2 ` ` • S2n
...............
(3)
sn2 ... Snn
sn f
A menudo S se puede expresar operando en forma etementai la matriz X.
Por ejemplo, para los coeficientes de Russell-Rao y Sokal-Nlichener, se
tiene, respectiva mente:
S,=(XX')/p
S2 = ^xx' + (J - x) (J - X}'^ / p
En otros casos ( Gower, 1971), la expresión es rnás comp{eja. Por ejemplo,
para el coeficiente de Jaccard, se tiene:
XX'
XX'
^J 3 - ____.__ ♦ ^
P
P
•
[ ^ t.1 - ^^C } (.J - X }' „ (J - X } (.J - X)' i Pk ]
k^ 1
indicando A^, B la matriz cuyos e{ementos son a;^ x b;^ (producto matricial
de Hadamard).
Para pasar de una disimilaridad a.una distancia basta utilizar la fórmula
1 - s;^
(4}
Sin embargo, es más aconsejable utilizar
(5i
3U1
D[STANC'IAS EST.ADISTIC'.AS
En efecto, (5} da lugar a una distancia rnétrica, incluso euclídea, para la
mayor parte de similaridades utilizadas en las aplicaciones (véase el cuadro
2). En general, dada una similaridad cualquiera (no necesariamente comprendida entre O y 1), podemos definir la distancia (Gower, 1966}
^5;; =
_______
s;; + s^^ - 2 s;^
(6)
Si S es una matriz (semi) definida positiva, entonces ^;; es euclídea (ver
sección 4.1 }, y por lo tanto podremos representar (^, ^S) a través del espacio euclídeo (R^, d). En cambio, como se desprende del cuadro 2, pocas
veces la distancia (4) es métrica y en ninguno de los casos presentados es
euclídea.
Sobre los criterios que deben seguirse para elegir el coeficiente de similaridad (que dependerá del tipo de datos y el peso que se desea dar a las
frecuencias a, b, c, d) véase Legendre y Legendre (1979), Gower y Legendre (1986).
CUADRO 2
Propiedades de algunos coeficientes de similaridad para variables binarias.
SIMILARIDAD
AUTOR
RANGO
$ ^ ^
K ulczyns k y
O, ^
Sí
a
a+b+c+d
R usse ll y R ao
0,1
a
a+b+c
Jaccar d
a+d
a+b+c+d
METRICA
EUCLIDEA
Sí
Sí (Sí)
Sí
0,1
Sí
Sí (Sí)
Sí
S o k a l y Michener
0,1
Sí
S í 1 S i^
Sí
a
a+2 (b+c)
A n derberg
0,1
Sí
S í( S í)
Sí
a+d
a+2 (b+c)+d
R ogers y Tanimoto
0,1
Sí
S í( S ii
Sí
S orens en
0 ,1
Sí
S í( N o 1
Sí
a
b+c
a
a+2 (b+c)+d
^ (Siguel
(1 ^
S^ 0 significa que la matriz de similaridades es (semi) definida positiva.
(2) La propiedad métrica se refiere a la distancia d;i= ^s;;+s^^-2S;1 y a la distancia
d;^ = 1 -s;^ ( entre paréntesis).
(3)
Ninguna de las distancias d;; es euclídea.
^sr,At^isr^cA t-^sr^,^^vc^^.^
30?
CUADRO 2
/Final)
Propiedades de algunos coeficientes de similaridad para variables binarias.
AUTOR
SIMILARIDAD
a+d
RANt30
S^ ^ METRICA
EUCLfDEA
Sneath y Soka/
0,1
No
S í( N o)
No
Harman
-1,1
Sí
Sí (Si1
Sí
a )
^( a+b
a + a+c
Ku/cryns kr
0,1
Na
N o( N o)
No
, ( a + a + °r + °^ )
` a+b
a+c
c+d 6+d
Anderberg
0,1
No
No (No)
No
a
--.
r
^ (a+b) (a+c)
Ochiai
0,1
Sí
Sí (No)
Sí
0,1
Sí
Sí (No)
Sí
Pearson
-1,1
Sí
Sí (No)
Sí
Yu/e
-1,1
No
No (No)
No
a+^ (b+c)+d
a- (b+c^ +d
a+b+c+d
ad
^ (a+b) ( a+c) (b+d) (c+d)
ad-bc
ti (a+b) (a+c) (b+d) (c+d)
ad-bc
ad+bc
(1 )
S^ O significa que la matriz de similaridades es (semi^ definida positiva.
(2) La propiedad métrica se refiere a la distancia d;l=
d;i = 1 - s;r lentre paréntesis).
(3)
Ninguna de las distancias
s;;+s^^-2s;^ y a fa distancia
d;^ es eucl(dea.
2.2. Distancias sobre datos cuantitativos
Supongamos que los valores observados para p variables aleatorias sobre n individuos, son cuantitativos, formando una matriz de datos
X11
X12 ' ' ' X1P
X21
X22 . . . X2P
(7)
Xn l
Xn2 ' ' ' XnP
303
DISTANC{AS ESTr1DISTIC'AS
Entonces cada individuo i puede representarse como un punto x; E RP. La
distancia más familiar entre dos individuos í,j es la distancia euclídea (2),
es decir,
__.___
p
d2 (i, jy _
^ (X^k _ X^k)2
($}
k=1
Tal distancia es un caso particular de las distancias de Minkowski
dQ ^^.^ ! = ( ^ ^ %'^ik + xjk
k=1
^ <Q^ ^
(9)
que verifican P.1, P.2, P.3 y P.4. No son distancias euclideas, salvo el caso
q= 2. Para q= 1 se tiene
d, (i,jl - ^ ^ X;k
k=1
que se denomina distancia "ciudad". Una expresión límite de 19) es
d^ (i,j) = max { ^ X;k - x^k ( }
Ilamada distancia "dominante"'. Véase la figura 1.
Volviendo de nuevo a la distancia euclídea (8), vemos que tiene algunos
inconvenientes: a) no está acotada; b) no es invariante por cambios de
escala; c) considera la p variables estocásticamente independientes.
Se han propuesto diferentes modificaciones sobre d2(i,j) a fin de evitar
tales inconvenientes. Una prirnera modificación consiste, simplemente, en
dividir por el número de variables, es decir, introducir la distancia (al cuadrado)
c^2 (í,/^ = p^ d2(i,/1
Orloci (1 967) ha propuesto otras transformaciones, que permiten acotar la
distancia, y que en general están basadas en métricas geodésicas sobre la
hiperesfera de radio 1(ver sección 5.4^
E^ST'•1DISTK':^ E^.SP.^tiC)L:A
a
b
C
X1
Fig.1. Distancias de Minkowski en dimensión p=2, Distancia euclídea d2=c. Distancia '"ciudad"': d^ = a+ ó. Distancia " dominante": d^, = a.
La invarianza por cambios de escala se resuelve dividiendo cada término
{x;k - x^uk) por la desviación típica de !a variable k, lo que nos Ileva a la
distancia de K. Pearson {sección 3.1 }. EI inconveniente c) puede resolverse
introduciendo 1a distancia de Mahalanobis {sección 3.2) que tiene en cuenta las correlaciones entre !as variables, y por tanto la redundancia existente
entre las mismas.
Otras variantes de {9) son la métrica de Canberra
P
E
K=1
`x^k-x^k ^
I x^k ^+ I x^k ^
que ha sido utilizada por Lance y Williams {1967), y el coeficiente de
divergencia {Clark, 1952).
{
P k^ ^
xik
xjk \2
xik + xjk
Las propiedades métricas y euclídeas de estas y otras distancias para
matrices de datos positivos, se consideran en el cuadro 3. Sobre los criterios que deben seguirse para la elección de la distancia, véase Legendre y
Legendre (1 979), Gower y Legendre (1 986), y Legendre, Dallot y Legendre
{ 1985). En este último trabajo, las distancias son clasificadas en tres tipos,
según el peso que se quiera dar a las diferencias entre variables con
diferentes rangos de variación {suponiendo variables dimensionalmente homogéneas y no negativas).
3p5
f)IST.Ati('IA5 ESTAU{STI('AS
CUADR03
Distancias y disimilaridades para datos cuantitativos (no negativos)
n
^
( E (x
ikX
- /k
METRICA
EUCLi[^EA
Euclides
S1
SI
Minkowski
SI
NO
K. Pearson
SI
SI
Canberra
SI
NO
Clark
SI
SI
AUTOR
DISTANCIA
2 ^ 1/2
k=1
n
q 1/q
^ ^ {xik - Xjkl ^
k=1
X^k _ x^k ^ 2 ^ 1 /2
Sk
n
^ X^k - Xjk (
E
k ^( xík ^+ I Xjk
^Xik ' X^k)2
1 /2
^X;k
3.
DISTANCIA DE MAHALAN4BIS
3.1. Distancia euclídea normalizada
Dada una matriz de datos X en los términos de la sección 2.2, la
distancia euclídea normalizada K(i,j) es la raíz cuadrada de
..
p
K 2 (i,^ ) = ^
(X;k - xjk)2
k^ r
donde ak es la varianza de la variable k. La distancia K(%j^ es invariante por
cambios de escala y es una distancia entre individuos relacionada con el
coeficiente de semejanza racial introducido por K. Pearson ( 1 926), que ha
sido utilizado en antropología para diferenciar cráneos. Dadas dos poblaciones representadas por (,u,, ^) y(^CZ, ^), donde ^C^c,, ^c2 son los vectores de
medias y^ es la rnatriz de covarianzas ( común) en reCación a p variables
aleatorias, el coeficiente de semejanza racial, también Ilarnada distancia de
K. Pearson, es proporcional a
_ (^^ ' ^2)^ [diag (^y ]^' (^.tl - ,u2)
11 ^ )
EST4[)ISTK'4 ESPAtiOL.4
K es también invariante por cambios de escala y puede considerarse un
precedente de la distancia de Mahalanobis (14). Ambas distancias han sido
comparadas por diversos autores. Véase Mardia (1977).
3.2. Definición y propiedades de la distancia de Mahalanobis
Supongamos que una poblacián S2 está caracterizada por p variables
aleatorias, siendo ^c =(µ,, ..., icp}' el vector de medias y^ la matriz de
covarianzas no singular. La distancia de Mahalanobis M(i,j) entre dos individuos i,j, representados por Ios vectores x;, x^, se define como
M 2 (i, j }
(x;-x;}'^-'(x;-x;)
(12}
Análagamente, !a distancia entre un individuo i y la población S2 es
M ^ ( i, S^ } _ (x; - ,u )' ^-' (x; - ,u )
(13 }
La distancia entre dos poblaciones 52,, S^2 es
M2 (^'^ ^2^ _ (^' ' l^2)^ ^-r (^f
" lu2)
(1 4)
Desde luego, estrictamente la distancia es M(i,j), M(i, S2} y M(5^,, 522)
aunque es preferible manejarla elevada al cuadrado. La distancia (14) fue
introducida por Mahalanobis ( 1936), alegando criterios heurísticos. Sin
embargo, aparece de forma natural por diferentes caminos, como comentamos seguidamente.
a) Sea E = c X,, ..., XP > e! espacio vectorial generado por p variables
aleatorias. Sea ^!a matriz de covarianzas no singular. Considerando E*,
espacio dual de E, a cada individuo i de S^ le podemos hacer corresponder
la forma lineal i* de E* tal que i*(^C) = X (i}, donde ^C E E. Luego, a través de
las variables X,, ..., Xp podemos proyectar S2 en E*. Entonces, como la
métrica natural en E* viene dada por la matriz inversa E-' la distancia en E*,
es decir, la distancia entre individuos, es M(i,j}.
b)
La función de densidad normal multivariante Np (µ,^} es
f(x) _ ^ 2 n ^ ^"^
exp {-2 (x _ ^)^ ^-^ (x_ ^} }
es decir, es una funcián exponencial de la distancia de Mahalanobis entre x
y^c. Obsérvese que la distribución de esta distancia es ji-cuadrado.
e) Consideremos g poblaciones 5^,, ..., 5^9, g > 2. Supongamos asociada
a cada población S2; una distribución NP {,u;, ^) y que sabre un individuo
DISTA^IC'I,AS E^STADIS-TfCAS
^a^
^.v tenemos la inforrnación multivariante x. En análisis discriminante es
conocida la regla de la máxima verosirnilitud para asignar cv a 5^^, donde
j E { 1,...,g ^. Es fácil demostrar que esta regla es equivalente a asignar cv a
fa población S^^ tal que la distancia de Mahalanobis M(cv , S2^) es mínima
IMardia et al, 1979}.
d1 Consideremos el modelo estadístico Np(^c , E) de !as distribuciones
normales, con ^ fijo, iC ^ Rp. Dotando al espacio paramétrico Rp de estructura de variedad riemanniana entonces fa distancia de Mahalanobis
M(^c,, ,u2} es una distancia geodésica entre dos puntos de la variedad (sección 5.4}.
Por otra parte, la distancia de Mahalanobis goza de interesantes propiedades, que vamos a comentar para fa versián (12).
1^
M (i, j )> 0 y M(i, j)= 0 si y sólo si x; = x^ .
2}
M (i,j} = M ^j,i) .
3)
M (i,j) < M (i,k) + M ^j,k) .
4) M(í,j} es invariante por transformaciones lineales no singulares de
{as variables. En particular, es invariante por cambios de escala.
5) lntroduciendo el cambio de variable y =^-^ x, es fácil ver que la
distancia de Mahalanobis es euclídea.
6} Es una distancia normalizada, que puede expresarse en unidades de
desviación típica. Además, tiene en cuenta las carrelaciones entre las variables, es decir, la redundancia entre las variables.
7} Indiquemos por Mp la distancia basada en p variables y por M^ la
distancia basada en p+q variabfes, conteniendo estas p+q a las p primeras.
Entonces
MP ^ MP♦a
8j Sean Mp, MQ las distancias tomando las variables X=(X,, ..., Xp)
Y=(Y,, ..., YQ). Supongamos que las variables X están incorrefacionadas
con las variables Y. Entonces
2
MP+Q
= Mp2 + MQ2
Las propiedades 7j y 8) se ilustran en la figura 2, en la que puede
apreciarse que la distancia de Mahalanobis es mayor para dos variables
que para una sola, disminuyendo a medida que aumenta la correfación
entre las variables.
ESTADlSTiC^A ESPA*^l(^LA
`
^^
^
Fig. 2.
^
.^^
^^
^
i
.^^
^
i
^^
^
Distancia de Mahalanobis en el caso de variables incorrelacionadas y de variables
correlacionadas. Obsérvese que M> M' > a.
Es de esperar, por otra parte, que en las aplicaciones la distancia sea
estable
Lim M p = a < ^
p -^ °b
es decir, si el número de variables p es grande, la distancia de Mahalanobis
no aumentará o al menos tenderá a un valor finito a, debido a que las
variables añadidas serán redundantes respecto a las p anteriores.
3.3, Distancias singulares
Supongamos ran E= r c p y que ^, -,u2 es combinación lineal de las
columnas de E. Se define la distancia de Mahalanobis singular entre las
poblaciones de vectores de medias ^c,, µ2 y matriz de covarianzas ^ como
M2 = (^, - 1^2^^ ^ (l^ ^ - ^2^
donde ^ - es una g-inversa de ^. La distancia singular tiene aplicaciones a
la genética (sección 7.^2), al análisis factorial y a la comparación de curvas
de crecimiento. Véase Rao { 19541 y Mardia { 1977^.
DISTAN('IAS ES7ADISTIC^AS
4.
^oy
DISTANCIAS EUCLIDEAS, ULTRAMETRICAS Y ADITIVAS
4.1. Caracterización de una distancia como distancia euclídea
Las distancias de K. Pearson, Mahalanobis y Minkowski para q=2, son
euclídeas por propia definición. Sin embargo, en otros casos, la decisión
sobre si la distancia S definida en un conjunto S2 es euclídea o no, no puede
tomarse tan directamente. Es entonces cuando adquiere importancia fundamental el teorema 1, puesto que nos permite representar (,51, ^) a través
de un espacio euclídeo (Rm, d).
Sea S2 un conjunto formado por n elementos y sea ^;^= cS (i,j) una distancia sobre S2. Diremos que la matriz de distancias 1^ _{^;^Í es euclídea
m-dimensional si existen n puntos x,,x2,...,x„ se un espacio euclídeo Rm tales
que
^S? _ (x; - x;)' (x; - x;)
(15)
En otras palabras, d es euclídea si existe una matriz de datos X cuyas filas
SOnX;,X2, ...,X^
xr1
xr2
.
.
xl m
x21
x22 • ' •
^ x2 m
X=
..................
xnr
xn2
(16)
xn m
Verificándose
m
2 _ ^ /x^k _ X,k) 2
k=1 t
Consideremos ahora la matriz identidad In, la matriz Jn de orden n x n
cuyos elementos son todos iguales a 1, la matriz
H=1-^J
n
n n
y la m atriz A = (a. ^^^), siendo a ^^_^ _ - 1^2^
2 , ^ , pa ra i,I'= 1,2,...,n. Sea ta m bién
B=HAH
(17y
Obsérvese que !os elementos de la matriz B=(b;^) verifican
- a^ + a
E:STAF)15T1('4 E.SPAtiC^LA
siendo a, , a` las medias de la fila i y de la columna j respectivamente, y a la
media de los n2 elementos de A.
Teorema 1
La matriz de distancias !^ es euclídea m-dimensional si y sólo si B es
semidefinida positiva de rango m.
Demostración: Véase Seber { 1984),
Si B es semidefinida positiva y de rango m, entonces existe una matriz
X(n x m) ta I qu e
B=XX'
(18}
Cua^quier matriz X cumpliendo ( 1 $), puede tomarse como matriz de datos,
es decir, tal que sus filas contengan las coordenadas de los puntos de Rm
cuyas intradistancias reproduzcan d .
Este importante resultado fue primeramente obtenido por Schoenberg
(1935), fecha en verdad tardia tratándose de una propiedad fundamental
de la geometría euclídea. Cuanda X proviene de la descomposición espectral de B, se obtiene la solución del anáiisis de proximidades {"metric
multidimensional scaling"), utilizada por Torgerson (1958) en psicología, y
replanteada con mayor claridad por Gower { 1966), con el nombre de
análisis de coordenadas principales. Desde entonces ha sido ampliamente
utilizada también en ecología, botánica, etc. Gower ( 1982) propone y discute ciertas generalizaciones del Teorema 1.
Sea ahora S una matriz de similaridad t semi) definida positiva. Luego
S= X)G' para alguna matriz X(n x mi y por tanto s;^ = x,.' x^, donde x; ,..., x^
representan las filas de X. Entonces, tomando la distancia c^;^ definida por S,
como
(19j
resulta que r^;^ es una distancia euclídea. En consecuencia, para conseguir
una representación euclídea de S^ de modo que la proximidad entre puntos
sea el equivalente geométrico de la similaridad entre individuos, es preferible utilizar (5) ó(6) en vez de (4).
Supongamos ahora que la matriz de distancias t^^ no es euclídea. Entonces B tiene valores propios negativos, no existe ninguna matriz X verificando { 1$) y por lo tanto S2 no puede representarse en un espacio euclídeo.
Este problema se presenta con frecuencia en psicología. Para solventarlo,
se debe aproximar f a una distancia euciídea d, a fin de que {S^ , rSi admita
DISTANCIAS ESTAC^IST 1CAS
3l 1
una representación euclídea aproximada. Después de los trabajos de
Shepard (1962 a,b) y Kruskal (1964 a,b), quedó establecido que h debía
transformarse en d= f(ó), donde f es una función monótona no decreciente,
a fin de que se conservara la preordenación de las d^stancias originales, es
decir,
y ^ ^jl
(20)
Las transformaciones pueden ser algebraicas o numéricas. Entre las primeras, las más sencillas son (suponiendo i^ j) :
d;^=^;;+c
{Cooper, 1972; Cailliez, 1983) ,
cf^^ = c^? - 2 a
{Lingoes, 1971; Mardia, 1978) ,
d;^=a^;^+b
(Cuadras y Ruiz-Rivas, 1980) .
Se demuestra que si ^;; no es euclídea, existen constantes adecuadas a,
b, c tales que d;^ es una distancia euclídea. Respecto a las segundas, existe
abundante literatura sobre el tema de transformar, por procedímientos
numéricos, una distancia no euclídea en euclídea. Véase De Leeuw y Heiser
(1982), Cuadras etal. (1985).
4.2. Distancias ultramétricas
En esta sección estudiamos la propiedad
P.6
^;^ < max { ó;k, ^^k }
d i, j, k
asi como sus principales consecuencias. Cuando se cumple P.6 se dice que
(S2,ó) es un espacio ultramétrico. Sin embargo, dificilmente una distancia
calculada a partir de unos datos estadísticos, cumplirá una propiedad tan
restrictiva como la desigualdad ultramétrica. En realidad, se trata de aproximar rS a una ultrarnétrica ^,,, y representar aproximadamente (S^,ó) a través
de un espacio ultramétrico, en el sentido de la sección 1.
EI axioma ultramétrico para una distancia fue introducido por primera vez
por M. Krassner en 1930, en ciertas investigaciones de la teoría de números y series formales, demostrando que ciertas distancias, como la distancia p-ádica entre números enteros y la distancia entre los rangos de dos
series, cumplían la propiedad ultramétrica. Posteriormente Benzecri (1965 ^ ,
Jardine, Jardine y Sibson (1967) y Johnson (1967), establecieron la relación entre distancia ultramétrica y jerarquia indexada. Desde entonces, las
E ST ^1[)I^si I(^:^ E.tiE'.^ti(1[_ ^
distancias con la propiedad P.6 juegan un papel fundamental en análisis de
datos.
Supongamos que (S2,í^} es un espacio ultramétrico. Es bien conocido
(Jonhson, 1967; Benzecri, 1976}, que puede asociarse a S^ una jerarquia
indexada (C,a} donde C es una colección de subconjuntos ("clusters"} de
S^, a es un índice sabre C, unívocamente determinado por 1a distancia
ultrarnétrica a, con ciertas propiedades de monotonía. La idea principal es
que en un espacio ultrarnétrico, la nación de proximidad entre dos individuos, en el sentido de que su distancia es inferior a un valor x> O dado,
define una relación de equivalencia en S^ y por tanto una partición de S^. Es
decir, la relación i^^ si .y sólo si S;^^ ^ x, es de equivalencia y define una
partición ("clustering") de S^ para cada nivel x. Aumentando x se obtiene
particiones progresivamente menos finas, que engloban a las anteriores,
formando una estructura jerár+quica. La representación geométrica de (S2,c^)
se Ileva a cabo a través de un dendograma, que refleja métrica (a través de
a) y jerarquicamente la estructura de S^ (figura 3).
La aplicación de estos canceptos para resalver problemas de clasificación, taxonomía y sistemática, es bien conocida (Jardine y Sibson, 1971;
Sneath y Sokal, 1 973; Benzecri, 1 976; Cuadras, 1 981 }. Por otra parte, es
bastante frecuente en las aplicaciones, la doble representación de {S^,d 1,
bien a través de un espacio euclídeo, bien a través de un espacio ultramétrico (véase, por ejemplo, Escarré, 1972; Canton y Sancho, 1976,
D'Andrade et a/., 1972; Rapoport y Fillenbaum, 1972; Del Castilla, 1986)
hasta el punto de que la relación entre ambas representaciones ha interesado a los estadísticos.
La pre+gunta básica es la siguiente: ^ cuál es la conexión que existe entre
la representación a lo largo de unos ejes de coardenadas y a través de un
dendograma?. Un primer paso sobre este tema fue dado por Holman
{ 1 972), que demostró el siguiente:
Tec^rema 2
Si 1^,ó) es un espacio ultramétrico, S2 tiene n elementos y^;^ ^ 0 para
todo i ^ j, entonces la matriz de distancias tS =(ó;;) es euclídea (n-1 }dimensional.
De este resultada, que habría sido conjeturado por Gower (1 971), se han
dado diferentes demostraciones: Gower y Bandfield { 197 5), Caifliez y
Pagés { 1976}, Cuadras y Carmona { 1 983}. Otros autores han relacionado
ambas clases de representaciones. Ohsumi y Nakamura (1 981) estudian la
relación entre la formación de '"clusters" y I^s valores propias de la matriz
asociada a a{teorema 1}. Carroll (1 976) introduce estructuras de árbol
n^s^r;^^c^i,^^ ^sr:^^^sTic^,^^
313
como modelos intermedios entre los modelos espaciales y el esquema de
representación jerárquico, describiendo un algoritmo para ajustar una estructura de árbol a(S2,^S). Por otra parte, Pruzansky et a/. (1 982) estudian y
comparan representaciones en el plano euclídeo y a través de un árbol
aditivo (ver sección siguiente), proponiendo índices y criterios de ajuste
para decidir el modelo más aprapiado.
Por lo demás, no parece fácil interpretar e1 teorema 2. Holman (1972)
observa que mientras un conjunto finito en el que hay definida una distancia ultramétrica, puede representarse integramente en el piano mediante un
dendograma, la dimensión exacta en una representación euclídea vale
exactamente ( n-1 }, luego parece estar reñida con una reducción de la
dimensión, es decir, con una representación tomando ( por ejemplo), los 2
primeros ejes principales. Sin embargo, Critchley ( 1985) demuestra que
una distancia ultramétrica puede Ilegar a estar arbitrariamente próxima a
una distancia euclídea m-dimensional, incluyendo m=1.
Cuadras ( 19$3), Cuadras y Oller ( 1 987) discuten este problema analizando las coordenadas euclídeas X(n x(n-1) ) que verifican ( 1$), obtenidas por
descompasición espectral de B, es decir, las coordenadas principales asociadas a una matriz de distancias ultramétricas 0. La estructura de los
vectores propios de B está relacionada con la formació
'"' ^ " Y
algunos valor^es propios pueden obtenerse explicitamente.
Existe una partición
^ _ ^ , ^- . . . -^- ^ C r -f- ^ r+ 1 -f- . . . -^- S^ k
(21)
tal que cada 5^;, 1< i< r, contiene n; > 1 elementos, mientras que cada
5^;, r< i< k, contiene n;=1 elementos, siendo
k
t) = ^ /Z;
i-1
el número de elementos de S^. La partición ( 21) está formada por r"clusters'" maximales de elementos equidistantes y (n-r) elementos aislados
(pudiendo verificarse r> 1 y r^k). Si h, < ...< h, son las distancias (comunes) en 5^,, ..., S^r respectivamente, entonces
^ , = 1 h; < . . . < ^,, -- 1 h?
2
2
son vaiores propios de B y cada ^.; tiene multiplicidad (n;-1). Además ^., es
el menor va{or propio de B. Por otra parte, la matriz de coordenadas
principales puede ser arreglada en la forma
X = (Xa, X,, . . ., Xr^
314
ESTA[71ST1C'A E^SPAti()LA
donde X, tn x( n,-1 }} contiene las coordenadas principales asociadas a^.;
que discriminan solamente los objetos contenidos en 5^;, siendo 1< r< r.
Las demés coordenadas principales ubicadas en Xa permiten representar, a
lo largo de (k-1 } dimensiones, los "clusters"" que constituyen la partición
(21 }. Luego, la dimensión (n-1 } necesaria según el teorema de Holman,
puede quedar reducida a(k-1 }. Otra consecuencia es que la utilización de
los dos primeros ejes principales tasociados a los dos primeros valores
propios de B}, puede ser inadecuada puesto que, en ciertos casos, podrían
no discrirninar adecuadamente los diferentes "ciusters" de S^ .
Ejemplo: Cansideremos el conjunto ^={ 1, ..., 7} y la matriz de distancias
ultramétricas sobre S^ .
O
1
0
2
2
0
2
2
1
0
4
4
4
4
0
4
4
4
4
4
0
5
5
5
5
5
5
O
Los valores propios de la matriz B asociada a 0 son
,^, = 21 ^.2 = 1 6,43
^.3 = 3, 5 ^.4 = ^.5 = ^.^
2
La figura 4 contiene ta representación de ta distancia a través de un
dendograma. La partición (21 } es en este caso
^ ={ 1 .2} + { 3 , 4 } + {5,6} + { 7 }
Las figuras 5,6,7, contienen las representaciones euclídeas a lo targo de los
diferentes ejes principates. Obsérvese que ta representación tradicional tomando tos dos primeros ejes principales (figura 5}, coloca tos elementos 1
a 4 en el mismo punto. Sin embargo, tomando los ejes primero y tercero,
conseguimos discriminar et "cluster" { 1,2 } del { 3,4 }, es decir, la figura 6
refleja ta partición anterior. Por otra parte, los elementos dentro de los
"clusters" { 1,2 }, { 3,4 }, { 5,6 }, quedan diferenciados a la largo de los ejes
cuarto, quinta y sexto (figura 7).
D1ST.AtiC`IAS ESTADISTIC',^S
31 5
^^
0.
322
^- 0 . 083
0.0
G
Z
V
Dr
Fig. 3.- Representacián mediante un dendograma (distancia ultramétrical de las poblaciones
cuya matriz de distancias genéticas viene dada en la tabla 1.
Figura 4
5
4
r
.,
i
^
^
I
I
I
1
1
2
3
4
5
6
7
3
1
J o
3 i fi
FSTADfSTIC'A ESPAtiC)[..A
Figura 5
5 x 6
^ 4
2 3
?
X
^isT^>tici:^s ^s^r:^^^is-ric.^as
317
Figura 6
a3
1 X 2
6
5
?
3 x 4
Figu ra 7
5
4
1
6
2
3
1
2
5
[^^..1 ! !^ ^^I.? 1 Il.. !^`
C^.'...7f
r^ ^Yl.^^_...'^
4.3. Distancias aditivas
Una distancia ^,^ es aditiva si verifica la desigualdad aditiva (también
Ilamada axioma de los cuatro puntos)
P. 7
^,^ + c^k, ^ max {^,^. +^5^, ,^,, + b^k }
b i, j, k, l
Cuando se cumple P.? diremos que (S^,d) es un espacio aditivo. De hecho,
una distancia estadística no cumpliré, en general, la desigualdad aditiva,
sino que se trata de aproximar ^ a una distancia aditiva ^58, a fin de poder
aproximar (5^,^5) a través de un espacio aditivo, en el sentido de la sección1.
EI interés por ^a desigualdad aditiva surge al considerar la desigualdad
ultramétrica como demasiado restrictiva para ajustarle una distancia estadística. Se puede probar la siguiente implicación entre las desigualdades
P.4, P.6, P.7;
ultramétrica -^ aditiva -^ triangular
Por lo tanto, un espacio ultramétrico es un caso particular de un espacio
aditivo. Si S^ es un conjunto finito y^ es una distancia métrica no se
conace ninguna forma de representación de (S^,ó) a través de una estructura geométrica conocida. Pero si ó es ultrarnétrica entonces la representación puede hacerse en forma de dendograma. Y si ó es aditiva, S^ puede
representarse a través de los extremos de un grafo simplemente conexo,
tomando como distancia la longitud del camino que 1os une. Esta es la
llamada representación a través de un árbol aditivo 4figura 8).
V
Fig. 8.- Representación mediante un árbol aditivo Ídistancia aditiva) de las p©blaciones cuya
matriz de distancias genéticas viene dada en la tabla 1.
[)IS^I- ^tiC^I-^S E-:^T -^C)IS-TIí -^^
31y
Buneman ( 1971) demuestra que un espacio (S^,c>) puede representarse a
través de un espacio aditivo si y sólo si ^S verifica la desigualdad aditiva o
axioma de los cuatro puntos. Además, como Waterman et al. (1977)
demuestran esta representación es única. (Jtra formalización de ia representación aditiva ha sido desarrollada por Arcas ^ 1 987).
Un dendograma es un caso particuiar de un árbol aditivo. En efecto, es
un árbo! aditivo con un nodo distinguido ( Ilamado rai^) que es equidistante
de todos los extremos. Como la desigualdad aditiva es más flexible que la
ultramétrica, resulta más fácil ajustar una distancia aditiva a una distancia
estadistica. En otras palabras, en lugar de un dendograma, resulta más
aproximada la representación a través de un árbol aditivo, que usualmente
se realiza en forma paralela.
^as diferencias entre ambos tipos de representación son:
a) En el caso ultramétrico, las n(n-1 )/2 interdistancias entre los individuo^ vienen determinados por al menos (n-1) valores intermedios, mientras
que en el caso aditivo este número se eleva a(2n-3).
b) Una distancia ultramétrica define una jerarquía indexada (C,x), que es
la forma más perfecta de clasificación. La distancia entre indiwiduos del
mismo "cluster" ( distancía intracluster) es siempre menor que la distancia
entre individuos de distinto "" cluster" ( distancia intercluster).
c) Una distancia aditiva no ultramétrica na define ninguna jerarquia
indexada. La distancia intracluster puede superar a la distancia intercluster.
d) Toda distancia ultramétrica es euclídea ( teorema 2). Una distancia
aditiva puede ser no euclídea.
e) En un árbol aditivo no existe un nodo equidistante de los extremos. EI
problema de fijar una raíz (similar a la elección del origen de coordenadas
en una representación espacial) depende del algoritrno de clasificación.
Diferentes raices inducen diferentes jerarquías de particiones o"clusters".
f) ^i mediante algoritmos adecuados ajustamos una distancia ultrarnétrica y una distancia aditiva a una misma distancia estadística, la distorsión
(que puede medirse utili2ando la correlación cofenética) es menor en el
caso aditivo.
^
Un importante resultado es el teorema 3, que permite estudiar y clasificar las distancias aditivas.
ES^T:^DISTIC^:1 F SP:>tiC)L_:^
TEOREMA 3
Si (5^,^) es un espacio aditivo, existe entonces una distancia u{tramétrica
y una funcián ^: Sl --^ R tal que
+ ^(i} + ^(j}
.
(22)
Demostración: Ver Buneman (1971).
De la descomposición (22} podemos obtener tres clases de distancias
aditivas, dando lugar a tres tipos simples de árboles aditivos:
a)
U Itra m étricos:
^^i ^ ^%i
b^
Singulares:
^ ^(ij + ^(j)
En este caso, el árbol aditivo tiene un único nodo interno.
c) Lineales: Si todos los puntos pueden representarse a lo largo de una
línea recta.
Otros tipos de árboles pueden construirse combinando los tres anteriores. Véase Sattah y Tversky (1 977}, Barthelemy y Guénoche (1 988).
Por otra parte, existen diversos algoritmos para ajustar una distancia
aditiva, que presentan díversas ventajas e inconvenientes (Arcas y Cuadras,
1987). E1 más conocido es el ADDTREE, eiaborado por A. Tversky e
implementad© por Corter t 1 982).
Un algoritmo sencillo puede deducirse partiendo de (22). Mediante alguno de los algoritmos de clasificaci+^n jerárquica, ajustemos una distancia
estadística d;i a una ultramétrica u;^ . Sea
Ajustemos seguidamente y;j a un modelo lineal de la forma a; + ai por el
criterio de los mínimos cuadrados. Entonces es fácil ver que
G^; _ ^ (2/^-2)
..
n
.^ (d;k-U;i} - ^ (dik
k^j
k=l
..
..
-u;kl ] l 2 Cn -2} ^%^!- ^ )
De este modo, ^;i ^ u;^^ + a; + ai es una distancia aditiva que se ajusta a d;i .
f)ISTA,1(^IAS EST,ADISTIC^AS
5.
DiSTANCIA DE RAO
En esta sección iniciamos el estudio de las distancias estadísticas definidas sobre distribuciones de probabilidad, en el sentido del apartado b^ de la
sección 1. A causa de sus interesantes propiedades y su conexión con
otras distancias, empezaremos comentando una distancia introducida p©r
Rao (^ 945) y estucliada por Atkinson y Mitchell (1981), Burbea y Rao
(1982a,b}, Oller y Cuadras { 1982a, 1985), Oller (1987), Amari (1985),
Cuadras et al. (1 985), Burbea (19$6i, Mitchell (1988}.
5.1. Definición y propiedades generales
Sea S=^ p(X,^) } un modelo estadístico, donde X es un vector aleatorio,
f^ _(D,, ..., f^„) es un parámetro n-dimensional, p(X,Q) es una función de
densidad de probabilidad de X parametrizada por ^. Podernos considerar
que ^ pertenece a una variedad diferenciable O y tomar la matriz de
información de Fisher
G=E{[
a
a8
^09 p(X;f^l ] ^
a
aa
^09 p(X;©? ]' }
como tensor métrico fundamental sobre O. I ndicando G=
elemento del arco (al cuadrado) es
ds2(©)= ^ g;;(©) df^;d8^
;,;- ^
Debido a que G se comporta como un tensor covariante simétrico de
segundo orden para todo ^, resulta que ^25) es invariante por transformaciones adrnisibles de los parámetros. Fijando entonces dos puntos eA , 8^ de
O, y una curva paramétrica ©_ ^(t), tA < t^ tB, con 8(tA) _©a, e{tB1= BB, !a
distancia entre ambos a lo largo de la curva es
tB ds (fI)
`A
tB
.
n
dt =
[ ^ 9;;(©) 0;
tA ^,;_^
fl t
' ^2 d t
(26)
donde 0; significa la derivada respecto t. La distancia geodésica entre dA y
f)B es la distancia a lo largo de una curva geodésica, es decir, a l0 larga de
una curva tal que (26) sea mínima. La curva geodésica se obtiene resolviendo la ecuaciór^ de Euger-Lagrange
n
•
n
.
.
^ g;h E^; +.^
r;;,, r^ ;^;= o
^,^_ ^
^^ ^
h
E51 .^i)IS1It`A E^^'^^`(:)l A
^^^
con ias condiciones de contorno f>(tA) = f^A, fl {te} = f^B , siendo
r,^n = 2 ^^, 9^n + a^ 9r^^ -^n 9,^ ^
los simbolos de Christoffel de primera clase.
La distancia geodésica R(f/A,f^e} sobre C-^, basada en la matriz de información de Fisher, recibe el nombre de distancia geodésica informacional o
distancia de Rao. Utilizada como distancia entre dos densidades de probabilidad de S goza de las siguientes propiedades:
1} Es invariante por transformaciones admisibles, tanto de 1as variables
como de los parámetros.
2) Si las variables aleatorias contenidas en X son estocasticamente
independientes y con distribucianes uniparamétricas, entances !a distancia
geodésica es euclídea.
3} Se puede relacionar con el contraste de hipótesis y está conectada
con las propiedades asintóticas de ciertas estimadores de parámetros.
La distancia de Rao puede también introducirse relacionándola con ciertas medidas de divergencia ( ver sección siguiente), o par via axiomática,
exigiendo ciertas condiciones generales a una distancia entre distribuciones
de probabilidad ( Cuadras et al., 1985}. Otro camino para introducir esta
distancia consiste en considerar el espacio tangente T^^ definido en cada
punto de la variedad. T„ es un espacio vectorial local, que está generado
por los n vectores ^^ 1 d fl,, i^ 1, ..., n. Todo vector tangente puede ser
representado como una combinación lineal de la base natura! a; = a/ a f^;
n
v -- ^'
v ^ ^;
Consideremos ahora el modelo estadístico S={ p(X,©} } y las n variables
aleatorias
a
a f^;
log p( X, fl}
i= 1 ,...,n
c28y
y supongamos que son linealmente independientes en X para cada valor de
fl. Definimos entonces el espacio vectoriai
T^'^
t^
= C Z^,
., Z n í1
de !as variables aleatorias que son combinación fineal de Z; .
^isT^^^ tic^i.a^ E.s-r^^r^iSTic-.^s
Existe un isomarfismo natural entre Tf, y T^'^. En efecto, basta establecer
la correspondencia
^
a; c--> Z; _
a ^;
log p(X , ^)
129)
según la cual la imagen de (27) será la variable aleatoria
n
vX =i=1^ v^ Z;
Luego podemos identificar T^ con T^'^ y referirnos a T^,'^como la representación en términos de variables aleatorias de T^.
Observando que, bajo ciertas condiciones de regularidad, se verifica
E (Z;)=o i= 1,...,n
el producto escalar natural en Tá'^ es
< UX, VX >= cov (UX, VX) = E(UX. VX)
luego los productos escalares de la base { Z; ^ son
g;;(8)-E (Z;.Z;}
i,j= 1,...,n
que constituyen la matriz de información de Fisher (24). Puesto que hemos
definido un praducto escalar en cada. espacio tangente Ti'^ resulta entonces que hemos dotado a S de una estructura de espacio de Riemann. La
distancia geodésica entre dos puntos de !a variedad se obtiene minimizando (2 6 ).
Con el propósito de estructurar las propiedades intrínsecas de un modelo estadístico, Amari (1985) considera la a-conexión
r^^ _
r;;k
_ r;;k +
1-a
2
T;;k
siendo T;;k el tensor simétrico
T;;k = E ( Z; . Z; . Zk )
Las geodésicas asociadas a un a-conexión son aquellas curvas cuyo
vector tangente se desplaza paralelamente a lo largo de si misma y pueden
considerarse como rectas. Tomando como tensor métrico la matriz de
E_ST^f^^iST^I(.'A E_SP^tif^)l_^^1
infarmación de Fisher, resulta que la O-conexión coincide con la conexión
de Levi-Civita, que es la única que hace compatible la noción afín de
paraielismo con 1a noción métrica de distancia. Las demás conexiones son
menos naturales desde el punto de vista métrico, pero tienen interesantes
interpretaciones estadísticas.
La 1-conexión fue introducida por Efron ^ 19? 5), y tiene una interpretación natural si consideramos la familia exponencial. Para esta familia se
verifica
r(zl _
ij k ^
2
ijk
que es identicamente 0 para a= 1. La familia exponencial constituye un
espacio sin curvatura respecto a la 1-conexión y las geodésicas asociadas
pueden interpretarse como rectas.
La -1 -conexión fue introducida por Dawid (1975). Si consideramos una
mixtura de distribuciones
p (x, f^1 = (1 -^^1 P, ( x) + ^^ Qz {x)
0 ^ fI < 1
entonces
r^i _
r
1 ^ jk -
1 + QC
^
T
1 ijk
que es idénticamente o para a=-1. obtenemos una familia de distribuciones que constituyen un espacio sin curvatura respecto a la -1 -conexión. La
familia puede considerarse como una línea recta conectando dos distribu-
c^ones.
La teoría de las a-conexiones puede aplicarse para estudiar la familia de
distribuciones exponenciales, así como la familia exponencial curvada de
Efron. Véase Amari (1 9$5), Burbea (1986).
La distancia de Rao, es decir, la distancia geodésica en S basada sOI^rF la
rnétrica asociada a(24), ha sido calculada para la mayoría de discr^k^^^ciones univariantes y algunas distribuciones multivariantes. Si en cierta ^ s casos
el cálculo es sencillo, en otros es bastante complejo o no ha sido resuelto
todavía. Por ejemplo, para el sistema uni-paramétrico bivariante propuesto
por Cuadras y Augé (1981 ), en la expresión de la distancia intervienen
diversos desarrollos en serie (Ruiz-Rivas y Cuadras, 1988). La distancia
entre dos normales multivariantes con distinta matriz de covarianzas, todavía no ha sido resuelta, aunque se han intentado algunas aproximaciones al
problema (oller y Cuadras, 1 983, Calvo, 1 988).
ni^^ ^ti<^i.^S F-s^ .^r^i^ 1 ic a^
5.2. Distancias entre distribuciones univariantes
Supongamos que p(x ^ fl) es una función de densidad univariante y uniparamétrica. Es fácil ver que la distancia de Rao entre a,b ^ O viene dada por
R(a , b) _ ^ a y(f^) df^ ^
(30)
A continuación damos las distancias para algunas de estas distribuciones.
a. Binomial.•
p (x ( p) _ { N) ^X { 1 _^)N-X
x
x = 0,1,. . .,N
0 < f^ <
R (a,b) = 2 ti N arcos { ti'ab + ti^ (1 -a) (1 -b) }
b. Poísson:
^X
p(x ^ f^) - e-^'
x- 0,1,2,,.. f^ > 0
x!
R ( a, b) = 2 ^ ti^ - ^^ ^
c. Bínomial negativa ( r fijo):
p(x ^ 8) =
I^ (x + r)
x ! r (r)
f^x (1-f^)'
x= 0,1,2,...
1 - ^ ab
R(a, b) = 2^ cos h-' (
^' (1 -a) (1 -b)
)
d. Gamma (r fi jo)
p(x ^ ^) =
1
x'- ^ e-X^ ^^
I' (r)
x > 0, f^ > 0
R (a, b) _ ^r ^ log (a/b)
e. Weibull ( a f i j o)
p(x ^ f^) = a x^ -' f^ e-X^°
R(a, b) _ ^ log (a / b) ^
x> O,f/> O,a> 0
0< ^< 1
E^ T^1F)IST^IC ,A E tiF' 1tiC)LA
Nótese que, como la distribución de Weibull es la que sigue X"x donde X
es Gamma Cr=1 ), se obtiene un caso particular de la distancia anterior,
pues la distancia de Rao es invariante.
f. Pareto Cr fi j o)
pCx ^ 4} = Q r" x re+ ,a
x> r, ^> o
R( a, b)_(/og^ (a l b} ^
g. Normal N{^c, 42), {^c fi jo)
1
R (a, b) =
v 2
I ^og (a /b i I
h. Normal N C,u, a2) ,(^ fijo)
^a-b ^
R {a, b) _
a
5.3. Distancia entre distribuciones univariantes biparamétricas
Supangamos que ahora O tiene dimensión n=2. Entonces es necesario
calcular la matriz de información de Fisher y proceder como hemos explicado al principio de esta sección, es decir, resolviendo las correspondientes
ecuaciones geodésicas. Las distancias que exponemos seguidamente han
sido obtenidas por A^tkinsan y Mitchell C 1981 ), Burbea y Rao (1982 a,b),
011er C1987).
a. Distribucián normal
La distaneia de Rao entre N(^,, a; ) y N{/c2, o2i, es decir, entre los puntos
C/c,,cr; l, t^c2,a-^), es
^
R C 1, 2 ) _ ,._.. /og
^i2
1+ó(1,2)
1 -^C1 ,2)
siendo
S{ 1,2) _
^^^ - 1^2^2 + 2 ^^>' - a2)2
[
C,u ,-,u 2)
2
+ 2 t Q, + Q2 )
2
^^2
DIST.A^+t'I.AS ES^TAC)ISTIC'AS
b. Distribución de valores extremos de Gumbel
p(x ^ a,f1) _ ^ exp ( -exp
^
tx-a) / a) 1 exp 1- (x-a) / f^)
^>O,x>O,aER
Sea y la constante de Euler. I ndicando a=1-y, b=^c 1^ 6, la distancia
entre los puntos {a,,f^, ) y{a2,El^) es
1 +^{1,2)
R (1, 2 ) = b log
1 -^(1,2)
donde
[ (a2-a^) - a(^2-Or) ]2+b2 {^^-Q^)2 ^^^
[ ( az - a ^ ) - a ( ^z - ^ ^ ) l 2 + b2 ( ^2+ ^, ) 2
c. Distribución de valores extremos de Gauchy-Frechet
p(x ^ ^3,^.) = exp (- (x/^3)-' ^ {x,/j3)-r^ ♦ ^^ í^//(3
^3,^. , x > 0
La distancia entre los puntos (^3,,^,,) y(^32,^,2) es
R(1,2) = 6 . log
1 + ^(1,2)
1 - ó(1,2)
donde
^ l09' (l3z/^^ )+a(^,2-^,,) / í^, í^2]2 + b^(í^2-í^,)Z ^,; ^.2
^S{1,2) _
[ l09 (^2/^^ ) +a(/^^2-í^^,) / /^., /^.2]2 + b2(/^.2+^,,)2 ^.; /^,2
-y, b=^/y6.
d. Dis tribución logís tica
p(x ^a,f3)=
1
4^
sech2(
x-a
2^
1
x,a E R,^3 > 0
.^^^
E^,ty^^f>1^Tf('^^ f^P^^`^i)1 ^>
La distancia entre los puntos (.z,, ^^,) y(x^, j^2) es
R (1,2} =
^, ,6
3
log
1 + ^S (1 , 2 )
1 ` ^3(1 ,2}
donde
(3 /b) (a2 - x, )z + (^2 _ ^^ }z
C^^ 1,2} - C
2
( 3 /b} t ^^ - ^r } + {^z + ^T }
2
b=n2+3.
5.4. D^stancias entre distribuciones multivariantes
La distancia de Rao para diversas distribuciones multivariantes ha sido
estudiada por Bhattacharyya ^ 1946}, Atkinson y IVlitchell { 1981 ^, Burbea y
Rao (1982a,b}, Oller y Cuadras {1982a, 1983, 1985), Ruiz-Rivas y Cuadras (19$8}. Actualmente se intenta encontrar la distancia de Rao para
distribuciones multivariantes en las que ni ,c^ ni ^ están fijos.
a. Multinomíal ( N f i j o}
p(x ^ ^) =
N!
(D,)X^ . . . (E^„}xn
xll...x„I
x,>0 0<
n
n
i-T
r=1
^ x;= N ; ^ f^;= 1
La distancia de Rao entre los puntos {a,, ..., a„), {b,, ..., b„) es
R(1,2 )= 2^' N a rcos { ^ ti^ a b^)
;- ^
es decir, hemos obtenido la distancia de Hellinger-Battacharyya inicialmen
te propuesta por Bhattacharyya (1946) (ver sección 7.2^.
b. Mult^nomia/ negativa (r fijo)
I'(x,+..+x„+r}
{^, )xT. . . (Qn)Xn {^k+T )r
^^ ^X' i^} _
X, ^... X^ ^ r Í r)
nis^r.^:^c^i:^s Esr^^n^sric^^s
3?9
n
n
siendo E f^; < 1, ^> n+l
,- ^
= 1 -^ f),
,> >
La distancia entre ( a,, ..., an, a"+,) Y(b,, .. ., b", bn+,) es
n
^
R(1,2 )= 2 y' r cos h-'
1 - ^ ^ a; b,
,_ ^
^ ak+ 1 bk+ 1
c. Normal multivariante (E fijo)
La distancia de Rao entre Nn(,cc,,E) y Nn(µ2,^), donde ^c^,, I^2 E R" y^
permanece fijo es
R S ^ ^2) _
{ (^^^ _ ^^2)• ^-^ (^1' _ ^12^ } ^^2
es decir, es la conocida distancia de Mahalanobis (1936).
d. Normal multivariante (/^ fi jo )
La distancia entre N" (,uo, ^, ) y N"(,clo, ^2), donde ,uo perrnanece fijo, es
R (1,2)=( ^ ^ l0g2^,.)^^z
,
2 ;,,
donde ^.,, ..., ^," son los valores propios de ^2 respecto de ^,, es decir, ias
soluciones de la ecuación en determínantes
I ^ 2 -^, ^, 1=0
e. Nvrmal multivariante
La distancia entre dos norrnales Nn(,c^,, ^,), Nn(,u2, ^2) es un problerna
todavía no completamente resuelto. Aunque se han podido integrar las
geodésicas, el problema algebraico de determinar las constantes de integración para enlazar dos puntos de la variedad todavía no se ha podido
resolver. Sin embargo, se conoce la solución para algunos casos particulares. Además se ha podido demostrar que existe una isometría entre la
variedad y el grupo Pnt,(R) de todas las matrices definidas positivas de
orden n+ 1, con la métrica
c A, B > = tr(A B')
Considerando entonces que se puede obtener una distancia para una
subvariedad de P"+, (R), se ha conseguido la siguiente cota inferior para la
distancia de Rao
^ ^ c^
E:tir.lvi^rNC-r^ t.sN:^^c^t.;>
d (1 . 2 } _ ( ^ ^ ^ lag? ( ^., }
2 ^- ^
donde ^,,, ..., ^^n, ^.,,+1 son los valores propios de S^ respecto S,, siendo
^i + ^i ^i
i = 1,,2
,
l^;
Véase Burbea (19$fi), Calvo (19$8), Skovgaard (1984}.
5.5. Una distancia intrapobtacional
Supongamos ahora que el vector aleatorio X toma valores en una población S2. La correspondencia (29) permite definir una distancia entre los
individuos de S^ caracterizados por un punto fl de O. En efecto, podemos
caracterizar S^ a través del espacio dual E;,, siendo E f,=T^, el espacio tangente introducido anteriorrnente, haciendo corresponder a cv E S2 la forma
lineal c.^* ^ E^1 tal que cc^* (Z1 = Z(c^), para toda variable aleatoria Z E E^.
Como la métrica en E;, inducida por la métrica en E,,, tiene como matriz
asociada G-' respecto a la base dual de Z,, ..., Zn, podemos definir una
distancia entre individuos
R( cv, , c^2 )= dE^r ( cv ;, cv2 f
( 31 }
donde dE« es una distancia euclídea local.
Por ejemplo, consideremos una población Np(^^;^), con ^ fijo. Entonces E^^
está generada por el vector aleatorio Z=^^' (X - ,c^) y la métrica en E^1 viene
dada por ^-', luego la métrica en E^^ viene dada por E. La distancia (al
cuadrado) entre dos individuos con vafores z, _ ^-' (x, - ^^), z2 = ^^' (x2 - ^c^),
es
(x, -x2 )' ^-1 ^ ^-^ !xl _x2 ) _ (x' _x2 ^• ^-r (X' _x2)
es decir, coincide con la distancia de Mahalanobis 112).
Consideremos ahora n+ 1 sucesas mutuamente excluyentes A,, ..., An,
A„+, de probabilidades p,, ---- Pn- pn+l Y la función de densidad
f(x,, . . ., x„/p,, .
E{o,^},o<,^;<1,
. ., pn ) _ ^ ' . . . ^7^n ( 1
...,n,
C)IS7AtiC'IAS EST.^DIS^TIt^,^1S
es decir, x; = 1 si cv E A; , x; = 0 en caso contrario. Indicando
n
Xn+ 1 - 1 - ^ X;
i-1
n
pn+ ^ _
,-1
el tensor métrico G sobre a={(p,,
b;;
1
+
pi
^ ^ p; < 1 } es
'^ pn
i= l
i, j = 1 ,...,n
Pn+ 1
Con algo de esfuerzo se obtiene entonces que la distancia entre un
individuo cv, que presenta la característica A,, es decir, cv, E A;, y otro
individuo cv2 E A^, es
R (cw,,cv^) _
^ . 1 1
1
+
( 1 - d;;) (
P;
!^;
siendo rS;; la delta de KronPCker. Finalmente, si consideramos k particiones
independientes de S2
A ^;^ , . ., A»'^ , A^^^^
;
,
i = 1, . . ., k
la distancia entre cv, y cv2 tales que
c.^, E A;^^ U... U A;k^
cv2 E A^ ^^ U... U A^k^
viene dada por
k
R (cv,, cv2) _ ^
x- ^
(1 - ^;^;^) (
^µ
1
p^^
+
1
)
(32 )
p^x
siendo p;^ = P(A;x^ ). La distancia (32) puede ser utilizada para diferenciar
individuos de una población conocida la presencia o ausencia de características cualitativas.
6.
DIVERGENCIAS
Las medidas no paramétricas de divergencia entre distribuciones de probabilidad se definen como expresiones funcionales ta menudo relacionadas
con la teoría de la información), que miden el grado de discrepancia entre
3 ^^
F=s-r ^>t^iS^ ic _^ Es[^ ^^c^^_.^
dos distribuciones cuaiesquiera, no necesariamente pertenecientes a una
misma familia paramétrica. aespués de los trabajos pioneros de Pearson
{prueba ji-cuadrado) y Hellinger (la famosa distancia de Hellinger, publicada
en 1909), otros autores han estudiado divergencias {Shannon, Kullbach y
Leibler, Renyi, etc.`. La divergencia aplicada a distribuciones de probabilidad
serían introducidas por Csiszar { 1963, 1967, 1972, 1975), estudiadas en
diferentes versiones por Matusita (1955, 1964), Havrda y Charvat { 1967),
Vajda (1972) y generalizadas por Burbea y Rao (1982 a,b).
^as divergencias tienen aplicaciones en inferencia estadística y en procesos estocásticos. Véase Bishop et al. (1975), Liese y Vajda (1987).
6.1. Distribució^n multinomial
Sea p =(p,, ..., p„} e! vector de probabiiidades correspondiente a una
distribución multinomial. Un funcional ^- entropia es
H¢{p)=^p;¢^(p;)
(33)
donde rp es una función estrictamente convexa tal que q^ (1 ) = 0. H^, es una
función sobre ia clase de distribuciones muftinomiales n-dimensionales que
es máxima cuando los p; son iguales y alcanzan e{ vaior mínimo (cero)
cuando algún p; = 1. H^ mide ei grado de discrepancia con la distribución de
máxima entropía, y ha sido ampliamente utilizada como medida de diversidad.
Sean p= ^p,, ..., p„), q=(q,, ..., q„) dos distribuciones multinomiales. La
divergencia entre p y q se puede medir como !a discrepancia entre el
cociente x; = q; / p; y 1. Basándonos en el significado de (33), definimos una
divergencia entre p y q, ilamada ¢^-divergencia de Csiszar (1 972), como el
valor esperado de x,, ..., x„
C ^ (1^- 4') _ ^ p; ^ ( q, / p;)
(34)
Por la desigualdad de Jensen se tiene
C4(p,q}=^p;^(x;}> ^(^p;x;)=^(1)=0
aicanzándose el vaior 0 si y sólo si p=q. ^34) se puede tomar como una
medida de disimilaridad entre p y q, pero en general no es una distancia,
pues no siempre es simétrica, o si lo es, puede no cumplir la desigualdad
triangular. Sin embargo, tiene dos interesantes propiedades: C^, (p, q} aumenta cuando se considera una partición más fina, y bajo la hipótesis
C,^ (p, q) = 0, e! estadistico
UIST•^ti(^1-15 f ^T^11)ItiTI( .^^^
2N,N2
,,
(N,+Nz) ¢
(1)
„ „
e^, (p . 4')
^^^
(35)
sigue (asintóticamente) la distribución ji-cuadrado con n-1 grados de liber..
^
tad, siendo p,, q, las frecuencias reiativas muestrales para muestras de
tamaños N,, N2 (Takeuchi e^ a/, 1982).
EI cuadro 3 contiene diversas formas de (34) según diferentes expresiones de ^(x), incluyendo, en su caso, la distancia genética que da lugar (ver
sección 7.2). Un caso importante es ¢(x) _-log x. Entonces H^ es la farnosa
entropia de Shannon y(34) es
p (p,q)=^^P,lo9' (p,/q,)
(36)
conocida como medida de información de Kullback-Leibler. (36i mide la
ganancia de información al pasar de la distribución p a la q, y ha sido
utilizada en estadística, especialmente en estadística bayesiana (Bernardo,
1981, 1987). La simetrización de (36)
J^ (p,q) = I^^ (p,q) + I,,(q,p)
es el invariante de Jeffreys, también Ilamada L-divergencia.
Obsérvese que para ^(x) _ ^ 1 -x ^ se obtiene ^ ^ p; - q; j distancia que ha
sido utilizada en genética ( Prevosti, et^ al, 1975). Sin embargo, en este caso
no se puede utilizar (35) porque ^' '(1 ) no existe.
Por otra parte, si consideramos las entropias H,_;(p), H,;(q) y la entropia
correspondiente a la mixtura ^^p +(1 - ^.)q, entonces mediante la diferencia de
Jensen
J,, (p, q) = H r, ( r p + (1 -r.) q) - ^- H,,; (p) - (1 -^ ) H,; (q)
obtenemos una distancia, liamada J-divergencia, entre p y q. Por ejemplo,
utilizando (a entropia de Gini-Simpson
H^(p)= 1 _^pz
se obtiene la distancia
2 ^^ (1 - ^^ ) ^ (p; - q^ ) ^
que ha sido utilizada en genética por Nei (1 971 ). Véase Rao (1982). Tanto
la J-divergencia como la L-divergencia son estudiadas, con más generali-
^ S^t;1O1^^ ^íf( .A E ^Y:^tit)L•^
dad, en la siguiente sección. Por otra parte Pérez et al. (1 986) prueban que
la entropia de Gini-Sampson puede ser estimada (en poblaciones finitas)
más fácilmente que la de Shannon, por lo que recomiendan (a primera para
estimar la diversidad.
CUADR03
Algunas ¢ -divergencias: Ca (p, q) = ^ p; ¢ {q; / p;)
¢ ( x)
NOMBRE
C (p. 4')
- log x
^ p, log(p,/q,)
Kuliback-Leibler
1 - ^ qz' p;z
Havrda-Charvat
2(1 -^; x)
^(ti p; -^, q,i^
Bhattacharyya
^ 1 - x^
^ ^ p; - q, ^
GENETICA
^ ^ - Xx-^)
^
{x _ 1 )^
(x+ 1 )
Cavalli-Sforza
Prevosti
{p` _ ql)2
Balakrishnan-Sanghvi
(p;+q,)
Salicrú y Cuadras (1988) prueban que todo funcional ¢-entropia {33)
puede interpretarse como una medida de Csiszar ( 34) entre p y la distribu-ción de máxima entropia e=(1 1n, ..., 1/n ^ . Por ejemplo, para la entropia
H^,(pj de Havrda-Charvat, en la que
¢ (x) _ ( a - 1 j -' (1 _ x^-' )
tx > 1
se verifica
n
H4 Íp) = Cf (p,e) =^ f{(n p; ^ -' ) p;
,-^
para la función
f (x) ^ (a _ 1)-^ ^^ _ (n X)^-^ ^
^
^
Por otra parte, la rninirnización de C^(p,f), donde f representa el vector de
frecuencias relativa y¢ se eiige adecuadamente, es equivalente a ciertos
procedimientos clásicos en el tratamiento estadístico de datos multinomiales. Por ejemplo, tornando ¢(x) _- ln x haflar la estirnación máximo verosí-
r^^srr^^c^i^^s E^:^r^^^^isric^^^s
^3^
^
mil de p es equivalente a hallar,. p que minimiza C^(p, . Tomando ^(x) _
(x-1 )2, entonces minimizar C^,Íp,f) es equivalente al método de la mínima
ji-cuadrado
n
min ^
P ,_ ^
(f!_ p^}z
=C^, (^f)
p,
/1,
Véase B ishop et al. (19 7 5).
6.2. Distribuciones absolutamente continuas
Sea p(x) una función de densidad de un vector multivariante con distribución absolutamente continua y soporte en ^. Sea ^ una función real, dos
veces derivable, sobre un intervalo T^, tal que [0,1 ]^ T^z,C[o, ^). Se define el
funcional ^ entropia
H^, (p) _ - ^, ^ [p(x) J dx
(38)
La J-divergencia entre dos distribuciones p, q, con respecto H^,,, se define
como la diferencia de Jensen
J^(p,q) = H
^ ( p+q ) - [H ^(p) + H^^ (q)) / 2
2
(39)
La K-divergencia y la L-divergencia se definen como
K^p (p, q) _ ^ (p-ql [^ (p) /p - ^ (q) /q) ] dx
(40)
y (suponiendo T^^, = R+)
L^(p,q) _ ^ [p ^(q/p) + q ^(p/q) ) dx
(41 )
Finalmente, se define la M-divergencia corno
NI^ (p,q) _ ^, (^ ^(p) - ^ ^{q) )2 dx
(42}
Todas estas definiciones pueden ser generalizadas facilmente escribiendo
d,u en vez de dx, donde ^c^ es una medida aditiva rr-finita y X es un espacio
medible Lebesgue.
Las J,K,L,M-divergencias son siempre simétricas. La M-divergencia es no
negativa. Las condiciones para que las demás sean no-negativas son:
t5T ^1[)ISI I(^^^ f^Sf'-1tiO1_->
i ^f^
a) J^^, (p, q} ^i-^ 0 si y sólo si ^U {u) es convexa en T^,.
b) K^I,{p, q) ^ O si y sólo si +^U {u) /u es creciente en T^,.
c) L^i,,p, q) _^ 0 si y sólo si u^U {u ') +^(u) es no negativa en R+.
Para otras propiedades generales, véase Burbea y Rao (1 982 a,b^.
Estudiemos ahora casos particulares de las L-divergencias, en especial
aquellas que están relacionadas con la función
c^x (u} _ (^ - 1 )-' (u^ - u)
a ^ 1,
^43)
-- u log u
a-- 1
En este caso indicaremos Jz, K^, Lz .
1)
Tomando la función
f* (u) = ^ (u) + u ^ (1 /u)
vemos que una L-divergencia coincide con la f* - divergencia de Csiszár
^-^1
U P 9', )=C•(p,
4` )=^,, pf*(p^4')dx
r
2)
t441
Tomando ^=1 en {43) obtenemos
K, (p, qi = L, (p, q^ ) _;^ (p-q) (log p- lc^g q) dx
{45)
que es la divergencia de Jeffreys- Kullback- Leibler, que juega un papel
destacado en inferencia estadística.
3}
Tomando :^=2 en ( 43) obtenemos
J2 (p,q )=2,^, ( P- 9'
)2dx
4)
Para ^(u) = u en ( 42) y tomando la raíz cuadrada obtenemos
M{p ,q}= ^.^, (ti^-ti`
P
q )2dx] '
(4^6)
que es la distancia de Matusita (1955), ampliamente utilizada en inferencia
estadística y teoría de la decisión (Matusita, 1 964}. M(p,q) esta relacionada
con la afinidad entre p y q.
^
^> ( p, q} _^, 1, p ti q dx
.^ ^7
[)Iti^T^^-1ti(^1^15 E;ti^T^•\UI^i I(^^^^
Se verifica
M 2(p. q) = 2^ 1- P(p, q) ^
Para el caso particular de dos distribuciones normales N(i^;,^;) , i=1,2, la
afinidad p(p, q) es
^ ^r ^2
r i4
I (^, + ^2) ^ 2 I
^l2
z
exp[-( ^
^.r^
(^c;-i^c^ ) ' ^^' ( ^;' + ^^' ) ^;' i^; ) ^
Si ^, _ ^2 = ^ entonces
Í , )=exp^
Ppq
5)
-^8 (^-^j'^_r(^-^
^r ^2) ^
^-r ^2
NI (p,q) está relacionada con la distancia de Hellinger
E..^^(f,9,) = I y( frix_ 9,rix)x dx ^
a> 1
(47)
que verifica 0< H,, < 1. Por otra parte, si consideramos el espacio de las
funciones de cuadrado integrable sobre un soporte X, con el producto
escalar
<f,g>=rfgdx
obtenemos un espacio de Hilbert en el que ^' H2 es la distancia entre dos
funciones. Además, para la esfera de radio unidad
E_{ f ^ f=ti p, p es densidad de probabilidad }
entonces M(p,q) = H2(p,q)^ representa la cuerda, mientras que
^
^
B(p,q) = arcos < ti' p, ti' q> = arcos p(p,q)
(48)
representa el arco que une los puntos p,q sobre la esfera E. (48) es una
distancia geodésica sobre E, que en general será rnás pequeña que la
distancia de Rao definida para una clase de densidades p(x,(l), parametrizada por f), y que constituyen una subvariedad S de E. Asimismo, la métrica
diferencial en S inducida por la distancia de M(p,q) da también la distancia
de Rao, como vemos en la sección siguiente. La relación entre las tres
distancias es
M (p,q) < B (p,q) < R (p,q)
i ti[^11)ttiT It ^1 i tiP^1tit)1 A
6.3. M^tricas diferenciales a partir de divergencias
En la sección 5.1. introduciamos una distancia geodésica sobre un modela estadística S={ p(X,fl) }, donde ll E ^, utilizando ei elemento de arco (25)
y la matriz de información de Fisher. De forma análoga, utilízando la métrica diferencial definida por el Hessiano de una divergencia D^(p,q), donde
ptx,f.i) es una família paramétrica, a lo ^argo de una direccián dei espacio
tangente de ^ ,
149^
ds2^ (f^) = c^ { D^, (p, p) } (f^)
pademos construir una geometria riemanniana sobre S. Por e^emplo, para
la J -divergencia tenemos
1/^J^ ^" ()
c^{JmÍ,)}Íf^)=
Pp
Pd
( p(f^)] 2dx
y como
dP(
(^) = E ^p df^^,
,^r ^^.,
podernos tomar el elemento de arco
ds2^ (f^) = 1/4 ^ g^; (H) d(^; d0^
%.r ^
siendo
^, ^ ` (' ^..
{ )
( )
J
9"
^
p
`^p
^ f^;
ap dx
a f) ^-
La matriz (q;^(f^) ) define un tensor covariante, y si ^ es convexa en T^
entonces define una métrica riemanniana sabre O. ^a distancia geodésica
entre (^A y flB es la que minimiza (26).
Se obtienen expresiones análogas para e1 elemento de arco para la K, ^
y M-divergencias, tomando:
^^ ^^^^ = x (^(p)1p]'
^^ (^^) _ f -^
9^,
,^ p
^p
^I f^;
p
9'^^', t ^^) --- ,^ ,^ t (^^
ap
ap
r^ f);
a ()^
dx
(K-divergencia)
(L-divergencia)
ap dx
r? f)^
dp
^P
d (I;
r^ f^^
dx
.
( M -divergencia)
C)ISi^.^1ti('1-15 E.ST.IUIS^T^1(^AS
3^9
Observaciones:
1)
Para la L-divergencia se verifica
g^(f^) = E^,l
a
a^^;
log p (X,f^)
a
aE^;
log p ÍX,f^) )
luego es fácil ver que
ds^ ( f^) = 2^" (1) ds2 ( fl)
Si ^" (1) > 0, la métrica coincide ( salvo una constante) con la métrica
informacional o distancia de Rao. Encontramos un resultado similar para la
distancia de Matusita.
2)
Para la clase de funciones ^^ definidas en (43) se obtiene
g,(; ^( 8) = X p^
a
aa;
log p
a
aa;
log^ p dx
(50)
que da lugar a la métrica informacional de orden a. En este caso, las cuatro
métricas coinciden (salvo constantes). En particular, si a=1, en todos los
casos obtenemos la métrica informacional o distancia de Rao.
3) Las distancias abtenidas son todas invariantes por transformaciones
admisibles de los parámetros. Para ciertas funciones d^ las distancias son
además invariantes frente a transformaciones admisibles de las variables
aleatorias. Por ejemplo, para la K=divergencia se cumple para ^lu) _
au log(u) + bu + c. En realidad se verifica esta propiedad para aquellas funciones ^ tales que (g^; (f^) ) es la matriz de información de Fisher. En efecto
(Cuadras, et al., 1 985; Oller y Cuadras, 1987) la invarianza para las variables es una cualidad que prácticamente sólo se cumple para la distancia de
Rao.
Para más información sobre este tema, véase Burbea y Rao t 1982a,b),
Salicrú ( 1987). La construcción de medidas paramétricas de información
sobre funciones de densidad p(x, f^) a partir de medidas no paramétricas,
había sido planteada de manera análoga por diversos autores ( Kagan, Vajda,
Aggarwal y Boeke). Véase Ferentinos y Papaionnau ( 1981).
3 -^4l
7.
til ^1()f^ [ It •1 F tiF'^^til ^i. ^1
ALGUNAS APLICACIQNES
7.1. Biologia
La aplicación de las distancias estadísticas a la biología, especialmente
antropologia y genética, son muy numerosas. Con la obtención de distancias entre poblaciones, especies, razas geográficas, etc., se han abordado
probiemas de sistemática, fiiogenia y clasificación taxonómica.
Pearson (1 926i utiliza un coeficiente de semejanza raciai para diferenciar razas humanas (ver sección 3.1.}. Pero la distancia de Mahalanobis
(14) es la más utilizada, especialmente combinada con el análisis canónico
de poblaciones. Pueden verse aplicacione^ a la biología sistemática en Seal
(1 964), Reyment (1 973), Petitpierre y Cuadras (1 977}, Cirer (19871.
La utilización de distancias basadas en coeficientes de similaridad, combinadas con el análisis de coordenadas principales y el análisis de conglomerados, han significado una importante herramienta metodológica en
Botánica, 2oología, Microbiología y Ecología. Los trabajos de Escarré
(1 973), Cantón y Sancho (1976} son bien representativos en este sentido.
En ecología se han utilizado tar^nbién las distancias basadas en la métrica
de Canberra, que presenta ciertas ventajas. véase Lance y Williams (1967},
Legendre y Legendre (1 979) y una interesante aplicación en Del Castillo
(1 986).
Para una visión general del tema se recomienda consultar Constandse
(1972), Goodman (1972), Sneath y Sokal (1973), Cuadras (1980). Respecto de la dimensión s^gnificativa o número de "clusters" signifícativos,
véase Cuadras (1 987).
7.2. Genética
Las Ilamadas distancias genéticas entre poblaciones son distancias estadísticas que se calculan sobre datos basados en frecuencias genéticas en
loci polimórficos. Se trata, por lo tanto, de medidas que cuantifican la
diferencia genética entre pobiaciones en términos de las frecuencias alélicas de diferentes ioci, es decir, de distancias " genotípicas", que se distinguen de otras ( coma el índice de semejanza racial de K. Pearson) +que se
considerarían distancias " fenotípicas".
Dados n sucesos mutuamente excluyentes A,,...,A„ una distancia genética es una rnedida de divergencia entre dos distribuciones de probabilidad
p= (p,,...,p„)", q= (q,,..., q„)`. Si se conoce una matriz de covarianzas ^,
asociada a una distribución a=(a,,...,a„)', es decir,
DIS1 Ati('1-^^ f:tiT^^E)Iti^TI(.'^tti
Q;^ -
a; (1 - a^}
_ a; a^
i=j
;^ j
entonces podemos utilizar una distancia de Mahalanobis singular
(p-q)' ^i(p-q)
(51}
siendo ^- una g-inversa de ^. Sin embargo, ^ depende de la distribución de
A,,...,A,,, que es distinta en cada población. Podríamos entonces, tomar, por
ejemplo, a; _(p; + q;} / 2, con lo cual se Ilega a la expresión
n
2^
,- ^
(p^ _ q^ ) 2
(p; + q; }
(52)
que ya había sido propuesta en térrninos practicamente iguales por
Sanghvi (1953). Otros autores han propuesto diferentes variantes de {52}
que difieren en la forma de estimar ^(Steinberg et al., 1966; Balakrishnan
y Sanghvi, 1968; Kurcynski, 1970).
Otro enfoque, quizás más razonable dadas las propiedades discutidas en
la sección 5.3., consiste en definir una distancia geodésica entre p y q, es
decir, proporcional a
n ^______
arcos ( ^ ti p; Q; }
^^ ^
(53)
Esta es la distancia de Bhattacharyya (1946), cuya interpretación geométrica es un arco de circunferencia máxima entre dos puntos de una esfera
unidad en Rn. Puede probarse también que (53) viene a ser una aproximación asintótica de una distancia de Mahalanobis {Mardia et al., 1979).
Véase también (48).
La distancia (53) ha sido aplicada a la Genética (a sugerencia de R.A.
Fisher) por Edwards y Cavalli-Sforza (1964} directamente o tomando la
cuerda en lugar del arco en Cavalli-Sforza y Edwards (1967). También se
han utilizado distancias proporcionales a
n
^ I p; - q; I
,_^
( 54}
en Prevosti et al. (1975) y Thorpe (1979) (véase sección 6.1.).
Todas estas distancias son, de hecho, distancias geométricas en espacios
de dimensión igual al número de alelos en un locus. Pero si hay una
mutación, debemos añadir una dimensión mientras que si un alelo se
^ r ^r^^^,r Ec -^ r ^r^ ^^c^r ^^
extingue, debemos sustraer una dirr^r^nsión. Conno considerar el conjunto,
practicamente ilimitado, de posibles alelos en un lacus complicaría excesi-vamente ei problema, Nei (1971, 1972) propone una distancia genética
para estimar el número de sust^tuciones de alelos por Iocus
D = - fog J12 / (J, J2)^
siendo J,, J2 y Jf2 los valores esperados de ^p?, ^q?y ^p;q;. Obsérvese que
D es una distancia entre poblaciones basada en la medida de diversidad de
G ini-Simpson 1-^p? Isección 6.1.).
En genética se han ut,ilizado también, otros tipos de distancias. Frommel
y Holzhi^tter ( 1 985) consideran una distancia entre aminoácidos inversamente proporcional a la probabilidad de reemplazamiento mutuo. Coll, Cuadras y Egozcue ( 1 980} ut;lizan una distancia del tipo de Mahalanobis para
situar los cromosomas humanos en el plano metafísico.
Los inconvenientes y ventajas de las distancias genéticas han sido objeto
de polémica ( Balakrishnan y Sanghvi, 1968; Fitch y Nee1, 1969; Edwards,
1971; Goodman, 1972; Prevostí, 1974; Neí, 1 987). Las tres últimas referencias ( Prevosti, Goodman, Neí) contienen un amplio estudio sobre las
distancias genéticas. Véase también Constandse (1972).
7.3. Psicología
La medida de la proximidad entre objetos psicológicos y su representación geométrica, se consigue a través del concepto de distancia y de
disimilaridad, hasta el punto de que su estudio y apficaciones han desembocado en una rama del análisis de datos con fuerte personalidad: el
llamado "multidimensional scaling" (MDS}. La versión métrica del MDS, en
el que se supone que la matriz de distancias psicológicas es euclídea
{Teorema 1}, fue desarrollada por Torgerson (1958j. Sin embargo, las
distancias entre objetos psicoMógicos son, a menudo, el resultado de medidas subjetivas del tipo: 0=idéntico, 1=muy parecido, 2=bastante parecido,
3=poco parecido, 4=muy diferente. Las distancias resultantes suelen ser no
euclídeas, lo que motivó a Shepard (1982 a,b} y Kruskal { 1 964 a,b} a
desarrollar métodos para convertir las distancias en euc{ídeas por transformación monótona de las mismas, de modo que se preservara la preordenación entre los objetos a representar. Este es el M DS no métrico, tantas
veces utilizado en psicometría. véase aplicacíones en Romney et al.
(1 972}, Wish y Carroll (1982), Dunn-Rankin (1983). Para una exposición
teórica del MDS véase De Leeuw y Heiser (1982), Cuadras et a1. (1 985).
^4i
[)IST ^^ti(•IAS E:ti^T •^f)Iti T 1(^^^5
La ordenación de objetos a lo largo de un continuo psicológico, sugiere
una interesante aplicación del concepto distancia en Psicología. Supongamos que un grupo de sujetos tienen que ordenar n objetos A,,...,A„ de
acuerdo con la cierta escala de valores f),,...,fl,,. Sea
p;;=P(A;> A;)
i,j=1,...,n
la proporción de sujetos que prefieren A; sobre A; en el sentido dP que
fI; > f^;. EI modelo de Thurstone ( 1927) supone que
r^; - r^;
p;; _ _ ^ ^ ( y) dy
siendo ^(y) la función de densidad normal standard. Obsérvese que si
f^, > fl; entonces p;; > 0.5, mientras que si tl, < f^; entonces p;; < 0.5. La
estimación de la escala f^,,...,fl„ presenta cierto grado de complejidad
(Coombs et al., 1981 ). Una alternativa consiste en definir la distancia
(Davison, 1983)
d(A;,A;) _ ^ p;; - 0.5 ^
que es función monótona de ^©; - ^; ^. La representación de los objetos
A,,...,A„ mediante M DS, a lo largo de la primera dimensión, proporciona la
escala deseada. Com^ ^ p;; - 0.5 ^ está acotado, una generalización razonable es
(55)
d(A;,A;) = I ^-' (p;;) I
donde ^i' es la función de distribución normal standard.
La tabla 2 contiene las frecuencias sobre 262 estudiantes al comparar
los defectos de los profesores de Estadística. Aplicando M DS sobre la
distancia no euclídea ( 5 5) se obtiene la ordenación ilustrada en la Figura 9.
Figura 9
O
A R T M
D
_i
C
F S T^^ U I ti T l(^^ i S P ^1 `^ ( 31 .-^
4bsérvese que D y C destacan camo peores defectos sobre !os demás.
TABLA 2
T
O
D
R
M
A
O
--
71
1 59
121
1 50
54
1 19
D
191
-
196
156
193
138
175
R
103
66
--
89
112
83
107
M
141
^106
1 73
-
1 60
83
111
A
112
69
150
102
-
75
91
C
208
124
179
179
187
-
175
T
i43
87
155
151
171
87
-
o= Falta de orden en fas explicaciones.
D= Conoce poco la materia (no sabe resolver dudasj.
R= Poca o mala relación con los alumnos.
M= No sabe motivar a los alumnos.
A= Falta de amenidad en las clases.
C= Poca claridad al explicar o escribir.
T= Exceso de teoría ^pocos ejemplos y aplicaciones).
C
nis^r,^tic i:^s FsT^^^is-ric^As
345
7.4. Arqueología
Supongamos que estamos interesados en ordenar cronológicamente n
objetos arqueológicos A,,...,A,,. Podemos irnaginar que los n objetos están
situados sobre una curva m-dimensional x=x(t), donde t representa el tiempo. En otras palabras, a cada objeto le asignamos unas coordenadas euclídeas
A; : (x, lt;), x2(t;),...,x^,(r;) )
i = 1, . . ., m
donde t; representa el tiempo cronológico relativo a A;.
Los objetos presentarán una ordenación cronológica
A; ^ < A;2 < . .
si se verifica
< t;2 < . . . < t;^r
Este problema, aparentemente complicado, se puede resolver mediante una
matriz de distancias. En efecto, supongamos que en relación a ciertas
características cualitativas y cuantitativas, podemos definir una matriz de
distancias 0=(^5;^), donde ^;^ es la distancia entre A; y A^. Entonces es de
esperar que la distancia será pequeña para objetos próximos en el tiempo y
grande para objetos lejanos en el tiempo. La representación de los objetos
por M DS permitirá su ordenación cronológica. Generalmente, la representación 2-dimensional adopta la forma de herradura (Kendall, 1971).
Spaulding ( 1971) propone el siguiente ejemplo. Se desean ordenar 5
herramientas cortantes A, B, C, D y E que han sido fabricadas utilizando
piedra, bronce o hierro de acuerdo con la matriz de incidencia:
Piedra
Bronce
Hierro
A
0
1
0
B
1
1
0
C
0
0
1
1
0
0
1
1
0
D
E
E^! Zt^1^;Tlc ^^ t.^F^^^tic^t_.-^
A^ plicando análisis de coordenadas principales a la matriz de distancias
calculada utilizando (5), donde s,^ es el coeficiente de similaridad de Jaccard, se abtiene la representación de !a figura 8, que sugiere que la
datación relativa de 1as herra m ientas es
EcBcAcccD
que concuerda con el orden cronológico natural: piedra, piedra-bronce,
bronce, bronce-hierro, hierro. Véase también Orton (1988).
`
A
Fíg. 10.- ordenacián cronolágica de 5 herramientas teniendo en c^enta la presencia de
diversos rnateriales 4piedra, bronce, hierro^.
7.5. Lingiiística
EI análisis de !as dimensiones semánticas latentes en un conjunto de
paiabras, es otra interesante aplicación de las distancias estadísticas. En
este caso no se trata de encontrar una dimensión lineal (como en ef
modelo de Thurstone, sección 7.3. ^ , o una dimensión curvilínea (como en e!
caso de la ordenación cronológicaj, sino diversas dimensiones que permitan explorar y ordenar e! conjunto de palabras estudiadas.
Partiendo de una matriz de distarícias sobre 23 adjetivos del castellano
relacionados con las nociones de peso y extensión espacial, Manzano y
Costermans (1 9761, aplicando M DS, obtienen 6 ejes que permiten ordenar
fos adjetivos a 10 largo de otras tantas dimensiones semánticas. En los
extremos de cada eje se situan dos adjetivos opuestos, comunicados por
un gradiente de adjetivos intermedios.
G^IS-(^Ati(.'I^,^>S E^.^i-.^DIS^^^^IC^^^
Otros ejemplos donde se aplican distancias estadísticas para explorar
dimensiones y estructuras semánticas (nombres de colores, familia de verbos "'to have"', nombres de profesiones, etc.), pueden verse en Romney et
a/. (1972). Véase también Morgan (1981 ).
7.6. Manova y comparación de experimentos
Consideremos el modelo lineal del análisis multivariante de la varianza
Y=X B+E
donde Y(nxp) es una matriz de datos, X lnxm) es una rr^atriz de diseño,
B(mxp) es una matriz de parámetros, E(nxp) es una matriz de errores
aleatorios. E contiene n filas estocásticamente independientes, cada una de
ellas con distribución N^(0, ^^.
EI concepto de distancia puede ser útil para estudiar diversos aspectos
de MANQVA. Por ejernplo, consideremos q funciones paramétricas estimables multivariantes (fpem)
^;=P;B i=1,...,4'
donde los vectores fila P' = (p;,,...,p;m) son combinación lineal de las filas de
X. Como es sabido, existe entonces un estimador insesgado y de dispersión
mínima para cada ^; (Teorema de Gauss-Markov). Generalizando la distancia de Mahalanobis (14) entre poblaciones, Cuadras (1 974) define la
distancia (al cuadrado) entre fpem
M^ (i,j) _ (^; - ^^)' ^-'(^' - ^^)
^56)
La distancia (56), combinada con técnicas de reducción de la dimensión en
análisis de datos, permite representaciones euclídeas de los niveles de un
determinado factor en un diseño multifactorial, con aplicaciones a Farmacología (Vallejo et al., 1975; Peris et al., 1975; Ballús et al., 1980), la
Sistemática (Cuadras, 1981 a) y la Agricultura (Oller y Cuadras, 1982b).
Véase también Cuadras ^1977, 1981b).
Una segunda aplicación consiste en definir distancias entre dos modelos
lineales Y; = X; B; + E,, i=1,2. Cuadras y R ios 11986) y R ios y Cuadras
11986) proponen diversas distancias, estudiando diferentes casos (univariante, heterocedástico, diferente matriz de diseño, multivariante, etc.) que
E.tiT^ ^>C)1ST I(^^^ i SP^^ti()L-^
^.^^
relacionan con ciertos contrastes de hipótesis. La distancia lal cuadrado)
para el caso X, = Xz = X es
L2=tra ^^^' (B, - 6^)' X X' ( B, - Bz) }
{57l
Véase también Burbea y Oller (1988) y algunas aplicaciones en Cuadras et
a/., (19851, Rios y Oller (1988^. La comparación de experimentos asi como
la equivalencia entre experimentos mediante distancias, ha sido estudiada
por Le Cam (1975).
7.7. Regresión cualitativa
Supongamos que deseamos plantear la regresión múltiple de una variable cuantitativa Y sobre p variables cualitativas ( binarias, categáricas, ordinales, etc.), y que disponemos de una muestra de n individuos. Un posible
camino, que evitaría la asignación de valores cuantitativos arbitrarios para
las variables cualitativas asi como los problemas de colinealidad, consiste
en obtener una matriz de distancias euclídeas d =(^5;^), donde ^;^ es la
distancia entre los individuos i,j calculada a partir de !a información entre
ambos contenida en las p variables cualitativas. Para calcular ^5;^ podemos
uti{izar ( 6) (variables binarias), ( 32) (variables categóricas) o el coeficiente
general propuesto por Gower (1971 ^ .
Sea ahora la matriz X(nxm) verificando (18), obtenida a partir de la
descomposición espectral de B(teorema 1). Con la matriz X convertimos la
información cualitativa sobre cada individuo en la información cuantitativa
contenida en las fiias de X, es decir, cada fila x; _(x;,,...,x;m) de X resume la
información cualitativa sobre el individuo i en relación con los demás
individuos, verificándose ^?^ _ (x; - x;)'{x; - x^).
Si y= (y,,...,y„)" es el vector de observaciones de la variable Y, proponemos el modelo de regresión múltiple
^; _ ^l -^- Xi7 /^ 1 -^ ... -^- Xim ^m + ei
Se puede entonces demostrar (Cuadras, 1 988) lo siguiente:
a/ Si las variables san binarias y el coeficiente de similaridad utilizanda es
el de Sokal y Michener {sección 2.1.), entonces el método propuesto y la
predicción obtenida mediante regresión múltiple clásica coinciden.
b1
EI caeficiente de determinación de Y sobre las variables cualitativas es
R2 = Y' X A^' X'Y / n sY
(58)
DISTAtiCIAS ESTADIS^TICAS
349
donde A= diag (^,,,...,^.m) contiene los valores propios de B.
c^ Consideremos ahora el problema de predecir e! valor y„+, de la variable
dependiente, conocidas las características cualitativas de un nuevo individuo n+ 1. Entonces podremos calcular las distancias del individuo n+ 1 a los
demás individuos:
U 1 n+ 1^
a2 n+ 1^'''^ an n+ 1
b = (b„ . • • bnn)^, siendo b;;(i=1,...,n) los
elementos diagonales de B, y siendo finalmente B- una g-inversa de B, la
predicción es
Indicando d - (^;n+, . . • ^ nn+l )^-
yn+l _-+
y ^2 (b-c^' B-y
(59r
7.8. Contrastes de hipátesis
Ciertas medidas de disimilaridad o divergencia entre distribuciones son
útiles para construir contrastes de hipótesis. La más conocida es
D„ = sup ^ S „(x) - F (x) ^
que mide, para una muestra aleatoria simple de tamaño n, la discrepancia
entre la función de distribución empírica S„(x) y la teórica. Dn interviene en
el test de Kolmogorov-Smirnov de bondad de ajuste de los datos a una
distribución.
Los contrastes sobre las medias en poblaciones normales multivariantes
que utilizan la T2 de Hotelling, están basados en la distancia de Mahalanobis. Así, en muestras de tamaño N, la hipótesis H^: ^c =^cp se decide
mediante el estadístico
T2 - N (x - ^^oy S-' (X _ ^^o ^
mientras que para el contraste Ho: ,u, _,u2 se utiliza
N , N2
N,+N2
- ,
, - -
(x - y) S- (x - y)
En el caso univariante, ambos contrastes son equivalentes al conocido
test t de Student. En general, las distancias estadísticas pueden aplicarse
para construir un contraste que sirva para comparar dos distribuciones F,G.
?^ `+U
ES^^f.^C)IS^T I('A F:SP.^tiOL.A
Sea r3(F,G} una distancia que vale cero si F! G. Supongamos que existe un
^
estadístico V que es función de una estimación ^( F, G) cuya distribución es
conocida cuando ^>(F,G) = 0. Entonces las distribuciones son distintas si V
es significativo. En el caso paramétrico se puede utilizar la distancia de
Rao, pudiéndose demostrar (Oller, 1983) que
, }
V= N' N2 b 2 F( G
N,+N2
sigue (asintóticarnente) la distribución ji-cuadrado con p(=número de variables) grados de libertad. En el caso no paramétrico se puede utilizar una
divergencia. Por ejempio, dadas dos distribuciones univariantes F,G, para la
divergencia
F Sx) +G ( y)
^(F,G) ^ ^ tF(x) - G(y))2 d (
2
)
existe un U-estadístico para estimar ó( F,G) {cuadras, 1986}. Análogamente, e! estadístico U de Mann-Whitney mide la discrepancia entre P(X < Y) y
el valor 2.
Para otros aspectos sobre este tema véase Rao(1 982). obsérvese que,
en un contexto similar, se pueden detectar "outliers" utilizando distancias.
7.9. Asociación estocástica y m^xima correlación
Ciertas divergencias permiten medir el grado de dependencia estocástica
entre dos variables aleatorias X,Y, con distribución H(x,y) y marginales F(x),
G (y). Por ejemplo,
t) _^( H(x, y) - F Ix) G ( y) ) x d^^
donde d^^ puede ser dxdy, dF(x)dF{y} o dH (x,y}. En el caso a= 1, d,c^ = dxdy, f^
es la covarianza entre X,Y. También es posibie relacionar H con los coeficientes de correlación por rangos de Kendal! y el grado de correlación de
Spearman ( Cuadras, 1985^.
Fréchet (1957} considera una clase de distancias entre X, e Y
dH(X,Y) = EH ^ f( ^ X- Y ^)]
(6^}
donde f es una función creciente subaditiva en R+ con f(o) = 0. Dadas las
distribuciones marginales F,G, el problema de encontrar las distribuciones
DISTANC'IAS ESTADISTI('AS
351
conjuntas H tales que 160) es un valor extremo, ha sido considerado por
diversos autores (Hoeffding, Fréchet, Bass, Dall'Aglio, Cambanis, Tchen,
etc. ).
Por ejemplo, para f(u)=u2 se verifica
d,,.^,. (X,Y) < dH 1X,Y) < d^(X,Y)
donde
H+Ix, y) = min { F(x1, G( Y) }
H- (x, y) = min { F(x) + G( y) - 1, 0}
son las distribuciones, Ilamadas cotas de Frechet, cuyas marginales son F y
G. H- , H+ son las distribuciones que dan mínirna y máxima correlación
entre X, Y( Hoeffding, 1940). Las cotas extremas de 160) para f(u1= ux,
a> 1, han sido estudiados por Dall'Aglit^ (1972). En general, este problema
conecta con el de la construcción de distribuciones bivariantes con marginales, dadas, y tiene interesantes aplicaciones en programación lineal, mecánica cuántica, simulación estadística, biometría, etc. Véase Ruiz-Rivas et
al. (1979), Cuadras y Augé ( 1981), Cuadras (1985), Sánchez ( 1986),
Ruiz-Rivas y Cuadras ( 1988).
Finalmente la distancia de Rao puede sernos útil para definir una medida
de asociación entre dos vectores aleatorios X=(X,,...,XP), Y=(Y,,...,YQ). Supongamos que la distribución es Np+Q(^^ ,^) con
ran ^12 = r
Consideremos la distribución N^Q(,c^, ^o) , siendo
E„ 0
0 ^2z
Desde luego, si ^_^o , X es independiente de Y. La distancia de Rao
entre ambas distribuciones (Carmona y Cuadras, 1 987) es
R(X,Y) _^ ^
^ (/09(1 - ^?)
^ /og(1+^)
2 ^!^
/, )' - ;^.,
/, (1-^.)
/, ^^
donde p, >...> p, son las correlaciones canónicas entre X,Y. Entonces
R(X,Y) puede interpretarse como un índice de asociación estocástica entre
X e Y, que puede generalizarse a cualquier otra farnilia de distribuciones.
f_S^T,->DIS^TIC'A ESP-^tit)l_,A
^5?
SUMMARY
STATISTICAL DISTANCES
This paper is concerned with the application of distance functions to statistics and data analysis. Closed form expressians af
distances and similarity coefficients between individuals and populations are exposed and discussed. Some applications to biology, genetics, psichology, archaeology, linguistics, manova,
regression and stochastic association are also included.
Key words: Mahalanobis distance, ^ao distance, ultrametric distance, similarity coefficients, measures of divergence.
AMS 1980: 62 H2 5; 62 H30; 62 P99.
8.
BIBLIOGRAFIA
AMARI, S. 11985). Differential geometrical methods in statistics. ^ecture notes in statistics, 2$.
Springer Verlag, Berlín.
ARCAs, A. Í1987). Sobre la represeniación de un conjunto mediante arboles aditivos. Questiio, 1 1
(2), 39-50.
ARCAS, A. y CUADRAS, C. M. (1987). Métodos geométricos de representación mediante mode%s
en árbal. Pub. de Bioest. y Biomat., 20, Universidad de Barcelona.
ATKINSON, C. y MITCHELL ,
A. F. S. i 1981). Rao s distance measure. Sankhya, 43 A, 345-365.
L. D. (1968). Distance between popu/ations on the basis of attribute
data. Biometrics, 24, $59-865.
BALAKRISHNAN, V. y SANGHVi ,
Estudio de dos
ansioliticos (1'^iazepam y CJobazam) mediante una prueba de conducción de automóviles. Rev.
Dep. Psiquiatria, Fac. Medicina, Barcelona, 7, 107-122.
BALLUS, C., CUADRAS, C. M., MALGA, A., SANCHEZ-TURET, M. y VALLVE, C. ( ^ 98O) .
J. P. y
Masson, Paris.
BARTHELEMY ,
GHENC}CHE ,
A. (1988). Les arbres et les representations des proximites.
BENZECRI, J. P. (1965). Prob/emes et Methodes de /a Taxinomie. Pub. Inst. Statistique Univ. Paris,
Rennes et Paris.
BENZECRI, J. P. 11976). L'Analyse des Donnees /. La Taxonomie. L'Analyse des Donnees.
L'Analyse des Correspondances. Dunod, París.
II.
BERNARDO, J. M. (1 981 ). Bioestadística. Una perspectiva Bayesiana. Vicens-Vives, Barcelona.
B ER NAR DO, J. M. (1 98 7). Approxímations in statistics from a decision-theoretica/ viewpoint. Probability and Bayesian Statistics {R. Vierte, Ed.) 53-60, Plenum, N. York.
B HATTACHARYYA, A. (1946). On a measure of divergence between two mu/tinomia! populations.
Sankhya, 7, 401-406.
BISHOP, Y. M. M., FIENBERG, S. E. y Ho^LAND, P. W. (1975). Discrete multivariate ana/ysis,• Theory
and Practice. Mit Press, Cambridge, Mass.
DISTA^1('1,45 F:STA[^ISTI(^AS
353
BUNEMAN, P. (1971 ^ . The recovery of trees from measures of dissimilarity. En: Mathematics in
the Archaeological and Historical Sciences (F. R. Hodson, D. G. Kendali y P. Tautu, Eds.),
387-395, Edinburgh University Press.
BURBEA, J. (1986). lnformative geometry of probability spaces. Expositiones mathematicae, 4,
347-378.
BURBEA, J. y OLLER, J. M. (1988). /nformation metric for univaríate linear elliptic models. Stat. and
Decisions, 6, 209-221.
BURBEA, J. y RAO, C. R. (1982a). Entropy differentia/ metric, distance and divergence measures in
probability spaces: a unified approach. J. of Multivariate Analysis, 12, 575-596.
BURBEA, J. y RAO, C. R. (1982b). Differential metrics in probability spaces. Prob. math. statist., 3,
1 1 5-132.
CAILLIEZ, F. (1983). The ana/ytical so/ution of the additive constant problem. Psychometrika, 48
(2 ), 305-308.
CAILLIEZ, F. y PA^ES, J. P. (1976). lntroduction a l analyse des donnees. Smash, Paris.
CALVo, M. (1988). Sobre la geometria informacional del mode% normal mu/tivariante. Aplicaciones a la Bio%gía. Tesis doctoral, Universidad de Barcelona.
CANTON, E. y SANCHO, J. (1976). Análisis numérico de un grupo de Pseudomonas aeróbicos.
Microbiol. Española, 29, 59-73.
CARMONA, F. y CUADRAS, C. M. (1987). Measures of multívariate association based on the Rao ^
distance. Analyse statistique des grandes tableaux et donnees d'enquete (T. Aluja, M. Marti,
Eds.), 181-184, Barcelona.
CARROLL, J. D. (1976). Spatia/, non-spatia! and hybrid models for scaling. Psychametrika, vol.
41 (4), 439-463.
CAVALLI-SFORZA ,
L. L. y EDWARDS, A. W. F. (19671. Phy/ogenetic ana/ysis: Models and estimatíon
procedures. Evolution, 21, 550-570.
C I R E R, A. M.(19 8 7). A plicación de técnicas es tadís ticas multivarian tes a las pob/aciones del
Lacertido Podarcis Pityusensis (Bosca, 1883). Rev. Esp. de Herpetología, 2, 145-163.
CLARK, P. F. (19521. An extension of the coefficient of divergence for use with multiple characters.
Copeia 1952, 61-64.
COLL, M. D., CUADRAS, C. M. y E^ozcuE, J. (1 980). Distribution of human chromosomes on the
methaphase plate: Symmetrical arrangement in human male cells. Genet. Res., 36, 219-234.
CONSTANDSE, T. S. (1972). Coefficients of bio%gícal distance. Anthrop. pub., Oosterhout. Humanities Press, N. York.
CooMBS, C. H., DAwES, R. M. y TVERSKY, A. (1981). /ntroducción a la Psico%gía Matem^tica.
Alianza universidad textos, Madrid.
COOPER, L. G. (1972). A new solution to the additive constant problem in metric mu/tidimensional
scaling. Psychometrika, 37, 31 1-322.
CORTER, J. E. (1982). ADDTREE/P: a PASCAL program for fitting additive trees based or^ Sattah
and Tversky s ADDTREE algorithm. óehavior research and instrumentation, 14(3), 353-354.
CRITCHLEY, F. (1985). Dimensionality theorem in multidimensional scaling and hierarchical c/uster
analysis. Fourth int. symp. data analysis and informatics. Vol. 1. Versailles: Inst. nat. de
recherche en inform. et en autom, 85-1 10.
CsiszAR, I. (1963). Eine informationstheoretische Ungleichung und ihre Anwendung auf den
Beweis der Ergodízítat von Markoffschen Ketten. Publ. Math. Inst. Hungar. Acad. Sci. 8, Ser.
A, 85-108.
CsiszAR, I. (1967). lnformation-type measures of difference of probability distributions and indirect
observations. Studia Sci. Math. Hungar. 2, 299-318.
ESTA[1lST1C'A ESF'AtiIC)t_A
^54
CsiszAR, I. (19721. A class of ineasures of infornnativity of observation channels. Periodica Math.
Hungar. 2, 191-213.
CsiszaR, I. (1 975). l-divergence geometry of probability distríbutions and minimiZation problems.
Ann_ Probab. 3, 146-158.
CUADRAS, C. M. (1974). Análisís discriminante de funciones paramétricas estimab/es. Trab. estad.
inv. oper., 25(3), 3-31.
CuADRAS, C. M.(19 7 7). Sobre /a reducción de la dimensión en análisís estadístico multivariante.
Trab. estad. I. lJp., 28, 63-76.
CuADRAs, C. M. (19$0). Metodes de representacio de dades i/a seva aplicacio en Bio%gia. Col.
Soc. Catalana Biología, 13, 95-133.
CuADRAS, C. M. (1 981 a). Métodos de Análisis Mu/tívariante. Eunibar, Barcelona.
CUADRAS, C. M. (1981 b). Análisis y representación mu/tidimensiona/ de /a variabi/idad. Inter. sym.
concept. meth. paleo., Barcelona, 287-297.
CUADRAS, C. M. (1983). Análisis algebráico sobre distancias u/tramétricas. Actas 44 per. de
sesiones del Instituto lnternacional de Estadística, Madrid. cont. libres, vol. II, 554-557.
C U A D R As, C. M.(19 8 5). Sobre medidas de dependencía estocástica in varíantes por transformaciones monótonas. Hom. F. D'A. Sales, cont. cient., Fac. Matem. Univ. Barcelona, 28-47.
CUADRAS, C. M. (1986). Problemas de Probabi/idades y Estadistica. Vo% 2. PPU, Barcelona.
CUADRAS, C. M. (1987). Dimensiona/ity and number of clusters in mu/tivariate ana/ysis. Analyse
statistique des grandes tableaux et donnees d'enquete (T. Aluja, M. Marti, Eds.), 53-67,
Barcelona.
CUADRAS, C. M. (1988). Métodos estadísticos aplicab/es a/a reconstruccíón prehisiórica. Munibe.
6, 2 5-33.
CUADRAS, C. M. y Au^E, J. í 1981 ). A continuous general multivariate distribution and its properties. Comm. in stat., theor. meth., A10(4), 339-353.
CUADRAS, C. M. y CARMONA, F. (1983). Dimensionalitat euclidiana en distancies u/trametriques.
Questiio, 7(1), 353-358.
J. M., ARCAS, A. y RMos, M. 11985). Métodos Geométricos de la Estadística. Questiio, 9(4), 219-250.
CUADRAS ,
C. M.,
OLLER ,
CuADRas, C. M. y OLLER, J. M. (1987). Eigenanalysis and metric multidimensional scaling on
hierarchical structures. Questiio, 1 1(3), 37-58.
CuADRas, C. M. y R^os, M. (1986). A áistance between multivariate I;near models and its
properties. I I catalan intern. symp. on stat. Vol. 2, cont. paper, 81-$4, Barcelona.
CUADRAS, C. M. y Ru^z-RivAS, C. (1 9801. Una contribución al análisis de proximidades. Pub.
Secc. Matem. Univ. Au, Barcelona, 22, 103-106.
D`ANDRADE, R. G., QUiNN, N. R., NERLOVE, S. B. y RQMNEY, A. K. (1 972)
. Categories of Disease in
American-English and Mexican-Spanish. En: Multidimensional Scaling. Vol. 2. Applications (A.
Kímball Ronney, Ed.) Seminar Press, N. York.
DALL'AGLIO, G. 11972). Frechet c/asses and compatibility of distribution functions.
mathematica, 9, 131-1 50, Academic Press, N. York.
Symposia
DAVisoN, M. L. 11983). Multidimensiona/ sca/ing. J. Wíley, N. York.
DAWID, A. P. í 197 5). Discussion on Professor Efron ^ paper r1975). Ann. Statist., 3, 1231-1234.
DE LEEUw, J. y HEISER, W. 119$2). Theory of multidimensional scalíng. En: Handbook of Statistics. Vol. 2, (P. R. Krishnaiah, L. N. Kanal, Eds.), North-H©Iland pub. co., Amsterdam.
DEL CASTiLLO, M. (1 986). /rJueva aproximación metoda/ógica a/ estudio de la biogeografía de los
peces epicontinentales. Oecología Acuática, 8, 71-94.
^55
C)ISTAN<"IAS E^.^T^^AC)ISTI(^'AS
DUNN-RANKIN ,
P. (1983). Scaling Methods. Lea, Hillsdale, N. Jersey.
EDWARDS, A. W. F. (1971 ). Distances between populations on the basis of genic fiequencies.
B iometrics, 2 7, 87 3-881.
EDWARDS, A. W. F. y CAVALLI-SFORZA, ^. L. (1 964}. Reconstruction of evo/utionary trees. En:
Phenetic and Philogenetic classification (V. H. Heywood, J. Mcneile, Eds.1, 67-76. The
Systematics Assoc. Publ. no. 6, London.
EFRON, B. (197 5). Defining the curvature of a statistical prob/em (with applications to second
order efficiencyl. The Annals of Statistics, vol. 3, no. 6, 1 189-1242.
ESCARRE, A. (1972 ^ . Essai d'application des methodes de /a Taxonomie Numerique a l'etude d'une
chenaie dans la Vallee de Burunda (Navarre). Inv. Pesq., 36(1), 7-14.
FERENTINOS, K. y PAPAIOANNAU, T. (1 981 }. New parametriC measures Of informatiOn.
Information
and control, 51, 193-208.
F I Tc H, W. M. y N E E L, J. V.(1 9 6 91. The philogenetic relationships of s ome lndian tribus of Central
and South America. Amer. J. Human genetics, 21, 384-397.
FRECHET, M. (1957). Sur la distance des deux lois de probabilite. Publ. inst. stat. Univ. Paris, 6,
185-198.
FRQMMEL, C. y HOLZHUTTER ,
H. G. (1985). An estimate of the effect of point mutation and natural
se%ction on the rate of aminoacids replacernent in proteins. J. of molecular evolution, 21,
233-257.
GOODMAN, M. M. (1972). Distance analysis ín bio%gy. Sys. zool., 21 (2), 174-186.
GowER, J. C. (1966). Some distance properties of /atent root and vector methods in mu/tivariate
analysis. Biometrika, 53, 31 5-328.
GowER, J. C. (1967). A comparison of some methods of cluster ana/ysis.
623-637.
Biometrics, 23,
GOWER, J. C. (1971 a). Statistical methods of comparing diferent multivariate analysis of the same
data. En: Mathematics in the archaeological and historical sciences (Hodson, F. R., Kendall,
D. B. y Tautu, P. Eds.) Edinburgh University Press, 138-149.
GowER, J. C. (1971 bl. A general coefficient of similarity and some of its properties. Biometrics
27, $57-871.
GOWER, J. C. (1982 ^ . Euclidean distance geometry. Math. scientist, 7, 1-14.
GOWER, J. C. y BANFIELD, C. F. (1975). Goodness-of-fit criteria for hierarchical classification and
their empirical distributions its relation with the external variables. En: Proceedings of the 8th
inter. biometric conference, 347-361.
G ow E R, J. C. y LE G E N D R E, P. (1 9 8 6 ). Metric and Euclidean Properties of Dissimilarity coefficients.
J. of Classification, 3, 5-48.
HAVRDA, J. y CHARVAT, F. (1967). Quantification method in classification processes: Concept of
structural alpha-entropy. Kybernetika, 3, 30-35.
HOLMAN, E. W. (19721. The relation between hierarchical and euclidean models for psychological
distances. Psychometrika, 37, 417-423.
JACCARD, P. (1900). Contribution au probleme de limmigration post-glaciaire de la flore alpine.
Bull. Soc. Vaudoise sci. nat. 36: 87-130.
JARDINE, C. .^., JARDINE, N. y SIBSON, R. (1 967)
. The structure and construction of taxonomic
hierarchies. Math. Biosci. 1, 173-179.
JARDINE, N. y SIBSON, R. (1971). Mathematical Taxonomy. J. Wiley, N. York.
JoHNSON, S. C. (1967). Hierarchicalclustering schemes. Psychometrika, 32, 241-254.
KRUSKAL, J. B. (1964a). Multidimensional scaling by optimising goodness of fit to a nonmetric
hypothesis. Psychometrika, 29, 1-27.
E^.ST ,^1 DIST It'A ESPA ti^C)l_.A
KRUSKAL, J. B. (1 964b). Nonmetric multidimensional scaling.' a numerical method. Psychometrika,
29, 1 1 5-129.
KULCZYNSKI, S. Í i 928). Die Pflanzenassoziationen der Pieninen. Bull. Int. Acad. Polonaise sci. et
lettres. Classe sci. math, et nat., serie B, suppl. II (1927): 57-203.
KURCYNSKI, T. W. (19701. Generalized distance and discrete variables. Biornetrics, 26, 525-534,
LANCE, G. N. y WILLIAMS, W. T. (1 967i. Mixed-data classificatory programs. l. Agg/omerative
systems. Aust. computer J. i: 15-20.
LE CAM, L. (1975). f)istance between experiments. En: A survey o# statistical design and linear
models (J. N. Srivastava, Ed.) North-Nolland, pub. co., Amsterdam, 383-396.
LEGENDRE, L. y LEGENDRE, P .
(1979). Eco%gie Numerique. Masson, Paris.
LEGENDRE, P., ^ALLOT, S. y LEGENDRE, L. (19$5). SUCCeSS%On Of SpeCÍeS wíthin a community.'
chronolvgical clustering with app/ications to marine and freshwath zoop/ankton. American
naturalist, 125, 257-258.
L^ESE, F. y VAJDA ,
I. (1987). Convex statistical distances. BSB, Teubner, Leipzig.
LINGOES, J. C. (19711. Some boundary conditions for a monotone ana/ysis of symmetric matrices.
Psychometrika, 36, 195-203.
P. C. (1936). On the generalized distance in statistics. Proc. nat. inst. sci. India,
2(1), 49-55.
IVIAHALANOBIS ,
métodos para e/ estudio psico/ógico del léxico: Su
aplicacicín a algunos adjetivas de la lengua española. Latino americana de psicol., 8(2),
171-191.
MANZANO, M. y COSTERMANS, J. (1 976). DOS
MARDIA, K. V. (1977j. Maha/anobis distances and ang/es. En: Multivariate Analysis-IV (P. R.
Krishnaiah, ed.), 495-51 1. North-Holland pub, co., Amsterdam.
MARD^A, K. V. (1978). Some properties of c/assical multidimensianal scaling. Comm. stat., A7
(13), 1233-1241.
MARDIA, K. V.; KENT, J. T. y BiBeY, J. M. (19791. Mu/tivariate analysis. Academic Press, London.
MATUSiTA, K. (1955). Decision ru/es, based on the distance for problems of fit, two samples, and
estimation. Ann. math. statist. 26, 631-640.
MATUSiTA, K. (19641. Distance and decision rules. Ann. inst. statist. math. 16, 305-320.
MITCHELL, A, F. s., (1988). Statistica/ Manifo/ds of Univariate E//iptic Distributions. International
statistical review, 56, 1, 1-1 6.
MORGAN, B. J. T. (1981). Three applications of inethods of c/uster-analysis. Statistician, 30,
205-223.
NEi, M. (1971 ^ . lnterspecific gene differences and evolutionary time estimated from e%ctrophoretic data on protein identity. Arner. natur. 105: 385-98.
NEa, M. (1972). Genetic distance between populations. Amer. natur. 106: 283-92.
NEi, M. (1987). Molecular evolutionary genetics. Columbia University Press, New York.
O H S U M I, N. y N A K A M U R A, T. (1 9 81) . Some properties of monotone hierarchical dendrogram in
numerica/ classification. Proc. inst. statist. mathem. (Tokio), 28(1), 1 1 7-1 33.
OLLER, J. M. (1 983 }. Utilización de m^tricas Riemannianas en Análisis de Datos Multidimensionales y su aplicación a la Biologia. Pub. de Bioestadística y Biomatemática, 1 1, Universidad de
Barcelona.
OLLER, J. M. (19871. lnformation metric for extreme value and logistic probability distributions.
Sankhya, 49 A, 1 7-2 3.
OLLER, J. M. y CUADRAS, C. M. (1982a1. Defined Distances for some probabillty distributions. En:
Proceed. II world conf. math. serv. man (A. Ballester, D. Cardus, E. Trillas, eds.) Un. pol. de
las Palmas, 563-565.
DISTANC^IAS ESTADIST ICAS
457
C. M. (1 982b). Representación canónica en MANOVA: Ap/icación a una
clase de Diseño anidado. Questiio, 6(3), 221-229.
OLLER, J. M. y CUADRAS ,
OLLER, J. M. y CUADRAS, C. M. (19831. Sobre una distancia definida para la distribución normal
multivariante. XIII Jorn. de Estad., I. Op. e inform., D. de Estadistica U. de Valladolid, actas
Vol. II, secc. III, 32-36.
J. M. y CUADRAS , C. M. (1985). Rao s distance for negative mu/tinomial distributions.
Sankhya, 47 A, 75-83.
•
OLLER ,
O LL E R, J. M. y C U A D R A S, C. M.(19 8 7). Sobre ciertas condiciones que deben verificar /as dis tancias en espacios probabilísticos. Actas XV reunidn seio, Vol. 2, 503-509, Universidad de
Oviedo.
ORLOCI, L. (1967). An agglomerative method for classifícation of plant communities. J. Ecol., 55,
193-205.
ORTON, C. ( 19881. Matemáticas para arqueólogos. AlianZa Editorial, Madrid.
PEARSON, K. (19261. On the coefficient of racial likeness. Biometrika 18, 337-343.
PER E2, R., G I L, M . A. y G I L, P. (19 $ 6 ). Estimating the uncertainty associated with a variab/e in a
finite population. Kybernetes, 15, 2 51-2 56.
PERIS, A., ROMEU, J. y CUADRAS, C. M
. (1975 ^ . Valoración de /a actividad de/ Ludiamil a través de
un ensayo mu/ticéntrico. Arch. Neurobio. 38(5), 471-484.
. The canonical analysis applíed to the taxonomy and
evolution of the genus Timarcha Lati. (Co% Crysomelidae). Mediterránea, 1, 13-2$.
PETITPIERRE, E. y CUADRAS, C. M. (1 977)
PREVOSTf, A. (1974). La distancia genética entre pob/aciones. Miscellanea Alcobe, Univ. Barcelona, 109-1 18.
PREVOSTI, A., OCAÑA, J. y ALONSa, G. (197 51. Distances between popu/ations of Drosophi/a
Susbobscura based on chromosome arrangement frequencies. Theor. appl. genetics, 45,
231-241.
PRUZANSKY, S., TVERSKY, A. y CARROLL, J. D. (1 982 ) .
Spatial VeISUS tree representations Of
proximity data. Psychometrika, 47(1), 3-24.
RAO, C. R. (1945). lnformation and the accuracy attainab/e in the estimation of statistical
parameters. Bull, Calcutta math. soc., 37, 81-91.
RAo, C. R. (19481. On the distance between two populations. Sankhya, 9, 246-248.
RAO, C. R. (1954). On the use and interpretation of distance function in statistics. Bull. int. stat.
inst., 34, 90-97.
R Ao, C. R . (19 8 2). Diversity and dissimilarity coefficients: A unified approach. Th eor. Pop.
Biology, 21(1), 24-43.
,
RAPOPORT, A. y FILLENBAUM, S. (1 97 2 ) .
An Experimental Study of Semantic StructureS. En:
Multidimensional Scaling. II. ( A. K. Romney, R. N. Shepard y S. B. Nerlove, eds.), 96-131.
Seminar Press, New York.
REYMENT, R. A. (1973). The discriminant function in systematic bio%gy. En discriminant analysis,
31 1-337 (T. CACOULLOS, ed.). Academic Press, New York.
Rlos , M. y CUADRAS , C. M. (1986). Distancia entre Mode%s Lineales Normales. Questiio, 10(2),
83-92.
Rlos, M. y OLLER, J. M. (1988). Rao distance between mu/tivariate linear normal mode/s and
application to the classification of response curves. Sometido a: Biometrics.
ROMNEY, A. K.; SHEPARD, R. N. y NERLOVE, S. B. (EdS.) ( 1972 ^ . Multidimensiona/ scaling. Theory
and applications in the behavioral sciences. Vo% ll. Applications. Seminar Press, New York.
Rulz-RIVAS, C. y CUADRAS, C. M. (19$8). lnference properties of a one-parameter bivariate family
of distributions with given marginals. J. of Multivariate Analysis, 27 ( 2), 447-456.
f^ST^C)ISTI(`^^1 E.SP^^tit)L.A
Ru^z-R^vAS, C., UsoN, M. T., CUADRAS, C. M. (1 979). Alguns aspectes i aplications de la construccio de d^^ tribucions bivariants. Questiio, 313 ), 12 1-1 2 7.
RussELL^ P, F. y RAo, T. R. (1940). On habitat and association of species of anophelíne larvae in
south-eastern Madras. J. Malar. Inst. India 3: 1 53-1 78.
SALICRU, M. (1987). Medidas de divergencia en análisis de datos. Tesis doctoral, Universidad de
Barcelona.
S A L 1 C R U,
M. y C U A D R A5 ,
C. M.(19 $ 7). Funciones de entropia as ociadas a medidas de CSlSZar.
Questiio, 1 1(3 ^, 3-12.
SAnICHEZ, P. (19861. Constiucción de distribuciones con marginales multivariantes dadas. Questiio, Vol. 10, N.° 3, 1 13-141
SArTATH, S y TVERSKY, A. (1977). Additíve similarity trees. Psychometrika, 42(3), 319-345.
S C H OE N B E R G, I. J.(19 3 5 ^ . Remarks to Maurice Frechet ^ article's ur /a definition axiomatique d'une
classe d`espaces vectorieel%s distancies applicab/es vectoriel%ment sur % espace de Nilbert :
Ann. Math. 36, 724-732.
SEA^, H. L. 11964). Multivariate statistica/ analysis for biolagists. Methuend and Co. Ltd., London.
SEBER, G. A. F. (1984). Multivariate Observations. J. Wíley, New York.
SHEPARD, R. N. (1962a). The analysis of proxímities: multidimensional scaling with an unknown
distance function. l. Psychometrika, 2 7, 12 5-140.
SHEPARD, R. N. (1962b). The analysis of proximities: muitidimensional scaling with an unknown
distance function. /l. Psychometrika, 27, 219-246.
SKOVGAARD, L. T. (1984). A Ríemannian Geometry of the Multivariate Normal Model. Scand. J.
statist., i 1, 21 1-223.
SNEATH
, P. H. A. y
SOKAL ,
R. S. (1973). Numerical taxonomy. W. H. Freeman and Co., San
Francisco.
R. R. y MfCHENER C. D. (1958). A statistícal method for evaluating systematic relationships. Univ. Kansas sci. bull. 38. 1.409-1.438.
SOKALy
SORENSEN, T. (1948). A method of stab>ishing groups of equa! ampiitude in plant sociology based
on simi/arity of species content and its aplication to ana/yses of the vegetation on Danish
commons. B iological S K R., 5, 1-34.
STEINBERG, A. G., BLEIBTREU, H. K., KURCYNSKI, T. W. y MARTIN, A. C). (1 966) .
Genetic studies on
an inbred human isolated. En: Third int. Congress Human Genetics, Chicago (J. F. Crow. Ed.),
267-289.
TAKEUCHI, K., YANAI, H. y MUKHERJEE ,
B. N. (1982). The Foundations of Multivariate Analysis.
Wiley EI., New Delhi.
THORPE, J. P. (1979). Enzyme variation in taxonomy.• The estimation of sampling errors in
measurement of interspecíf genetic simi/arity. Bial. J. Linn. Soc., 1 1, 369-386.
THURSTONE, L. L. (1927). A/aw of comparative judgment. Psychological Review, 34, 273-286.
TORGERSON, W. S. (19581. Theory and methods of scaling. J. Wiley, New York.
VAJDA, I. (1972 ). On the f-divergence and singularity of probability measures. Period. math.
hungar. 2, 223-234.
VALLEJO, J., PORTA, A. y CUADRAS, C. M. (1975). lncidencias de los psicofármacos en la evolución
reumato/ágica de/ enfermo poliartrítico crónico. Medicina clinica, 64(9), 452-457.
WATERMAN, M. S., SMITHY, T. F.r SINGH, M., y BEYER, W. A. { 1 977)
. Additive evolucionary trees.
J. Theor. Biol., 64, 199-213.
WISH, M y CARROLL, J. P. (1 982). Multídimensional Sca/ing and its applications. En: Handkboak
of statistics, Vol.2 (P. R. Krisnaiah, L. N., Kanal, Eds.), 317-345. North-Pub. Co., Amsterdam.
DISTANCIAS ESTADtSTICAS
359
COMENTARIOS
^
BELEN CASTRO INIGO
Facultad de Ciencias Económicas y Empresariales
Universidad del País Vasco (Bilbao)
EI concepto de distancia juega un papel muy importante dentro de las
técnicas de análisis de datos, puesto que en las mismas, se trata de
representar individuos respecto a variables, en base a distancias o similaridades definidas sobre las matrices de datos.
Por ejemplo, el "análisis de componentes principales" y el "análisis canónico" utilizan variables cuantitativas, haciéndose uso en el primer caso, de
una distancia euclídea y en el segu^do de la distancia de Mahalanobis.
Poco queda que añadir sobre estas distancias al artículo del profesor Cuad ra s.
EI "análisis de coordenadas principales" se realiza sobre variables cualitativas y con distancias relacionadas con similaridades. Una técnica más
general que ésta y que a su vez trabaja también con índices de similaridad,
es el "análisis de proximidades" (M DS). Si bien en el artículo se enumeran
índices de similaridad sobre variables cuantitativas y cualitativas, se puede
mencionar la existencia de algunos aplicables a tablas mixtas, con variables
tanto binarias como cualitativas y cuantitativas. Entre ellos destaca el de
Gower (1971):
S;^ _^ S;^ k^ ^ W^^ k
k=1
k=1
w;^k es 1 ó 0 dependiendo de si la comparación considerada es válida para
k y, excepto en el caso de dicotómicas suele ser 0 cuando se desconozca el
valor de k en uno o ambos individuos. En dicotómicas w;^k es 0 cuando k
está ausente en ambos individuos.
t:S^TA[^IS"i l('A E::SPAtiOl_.4
3fiO
s,^k para binarias coincide con el de .Jaccard; en el caso de nominales es 1
si los individuos son iguales en k y 0 en caso contrario; para datos intervalo
s,,k = 1-^ x,,^ - x;,^ ^/ Rk can x;k el valor del individuo í en k y Rk el recorrído de
k.
Los índices de sirnilaridad adquieren también protagonismo en el campo
de los procesos estoc^isticos. Algunos (como el de Marley ( 1981 )) se han
obtenido a partir de las medidas discutidas par Shepard y Arabie (1979) y
Tversky { 1977). Así, por ejemplo, si X^ {t), para J c T= t x,, x2, ..., x„ }, siendo
T el conjunto de estímulos usados en el experimento, denota el número de
veces que el evento J ocurre en el tiempo t, se puede suponer que la
similaridad entre x; y x^ está basada en:
s.^(t)=
^{d ^ X(t)-a ^ X(t>- j^ ^ X^(t)}
,,
i@rJcT
i E JcT
t
i,j E JcT
j 6^JcT
j E JcT
donde ^, a, /^ son constantes.
Con relación a los índices de sirnilaridad es preciso mencionar que en
muchas aplicaciones aparece un claro elemento estocástico en 1os atributos para los individuos comparados. Esto ocurre cuando la similaridad de
los organismos individuales se determina en base a caracteres morfológicos y psicológicas. Situacianes de este tipo ocurren, no sólo en biología,
sino también en arqueología y crítica literaria. Los índices más utilizados
camo el de Jaccard, Sokal y Michener resuelven este problema muy pobremente. Par otro lado, distancias camo Sokal (1961), Sokal y Sneath
(1963) podrían tratarse desde el punto de vista probabilístico si la distribución de los atributos individuales es conocida. Ghent (1963) utilizó el
coeficiente 7 de Kendall como índice de similaridad entre comunidades de
plantas y animales, y aunque podría Ilevarse a un tratamiento probabilístico,
su aplicabilidad resultaría escasa donde los atributos son inconmensurables. Goodall { 1966) desarrolló un índice basado en probabilidad, que
puede aplicarse a atributos cualitativos, ordenados, métricos, pudiéndose
efectuar combinaciones de similaridades respecto a los diferentes atributos.
Este índice se comparó con el de Sorensen (1948) sobre datos de ocho
comunidades de tierra de pasto de Colorado.
Otra técnica a comentar dentro del análisis de datos es el "análisis
factorial de correspondencias" (AFC) que es apropiado para representar
tablas de frecuencias a las que se les aplica una distancia euclídea, la
jí-cuadrado. Dicha distancia, que a pesar de sus propiedades dentro de
esta técnica ha sido omitida en el artículo, se define para dos distribuciones
L,, L^ sobre el espacio de las distribuciones de probabilidad PJ con centro fJ
como:
DCSTANCIAS ESTAUISTI('AS
361
( ^;-^?)2/f;
II^C-^^11,z=^
J
/EJ
y adquiere su máxima aplicabilidad en AFC sobre dos poblaciones H; y H;,
en relación a los caracteres A,, ..., A,,, teniendo la forma:
d2(i, i') _ ^
jE J
(f^ - f ^ )^ / f^
con f^ = prob { A; / H; } y fj = frecuencia de A^
Autores como Piris (1986) han contribuido al estudio de la naturaleza de
la distancia ji-cuadrado.
Dentro del campo de la Estadística Matemática el concepto de distancia
adquiere una importancia fundamental. EI profesor Cuadras resume de una
manera excelente los aspectos en los que dicho instrumento se presenta
de una manera más notable en este campo. Quisiera recalcar que la mayor
parte de la literatu ra estadística reciente maneja las distancias para la
búsqueda de estimadores robustos. Huber (1964) propuso una clase de M
estimadores como soluciones a un problema minimax de este tipo.
Ante el mal comportamiento de estos procedimientos en situaciones en
las que propiedades como invarianza y simetría no se presentaban, fue
necesario efectuar una extensión de los mismos.
Wolfowitz ( 1957) publicó un paper introduciendo el método de mínima
distancia ( MD ^ , dando resultados consistentes y proporcionando ejemplos
de su uso. Knúsel ( 1969) examinó consideraciones sobre la robustez de
este método. Littell y Rao t1975) y Raa, Schuster, y Littell (1975) consideraron con más detalle el uso de la distancia de Kolmogorov para la
estimación M D. Holm ( 1976) sugirió la estimación M D como el método
más natural para algunos problemas de robustez.
Parr y Shucany ( 1980) estudiaron el comportamiento de los estimadores
(M D) con respecto a distancias como:
La distancia ponderada de Kolmogorov en R
DW(K,L) = sup ^ Ktx) - L(x) ^ yr (L(x) )
xER
La distancia ponderada de Cramer-von Mises
Ww (K,L) = j ^ (K(x) - Llx) )2 yr(L(x) ) dL(x)
La distancia del intervalo maximal de probabilidad de Kniper.
FSTA[`)ISTI("A E.SPA!tiC)LA
.^^i?
V(K,L) =
sup
^ (K(b) - K(a) i - (L(b} - LCa) ) ^
-^ ^.ó<b< m
Z8. b { K- L) ^ a J ^ { K (x} - L (x} }2 d L {x) + b {J^^ 1 K (x) } - L (x} ) d L {x) )2
una clase de discrepancias incluyendo los casos de Cramer-von
M ises W2( K, L}, de Watson U2 ( K, L) y Chapman para K y L funciones
de distribución definidas en un subconjunto ( común) de R.
Autores que en la actualidad trabajan sobre este tema serían Donoha y
Liu 419$8}.
Dentro de estos estimadores de mínima distancia destaca el basado en
la distancia de Hellinger ( M H D}. Este estimador ha sido conocido por ser
eficiente de primer orden en un modelo paramétrico multinomial (Rao
(1963} ). Más recientemente Beran (1977 ^ argumentó que un estimador
M H D para un modelo paramétrico contínuo debería ser robusto y mostró
que es asintóticamente eficiente para un modelo con soporte compacto.
Stather (19$1 }, Tamura y Boos (1986} dan extensiones a modelos con
soporte compacto. Simpson (1987 } enfoca la estimación M H D para datos
discretos, donde el modelo permite tener soportes infinitamente numerables. Este estimador ha sido aplicado a estudios de mutagenecidad
química.
Para acabar deseo felicitar al Profesor Cuadras por este magnífico artí
culo, que debe servir para reflexionar sobre este instrumento tan importante y utilizado dentro de la Estadística y en muchas ocasiones quizá poco
conocido.
BIBLiOGRAFIA
DoNOHO, D. L. y L^u, R. C. (1988} Patho%gies of some minr'mum distance
functionals. The Annafs of Statistic, Vol. 16, N.° 2
DONOHO, D. L. y L^u, R. C. (1988} The ' áutomatic" robustness vf minimum
distance estimators. The Annals of Statistic, Val. 16, N.° 2.
GooDA^^, D. W. (1966} ^ new similarity index based on prvbability. Biometrics, Vol. 22.
JAMBU, M. y LE6AUX, M. O. { 1983} Cluster Analysis and Data Analisis.
North-Holland.
MARLEY, A. A. J. (1981 } Multivarite stochastic processes compatible with
' áspect" models of similarity and choise. PSYCHO M ETR I KA, Vol. 46, N.°
4.
DiSTANCIAS EST;^DCSTICAS
P^R^s, J. M. (1986) Distancia Khi-cuadrado y diversidad sociopolítica. Tesis
doctoral.
TA M U R A, R. N. y B o o s, P. (19 8 6) Minimum ^-lel/inger Dis tance Es tima tion for
Multivariate Location and Covarianee. Journal American Statistical Association, Vol. 81.
WO^FOw^TZ, J. (1957) The Minirnum Distance Method. Annals of Mathematical Statistics, Vol. 28.
M,a PI LAR MARTI N- C UZMAN
Departamento de Economía Aplicada
Universídad Autónoma de Madrid
Este artículo tiene un gran interés como presentación coherente y muy
actualizada del estado de la cuestión en el estudio de las distancias estadísticas.
Es este un tema de incidencia creciente en la estadística aplicada. La
descripción de aplicaciones posibles que, sin pretensiones de exhaustividad,
incluye el autor en el apartado 7 nos da una idea de su gran utilidad.
Añadiré que las nociones de distancia y similaridad son también instrumentos básicos en el análisis económico, y en especial en un sector del mismo
actualmente en auge: la economía regional.
La presentación que realiza el autor de los distintos tipos de distancias
que pueden definirse imponiendo alternativamente propiedades diversas
me parece especialmente interesante, por su relación con algunos resultados básicos del análisis multivariante, sobre todo en las cuestiones de
agrupación y seriación. Así, el conglomerado jerárquico formado con elementos cuyas distancias sean ultramétricas es único, en tanto que una
distancia euclidea no ultramétrica puede dar lugar a múltiples opciones de
formación jerárquica de conglomerados, con resultados en general distintos.
Finalmente, quisiera hacer observar que la definición de similaridad que
el autor adopta no es 1a única existente. En la literatura estadística es
frecuente que se acepte como similaridad una aplicación positiva y simétrica que satisfaga además alguna condición de monotonicidad. Pero el
autor de este artículo impone un axioma especialmente restrictivo: que
S;; = 1. De acuerdo con su definición, el coeficiente de Russell y Rao,
definido como
a
p
3b^
EST.^RDISTI('.^ ESF'.A^I()1..4
es decir, número de caracteres presentes comunes dividido por el número
de características, puede no ser una similaridad.
La eliminación del axioma S„ = 1 permite incluir en el concepto de similaridad a los coeficientes habitualmente utilizados como tal, pero entonces
las transformaciones
Y
ó^i - v ' - S %i
pueden no conducir finalmente a una distancia, ya que podría ser h;; > 0
para algún i. La transformación de Gower, en cambio
ó,i = ^ S„ + Sii - 2 S,i
no presenta tal problema, y esta es otra de sus grandes ventajas.
JOSE M. GARCIA-SANTESMASES
(Universidad Complutense, MADRID)
Tema difícil de encontrarlo recogido, aunque sea parcialmente, queda ilustrado no sálo por la bibliografía que aporta, sino también por su versatilidad
y extensión.
EI enfoque dado al tema es doblemente atractivo. Por un lado presenta los
últimos resultados obtenidos por el autor y su equipo que juntamente con
otros ofrecen un útil estado del arte sobre este tema.
Por otro ofrece un amplio conjunto de aplicaciones algunas de ellas bien
comentadas, otras simplemente referenciadas que lo hacen particularmente
útil desde el punto de vista práctico.
Aunque es difícil la elección, creo que el tema del M DS merece un aparta-do separado y na a través de una aplicación.
Especialmente interesante tanto por su lectura como por los resultados
que presenta, por su fondo y su forma, es el capítulo dedicado a las ultramétricas. Echo en falta algoritmos para la obtención de éstas a partir de
desemejanzas como pueden ser los métodos subdominantes. Jardine y
Sibson { 1971), Sánchez (19??).
No parece natural, sin embargo, en un artículo de este tipo, la ausencia de
una referencia explícita a la distancia de la Chi-dos o de Benzecrí, Benzecrí
DISTAti(`IAS E:S^I^A[)ISTI(:'AS
365
(1976), Cuadras (1981), Lebart (1977) por ser ésta especiaimente utilizada
en aplicaciones sociológicas que por otra parte también están ausentes en el
capitulo de aplicaciones.
En mi opinión, en un artícu{o de estas características es necesario un
comentario sobre los aspectos computacivnales del tema, como son referencias a paquetes de programas que implementen alguna de las distancias
que se presentan, SPAD, 6MDP, Clustan, etc., y fas dificultades de implementación, temas éstos especialmente útiles desde un punto de vista práctico, Jambu (1977), Wishart (1978).
En cualquier caso mi felicitación al autor del artículo y al director de {a
revista por proporcionarnos una aproximación a un tema de tan dificil localización.
BIBLIOGRAFIA
BENZECRÍ, J.P. (1976). «L`Analyse Des Données I, La taxonomie. L'Analyse
des Données II, L'Analyse des Correspondances». Dunad, París.
BMDP, Statistical Software, (19851. Dixon Ed. University of California Press.
CUADRAS, C.M. (1981). «Métodos de Análisis Multivariante».
Barcelona.
Eunibar,
LEBART, L., MOR^NEAU, A. y TABARD, N. (1977). c<Techniques de la Description
Stastistique». Dunod, París.
JAMBU, M., LEBEAUX, M.O. (1978). «Classification automatique pour
L'Analyse des Données», Tomo II. Logiciels, Dunod.
.1ARDINE, N. y SiBsON, R. (1971). «Mathematical Taxonomy». J. Wiley, New
York.
SÁNCHEZ, M. (1977). «Tratamiento estadístico de Datos». Centro de cálculo
de la Universidad Complutense, Madrid.
SPAD.N CISIA. 25 Avenue de L'Europe 923 ^ 0, Sévres, (France).
WISHART, D. (1978). «Clustan User manual». Report n. ° 47, Program library
unit. Edinburgh University.
^
DANIEL PENA
Escuela Técnica Superior de Ingenieros Industriales
Universidad Politécnica de Madrid
Cuando la Revista solicitó a Carlos Cuadras un artículo de revisión del
concepto y aplicaciones de la noción de distancia en Estadística, estábamos seguros de poder contar con un trabajo de ^alidad. La respuesta ha
E:^r ^^r^^s r ic ^^ E_s^,^^ ^c^i...^^
sobrepasado nuestras expectativas, y quiero felicitar al autor por su profunda y rigurosa presentación de este tema, al que el Profesor Cuadras ha
hecho contribuciones relevantes. Este comentario pretende únicamente resaltar que: 1) como señala el autor en su trabajo, cualquier problema de
inferencia estadística puede replantearse como un problema de distancias y
2) en mi opinión, las distancias de Kullback-Leibler --para distancias entre
distribuciones- y la de Mahalanobis -para vectores de datos- ocupan un
lugar especialmente destacado en Estadística.
Camenzando con la distancia de Kulback-Leibler (KL), es bien conocido
que fa estimación máximo-verosímil resulta al minimizar esta distancia
entre la verdadera distribución y la estimada. En efecto, sea f( x; U) un
modelo paramétrico que satisface las condiciones habituales de regularidad
y sea Oo el verdadero valor del vector desconocido de parámetros. La
distancia KL entre un modelo estimado f(x; U) y el modelo verdadero
f(x,^ Oa) es
J ln f(x; Qo) f(x; 4a) dx - j ln f(x; O) f1 x; Qo) dx
como el primer término es constante, minimizar la distancia equivale a
maximizar el valor promedio de /n f(x; a), cuyo estimador con los datos
muestrales es
^ ln
^ f(x; O)
n
y obtenemos el método de máxima verosimilitud.
Esta distancia aparece de una manera natural tanto en el enfoque clásico
tKullback, 1978^ corno en e1 Bayesiano (Bernardo 1979a, 1979b) no sólo
ligada a problemas de estimación, sino también a la construcción de herramientas diagnósticas (Geisser y Johnson 1983, Guttman y Peña 1988), la
selección de modelos (Akaike 1 974, Peña y Arnaiz 1981 ^ o el desarrollo
de métodos robustos de estimación (Peña y Guttman 1989).
Es fácil comprobar que la distancia KL entre dos poblaciones normales
multivariantes N(/c ,^, ), N(l^ 2^) con la misma matriz de covarianzas ^
es:
^1 ( µ^ -µ ^)" ^ '(µ^ -µ 2)
r»sr.^tic lAS
367
[-:ST.^UISTI('.^S
que es la distancia de Mahalanobis entre las medias de ambas distribuciones. Por tanto, en la hipótesis de Normalidad, la distancia KL se reduce de
forma natural a la distancia de Mahalanobis. Todos los problemas de
inferencia en poblaciones normales y, por extensión, los problemas de
inferéncia asintótica con familias regulares, están basados en esta distancia. En efecto, la otra distancia básica para datos cuantitativos, la X2 de
Pearson, que en su versión más conocida es:
z
Xz = (o _ -T)^M-'(o _ ^-) _ ^
(^;--T;^
(1)
donde 0 es un vector de k frecuencias observadas, T un vector de k
frecuencias teóricas tal que E[o] = T y M una matriz diagonal cuyos
términos son los componentes del vector T, puede escribirse (véase Kendall y Stuart 1979, p. 381) corno una distancia de Mahalanobis entre un
vector de dimensión k-1, X obtenido eliminando uno cualquiera de los
componentes de 0, y su vector de medias ^^ (obtenido análogamente de T):
x2 = (X - µ) ^-^ (X - µ)
(2)
donde ^ es la matriz de varianzas y covarianzas del vector X.
Los contrastes de medias en poblaciones normales pueden clasificarse
en dos grupos: en el primero conocemos el parámetro de escala ^ en la
matriz de varianzas y covarianzas. EI contraste es entonces de la forma:
10_0) M-^ (^_^) ^.z
(3)
donde Ó es un vector de medias estimadas tal que E(^) = O y Var(^) _
cr2 M. Por ejemplo, si U es escalar, la expresión ( 3) se reduce a n(X -^^ )2/^,
que es el contraste clásico de la media. Si U es un vector de medias y la
rnatriz de varianzas y covarianzas de los datos ^ es conocida, (3) se
reduce a:
(X-µ)'^^'(X -µ )
que será una X2 con grados de libertad iguales a la dimensión de ,cc.
Como los estimadores de poblaciones normales son lineales, Ilamando X
al vector de datos, en general podemos escribir:
^
U^AX
^
E(C-))=Aµ
E^4 rr^i^isr^c^,a ^_sP,^ticar ^
y ia distancia ^3) puede tambien escribirse:
Xz ! ^X _ µ)rA.M-^A ^X _ µ) ^z
^^^
que equivale a una distancia de Mahalanobis entre los datos y sus medias.
Por ejemplo, en e! caso más simple de una población normal con media
desconocida pero varianza conocida, el contraste clásico de !a media resulta a hora:
^X -- µ)'A'A 1X -- µ) ^^
donde la matriz cuadrada A`A tiene rango uno y todos !as componentes
igual a n^2. Es bien conocido (Peña 1987, pp. 234-235) que cualquier
contraste asintótico f razón de verosimilitudes, Lagrange o Wald) equivale a
una distancia de Mahalanobis entre e! vector de parámetros que se contrasta y su estimación, diferenciándose los contrastes únicamente en las
aproximaciones utilizadas para escribir la matriz de varianzas y covarianzas
de las estimadores.
Cuando ^ es desconocida, el contraste compara la distancia de Mahalanobis entre e{ est^mador y el parámetro con otra distancia calculada a partir
de los datos para estimar el efecto de escala, obteniendo el contraste
general de la F:
{^ w ^), M_, ^^ _ ^) 1
k
F
^x _ µ ) ^-^ ^X _ µ)
t5)
1
n-k
donde O tiene dimensión k y matriz de varianzas/covarianzas M o-^, ^c es la
estimación de las medias del vector de datos X que tiene matriz de varianzas covarianzas í^ ^. Estos son los contrastes básicos de !os modelos
lineales donde se supane independencia y, en consecuencia, ^=1. La idea
es, sin embargo, completamente general y puede aplicarse para cualquier
vector de variables normafes con matriz de varianzas covarianzas ^ o^-2. Por
ejemplo, para muestras de una población multivariante se obtiene la distribución T2 de Hotelling.
En los contrastes de varianza para una población normal de nuevo nos
encontramos la distancia de Mahalanobis.
X^
(X_^^)-^-^ (^_^}
UISTA^IC'IAS EST,^IDI^^T IC'AS
:^fi9
p or e^em
^
p lo, para una población normal univariante ^c^^ = X, ^= I y el
contraste se reduce al bien conocido resultado ^( X, - X) 2/rr2. La comparación de varianzas de dos poblaciones es de nuevo una camparación entre
distancias de Mahalanobis.
En resumen, cualquier problt^ma de test de hipótesis en Estadística puede
interpretarse en términos de dis:ancias: Los contrastes que resultan en una
distribución X2 utilizan una cierta distancia de Mahalanobis entre dos vectores, y los que se basan en la distribución F(o T2 de Hotelling o, por
supuesto t de Student, como caso particular) comparan las distancias de
Mahalanobis entre dos vectores cuyas dirnensiones respectivas son los
grados de libertad de la F.
Análogamente, cualquier problema de estimación paramétrica resulta al
minimizar una cierta distancia. Por ejemplo, los métodos de estirnación
robusta minimizan, en lugar de la distancia euclidea (Y -- X^3)'Y - X^3), donde
Y es un vector de datos, X una matriz de variables y^3 un vector de
parámetros, una distancia de Mahalanobis del tipo
( Y - X ^)' ^-' (^3) ( Y - x^3)
donde ^ depende de los parámetros desconocidos y, por tanto, la minirnación de la función requiere un procedimiento iterativo (mínimos cuadrados
generalizados iterativos).
REFERENCIAS
AKAIKE, I. (1974). "A new Look at the Statistical Model Identificatian".
IEEE transactions on Automatic Contro% 19,6, 716-722.
BERNARDO, J.M. (1979a). "Excepted utility as expected information". Annals
of Statistics, 7, 686-690.
BERNARDO, J.M. (1979b). "Reference posterior distributions for Bayesian
I nference". Journal of Royal Statistical Society B, 41, 1 13-147 (con discusión).
GUTTMAN, I. and PEÑA, D. (1988). "Outliers and influence: Evaluation by
posteriors of Parameters in the Linear model". Bayesian Statistics 3,
Bernardo, J.M. et al (editors). Oxford University Press.
JoHNsoN, W. y G EISSER, S. (1983). "a predictive view of the detection and
Characterization of Influential Observations in Regression Analysis".
Journal of American Statistical Association, 78, 381, 13 7-144.
K EN DALL, M y STUART, A. (1 9 7 7) .
Charles G riffin.
The A dvanced Theory of Statistics (vol. 1).
^70
S^T •1i^I^TI( ^.A E SPA ^i(?LA
ICULBACK, S. ( 1 978). lnformation Theory and Statistics. Dover.
PEÑA, D. (1 987). Estadística, Modelos y Métodos ( vol. 1). Alianza Universidad Textos.
G. ( 1981 ). " Criterios de selección de modelos AR I MA".
Traóajos de Estadística y de /.©. 32, 1, 70-93.
PEÑA, D. y ARNAIZ ,
PEÑA, D. and G UTTMAN, I. (19$9). " Optimal Collapsing of mixture distributions in robust recursive estimation". Communication in Statistics, Theory
and Meth©ds, ( in press).
J. M. PRADA SANCHEZ
Dpto. de Estadística e Investigacián Operativa
Universidad de Santiago
EI trabajo de Carles M. Cuadras, que contiene resumida parte de su labor
investigadora durante los últimos años, constituye, a mi juicio, una aportación fundamental para el estadistico actual. Presenta una exposición didáctica, rigurosa y exhaustiva, sobre la noción de distancia estadística, e incluye muchas e interesantes aplicaciones de la misma en diversos campos,
así como una completa bibliografía al respecto.
Algunas otras aplicaciones de interés de las distancias estadísticas en los
contextos de estirnación, contrastes de hipótesis y otros son las siguientes:
La estimación del parámetr© tl de una población absolutamente contí
nua f^,, al minimizar sobre el espacio paramétrico la distancia de Hellinger entre fr, y un estimador paramétrico de f^,. Esta idea, introducida por
Beran (1977), fue extendida por Lasala (1981 ) en su tesis doctoral.
La búsqueda de la ventana óptima en un problema de estimación de la
densidad puede plantearse minimizando distancias estadísticas (Hellinger, Kullback), como puede verse en Hall (1983).
Cristóbal, J.A., Faraldo, P. y González Manteiga, W. (1 987), hacen una
estimación parámetrica de la regresión minimizando sobre el espacio
paramétrico la distancia L^ entre el modelo y un estimador no paramétrico del mismo.
H^rdle, W, y Mammen, E. (1 988, preprint), realizan contrastes de hipótesis acerca de un modelo de regresión utilizando la distribución
Booptstrap de la distancia L2 entre una estimación clásica del modelo y
una estimación no paramétrica del mismo.
Una posible aplicación interesante de las distancias estadísticas nos
Ilevaría, en la técnica Bootstrap, a sustituir la distribución empírica por
aquéila que menos «dista» de ella, entre las pertenecientes a una cierta
clase de di5tr-ibuciones (p. ej.: la clase de distribuciones simétricas).
f)ISTAtiC`IAS ESTADISTI('AS
REFERENCIAS
BERAN, R. (1 9771. «Minimum Hellinger distance estimates for parametric
rnodels». Annals of Statistics, Vol. 5, 3, 445-463.
CRISATOBAL, .J.A., FARALDO, P. y GONZALEZ MANTEIGA, W. (1 987). «A class of
linear regresion parameter estimators constructed by nonparemetric estimation». Annals of Statistics, Vol. 1 5, 2, 603-609.
HALL,
P. (1983). «Large sample optimality of least squares Cross-validation
in density estimation». Anna/s of Statístics, Vol. 1 1, 4, 1 1 56-1 1 74.
HARDLE, W. y MAMMEN, E. (1 988). «Compairing non parametric versus
parametric regresion fits». (preprint^.
LASAI.A, M.P. (1981). «Cuestiones notables sobrP procedimientos robustos:
Funcionales de mínima g-divergencia y sus estimadores asociados».
Tesis doctoral. Universidad de Zaragoza.
^.s^^,^r^^s^t^^^c,^ ^:sr^^wc^^_,^
37^
Contestación
Agradezco los comentarias de B. Castro, M. P. Martín-Guzmán, J. M.
G arcía-Santesmases, D. Peña y J. tV{. Prada, porque no tan so#o contienen
observaciones interesantes sobre aspectos concretos, sino que además
contienen ideas y referencias que enriquecen mi artículo. Mi contestación
voy a I#evarla a cabo incluyendo las respuestas en cuatro secciones.
SIMILAR#DADES
Aunque en la sección 2.1 se imponía ia restricción 0< s,j < 1, en la
misma secci+ón se seña#a que una simi#aridad puede también tomar valores
superiores a 1, y se destaca la importancia de la distancia.
(1)
= ti S;; + S;; - ^2 s;i
en 1a que hace referencia a las propiedades métrica y euclídea, como queda
bien patente en el cuadro 2. Sin embargo, tiene razón M.P. MartínGuzmán. La restricción s;,-- 1 puede dejar de cumplirse para el coeficiente
de Russell y Rao, definido como a/p.
En cuanto a! coeficiente de similaridad para datos tanto cuantitativos
como categóricos, se hace referencia al coeficiente de Gower (1971 ) en la
sección 7.7. Conviene observar que este coeficiente puede escribirse también como
IXrk
^jk
ilRky+a+a
t2^
S
n,+(n2-d)+n3.
donde n, es el número de variables continuas, a y d son el número de
coincidencias para las n2 variab#es dicotómicas y a es el número de estadas
coincidentes para las n3 variables multinomiales. Deben aplicarse algunas
correcciones en ef caso de datos faltantes. Rk es el rango de la k-esima
variable continua.
^
DIS^TAti(^IA^ E^T:1^ItiTl( ^^S
^%^
Es fácil comprobar que s,^ se reduce al coeficiente de Jaccard si todas
las varia5les son dicotómicas y al coeficiente de Sokal y Michener si todas
son binarias. Nótese la distinción entre variables dicotómicas (en las que se
resalta la importancia de las coincidencias positivasl y variables binarias.
La importancia de s;; reside en que 11) da lugar siempre a una distancia
euclídea (salvo, eventualmente, el caso de datos faltantesl. Por otra parte,
recienternente hemos utilizado esta distancia (con datos reafes) para verificar el rnodelo de regresión propuesto en la sección 7.7, obteniendo buenos
resultados con respecto al procedimiento clásico de cuantificar las variables cuaiitativas.
2.
DISTANCIA ji-cuadrado
La no inclusión de esta distancia en el texto puede explicarse por la
dificultad de definirla sin una clara referencia al Análisis de Correspondencias (AC), lo que hubiera comportado alargar un original ya de por sí
bastante extenso. Aunque el AC es un tema que ya he tratado en Cuadras
(1981, cap. 14), lo comentaré brevemente relacionándolo con otros métodos.
Sea F=(f;^) una tabla de contingencia rxs. Podemos suponer que las
frecuencias son relativas y suman 1. La distancia ji-cuadrado es una medida de la diferencia entre los perfiles de dos filas i, k, que se define por
z
S
1
^ (i, k} _ ^ - (
i=^
f
f,/
f;
fk^
)2
(3)
fk.
Análogamente se define la distancia entre columnas.
EI AC puede describirse a través de la descomposición singular
D;'^2 (F - E ^ D^ "2 = U A V '
(4)
donde UU'=1, V'V=1, A es diagonal y contiene los valores singulares,
D, =.diag(f, , . . . , f, }, DS = diag(f , , . . . , f S)., y E= D,1 1 ' D^
Obsérvese que los elementos de E son e;! = f; f^( ó f; f ^/N si traba ja mos
con frecuencias absolutasl, luego la descomposición singular ( 4) mide la
discrepancia entre F y la matriz E que corresponde al caso de independencia entre filas y columnas.
La representación de las filas se consigue a través de la matriz de
coordenadas euclídeas.
R = D;'^2UA
^74
^ sr:^rr^i^ric-n E:^F^ ^1tiC)l_4
y la de las colur^nnas a través de
C = p^^r2VA
Ambas matrices están relacionadas por
R=D;'FCA-'
G ^ pc^F•R A-^
permitiendo una representación simultánea de filas y columnas a lo largo
de unos mismos ejes. Las distancias euclídeas entre filas (columnas} son
iguales a las distancias^ ji-cuadrado. Utilizando adecuadamente el análisis
de cornponentes principales, podemos representar y estudiar la dependencia entre filas y columnas de una tabla de contingencia.
EI AC está estrechamente relacionado con otros métodos de análisis de
datos categóricos.
1) Puede utilizarse como un complemento de! modelo log-lineal. Así
como este modelo es útil para detectar interacciones, AC permite representarlas graficamente (Van der Heijden y de Leeuw, 1985).
2} Se relaciona con e1 liamado modelo RC (Row-Column association
model) de Goodman (Van der Heijden y Worsley, 1 988}.
3) Puede interpretarse como una solución '"biplot" (Gabriel, 1971) aplicada a la matrii D;"^F D^"2 (Cuadras et al., 1985).
4} Se puede introducir como un análisis de correlación canónica entre
dos conjuntos de variables categóricas. Los valores singulares contenidos
en h pueden ser interpretados como correlaciones canónicas (Cuadras,
1981, cap.22).
5) Se verifica
tra A2 = ,v2 / N
donde X2es el estadístico ji-cuadrado del test de independencia en tablas
de contingencia. Existe así una evidente relación con la ,v2 interpretada
como una medida de divergencia entre F={f;^} y E={f; f^}, tabla construida
bajo la hipótesis de independencia.
6} Puede ser planteado como un método de RA ("reciprocal averaging"),
que ya había sido propuesto por diferentes autores {Horst, Richardson,
Fisher) y recuperado por Hill (1973) para el análisis de datos ecológicos.
nisT.ati<^i as FsT anis r ic^:a^
375
7) Finalmente AC es prácticarnente equivalente a los métodos conocidos
como "dual scaling" y"optimal scaling". introducidos y estudiados por
diversos autores (Fisher, Guttman, Kendall, Lancaster, Nishisato, etc.1. Véase Takeuchi et al. (1982), G reenacre (1984).
3.
ALGORITMOS DE CLASIFICACION, MDS Y CO^MPUTACION DE
DISTANCIAS
La descripción de algoritmos de clasificación jerárquica, equivalentes a la
construcción de una distancia ultramétrica a partir de otra distancia dada,
así como la descripción del M DS, son tareas que desbordan totalmente las
intenciones de este artículo. Me limitaré a resaltar, de nuevo, que existen
dos tipos de estructuras: el par {S2,ó), formado por un conjunto S^ y una
distancia ^S, que recoge {en algún sentido apropiado) las relaciones entre los
datos, y el espacio geométrica modelo {V,c^, gracias al cual se dispone de
una representación reconocible de {5^,^). En general, es necesario algún
criterio de aproximación para pasar del primero al segundo. Este paso se
Ileva a cabo mediante un algoritmo adecuado
{^,^)
algoritmo
(V, d)
Si el espacio {V,c^ es ultramétrico se trata entonces de un algoritmo de
clasificación jerárquica. Si el espacio es euclídeo, entonces necesitamos
algunos de los métodos de M DS, como se comenta brevemente en la
sección 4.1.
Por otra parte, los aspectos computacionales de las distancias estadisticas constituyen un aspecto importante del tema, que merece un estudio
aparte que no sería completo sin una experimentación con diversos conjuntos de datos. Se trata también de una tarea que desborda las intenciones
que se han pretendido en este artículo.
En general, los paquetes de programas sobre análisis multivariante de
datos contienen rutinas que calculan distancias, bien explícitarnente o de
forma implícita en función del método empleado. CLUSTAN es el paquete
más completo en este sentido, aunque también debemos mencionar
BMDP, SPAD, etc., como comenta J. M. García-Santesmases. Además del
conocido SPSS, otros paquetes de programas dignos de mención son:
G ENSTAT, M DS {X) y NTSYS.
^7^
4.
^^;"T •1[)I^TIt ^^ E SP4ti(}t. ^
DIVERGEIVCIAS VERSUS DISTAfVCIA ©E RAO
AI tratar sabre las distancias estadísticas entre distribuciones de probabilidad, este artícufo expone tanto las divergencias funcionales como la distancia geodésica o distancia de Rao. Sin embargo, se deja entrever una
ligera preferencia hacia la distancia de Rao. En efecto, la distancia de Rao,
por sus connotaciones geométricas y sus interesantes propiedades, viene a
ser la generalización natural a distribuciones paramétricas cualesquiera de
la distancia de Mahalanobis, que la engioba como caso particular.
Las medidas de divergencia, como la de Kullback-Leibler (KL), poseen
una formulación más simple y gozan también de interesantes propiedades
y aplicaciones, como bien expone D. Peña. De hecho, existe una fuerte
relación entre 1a función de verosimilitud y KL cuando la distribución pertenece a la familia exponencial. La ventaja de considerar KL queda patente
en el caso de que la verdadera distribución q no pertenezca a una determinada familia paramétrica. Supongamos que q realmente no pertenece a la
familia exponencial p,,, y sin embargo deseamos estimar fI. Entonces la
función de verosimilitud es esenciafinente una estimación de la divergencia
KL entre la q y p,,, Además el estimador máximo verosímil f^n, que no
estima el verdadero parámetro porque q^ p,,, es un estimador consistente
y asintóticamente normaf de (^*, siendo fI* el valor del parámetro tal que
K(q, p„) es mínimc^. En otras palabras, el estimador máximo verosímil proporciona una estimación del valor del parámetro que da lugar a la distribución de la familia fo más próxima posible, respecto a KL, a la verdadera
distribución. En un contexto similar podemos situar los comentarios de J.
M. Prada.
No obstante, aunque KL y otras medidas de divergencia son medidas de
discrepancia razonables entre dos distribuciones, en ciertos casos pueden
ser más apropiadas otras medidas. Si bien faltaría una demostración más
elocuente de 1a superioridad de la distancia de Rao, he aquí algunos argumentos en su favor, en tanto que queda como problema abierto compararla
con otras distancias en un contexto más general.
1) La divergencia KL no es propiamente una distancia, pues no es simétrica, y aunque puede simetrizarse, no cumple la desigualdad triangular.
2} Las divergencias son medidas de discrepancia funcional perfectamente apropiadas en e1 caso no paramétrico. Cuanda se conoce una parametrización, aprovechamos mejor la información que proporciona la muestra
utilizando la distancia de Rao, que viene a medir el cambio de información
entre los parámetros.
DISTAti('1,45 F:S^i^,^[.)ISTI(^:^5
3) La distancia de Rao posee mayor poder de separación que la distancia
de Matusita, extensamente utilizada en problemas de inferencia estadística,
como se refleja en la relación (sección 6.2}
M(p,q) ^ B(p,q) ^ R(p,q)
4) Las divergencias y la distancia de Rao coinciden localmente (sección
fi.3), lo que tiene como consecuencia que en ciertos casos se Ilegue a
resultados equivalentes.
5) En el caso multinomial, el elemento de arco es
ds2 = ^ (dp;)2 ^ p,
La distancia de Rao se obtiene integrando el elemento de arco a lo largo de
una curva geodésica. Obsérvese entonces la analogía formal entre ds2 y la
clásica fórmula del estadístico ji-cuadrado
X2=E(f;-e;^2^e;
6) Todos los, problemas de inferencia en modelos lineales normaies univariantes pueden ser resueltos a través de la distancia de Rao (Burbea y
Oller, 1988).
En cuanto a los numerosos problemas en los que interviene la distancia
de Mahalanobis, pueden ser también abordados con mayor generalidad
utilizando la distancia de Rao o la distancia relacionada introducida en la
sección 5.5 (distancia entre individuos). Sin embargo, ocurre que si la
estimación de los parámetros alcanza la cota de Cramer-Rao, al ser la
matriz de información de Fisher una matriz de covarianzas, esta distancia
viene a ser esencialmente la distancia de Mahalanobis.
Es^r^^r^isric^.^ ^:s^.atio^.,^^
378
5.
REFERENCIAS
BURBEA, J. y 4^^ER, J. M. (19$8). The information metric for univariate
linear elliptic models. Statistics & Decisions 6, 209-221.
^CuADRAS, C. M. { 1981). Métodos de Análisis Multivariante. Eunibar, Barcelona.
CUADRAS, C. M., OLLER, .1. M., ARCAS, A. y RIOS, J. M. (i 985). MétOdOS
geométricos de la Estadística. Qi^estiiá 9(4), 219-2 50.
GABRIEL, K. R. (1971). The bipfot graphic display of matrices with application to principa! component analysis. Biometrika 58, 453-467.
GENSTAT. A general statistical program. Rothamsted Experimentai Station,
Harpender, Hertfordshire.
GowER, J. C. (19 71). A general coefficient af similarity and some of its
prapertíes. Biometrics 27, 857-871.
G R E E N AC R E, M. J.{ 1 9$ 4). Theory and A pplications of Correspondence A nalysis. Academ ic Press, I nc., London.
HILL, M. O. { 1973). Reciprocal averaging: an eigenvector method of ordination. J. Ecol. 61, 237-249.
MDS(X). Multidimensional Scaling Package. Univ. of Edinburgh.
NTSYS. Numerical Taxonomy System af Multivariate Statistical Pragrams.
Dept. of Ecology and Evolution. The State University af New York at
Stony B rook.
.
TAKEUCHI, K., YANAt, H. y MUKHERJEE, B. N. (1 982).
The FOUnáations of
Muftivariate Analysis. Wiley EI., New Delhi.
Correspondence analysis
used complementary to loglinear analysis. Psychometrika 50, 429-447.
VAN DER HEIJDEN, P. G. M. y de LEEUW, J. (1 9$5) .
VAN DER HEIJDEN, P, G. M. y WORSLEY, K. J. (1988). Comment on "Corres-
pondence analysis used complementary to loglinear analysis". Psychometrika 5 3, 2 8 7-2 91.
Descargar