ESTADISTICA ESPAÑOLA Vol. 30, Núm. 1 19, 1989, p^gs. 295 a 378 Distancias Estadísticas por CARLES M. CUADRAS ^ Departament d'Estadística Universitat de Barcelona RESUMEN Este artículo trata de la aplicación de las funciones de distancia a la estadística y a1 análisis de datos. Se exponen y discuten expresiones sobre distancias y coeficientes de similaridad entre individuos y poblaciones. Se íncluyen también algunas aplicaciones a la biología, genética, psicología, arqueología, lingi.iística, anélisis de la varianza, regresión y asociación estoc^istica. Palab^as clave: Distancia de Mahalanobis, distancia de Rao, distancia ultramétrica, coeficientes de similaridad, medidas de divergencia. AMS 1984: 62H25; 62H30; 62P99. 1. INTRODUCCION Las medidas de distancia entre poblaciones y dentro de poblaciones, han sido ampliamente utilizadas en numerosos campas científicos: antropología, agricultura, biología, genética, economía, lingiiística, psicología, sociología, etc. ^ La noción de distancia estadística junto con sus propiedades constituyen una importante herramienta, tanto en la estadística matem^tica como en el análisis de datos. En el primer caso porque mediante una distancia se ?9fi C^STAC^ISTIC'A ESF'A!^Ol_.A pueden construir contrastes de hipótesis, estudiar propiedades asintóticas de estimadores, comparar par^imetros, etc. En el segundo caso, porque fa distancia es un concepto muy intuitivo, que permite obtener representaciones geométricas, fáciles de entender, ofreciendo al investigador una importante ayuda para interpretar la estructura de !os datos. En líneas generales consideramos dos clases de distancias estadísticas entre individuos y poblaciones: a1 Los n individuos de una población S2 quedan descritos por una nnatriz de datos X(n x p), donde p es el número de variables estadísticas (cuantitativas, cualitativas, binarias o categóricasl. EI número n suele ser el tamaño de una muestra de la población (ejemplo: n= 75 estudiantes universitarios}, pero puede darse el caso de que Sl sea una población finita de n elementos (ejemplo: las n= 50 provincias españolas). Una distancia ^5;^ = ó(i,j) entre dos individuos o elementos i,j de S2 es una medida simétrica no negativa que cuantifica la diferencia entre ambos en relación con las variables. ^ se puede sumarizar a través de ia matriz de distancias ^f1 ^12 • . . ó1n ^2 r ^22 . . . Ú2 n ............... ^n ^ siendo ^5;; = o, cS;, ^n2 ' ' ' ann V J; . TABLA 1 Matriz de distancias genéticas entre 6 poblaciones de Drosophila subobscura: Heriot (H), Dalkeith (D), Groningen (G), Viena (V}, Zurich (Z}, Drobak ( Dr) H D C; ^/ Z Dr H D G V Z Dr O 0.083 O 0.290 ©.276 O 0.399 0.370 0.187 0 0.331 0,3 0.112 0.128 O 0.307 0.307 0.152 0.260 0.235 ^ b) Los individuos de cada pablación están caracterizados por un vector aleatorio X=(X,, ..., XP}, que sigue una distribución de probabilidad f(x^, ..., xP; f^}. La distancia entre dos individuos i,j, caracterizados por los puntos x;, DISTANCIAS ESTADISTICAS 297 xj de Rp, es una medida simétrica no negativa ^S Cx,,x^) que dependerá de Q. Análogamente la distancia entre dos poblaciones será una medida de divergencia ^S (8,,Q2) entre los parámetros que las caracterizan. También puede ser conveniente introducir una distancia c^ (x;,Q) entre un individuo i y las parámetros 8. Se pueden definir también distancias no paramétricas que miden la divergencia funcional entre funciones de densidad. En .algunos casos están relacionadas con medidas de entropia. Tanto en el caso a) como en el b^, en muchas aplicaciones interesa representar el conjunto S1 con la distancia ^, es decir, (S2, ^), mediante un espacio geométrico modelo (V,d), donde V es un conjunto geométrico (espacio euclídeo, variedad de Riemann, grafo, curva, etc.) y d es una distancia sobre V. Según la técnica de representación utilizada ( análisis de componentes principales, análisis de coordenadas principales, análisis de proximidades, análisis de correspondencias, anélisis de cluster, etc.), la distancia d puede ser euclídea, ultramétrica, aditiva, no euclídea, riemaniana, etc. La tabla 1 contiene un ejemplo de distancia genética entre un conjunto S^ de poblaciones europeas de D. subobscura. Aunque la distancia d no es ultramétrica ni aditiva, puede representarse aproximadamente mediante un espacio ultramétrico (figura 3) o un espacio aditivo (figura 8). 1.1. Propiedades generales Una distancia ^S sobre un conjunto Sl es una aplicación de S^ x S1 en R, tal que a cada par (i,/1 hace corresponder un número real ^(i,/1 = S;j, cumpliendo algunas de las siguientes propiedades: P. 1 ^S; j > 0 P. 2 ^5;; = 0 P. 3 cSi; _ ^;i P' ^ij ^ ^ik + ajk ^ P. 5 ^;j - 0 si y sólo si i= j P. 6 ^;j < max { a;k, ^;k } (desigualdad ultramétrica) P. 7 ^;j + ^k, < max { ^;k + ^^, , ó;, + ^^k } P. 8 ^S;j es euclídea P. 9 ^S;j es riemanniana P.10 ^;j es una divergencia (desigualdad aditiva) 298 ESTADISTICA E:SPA!'^iC7LA Observaciones: 1) Una distancia debe cumplir por lo menos P.1, P.2, P.3. Cuando sólo cumple tales propiedades recibe el nombre de disimi/a^idad. 2) P.8 significa que existen dos puntos x; -{x;,, ..., x;,^)', x^ -{x;,, ..., x;m1' de R^ tales que {2) es decir, ^;^ es la distancia euclídea entre los puntos x;, x^. Entonces {S^ , d) puede representarse mediante el espacio euclídeo {Rm, dy. 3) P.9 significa que {S^ , ^S) puede ser representado mediante una variedad de R iemann { M, dM). 4) P. 6--^ P.8 ---^ P.4. 5) P. 6-^ P. 7---^ P.4. 6y Supongamos que hernos definido una medida de probabilidad ,u s©bre S2. Entonces P.1 D significa que ^ es una expresión funcional sobre ^c. Algunas distancias poseen un calificativo propio según las propiedades que cumplen ( cuadro 1). Todas estas propiedades las hemos referido a {S^ , a). En algunos casos, como la distancia de Mahalanobis, ^ verifica directamente las propiedades P.1 a P.4 y P.8 a P.10. Sin embargo, en general ^S cumple solo aproximadamente algunas de las propiedades expuestas. Se trata entonces de representar {S2 , ó) a través de un modelo {V,dj, aproximando cS a d, donde ^ cumple con las suficientes propiedades requeridas. Por ejemplo, si podemos aproximar á a d, siendo d una distancia ultramétrica, entonces {V,r^ es un espacio ultramétrico y{S2 ,^S) puede ser representado a través de un dendograma. CUADRO 1 Calificación de una distancia según sus propiedades. Disimilaridad: P.1, P.2, P.3 Distancia métrica: P.1, P.2, P.3, P.4, P.5 Distancia ultramétrica: P.1, P.2, P.3, P.6 Distancia euclídea: P.1, P.2, P.3, P.4, P.8 Distancia aditiva: P.1, P.2, P.3, P.7 Divergencia: P.1, P.2, P.1 O DISTANCIAS ESTA,DISTIC'AS 2. 299 DlSTANCIAS S06RE MATRICES DE DATOS 2.1. Similaridades Una similaridad s sobre un conjunto S2 con n individuos, es una aplicacidn de Sl x S2 en R verificando las siguientes propiedades: 1} 0 < s;j < 1 2} s;; = 1 3} La cantidad s;^ = s(i,^^ es una medida del grado de semejanza entre dos elementos i,j, en el sentido de que si ambos son muy parecidos entonces s;j se aproxima 1. EI concepto de similaridad es especialmente utilizado cuando sobre S^ se han introducido p características cualitativas, que se asocian a otras tantas variables binarias, que toman el valor 0 si la característica está ausente y el valor 1 si está presente. La matriz de incidencia individuos x características es una matriz X^(x;k), cuyos elementos son ceros y unos. La similaridad entre dos individuos i,j queda bien descrita a través de a, b, c, d, siendo n a = ^ x. ikx^^k k= i b = ^ (1 - xik} xjk k=1 C - ^ X;k ( 1 - Xjk} k=1 d = ^ (1 - x;k} (1 - x^k) ^ ^ >' es decir, a es el número de caracteres presentes comunes, b es el número de caracteres ausentes en i pero presentes en j, etc. Una similaridad s;^ es entonces una función de a, b, c. s;; = f( a, b, c) tal que es creciente en a, decreciente y simétrica en b y c, vale s;^= 0 si b+c=p, y s;^= 1 si a+d=p. NumerOSOS autores (Jaccard, 1900; Kulcynski, 19^8; Russell y Rao, 1940; Sorensen, 1948; Sokal y Michener, 1958) han propuesto coeficientes de similaridad verificando tales propiedades: s;; _ a a+b+c (Jaccard) ^QQ ESTADISTICA ESPA110LA a (Russell y Rao} D s;; a+d (Sokat y Michener} p Sin embargo, otros coef^cientes como a s;^ ' (KulcZynski} b+c cuyo rango es ^O, ^), no las cumplen. La asociación entre los n elementos de s2 se expresa a través de una matriz de simiiaridades S ^ S1 f S12 ' ' ' Sfn S21 S?2 ` ` • S2n ............... (3) sn2 ... Snn sn f A menudo S se puede expresar operando en forma etementai la matriz X. Por ejemplo, para los coeficientes de Russell-Rao y Sokal-Nlichener, se tiene, respectiva mente: S,=(XX')/p S2 = ^xx' + (J - x) (J - X}'^ / p En otros casos ( Gower, 1971), la expresión es rnás comp{eja. Por ejemplo, para el coeficiente de Jaccard, se tiene: XX' XX' ^J 3 - ____.__ ♦ ^ P P • [ ^ t.1 - ^^C } (.J - X }' „ (J - X } (.J - X)' i Pk ] k^ 1 indicando A^, B la matriz cuyos e{ementos son a;^ x b;^ (producto matricial de Hadamard). Para pasar de una disimilaridad a.una distancia basta utilizar la fórmula 1 - s;^ (4} Sin embargo, es más aconsejable utilizar (5i 3U1 D[STANC'IAS EST.ADISTIC'.AS En efecto, (5} da lugar a una distancia rnétrica, incluso euclídea, para la mayor parte de similaridades utilizadas en las aplicaciones (véase el cuadro 2). En general, dada una similaridad cualquiera (no necesariamente comprendida entre O y 1), podemos definir la distancia (Gower, 1966} ^5;; = _______ s;; + s^^ - 2 s;^ (6) Si S es una matriz (semi) definida positiva, entonces ^;; es euclídea (ver sección 4.1 }, y por lo tanto podremos representar (^, ^S) a través del espacio euclídeo (R^, d). En cambio, como se desprende del cuadro 2, pocas veces la distancia (4) es métrica y en ninguno de los casos presentados es euclídea. Sobre los criterios que deben seguirse para elegir el coeficiente de similaridad (que dependerá del tipo de datos y el peso que se desea dar a las frecuencias a, b, c, d) véase Legendre y Legendre (1979), Gower y Legendre (1986). CUADRO 2 Propiedades de algunos coeficientes de similaridad para variables binarias. SIMILARIDAD AUTOR RANGO $ ^ ^ K ulczyns k y O, ^ Sí a a+b+c+d R usse ll y R ao 0,1 a a+b+c Jaccar d a+d a+b+c+d METRICA EUCLIDEA Sí Sí (Sí) Sí 0,1 Sí Sí (Sí) Sí S o k a l y Michener 0,1 Sí S í 1 S i^ Sí a a+2 (b+c) A n derberg 0,1 Sí S í( S í) Sí a+d a+2 (b+c)+d R ogers y Tanimoto 0,1 Sí S í( S ii Sí S orens en 0 ,1 Sí S í( N o 1 Sí a b+c a a+2 (b+c)+d ^ (Siguel (1 ^ S^ 0 significa que la matriz de similaridades es (semi) definida positiva. (2) La propiedad métrica se refiere a la distancia d;i= ^s;;+s^^-2S;1 y a la distancia d;^ = 1 -s;^ ( entre paréntesis). (3) Ninguna de las distancias d;; es euclídea. ^sr,At^isr^cA t-^sr^,^^vc^^.^ 30? CUADRO 2 /Final) Propiedades de algunos coeficientes de similaridad para variables binarias. AUTOR SIMILARIDAD a+d RANt30 S^ ^ METRICA EUCLfDEA Sneath y Soka/ 0,1 No S í( N o) No Harman -1,1 Sí Sí (Si1 Sí a ) ^( a+b a + a+c Ku/cryns kr 0,1 Na N o( N o) No , ( a + a + °r + °^ ) ` a+b a+c c+d 6+d Anderberg 0,1 No No (No) No a --. r ^ (a+b) (a+c) Ochiai 0,1 Sí Sí (No) Sí 0,1 Sí Sí (No) Sí Pearson -1,1 Sí Sí (No) Sí Yu/e -1,1 No No (No) No a+^ (b+c)+d a- (b+c^ +d a+b+c+d ad ^ (a+b) ( a+c) (b+d) (c+d) ad-bc ti (a+b) (a+c) (b+d) (c+d) ad-bc ad+bc (1 ) S^ O significa que la matriz de similaridades es (semi^ definida positiva. (2) La propiedad métrica se refiere a la distancia d;l= d;i = 1 - s;r lentre paréntesis). (3) Ninguna de las distancias s;;+s^^-2s;^ y a fa distancia d;^ es eucl(dea. 2.2. Distancias sobre datos cuantitativos Supongamos que los valores observados para p variables aleatorias sobre n individuos, son cuantitativos, formando una matriz de datos X11 X12 ' ' ' X1P X21 X22 . . . X2P (7) Xn l Xn2 ' ' ' XnP 303 DISTANC{AS ESTr1DISTIC'AS Entonces cada individuo i puede representarse como un punto x; E RP. La distancia más familiar entre dos individuos í,j es la distancia euclídea (2), es decir, __.___ p d2 (i, jy _ ^ (X^k _ X^k)2 ($} k=1 Tal distancia es un caso particular de las distancias de Minkowski dQ ^^.^ ! = ( ^ ^ %'^ik + xjk k=1 ^ <Q^ ^ (9) que verifican P.1, P.2, P.3 y P.4. No son distancias euclideas, salvo el caso q= 2. Para q= 1 se tiene d, (i,jl - ^ ^ X;k k=1 que se denomina distancia "ciudad". Una expresión límite de 19) es d^ (i,j) = max { ^ X;k - x^k ( } Ilamada distancia "dominante"'. Véase la figura 1. Volviendo de nuevo a la distancia euclídea (8), vemos que tiene algunos inconvenientes: a) no está acotada; b) no es invariante por cambios de escala; c) considera la p variables estocásticamente independientes. Se han propuesto diferentes modificaciones sobre d2(i,j) a fin de evitar tales inconvenientes. Una prirnera modificación consiste, simplemente, en dividir por el número de variables, es decir, introducir la distancia (al cuadrado) c^2 (í,/^ = p^ d2(i,/1 Orloci (1 967) ha propuesto otras transformaciones, que permiten acotar la distancia, y que en general están basadas en métricas geodésicas sobre la hiperesfera de radio 1(ver sección 5.4^ E^ST'•1DISTK':^ E^.SP.^tiC)L:A a b C X1 Fig.1. Distancias de Minkowski en dimensión p=2, Distancia euclídea d2=c. Distancia '"ciudad"': d^ = a+ ó. Distancia " dominante": d^, = a. La invarianza por cambios de escala se resuelve dividiendo cada término {x;k - x^uk) por la desviación típica de !a variable k, lo que nos Ileva a la distancia de K. Pearson {sección 3.1 }. EI inconveniente c) puede resolverse introduciendo 1a distancia de Mahalanobis {sección 3.2) que tiene en cuenta las correlaciones entre !as variables, y por tanto la redundancia existente entre las mismas. Otras variantes de {9) son la métrica de Canberra P E K=1 `x^k-x^k ^ I x^k ^+ I x^k ^ que ha sido utilizada por Lance y Williams {1967), y el coeficiente de divergencia {Clark, 1952). { P k^ ^ xik xjk \2 xik + xjk Las propiedades métricas y euclídeas de estas y otras distancias para matrices de datos positivos, se consideran en el cuadro 3. Sobre los criterios que deben seguirse para la elección de la distancia, véase Legendre y Legendre (1 979), Gower y Legendre (1 986), y Legendre, Dallot y Legendre { 1985). En este último trabajo, las distancias son clasificadas en tres tipos, según el peso que se quiera dar a las diferencias entre variables con diferentes rangos de variación {suponiendo variables dimensionalmente homogéneas y no negativas). 3p5 f)IST.Ati('IA5 ESTAU{STI('AS CUADR03 Distancias y disimilaridades para datos cuantitativos (no negativos) n ^ ( E (x ikX - /k METRICA EUCLi[^EA Euclides S1 SI Minkowski SI NO K. Pearson SI SI Canberra SI NO Clark SI SI AUTOR DISTANCIA 2 ^ 1/2 k=1 n q 1/q ^ ^ {xik - Xjkl ^ k=1 X^k _ x^k ^ 2 ^ 1 /2 Sk n ^ X^k - Xjk ( E k ^( xík ^+ I Xjk ^Xik ' X^k)2 1 /2 ^X;k 3. DISTANCIA DE MAHALAN4BIS 3.1. Distancia euclídea normalizada Dada una matriz de datos X en los términos de la sección 2.2, la distancia euclídea normalizada K(i,j) es la raíz cuadrada de .. p K 2 (i,^ ) = ^ (X;k - xjk)2 k^ r donde ak es la varianza de la variable k. La distancia K(%j^ es invariante por cambios de escala y es una distancia entre individuos relacionada con el coeficiente de semejanza racial introducido por K. Pearson ( 1 926), que ha sido utilizado en antropología para diferenciar cráneos. Dadas dos poblaciones representadas por (,u,, ^) y(^CZ, ^), donde ^C^c,, ^c2 son los vectores de medias y^ es la rnatriz de covarianzas ( común) en reCación a p variables aleatorias, el coeficiente de semejanza racial, también Ilarnada distancia de K. Pearson, es proporcional a _ (^^ ' ^2)^ [diag (^y ]^' (^.tl - ,u2) 11 ^ ) EST4[)ISTK'4 ESPAtiOL.4 K es también invariante por cambios de escala y puede considerarse un precedente de la distancia de Mahalanobis (14). Ambas distancias han sido comparadas por diversos autores. Véase Mardia (1977). 3.2. Definición y propiedades de la distancia de Mahalanobis Supongamos que una poblacián S2 está caracterizada por p variables aleatorias, siendo ^c =(µ,, ..., icp}' el vector de medias y^ la matriz de covarianzas no singular. La distancia de Mahalanobis M(i,j) entre dos individuos i,j, representados por Ios vectores x;, x^, se define como M 2 (i, j } (x;-x;}'^-'(x;-x;) (12} Análagamente, !a distancia entre un individuo i y la población S2 es M ^ ( i, S^ } _ (x; - ,u )' ^-' (x; - ,u ) (13 } La distancia entre dos poblaciones 52,, S^2 es M2 (^'^ ^2^ _ (^' ' l^2)^ ^-r (^f " lu2) (1 4) Desde luego, estrictamente la distancia es M(i,j), M(i, S2} y M(5^,, 522) aunque es preferible manejarla elevada al cuadrado. La distancia (14) fue introducida por Mahalanobis ( 1936), alegando criterios heurísticos. Sin embargo, aparece de forma natural por diferentes caminos, como comentamos seguidamente. a) Sea E = c X,, ..., XP > e! espacio vectorial generado por p variables aleatorias. Sea ^!a matriz de covarianzas no singular. Considerando E*, espacio dual de E, a cada individuo i de S^ le podemos hacer corresponder la forma lineal i* de E* tal que i*(^C) = X (i}, donde ^C E E. Luego, a través de las variables X,, ..., Xp podemos proyectar S2 en E*. Entonces, como la métrica natural en E* viene dada por la matriz inversa E-' la distancia en E*, es decir, la distancia entre individuos, es M(i,j}. b) La función de densidad normal multivariante Np (µ,^} es f(x) _ ^ 2 n ^ ^"^ exp {-2 (x _ ^)^ ^-^ (x_ ^} } es decir, es una funcián exponencial de la distancia de Mahalanobis entre x y^c. Obsérvese que la distribución de esta distancia es ji-cuadrado. e) Consideremos g poblaciones 5^,, ..., 5^9, g > 2. Supongamos asociada a cada población S2; una distribución NP {,u;, ^) y que sabre un individuo DISTA^IC'I,AS E^STADIS-TfCAS ^a^ ^.v tenemos la inforrnación multivariante x. En análisis discriminante es conocida la regla de la máxima verosirnilitud para asignar cv a 5^^, donde j E { 1,...,g ^. Es fácil demostrar que esta regla es equivalente a asignar cv a fa población S^^ tal que la distancia de Mahalanobis M(cv , S2^) es mínima IMardia et al, 1979}. d1 Consideremos el modelo estadístico Np(^c , E) de !as distribuciones normales, con ^ fijo, iC ^ Rp. Dotando al espacio paramétrico Rp de estructura de variedad riemanniana entonces fa distancia de Mahalanobis M(^c,, ,u2} es una distancia geodésica entre dos puntos de la variedad (sección 5.4}. Por otra parte, la distancia de Mahalanobis goza de interesantes propiedades, que vamos a comentar para fa versián (12). 1^ M (i, j )> 0 y M(i, j)= 0 si y sólo si x; = x^ . 2} M (i,j} = M ^j,i) . 3) M (i,j) < M (i,k) + M ^j,k) . 4) M(í,j} es invariante por transformaciones lineales no singulares de {as variables. En particular, es invariante por cambios de escala. 5) lntroduciendo el cambio de variable y =^-^ x, es fácil ver que la distancia de Mahalanobis es euclídea. 6} Es una distancia normalizada, que puede expresarse en unidades de desviación típica. Además, tiene en cuenta las carrelaciones entre las variables, es decir, la redundancia entre las variables. 7} Indiquemos por Mp la distancia basada en p variables y por M^ la distancia basada en p+q variabfes, conteniendo estas p+q a las p primeras. Entonces MP ^ MP♦a 8j Sean Mp, MQ las distancias tomando las variables X=(X,, ..., Xp) Y=(Y,, ..., YQ). Supongamos que las variables X están incorrefacionadas con las variables Y. Entonces 2 MP+Q = Mp2 + MQ2 Las propiedades 7j y 8) se ilustran en la figura 2, en la que puede apreciarse que la distancia de Mahalanobis es mayor para dos variables que para una sola, disminuyendo a medida que aumenta la correfación entre las variables. ESTADlSTiC^A ESPA*^l(^LA ` ^^ ^ Fig. 2. ^ .^^ ^^ ^ i .^^ ^ i ^^ ^ Distancia de Mahalanobis en el caso de variables incorrelacionadas y de variables correlacionadas. Obsérvese que M> M' > a. Es de esperar, por otra parte, que en las aplicaciones la distancia sea estable Lim M p = a < ^ p -^ °b es decir, si el número de variables p es grande, la distancia de Mahalanobis no aumentará o al menos tenderá a un valor finito a, debido a que las variables añadidas serán redundantes respecto a las p anteriores. 3.3, Distancias singulares Supongamos ran E= r c p y que ^, -,u2 es combinación lineal de las columnas de E. Se define la distancia de Mahalanobis singular entre las poblaciones de vectores de medias ^c,, µ2 y matriz de covarianzas ^ como M2 = (^, - 1^2^^ ^ (l^ ^ - ^2^ donde ^ - es una g-inversa de ^. La distancia singular tiene aplicaciones a la genética (sección 7.^2), al análisis factorial y a la comparación de curvas de crecimiento. Véase Rao { 19541 y Mardia { 1977^. DISTAN('IAS ES7ADISTIC^AS 4. ^oy DISTANCIAS EUCLIDEAS, ULTRAMETRICAS Y ADITIVAS 4.1. Caracterización de una distancia como distancia euclídea Las distancias de K. Pearson, Mahalanobis y Minkowski para q=2, son euclídeas por propia definición. Sin embargo, en otros casos, la decisión sobre si la distancia S definida en un conjunto S2 es euclídea o no, no puede tomarse tan directamente. Es entonces cuando adquiere importancia fundamental el teorema 1, puesto que nos permite representar (,51, ^) a través de un espacio euclídeo (Rm, d). Sea S2 un conjunto formado por n elementos y sea ^;^= cS (i,j) una distancia sobre S2. Diremos que la matriz de distancias 1^ _{^;^Í es euclídea m-dimensional si existen n puntos x,,x2,...,x„ se un espacio euclídeo Rm tales que ^S? _ (x; - x;)' (x; - x;) (15) En otras palabras, d es euclídea si existe una matriz de datos X cuyas filas SOnX;,X2, ...,X^ xr1 xr2 . . xl m x21 x22 • ' • ^ x2 m X= .................. xnr xn2 (16) xn m Verificándose m 2 _ ^ /x^k _ X,k) 2 k=1 t Consideremos ahora la matriz identidad In, la matriz Jn de orden n x n cuyos elementos son todos iguales a 1, la matriz H=1-^J n n n y la m atriz A = (a. ^^^), siendo a ^^_^ _ - 1^2^ 2 , ^ , pa ra i,I'= 1,2,...,n. Sea ta m bién B=HAH (17y Obsérvese que !os elementos de la matriz B=(b;^) verifican - a^ + a E:STAF)15T1('4 E.SPAtiC^LA siendo a, , a` las medias de la fila i y de la columna j respectivamente, y a la media de los n2 elementos de A. Teorema 1 La matriz de distancias !^ es euclídea m-dimensional si y sólo si B es semidefinida positiva de rango m. Demostración: Véase Seber { 1984), Si B es semidefinida positiva y de rango m, entonces existe una matriz X(n x m) ta I qu e B=XX' (18} Cua^quier matriz X cumpliendo ( 1 $), puede tomarse como matriz de datos, es decir, tal que sus filas contengan las coordenadas de los puntos de Rm cuyas intradistancias reproduzcan d . Este importante resultado fue primeramente obtenido por Schoenberg (1935), fecha en verdad tardia tratándose de una propiedad fundamental de la geometría euclídea. Cuanda X proviene de la descomposición espectral de B, se obtiene la solución del anáiisis de proximidades {"metric multidimensional scaling"), utilizada por Torgerson (1958) en psicología, y replanteada con mayor claridad por Gower { 1966), con el nombre de análisis de coordenadas principales. Desde entonces ha sido ampliamente utilizada también en ecología, botánica, etc. Gower ( 1982) propone y discute ciertas generalizaciones del Teorema 1. Sea ahora S una matriz de similaridad t semi) definida positiva. Luego S= X)G' para alguna matriz X(n x mi y por tanto s;^ = x,.' x^, donde x; ,..., x^ representan las filas de X. Entonces, tomando la distancia c^;^ definida por S, como (19j resulta que r^;^ es una distancia euclídea. En consecuencia, para conseguir una representación euclídea de S^ de modo que la proximidad entre puntos sea el equivalente geométrico de la similaridad entre individuos, es preferible utilizar (5) ó(6) en vez de (4). Supongamos ahora que la matriz de distancias t^^ no es euclídea. Entonces B tiene valores propios negativos, no existe ninguna matriz X verificando { 1$) y por lo tanto S2 no puede representarse en un espacio euclídeo. Este problema se presenta con frecuencia en psicología. Para solventarlo, se debe aproximar f a una distancia euciídea d, a fin de que {S^ , rSi admita DISTANCIAS ESTAC^IST 1CAS 3l 1 una representación euclídea aproximada. Después de los trabajos de Shepard (1962 a,b) y Kruskal (1964 a,b), quedó establecido que h debía transformarse en d= f(ó), donde f es una función monótona no decreciente, a fin de que se conservara la preordenación de las d^stancias originales, es decir, y ^ ^jl (20) Las transformaciones pueden ser algebraicas o numéricas. Entre las primeras, las más sencillas son (suponiendo i^ j) : d;^=^;;+c {Cooper, 1972; Cailliez, 1983) , cf^^ = c^? - 2 a {Lingoes, 1971; Mardia, 1978) , d;^=a^;^+b (Cuadras y Ruiz-Rivas, 1980) . Se demuestra que si ^;; no es euclídea, existen constantes adecuadas a, b, c tales que d;^ es una distancia euclídea. Respecto a las segundas, existe abundante literatura sobre el tema de transformar, por procedímientos numéricos, una distancia no euclídea en euclídea. Véase De Leeuw y Heiser (1982), Cuadras etal. (1985). 4.2. Distancias ultramétricas En esta sección estudiamos la propiedad P.6 ^;^ < max { ó;k, ^^k } d i, j, k asi como sus principales consecuencias. Cuando se cumple P.6 se dice que (S2,ó) es un espacio ultramétrico. Sin embargo, dificilmente una distancia calculada a partir de unos datos estadísticos, cumplirá una propiedad tan restrictiva como la desigualdad ultramétrica. En realidad, se trata de aproximar rS a una ultrarnétrica ^,,, y representar aproximadamente (S^,ó) a través de un espacio ultramétrico, en el sentido de la sección 1. EI axioma ultramétrico para una distancia fue introducido por primera vez por M. Krassner en 1930, en ciertas investigaciones de la teoría de números y series formales, demostrando que ciertas distancias, como la distancia p-ádica entre números enteros y la distancia entre los rangos de dos series, cumplían la propiedad ultramétrica. Posteriormente Benzecri (1965 ^ , Jardine, Jardine y Sibson (1967) y Johnson (1967), establecieron la relación entre distancia ultramétrica y jerarquia indexada. Desde entonces, las E ST ^1[)I^si I(^:^ E.tiE'.^ti(1[_ ^ distancias con la propiedad P.6 juegan un papel fundamental en análisis de datos. Supongamos que (S2,í^} es un espacio ultramétrico. Es bien conocido (Jonhson, 1967; Benzecri, 1976}, que puede asociarse a S^ una jerarquia indexada (C,a} donde C es una colección de subconjuntos ("clusters"} de S^, a es un índice sabre C, unívocamente determinado por 1a distancia ultrarnétrica a, con ciertas propiedades de monotonía. La idea principal es que en un espacio ultrarnétrico, la nación de proximidad entre dos individuos, en el sentido de que su distancia es inferior a un valor x> O dado, define una relación de equivalencia en S^ y por tanto una partición de S^. Es decir, la relación i^^ si .y sólo si S;^^ ^ x, es de equivalencia y define una partición ("clustering") de S^ para cada nivel x. Aumentando x se obtiene particiones progresivamente menos finas, que engloban a las anteriores, formando una estructura jerár+quica. La representación geométrica de (S2,c^) se Ileva a cabo a través de un dendograma, que refleja métrica (a través de a) y jerarquicamente la estructura de S^ (figura 3). La aplicación de estos canceptos para resalver problemas de clasificación, taxonomía y sistemática, es bien conocida (Jardine y Sibson, 1971; Sneath y Sokal, 1 973; Benzecri, 1 976; Cuadras, 1 981 }. Por otra parte, es bastante frecuente en las aplicaciones, la doble representación de {S^,d 1, bien a través de un espacio euclídeo, bien a través de un espacio ultramétrico (véase, por ejemplo, Escarré, 1972; Canton y Sancho, 1976, D'Andrade et a/., 1972; Rapoport y Fillenbaum, 1972; Del Castilla, 1986) hasta el punto de que la relación entre ambas representaciones ha interesado a los estadísticos. La pre+gunta básica es la siguiente: ^ cuál es la conexión que existe entre la representación a lo largo de unos ejes de coardenadas y a través de un dendograma?. Un primer paso sobre este tema fue dado por Holman { 1 972), que demostró el siguiente: Tec^rema 2 Si 1^,ó) es un espacio ultramétrico, S2 tiene n elementos y^;^ ^ 0 para todo i ^ j, entonces la matriz de distancias tS =(ó;;) es euclídea (n-1 }dimensional. De este resultada, que habría sido conjeturado por Gower (1 971), se han dado diferentes demostraciones: Gower y Bandfield { 197 5), Caifliez y Pagés { 1976}, Cuadras y Carmona { 1 983}. Otros autores han relacionado ambas clases de representaciones. Ohsumi y Nakamura (1 981) estudian la relación entre la formación de '"clusters" y I^s valores propias de la matriz asociada a a{teorema 1}. Carroll (1 976) introduce estructuras de árbol n^s^r;^^c^i,^^ ^sr:^^^sTic^,^^ 313 como modelos intermedios entre los modelos espaciales y el esquema de representación jerárquico, describiendo un algoritmo para ajustar una estructura de árbol a(S2,^S). Por otra parte, Pruzansky et a/. (1 982) estudian y comparan representaciones en el plano euclídeo y a través de un árbol aditivo (ver sección siguiente), proponiendo índices y criterios de ajuste para decidir el modelo más aprapiado. Por lo demás, no parece fácil interpretar e1 teorema 2. Holman (1972) observa que mientras un conjunto finito en el que hay definida una distancia ultramétrica, puede representarse integramente en el piano mediante un dendograma, la dimensión exacta en una representación euclídea vale exactamente ( n-1 }, luego parece estar reñida con una reducción de la dimensión, es decir, con una representación tomando ( por ejemplo), los 2 primeros ejes principales. Sin embargo, Critchley ( 1985) demuestra que una distancia ultramétrica puede Ilegar a estar arbitrariamente próxima a una distancia euclídea m-dimensional, incluyendo m=1. Cuadras ( 19$3), Cuadras y Oller ( 1 987) discuten este problema analizando las coordenadas euclídeas X(n x(n-1) ) que verifican ( 1$), obtenidas por descompasición espectral de B, es decir, las coordenadas principales asociadas a una matriz de distancias ultramétricas 0. La estructura de los vectores propios de B está relacionada con la formació '"' ^ " Y algunos valor^es propios pueden obtenerse explicitamente. Existe una partición ^ _ ^ , ^- . . . -^- ^ C r -f- ^ r+ 1 -f- . . . -^- S^ k (21) tal que cada 5^;, 1< i< r, contiene n; > 1 elementos, mientras que cada 5^;, r< i< k, contiene n;=1 elementos, siendo k t) = ^ /Z; i-1 el número de elementos de S^. La partición ( 21) está formada por r"clusters'" maximales de elementos equidistantes y (n-r) elementos aislados (pudiendo verificarse r> 1 y r^k). Si h, < ...< h, son las distancias (comunes) en 5^,, ..., S^r respectivamente, entonces ^ , = 1 h; < . . . < ^,, -- 1 h? 2 2 son vaiores propios de B y cada ^.; tiene multiplicidad (n;-1). Además ^., es el menor va{or propio de B. Por otra parte, la matriz de coordenadas principales puede ser arreglada en la forma X = (Xa, X,, . . ., Xr^ 314 ESTA[71ST1C'A E^SPAti()LA donde X, tn x( n,-1 }} contiene las coordenadas principales asociadas a^.; que discriminan solamente los objetos contenidos en 5^;, siendo 1< r< r. Las demés coordenadas principales ubicadas en Xa permiten representar, a lo largo de (k-1 } dimensiones, los "clusters"" que constituyen la partición (21 }. Luego, la dimensión (n-1 } necesaria según el teorema de Holman, puede quedar reducida a(k-1 }. Otra consecuencia es que la utilización de los dos primeros ejes principales tasociados a los dos primeros valores propios de B}, puede ser inadecuada puesto que, en ciertos casos, podrían no discrirninar adecuadamente los diferentes "ciusters" de S^ . Ejemplo: Cansideremos el conjunto ^={ 1, ..., 7} y la matriz de distancias ultramétricas sobre S^ . O 1 0 2 2 0 2 2 1 0 4 4 4 4 0 4 4 4 4 4 0 5 5 5 5 5 5 O Los valores propios de la matriz B asociada a 0 son ,^, = 21 ^.2 = 1 6,43 ^.3 = 3, 5 ^.4 = ^.5 = ^.^ 2 La figura 4 contiene ta representación de ta distancia a través de un dendograma. La partición (21 } es en este caso ^ ={ 1 .2} + { 3 , 4 } + {5,6} + { 7 } Las figuras 5,6,7, contienen las representaciones euclídeas a lo targo de los diferentes ejes principates. Obsérvese que ta representación tradicional tomando tos dos primeros ejes principales (figura 5}, coloca tos elementos 1 a 4 en el mismo punto. Sin embargo, tomando los ejes primero y tercero, conseguimos discriminar et "cluster" { 1,2 } del { 3,4 }, es decir, la figura 6 refleja ta partición anterior. Por otra parte, los elementos dentro de los "clusters" { 1,2 }, { 3,4 }, { 5,6 }, quedan diferenciados a la largo de los ejes cuarto, quinta y sexto (figura 7). D1ST.AtiC`IAS ESTADISTIC',^S 31 5 ^^ 0. 322 ^- 0 . 083 0.0 G Z V Dr Fig. 3.- Representacián mediante un dendograma (distancia ultramétrical de las poblaciones cuya matriz de distancias genéticas viene dada en la tabla 1. Figura 4 5 4 r ., i ^ ^ I I I 1 1 2 3 4 5 6 7 3 1 J o 3 i fi FSTADfSTIC'A ESPAtiC)[..A Figura 5 5 x 6 ^ 4 2 3 ? X ^isT^>tici:^s ^s^r:^^^is-ric.^as 317 Figura 6 a3 1 X 2 6 5 ? 3 x 4 Figu ra 7 5 4 1 6 2 3 1 2 5 [^^..1 ! !^ ^^I.? 1 Il.. !^` C^.'...7f r^ ^Yl.^^_...'^ 4.3. Distancias aditivas Una distancia ^,^ es aditiva si verifica la desigualdad aditiva (también Ilamada axioma de los cuatro puntos) P. 7 ^,^ + c^k, ^ max {^,^. +^5^, ,^,, + b^k } b i, j, k, l Cuando se cumple P.? diremos que (S^,d) es un espacio aditivo. De hecho, una distancia estadística no cumpliré, en general, la desigualdad aditiva, sino que se trata de aproximar ^ a una distancia aditiva ^58, a fin de poder aproximar (5^,^5) a través de un espacio aditivo, en el sentido de la sección1. EI interés por ^a desigualdad aditiva surge al considerar la desigualdad ultramétrica como demasiado restrictiva para ajustarle una distancia estadística. Se puede probar la siguiente implicación entre las desigualdades P.4, P.6, P.7; ultramétrica -^ aditiva -^ triangular Por lo tanto, un espacio ultramétrico es un caso particular de un espacio aditivo. Si S^ es un conjunto finito y^ es una distancia métrica no se conace ninguna forma de representación de (S^,ó) a través de una estructura geométrica conocida. Pero si ó es ultrarnétrica entonces la representación puede hacerse en forma de dendograma. Y si ó es aditiva, S^ puede representarse a través de los extremos de un grafo simplemente conexo, tomando como distancia la longitud del camino que 1os une. Esta es la llamada representación a través de un árbol aditivo 4figura 8). V Fig. 8.- Representación mediante un árbol aditivo Ídistancia aditiva) de las p©blaciones cuya matriz de distancias genéticas viene dada en la tabla 1. [)IS^I- ^tiC^I-^S E-:^T -^C)IS-TIí -^^ 31y Buneman ( 1971) demuestra que un espacio (S^,c>) puede representarse a través de un espacio aditivo si y sólo si ^S verifica la desigualdad aditiva o axioma de los cuatro puntos. Además, como Waterman et al. (1977) demuestran esta representación es única. (Jtra formalización de ia representación aditiva ha sido desarrollada por Arcas ^ 1 987). Un dendograma es un caso particuiar de un árbol aditivo. En efecto, es un árbo! aditivo con un nodo distinguido ( Ilamado rai^) que es equidistante de todos los extremos. Como la desigualdad aditiva es más flexible que la ultramétrica, resulta más fácil ajustar una distancia aditiva a una distancia estadistica. En otras palabras, en lugar de un dendograma, resulta más aproximada la representación a través de un árbol aditivo, que usualmente se realiza en forma paralela. ^as diferencias entre ambos tipos de representación son: a) En el caso ultramétrico, las n(n-1 )/2 interdistancias entre los individuo^ vienen determinados por al menos (n-1) valores intermedios, mientras que en el caso aditivo este número se eleva a(2n-3). b) Una distancia ultramétrica define una jerarquía indexada (C,x), que es la forma más perfecta de clasificación. La distancia entre indiwiduos del mismo "cluster" ( distancía intracluster) es siempre menor que la distancia entre individuos de distinto "" cluster" ( distancia intercluster). c) Una distancia aditiva no ultramétrica na define ninguna jerarquia indexada. La distancia intracluster puede superar a la distancia intercluster. d) Toda distancia ultramétrica es euclídea ( teorema 2). Una distancia aditiva puede ser no euclídea. e) En un árbol aditivo no existe un nodo equidistante de los extremos. EI problema de fijar una raíz (similar a la elección del origen de coordenadas en una representación espacial) depende del algoritrno de clasificación. Diferentes raices inducen diferentes jerarquías de particiones o"clusters". f) ^i mediante algoritmos adecuados ajustamos una distancia ultrarnétrica y una distancia aditiva a una misma distancia estadística, la distorsión (que puede medirse utili2ando la correlación cofenética) es menor en el caso aditivo. ^ Un importante resultado es el teorema 3, que permite estudiar y clasificar las distancias aditivas. ES^T:^DISTIC^:1 F SP:>tiC)L_:^ TEOREMA 3 Si (5^,^) es un espacio aditivo, existe entonces una distancia u{tramétrica y una funcián ^: Sl --^ R tal que + ^(i} + ^(j} . (22) Demostración: Ver Buneman (1971). De la descomposición (22} podemos obtener tres clases de distancias aditivas, dando lugar a tres tipos simples de árboles aditivos: a) U Itra m étricos: ^^i ^ ^%i b^ Singulares: ^ ^(ij + ^(j) En este caso, el árbol aditivo tiene un único nodo interno. c) Lineales: Si todos los puntos pueden representarse a lo largo de una línea recta. Otros tipos de árboles pueden construirse combinando los tres anteriores. Véase Sattah y Tversky (1 977}, Barthelemy y Guénoche (1 988). Por otra parte, existen diversos algoritmos para ajustar una distancia aditiva, que presentan díversas ventajas e inconvenientes (Arcas y Cuadras, 1987). E1 más conocido es el ADDTREE, eiaborado por A. Tversky e implementad© por Corter t 1 982). Un algoritmo sencillo puede deducirse partiendo de (22). Mediante alguno de los algoritmos de clasificaci+^n jerárquica, ajustemos una distancia estadística d;i a una ultramétrica u;^ . Sea Ajustemos seguidamente y;j a un modelo lineal de la forma a; + ai por el criterio de los mínimos cuadrados. Entonces es fácil ver que G^; _ ^ (2/^-2) .. n .^ (d;k-U;i} - ^ (dik k^j k=l .. .. -u;kl ] l 2 Cn -2} ^%^!- ^ ) De este modo, ^;i ^ u;^^ + a; + ai es una distancia aditiva que se ajusta a d;i . f)ISTA,1(^IAS EST,ADISTIC^AS 5. DiSTANCIA DE RAO En esta sección iniciamos el estudio de las distancias estadísticas definidas sobre distribuciones de probabilidad, en el sentido del apartado b^ de la sección 1. A causa de sus interesantes propiedades y su conexión con otras distancias, empezaremos comentando una distancia introducida p©r Rao (^ 945) y estucliada por Atkinson y Mitchell (1981), Burbea y Rao (1982a,b}, Oller y Cuadras { 1982a, 1985), Oller (1987), Amari (1985), Cuadras et al. (1 985), Burbea (19$6i, Mitchell (1988}. 5.1. Definición y propiedades generales Sea S=^ p(X,^) } un modelo estadístico, donde X es un vector aleatorio, f^ _(D,, ..., f^„) es un parámetro n-dimensional, p(X,Q) es una función de densidad de probabilidad de X parametrizada por ^. Podernos considerar que ^ pertenece a una variedad diferenciable O y tomar la matriz de información de Fisher G=E{[ a a8 ^09 p(X;f^l ] ^ a aa ^09 p(X;©? ]' } como tensor métrico fundamental sobre O. I ndicando G= elemento del arco (al cuadrado) es ds2(©)= ^ g;;(©) df^;d8^ ;,;- ^ Debido a que G se comporta como un tensor covariante simétrico de segundo orden para todo ^, resulta que ^25) es invariante por transformaciones adrnisibles de los parámetros. Fijando entonces dos puntos eA , 8^ de O, y una curva paramétrica ©_ ^(t), tA < t^ tB, con 8(tA) _©a, e{tB1= BB, !a distancia entre ambos a lo largo de la curva es tB ds (fI) `A tB . n dt = [ ^ 9;;(©) 0; tA ^,;_^ fl t ' ^2 d t (26) donde 0; significa la derivada respecto t. La distancia geodésica entre dA y f)B es la distancia a lo largo de una curva geodésica, es decir, a l0 larga de una curva tal que (26) sea mínima. La curva geodésica se obtiene resolviendo la ecuaciór^ de Euger-Lagrange n • n . . ^ g;h E^; +.^ r;;,, r^ ;^;= o ^,^_ ^ ^^ ^ h E51 .^i)IS1It`A E^^'^^`(:)l A ^^^ con ias condiciones de contorno f>(tA) = f^A, fl {te} = f^B , siendo r,^n = 2 ^^, 9^n + a^ 9r^^ -^n 9,^ ^ los simbolos de Christoffel de primera clase. La distancia geodésica R(f/A,f^e} sobre C-^, basada en la matriz de información de Fisher, recibe el nombre de distancia geodésica informacional o distancia de Rao. Utilizada como distancia entre dos densidades de probabilidad de S goza de las siguientes propiedades: 1} Es invariante por transformaciones admisibles, tanto de 1as variables como de los parámetros. 2) Si las variables aleatorias contenidas en X son estocasticamente independientes y con distribucianes uniparamétricas, entances !a distancia geodésica es euclídea. 3} Se puede relacionar con el contraste de hipótesis y está conectada con las propiedades asintóticas de ciertas estimadores de parámetros. La distancia de Rao puede también introducirse relacionándola con ciertas medidas de divergencia ( ver sección siguiente), o par via axiomática, exigiendo ciertas condiciones generales a una distancia entre distribuciones de probabilidad ( Cuadras et al., 1985}. Otro camino para introducir esta distancia consiste en considerar el espacio tangente T^^ definido en cada punto de la variedad. T„ es un espacio vectorial local, que está generado por los n vectores ^^ 1 d fl,, i^ 1, ..., n. Todo vector tangente puede ser representado como una combinación lineal de la base natura! a; = a/ a f^; n v -- ^' v ^ ^; Consideremos ahora el modelo estadístico S={ p(X,©} } y las n variables aleatorias a a f^; log p( X, fl} i= 1 ,...,n c28y y supongamos que son linealmente independientes en X para cada valor de fl. Definimos entonces el espacio vectoriai T^'^ t^ = C Z^, ., Z n í1 de !as variables aleatorias que son combinación fineal de Z; . ^isT^^^ tic^i.a^ E.s-r^^r^iSTic-.^s Existe un isomarfismo natural entre Tf, y T^'^. En efecto, basta establecer la correspondencia ^ a; c--> Z; _ a ^; log p(X , ^) 129) según la cual la imagen de (27) será la variable aleatoria n vX =i=1^ v^ Z; Luego podemos identificar T^ con T^'^ y referirnos a T^,'^como la representación en términos de variables aleatorias de T^. Observando que, bajo ciertas condiciones de regularidad, se verifica E (Z;)=o i= 1,...,n el producto escalar natural en Tá'^ es < UX, VX >= cov (UX, VX) = E(UX. VX) luego los productos escalares de la base { Z; ^ son g;;(8)-E (Z;.Z;} i,j= 1,...,n que constituyen la matriz de información de Fisher (24). Puesto que hemos definido un praducto escalar en cada. espacio tangente Ti'^ resulta entonces que hemos dotado a S de una estructura de espacio de Riemann. La distancia geodésica entre dos puntos de !a variedad se obtiene minimizando (2 6 ). Con el propósito de estructurar las propiedades intrínsecas de un modelo estadístico, Amari (1985) considera la a-conexión r^^ _ r;;k _ r;;k + 1-a 2 T;;k siendo T;;k el tensor simétrico T;;k = E ( Z; . Z; . Zk ) Las geodésicas asociadas a un a-conexión son aquellas curvas cuyo vector tangente se desplaza paralelamente a lo largo de si misma y pueden considerarse como rectas. Tomando como tensor métrico la matriz de E_ST^f^^iST^I(.'A E_SP^tif^)l_^^1 infarmación de Fisher, resulta que la O-conexión coincide con la conexión de Levi-Civita, que es la única que hace compatible la noción afín de paraielismo con 1a noción métrica de distancia. Las demás conexiones son menos naturales desde el punto de vista métrico, pero tienen interesantes interpretaciones estadísticas. La 1-conexión fue introducida por Efron ^ 19? 5), y tiene una interpretación natural si consideramos la familia exponencial. Para esta familia se verifica r(zl _ ij k ^ 2 ijk que es identicamente 0 para a= 1. La familia exponencial constituye un espacio sin curvatura respecto a la 1-conexión y las geodésicas asociadas pueden interpretarse como rectas. La -1 -conexión fue introducida por Dawid (1975). Si consideramos una mixtura de distribuciones p (x, f^1 = (1 -^^1 P, ( x) + ^^ Qz {x) 0 ^ fI < 1 entonces r^i _ r 1 ^ jk - 1 + QC ^ T 1 ijk que es idénticamente o para a=-1. obtenemos una familia de distribuciones que constituyen un espacio sin curvatura respecto a la -1 -conexión. La familia puede considerarse como una línea recta conectando dos distribu- c^ones. La teoría de las a-conexiones puede aplicarse para estudiar la familia de distribuciones exponenciales, así como la familia exponencial curvada de Efron. Véase Amari (1 9$5), Burbea (1986). La distancia de Rao, es decir, la distancia geodésica en S basada sOI^rF la rnétrica asociada a(24), ha sido calculada para la mayoría de discr^k^^^ciones univariantes y algunas distribuciones multivariantes. Si en cierta ^ s casos el cálculo es sencillo, en otros es bastante complejo o no ha sido resuelto todavía. Por ejemplo, para el sistema uni-paramétrico bivariante propuesto por Cuadras y Augé (1981 ), en la expresión de la distancia intervienen diversos desarrollos en serie (Ruiz-Rivas y Cuadras, 1988). La distancia entre dos normales multivariantes con distinta matriz de covarianzas, todavía no ha sido resuelta, aunque se han intentado algunas aproximaciones al problema (oller y Cuadras, 1 983, Calvo, 1 988). ni^^ ^ti<^i.^S F-s^ .^r^i^ 1 ic a^ 5.2. Distancias entre distribuciones univariantes Supongamos que p(x ^ fl) es una función de densidad univariante y uniparamétrica. Es fácil ver que la distancia de Rao entre a,b ^ O viene dada por R(a , b) _ ^ a y(f^) df^ ^ (30) A continuación damos las distancias para algunas de estas distribuciones. a. Binomial.• p (x ( p) _ { N) ^X { 1 _^)N-X x x = 0,1,. . .,N 0 < f^ < R (a,b) = 2 ti N arcos { ti'ab + ti^ (1 -a) (1 -b) } b. Poísson: ^X p(x ^ f^) - e-^' x- 0,1,2,,.. f^ > 0 x! R ( a, b) = 2 ^ ti^ - ^^ ^ c. Bínomial negativa ( r fijo): p(x ^ 8) = I^ (x + r) x ! r (r) f^x (1-f^)' x= 0,1,2,... 1 - ^ ab R(a, b) = 2^ cos h-' ( ^' (1 -a) (1 -b) ) d. Gamma (r fi jo) p(x ^ ^) = 1 x'- ^ e-X^ ^^ I' (r) x > 0, f^ > 0 R (a, b) _ ^r ^ log (a/b) e. Weibull ( a f i j o) p(x ^ f^) = a x^ -' f^ e-X^° R(a, b) _ ^ log (a / b) ^ x> O,f/> O,a> 0 0< ^< 1 E^ T^1F)IST^IC ,A E tiF' 1tiC)LA Nótese que, como la distribución de Weibull es la que sigue X"x donde X es Gamma Cr=1 ), se obtiene un caso particular de la distancia anterior, pues la distancia de Rao es invariante. f. Pareto Cr fi j o) pCx ^ 4} = Q r" x re+ ,a x> r, ^> o R( a, b)_(/og^ (a l b} ^ g. Normal N{^c, 42), {^c fi jo) 1 R (a, b) = v 2 I ^og (a /b i I h. Normal N C,u, a2) ,(^ fijo) ^a-b ^ R {a, b) _ a 5.3. Distancia entre distribuciones univariantes biparamétricas Supangamos que ahora O tiene dimensión n=2. Entonces es necesario calcular la matriz de información de Fisher y proceder como hemos explicado al principio de esta sección, es decir, resolviendo las correspondientes ecuaciones geodésicas. Las distancias que exponemos seguidamente han sido obtenidas por A^tkinsan y Mitchell C 1981 ), Burbea y Rao (1982 a,b), 011er C1987). a. Distribucián normal La distaneia de Rao entre N(^,, a; ) y N{/c2, o2i, es decir, entre los puntos C/c,,cr; l, t^c2,a-^), es ^ R C 1, 2 ) _ ,._.. /og ^i2 1+ó(1,2) 1 -^C1 ,2) siendo S{ 1,2) _ ^^^ - 1^2^2 + 2 ^^>' - a2)2 [ C,u ,-,u 2) 2 + 2 t Q, + Q2 ) 2 ^^2 DIST.A^+t'I.AS ES^TAC)ISTIC'AS b. Distribución de valores extremos de Gumbel p(x ^ a,f1) _ ^ exp ( -exp ^ tx-a) / a) 1 exp 1- (x-a) / f^) ^>O,x>O,aER Sea y la constante de Euler. I ndicando a=1-y, b=^c 1^ 6, la distancia entre los puntos {a,,f^, ) y{a2,El^) es 1 +^{1,2) R (1, 2 ) = b log 1 -^(1,2) donde [ (a2-a^) - a(^2-Or) ]2+b2 {^^-Q^)2 ^^^ [ ( az - a ^ ) - a ( ^z - ^ ^ ) l 2 + b2 ( ^2+ ^, ) 2 c. Distribución de valores extremos de Gauchy-Frechet p(x ^ ^3,^.) = exp (- (x/^3)-' ^ {x,/j3)-r^ ♦ ^^ í^//(3 ^3,^. , x > 0 La distancia entre los puntos (^3,,^,,) y(^32,^,2) es R(1,2) = 6 . log 1 + ^(1,2) 1 - ó(1,2) donde ^ l09' (l3z/^^ )+a(^,2-^,,) / í^, í^2]2 + b^(í^2-í^,)Z ^,; ^.2 ^S{1,2) _ [ l09 (^2/^^ ) +a(/^^2-í^^,) / /^., /^.2]2 + b2(/^.2+^,,)2 ^.; /^,2 -y, b=^/y6. d. Dis tribución logís tica p(x ^a,f3)= 1 4^ sech2( x-a 2^ 1 x,a E R,^3 > 0 .^^^ E^,ty^^f>1^Tf('^^ f^P^^`^i)1 ^> La distancia entre los puntos (.z,, ^^,) y(x^, j^2) es R (1,2} = ^, ,6 3 log 1 + ^S (1 , 2 ) 1 ` ^3(1 ,2} donde (3 /b) (a2 - x, )z + (^2 _ ^^ }z C^^ 1,2} - C 2 ( 3 /b} t ^^ - ^r } + {^z + ^T } 2 b=n2+3. 5.4. D^stancias entre distribuciones multivariantes La distancia de Rao para diversas distribuciones multivariantes ha sido estudiada por Bhattacharyya ^ 1946}, Atkinson y IVlitchell { 1981 ^, Burbea y Rao (1982a,b}, Oller y Cuadras {1982a, 1983, 1985), Ruiz-Rivas y Cuadras (19$8}. Actualmente se intenta encontrar la distancia de Rao para distribuciones multivariantes en las que ni ,c^ ni ^ están fijos. a. Multinomíal ( N f i j o} p(x ^ ^) = N! (D,)X^ . . . (E^„}xn xll...x„I x,>0 0< n n i-T r=1 ^ x;= N ; ^ f^;= 1 La distancia de Rao entre los puntos {a,, ..., a„), {b,, ..., b„) es R(1,2 )= 2^' N a rcos { ^ ti^ a b^) ;- ^ es decir, hemos obtenido la distancia de Hellinger-Battacharyya inicialmen te propuesta por Bhattacharyya (1946) (ver sección 7.2^. b. Mult^nomia/ negativa (r fijo) I'(x,+..+x„+r} {^, )xT. . . (Qn)Xn {^k+T )r ^^ ^X' i^} _ X, ^... X^ ^ r Í r) nis^r.^:^c^i:^s Esr^^n^sric^^s 3?9 n n siendo E f^; < 1, ^> n+l ,- ^ = 1 -^ f), ,> > La distancia entre ( a,, ..., an, a"+,) Y(b,, .. ., b", bn+,) es n ^ R(1,2 )= 2 y' r cos h-' 1 - ^ ^ a; b, ,_ ^ ^ ak+ 1 bk+ 1 c. Normal multivariante (E fijo) La distancia de Rao entre Nn(,cc,,E) y Nn(µ2,^), donde ^c^,, I^2 E R" y^ permanece fijo es R S ^ ^2) _ { (^^^ _ ^^2)• ^-^ (^1' _ ^12^ } ^^2 es decir, es la conocida distancia de Mahalanobis (1936). d. Normal multivariante (/^ fi jo ) La distancia entre N" (,uo, ^, ) y N"(,clo, ^2), donde ,uo perrnanece fijo, es R (1,2)=( ^ ^ l0g2^,.)^^z , 2 ;,, donde ^.,, ..., ^," son los valores propios de ^2 respecto de ^,, es decir, ias soluciones de la ecuación en determínantes I ^ 2 -^, ^, 1=0 e. Nvrmal multivariante La distancia entre dos norrnales Nn(,c^,, ^,), Nn(,u2, ^2) es un problerna todavía no completamente resuelto. Aunque se han podido integrar las geodésicas, el problema algebraico de determinar las constantes de integración para enlazar dos puntos de la variedad todavía no se ha podido resolver. Sin embargo, se conoce la solución para algunos casos particulares. Además se ha podido demostrar que existe una isometría entre la variedad y el grupo Pnt,(R) de todas las matrices definidas positivas de orden n+ 1, con la métrica c A, B > = tr(A B') Considerando entonces que se puede obtener una distancia para una subvariedad de P"+, (R), se ha conseguido la siguiente cota inferior para la distancia de Rao ^ ^ c^ E:tir.lvi^rNC-r^ t.sN:^^c^t.;> d (1 . 2 } _ ( ^ ^ ^ lag? ( ^., } 2 ^- ^ donde ^,,, ..., ^^n, ^.,,+1 son los valores propios de S^ respecto S,, siendo ^i + ^i ^i i = 1,,2 , l^; Véase Burbea (19$fi), Calvo (19$8), Skovgaard (1984}. 5.5. Una distancia intrapobtacional Supongamos ahora que el vector aleatorio X toma valores en una población S2. La correspondencia (29) permite definir una distancia entre los individuos de S^ caracterizados por un punto fl de O. En efecto, podemos caracterizar S^ a través del espacio dual E;,, siendo E f,=T^, el espacio tangente introducido anteriorrnente, haciendo corresponder a cv E S2 la forma lineal c.^* ^ E^1 tal que cc^* (Z1 = Z(c^), para toda variable aleatoria Z E E^. Como la métrica en E;, inducida por la métrica en E,,, tiene como matriz asociada G-' respecto a la base dual de Z,, ..., Zn, podemos definir una distancia entre individuos R( cv, , c^2 )= dE^r ( cv ;, cv2 f ( 31 } donde dE« es una distancia euclídea local. Por ejemplo, consideremos una población Np(^^;^), con ^ fijo. Entonces E^^ está generada por el vector aleatorio Z=^^' (X - ,c^) y la métrica en E^1 viene dada por ^-', luego la métrica en E^^ viene dada por E. La distancia (al cuadrado) entre dos individuos con vafores z, _ ^-' (x, - ^^), z2 = ^^' (x2 - ^c^), es (x, -x2 )' ^-1 ^ ^-^ !xl _x2 ) _ (x' _x2 ^• ^-r (X' _x2) es decir, coincide con la distancia de Mahalanobis 112). Consideremos ahora n+ 1 sucesas mutuamente excluyentes A,, ..., An, A„+, de probabilidades p,, ---- Pn- pn+l Y la función de densidad f(x,, . . ., x„/p,, . E{o,^},o<,^;<1, . ., pn ) _ ^ ' . . . ^7^n ( 1 ...,n, C)IS7AtiC'IAS EST.^DIS^TIt^,^1S es decir, x; = 1 si cv E A; , x; = 0 en caso contrario. Indicando n Xn+ 1 - 1 - ^ X; i-1 n pn+ ^ _ ,-1 el tensor métrico G sobre a={(p,, b;; 1 + pi ^ ^ p; < 1 } es '^ pn i= l i, j = 1 ,...,n Pn+ 1 Con algo de esfuerzo se obtiene entonces que la distancia entre un individuo cv, que presenta la característica A,, es decir, cv, E A;, y otro individuo cv2 E A^, es R (cw,,cv^) _ ^ . 1 1 1 + ( 1 - d;;) ( P; !^; siendo rS;; la delta de KronPCker. Finalmente, si consideramos k particiones independientes de S2 A ^;^ , . ., A»'^ , A^^^^ ; , i = 1, . . ., k la distancia entre cv, y cv2 tales que c.^, E A;^^ U... U A;k^ cv2 E A^ ^^ U... U A^k^ viene dada por k R (cv,, cv2) _ ^ x- ^ (1 - ^;^;^) ( ^µ 1 p^^ + 1 ) (32 ) p^x siendo p;^ = P(A;x^ ). La distancia (32) puede ser utilizada para diferenciar individuos de una población conocida la presencia o ausencia de características cualitativas. 6. DIVERGENCIAS Las medidas no paramétricas de divergencia entre distribuciones de probabilidad se definen como expresiones funcionales ta menudo relacionadas con la teoría de la información), que miden el grado de discrepancia entre 3 ^^ F=s-r ^>t^iS^ ic _^ Es[^ ^^c^^_.^ dos distribuciones cuaiesquiera, no necesariamente pertenecientes a una misma familia paramétrica. aespués de los trabajos pioneros de Pearson {prueba ji-cuadrado) y Hellinger (la famosa distancia de Hellinger, publicada en 1909), otros autores han estudiado divergencias {Shannon, Kullbach y Leibler, Renyi, etc.`. La divergencia aplicada a distribuciones de probabilidad serían introducidas por Csiszar { 1963, 1967, 1972, 1975), estudiadas en diferentes versiones por Matusita (1955, 1964), Havrda y Charvat { 1967), Vajda (1972) y generalizadas por Burbea y Rao (1982 a,b). ^as divergencias tienen aplicaciones en inferencia estadística y en procesos estocásticos. Véase Bishop et al. (1975), Liese y Vajda (1987). 6.1. Distribució^n multinomial Sea p =(p,, ..., p„} e! vector de probabiiidades correspondiente a una distribución multinomial. Un funcional ^- entropia es H¢{p)=^p;¢^(p;) (33) donde rp es una función estrictamente convexa tal que q^ (1 ) = 0. H^, es una función sobre ia clase de distribuciones muftinomiales n-dimensionales que es máxima cuando los p; son iguales y alcanzan e{ vaior mínimo (cero) cuando algún p; = 1. H^ mide ei grado de discrepancia con la distribución de máxima entropía, y ha sido ampliamente utilizada como medida de diversidad. Sean p= ^p,, ..., p„), q=(q,, ..., q„) dos distribuciones multinomiales. La divergencia entre p y q se puede medir como !a discrepancia entre el cociente x; = q; / p; y 1. Basándonos en el significado de (33), definimos una divergencia entre p y q, ilamada ¢^-divergencia de Csiszar (1 972), como el valor esperado de x,, ..., x„ C ^ (1^- 4') _ ^ p; ^ ( q, / p;) (34) Por la desigualdad de Jensen se tiene C4(p,q}=^p;^(x;}> ^(^p;x;)=^(1)=0 aicanzándose el vaior 0 si y sólo si p=q. ^34) se puede tomar como una medida de disimilaridad entre p y q, pero en general no es una distancia, pues no siempre es simétrica, o si lo es, puede no cumplir la desigualdad triangular. Sin embargo, tiene dos interesantes propiedades: C^, (p, q} aumenta cuando se considera una partición más fina, y bajo la hipótesis C,^ (p, q) = 0, e! estadistico UIST•^ti(^1-15 f ^T^11)ItiTI( .^^^ 2N,N2 ,, (N,+Nz) ¢ (1) „ „ e^, (p . 4') ^^^ (35) sigue (asintóticamente) la distribución ji-cuadrado con n-1 grados de liber.. ^ tad, siendo p,, q, las frecuencias reiativas muestrales para muestras de tamaños N,, N2 (Takeuchi e^ a/, 1982). EI cuadro 3 contiene diversas formas de (34) según diferentes expresiones de ^(x), incluyendo, en su caso, la distancia genética que da lugar (ver sección 7.2). Un caso importante es ¢(x) _-log x. Entonces H^ es la farnosa entropia de Shannon y(34) es p (p,q)=^^P,lo9' (p,/q,) (36) conocida como medida de información de Kullback-Leibler. (36i mide la ganancia de información al pasar de la distribución p a la q, y ha sido utilizada en estadística, especialmente en estadística bayesiana (Bernardo, 1981, 1987). La simetrización de (36) J^ (p,q) = I^^ (p,q) + I,,(q,p) es el invariante de Jeffreys, también Ilamada L-divergencia. Obsérvese que para ^(x) _ ^ 1 -x ^ se obtiene ^ ^ p; - q; j distancia que ha sido utilizada en genética ( Prevosti, et^ al, 1975). Sin embargo, en este caso no se puede utilizar (35) porque ^' '(1 ) no existe. Por otra parte, si consideramos las entropias H,_;(p), H,;(q) y la entropia correspondiente a la mixtura ^^p +(1 - ^.)q, entonces mediante la diferencia de Jensen J,, (p, q) = H r, ( r p + (1 -r.) q) - ^- H,,; (p) - (1 -^ ) H,; (q) obtenemos una distancia, liamada J-divergencia, entre p y q. Por ejemplo, utilizando (a entropia de Gini-Simpson H^(p)= 1 _^pz se obtiene la distancia 2 ^^ (1 - ^^ ) ^ (p; - q^ ) ^ que ha sido utilizada en genética por Nei (1 971 ). Véase Rao (1982). Tanto la J-divergencia como la L-divergencia son estudiadas, con más generali- ^ S^t;1O1^^ ^íf( .A E ^Y:^tit)L•^ dad, en la siguiente sección. Por otra parte Pérez et al. (1 986) prueban que la entropia de Gini-Sampson puede ser estimada (en poblaciones finitas) más fácilmente que la de Shannon, por lo que recomiendan (a primera para estimar la diversidad. CUADR03 Algunas ¢ -divergencias: Ca (p, q) = ^ p; ¢ {q; / p;) ¢ ( x) NOMBRE C (p. 4') - log x ^ p, log(p,/q,) Kuliback-Leibler 1 - ^ qz' p;z Havrda-Charvat 2(1 -^; x) ^(ti p; -^, q,i^ Bhattacharyya ^ 1 - x^ ^ ^ p; - q, ^ GENETICA ^ ^ - Xx-^) ^ {x _ 1 )^ (x+ 1 ) Cavalli-Sforza Prevosti {p` _ ql)2 Balakrishnan-Sanghvi (p;+q,) Salicrú y Cuadras (1988) prueban que todo funcional ¢-entropia {33) puede interpretarse como una medida de Csiszar ( 34) entre p y la distribu-ción de máxima entropia e=(1 1n, ..., 1/n ^ . Por ejemplo, para la entropia H^,(pj de Havrda-Charvat, en la que ¢ (x) _ ( a - 1 j -' (1 _ x^-' ) tx > 1 se verifica n H4 Íp) = Cf (p,e) =^ f{(n p; ^ -' ) p; ,-^ para la función f (x) ^ (a _ 1)-^ ^^ _ (n X)^-^ ^ ^ ^ Por otra parte, la rninirnización de C^(p,f), donde f representa el vector de frecuencias relativa y¢ se eiige adecuadamente, es equivalente a ciertos procedimientos clásicos en el tratamiento estadístico de datos multinomiales. Por ejemplo, tornando ¢(x) _- ln x haflar la estirnación máximo verosí- r^^srr^^c^i^^s E^:^r^^^^isric^^^s ^3^ ^ mil de p es equivalente a hallar,. p que minimiza C^(p, . Tomando ^(x) _ (x-1 )2, entonces minimizar C^,Íp,f) es equivalente al método de la mínima ji-cuadrado n min ^ P ,_ ^ (f!_ p^}z =C^, (^f) p, /1, Véase B ishop et al. (19 7 5). 6.2. Distribuciones absolutamente continuas Sea p(x) una función de densidad de un vector multivariante con distribución absolutamente continua y soporte en ^. Sea ^ una función real, dos veces derivable, sobre un intervalo T^, tal que [0,1 ]^ T^z,C[o, ^). Se define el funcional ^ entropia H^, (p) _ - ^, ^ [p(x) J dx (38) La J-divergencia entre dos distribuciones p, q, con respecto H^,,, se define como la diferencia de Jensen J^(p,q) = H ^ ( p+q ) - [H ^(p) + H^^ (q)) / 2 2 (39) La K-divergencia y la L-divergencia se definen como K^p (p, q) _ ^ (p-ql [^ (p) /p - ^ (q) /q) ] dx (40) y (suponiendo T^^, = R+) L^(p,q) _ ^ [p ^(q/p) + q ^(p/q) ) dx (41 ) Finalmente, se define la M-divergencia corno NI^ (p,q) _ ^, (^ ^(p) - ^ ^{q) )2 dx (42} Todas estas definiciones pueden ser generalizadas facilmente escribiendo d,u en vez de dx, donde ^c^ es una medida aditiva rr-finita y X es un espacio medible Lebesgue. Las J,K,L,M-divergencias son siempre simétricas. La M-divergencia es no negativa. Las condiciones para que las demás sean no-negativas son: t5T ^1[)ISI I(^^^ f^Sf'-1tiO1_-> i ^f^ a) J^^, (p, q} ^i-^ 0 si y sólo si ^U {u) es convexa en T^,. b) K^I,{p, q) ^ O si y sólo si +^U {u) /u es creciente en T^,. c) L^i,,p, q) _^ 0 si y sólo si u^U {u ') +^(u) es no negativa en R+. Para otras propiedades generales, véase Burbea y Rao (1 982 a,b^. Estudiemos ahora casos particulares de las L-divergencias, en especial aquellas que están relacionadas con la función c^x (u} _ (^ - 1 )-' (u^ - u) a ^ 1, ^43) -- u log u a-- 1 En este caso indicaremos Jz, K^, Lz . 1) Tomando la función f* (u) = ^ (u) + u ^ (1 /u) vemos que una L-divergencia coincide con la f* - divergencia de Csiszár ^-^1 U P 9', )=C•(p, 4` )=^,, pf*(p^4')dx r 2) t441 Tomando ^=1 en {43) obtenemos K, (p, qi = L, (p, q^ ) _;^ (p-q) (log p- lc^g q) dx {45) que es la divergencia de Jeffreys- Kullback- Leibler, que juega un papel destacado en inferencia estadística. 3} Tomando :^=2 en ( 43) obtenemos J2 (p,q )=2,^, ( P- 9' )2dx 4) Para ^(u) = u en ( 42) y tomando la raíz cuadrada obtenemos M{p ,q}= ^.^, (ti^-ti` P q )2dx] ' (4^6) que es la distancia de Matusita (1955), ampliamente utilizada en inferencia estadística y teoría de la decisión (Matusita, 1 964}. M(p,q) esta relacionada con la afinidad entre p y q. ^ ^> ( p, q} _^, 1, p ti q dx .^ ^7 [)Iti^T^^-1ti(^1^15 E;ti^T^•\UI^i I(^^^^ Se verifica M 2(p. q) = 2^ 1- P(p, q) ^ Para el caso particular de dos distribuciones normales N(i^;,^;) , i=1,2, la afinidad p(p, q) es ^ ^r ^2 r i4 I (^, + ^2) ^ 2 I ^l2 z exp[-( ^ ^.r^ (^c;-i^c^ ) ' ^^' ( ^;' + ^^' ) ^;' i^; ) ^ Si ^, _ ^2 = ^ entonces Í , )=exp^ Ppq 5) -^8 (^-^j'^_r(^-^ ^r ^2) ^ ^-r ^2 NI (p,q) está relacionada con la distancia de Hellinger E..^^(f,9,) = I y( frix_ 9,rix)x dx ^ a> 1 (47) que verifica 0< H,, < 1. Por otra parte, si consideramos el espacio de las funciones de cuadrado integrable sobre un soporte X, con el producto escalar <f,g>=rfgdx obtenemos un espacio de Hilbert en el que ^' H2 es la distancia entre dos funciones. Además, para la esfera de radio unidad E_{ f ^ f=ti p, p es densidad de probabilidad } entonces M(p,q) = H2(p,q)^ representa la cuerda, mientras que ^ ^ B(p,q) = arcos < ti' p, ti' q> = arcos p(p,q) (48) representa el arco que une los puntos p,q sobre la esfera E. (48) es una distancia geodésica sobre E, que en general será rnás pequeña que la distancia de Rao definida para una clase de densidades p(x,(l), parametrizada por f), y que constituyen una subvariedad S de E. Asimismo, la métrica diferencial en S inducida por la distancia de M(p,q) da también la distancia de Rao, como vemos en la sección siguiente. La relación entre las tres distancias es M (p,q) < B (p,q) < R (p,q) i ti[^11)ttiT It ^1 i tiP^1tit)1 A 6.3. M^tricas diferenciales a partir de divergencias En la sección 5.1. introduciamos una distancia geodésica sobre un modela estadística S={ p(X,fl) }, donde ll E ^, utilizando ei elemento de arco (25) y la matriz de información de Fisher. De forma análoga, utilízando la métrica diferencial definida por el Hessiano de una divergencia D^(p,q), donde ptx,f.i) es una família paramétrica, a lo ^argo de una direccián dei espacio tangente de ^ , 149^ ds2^ (f^) = c^ { D^, (p, p) } (f^) pademos construir una geometria riemanniana sobre S. Por e^emplo, para la J -divergencia tenemos 1/^J^ ^" () c^{JmÍ,)}Íf^)= Pp Pd ( p(f^)] 2dx y como dP( (^) = E ^p df^^, ,^r ^^., podernos tomar el elemento de arco ds2^ (f^) = 1/4 ^ g^; (H) d(^; d0^ %.r ^ siendo ^, ^ ` (' ^.. { ) ( ) J 9" ^ p `^p ^ f^; ap dx a f) ^- La matriz (q;^(f^) ) define un tensor covariante, y si ^ es convexa en T^ entonces define una métrica riemanniana sabre O. ^a distancia geodésica entre (^A y flB es la que minimiza (26). Se obtienen expresiones análogas para e1 elemento de arco para la K, ^ y M-divergencias, tomando: ^^ ^^^^ = x (^(p)1p]' ^^ (^^) _ f -^ 9^, ,^ p ^p ^I f^; p 9'^^', t ^^) --- ,^ ,^ t (^^ ap ap r^ f); a ()^ dx (K-divergencia) (L-divergencia) ap dx r? f)^ dp ^P d (I; r^ f^^ dx . ( M -divergencia) C)ISi^.^1ti('1-15 E.ST.IUIS^T^1(^AS 3^9 Observaciones: 1) Para la L-divergencia se verifica g^(f^) = E^,l a a^^; log p (X,f^) a aE^; log p ÍX,f^) ) luego es fácil ver que ds^ ( f^) = 2^" (1) ds2 ( fl) Si ^" (1) > 0, la métrica coincide ( salvo una constante) con la métrica informacional o distancia de Rao. Encontramos un resultado similar para la distancia de Matusita. 2) Para la clase de funciones ^^ definidas en (43) se obtiene g,(; ^( 8) = X p^ a aa; log p a aa; log^ p dx (50) que da lugar a la métrica informacional de orden a. En este caso, las cuatro métricas coinciden (salvo constantes). En particular, si a=1, en todos los casos obtenemos la métrica informacional o distancia de Rao. 3) Las distancias abtenidas son todas invariantes por transformaciones admisibles de los parámetros. Para ciertas funciones d^ las distancias son además invariantes frente a transformaciones admisibles de las variables aleatorias. Por ejemplo, para la K=divergencia se cumple para ^lu) _ au log(u) + bu + c. En realidad se verifica esta propiedad para aquellas funciones ^ tales que (g^; (f^) ) es la matriz de información de Fisher. En efecto (Cuadras, et al., 1 985; Oller y Cuadras, 1987) la invarianza para las variables es una cualidad que prácticamente sólo se cumple para la distancia de Rao. Para más información sobre este tema, véase Burbea y Rao t 1982a,b), Salicrú ( 1987). La construcción de medidas paramétricas de información sobre funciones de densidad p(x, f^) a partir de medidas no paramétricas, había sido planteada de manera análoga por diversos autores ( Kagan, Vajda, Aggarwal y Boeke). Véase Ferentinos y Papaionnau ( 1981). 3 -^4l 7. til ^1()f^ [ It •1 F tiF'^^til ^i. ^1 ALGUNAS APLICACIQNES 7.1. Biologia La aplicación de las distancias estadísticas a la biología, especialmente antropologia y genética, son muy numerosas. Con la obtención de distancias entre poblaciones, especies, razas geográficas, etc., se han abordado probiemas de sistemática, fiiogenia y clasificación taxonómica. Pearson (1 926i utiliza un coeficiente de semejanza raciai para diferenciar razas humanas (ver sección 3.1.}. Pero la distancia de Mahalanobis (14) es la más utilizada, especialmente combinada con el análisis canónico de poblaciones. Pueden verse aplicacione^ a la biología sistemática en Seal (1 964), Reyment (1 973), Petitpierre y Cuadras (1 977}, Cirer (19871. La utilización de distancias basadas en coeficientes de similaridad, combinadas con el análisis de coordenadas principales y el análisis de conglomerados, han significado una importante herramienta metodológica en Botánica, 2oología, Microbiología y Ecología. Los trabajos de Escarré (1 973), Cantón y Sancho (1976} son bien representativos en este sentido. En ecología se han utilizado tar^nbién las distancias basadas en la métrica de Canberra, que presenta ciertas ventajas. véase Lance y Williams (1967}, Legendre y Legendre (1 979) y una interesante aplicación en Del Castillo (1 986). Para una visión general del tema se recomienda consultar Constandse (1972), Goodman (1972), Sneath y Sokal (1973), Cuadras (1980). Respecto de la dimensión s^gnificativa o número de "clusters" signifícativos, véase Cuadras (1 987). 7.2. Genética Las Ilamadas distancias genéticas entre poblaciones son distancias estadísticas que se calculan sobre datos basados en frecuencias genéticas en loci polimórficos. Se trata, por lo tanto, de medidas que cuantifican la diferencia genética entre pobiaciones en términos de las frecuencias alélicas de diferentes ioci, es decir, de distancias " genotípicas", que se distinguen de otras ( coma el índice de semejanza racial de K. Pearson) +que se considerarían distancias " fenotípicas". Dados n sucesos mutuamente excluyentes A,,...,A„ una distancia genética es una rnedida de divergencia entre dos distribuciones de probabilidad p= (p,,...,p„)", q= (q,,..., q„)`. Si se conoce una matriz de covarianzas ^, asociada a una distribución a=(a,,...,a„)', es decir, DIS1 Ati('1-^^ f:tiT^^E)Iti^TI(.'^tti Q;^ - a; (1 - a^} _ a; a^ i=j ;^ j entonces podemos utilizar una distancia de Mahalanobis singular (p-q)' ^i(p-q) (51} siendo ^- una g-inversa de ^. Sin embargo, ^ depende de la distribución de A,,...,A,,, que es distinta en cada población. Podríamos entonces, tomar, por ejemplo, a; _(p; + q;} / 2, con lo cual se Ilega a la expresión n 2^ ,- ^ (p^ _ q^ ) 2 (p; + q; } (52) que ya había sido propuesta en térrninos practicamente iguales por Sanghvi (1953). Otros autores han propuesto diferentes variantes de {52} que difieren en la forma de estimar ^(Steinberg et al., 1966; Balakrishnan y Sanghvi, 1968; Kurcynski, 1970). Otro enfoque, quizás más razonable dadas las propiedades discutidas en la sección 5.3., consiste en definir una distancia geodésica entre p y q, es decir, proporcional a n ^______ arcos ( ^ ti p; Q; } ^^ ^ (53) Esta es la distancia de Bhattacharyya (1946), cuya interpretación geométrica es un arco de circunferencia máxima entre dos puntos de una esfera unidad en Rn. Puede probarse también que (53) viene a ser una aproximación asintótica de una distancia de Mahalanobis {Mardia et al., 1979). Véase también (48). La distancia (53) ha sido aplicada a la Genética (a sugerencia de R.A. Fisher) por Edwards y Cavalli-Sforza (1964} directamente o tomando la cuerda en lugar del arco en Cavalli-Sforza y Edwards (1967). También se han utilizado distancias proporcionales a n ^ I p; - q; I ,_^ ( 54} en Prevosti et al. (1975) y Thorpe (1979) (véase sección 6.1.). Todas estas distancias son, de hecho, distancias geométricas en espacios de dimensión igual al número de alelos en un locus. Pero si hay una mutación, debemos añadir una dimensión mientras que si un alelo se ^ r ^r^^^,r Ec -^ r ^r^ ^^c^r ^^ extingue, debemos sustraer una dirr^r^nsión. Conno considerar el conjunto, practicamente ilimitado, de posibles alelos en un lacus complicaría excesi-vamente ei problema, Nei (1971, 1972) propone una distancia genética para estimar el número de sust^tuciones de alelos por Iocus D = - fog J12 / (J, J2)^ siendo J,, J2 y Jf2 los valores esperados de ^p?, ^q?y ^p;q;. Obsérvese que D es una distancia entre poblaciones basada en la medida de diversidad de G ini-Simpson 1-^p? Isección 6.1.). En genética se han ut,ilizado también, otros tipos de distancias. Frommel y Holzhi^tter ( 1 985) consideran una distancia entre aminoácidos inversamente proporcional a la probabilidad de reemplazamiento mutuo. Coll, Cuadras y Egozcue ( 1 980} ut;lizan una distancia del tipo de Mahalanobis para situar los cromosomas humanos en el plano metafísico. Los inconvenientes y ventajas de las distancias genéticas han sido objeto de polémica ( Balakrishnan y Sanghvi, 1968; Fitch y Nee1, 1969; Edwards, 1971; Goodman, 1972; Prevostí, 1974; Neí, 1 987). Las tres últimas referencias ( Prevosti, Goodman, Neí) contienen un amplio estudio sobre las distancias genéticas. Véase también Constandse (1972). 7.3. Psicología La medida de la proximidad entre objetos psicológicos y su representación geométrica, se consigue a través del concepto de distancia y de disimilaridad, hasta el punto de que su estudio y apficaciones han desembocado en una rama del análisis de datos con fuerte personalidad: el llamado "multidimensional scaling" (MDS}. La versión métrica del MDS, en el que se supone que la matriz de distancias psicológicas es euclídea {Teorema 1}, fue desarrollada por Torgerson (1958j. Sin embargo, las distancias entre objetos psicoMógicos son, a menudo, el resultado de medidas subjetivas del tipo: 0=idéntico, 1=muy parecido, 2=bastante parecido, 3=poco parecido, 4=muy diferente. Las distancias resultantes suelen ser no euclídeas, lo que motivó a Shepard (1982 a,b} y Kruskal { 1 964 a,b} a desarrollar métodos para convertir las distancias en euc{ídeas por transformación monótona de las mismas, de modo que se preservara la preordenación entre los objetos a representar. Este es el M DS no métrico, tantas veces utilizado en psicometría. véase aplicacíones en Romney et al. (1 972}, Wish y Carroll (1982), Dunn-Rankin (1983). Para una exposición teórica del MDS véase De Leeuw y Heiser (1982), Cuadras et a1. (1 985). ^4i [)IST ^^ti(•IAS E:ti^T •^f)Iti T 1(^^^5 La ordenación de objetos a lo largo de un continuo psicológico, sugiere una interesante aplicación del concepto distancia en Psicología. Supongamos que un grupo de sujetos tienen que ordenar n objetos A,,...,A„ de acuerdo con la cierta escala de valores f),,...,fl,,. Sea p;;=P(A;> A;) i,j=1,...,n la proporción de sujetos que prefieren A; sobre A; en el sentido dP que fI; > f^;. EI modelo de Thurstone ( 1927) supone que r^; - r^; p;; _ _ ^ ^ ( y) dy siendo ^(y) la función de densidad normal standard. Obsérvese que si f^, > fl; entonces p;; > 0.5, mientras que si tl, < f^; entonces p;; < 0.5. La estimación de la escala f^,,...,fl„ presenta cierto grado de complejidad (Coombs et al., 1981 ). Una alternativa consiste en definir la distancia (Davison, 1983) d(A;,A;) _ ^ p;; - 0.5 ^ que es función monótona de ^©; - ^; ^. La representación de los objetos A,,...,A„ mediante M DS, a lo largo de la primera dimensión, proporciona la escala deseada. Com^ ^ p;; - 0.5 ^ está acotado, una generalización razonable es (55) d(A;,A;) = I ^-' (p;;) I donde ^i' es la función de distribución normal standard. La tabla 2 contiene las frecuencias sobre 262 estudiantes al comparar los defectos de los profesores de Estadística. Aplicando M DS sobre la distancia no euclídea ( 5 5) se obtiene la ordenación ilustrada en la Figura 9. Figura 9 O A R T M D _i C F S T^^ U I ti T l(^^ i S P ^1 `^ ( 31 .-^ 4bsérvese que D y C destacan camo peores defectos sobre !os demás. TABLA 2 T O D R M A O -- 71 1 59 121 1 50 54 1 19 D 191 - 196 156 193 138 175 R 103 66 -- 89 112 83 107 M 141 ^106 1 73 - 1 60 83 111 A 112 69 150 102 - 75 91 C 208 124 179 179 187 - 175 T i43 87 155 151 171 87 - o= Falta de orden en fas explicaciones. D= Conoce poco la materia (no sabe resolver dudasj. R= Poca o mala relación con los alumnos. M= No sabe motivar a los alumnos. A= Falta de amenidad en las clases. C= Poca claridad al explicar o escribir. T= Exceso de teoría ^pocos ejemplos y aplicaciones). C nis^r,^tic i:^s FsT^^^is-ric^As 345 7.4. Arqueología Supongamos que estamos interesados en ordenar cronológicamente n objetos arqueológicos A,,...,A,,. Podemos irnaginar que los n objetos están situados sobre una curva m-dimensional x=x(t), donde t representa el tiempo. En otras palabras, a cada objeto le asignamos unas coordenadas euclídeas A; : (x, lt;), x2(t;),...,x^,(r;) ) i = 1, . . ., m donde t; representa el tiempo cronológico relativo a A;. Los objetos presentarán una ordenación cronológica A; ^ < A;2 < . . si se verifica < t;2 < . . . < t;^r Este problema, aparentemente complicado, se puede resolver mediante una matriz de distancias. En efecto, supongamos que en relación a ciertas características cualitativas y cuantitativas, podemos definir una matriz de distancias 0=(^5;^), donde ^;^ es la distancia entre A; y A^. Entonces es de esperar que la distancia será pequeña para objetos próximos en el tiempo y grande para objetos lejanos en el tiempo. La representación de los objetos por M DS permitirá su ordenación cronológica. Generalmente, la representación 2-dimensional adopta la forma de herradura (Kendall, 1971). Spaulding ( 1971) propone el siguiente ejemplo. Se desean ordenar 5 herramientas cortantes A, B, C, D y E que han sido fabricadas utilizando piedra, bronce o hierro de acuerdo con la matriz de incidencia: Piedra Bronce Hierro A 0 1 0 B 1 1 0 C 0 0 1 1 0 0 1 1 0 D E E^! Zt^1^;Tlc ^^ t.^F^^^tic^t_.-^ A^ plicando análisis de coordenadas principales a la matriz de distancias calculada utilizando (5), donde s,^ es el coeficiente de similaridad de Jaccard, se abtiene la representación de !a figura 8, que sugiere que la datación relativa de 1as herra m ientas es EcBcAcccD que concuerda con el orden cronológico natural: piedra, piedra-bronce, bronce, bronce-hierro, hierro. Véase también Orton (1988). ` A Fíg. 10.- ordenacián cronolágica de 5 herramientas teniendo en c^enta la presencia de diversos rnateriales 4piedra, bronce, hierro^. 7.5. Lingiiística EI análisis de !as dimensiones semánticas latentes en un conjunto de paiabras, es otra interesante aplicación de las distancias estadísticas. En este caso no se trata de encontrar una dimensión lineal (como en ef modelo de Thurstone, sección 7.3. ^ , o una dimensión curvilínea (como en e! caso de la ordenación cronológicaj, sino diversas dimensiones que permitan explorar y ordenar e! conjunto de palabras estudiadas. Partiendo de una matriz de distarícias sobre 23 adjetivos del castellano relacionados con las nociones de peso y extensión espacial, Manzano y Costermans (1 9761, aplicando M DS, obtienen 6 ejes que permiten ordenar fos adjetivos a 10 largo de otras tantas dimensiones semánticas. En los extremos de cada eje se situan dos adjetivos opuestos, comunicados por un gradiente de adjetivos intermedios. G^IS-(^Ati(.'I^,^>S E^.^i-.^DIS^^^^IC^^^ Otros ejemplos donde se aplican distancias estadísticas para explorar dimensiones y estructuras semánticas (nombres de colores, familia de verbos "'to have"', nombres de profesiones, etc.), pueden verse en Romney et a/. (1972). Véase también Morgan (1981 ). 7.6. Manova y comparación de experimentos Consideremos el modelo lineal del análisis multivariante de la varianza Y=X B+E donde Y(nxp) es una matriz de datos, X lnxm) es una rr^atriz de diseño, B(mxp) es una matriz de parámetros, E(nxp) es una matriz de errores aleatorios. E contiene n filas estocásticamente independientes, cada una de ellas con distribución N^(0, ^^. EI concepto de distancia puede ser útil para estudiar diversos aspectos de MANQVA. Por ejernplo, consideremos q funciones paramétricas estimables multivariantes (fpem) ^;=P;B i=1,...,4' donde los vectores fila P' = (p;,,...,p;m) son combinación lineal de las filas de X. Como es sabido, existe entonces un estimador insesgado y de dispersión mínima para cada ^; (Teorema de Gauss-Markov). Generalizando la distancia de Mahalanobis (14) entre poblaciones, Cuadras (1 974) define la distancia (al cuadrado) entre fpem M^ (i,j) _ (^; - ^^)' ^-'(^' - ^^) ^56) La distancia (56), combinada con técnicas de reducción de la dimensión en análisis de datos, permite representaciones euclídeas de los niveles de un determinado factor en un diseño multifactorial, con aplicaciones a Farmacología (Vallejo et al., 1975; Peris et al., 1975; Ballús et al., 1980), la Sistemática (Cuadras, 1981 a) y la Agricultura (Oller y Cuadras, 1982b). Véase también Cuadras ^1977, 1981b). Una segunda aplicación consiste en definir distancias entre dos modelos lineales Y; = X; B; + E,, i=1,2. Cuadras y R ios 11986) y R ios y Cuadras 11986) proponen diversas distancias, estudiando diferentes casos (univariante, heterocedástico, diferente matriz de diseño, multivariante, etc.) que E.tiT^ ^>C)1ST I(^^^ i SP^^ti()L-^ ^.^^ relacionan con ciertos contrastes de hipótesis. La distancia lal cuadrado) para el caso X, = Xz = X es L2=tra ^^^' (B, - 6^)' X X' ( B, - Bz) } {57l Véase también Burbea y Oller (1988) y algunas aplicaciones en Cuadras et a/., (19851, Rios y Oller (1988^. La comparación de experimentos asi como la equivalencia entre experimentos mediante distancias, ha sido estudiada por Le Cam (1975). 7.7. Regresión cualitativa Supongamos que deseamos plantear la regresión múltiple de una variable cuantitativa Y sobre p variables cualitativas ( binarias, categáricas, ordinales, etc.), y que disponemos de una muestra de n individuos. Un posible camino, que evitaría la asignación de valores cuantitativos arbitrarios para las variables cualitativas asi como los problemas de colinealidad, consiste en obtener una matriz de distancias euclídeas d =(^5;^), donde ^;^ es la distancia entre los individuos i,j calculada a partir de !a información entre ambos contenida en las p variables cualitativas. Para calcular ^5;^ podemos uti{izar ( 6) (variables binarias), ( 32) (variables categóricas) o el coeficiente general propuesto por Gower (1971 ^ . Sea ahora la matriz X(nxm) verificando (18), obtenida a partir de la descomposición espectral de B(teorema 1). Con la matriz X convertimos la información cualitativa sobre cada individuo en la información cuantitativa contenida en las fiias de X, es decir, cada fila x; _(x;,,...,x;m) de X resume la información cualitativa sobre el individuo i en relación con los demás individuos, verificándose ^?^ _ (x; - x;)'{x; - x^). Si y= (y,,...,y„)" es el vector de observaciones de la variable Y, proponemos el modelo de regresión múltiple ^; _ ^l -^- Xi7 /^ 1 -^ ... -^- Xim ^m + ei Se puede entonces demostrar (Cuadras, 1 988) lo siguiente: a/ Si las variables san binarias y el coeficiente de similaridad utilizanda es el de Sokal y Michener {sección 2.1.), entonces el método propuesto y la predicción obtenida mediante regresión múltiple clásica coinciden. b1 EI caeficiente de determinación de Y sobre las variables cualitativas es R2 = Y' X A^' X'Y / n sY (58) DISTAtiCIAS ESTADIS^TICAS 349 donde A= diag (^,,,...,^.m) contiene los valores propios de B. c^ Consideremos ahora el problema de predecir e! valor y„+, de la variable dependiente, conocidas las características cualitativas de un nuevo individuo n+ 1. Entonces podremos calcular las distancias del individuo n+ 1 a los demás individuos: U 1 n+ 1^ a2 n+ 1^'''^ an n+ 1 b = (b„ . • • bnn)^, siendo b;;(i=1,...,n) los elementos diagonales de B, y siendo finalmente B- una g-inversa de B, la predicción es Indicando d - (^;n+, . . • ^ nn+l )^- yn+l _-+ y ^2 (b-c^' B-y (59r 7.8. Contrastes de hipátesis Ciertas medidas de disimilaridad o divergencia entre distribuciones son útiles para construir contrastes de hipótesis. La más conocida es D„ = sup ^ S „(x) - F (x) ^ que mide, para una muestra aleatoria simple de tamaño n, la discrepancia entre la función de distribución empírica S„(x) y la teórica. Dn interviene en el test de Kolmogorov-Smirnov de bondad de ajuste de los datos a una distribución. Los contrastes sobre las medias en poblaciones normales multivariantes que utilizan la T2 de Hotelling, están basados en la distancia de Mahalanobis. Así, en muestras de tamaño N, la hipótesis H^: ^c =^cp se decide mediante el estadístico T2 - N (x - ^^oy S-' (X _ ^^o ^ mientras que para el contraste Ho: ,u, _,u2 se utiliza N , N2 N,+N2 - , , - - (x - y) S- (x - y) En el caso univariante, ambos contrastes son equivalentes al conocido test t de Student. En general, las distancias estadísticas pueden aplicarse para construir un contraste que sirva para comparar dos distribuciones F,G. ?^ `+U ES^^f.^C)IS^T I('A F:SP.^tiOL.A Sea r3(F,G} una distancia que vale cero si F! G. Supongamos que existe un ^ estadístico V que es función de una estimación ^( F, G) cuya distribución es conocida cuando ^>(F,G) = 0. Entonces las distribuciones son distintas si V es significativo. En el caso paramétrico se puede utilizar la distancia de Rao, pudiéndose demostrar (Oller, 1983) que , } V= N' N2 b 2 F( G N,+N2 sigue (asintóticarnente) la distribución ji-cuadrado con p(=número de variables) grados de libertad. En el caso no paramétrico se puede utilizar una divergencia. Por ejempio, dadas dos distribuciones univariantes F,G, para la divergencia F Sx) +G ( y) ^(F,G) ^ ^ tF(x) - G(y))2 d ( 2 ) existe un U-estadístico para estimar ó( F,G) {cuadras, 1986}. Análogamente, e! estadístico U de Mann-Whitney mide la discrepancia entre P(X < Y) y el valor 2. Para otros aspectos sobre este tema véase Rao(1 982). obsérvese que, en un contexto similar, se pueden detectar "outliers" utilizando distancias. 7.9. Asociación estocástica y m^xima correlación Ciertas divergencias permiten medir el grado de dependencia estocástica entre dos variables aleatorias X,Y, con distribución H(x,y) y marginales F(x), G (y). Por ejemplo, t) _^( H(x, y) - F Ix) G ( y) ) x d^^ donde d^^ puede ser dxdy, dF(x)dF{y} o dH (x,y}. En el caso a= 1, d,c^ = dxdy, f^ es la covarianza entre X,Y. También es posibie relacionar H con los coeficientes de correlación por rangos de Kendal! y el grado de correlación de Spearman ( Cuadras, 1985^. Fréchet (1957} considera una clase de distancias entre X, e Y dH(X,Y) = EH ^ f( ^ X- Y ^)] (6^} donde f es una función creciente subaditiva en R+ con f(o) = 0. Dadas las distribuciones marginales F,G, el problema de encontrar las distribuciones DISTANC'IAS ESTADISTI('AS 351 conjuntas H tales que 160) es un valor extremo, ha sido considerado por diversos autores (Hoeffding, Fréchet, Bass, Dall'Aglio, Cambanis, Tchen, etc. ). Por ejemplo, para f(u)=u2 se verifica d,,.^,. (X,Y) < dH 1X,Y) < d^(X,Y) donde H+Ix, y) = min { F(x1, G( Y) } H- (x, y) = min { F(x) + G( y) - 1, 0} son las distribuciones, Ilamadas cotas de Frechet, cuyas marginales son F y G. H- , H+ son las distribuciones que dan mínirna y máxima correlación entre X, Y( Hoeffding, 1940). Las cotas extremas de 160) para f(u1= ux, a> 1, han sido estudiados por Dall'Aglit^ (1972). En general, este problema conecta con el de la construcción de distribuciones bivariantes con marginales, dadas, y tiene interesantes aplicaciones en programación lineal, mecánica cuántica, simulación estadística, biometría, etc. Véase Ruiz-Rivas et al. (1979), Cuadras y Augé ( 1981), Cuadras (1985), Sánchez ( 1986), Ruiz-Rivas y Cuadras ( 1988). Finalmente la distancia de Rao puede sernos útil para definir una medida de asociación entre dos vectores aleatorios X=(X,,...,XP), Y=(Y,,...,YQ). Supongamos que la distribución es Np+Q(^^ ,^) con ran ^12 = r Consideremos la distribución N^Q(,c^, ^o) , siendo E„ 0 0 ^2z Desde luego, si ^_^o , X es independiente de Y. La distancia de Rao entre ambas distribuciones (Carmona y Cuadras, 1 987) es R(X,Y) _^ ^ ^ (/09(1 - ^?) ^ /og(1+^) 2 ^!^ /, )' - ;^., /, (1-^.) /, ^^ donde p, >...> p, son las correlaciones canónicas entre X,Y. Entonces R(X,Y) puede interpretarse como un índice de asociación estocástica entre X e Y, que puede generalizarse a cualquier otra farnilia de distribuciones. f_S^T,->DIS^TIC'A ESP-^tit)l_,A ^5? SUMMARY STATISTICAL DISTANCES This paper is concerned with the application of distance functions to statistics and data analysis. Closed form expressians af distances and similarity coefficients between individuals and populations are exposed and discussed. Some applications to biology, genetics, psichology, archaeology, linguistics, manova, regression and stochastic association are also included. Key words: Mahalanobis distance, ^ao distance, ultrametric distance, similarity coefficients, measures of divergence. AMS 1980: 62 H2 5; 62 H30; 62 P99. 8. BIBLIOGRAFIA AMARI, S. 11985). Differential geometrical methods in statistics. ^ecture notes in statistics, 2$. Springer Verlag, Berlín. ARCAs, A. Í1987). Sobre la represeniación de un conjunto mediante arboles aditivos. Questiio, 1 1 (2), 39-50. ARCAS, A. y CUADRAS, C. M. (1987). Métodos geométricos de representación mediante mode%s en árbal. Pub. de Bioest. y Biomat., 20, Universidad de Barcelona. ATKINSON, C. y MITCHELL , A. F. S. i 1981). Rao s distance measure. Sankhya, 43 A, 345-365. L. D. (1968). Distance between popu/ations on the basis of attribute data. Biometrics, 24, $59-865. BALAKRISHNAN, V. y SANGHVi , Estudio de dos ansioliticos (1'^iazepam y CJobazam) mediante una prueba de conducción de automóviles. Rev. Dep. Psiquiatria, Fac. Medicina, Barcelona, 7, 107-122. BALLUS, C., CUADRAS, C. M., MALGA, A., SANCHEZ-TURET, M. y VALLVE, C. ( ^ 98O) . J. P. y Masson, Paris. BARTHELEMY , GHENC}CHE , A. (1988). Les arbres et les representations des proximites. BENZECRI, J. P. (1965). Prob/emes et Methodes de /a Taxinomie. Pub. Inst. Statistique Univ. Paris, Rennes et Paris. BENZECRI, J. P. 11976). L'Analyse des Donnees /. La Taxonomie. L'Analyse des Donnees. L'Analyse des Correspondances. Dunod, París. II. BERNARDO, J. M. (1 981 ). Bioestadística. Una perspectiva Bayesiana. Vicens-Vives, Barcelona. B ER NAR DO, J. M. (1 98 7). Approxímations in statistics from a decision-theoretica/ viewpoint. Probability and Bayesian Statistics {R. Vierte, Ed.) 53-60, Plenum, N. York. B HATTACHARYYA, A. (1946). On a measure of divergence between two mu/tinomia! populations. Sankhya, 7, 401-406. BISHOP, Y. M. M., FIENBERG, S. E. y Ho^LAND, P. W. (1975). Discrete multivariate ana/ysis,• Theory and Practice. Mit Press, Cambridge, Mass. DISTA^1('1,45 F:STA[^ISTI(^AS 353 BUNEMAN, P. (1971 ^ . The recovery of trees from measures of dissimilarity. En: Mathematics in the Archaeological and Historical Sciences (F. R. Hodson, D. G. Kendali y P. Tautu, Eds.), 387-395, Edinburgh University Press. BURBEA, J. (1986). lnformative geometry of probability spaces. Expositiones mathematicae, 4, 347-378. BURBEA, J. y OLLER, J. M. (1988). /nformation metric for univaríate linear elliptic models. Stat. and Decisions, 6, 209-221. BURBEA, J. y RAO, C. R. (1982a). Entropy differentia/ metric, distance and divergence measures in probability spaces: a unified approach. J. of Multivariate Analysis, 12, 575-596. BURBEA, J. y RAO, C. R. (1982b). Differential metrics in probability spaces. Prob. math. statist., 3, 1 1 5-132. CAILLIEZ, F. (1983). The ana/ytical so/ution of the additive constant problem. Psychometrika, 48 (2 ), 305-308. CAILLIEZ, F. y PA^ES, J. P. (1976). lntroduction a l analyse des donnees. Smash, Paris. CALVo, M. (1988). Sobre la geometria informacional del mode% normal mu/tivariante. Aplicaciones a la Bio%gía. Tesis doctoral, Universidad de Barcelona. CANTON, E. y SANCHO, J. (1976). Análisis numérico de un grupo de Pseudomonas aeróbicos. Microbiol. Española, 29, 59-73. CARMONA, F. y CUADRAS, C. M. (1987). Measures of multívariate association based on the Rao ^ distance. Analyse statistique des grandes tableaux et donnees d'enquete (T. Aluja, M. Marti, Eds.), 181-184, Barcelona. CARROLL, J. D. (1976). Spatia/, non-spatia! and hybrid models for scaling. Psychametrika, vol. 41 (4), 439-463. CAVALLI-SFORZA , L. L. y EDWARDS, A. W. F. (19671. Phy/ogenetic ana/ysis: Models and estimatíon procedures. Evolution, 21, 550-570. C I R E R, A. M.(19 8 7). A plicación de técnicas es tadís ticas multivarian tes a las pob/aciones del Lacertido Podarcis Pityusensis (Bosca, 1883). Rev. Esp. de Herpetología, 2, 145-163. CLARK, P. F. (19521. An extension of the coefficient of divergence for use with multiple characters. Copeia 1952, 61-64. COLL, M. D., CUADRAS, C. M. y E^ozcuE, J. (1 980). Distribution of human chromosomes on the methaphase plate: Symmetrical arrangement in human male cells. Genet. Res., 36, 219-234. CONSTANDSE, T. S. (1972). Coefficients of bio%gícal distance. Anthrop. pub., Oosterhout. Humanities Press, N. York. CooMBS, C. H., DAwES, R. M. y TVERSKY, A. (1981). /ntroducción a la Psico%gía Matem^tica. Alianza universidad textos, Madrid. COOPER, L. G. (1972). A new solution to the additive constant problem in metric mu/tidimensional scaling. Psychometrika, 37, 31 1-322. CORTER, J. E. (1982). ADDTREE/P: a PASCAL program for fitting additive trees based or^ Sattah and Tversky s ADDTREE algorithm. óehavior research and instrumentation, 14(3), 353-354. CRITCHLEY, F. (1985). Dimensionality theorem in multidimensional scaling and hierarchical c/uster analysis. Fourth int. symp. data analysis and informatics. Vol. 1. Versailles: Inst. nat. de recherche en inform. et en autom, 85-1 10. CsiszAR, I. (1963). Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodízítat von Markoffschen Ketten. Publ. Math. Inst. Hungar. Acad. Sci. 8, Ser. A, 85-108. CsiszAR, I. (1967). lnformation-type measures of difference of probability distributions and indirect observations. Studia Sci. Math. Hungar. 2, 299-318. ESTA[1lST1C'A ESF'AtiIC)t_A ^54 CsiszAR, I. (19721. A class of ineasures of infornnativity of observation channels. Periodica Math. Hungar. 2, 191-213. CsiszaR, I. (1 975). l-divergence geometry of probability distríbutions and minimiZation problems. Ann_ Probab. 3, 146-158. CUADRAS, C. M. (1974). Análisís discriminante de funciones paramétricas estimab/es. Trab. estad. inv. oper., 25(3), 3-31. CuADRAS, C. M.(19 7 7). Sobre /a reducción de la dimensión en análisís estadístico multivariante. Trab. estad. I. lJp., 28, 63-76. CuADRAs, C. M. (19$0). Metodes de representacio de dades i/a seva aplicacio en Bio%gia. Col. Soc. Catalana Biología, 13, 95-133. CuADRAS, C. M. (1 981 a). Métodos de Análisis Mu/tívariante. Eunibar, Barcelona. CUADRAS, C. M. (1981 b). Análisis y representación mu/tidimensiona/ de /a variabi/idad. Inter. sym. concept. meth. paleo., Barcelona, 287-297. CUADRAS, C. M. (1983). Análisis algebráico sobre distancias u/tramétricas. Actas 44 per. de sesiones del Instituto lnternacional de Estadística, Madrid. cont. libres, vol. II, 554-557. C U A D R As, C. M.(19 8 5). Sobre medidas de dependencía estocástica in varíantes por transformaciones monótonas. Hom. F. D'A. Sales, cont. cient., Fac. Matem. Univ. Barcelona, 28-47. CUADRAS, C. M. (1986). Problemas de Probabi/idades y Estadistica. Vo% 2. PPU, Barcelona. CUADRAS, C. M. (1987). Dimensiona/ity and number of clusters in mu/tivariate ana/ysis. Analyse statistique des grandes tableaux et donnees d'enquete (T. Aluja, M. Marti, Eds.), 53-67, Barcelona. CUADRAS, C. M. (1988). Métodos estadísticos aplicab/es a/a reconstruccíón prehisiórica. Munibe. 6, 2 5-33. CUADRAS, C. M. y Au^E, J. í 1981 ). A continuous general multivariate distribution and its properties. Comm. in stat., theor. meth., A10(4), 339-353. CUADRAS, C. M. y CARMONA, F. (1983). Dimensionalitat euclidiana en distancies u/trametriques. Questiio, 7(1), 353-358. J. M., ARCAS, A. y RMos, M. 11985). Métodos Geométricos de la Estadística. Questiio, 9(4), 219-250. CUADRAS , C. M., OLLER , CuADRas, C. M. y OLLER, J. M. (1987). Eigenanalysis and metric multidimensional scaling on hierarchical structures. Questiio, 1 1(3), 37-58. CuADRas, C. M. y R^os, M. (1986). A áistance between multivariate I;near models and its properties. I I catalan intern. symp. on stat. Vol. 2, cont. paper, 81-$4, Barcelona. CUADRAS, C. M. y Ru^z-RivAS, C. (1 9801. Una contribución al análisis de proximidades. Pub. Secc. Matem. Univ. Au, Barcelona, 22, 103-106. D`ANDRADE, R. G., QUiNN, N. R., NERLOVE, S. B. y RQMNEY, A. K. (1 972) . Categories of Disease in American-English and Mexican-Spanish. En: Multidimensional Scaling. Vol. 2. Applications (A. Kímball Ronney, Ed.) Seminar Press, N. York. DALL'AGLIO, G. 11972). Frechet c/asses and compatibility of distribution functions. mathematica, 9, 131-1 50, Academic Press, N. York. Symposia DAVisoN, M. L. 11983). Multidimensiona/ sca/ing. J. Wíley, N. York. DAWID, A. P. í 197 5). Discussion on Professor Efron ^ paper r1975). Ann. Statist., 3, 1231-1234. DE LEEUw, J. y HEISER, W. 119$2). Theory of multidimensional scalíng. En: Handbook of Statistics. Vol. 2, (P. R. Krishnaiah, L. N. Kanal, Eds.), North-H©Iland pub. co., Amsterdam. DEL CASTiLLO, M. (1 986). /rJueva aproximación metoda/ógica a/ estudio de la biogeografía de los peces epicontinentales. Oecología Acuática, 8, 71-94. ^55 C)ISTAN<"IAS E^.^T^^AC)ISTI(^'AS DUNN-RANKIN , P. (1983). Scaling Methods. Lea, Hillsdale, N. Jersey. EDWARDS, A. W. F. (1971 ). Distances between populations on the basis of genic fiequencies. B iometrics, 2 7, 87 3-881. EDWARDS, A. W. F. y CAVALLI-SFORZA, ^. L. (1 964}. Reconstruction of evo/utionary trees. En: Phenetic and Philogenetic classification (V. H. Heywood, J. Mcneile, Eds.1, 67-76. The Systematics Assoc. Publ. no. 6, London. EFRON, B. (197 5). Defining the curvature of a statistical prob/em (with applications to second order efficiencyl. The Annals of Statistics, vol. 3, no. 6, 1 189-1242. ESCARRE, A. (1972 ^ . Essai d'application des methodes de /a Taxonomie Numerique a l'etude d'une chenaie dans la Vallee de Burunda (Navarre). Inv. Pesq., 36(1), 7-14. FERENTINOS, K. y PAPAIOANNAU, T. (1 981 }. New parametriC measures Of informatiOn. Information and control, 51, 193-208. F I Tc H, W. M. y N E E L, J. V.(1 9 6 91. The philogenetic relationships of s ome lndian tribus of Central and South America. Amer. J. Human genetics, 21, 384-397. FRECHET, M. (1957). Sur la distance des deux lois de probabilite. Publ. inst. stat. Univ. Paris, 6, 185-198. FRQMMEL, C. y HOLZHUTTER , H. G. (1985). An estimate of the effect of point mutation and natural se%ction on the rate of aminoacids replacernent in proteins. J. of molecular evolution, 21, 233-257. GOODMAN, M. M. (1972). Distance analysis ín bio%gy. Sys. zool., 21 (2), 174-186. GowER, J. C. (1966). Some distance properties of /atent root and vector methods in mu/tivariate analysis. Biometrika, 53, 31 5-328. GowER, J. C. (1967). A comparison of some methods of cluster ana/ysis. 623-637. Biometrics, 23, GOWER, J. C. (1971 a). Statistical methods of comparing diferent multivariate analysis of the same data. En: Mathematics in the archaeological and historical sciences (Hodson, F. R., Kendall, D. B. y Tautu, P. Eds.) Edinburgh University Press, 138-149. GowER, J. C. (1971 bl. A general coefficient of similarity and some of its properties. Biometrics 27, $57-871. GOWER, J. C. (1982 ^ . Euclidean distance geometry. Math. scientist, 7, 1-14. GOWER, J. C. y BANFIELD, C. F. (1975). Goodness-of-fit criteria for hierarchical classification and their empirical distributions its relation with the external variables. En: Proceedings of the 8th inter. biometric conference, 347-361. G ow E R, J. C. y LE G E N D R E, P. (1 9 8 6 ). Metric and Euclidean Properties of Dissimilarity coefficients. J. of Classification, 3, 5-48. HAVRDA, J. y CHARVAT, F. (1967). Quantification method in classification processes: Concept of structural alpha-entropy. Kybernetika, 3, 30-35. HOLMAN, E. W. (19721. The relation between hierarchical and euclidean models for psychological distances. Psychometrika, 37, 417-423. JACCARD, P. (1900). Contribution au probleme de limmigration post-glaciaire de la flore alpine. Bull. Soc. Vaudoise sci. nat. 36: 87-130. JARDINE, C. .^., JARDINE, N. y SIBSON, R. (1 967) . The structure and construction of taxonomic hierarchies. Math. Biosci. 1, 173-179. JARDINE, N. y SIBSON, R. (1971). Mathematical Taxonomy. J. Wiley, N. York. JoHNSON, S. C. (1967). Hierarchicalclustering schemes. Psychometrika, 32, 241-254. KRUSKAL, J. B. (1964a). Multidimensional scaling by optimising goodness of fit to a nonmetric hypothesis. Psychometrika, 29, 1-27. E^.ST ,^1 DIST It'A ESPA ti^C)l_.A KRUSKAL, J. B. (1 964b). Nonmetric multidimensional scaling.' a numerical method. Psychometrika, 29, 1 1 5-129. KULCZYNSKI, S. Í i 928). Die Pflanzenassoziationen der Pieninen. Bull. Int. Acad. Polonaise sci. et lettres. Classe sci. math, et nat., serie B, suppl. II (1927): 57-203. KURCYNSKI, T. W. (19701. Generalized distance and discrete variables. Biornetrics, 26, 525-534, LANCE, G. N. y WILLIAMS, W. T. (1 967i. Mixed-data classificatory programs. l. Agg/omerative systems. Aust. computer J. i: 15-20. LE CAM, L. (1975). f)istance between experiments. En: A survey o# statistical design and linear models (J. N. Srivastava, Ed.) North-Nolland, pub. co., Amsterdam, 383-396. LEGENDRE, L. y LEGENDRE, P . (1979). Eco%gie Numerique. Masson, Paris. LEGENDRE, P., ^ALLOT, S. y LEGENDRE, L. (19$5). SUCCeSS%On Of SpeCÍeS wíthin a community.' chronolvgical clustering with app/ications to marine and freshwath zoop/ankton. American naturalist, 125, 257-258. L^ESE, F. y VAJDA , I. (1987). Convex statistical distances. BSB, Teubner, Leipzig. LINGOES, J. C. (19711. Some boundary conditions for a monotone ana/ysis of symmetric matrices. Psychometrika, 36, 195-203. P. C. (1936). On the generalized distance in statistics. Proc. nat. inst. sci. India, 2(1), 49-55. IVIAHALANOBIS , métodos para e/ estudio psico/ógico del léxico: Su aplicacicín a algunos adjetivas de la lengua española. Latino americana de psicol., 8(2), 171-191. MANZANO, M. y COSTERMANS, J. (1 976). DOS MARDIA, K. V. (1977j. Maha/anobis distances and ang/es. En: Multivariate Analysis-IV (P. R. Krishnaiah, ed.), 495-51 1. North-Holland pub, co., Amsterdam. MARD^A, K. V. (1978). Some properties of c/assical multidimensianal scaling. Comm. stat., A7 (13), 1233-1241. MARDIA, K. V.; KENT, J. T. y BiBeY, J. M. (19791. Mu/tivariate analysis. Academic Press, London. MATUSiTA, K. (1955). Decision ru/es, based on the distance for problems of fit, two samples, and estimation. Ann. math. statist. 26, 631-640. MATUSiTA, K. (19641. Distance and decision rules. Ann. inst. statist. math. 16, 305-320. MITCHELL, A, F. s., (1988). Statistica/ Manifo/ds of Univariate E//iptic Distributions. International statistical review, 56, 1, 1-1 6. MORGAN, B. J. T. (1981). Three applications of inethods of c/uster-analysis. Statistician, 30, 205-223. NEi, M. (1971 ^ . lnterspecific gene differences and evolutionary time estimated from e%ctrophoretic data on protein identity. Arner. natur. 105: 385-98. NEa, M. (1972). Genetic distance between populations. Amer. natur. 106: 283-92. NEi, M. (1987). Molecular evolutionary genetics. Columbia University Press, New York. O H S U M I, N. y N A K A M U R A, T. (1 9 81) . Some properties of monotone hierarchical dendrogram in numerica/ classification. Proc. inst. statist. mathem. (Tokio), 28(1), 1 1 7-1 33. OLLER, J. M. (1 983 }. Utilización de m^tricas Riemannianas en Análisis de Datos Multidimensionales y su aplicación a la Biologia. Pub. de Bioestadística y Biomatemática, 1 1, Universidad de Barcelona. OLLER, J. M. (19871. lnformation metric for extreme value and logistic probability distributions. Sankhya, 49 A, 1 7-2 3. OLLER, J. M. y CUADRAS, C. M. (1982a1. Defined Distances for some probabillty distributions. En: Proceed. II world conf. math. serv. man (A. Ballester, D. Cardus, E. Trillas, eds.) Un. pol. de las Palmas, 563-565. DISTANC^IAS ESTADIST ICAS 457 C. M. (1 982b). Representación canónica en MANOVA: Ap/icación a una clase de Diseño anidado. Questiio, 6(3), 221-229. OLLER, J. M. y CUADRAS , OLLER, J. M. y CUADRAS, C. M. (19831. Sobre una distancia definida para la distribución normal multivariante. XIII Jorn. de Estad., I. Op. e inform., D. de Estadistica U. de Valladolid, actas Vol. II, secc. III, 32-36. J. M. y CUADRAS , C. M. (1985). Rao s distance for negative mu/tinomial distributions. Sankhya, 47 A, 75-83. • OLLER , O LL E R, J. M. y C U A D R A S, C. M.(19 8 7). Sobre ciertas condiciones que deben verificar /as dis tancias en espacios probabilísticos. Actas XV reunidn seio, Vol. 2, 503-509, Universidad de Oviedo. ORLOCI, L. (1967). An agglomerative method for classifícation of plant communities. J. Ecol., 55, 193-205. ORTON, C. ( 19881. Matemáticas para arqueólogos. AlianZa Editorial, Madrid. PEARSON, K. (19261. On the coefficient of racial likeness. Biometrika 18, 337-343. PER E2, R., G I L, M . A. y G I L, P. (19 $ 6 ). Estimating the uncertainty associated with a variab/e in a finite population. Kybernetes, 15, 2 51-2 56. PERIS, A., ROMEU, J. y CUADRAS, C. M . (1975 ^ . Valoración de /a actividad de/ Ludiamil a través de un ensayo mu/ticéntrico. Arch. Neurobio. 38(5), 471-484. . The canonical analysis applíed to the taxonomy and evolution of the genus Timarcha Lati. (Co% Crysomelidae). Mediterránea, 1, 13-2$. PETITPIERRE, E. y CUADRAS, C. M. (1 977) PREVOSTf, A. (1974). La distancia genética entre pob/aciones. Miscellanea Alcobe, Univ. Barcelona, 109-1 18. PREVOSTI, A., OCAÑA, J. y ALONSa, G. (197 51. Distances between popu/ations of Drosophi/a Susbobscura based on chromosome arrangement frequencies. Theor. appl. genetics, 45, 231-241. PRUZANSKY, S., TVERSKY, A. y CARROLL, J. D. (1 982 ) . Spatial VeISUS tree representations Of proximity data. Psychometrika, 47(1), 3-24. RAO, C. R. (1945). lnformation and the accuracy attainab/e in the estimation of statistical parameters. Bull, Calcutta math. soc., 37, 81-91. RAo, C. R. (19481. On the distance between two populations. Sankhya, 9, 246-248. RAO, C. R. (1954). On the use and interpretation of distance function in statistics. Bull. int. stat. inst., 34, 90-97. R Ao, C. R . (19 8 2). Diversity and dissimilarity coefficients: A unified approach. Th eor. Pop. Biology, 21(1), 24-43. , RAPOPORT, A. y FILLENBAUM, S. (1 97 2 ) . An Experimental Study of Semantic StructureS. En: Multidimensional Scaling. II. ( A. K. Romney, R. N. Shepard y S. B. Nerlove, eds.), 96-131. Seminar Press, New York. REYMENT, R. A. (1973). The discriminant function in systematic bio%gy. En discriminant analysis, 31 1-337 (T. CACOULLOS, ed.). Academic Press, New York. Rlos , M. y CUADRAS , C. M. (1986). Distancia entre Mode%s Lineales Normales. Questiio, 10(2), 83-92. Rlos, M. y OLLER, J. M. (1988). Rao distance between mu/tivariate linear normal mode/s and application to the classification of response curves. Sometido a: Biometrics. ROMNEY, A. K.; SHEPARD, R. N. y NERLOVE, S. B. (EdS.) ( 1972 ^ . Multidimensiona/ scaling. Theory and applications in the behavioral sciences. Vo% ll. Applications. Seminar Press, New York. Rulz-RIVAS, C. y CUADRAS, C. M. (19$8). lnference properties of a one-parameter bivariate family of distributions with given marginals. J. of Multivariate Analysis, 27 ( 2), 447-456. f^ST^C)ISTI(`^^1 E.SP^^tit)L.A Ru^z-R^vAS, C., UsoN, M. T., CUADRAS, C. M. (1 979). Alguns aspectes i aplications de la construccio de d^^ tribucions bivariants. Questiio, 313 ), 12 1-1 2 7. RussELL^ P, F. y RAo, T. R. (1940). On habitat and association of species of anophelíne larvae in south-eastern Madras. J. Malar. Inst. India 3: 1 53-1 78. SALICRU, M. (1987). Medidas de divergencia en análisis de datos. Tesis doctoral, Universidad de Barcelona. S A L 1 C R U, M. y C U A D R A5 , C. M.(19 $ 7). Funciones de entropia as ociadas a medidas de CSlSZar. Questiio, 1 1(3 ^, 3-12. SAnICHEZ, P. (19861. Constiucción de distribuciones con marginales multivariantes dadas. Questiio, Vol. 10, N.° 3, 1 13-141 SArTATH, S y TVERSKY, A. (1977). Additíve similarity trees. Psychometrika, 42(3), 319-345. S C H OE N B E R G, I. J.(19 3 5 ^ . Remarks to Maurice Frechet ^ article's ur /a definition axiomatique d'une classe d`espaces vectorieel%s distancies applicab/es vectoriel%ment sur % espace de Nilbert : Ann. Math. 36, 724-732. SEA^, H. L. 11964). Multivariate statistica/ analysis for biolagists. Methuend and Co. Ltd., London. SEBER, G. A. F. (1984). Multivariate Observations. J. Wíley, New York. SHEPARD, R. N. (1962a). The analysis of proxímities: multidimensional scaling with an unknown distance function. l. Psychometrika, 2 7, 12 5-140. SHEPARD, R. N. (1962b). The analysis of proximities: muitidimensional scaling with an unknown distance function. /l. Psychometrika, 27, 219-246. SKOVGAARD, L. T. (1984). A Ríemannian Geometry of the Multivariate Normal Model. Scand. J. statist., i 1, 21 1-223. SNEATH , P. H. A. y SOKAL , R. S. (1973). Numerical taxonomy. W. H. Freeman and Co., San Francisco. R. R. y MfCHENER C. D. (1958). A statistícal method for evaluating systematic relationships. Univ. Kansas sci. bull. 38. 1.409-1.438. SOKALy SORENSEN, T. (1948). A method of stab>ishing groups of equa! ampiitude in plant sociology based on simi/arity of species content and its aplication to ana/yses of the vegetation on Danish commons. B iological S K R., 5, 1-34. STEINBERG, A. G., BLEIBTREU, H. K., KURCYNSKI, T. W. y MARTIN, A. C). (1 966) . Genetic studies on an inbred human isolated. En: Third int. Congress Human Genetics, Chicago (J. F. Crow. Ed.), 267-289. TAKEUCHI, K., YANAI, H. y MUKHERJEE , B. N. (1982). The Foundations of Multivariate Analysis. Wiley EI., New Delhi. THORPE, J. P. (1979). Enzyme variation in taxonomy.• The estimation of sampling errors in measurement of interspecíf genetic simi/arity. Bial. J. Linn. Soc., 1 1, 369-386. THURSTONE, L. L. (1927). A/aw of comparative judgment. Psychological Review, 34, 273-286. TORGERSON, W. S. (19581. Theory and methods of scaling. J. Wiley, New York. VAJDA, I. (1972 ). On the f-divergence and singularity of probability measures. Period. math. hungar. 2, 223-234. VALLEJO, J., PORTA, A. y CUADRAS, C. M. (1975). lncidencias de los psicofármacos en la evolución reumato/ágica de/ enfermo poliartrítico crónico. Medicina clinica, 64(9), 452-457. WATERMAN, M. S., SMITHY, T. F.r SINGH, M., y BEYER, W. A. { 1 977) . Additive evolucionary trees. J. Theor. Biol., 64, 199-213. WISH, M y CARROLL, J. P. (1 982). Multídimensional Sca/ing and its applications. En: Handkboak of statistics, Vol.2 (P. R. Krisnaiah, L. N., Kanal, Eds.), 317-345. North-Pub. Co., Amsterdam. DISTANCIAS ESTADtSTICAS 359 COMENTARIOS ^ BELEN CASTRO INIGO Facultad de Ciencias Económicas y Empresariales Universidad del País Vasco (Bilbao) EI concepto de distancia juega un papel muy importante dentro de las técnicas de análisis de datos, puesto que en las mismas, se trata de representar individuos respecto a variables, en base a distancias o similaridades definidas sobre las matrices de datos. Por ejemplo, el "análisis de componentes principales" y el "análisis canónico" utilizan variables cuantitativas, haciéndose uso en el primer caso, de una distancia euclídea y en el segu^do de la distancia de Mahalanobis. Poco queda que añadir sobre estas distancias al artículo del profesor Cuad ra s. EI "análisis de coordenadas principales" se realiza sobre variables cualitativas y con distancias relacionadas con similaridades. Una técnica más general que ésta y que a su vez trabaja también con índices de similaridad, es el "análisis de proximidades" (M DS). Si bien en el artículo se enumeran índices de similaridad sobre variables cuantitativas y cualitativas, se puede mencionar la existencia de algunos aplicables a tablas mixtas, con variables tanto binarias como cualitativas y cuantitativas. Entre ellos destaca el de Gower (1971): S;^ _^ S;^ k^ ^ W^^ k k=1 k=1 w;^k es 1 ó 0 dependiendo de si la comparación considerada es válida para k y, excepto en el caso de dicotómicas suele ser 0 cuando se desconozca el valor de k en uno o ambos individuos. En dicotómicas w;^k es 0 cuando k está ausente en ambos individuos. t:S^TA[^IS"i l('A E::SPAtiOl_.4 3fiO s,^k para binarias coincide con el de .Jaccard; en el caso de nominales es 1 si los individuos son iguales en k y 0 en caso contrario; para datos intervalo s,,k = 1-^ x,,^ - x;,^ ^/ Rk can x;k el valor del individuo í en k y Rk el recorrído de k. Los índices de sirnilaridad adquieren también protagonismo en el campo de los procesos estoc^isticos. Algunos (como el de Marley ( 1981 )) se han obtenido a partir de las medidas discutidas par Shepard y Arabie (1979) y Tversky { 1977). Así, por ejemplo, si X^ {t), para J c T= t x,, x2, ..., x„ }, siendo T el conjunto de estímulos usados en el experimento, denota el número de veces que el evento J ocurre en el tiempo t, se puede suponer que la similaridad entre x; y x^ está basada en: s.^(t)= ^{d ^ X(t)-a ^ X(t>- j^ ^ X^(t)} ,, i@rJcT i E JcT t i,j E JcT j 6^JcT j E JcT donde ^, a, /^ son constantes. Con relación a los índices de sirnilaridad es preciso mencionar que en muchas aplicaciones aparece un claro elemento estocástico en 1os atributos para los individuos comparados. Esto ocurre cuando la similaridad de los organismos individuales se determina en base a caracteres morfológicos y psicológicas. Situacianes de este tipo ocurren, no sólo en biología, sino también en arqueología y crítica literaria. Los índices más utilizados camo el de Jaccard, Sokal y Michener resuelven este problema muy pobremente. Par otro lado, distancias camo Sokal (1961), Sokal y Sneath (1963) podrían tratarse desde el punto de vista probabilístico si la distribución de los atributos individuales es conocida. Ghent (1963) utilizó el coeficiente 7 de Kendall como índice de similaridad entre comunidades de plantas y animales, y aunque podría Ilevarse a un tratamiento probabilístico, su aplicabilidad resultaría escasa donde los atributos son inconmensurables. Goodall { 1966) desarrolló un índice basado en probabilidad, que puede aplicarse a atributos cualitativos, ordenados, métricos, pudiéndose efectuar combinaciones de similaridades respecto a los diferentes atributos. Este índice se comparó con el de Sorensen (1948) sobre datos de ocho comunidades de tierra de pasto de Colorado. Otra técnica a comentar dentro del análisis de datos es el "análisis factorial de correspondencias" (AFC) que es apropiado para representar tablas de frecuencias a las que se les aplica una distancia euclídea, la jí-cuadrado. Dicha distancia, que a pesar de sus propiedades dentro de esta técnica ha sido omitida en el artículo, se define para dos distribuciones L,, L^ sobre el espacio de las distribuciones de probabilidad PJ con centro fJ como: DCSTANCIAS ESTAUISTI('AS 361 ( ^;-^?)2/f; II^C-^^11,z=^ J /EJ y adquiere su máxima aplicabilidad en AFC sobre dos poblaciones H; y H;, en relación a los caracteres A,, ..., A,,, teniendo la forma: d2(i, i') _ ^ jE J (f^ - f ^ )^ / f^ con f^ = prob { A; / H; } y fj = frecuencia de A^ Autores como Piris (1986) han contribuido al estudio de la naturaleza de la distancia ji-cuadrado. Dentro del campo de la Estadística Matemática el concepto de distancia adquiere una importancia fundamental. EI profesor Cuadras resume de una manera excelente los aspectos en los que dicho instrumento se presenta de una manera más notable en este campo. Quisiera recalcar que la mayor parte de la literatu ra estadística reciente maneja las distancias para la búsqueda de estimadores robustos. Huber (1964) propuso una clase de M estimadores como soluciones a un problema minimax de este tipo. Ante el mal comportamiento de estos procedimientos en situaciones en las que propiedades como invarianza y simetría no se presentaban, fue necesario efectuar una extensión de los mismos. Wolfowitz ( 1957) publicó un paper introduciendo el método de mínima distancia ( MD ^ , dando resultados consistentes y proporcionando ejemplos de su uso. Knúsel ( 1969) examinó consideraciones sobre la robustez de este método. Littell y Rao t1975) y Raa, Schuster, y Littell (1975) consideraron con más detalle el uso de la distancia de Kolmogorov para la estimación M D. Holm ( 1976) sugirió la estimación M D como el método más natural para algunos problemas de robustez. Parr y Shucany ( 1980) estudiaron el comportamiento de los estimadores (M D) con respecto a distancias como: La distancia ponderada de Kolmogorov en R DW(K,L) = sup ^ Ktx) - L(x) ^ yr (L(x) ) xER La distancia ponderada de Cramer-von Mises Ww (K,L) = j ^ (K(x) - Llx) )2 yr(L(x) ) dL(x) La distancia del intervalo maximal de probabilidad de Kniper. FSTA[`)ISTI("A E.SPA!tiC)LA .^^i? V(K,L) = sup ^ (K(b) - K(a) i - (L(b} - LCa) ) ^ -^ ^.ó<b< m Z8. b { K- L) ^ a J ^ { K (x} - L (x} }2 d L {x) + b {J^^ 1 K (x) } - L (x} ) d L {x) )2 una clase de discrepancias incluyendo los casos de Cramer-von M ises W2( K, L}, de Watson U2 ( K, L) y Chapman para K y L funciones de distribución definidas en un subconjunto ( común) de R. Autores que en la actualidad trabajan sobre este tema serían Donoha y Liu 419$8}. Dentro de estos estimadores de mínima distancia destaca el basado en la distancia de Hellinger ( M H D}. Este estimador ha sido conocido por ser eficiente de primer orden en un modelo paramétrico multinomial (Rao (1963} ). Más recientemente Beran (1977 ^ argumentó que un estimador M H D para un modelo paramétrico contínuo debería ser robusto y mostró que es asintóticamente eficiente para un modelo con soporte compacto. Stather (19$1 }, Tamura y Boos (1986} dan extensiones a modelos con soporte compacto. Simpson (1987 } enfoca la estimación M H D para datos discretos, donde el modelo permite tener soportes infinitamente numerables. Este estimador ha sido aplicado a estudios de mutagenecidad química. Para acabar deseo felicitar al Profesor Cuadras por este magnífico artí culo, que debe servir para reflexionar sobre este instrumento tan importante y utilizado dentro de la Estadística y en muchas ocasiones quizá poco conocido. BIBLiOGRAFIA DoNOHO, D. L. y L^u, R. C. (1988} Patho%gies of some minr'mum distance functionals. The Annafs of Statistic, Vol. 16, N.° 2 DONOHO, D. L. y L^u, R. C. (1988} The ' áutomatic" robustness vf minimum distance estimators. The Annals of Statistic, Val. 16, N.° 2. GooDA^^, D. W. (1966} ^ new similarity index based on prvbability. Biometrics, Vol. 22. JAMBU, M. y LE6AUX, M. O. { 1983} Cluster Analysis and Data Analisis. North-Holland. MARLEY, A. A. J. (1981 } Multivarite stochastic processes compatible with ' áspect" models of similarity and choise. PSYCHO M ETR I KA, Vol. 46, N.° 4. DiSTANCIAS EST;^DCSTICAS P^R^s, J. M. (1986) Distancia Khi-cuadrado y diversidad sociopolítica. Tesis doctoral. TA M U R A, R. N. y B o o s, P. (19 8 6) Minimum ^-lel/inger Dis tance Es tima tion for Multivariate Location and Covarianee. Journal American Statistical Association, Vol. 81. WO^FOw^TZ, J. (1957) The Minirnum Distance Method. Annals of Mathematical Statistics, Vol. 28. M,a PI LAR MARTI N- C UZMAN Departamento de Economía Aplicada Universídad Autónoma de Madrid Este artículo tiene un gran interés como presentación coherente y muy actualizada del estado de la cuestión en el estudio de las distancias estadísticas. Es este un tema de incidencia creciente en la estadística aplicada. La descripción de aplicaciones posibles que, sin pretensiones de exhaustividad, incluye el autor en el apartado 7 nos da una idea de su gran utilidad. Añadiré que las nociones de distancia y similaridad son también instrumentos básicos en el análisis económico, y en especial en un sector del mismo actualmente en auge: la economía regional. La presentación que realiza el autor de los distintos tipos de distancias que pueden definirse imponiendo alternativamente propiedades diversas me parece especialmente interesante, por su relación con algunos resultados básicos del análisis multivariante, sobre todo en las cuestiones de agrupación y seriación. Así, el conglomerado jerárquico formado con elementos cuyas distancias sean ultramétricas es único, en tanto que una distancia euclidea no ultramétrica puede dar lugar a múltiples opciones de formación jerárquica de conglomerados, con resultados en general distintos. Finalmente, quisiera hacer observar que la definición de similaridad que el autor adopta no es 1a única existente. En la literatura estadística es frecuente que se acepte como similaridad una aplicación positiva y simétrica que satisfaga además alguna condición de monotonicidad. Pero el autor de este artículo impone un axioma especialmente restrictivo: que S;; = 1. De acuerdo con su definición, el coeficiente de Russell y Rao, definido como a p 3b^ EST.^RDISTI('.^ ESF'.A^I()1..4 es decir, número de caracteres presentes comunes dividido por el número de características, puede no ser una similaridad. La eliminación del axioma S„ = 1 permite incluir en el concepto de similaridad a los coeficientes habitualmente utilizados como tal, pero entonces las transformaciones Y ó^i - v ' - S %i pueden no conducir finalmente a una distancia, ya que podría ser h;; > 0 para algún i. La transformación de Gower, en cambio ó,i = ^ S„ + Sii - 2 S,i no presenta tal problema, y esta es otra de sus grandes ventajas. JOSE M. GARCIA-SANTESMASES (Universidad Complutense, MADRID) Tema difícil de encontrarlo recogido, aunque sea parcialmente, queda ilustrado no sálo por la bibliografía que aporta, sino también por su versatilidad y extensión. EI enfoque dado al tema es doblemente atractivo. Por un lado presenta los últimos resultados obtenidos por el autor y su equipo que juntamente con otros ofrecen un útil estado del arte sobre este tema. Por otro ofrece un amplio conjunto de aplicaciones algunas de ellas bien comentadas, otras simplemente referenciadas que lo hacen particularmente útil desde el punto de vista práctico. Aunque es difícil la elección, creo que el tema del M DS merece un aparta-do separado y na a través de una aplicación. Especialmente interesante tanto por su lectura como por los resultados que presenta, por su fondo y su forma, es el capítulo dedicado a las ultramétricas. Echo en falta algoritmos para la obtención de éstas a partir de desemejanzas como pueden ser los métodos subdominantes. Jardine y Sibson { 1971), Sánchez (19??). No parece natural, sin embargo, en un artículo de este tipo, la ausencia de una referencia explícita a la distancia de la Chi-dos o de Benzecrí, Benzecrí DISTAti(`IAS E:S^I^A[)ISTI(:'AS 365 (1976), Cuadras (1981), Lebart (1977) por ser ésta especiaimente utilizada en aplicaciones sociológicas que por otra parte también están ausentes en el capitulo de aplicaciones. En mi opinión, en un artícu{o de estas características es necesario un comentario sobre los aspectos computacivnales del tema, como son referencias a paquetes de programas que implementen alguna de las distancias que se presentan, SPAD, 6MDP, Clustan, etc., y fas dificultades de implementación, temas éstos especialmente útiles desde un punto de vista práctico, Jambu (1977), Wishart (1978). En cualquier caso mi felicitación al autor del artículo y al director de {a revista por proporcionarnos una aproximación a un tema de tan dificil localización. BIBLIOGRAFIA BENZECRÍ, J.P. (1976). «L`Analyse Des Données I, La taxonomie. L'Analyse des Données II, L'Analyse des Correspondances». Dunad, París. BMDP, Statistical Software, (19851. Dixon Ed. University of California Press. CUADRAS, C.M. (1981). «Métodos de Análisis Multivariante». Barcelona. Eunibar, LEBART, L., MOR^NEAU, A. y TABARD, N. (1977). c<Techniques de la Description Stastistique». Dunod, París. JAMBU, M., LEBEAUX, M.O. (1978). «Classification automatique pour L'Analyse des Données», Tomo II. Logiciels, Dunod. .1ARDINE, N. y SiBsON, R. (1971). «Mathematical Taxonomy». J. Wiley, New York. SÁNCHEZ, M. (1977). «Tratamiento estadístico de Datos». Centro de cálculo de la Universidad Complutense, Madrid. SPAD.N CISIA. 25 Avenue de L'Europe 923 ^ 0, Sévres, (France). WISHART, D. (1978). «Clustan User manual». Report n. ° 47, Program library unit. Edinburgh University. ^ DANIEL PENA Escuela Técnica Superior de Ingenieros Industriales Universidad Politécnica de Madrid Cuando la Revista solicitó a Carlos Cuadras un artículo de revisión del concepto y aplicaciones de la noción de distancia en Estadística, estábamos seguros de poder contar con un trabajo de ^alidad. La respuesta ha E:^r ^^r^^s r ic ^^ E_s^,^^ ^c^i...^^ sobrepasado nuestras expectativas, y quiero felicitar al autor por su profunda y rigurosa presentación de este tema, al que el Profesor Cuadras ha hecho contribuciones relevantes. Este comentario pretende únicamente resaltar que: 1) como señala el autor en su trabajo, cualquier problema de inferencia estadística puede replantearse como un problema de distancias y 2) en mi opinión, las distancias de Kullback-Leibler --para distancias entre distribuciones- y la de Mahalanobis -para vectores de datos- ocupan un lugar especialmente destacado en Estadística. Camenzando con la distancia de Kulback-Leibler (KL), es bien conocido que fa estimación máximo-verosímil resulta al minimizar esta distancia entre la verdadera distribución y la estimada. En efecto, sea f( x; U) un modelo paramétrico que satisface las condiciones habituales de regularidad y sea Oo el verdadero valor del vector desconocido de parámetros. La distancia KL entre un modelo estimado f(x; U) y el modelo verdadero f(x,^ Oa) es J ln f(x; Qo) f(x; 4a) dx - j ln f(x; O) f1 x; Qo) dx como el primer término es constante, minimizar la distancia equivale a maximizar el valor promedio de /n f(x; a), cuyo estimador con los datos muestrales es ^ ln ^ f(x; O) n y obtenemos el método de máxima verosimilitud. Esta distancia aparece de una manera natural tanto en el enfoque clásico tKullback, 1978^ corno en e1 Bayesiano (Bernardo 1979a, 1979b) no sólo ligada a problemas de estimación, sino también a la construcción de herramientas diagnósticas (Geisser y Johnson 1983, Guttman y Peña 1988), la selección de modelos (Akaike 1 974, Peña y Arnaiz 1981 ^ o el desarrollo de métodos robustos de estimación (Peña y Guttman 1989). Es fácil comprobar que la distancia KL entre dos poblaciones normales multivariantes N(/c ,^, ), N(l^ 2^) con la misma matriz de covarianzas ^ es: ^1 ( µ^ -µ ^)" ^ '(µ^ -µ 2) r»sr.^tic lAS 367 [-:ST.^UISTI('.^S que es la distancia de Mahalanobis entre las medias de ambas distribuciones. Por tanto, en la hipótesis de Normalidad, la distancia KL se reduce de forma natural a la distancia de Mahalanobis. Todos los problemas de inferencia en poblaciones normales y, por extensión, los problemas de inferéncia asintótica con familias regulares, están basados en esta distancia. En efecto, la otra distancia básica para datos cuantitativos, la X2 de Pearson, que en su versión más conocida es: z Xz = (o _ -T)^M-'(o _ ^-) _ ^ (^;--T;^ (1) donde 0 es un vector de k frecuencias observadas, T un vector de k frecuencias teóricas tal que E[o] = T y M una matriz diagonal cuyos términos son los componentes del vector T, puede escribirse (véase Kendall y Stuart 1979, p. 381) corno una distancia de Mahalanobis entre un vector de dimensión k-1, X obtenido eliminando uno cualquiera de los componentes de 0, y su vector de medias ^^ (obtenido análogamente de T): x2 = (X - µ) ^-^ (X - µ) (2) donde ^ es la matriz de varianzas y covarianzas del vector X. Los contrastes de medias en poblaciones normales pueden clasificarse en dos grupos: en el primero conocemos el parámetro de escala ^ en la matriz de varianzas y covarianzas. EI contraste es entonces de la forma: 10_0) M-^ (^_^) ^.z (3) donde Ó es un vector de medias estimadas tal que E(^) = O y Var(^) _ cr2 M. Por ejemplo, si U es escalar, la expresión ( 3) se reduce a n(X -^^ )2/^, que es el contraste clásico de la media. Si U es un vector de medias y la rnatriz de varianzas y covarianzas de los datos ^ es conocida, (3) se reduce a: (X-µ)'^^'(X -µ ) que será una X2 con grados de libertad iguales a la dimensión de ,cc. Como los estimadores de poblaciones normales son lineales, Ilamando X al vector de datos, en general podemos escribir: ^ U^AX ^ E(C-))=Aµ E^4 rr^i^isr^c^,a ^_sP,^ticar ^ y ia distancia ^3) puede tambien escribirse: Xz ! ^X _ µ)rA.M-^A ^X _ µ) ^z ^^^ que equivale a una distancia de Mahalanobis entre los datos y sus medias. Por ejemplo, en e! caso más simple de una población normal con media desconocida pero varianza conocida, el contraste clásico de !a media resulta a hora: ^X -- µ)'A'A 1X -- µ) ^^ donde la matriz cuadrada A`A tiene rango uno y todos !as componentes igual a n^2. Es bien conocido (Peña 1987, pp. 234-235) que cualquier contraste asintótico f razón de verosimilitudes, Lagrange o Wald) equivale a una distancia de Mahalanobis entre e! vector de parámetros que se contrasta y su estimación, diferenciándose los contrastes únicamente en las aproximaciones utilizadas para escribir la matriz de varianzas y covarianzas de las estimadores. Cuando ^ es desconocida, el contraste compara la distancia de Mahalanobis entre e{ est^mador y el parámetro con otra distancia calculada a partir de los datos para estimar el efecto de escala, obteniendo el contraste general de la F: {^ w ^), M_, ^^ _ ^) 1 k F ^x _ µ ) ^-^ ^X _ µ) t5) 1 n-k donde O tiene dimensión k y matriz de varianzas/covarianzas M o-^, ^c es la estimación de las medias del vector de datos X que tiene matriz de varianzas covarianzas í^ ^. Estos son los contrastes básicos de !os modelos lineales donde se supane independencia y, en consecuencia, ^=1. La idea es, sin embargo, completamente general y puede aplicarse para cualquier vector de variables normafes con matriz de varianzas covarianzas ^ o^-2. Por ejemplo, para muestras de una población multivariante se obtiene la distribución T2 de Hotelling. En los contrastes de varianza para una población normal de nuevo nos encontramos la distancia de Mahalanobis. X^ (X_^^)-^-^ (^_^} UISTA^IC'IAS EST,^IDI^^T IC'AS :^fi9 p or e^em ^ p lo, para una población normal univariante ^c^^ = X, ^= I y el contraste se reduce al bien conocido resultado ^( X, - X) 2/rr2. La comparación de varianzas de dos poblaciones es de nuevo una camparación entre distancias de Mahalanobis. En resumen, cualquier problt^ma de test de hipótesis en Estadística puede interpretarse en términos de dis:ancias: Los contrastes que resultan en una distribución X2 utilizan una cierta distancia de Mahalanobis entre dos vectores, y los que se basan en la distribución F(o T2 de Hotelling o, por supuesto t de Student, como caso particular) comparan las distancias de Mahalanobis entre dos vectores cuyas dirnensiones respectivas son los grados de libertad de la F. Análogamente, cualquier problema de estimación paramétrica resulta al minimizar una cierta distancia. Por ejemplo, los métodos de estirnación robusta minimizan, en lugar de la distancia euclidea (Y -- X^3)'Y - X^3), donde Y es un vector de datos, X una matriz de variables y^3 un vector de parámetros, una distancia de Mahalanobis del tipo ( Y - X ^)' ^-' (^3) ( Y - x^3) donde ^ depende de los parámetros desconocidos y, por tanto, la minirnación de la función requiere un procedimiento iterativo (mínimos cuadrados generalizados iterativos). REFERENCIAS AKAIKE, I. (1974). "A new Look at the Statistical Model Identificatian". IEEE transactions on Automatic Contro% 19,6, 716-722. BERNARDO, J.M. (1979a). "Excepted utility as expected information". Annals of Statistics, 7, 686-690. BERNARDO, J.M. (1979b). "Reference posterior distributions for Bayesian I nference". Journal of Royal Statistical Society B, 41, 1 13-147 (con discusión). GUTTMAN, I. and PEÑA, D. (1988). "Outliers and influence: Evaluation by posteriors of Parameters in the Linear model". Bayesian Statistics 3, Bernardo, J.M. et al (editors). Oxford University Press. JoHNsoN, W. y G EISSER, S. (1983). "a predictive view of the detection and Characterization of Influential Observations in Regression Analysis". Journal of American Statistical Association, 78, 381, 13 7-144. K EN DALL, M y STUART, A. (1 9 7 7) . Charles G riffin. The A dvanced Theory of Statistics (vol. 1). ^70 S^T •1i^I^TI( ^.A E SPA ^i(?LA ICULBACK, S. ( 1 978). lnformation Theory and Statistics. Dover. PEÑA, D. (1 987). Estadística, Modelos y Métodos ( vol. 1). Alianza Universidad Textos. G. ( 1981 ). " Criterios de selección de modelos AR I MA". Traóajos de Estadística y de /.©. 32, 1, 70-93. PEÑA, D. y ARNAIZ , PEÑA, D. and G UTTMAN, I. (19$9). " Optimal Collapsing of mixture distributions in robust recursive estimation". Communication in Statistics, Theory and Meth©ds, ( in press). J. M. PRADA SANCHEZ Dpto. de Estadística e Investigacián Operativa Universidad de Santiago EI trabajo de Carles M. Cuadras, que contiene resumida parte de su labor investigadora durante los últimos años, constituye, a mi juicio, una aportación fundamental para el estadistico actual. Presenta una exposición didáctica, rigurosa y exhaustiva, sobre la noción de distancia estadística, e incluye muchas e interesantes aplicaciones de la misma en diversos campos, así como una completa bibliografía al respecto. Algunas otras aplicaciones de interés de las distancias estadísticas en los contextos de estirnación, contrastes de hipótesis y otros son las siguientes: La estimación del parámetr© tl de una población absolutamente contí nua f^,, al minimizar sobre el espacio paramétrico la distancia de Hellinger entre fr, y un estimador paramétrico de f^,. Esta idea, introducida por Beran (1977), fue extendida por Lasala (1981 ) en su tesis doctoral. La búsqueda de la ventana óptima en un problema de estimación de la densidad puede plantearse minimizando distancias estadísticas (Hellinger, Kullback), como puede verse en Hall (1983). Cristóbal, J.A., Faraldo, P. y González Manteiga, W. (1 987), hacen una estimación parámetrica de la regresión minimizando sobre el espacio paramétrico la distancia L^ entre el modelo y un estimador no paramétrico del mismo. H^rdle, W, y Mammen, E. (1 988, preprint), realizan contrastes de hipótesis acerca de un modelo de regresión utilizando la distribución Booptstrap de la distancia L2 entre una estimación clásica del modelo y una estimación no paramétrica del mismo. Una posible aplicación interesante de las distancias estadísticas nos Ilevaría, en la técnica Bootstrap, a sustituir la distribución empírica por aquéila que menos «dista» de ella, entre las pertenecientes a una cierta clase de di5tr-ibuciones (p. ej.: la clase de distribuciones simétricas). f)ISTAtiC`IAS ESTADISTI('AS REFERENCIAS BERAN, R. (1 9771. «Minimum Hellinger distance estimates for parametric rnodels». Annals of Statistics, Vol. 5, 3, 445-463. CRISATOBAL, .J.A., FARALDO, P. y GONZALEZ MANTEIGA, W. (1 987). «A class of linear regresion parameter estimators constructed by nonparemetric estimation». Annals of Statistics, Vol. 1 5, 2, 603-609. HALL, P. (1983). «Large sample optimality of least squares Cross-validation in density estimation». Anna/s of Statístics, Vol. 1 1, 4, 1 1 56-1 1 74. HARDLE, W. y MAMMEN, E. (1 988). «Compairing non parametric versus parametric regresion fits». (preprint^. LASAI.A, M.P. (1981). «Cuestiones notables sobrP procedimientos robustos: Funcionales de mínima g-divergencia y sus estimadores asociados». Tesis doctoral. Universidad de Zaragoza. ^.s^^,^r^^s^t^^^c,^ ^:sr^^wc^^_,^ 37^ Contestación Agradezco los comentarias de B. Castro, M. P. Martín-Guzmán, J. M. G arcía-Santesmases, D. Peña y J. tV{. Prada, porque no tan so#o contienen observaciones interesantes sobre aspectos concretos, sino que además contienen ideas y referencias que enriquecen mi artículo. Mi contestación voy a I#evarla a cabo incluyendo las respuestas en cuatro secciones. SIMILAR#DADES Aunque en la sección 2.1 se imponía ia restricción 0< s,j < 1, en la misma secci+ón se seña#a que una simi#aridad puede también tomar valores superiores a 1, y se destaca la importancia de la distancia. (1) = ti S;; + S;; - ^2 s;i en 1a que hace referencia a las propiedades métrica y euclídea, como queda bien patente en el cuadro 2. Sin embargo, tiene razón M.P. MartínGuzmán. La restricción s;,-- 1 puede dejar de cumplirse para el coeficiente de Russell y Rao, definido como a/p. En cuanto a! coeficiente de similaridad para datos tanto cuantitativos como categóricos, se hace referencia al coeficiente de Gower (1971 ) en la sección 7.7. Conviene observar que este coeficiente puede escribirse también como IXrk ^jk ilRky+a+a t2^ S n,+(n2-d)+n3. donde n, es el número de variables continuas, a y d son el número de coincidencias para las n2 variab#es dicotómicas y a es el número de estadas coincidentes para las n3 variables multinomiales. Deben aplicarse algunas correcciones en ef caso de datos faltantes. Rk es el rango de la k-esima variable continua. ^ DIS^TAti(^IA^ E^T:1^ItiTl( ^^S ^%^ Es fácil comprobar que s,^ se reduce al coeficiente de Jaccard si todas las varia5les son dicotómicas y al coeficiente de Sokal y Michener si todas son binarias. Nótese la distinción entre variables dicotómicas (en las que se resalta la importancia de las coincidencias positivasl y variables binarias. La importancia de s;; reside en que 11) da lugar siempre a una distancia euclídea (salvo, eventualmente, el caso de datos faltantesl. Por otra parte, recienternente hemos utilizado esta distancia (con datos reafes) para verificar el rnodelo de regresión propuesto en la sección 7.7, obteniendo buenos resultados con respecto al procedimiento clásico de cuantificar las variables cuaiitativas. 2. DISTANCIA ji-cuadrado La no inclusión de esta distancia en el texto puede explicarse por la dificultad de definirla sin una clara referencia al Análisis de Correspondencias (AC), lo que hubiera comportado alargar un original ya de por sí bastante extenso. Aunque el AC es un tema que ya he tratado en Cuadras (1981, cap. 14), lo comentaré brevemente relacionándolo con otros métodos. Sea F=(f;^) una tabla de contingencia rxs. Podemos suponer que las frecuencias son relativas y suman 1. La distancia ji-cuadrado es una medida de la diferencia entre los perfiles de dos filas i, k, que se define por z S 1 ^ (i, k} _ ^ - ( i=^ f f,/ f; fk^ )2 (3) fk. Análogamente se define la distancia entre columnas. EI AC puede describirse a través de la descomposición singular D;'^2 (F - E ^ D^ "2 = U A V ' (4) donde UU'=1, V'V=1, A es diagonal y contiene los valores singulares, D, =.diag(f, , . . . , f, }, DS = diag(f , , . . . , f S)., y E= D,1 1 ' D^ Obsérvese que los elementos de E son e;! = f; f^( ó f; f ^/N si traba ja mos con frecuencias absolutasl, luego la descomposición singular ( 4) mide la discrepancia entre F y la matriz E que corresponde al caso de independencia entre filas y columnas. La representación de las filas se consigue a través de la matriz de coordenadas euclídeas. R = D;'^2UA ^74 ^ sr:^rr^i^ric-n E:^F^ ^1tiC)l_4 y la de las colur^nnas a través de C = p^^r2VA Ambas matrices están relacionadas por R=D;'FCA-' G ^ pc^F•R A-^ permitiendo una representación simultánea de filas y columnas a lo largo de unos mismos ejes. Las distancias euclídeas entre filas (columnas} son iguales a las distancias^ ji-cuadrado. Utilizando adecuadamente el análisis de cornponentes principales, podemos representar y estudiar la dependencia entre filas y columnas de una tabla de contingencia. EI AC está estrechamente relacionado con otros métodos de análisis de datos categóricos. 1) Puede utilizarse como un complemento de! modelo log-lineal. Así como este modelo es útil para detectar interacciones, AC permite representarlas graficamente (Van der Heijden y de Leeuw, 1985). 2} Se relaciona con e1 liamado modelo RC (Row-Column association model) de Goodman (Van der Heijden y Worsley, 1 988}. 3) Puede interpretarse como una solución '"biplot" (Gabriel, 1971) aplicada a la matrii D;"^F D^"2 (Cuadras et al., 1985). 4} Se puede introducir como un análisis de correlación canónica entre dos conjuntos de variables categóricas. Los valores singulares contenidos en h pueden ser interpretados como correlaciones canónicas (Cuadras, 1981, cap.22). 5) Se verifica tra A2 = ,v2 / N donde X2es el estadístico ji-cuadrado del test de independencia en tablas de contingencia. Existe así una evidente relación con la ,v2 interpretada como una medida de divergencia entre F={f;^} y E={f; f^}, tabla construida bajo la hipótesis de independencia. 6} Puede ser planteado como un método de RA ("reciprocal averaging"), que ya había sido propuesto por diferentes autores {Horst, Richardson, Fisher) y recuperado por Hill (1973) para el análisis de datos ecológicos. nisT.ati<^i as FsT anis r ic^:a^ 375 7) Finalmente AC es prácticarnente equivalente a los métodos conocidos como "dual scaling" y"optimal scaling". introducidos y estudiados por diversos autores (Fisher, Guttman, Kendall, Lancaster, Nishisato, etc.1. Véase Takeuchi et al. (1982), G reenacre (1984). 3. ALGORITMOS DE CLASIFICACION, MDS Y CO^MPUTACION DE DISTANCIAS La descripción de algoritmos de clasificación jerárquica, equivalentes a la construcción de una distancia ultramétrica a partir de otra distancia dada, así como la descripción del M DS, son tareas que desbordan totalmente las intenciones de este artículo. Me limitaré a resaltar, de nuevo, que existen dos tipos de estructuras: el par {S2,ó), formado por un conjunto S^ y una distancia ^S, que recoge {en algún sentido apropiado) las relaciones entre los datos, y el espacio geométrica modelo {V,c^, gracias al cual se dispone de una representación reconocible de {5^,^). En general, es necesario algún criterio de aproximación para pasar del primero al segundo. Este paso se Ileva a cabo mediante un algoritmo adecuado {^,^) algoritmo (V, d) Si el espacio {V,c^ es ultramétrico se trata entonces de un algoritmo de clasificación jerárquica. Si el espacio es euclídeo, entonces necesitamos algunos de los métodos de M DS, como se comenta brevemente en la sección 4.1. Por otra parte, los aspectos computacionales de las distancias estadisticas constituyen un aspecto importante del tema, que merece un estudio aparte que no sería completo sin una experimentación con diversos conjuntos de datos. Se trata también de una tarea que desborda las intenciones que se han pretendido en este artículo. En general, los paquetes de programas sobre análisis multivariante de datos contienen rutinas que calculan distancias, bien explícitarnente o de forma implícita en función del método empleado. CLUSTAN es el paquete más completo en este sentido, aunque también debemos mencionar BMDP, SPAD, etc., como comenta J. M. García-Santesmases. Además del conocido SPSS, otros paquetes de programas dignos de mención son: G ENSTAT, M DS {X) y NTSYS. ^7^ 4. ^^;"T •1[)I^TIt ^^ E SP4ti(}t. ^ DIVERGEIVCIAS VERSUS DISTAfVCIA ©E RAO AI tratar sabre las distancias estadísticas entre distribuciones de probabilidad, este artícufo expone tanto las divergencias funcionales como la distancia geodésica o distancia de Rao. Sin embargo, se deja entrever una ligera preferencia hacia la distancia de Rao. En efecto, la distancia de Rao, por sus connotaciones geométricas y sus interesantes propiedades, viene a ser la generalización natural a distribuciones paramétricas cualesquiera de la distancia de Mahalanobis, que la engioba como caso particular. Las medidas de divergencia, como la de Kullback-Leibler (KL), poseen una formulación más simple y gozan también de interesantes propiedades y aplicaciones, como bien expone D. Peña. De hecho, existe una fuerte relación entre 1a función de verosimilitud y KL cuando la distribución pertenece a la familia exponencial. La ventaja de considerar KL queda patente en el caso de que la verdadera distribución q no pertenezca a una determinada familia paramétrica. Supongamos que q realmente no pertenece a la familia exponencial p,,, y sin embargo deseamos estimar fI. Entonces la función de verosimilitud es esenciafinente una estimación de la divergencia KL entre la q y p,,, Además el estimador máximo verosímil f^n, que no estima el verdadero parámetro porque q^ p,,, es un estimador consistente y asintóticamente normaf de (^*, siendo fI* el valor del parámetro tal que K(q, p„) es mínimc^. En otras palabras, el estimador máximo verosímil proporciona una estimación del valor del parámetro que da lugar a la distribución de la familia fo más próxima posible, respecto a KL, a la verdadera distribución. En un contexto similar podemos situar los comentarios de J. M. Prada. No obstante, aunque KL y otras medidas de divergencia son medidas de discrepancia razonables entre dos distribuciones, en ciertos casos pueden ser más apropiadas otras medidas. Si bien faltaría una demostración más elocuente de 1a superioridad de la distancia de Rao, he aquí algunos argumentos en su favor, en tanto que queda como problema abierto compararla con otras distancias en un contexto más general. 1) La divergencia KL no es propiamente una distancia, pues no es simétrica, y aunque puede simetrizarse, no cumple la desigualdad triangular. 2} Las divergencias son medidas de discrepancia funcional perfectamente apropiadas en e1 caso no paramétrico. Cuanda se conoce una parametrización, aprovechamos mejor la información que proporciona la muestra utilizando la distancia de Rao, que viene a medir el cambio de información entre los parámetros. DISTAti('1,45 F:S^i^,^[.)ISTI(^:^5 3) La distancia de Rao posee mayor poder de separación que la distancia de Matusita, extensamente utilizada en problemas de inferencia estadística, como se refleja en la relación (sección 6.2} M(p,q) ^ B(p,q) ^ R(p,q) 4) Las divergencias y la distancia de Rao coinciden localmente (sección fi.3), lo que tiene como consecuencia que en ciertos casos se Ilegue a resultados equivalentes. 5) En el caso multinomial, el elemento de arco es ds2 = ^ (dp;)2 ^ p, La distancia de Rao se obtiene integrando el elemento de arco a lo largo de una curva geodésica. Obsérvese entonces la analogía formal entre ds2 y la clásica fórmula del estadístico ji-cuadrado X2=E(f;-e;^2^e; 6) Todos los, problemas de inferencia en modelos lineales normaies univariantes pueden ser resueltos a través de la distancia de Rao (Burbea y Oller, 1988). En cuanto a los numerosos problemas en los que interviene la distancia de Mahalanobis, pueden ser también abordados con mayor generalidad utilizando la distancia de Rao o la distancia relacionada introducida en la sección 5.5 (distancia entre individuos). Sin embargo, ocurre que si la estimación de los parámetros alcanza la cota de Cramer-Rao, al ser la matriz de información de Fisher una matriz de covarianzas, esta distancia viene a ser esencialmente la distancia de Mahalanobis. Es^r^^r^isric^.^ ^:s^.atio^.,^^ 378 5. REFERENCIAS BURBEA, J. y 4^^ER, J. M. (19$8). The information metric for univariate linear elliptic models. Statistics & Decisions 6, 209-221. ^CuADRAS, C. M. { 1981). Métodos de Análisis Multivariante. Eunibar, Barcelona. CUADRAS, C. M., OLLER, .1. M., ARCAS, A. y RIOS, J. M. (i 985). MétOdOS geométricos de la Estadística. Qi^estiiá 9(4), 219-2 50. GABRIEL, K. R. (1971). The bipfot graphic display of matrices with application to principa! component analysis. Biometrika 58, 453-467. GENSTAT. A general statistical program. Rothamsted Experimentai Station, Harpender, Hertfordshire. GowER, J. C. (19 71). A general coefficient af similarity and some of its prapertíes. Biometrics 27, 857-871. G R E E N AC R E, M. J.{ 1 9$ 4). Theory and A pplications of Correspondence A nalysis. Academ ic Press, I nc., London. HILL, M. O. { 1973). Reciprocal averaging: an eigenvector method of ordination. J. Ecol. 61, 237-249. MDS(X). Multidimensional Scaling Package. Univ. of Edinburgh. NTSYS. Numerical Taxonomy System af Multivariate Statistical Pragrams. Dept. of Ecology and Evolution. The State University af New York at Stony B rook. . TAKEUCHI, K., YANAt, H. y MUKHERJEE, B. N. (1 982). The FOUnáations of Muftivariate Analysis. Wiley EI., New Delhi. Correspondence analysis used complementary to loglinear analysis. Psychometrika 50, 429-447. VAN DER HEIJDEN, P. G. M. y de LEEUW, J. (1 9$5) . VAN DER HEIJDEN, P, G. M. y WORSLEY, K. J. (1988). Comment on "Corres- pondence analysis used complementary to loglinear analysis". Psychometrika 5 3, 2 8 7-2 91.