Estadísticos de rangos lineales

Anuncio
Capı́tulo 3
Estadı́sticos de rangos lineales.
3.1
Rango de un elemento de un conjunto.
Definición 3.1.1 Dado un conjunto de números reales {x1 , . . . , xm } llamamos
rango de uno cualquiera de sus elementos xi , y lo denotamos R(xi ), al lugar
que ocupa xi en el conjunto, luego de ordenarlo de menor a mayor, esto es:
R(xi ) =
m
1{xh ≤xi }
h=1
Cuando los elementos del conjunto son todos diferentes, el conjunto de
sus rangos es {1, 2, . . . , m}. Cuando esto no ocurre (en ese caso suele decirse
que hay empates) el conjunto de los rangos contiene números repetidos, y hay
entonces números entre 1 y m − 1 que no son rangos de ningún elemento.
En lo que sigue, vamos a aplicar la definición de rangos a variables aleatorias, y supondremos que sus distribuciones son tales que los empates quedan
excluı́dos con probabilidad 1.
Teorema 3.1.1 Si H es una función estrictamente creciente, el rango de yi =
H(xi ) en {H(xh ) : h = 1, 2, . . . , m} es el de xi en {xh : h = 1, 2, . . . , m}
La demostración es inmediata.
3.2
El problema de las dos muestras
A partir de dos muestras (X1 , . . . , Xm ) y (Y1 , . . . , Yn ), llamamos estadı́stico
lineal de rangos a un estadı́stico de la forma
T =
m
ψR(Xi ) ,
i=1
35
(3.1)
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
36
donde ψ = (ψ1 , . . . , ψm+n ) es un vector de m + n componentes, y R(Xi ) =
m
n
h=1 1{Xh ≤Xi } +
j=1 1{Yj ≤Xi } es el rango de Xi .
Vamos a suponer que las distribuciones de probabilidad de las variables
aleatorias involucradas son tales que no hay empates casi seguramente. En
particular, este es el caso cuando X1 , . . . , Xm ∼ F , Y1 , . . . , Yn ∼ G, y F y G
son funciones de distribución continuas.
El nombre problema de las dos muestras se aplica a la prueba de la hipótesis
nula de igualdad entre F y G.
Cuando se cumple H0 :“F = G”, cualquiera de los m+n
subconjuntos
m
de m números elegidos en {1, 2, . . . , m + n} tiene la misma probabilidad que
cualquier otro de ser el conjunto de los rangos de (X1 , . . . , Xm ). En particular,
P{R(Xi ) = j} =
1
,
m+n
y, si h = i y j = k,
P{R(Xh ) = j, R(Xi ) = k} =
1
1
.
m+nm+n−1
A partir de estas probabilidades, resulta inmediato calcular los momentos
de primero y segundo orden de T cuando se cumple H0 :
Teorema 3.2.1 Cuando se cumple H0 ,
ET =
m m+n
ψj
m + n j=1
(3.2)
y


m+n
m+n
mn

VarT =
ψj2 − (
ψj )2 /(m + n) .
(m + n)(m + n − 1) j=1
j=1
(3.3)
Demostración. Para cada i = 1, . . . , m, EψR(Xi ) = m+n
j=1 ψj P{R(Xi ) = j}
1 m+n
= m+n j=1 ψj es independiente de i, de modo que (3.2) se obtiene sumando
en i.
Si h = i, entonces
EψR(Xh ) ψR(Xi ) =
ψj ψk P{R(Xh ) = j, R(Xi ) = k}
j=k
=
1
ψj ψk ,
(m + n)(m + n − 1) j=k
Licenciatura en Estadı́stica.
3.2. Problema de las dos muestras
37
mientras que, para el caso h = i, encontramos
2
EψR(X
=
h)
m+n
ψj2 P{R(Xi ) = j} =
j=1
1 m+n
ψ2
m + n j=1 j
de modo que
2
ET = E
m
m ψR(Xh ) ψR(Xi ) =
h=1 i=1
=
=
EψR(Xh ) ψR(Xi ) +
h=i
m
h=1
m+n
m(m − 1)
m
ψj ψk +
ψ2
(m + n)(m + n − 1) j=k
(m + n) j=1 j
m+n
m(m − 1)
m
ψj2 ) +
ψj2
( ψj ψk −
(m + n)(m + n − 1) j,k
(m
+
n)
j
j=1
=
m(m − 1)
m
m−1
1−
( ψj )2 +
(m + n)(m + n − 1) j
m+n
m+n−1
y
VarT = ET 2 − (ET )2 =
+
m+n
ψj2
j=1
m(m − 1)
( ψj )2
(m + n)(m + n − 1) j
m+n
m+n
m
m2
n
ψj2 −
(
ψj )2
2
m + n m + n − 1 j=1
(m + n) j=1
=
2
EψR(X
h)
m+n
m−1
m
mn
m
−
ψj2 −
( ψj )2 ,
(m + n)(m + n − 1) j=1
m+n m+n m+n−1
j
2
que se reduce a (3.3).
Corolario 3.2.1.1 Si se eligen valores de ψ = (ψ1 , . . . , ψm+n ) con las condiciones de normalización
m+n
j=1
ψj = 0
m+n
ψj2 = m + n,
j=1
entonces
E( √
T
T
mn
) = 0, Var( √
)=
,
(m + n)(m + n − 1)
m+n
m+n
T
m
n
y Var( √m+n
) → µν cuando m + n → ∞, µ = lim m+n
, ν = lim m+n
.
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
38
Se observará que cuando T = m
R(Xi ) es un estadı́stico de rangos lineal,
i=1 ψ
∗
puede construirse otro estadı́stico T ∗ = m
i=1 ψR(Xi ) del mismo tipo, que es una
función determinı́stica (independiente de la muestra) de T , y que, por lo tanto,
posee la misma información que T , con coeficientes que cumplen las condiciones
de normalización que aparecen en el enunciado del corolario precedente. En
efecto, basta reemplazar cada ψj por
ψj∗ = (ψj −
ψk
m+n
/(m + n))(m + n)/(
(ψ
k
k
−
k=1
ψl /(m + n))2 ),
l
pues esta operación lleva T en
T∗ =
m
i=1
∗
ψR(X
= (T −
i)
m
m+n
m+n
j=1
ψj
m+n
) (m + n)/(
(ψ
k
k=1
−
ψl /(m + n))2 ),
l
que es un polinomio de primer grado en T con coeficientes que dependen
exclusivamente de los ψj , pero no de las muestras.
3.3
Acerca de la distribución de T bajo la hipótesis nula F = G.
Las distribuciones de funciones de los rangos, cuando F = G, pueden
obtenerse
m+n
de la observación indicada previamente de que cualquiera de los m subconjuntos de m números elegidos en {1, 2, . . . , m + n} tiene la misma probabilidad
que cualquier otro de ser el conjunto de los rangos de (X1 , . . . , Xm ).
La siguiente imagen geométrica da una descripción de la distribución de
los rangos de las X (y de las Y ) bajo H0 : “F = G”.
Teorema 3.3.1 A partir de las observaciones X1 , . . . , Xm , Y1 , . . . , Yn construimos el vector U = (U1 , . . . , Um+n ) cuyas componentes valen Uj = 1, cuando j
está en el conjunto RX = {R(X1 ), R(X2 ), . . . , R(Xm )}, y −1 en caso contrario.
A partir de U definimos S = (S0 , S1 , . . . , Sm+n ), con Sj = jk=0 Uk .
A cada S hacemos corresponder la poligonal de lados {((j−1, Sj−1 ), (j, Sj )) :
j = 1, 2, . . . , m + n}. Esta poligonal tiene un primer lado que une (0, 0) con
(1, 1) cuando la más pequeña de las observaciones es una X, o (0, 0) con (1, −1)
cuando es una Y . Luego un lado a 45 grados hacia arriba, si la siguiente
observación es una X, o hacia abajo si es una Y , y ası́ sucesivamente hasta
describir los m + n rangos.
Licenciatura en Estadı́stica.
3.3. Distribución de T cuando F = G.
Cada una de las
m+n
m
39
trayectorias poligonales de este tipo que unen (0, 0)
con (m + n, m − n) tiene la misma probabilidad (
m+n −1
)
m
que cualquier otra.
El paseo al azar simétrico simple obtenido cuando U1 , . . . , Um+n son independientes e idénticamente distribuidas con P{Uj = 1} P{Uj = −1} = 1/2
(j = 1, 2, . . . , m + n) y S se define de la misma manera a partir de U , tiene la
misma distribución.
El enunciado precedente, cuya demostración es inmediata, conduce a calcular probabilidades asociadas a H0 por simple enumeración de trayectorias.
Sugiere también qué tipo de estadı́sticos resultan apropiados para utilizar los
rangos en problemas de inferencia.
3.3.1
Efecto del desplazamiento relativo de una muestra
respecto a la otra.
Supongamos que nos interesa probar H0 , y detectar especialmente bien las
alternativas de desplazamiento relativo de la distribución de las X respecto de
la de las Y : H1 : “F (x) = G(x − c)”, para alguna constante c.
Cuando se cumpla la alternativa con c > 0, las X estarán desplazadas hacia la derecha de las Y . En ese caso, las variables con rangos pequeños serán
mayoritariamente Y , y los rangos grandes corresponderán a las X. Las trayectorias tenderán por lo tanto a comenzar dirigiéndose hacia abajo, y terminarán
subiendo, para llegar al punto terminal que está fijo. En otras palabras, las
trayectorias indicativas de que se cumple la alternativa serán las más bajas.
Por lo tanto, una prueba de la hipótesis de igualdad de las distribuciones sensible a la alternativa de desplazamiento a la derecha, se obtendrá tomando
como región crı́tica al conjunto de las trayectorias más bajas. Como bajo la
hipótesis nula todas las trayectorias tienen la misma
probabilidad, la canti
dad de trayectorias en la región crı́tica será α m+n
,
donde
α es el nivel de la
m
prueba.
Para precisar la observación precedente se requiere decidir cuáles son las
trayectorias más bajas, es decir, dar una medida de la altura de una trayectoria. Esto puede hacerse de diversas maneras, y da lugar a diferentes pruebas
basadas en los rangos.
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
40
3.3.2
Dos maneras de medir la altura de una trayectoria.
Dos de las maneras de decidir cuáles son las trayectorias más bajas, ambas
utilizadas en la construcción de pruebas, son las siguientes:
• Se describe la altura por medio de una combinación lineal con coeficientes
positivos de las alturas de los vértices:
m+n
aj S j .
j=0
Por ejemplo, si todos los pesos son iguales, obtenemos W1 = m+n
j=0 Sj .
En cambio, si sólo uno de los pesos es positivo y los restantes son nulos,
obtenemos simplemente Mj = Sj .
• Se describe la altura de acuerdo al mı̀nimo valor alcanzado por la trayectoria o por una función sencilla de la trayectoria, por ejemplo,
min
j=0,1,...,m+n
Sj ,
(Sj − j(m − n)), etc.
min
j=0,1,...,m+n
Entre los segundos están los estadı́sticos de Kolmogorov - Smirnov.
Observemos que los primeros pueden escribirse también en la siguiente
forma, que muestra que son estadı́sticos lineales de rangos:
m+n
aj S j =
j=0
donde ψk =
m+n
j=1
m+n
j=k
aj
j
Uk =
k=1
m+n
m+n
aj Uk =
k=1 j=k
m+n
ψk (1{k∈RX } − 2),
k=1
aj . Como consecuencia,
m+n
j=0
aj Sj =
m
ψR(Xi ) − 2
i=1
m+n
ψj ,
j=1
m+n
y esta expresión difiere de (3.1) en el término determinı́stico 2
modo que proporciona la misma información que el estadı́stico T .
3.4
3.4.1
j=1
ψj , de
Algunos ejemplos de pruebas de posición
basadas en estadı́sticos lineales de rangos.
La prueba de Wilcoxon.
La primera prueba basada explı́citamente en un estadı́stico lineal de rangos
que apareció en la bibliografı́a fué la de Wilcoxon. Se trata de una prueba
Licenciatura en Estadı́stica.
3.4. Algunos ejemplos de pruebas de posición.
41
sensible a desplazamientos relativos de las dos distribuciones. El estadı́stico
utilizado es
W =
m
R(Xi ),
i=1
que tiende a dar resultados significativamente grandes cuando las X están
desplazadas hacia la derecha de las Y , e, inversamente, significativamente
pequeños cuando están desplazadas hacia la izquierda. Los valores posibles
1
de W van desde un mı́nimo de m
el máximo m+n
i=1 i = 2 m(m + 1) hasta
i=n+1 i
m
1
= mn+ 2 m(m+1). Este estadı́stico es de la forma T = i=1 ψR(Xi ) con ψj = j,
de modo que Sψ = 12 (m+n)(m+n+1) y SCψ = 16 (m+n)(m+n+1)(2m+2n+1).
m (m+n)(m+n+1)
De (3.8) resulta EW = m+n
= m(m+n+1)
, y de (3.9), VarW
2
2
2
− (m+n)(m+n+1)
= mn(m+n+1)
.
4
12
La distribución de W puede obtenerse por enumeración directa, cuando los
tamaños de las muestras no son demasiado grandes. Además, para probar H0
no es necesario conocer completamente la distribución de W , sino que basta
tener las cuantilas 1 − α, α o 1 − α/2 y α/2, donde α es el nivel, según se
trate de una prueba unilateral sensible a F (x) = G(x − δ), δ > 0, una prueba
unilateral sensible a F (x) = G(x − δ), δ < 0, o una prueba bilateral con igual
peso en ambas partes de la región crı́tica, cuando se desea que la prueba sea
sensible a F (x) = G(x − δ), sin especificar el signo de δ. Por ejemplo, cuando
m = n = 5, α = .05 y la región crı́tica es de la forma W > c, tenemos que
encontrar c tal que la probabilidad de {W > c} sea 5%. El número posible de
trayectorias es 10
= 252. El 5% de esta cantidad es 12, 6.
5
Es claro que el máximo valor de W , que es 6 + 7 + 8 + 9 + 10 = 40
ocurre sólo cuando la ordenación de las variables es Y Y Y Y Y XXXXX. El
valor 39 también ocurre sólo una vez, en el caso Y Y Y Y XY XXXX. A partir de esta configuración, hay dos formas de reducir la suma de rangos en
una unidad para obtener W = 38, a saber, Y Y Y XY Y XXXX y Y Y Y Y XXY XXX ,
luego tres (Y Y XY Y Y XXXX, Y Y Y XY XY XXX y Y Y Y Y XXXY XX ) con suma 37, cinco
(Y XY Y Y Y XXXX, Y Y XY Y XY XXX, Y Y Y XXY Y XXX, Y Y Y XY XXY XX y Y Y Y Y XXXXY X )
con suma 36, etc. La probabilidad de {W > 35} es entonces 12/253 = 4.74%,
valor muy próximo al nivel deseado. Una trayectoria más que agregáramos
harı́a que el nivel fuera mayor que el 5%, de modo que la región crı́tica
{W > 35} resuelve nuestro problema, al menos aproximadamente, con la mejor
aproximación posible.
La distribución de W está tabulada para valores no muy grandes de m y
n. Para valores grandes existen aproximaciones asintóticas, que veremos más
adelante.
=
mn
(m+n)(m+n−1)
(m+n)(m+n+1)(2m+2n+1)
6
42
3.4.2
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
La prueba de Mann y Whitney.
El estadı́stico de Mann y Whitney es A = W − m(m + 1)/2, y varı́a entre 0 y
mn. Su esperanza bajo H0 es mn/2, y su variancia es la misma de W , ya que
ambos estadı́sticos difieren en una cantidad no aleatoria.
Resulta interesante observar que, si subdividimos el rectángulo de vértices
(0, 0), (m, m), (m + n, m − n), (n, −n), limitado por las dos trayectorias extremas, en los mn cuadrados de lados a 45o¯ que se obtienen intercalando n − 1
y m − 1 paralelas equidistantes entre los lados de pendiente positiva y los
de pendiente negativa, respectivamente, entonces A coincide con la cantidad
de esos cuadrados que están por encima de la trayectoria que representa la
ordenación conjunta de las dos muestras, y por debajo de la trayectoria más
alta.
Basta observar que al intercambiar dos observaciones contiguas XY para
llevarlas a Y X, dejando el resto sin modificar, esto aumenta en una unidad
tanto a A o a W como al número de cuadritos por encima de la trayectoria.
Como este número es cero para la trayectoria más alta, cuando A también
vale 0, se deduce que A y ese número coinciden. La enumeración de las doce
trayectorias más altas, es decir, las que dejan menos cuadrados por encima, que
hiciéramos en el ejemplo de aplicación de la Prueba de Wilcoxon a dos muestras
de tamaño 5, resulta mucho más simple cuando enumeramos las trayectorias
que dejan 0, 1, 2, 3, 4, o 5 cuadrados por encima, que son las que indican las
figuras anexas.
Trayectorias con A = 0 o 1.
Trayectorias con A = 2.
Trayectorias con A = 3.
Trayectorias con A = 4.
Licenciatura en Estadı́stica.
3.5. Ejemplos de pruebas lineales de rangos.
3.4.3
43
Una versión gráfica de la prueba de Wilcoxon.
Vamos a representar en un par de ejes cartesianos los valores X1 , . . . , Xm en
abscisas, y los Y1 , . . . , Yn en ordenadas. La cantidad de elementos de la muestra
de las Y menores que Xi es igual a la cantidad de intersecciones de las rectas
y = Yj , j = 1, . . . , n con la recta x = Xi que están por debajo de la bisectriz
y = x de los cuadrantes primero y tercero.
Por lo tanto, la cantidad de esas intersecciones correspondientes a las rectas
n
x = Xi para i = 1, . . . , m es m
i=1
j=1 1Yj <Xi . A esta suma falta agregarle
m m
i=1
h=1 1Xh ≤Xi para tener el estadı́stico W de Wilcoxon. Como consecuencia, coincide con el estadı́stico A de Mann y Whitney.
En resumen: La cantidad A de intersecciones de las rectas y = Yj con las
rectas x = Xi por debajo de y = x es igual al estadı́stico de Mann y Whitney.
Como consecuencia, si corresponde rechazar H0 cuando A < a
3.5
Algunos ejemplos de pruebas lineales de
rangos.
Las observaciones de las secciones precedentes llevan a considerar que coeficientes ψi monótonos son adecuados para detectar alternativas de desplazamiento de una muestra respecto de la otra.
Cuando nos interesa detectar cambios en la concentración o dispersión, en
ausencia de desplazamientos relativos, debemos poner de manifiesto cuándo
las X están concentradas en el centro, y las Y desplazadas hacia los extremos,
lo que indicarı́a que las X están más concentradas que las Y , o viceversa. El
estadı́stico T resulta sensible a estos comportamientos cuando los coeficientes
ψ crecen (o bien decrecen) desde el centro a los extremos. Por ejemplo, los
valores ψi = |i − 12 (m + n + 1)| o ψi = (i − 12 (m + n + 1))2 sirven para poner
de manifiesto cambios de dispersión.
La Tabla 3.1 indica los estadı́sticos utilizados en algunas de las primeras
pruebas propuestas en la literatura, y sus dos primeros momentos. Las regiones crı́ticas son de la forma T <const, T >const o la unión de ambas, con
constantes adecuadas en cada una de las desigualdades, y T = m
1=1 ψR(Xi ) .
Algunos de los estadı́sticos propuestos son apropiados para detectar cambios de posición, y otros para cambios de dispersión.
En cualquier caso, y para cada nivel α la obtención de la constante cα que
cumple la propiedad P{T > cα } = α, se puede hacer por simulación y también
por el cálculo exacto de la distribución de T .
44
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
Para obtener exactamente la distribución de T , se enumeran las m+n
m
ubicaciones posibles de las X en el conjunto de las m + n observaciones,
y
m+n
se calcula T en cada caso. Se obtiene ası́ un conjunto T de m números.
m+n −1
, cuando
m
−1
, si ν(t)
ν(t) m+n
m
Cada uno de los valores t ∈ T tiene la misma probabilidad
son todos diferentes. En general, la probabilidad de t es
es la cantidad de veces que se obtiene el valor
ten T .
m+n
Se observará que si C es la familia de los m subconjuntos de m elementos
de {1, 2, 3, . . . , m + n}, entonces T = { j∈C ψj : C ∈ C}, y este conjunto sólo
depende del conjunto desordenado {ψj : j = 1, 2, 3, . . . , m + n}. En otras
palabras, T resulta ser el mismo conjunto de sumas, no importa en qué orden
estén los elementos de ψ, con tal que estos sean los mismos.
Esta observación está en la base de la prueba de Siegel y Tuckey, incluida
en la Tabla 3.1, para la que esa tabla muestra que la esperanza y la variancia
de T coinciden con la esperanza y la variancia correspondientes a la Prueba
de Wilcoxon. No sólo conciden los momentos; coincide la distribución de T ,
porque los elementos de ψ son los mismos en ambas pruebas, aunque en otro
orden. En la prueba de Wilcoxon, los números 1, 2, . . . , m + n se ubican en
orden creciente en los m + n lugares del vector ψ. En cambio, en la de Siegel
y Tuckey, se distribuyen de manera que los valores más bajos están en los
extremos, y los más altos en el centro, para distinguir, de la misma manera
que en la Prueba de Ansari-Bradley, las alternativas de cambio de dispersión.
La diferencia es que las componentes de ψ en la prueba de Ansari-Bradley se
repiten de manera simétrica:
1 2 3 4 ... 4 3 2 1
mientras que en la de Siegel-Tuckey se cambian ligeramente para que no se
repitan:
1 4 5 8 ... 7 6 3 2
La ventaja de utilizar los mismos números como componentes de ψ es que
de esa manera, las tablas de la distribución del estadı́stico de Wilcoxon bajo
la hipótesis nula se aplican a la distribución del nuevo estadı́stico.
3.6
.
Programa para el cálculo de la distribución
de los estadı́sticos lineales de rangos
Licenciatura en Estadı́stica.
3.6. Ejemplos de pruebas lineales de rangos.
Tabla 3.1: Momentos de T =
de uso corriente.
Nombre
ψi
1=1
ψR(Xi ) correspondientes a algunas pruebas
ET =
Fisher y Yates
EΦ−1 (U(i) )
Van der Waerden
Φ−1 (i/(m + n + 1))
Wilcoxon
i
1
2
m
de la Mediana
i
+ 12 sign 12 − m+n
45
m
m+n
m+n
j=1
mn
×
(m+n)(m+n−1)
m+n
1
ψj2 − m+n
(
ψ j )2
j=1
j=1
VarT =
ψj
m+n
0
-
0
-
m(m+1)
2
+
mn
2
mn(m+n+1)
12
mn
,
4(m+n−1)
si m + n es par
m
2
mn
,
4(m+n)
si m + n es impar
Capon
E(Φ−1 (U(i) )2
Klotz
Φ−1 (i/(m + n + 1))2
Mood
i−
m+n+1 2
2
Ansari - Bradley
i ∧ (m + n + 1 − i)
m
-
-
-
m((m+n)2 −1)
12
mn(m+n+1)((m+n)2 −4)
180
m(m+n+2)
,
4
mn(m+n−2)(m+n+2)
,
48(m+n−1)
si m + n es par
si m + n es par
m(m+n+1)2
,
4(m+n)
mn(m+n+1)((m+n)2 +3)
,
48(m+n)2
si m + n es impar
Siegel - Tuckey
2(i ∧ (m + n + 1 − i)) −
1
2
1−(−1)i
2
de las Cuartilas
i
+ 12 sign(| 12 − m+n+1
| − 14 )
m(m+1)
2
+
si m + n es impar
mn(m+n+1)
12
mn
2
m(m+n−1)
2(m+n)
mn((m+n)2 −2(m+n)−1))
4(m+n)2 (m+n−1)
si m + n = 3 mod4
2km
, k = [(m + n)/4]
m+n
si m + n = 3 mod4
si m + n = 3 mod4
2kmn(m+n−2k)
(m+n)2 (m+n−1)
si m + n = 3 mod4
Savage
m+n
j=m+n+1−i
1
j
m
mn
m+n−1
1−
1
m+n
1
m+n
j
j=1
46
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
El siguiente programa enumera las combinaciones y calcula la distribución
de T , a partir de los datos m, n, p, donde p es un vector de m + n componentes que representa las componentes de ψ. El resultado es el vector “vcrit”,
cuyas componentes son los valores crı́ticos cα correspondientes a las regiones
de rechazo T < cα , para niveles α = 0.001, 0.005, 0.01, 0.025, 0.05, 0.1.
nu=m+n;
l=gamma(nu+1)/(gamma(m+1)*gamma(n+1));
t=zeros(1,l);
u=zeros(1,nu);
i=1;
h=[1:m];
t(1)=sum(p(h));
while h(1)<n+1
if h(m)<nu
h(m)=h(m)+1;
else
j=m-1;
while h(j)==n+j
j=j-1;
end
h(j)=h(j)+1;
for k=j+1:m
h(k)=h(k-1)+1;
end
end
i=i+1;
t(i)=sum(p(h));
end
t=sort(t);
vcrit=t(floor([.001 .005 .01 .025 .05 .1]*l)+1);
De este programa, por ejemplo, cuando se eligen m, n entre 2 y 10, y se
toma el vector p = (1, 2, . . . , m + n) − m+1
(1, 1, . . . , 1), que corresponde a la
2
Prueba de Mann y Whitney, se obtienen la Tabla 3.2.
El agregado al programa anterior de las lı́neas
a=m*sum(p)/nu;
b=m*n*(sum(p.^2)-(sum(p))^2/nu)/(nu*(nu-1));
x=[-3:.1:3];
y=a+sqrt(b)*x;
y el dibujo de las gráficas de (t, [0 : l]/l) y de (y, Φ(x)) permite comparar la
distribución de T con la distribución normal con la misma media y variancia.
Las Figuras 3.1 muestran los resultados en los casos m = 2, n = 3 y m =
10, n = 10.
Se observará que las tablas de la distribución bajo H0 del estadı́stico de
Mann y Whitney valen también para el de Wilcoxon, sumando a los valores
crı́ticos la constante m(m + 1)/2, y, por los comentarios de la sección precedente, también son utilizables para el estadı́stico de Siegel y Tuckey.
Licenciatura en Estadı́stica.
3.7. Acerca de la distribución de T cuando F = G.
47
Tabla 3.2: Valores crı́ticos cα de la Prueba de Mann y Whitney de nivel α, con
región crı́tica T < cα , para muestras de tamaños m y n.
m
n=2
n=3
n=4
n=5
2
3
4
5
6
7
8
9
10
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
0
0
0
0
1
1
2
2
3
0
0
0
1
2
2
3
4
5
2
3
4
5
6
7
8
9
10
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
2
2
0
0
0
1
2
2
3
4
4
0
0
1
2
3
4
5
6
7
2
3
4
5
6
7
8
9
10
0
0
0
0
0
0
1
1
1
0
0
0
1
2
2
3
3
4
0
0
1
2
3
4
5
5
6
0
1
2
3
4
6
7
8
9
2
3
4
5
6
7
8
9
10
0
0
0
1
1
1
2
2
2
0
1
1
2
3
3
4
5
5
0
1
2
3
4
5
6
7
8
1
2
3
5
6
7
9
10
12
2
3
4
5
6
7
8
9
10
0
1
1
2
2
2
3
3
4
1
2
2
3
4
5
6
6
7
1
2
4
5
6
7
8
10
11
2
3
5
6
8
9
11
13
14
n=6
n=7
α = 0.5%.
0
0
0
0
1
1
2
2
3
4
4
5
5
7
6
8
7
10
α = 1%.
0
0
0
1
2
2
3
4
4
5
5
7
7
8
8
10
9
12
α = 2.5%.
0
0
2
2
3
4
4
6
6
7
7
9
9
11
11
13
12
15
α = 5%.
1
1
3
3
4
5
6
7
8
9
9
12
11
14
13
16
15
18
α = 10%.
2
2
4
5
6
7
8
9
10
12
12
14
14
17
16
19
18
22
n=8
n=9
n = 10
0
0
2
3
5
7
8
10
12
0
1
2
4
6
8
10
12
14
0
1
3
5
7
10
12
14
17
0
1
3
5
7
8
10
12
14
0
2
4
6
8
10
12
15
17
0
2
4
7
9
12
14
17
20
1
3
5
7
9
11
14
16
18
1
3
5
8
11
13
16
18
21
1
4
6
9
12
15
18
21
24
2
4
6
9
11
14
16
19
21
2
5
7
10
13
16
19
22
25
2
5
8
12
15
18
21
25
28
3
6
8
11
14
17
20
23
25
3
6
10
13
16
19
23
26
29
4
7
11
14
18
22
25
29
33
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
48
Figura 3.1: Funciones de distribución del estadı́stico de Mann y Whitney para
muestras de tamaño 2 y 3 (izquierda) y 10 y 10 (derecha) y función de distribución normal, con iguales media y variancia.
3.7
Acerca de la distribución de T bajo la alternativa F = G.
Llamemos f , g a las densidades de F y G, respectivamente, que supondremos
que existen. En ese caso, las densidad conjunta del vector de los estadı́sticos
de orden (X(a) , . . . , X(m) , Y(a) , . . . , Y(m) ) en (x1 , . . . , xm , y1 , . . . , yn ) con x1 < x2
< . . . < xm , y1 < y2 < . . . < yn es m!n!f (x1 )f (x2 ) . . . f (xm )g(y1 )g(y2 ) . . . g(yn ).
Vamos a introducir el vector aleatorio U definido por U = (U1 , . . . , Um+n ),
Uj = 1{j∈{R(Xi ):i=1,2,...,m}} , a partir del cual T y su esperanza se escriben en la
forma:
T =
m+n
j=1
ψj Uj , ET =
m+n
ψj P{Uj = 1}.
j=1
Llamemos U al conjunto de los valores posibles del vector aleatorio U .
De acuerdo a su definición, U es la familia de todos los vectores de m + n
componentes, que tienen m de ellas iguales a 1 y las restantes iguales a 0.
Para calcular P{Uj = 1} vamos a evaluar primero P{U = u} para cada u ∈ U
y luego P{Uj = 1} = u∈U ,uj =1 P{U = u}.
Licenciatura en Estadı́stica.
3.7. Acerca de la distribución de T cuando F = G.
49
Para u ∈ U,
P{U = u} =
...
m!n!
m+n
t1 <t2 <...<tm+n
=
...
m!n!
t1 <t2 <...<tm+n
[(f (tj ) − g(tj ))uj + g(tj )]dtj
j=1
m+n
j=1
f (tj )
1+
− 1 uj g(tj )dtj .
g(tj )
(x)
En el caso particular fg(x)
= 1 + τ k(x) que corresponde a la hipótesis nula
f (x) = g(x) cuando τ = 0, y a alternativas próximas a la hipótesis nula para
τ pequeño, obtenemos, con el agregado del subı́ndice τ que pone de manifiesto
la dependencia respecto a este parámetro,
Pτ {U = u} =
...
m!n!
m+n
t1 <t2 <...<tm+n
[1 + τ k(tj )uj ] g(tj )dtj .
(3.4)
j=1
Aunque el cálculo de la probabilidad a partir de esta fórmula sólo parece
practicable para valores muy particulares de los integrandos, la derivada respecto de τ en τ = 0 tiene una expresión relativamente sencilla:


m!n! 
k(tj )uj 
∂Pτ {U = u} =
...
∂τ
τ =0
=
m+n
uj
m+n
t1 <t2 <...<tm+n
...
t1 <t2 <...<tm+n
j=1
m!n!k(tj )
j=1
m+n
m+n
g(tj )dtj
j=1
g(tk )dtk =
m+n
uj Ek(Z(j) ),
j=1
k=1
donde Z(1) , . . . , Z(m+n) es una muestra ordenada de tamaño m + n de la distribución G con densidad g.
De aquı́ resulta
m+n
∂Pτ {Uh = 1} ∂Pτ {U = u} =
=
uj Ek(Z(j) )
∂τ
∂τ
u∈U ,uh =1
u∈U ,uh =1 j=1
τ =0
τ =0
=
m+n
uj 1{uh = 1}Ek(Z(j) ) =
u∈U j=1
= uh Ek(Z(h) )
u∈U
1{uh = 1} +
j=h
m+n
uj Ek(Z(j) )
j=1
Ek(Z(j) )
u∈U
1{uh = 1}
u∈U
1{uh = 1, uj = 1}
m+n−1
m+n−2
= uh Ek(Z(h) )
+
Ek(Z(j) )
m−1
m−2
j=h
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
m+n−1
m+n−2
= uh Ek(Z(h) )
−
m−1
m−2
50
m+n
m+n−2
+
m−2
m+n
j=1
m+n−2
Ek(Z(j) ) = uh Ek(Z(h) )
,
m−1
m+n
porque j=1 Ek(Z
(j) ) =
j=1 Ek(Zj ) = (m + n)Ek(Zj ), y, por la definición
1 de k, Ek(Zj ) = τ (f (x)/g(x) − 1)g(x)dx = 0.
Como consecuencia,
m+n
∂ET m+n−2
=
ψ
.
j Ek(Z(j) )
m−1
∂τ τ =0
j=1
(3.5)
El resultado tiene interés, porque describe localmente, cuando f es próxima
a g, cómo varı́a la esperanza del estadı́stico T cuando f se aparta de g en una
dirección descrita por la función k.
Esta descripción correspondiente a un caso extremadamente particular
puede generalizarse. En efecto, cuando las densidades admiten un desarrollo de primer orden de la forma
f (x)
= 1 + τ k(x) + o(τ ),
g(x)
en las condiciones que se establecen con precisión en el siguiente enunciado, el
resultado del cálculo previo de la derivada de ET respecto de τ en τ = 0 sigue
siendo válido.
Teorema 3.7.1 Para cada τ en un entorno de 0, consideremos muestras aleatorias simples Y1 , . . . , Yn cuya distribución tiene densidad g y X1 , . . . , Xm con
densidad fτ , y supongamos que existen funciones K y k tales que
fτ (x)
g(x)
=1+
τ kτ (x)
,
2
(3.6)
limτ →0 (kτ (x) − k(x))2 g(x)dx = 0, |kτ | ≤ K(x) para todo x, y
K m (x)g(x)dx < ∞ para todo m.
(3.7)
T
Cuando se cumplen esas condiciones, vale la expresión (3.5) para ∂ E
∂τ
τ =0
.
Licenciatura en Estadı́stica.
3.8. Un criterio para la selección de ψ.
Ejemplo 3.7.1 Cuando g(x) = ϕ(x) =
fτ (x)
g(x)
=
2
√1 e−x /2
2π
51
y fτ (x) = g(x−t), entonces
e−(x−t)2 /2
2
= exτ /2−τ /4
2 /2
−x
e
y
kτ (x) =
2 xτ /2−τ 2 /4
2
1
2
(e
− 1) = (xτ /2 − τ 2 /4 + (xτ /2 − τ 2 /4)2 eλ(xτ /2−τ /4) )
τ
τ
2
= x − τ /2 + τ (x/2 − τ /4)2 eλ(xτ /2−τ
2 /4)
con 0 < λ < 1.
La función kτ (x) está uniformemente acotada en valor absoluto por K(x)
= |x| + (1/2) + (|x|/2 + 1/4)2 e|x|/2+1/4 para |τ | ≤ 1, y su lı́mite cuando τ
tiende a cero es k(x) = x, que difiere de kτ en valor absoluto en menos
de
m
2 |x|/2+1/4
|τ |(1/2+(x/2+1/4) e
cuando |τ | ≤ 1. La función K satisface K ϕ <
∞, como resulta inmediato
verificar
debido
a la rapidez con que ϕ tiende a
2
cero en infinito, y | (kτ − k) ϕ| ≤ |τ | (1/2 + (x/2 + 1/4)2 e|x|/2+1/4 )ϕ(x)dx
→ 0 cuando τ → 0.
2
Demostración del Teorema. El desarrollo (3.6) nos permite escribir
fτ (x) = g(x)(1 + τ kτ (x) + τ 2 kτ2 (x)/4)
y entonces la expresión (3.4) de Pτ {U = u} es reemplazada por
...
m!n!
t1 <...<tm+n
m+n
j=1
1
1 + (τ kτ (tj ) + τ 2 kτ2 (tj ))uj g(tj )dtj ,
4
y el cociente incremental puede escribirse en la forma
1
(Pτ {U = u} − P0 {U = u})
τ
=
...
m+n
t1 <...<tm+n j=1
[kτ (tj ) +
τ kτ2 (tj )Q(τ kτ (tj ))]uj
m!n!
g(tk )dtk ,
k
donde Q es un polinomio.
Las hipótesis permiten pasar al lı́mite cuando τ → 0 dentro de la integral,
de modo que
m+n
∂Pτ {U = u} =
uj Ek(Z(j) ),
∂τ
j=1
τ =0
donde Z(1) , . . . , Z(m+n) es, como antes, una muestra ordenada de tamaño m+n
de la distribución con densidad g. A partir de aquı́, se repiten sin modificación
los argumentos utilizados para el caso particular tratado inicialmente.
2
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
52
3.8
3.8.1
Un criterio para la selección de los coeficientes.
Coeficientes localmente óptimos.
Los coeficientes ψ = (ψ1 , . . . , ψm+n ) intervienen en los resultados obtenidos
previamente:
E0 T =
m
mn
Sψ , Var0 T =
SCDψ ,
m+n
(m + n)(m + n − 1)
(3.8)
m+n
m+n−2
∂Eτ T =
ψ
,
j Ek(Z(j) )
m−1
∂τ τ =0
j=1
(3.9)
2
donde Sψ es la suma de las componentes del vector ψ, SCDψ = m+n
j=1 ψj
m+n
−( j=1 ψj )2 /(m + n) es la suma de cuadrados de diferencias con la media de
las componentes del mismo vector, y los subı́ndices agregados a la esperanza y
a la variancia nos recuerdan a qué valor de τ corresponden las distribuciones
bajo las que se calculan esos momentos.
Un criterio adecuado para la selección de ψ es pedir que el sesgo de T , una
vez tipificada bajo la hipótesis nula, sea lo mayor posible, al menos localmente,
cerca de τ = 0. Para obtenerlo, pediremos que la derivada respecto de τ de la
variable tipificada (Var0 T )−1/2 (T − E0 T ) sea lo más grande posible en valor
absoluto, esto es, buscaremos ψ que maximice
(Var0 T )−1
∂Eτ T ∂τ τ =0
2
=
m+n
j=1
ψj Ek(Z(j) )
m+n−2
m−1
mn
SCDψ
(m+n)(m+n−1)
2
.
El denominador no varı́a cuando a cada componente de ψ se agrega o
sustrae una constante, dado que sólo intervienen las diferencias de cada componente de ψ con el promedio de todas ellas, pero tampoco el numerador varı́a,
porque la suma de las esperanzas Ek(Zj ) es nula, como observamos más arriba.
Por lo tanto, podemos limitarnos a buscar soluciones para las que Sψ = 0, y
en ese caso la suma de cuadrados de diferencias que aparece en el cociente se
2
reduce a SCDψ = SCψ = m+n
j=1 ψj .
Tampoco varı́a el cociente cuando cada componente de ψ se multiplica
por una misma constante, porque tanto el numerador como el denominador
son homogéneos de segundo orden. Esto nos permite agregar la condición
m+n 2
j=1 ψj = 1, por ejemplo, sin alterar el máximo.
Licenciatura en Estadı́stica.
3.9. Distribución asintótica.
53
Encontramos entonces que los coeficientes que maximizan el sesgo relativo
del estadı́stico T son los que maximizan el producto interno m+n
j=1 ψj Ek(Z(j) )
∗
de los vectores ψ y κ = (Ek(Z(1) ), . . . , Ek(Z(m+n) )).
vectores ψ de norma
La solución a este problema es inmediata: De todos los
m+n
m+n 2
j=1 ψj = 1, ortogonales a 1 = (1, 1, . . . , 1) (ya que
j=1 ψj = 1), el que
∗
tiene mayor producto interno con κ es el que minimiza el ángulo (ψ, κ∗ ). Dado
que también κ∗ es ortogonal a 1, el vector ψ que minimiza el ángulo es el propio
κ∗ normalizado:
ψ̂ = κ∗ /||κ∗ ||.
En virtud de las observaciones anteriores, cualquier vector con componentes
ψj = a + bEk(Zj )
con a, b constantes cualesquiera, produce el mismo valor máximo del sesgo
relativo local.
Ejemplo 3.8.1 Como consecuencia del criterio precedente, se verifica que la
prueba de Fisher y Yates tiene los coeficientes localmente óptimos para detectar
desplazamientos a partir de una distribución normal.
2
3.8.2
Coeficientes aproximadamente óptimos.
Dado que las variables Z(j) pueden obtenerse mediante la transformación Z(j)
= G−1 (U(j) ), con U(1) , . . . , U(m+n) muestra ordenada de la distribución unij(m+n+1−j)
forme en (0, 1), y que VarU(j) = (m+n)
2 (m+n+1) → 0 cuando m + n → ∞ es de
j
esperar que U(j) sea próximo a su esperanza m+n+1
, y que Z(j) sea próximo a
j
−1
G ( m+n+1 ), de modo que, si k es suficientemente regular, se cumplirá aproxj
), con k(z) = κ(G(z)). Por lo tanto, una
imadamente Ek(Z(j) ) ≈ κ( m+n+1
versión aproximada de los coeficientes óptimos según el criterio de la sección
j
anterior es ψj = a + b κ( m+n+1
).
1 m+n
En este caso, m+n j=1 ψj ≈ a + b 01 κ(u)du.
Ejemplo 3.8.2 Como consecuencia, la prueba de van der Waerden tiene coeficientes aproximadamente óptimos para detectar desplazamientos a partir de
una distribución normal.
2
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
54
3.9
Distribución asintótica de los estadı́sticos
de rangos lineales.
3.9.1
Distribución bajo H0 : “F = G = F0 ”
Cuando los coeficientes ψj son de la forma
j
,
ψj = ψ
m+n+1
(3.10)
para alguna función adecuada ψ, el estadı́stico T =
cribirse en la forma
T =m
m
i=1
ψR(Xi ) puede es-
mFm (t) + nGn (t)
ψ
dFm (t),
m+n+1
(3.11)
donde Fm (t) = m1 m
i=1 1{Xi ≤t} es la función de distribución empı́rica de X1 ,
. . ., Xm . En efecto, integrar respecto de dFm equivale a sumar el integrando
evaluado en cada Xi y dividir por m. Por otra parte, el rango de Xi es
precisamente mFm (Xi ) + nGn (Xi ), donde Gn (t) = n1 nj=1 1{Yj ≤t} es la función
de distribución empı́rica de Y1 , . . . , Yn , y esto muestra la validez de (3.11).
Supondremos, sin pérdida de generalidad, ya que
los ψj pueden reem1
plazarse
sin
cambiar
la
información
por
a
+
bψ
,
que
ψ(u)du
= 0, y también
j
0
1 2
que 0 ψ (u)du = 1.
√
El puente empı́rico bX
m(Fm (t) − F (t)) converge a un F -puente
m (t) =
browniano bF , que puede escribirse en la forma bF (t) = bX (F (t)) donde bX es
un puente browniano tı́pico. De la misma manera, el puente empı́rico bYn (t) =
√
m(Gn (t) − G(t)) converge a un G-puente browniano bG , independiente de
bF , que puede escribirse en la forma bG (t) = bY (G(t)) donde bY es un puente
browniano tı́pico independiente de bX .
Usaremos los desarrollos
√
√
Y
Fm (t) = F0 (t) + bX
(t)/
m,
G
(t)
=
F
(t)
+
b
(t)/
m,
n
0
m
n
para escribir
T
m
mF0 (t) +
√
√
=
ψ
m+n
m+n
√
mbX
m (t) + nF0 (t) +
m+n+1
1
× dF0 (t) + √ dbX
(t)
m m
√
nbYn (t)
Licenciatura en Estadı́stica.
55
3.9. Distribución asintótica.
√
√ X
m
mbm (t) + nbYn (t) − F0 (t)
=√
ψ F0 (t) +
− ψ(F0 (t)) dF0 (t)
m+n+1
m+n
√
√ X
m mbm (t) + nbYn (t) − F0 (t)
+
ψ F0 (t) +
dbX
m (t)
m+n
m+n+1
√
√ X
mbm (t) + nbYn (t) − F0 (t)
m
ψ F0 (t) + λ
=√
m+n+1
m+n
√ Y
√ X
mbm (t) + nbn (t) − F0 (t)
×
dF0 (t)
m+n+1
m ψ(F0 (t))dbX
+
m (t)
m+n
√
√ X
m mbm (t) + nbYn (t) − F0 (t)
+
ψ F0 (t) + λ
m+n
m+n+1
√ X
√ Y
mbm (t) + nbn (t) − F0 (t) X
×
dbm (t)
m+n+1
En esta última expresión se ha utilizado la condición ψ(F0 (x))dF0 (x) = 0,
m
que hace desaparecer el término cuyo coeficiente √m+n
tiende a infinito cuando
m, n → ∞.
Si bien no haremos un razonamiento riguroso, que requiere imponer alguna
condición de regularidad a la función ψ, resulta plausible que, para ψ suficientemente regular, la distribución asintótica de esta expresión cuando m, n
m
n
tienden a intinito de modo que m+n
→ µ, m+n
→ ν, es la de
√
µ µ
√ bX (F0 (t))dψ(F0 (t)) + µ ν bY (F0 (t))dψ(F0 (t))
√
+ µ
√
1
=µ µ
0
=
ψ(F0 (t))dbX (F0 (t))
1
√ 1
√
bX (u)dψ(u) + µ ν
bY (u)dψ(u)] + µ
ψ(u)dbX (u)
√
=
µ(1 − µ)
√
1
µν
0
1
0
0
ψ(u)dbX (u) −
ψ(u)dwX (u) −
√
√
1
νµ
1
νµ
0
0
0
ψ(u)dbY (u)
ψ(u)dwY (u),
porque los puentes pueden expresarse en la forma bX (u) = wX (u) − uwX (1),
bY (u) = wY (u) − uwY (1), a partir de dos procesos
de Wiener tı́picos indepen1
1
dientes wX , wY , y las
integrales 0 ψ(u)dbX (u), 0 ψ(u)dwX (u) coinciden, ya
que difieren en w(1) 01 ψ(u)du, que vale cero.
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
56
Las variables gaussianas 01 ψ(u)dwX(u), 01 ψ(u)dwY (u) son independientes, con esperanzas nulas y variancias 01 ψ 2 (u)du = 1, de modo que la disT
tribución asintótica de √m+n
bajo H0 es normal, con esperanza cero y variancia
2
2
µ ν + µν = µν.
3.9.2
Distribución bajo alternativas contiguas.
Cuando
√ para cada n, las variables X1 , . . ., Xm tienen densidad fτ con τ
= δ/ m + n, las variables Y1 , . . ., Yn tienen densidad g, y estas densidades
cumplen las condiciones del Teorema 3.7.1, excepto (3.7) que basta que se
cumpla para m = 2, decimos que estamos en presencia de alternativas
con 2
tiguas.
La
función
k
del
enunciado
del
mismo
Teorema
cumple
k
(x)dF
0 (x)
2
≤
K (x)dF0 (x) < ∞. La escribiremos en la forma k(x) = cκ(F0 (x)), con
1 2
0 κ (u)du = 1. A los productos δck y δcκ los llamaremos apartamiento
asintótico y apartamiento asintótico tipificado de la sucesión de alternativas. El
producto δc da el tamaño de los apartamientos y las funciones k y κ, describen
su forma.
El llamado Tercer Lema de Le Cam indica que bajo las condiciones de
contigüidad, la distribución asintótica de los procesos empı́ricos es la misma
que bajo la hipótesis nula, más un sesgo que podemos calcular directamente:
Con nuestra notación asimétrica en que dejamos G constante igual a F0 ,
)
(g = f0 ) el sesgo asintótico de b(Y
es nulo, mientras que el de b(X)
n
m está dado
por
√
√ x
(X)
Ebm (x) = m(Fm (x) − F0 (x)) = m
(fδc/√m+n (x) − f0 (x))dx
=
√
x
−∞

→
√
x
µδc
−∞
κ(F0 (t))dF0 (t) =
√
u
µδc
De aquı́ resulta que la distribución lı́mite de
√

2 √
(x)
δckδc/√m+n (x) δ 2 c2 kδc/
m+n

 f0 (x)dx
√
m
+
4(m + n)
m+n
−∞
1
µν
0
ψ(u)(dwX (u) +
√
µδcκ(s)ds) −
∼ Normal(0, µν) + µνδc
−∞
√T
m+n
√
κ(s)ds
es la de
1
νµ
0
ψ(u)dwY (u)
1
ψ(u)κ(u)du.
(3.12)
0
Esta expresión corresponde a la sucesión de alternativas contiguas, y también a la hipótesis nula, cuando se elige δ igual a cero.
Licenciatura en Estadı́stica.
3.10. Criterio alternativo para la selección de ψ.
3.9.3
57
Un criterio alternativo para la selección de los coeficientes.
A partir de (3.12), encontramos que el sesgo
del estadı́stico T es máximo
cuando ψ se elige de modo que la integral 01 ψ(u)κ(u)du sea máxima. De
todas las funciones ψ con integral nula y con integral del cuadrado igual a 1,
la que maximiza
la integral del producto con κ es proporcional a κ, a saber,
ψ̂(u) = κ(u)/
κ2 (s)ds.
Este resultado es asintóticamente equivalente al de los criterios de selección
de ψ considerados previamente.
Las tablas de las secciones siguientes, indican los valores de la función κ
para
algunas alternativas de interés. La constante c se ha elegido para que
1 2
0 κ (s)ds = 1. De esta manera, ψ̂ = κ.
Observemos que los criterios ψ̂ = κ encontrado en esta sección y ψj =
j
a + b κ( m+n+1
) obtenido en §3.8.2 coinciden, en virtud de (3.10), ya que coeficientes que difieren en posición o escala conducen a pruebas esencialmente
equivalentes.
3.10
La eficacia de un estadı́stico.
Cuando la sucesión de estadı́sticos Tm,n correspondientes a muestras de tamaños m, n tiene una distribución asintótica como la indicada en (3.12), hemos observado que conviene elegir los coeficientes ψ, a igualdad de otros parámetros,
de manera que maximicen el sesgo que produce cuando vale la alternativa,
respecto de la distribución correspondiente a la hipótesis nula. Esto se debe,
en particular, a que en ambos casos la variancia asintótica del estimador es la
misma.
Para cuantificar la sensibilidad de una sucesión de estadı́sticos Tm,n frente
a cierta sucesión de alternativas para las cuales el comportamiento asintótico
tiene la forma de (3.12), utilizaremos la diferencia de las esperanzas correspondientes a la alternativa y a la hipótesis nula, del estadı́stico tipificado.
En el caso (3.12) el cuadrado de esta diferencia o sesgo tipificado vale
1
(E(Tm,n |Hm,n ) − E(Tm,n |H0 ))2
ψ(u)κ(u)du
lim
= µν δc
m,n→∞
Var(Tm,n |H0 )
0
2
.
Cuando se comparan dos estadı́sticos lineales de rangos para la detección
de las mismas alternativas, con muestras de iguales tamaños, la relación entre estos sesgos tipificados depende de los coeficientes ψ elegidos. Llamamos
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
58
eficacia relativa del estadı́stico con coeficientes ψ respecto del estadı́stico con
coeficientes ψ para las alternativas con apartamiento asintótico tipificado κ al
cociente entre los cuadrados de los sesgos tipificados del primero respecto del
último, que vale
1
2
0 ψ (u)κ(u)du
e.r.κ (ψ , ψ) = 1
0 ψ(u)κ(u)du
Con la convención ψ2 = 01 ψ 2 (u)du = 1, la selección de ψ que produce la
máxima eficacia es ψ = κ. Llamaremos eficacia del estadı́stico con coeficientes
ψ a su eficacia relativa al estadı́stico que maximiza el sesgo, es decir,
1
0
eκ (ψ ) =
ψ (u)κ(u)du
1
2
0 κ (u)du
2
1
=
ψ (u)κ(u)du
2
,
0
porque 01 κ2 (u)du = 1.
Dadas dos sucesiones de alternativas
con apartamientos asintóticos tipi1
ficados κ y κ , el producto interno 0 κ(u)κ (u)du nos indica la eficacia del
estadı́stico lineal de rangos óptimo para una de ellas, respecto de la otra. En
la próxima sección describimos algunas sucesiones particulares de alternativas, sus apartamientos asintóticos, e indicaremos también algunos de estos
productos internos que nos muestran hasta qué punto un estadı́stico diseñado
para detectar de manera óptima cierta alternativa, resulta apto para detectar
también otras.
3.11
Algunos ejemplos de alternativas contiguas y sus apartamientos asintóticos.
3.11.1
Alternativas de cambio de posición.
Si F0 (con densidad f0 respecto de cierta medida µ) es la distribución de
(X1 , . . . , Xn ) bajo H0 , tomaremos H1 : “F = F0 (·− √δcn )”. Como consecuencia,
la densidad asociada a H1 es fn = f0 (· − √δcn ), y entonces


√
δc
√
f0 (x)
2 n 

f0 (x − n )
k(x) = lim kn (x) = lim
−
1
.

 = −c
n→∞
n→∞ δ
f0 (x)
f0 (x)
El coeficiente c =
−1/2
(f0 (x))2
dµ(x)
f0 (x)
se elige para que k = 1.
Licenciatura en Estadı́stica.
3.11. Ejemplos de alternativas contiguas.
59
La Tabla 3.3 indica los valores de c, k(x) = κ(F0 (x)) y κ(u) correspondientes
a algunas distribuciones. Excepto la última (distribución de Cauchy) que no
tiene momentos finitos, las distribuciones se han tomado centradas en cero y
con variancia uno, para su normalización. La Figura 3.11.1 permite comparar
entre sı́ los apartamientos correspondientes a cada una de las distribuciones.
3.11.2
Alternativas de cambio de dispersión.
Nuevamente suponemos que F0 con densidad f0 respecto de µ es la distribución
asociada a H0 , y tomamos H1 : “F = F0 ((1 + √δcn )·). La densidad asociada a
H1 es fn (x) = (1 + √δcn )f0 ((1 + √δcn )x) y


√
δc
√
δc f0 (x)
2 n

f0 ((1 + n )x)
k(x) = lim
,
− 1 = c 1 + x
 1+ √
n→∞ δ
n
f0 (x)
f0 (x)
f (x)
con c tal que c2 (1 + x f00 (x) )2 f0 (x)dµ(x) = 1. Para las mismas distribuciones
de la Tabla 3.3, los nuevos c, k(x), κ(x) se indican en la Tabla 3.4.
3.11.3
Pruebas óptimas para cambios de posición.
De acuerdo a los criterios de §3.8.1, la prueba localmente óptima para desplazamientos de distribuciones normales es la que tiene coeficientes proporcionales
a Eκ(Φ−1 (U(i) )), con κ = κnorm indicada en la primera lı́nea de la Tabla 3.3.
Se trata por lo tanto de la Prueba de Fisher y Yates indicada en la primera
lı́nea de la Tabla 3.1.
La prueba de van der Waerden indicada en la segunda lı́nea de la misma
tabla es la que hemos llamado aproximadamente óptima en §3.8.2, para las
mismas alternativas.
Los apartamientos asintóticos tipificados para desplazamientos
de distribu√
ciones logı́sticas son proporcionales a la abscisa (κlog = 3(2u − 1)), a menos
de cambios en posición o escala. Esto implica que las pruebas con coeficientes
de la misma forma, a saber, la de Wilcoxon o la de Mann y Whitney, son las
óptimas. Dado que en este caso κ es un polinomio de primer grado, coinciden
Eκ(U(i) ) y κ(EU(i) ), por lo que coinciden las pruebas localmente óptimas con
las aproximadamente óptimas.
Los apartamientos asintóticos para las distribuciones doble-exponenciales
son κde = sgn(u − 12 ), y esto implica que la Prueba de la Mediana es aproximadamente óptima para desplazamientos de estas distribuciones.
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
60
Tabla 3.3: Apartamientos asintóticos para alternativas de cambio de posición.
Normal: φ(x)
2
= √1 e−x /2
2π
Doble exponencial:
√
− 2|x|
fDE (x) = e √
2
Logı́stica: f√LG (x)
π eπx/ 3
√
3
√
=
(1+eπx/ 3 )2
Cauchy: fCA (x)
1
= π(1+x
2)
f (x)
f0 (x)
c
k(x) = −c f0 (x)
κ(u) = k(F0−1 (u))
−xφ(x)
1
x
κnorm = Φ−1 (u)
√
−sgn(x) 2fDE (x)
1
√
2
sgn(x)
κde = sgn(u − 12 )
3
π
√ eπx/√3 −1
3 πx/√3
e
+1
f0 (x)
√
√
π 2 eπx/ 3 (1−eπx/ 3 )
3(1+e
√
πx/ 3 )3
√
−2x
π(1+x2 )2
0
√
2 2x
1+x2
2
κlog =
κc =
√
√
3(2u − 1)
2 sin π(2u − 1)
3
2
1
0
-1
-2
-3
0
0.2
0.4
0.6
0.8
1
Figura 3.2: Apartamientos normalizados (κ(u), 0 ≤ u ≤ 1) para cambios en
posición (—: normal, · · ·: logı́stica, - - -: doble exponencial, -·-·: Cauchy).
Licenciatura en Estadı́stica.
3.11. Ejemplos de alternativas contiguas.
61
Tabla 3.4: Apartamientos asintóticos para alternativas de cambio de dispersión.
Distribución
c
Normal
1
√
2
Doble exponencial
1
Logı́stica
√ 3
3+π 2
√
2
Cauchy
k(x)
1
√
(1 −
2 √
κ(u)
√1 (1
2
x2 )
1−
√
2|x| √
πx eπx/√3 −1
−√
)
3 eπx/ 3 +1
√ 1−x2
2 1+x2
3
(1
3+π 2
− (Φ−1 (u))2 )
1 + log(1 − |2u − 1|)
√
3
(1
3+π 2
√
− (2u − 1) log
u
))
1−u
2 cos π(2u − 1)
2
0
-2
-4
-6
-8
0
0.2
0.4
0.6
0.8
1
Figura 3.3: Apartamientos normalizados (κ(u), 0 ≤ u ≤ 1) para cambios en
dispersión (—: normal, · · ·: logı́stica, - - -: doble exponencial, -·-·: Cauchy).
62
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
La vinculación exacta entre otras pruebas y las alternativas para las que
resultan óptimas no resulta evidente de la información contenida en las Tablas
3.1, 3.3 y 3.4.
La vinculación entre las Pruebas de Fisher y Yates y van der Waerden con
las alternativas de desplazamientos de la distribución normal luce muy natural.
La distribución normal tiene un uso muy extendido, y resulta razonable el
diseño de pruebas que reflejen adecuadamente alternativas de desplazamientos
de muestras normales. De la misma manera, resulta razonable el diseño de
pruebas sensibles al cambio de dispersión entre muestras normales, y ası́ han
surgido las pruebas de Capon y de Klotz, a las que hacen referencia los ejemplos
que siguen.
No ocurre lo mismo con las prueba de Wilcoxon o de Mann y Whitney,
porque la distribución logı́stica no tiene un uso tan frecuente, o, al menos,
no lo tenı́a cuando estas pruebas fueron propuestas. La elección de los coeficientes ψ iguales al rango (eventualmente a menos de cambios en posición
y escala) se debe a su simplicidad. De no haber estado familiarizados con la
distribución logı́stica no habrı́amos reconocido el vı́nculo entre esa distribución
y esas pruebas, y habrı́amos debido buscarlo resolviendo el problema inverso
de la determinación de los coeficientes ψ óptimos para una alternativa dada,
es decir, dados los coeficientes {ψj : j = 1, 2, . . . , m + n} ¿cuáles alternativas
refleja de manera óptima la prueba basada en T = m
i=1 ψR(Xi ) ? El problema
no está completamente determinado, pero el Ejemplo 3.11.3 lo resuelve en el
caso de la Prueba de Wilcoxon, al menos parcialmente.
Ejemplo 3.11.1 Prueba de Capon. De la Tabla 3.4 surge que el apartamiento
asintótico correspondiente a los cambios de dispersión de la distribución normal
es √12 (1 − (Φ−1 (u))2 ), de manera que la prueba con ψi = E(Φ−1 (U(i) ))2 es
localmente óptima.
2
Ejemplo 3.11.2 Prueba de Klotz.Si en vez de los coeficientes localmente óptimos utilizamos los aproximados, en la misma situación que da lugar a la
Prueba de Capon, obtenemos los coeficientes ψi = Φ−1 (i/(m + n + 1)).
2
Ejemplo 3.11.3 ¿Para muestras de qué distribuciones, resulta óptima la prueba de Wilcoxon para detectar desplazamientos relativos? Reemplacemos la
pregunta por la siguiente: ¿Para qué densidad f se obtiene un apartamiento
asintótico tipificado κ(u) proporcional a u, a menos de cambios en posición o
escala?
1
1 2
Dado
√ que κ debe cumplir 0 κ(u)du = 0, 0 κ (u)du = 1, encontramos
κ(u) = 3(2u − 1).
Licenciatura en Estadı́stica.
3.11. Ejemplos de alternativas contiguas.
63
(x)
Las expresiones k(x) = −c ff (x)
, κ(u) = k(F −1 (u)) vinculan el dato κ con
las incógnitas F, F = f . Al reemplazar κ por su valor encontramos la siguiente
ecuación diferencial:
√
f (x)
3(2F (x) − 1) = −c
.
f (x)
√
Una primera integración nos lleva a 3(F 2 (x) − F (x)) = −cf (x) + c1 , o
bien
f (x)
c2 =
,
F (x)(1 − F (x)) + c3
donde c2 y c3 son constantes vinculadas a c y c1 .
Para que la integral de f resulte finita, es necesario elegir c3 = 0, y entonces
la ecuación se escribe en la forma
f (x)
f (x)
+
= c2 ,
F (x) 1 − F (x)
que, integrada, nos da
log
F (x)
= c2 x + c4
1 − F (X)
y por consiguiente F (x) = (1 − F (x))c5 ec2 x , F (x) =
distribución logı́stica.
3.11.4
c5 e c3 x
,
1+c5 ec3 x
y esta es una
2
Cálculo de algunas eficacias.
La Tabla 3.5 indica los cuadrados de los productos internos de los apartamientos asintóticos que figuran en las Tablas 3.3 y 3.4, con las funciones ψ que
se indican en la misma Tabla 3.5, y que determinan los coeficientes de las
pruebas de van der Waerden, de Wilcoxon, de la mediana, de Klotz, de Mood,
de Ansari - Bradley, y de las cuartilas. Las funciones ψ están normalizadas
por un cambio de posición y escala, de modo que cumplan las condiciones
1
1 2
0 ψ(u)du = 0, 0 ψ (u)du = 1.
Enrique M. Cabaña.
Capı́tulo 3: Estadı́sticos de rangos lineales.
64
1
Tabla 3.5: Valores de (
0
κ(u)φ(u)du)2 .
κ(u), 0 < u < 1 (alternativas√de dezplazamiento)√
sgn(u − 12 )
3(2u − 1)
2 sin π(2u − 1)
ψ(u)
Φ−1 (u)
Φ−1 (u)
sgn(u − 12 )
√
3(2u − 1)
1
2/π = .6366
3/π = .9549
2/π = .6366
1
3/4 = .75
3/π = .9549
3/4 = .75
1
.4303
.8106
.6079
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1−(Φ−1 (u))2
√
2
√
1 2
4
√ 5(u − 2 )
2 3u ∧ (1 − u)
1 − 21{1<4u<3}
κ(u), 0 < u < 1 (alternativas de cambio de dispersión)
u ))
√
3(1−(2u−1) log 1−u
√
1 + log(1 − |2u − 1|)
2 cos π(2u − 1)
2
ψ(u)
1−(Φ−1 (u))2
√
2
Φ−1 (u)
sgn(u
− 12 )
√
3(2u − 1)
0
0
0
0
0
0
0
0
0
0
0
0
1
.9765
.9771
.5508
2 3u ∧ (1 − u)
1 − 21{1<4u<3}
.3377
.1520
.3675
.3858
.1875
.4804
.3885
.1831
.4748
.4106
.2464
.8106
1−(Φ−1 (u))2
√
2
√
2
2(u
− 12 )2
√
3+π
Capı́tulo 4
Comparación de varias
muestras.
4.1
Problema de varias muestras.
Consideramos ahora k muestras aleatorias simples, independientes entre sı́,
de las distribuciones Fi , i = 1, 2, . . . , k. Llamamos Xi,1 , Xi,2 , . . . , Xi,ni a los
elementos de la i-ésima muestra. Llamamos problema de k muestras al que
consiste en probar la hipótesis nula H0 : F1 = F2 = . . . = Fk .
Vamos a considerar pruebas basadas en los rangos de cada uno de los
elementos de las muestras, en el conjunto formado por el agregado de todas
las muestras.
i
Los estadı́sticos lineales de rangos Ti = nj=1
ψR(Xi,j ) calculados para cada
una de las muestras se distribuyen bajo H0 de la misma manera que T (ver
(3.1)), en el caso de dos muestras, con la i-ésima muestra en el lugar de la
primera, y la unión de las restantes, en el lugar de la segunda. Con N =
i ni − ni , ponemos ni en el lugar de m y N − ni en el de n. No es necesario
hacer ningún cálculo nuevo para encontrar, aplicando
el Teorema 3.2.1, que
ni (N −ni ) N
1 N
2
2
bajo H0 ETi = nNi N
ψ
,
y
que
VarT
=
ψ
−
(
ψ
)
.
i
j=1 j
j=1 j
j=1 j
N (N −1)
N
Además, para h = i, tomando como primera muestra el conjunto de las
muestras h-ésima e i-ésima, tenemos que
Var(Th + Ti ) =
con SSψ =
N
j=1
ψj2 , Sψ =
(nh + ni )(N − nh − ni )
(SSψ − Sψ2 /N ),
N (N − 1)
1
N
N
j=1
ψj . Como, por otra parte,
Var(Th + Ti ) = VarTh + VarTi + 2Cov(Th , Ti ),
65
Enrique M. Cabaña.
Capı́tulo 4: Comparación de varias muestras.
66
deducimos que
SSψ − Sψ2 /N
Cov(Th , Ti ) = ((nh + ni )(N − nh − ni ) − nh (N − nh ) − ni (N − ni ))
2N (N − 1)
=−
nh ni
(SSψ − Sψ2 /N ).
N (N − 1)
Con las abreviaturas T = (T1 , T2 , . . . , Tk )tr , n= (n1 , n2 , . . . , nk )tr , p =
n/N , Σ = (diagp − pptr ) tenemos bajo H0 :
ET =
N
n
Sψ , VarT =
Σ(SSψ − Sψ2 /N ).
N
N −1
La distribución asintótica, como en el caso de dos muestras, es también
normal, y se puede deducir de la misma manera. Como consecuencia,
N −1
n
T − Sψ
2
N (SSψ − Sψ /N )
N
tiene distribución asintótica Normal(0, Σ).
Los mismos argumentos utilizados al estudiar la Prueba χ2 permiten concluir que
N −1
n
n
K=
T − Sψ (diagp)−1 T − Sψ
2
N (SSψ − Sψ /N )
N
N
tr
tiene distribución asintótica χ2 con k − 1 grados de libertad.
Kruskal y Wallis propusieron el uso del estadı́stico K para el caso particular
que generaliza la prueba de Wilcoxon. En ese caso Sψ = N (N + 1)/2, SSψ
= N (N + 1)(2N + 1)/6, SSψ − Sψ2 /N = N (N + 1)(2N + 1)/6 − N (N + 1)2 /4
1
= 12
(N + 1)(2N (2N + 1) − 3N (N + 1)) = N (N − 1)(N + 1)/12,
N
N
12
(Ti − ni (N + 1)/2)2
K= 2
N (N + 1) i=1
ni
=
N
Ti2
12
− 3(N + 1).
N (N + 1) i=1 ni
Kruskal y Wallis proporcionaron tablas para el cálculo del nivel de regiones
de la forma K >constante. Pueden obtenerse también de manera exacta mediante un cálculo combinatorio o de manera aproximada mediante simulaciones.
Descargar