σ μ σ μ μ μ δ

Anuncio
Tests de Hipótesis basados en dos muestras.
ESTADÍSTICA (Q)
Dra. Diana Kelmansky
173
24 MUESTRAS GRANDES
24. 1 Caso general
Modelo:
X1 , L , X n
2
⎧⎪E(X i ) = μ X Var(X i ) = σ X
⎫
⎬ independientes con ⎨
⎭
⎪⎩E(Yi ) = μ Y Var(Yi ) = σ Y2
i.i.d
Y1 , L , Ym
i.i.d
Si n y m son suficientemente grandes
(X − Y ) − ( μ X − μ Y )
S X2
n
+
S Y2
a
~ N (0,1)
m
Por lo tanto un Intervalo de Confianza de nivel aproximado 1−α para μX − μY
está dado por
(X − Y) ± z α/2
s 2X
n
+
sY2
m
Un test para la hipótesis nula: H0: μX - μY = δ estará basado en el siguiente
Estadístico del test
Z=
(X − Y) − δ
S X2
n
+
S Y2
a
~ N (0,1)
bajo
H0
m
Región de rechazo de nivel aproximado α para cada tipo de hipótesis alternativa y
su p-valor
Tipo de
Hipótesis alternativa
a) Ha: μX - μY ≠ δ
Región de Rechazo
de nivel aproximado α
Z ≥ z α /2
p-valor
p = 2 P(Z≥ |Zobs|)
b) Ha: μX - μY > δ
Z ≥ zα
p = P(Z ≥ Zobs)
c) Ha: μX - μY < δ
Z ≤ −z α
p = P(Z ≤ Zobs)
Tests de Hipótesis basados en dos muestras.
ESTADÍSTICA (Q)
Dra. Diana Kelmansky
174
24. 2 Tests e intervalos de confianza para la diferencia de proporciones
Modelo:
X1 , L , X n
⎫
⎬ independientes
⎭
i.i.d Bi (1, p X )
Y1 , L , Ym
i.i.d Bi (1, p Y )
Si n y m son suficientemente grandes
(X − Y) − ( p X − p Y )
X (1 − X ) Y (1 − Y )
+
n
m
a
~ N (0,1)
Por lo tanto un Intervalo de Confianza de nivel aproximado 1−α para pX − pY
está dado por
X (1 − X ) Y (1 − Y )
+
n
m
(X − Y) ± z α/2
Un test para la hipótesis nula: H0: pX - pY = 0 estará basado en el siguiente
Estadístico del test
Z=
( X − Y) − 0
1 1
Sp
+
n m
a
~ N (0,1)
bajo
H0
Como bajo H0 la varianza de las X’s es igual a la varianza de las Y’s para estimar la
varianza común se utiliza un promedio pesado de los estimadores de las varianzas
en cada grupo, esto es:
n X (1 − X ) + mY (1 − Y )
S 2p =
n+m-2
Región de rechazo de nivel aproximado α para cada tipo de hipótesis alternativa y
su p-valor
Tipo de
Hipótesis alternativa
a) Ha: pX - pY ≠ 0
Región de Rechazo
p-valor
de nivel aproximado α
p = 2 P(Z≥ |Zobs|)
Z ≥ z α /2
b) Ha: pX - pY > 0
Z ≥ zα
c) Ha: pX - pY < 0
Z ≤ −z α
p = P(Z ≥ Zobs)
p = P(Z ≤ Zobs)
Tests de Hipótesis basados en dos muestras.
ESTADÍSTICA (Q)
Dra. Diana Kelmansky
175
Consideraciones sobre los supuestos de los tests e intervalos de confianza, basados en
muestras independientes, para la diferencia de medias.
1. Los tests basados en la distribución t suponen que los datos de cada muestra
provienen de una distribución Normal.
2. Es aconsejable evaluar el supuesto de Normalidad mediante un test, por ejemplo
el test de Shapiro-Wilk.
3. Alejamientos moderados de la distribución normal no modifican fuertemente las
conclusiones de los tests t.
4. El test t para dos muestras independientes es extremadamente sensible a la
heterogeneidad de varianzas cuando los tamaños de las muestras son muy
diferentes.
5. Si falla el supuesto de normalidad pero ambas muestras tienen tamaño
suficientemente grande entonces, por el Teorema Central del Límite, se pueden
utilizar los tests con nivel aproximado basados en la distribución Normal.
6. El test F para igualdad de varianzas es MUY SENSIBLE a alejamientos de la
hipótesis de normalidad, mucho más que el test t. Por lo tanto si los datos
sugieren algunas dudas respecto de la normalidad y presentan evidencias de
diferencias en las varianzas (por ejemplo, una desviación estándar es más que el
doble de la otra) y los tamaños de muestras son muy diferentes, es preferible usar
el test de Welch para varianzas distintas.
7. El supuesto de que las observaciones son independientes es muy difícil de
verificar. Depende del diseño de la investigación y del procedimiento de
recolección de los datos. Cuando este supuesto no se cumple no son válidos los
métodos presentados ni los que vamos a presentar.
Igual que en el caso de una muestra, si los datos se alejan fuertemente de la
distribución normal y la cantidad de datos de alguna de las muestras es pequeña la
alternativa es usar procedimientos no paramétricos.
25. TESTS NOPARAMÉTRICOS para dos muestras independientes
En el test de t para dos muestras se comparan las medias muestrales de dos
conjuntos de datos y se establece si la diferencia es estadísticamente significativa o
es atribuible al azar. Veremos a continuación un procedimiento que en vez de
realizar los cálculos sobre los datos utiliza los rangos de los mismos datos en una
muestra combinada ordenada de menor a mayor. El estadístico del test es
equivalente a comparar las medias de los rangos de cada una de las muestras.
25.1 TEST DE MANN-WHITNNEY – TEST DE WILCOXON
Tests de Hipótesis basados en dos muestras.
ESTADÍSTICA (Q)
Dra. Diana Kelmansky
176
El Test de Mann-Whitney para dos muestras independientes, es también conocido
como Test de Wilcoxon. Los primeros autores generalizaron el procedimiento que
el segundo propuso para el problema de muestras independientes de igual tamaño.
Idea intuitiva: A cada dato se le asigna su rango en una muestra total ordenada de
las dos muestras. Si los datos de las dos muestras provinieran de poblaciones con la
misma distribución y ambas tuvieran la misma cantidad de observaciones,
esperaríamos que la suma de rangos de la Muestra 1 fuera “similar” a la suma de
rangos de la Muestra 2. Eso resultaría de datos de las dos muestras alternados en la
muestra total ordenada. Una suma de rangos demasiado grande o demasiado
pequeña sería indicativa de diferencias entre las dos poblaciones de las cuales
fueron obtenidas las muestras. Por lo tanto, la hipótesis nula de que las dos
poblaciones no difieren debería ser rechazada cuando la suma de rangos de una
muestra tiende a ser notablemente mayor (o menor) que los de la otra muestra.
Consideramos a continuación dos modelos posibles para el problema. Cada modelo
permite testear diferentes hipótesis respecto de las poblaciones de las cuales
provienen los datos, pero el test es el mismo.
Modelo (1). Ambas muestras proviene de poblaciones cuyas distribuciones
solamente difieren en la posición esto es:
X 1 , X 2 ,..., X n i.i.d ; distribución F(x)
Y1 , Y2 ,..., Ym i.i.d ; distribución G(x) = F(x+c)
Si hay una diferencia entre ellas se debe SÓLO a la posición de la distribución.
Llamamos θX a la mediana de las observaciones con distribución F y θY a la
mediana de las observaciones con distribución G, entonces el Test de MannWhitney permite decidir entre las siguientes hipótesis nula y alternativas:
Hipótesis nula (1): H0: θX = θY
Hipótesis alternativas posibles Ha:
b) θX < θY
c) θX > θY
a) θX ≠ θY
Modelo (2) Los datos de cada muestra provienen de diferentes distribuciones.
X 1 , X 2 ,..., X n i.i.d ; distribución F
Y1 , Y2 ,..., Ym i.i.d ; distribución G
Hipótesis nula (2): H0: F(x) = G(x) para todo x
Hipótesis alternativa (2) Ha: F(x) ≠ G(x) para algún x
La hipótesis nula afirma que las dos distribuciones poblacionales son iguales (es
equivalente a la H0 del Modelo (1)), pero la alternativa dice que las dos
distribuciones difieren de algún modo, pero no dice de qué modo.
Tests de Hipótesis basados en dos muestras.
ESTADÍSTICA (Q)
Dra. Diana Kelmansky
177
Estadístico del test es el mismo para ambos modelos
T = Suma de rangos de la muestra con menor cantidad de observaciones
Cuando hay empates entre las observaciones se reemplaza el rango de cada
empate por el promedio de los rangos de los empates
La distribución del estadístico está tabulada para tamaños de muestra muy
pequeños. El test da resultados muy similares al test de t para dos muestras aplicado
a los rangos pero este último solo tiene que ser considerado con fines descriptivos.
Para tamaños de muestras moderados (mayores a 10) a grandes se usa una
aproximación Normal a la distribución del estadístico, modificando el estadístico
anterior por una versión estandarizada y se utilizan valores críticos de la tabla de
N(0,1).
Si no existieran diferencias entre los dos grupos y ambos tuvieran la misma
cantidad de observaciones, esperaríamos que la suma de rangos de la Muestra 1
fuera “similar” a la suma de rangos de la Muestra 2. Lo que nos indicaría que los
datos de las dos muestras aparecen alternadamente en la muestra total ordenada.
Ejemplo. Interesa comparar la cantidad de dióxido de carbono desprendido (mol CO2/g suelo/hr) en dos tipos de de suelos, A con escasa y B con abundante
vegetación, como medida de la actividad microbiana en los mismos ya que ésta
afecta el crecimiento de las plantas.
Se obtuvieron 10 determinaciones en suelos tipo A y 11 en suelos tipo B. La tabla
siguiente muestra un resumen de los resultados:
VARIABLE
CO2A
CO2B
N
10
11
MEAN
263.70
155.45
SD
362.83
339.37
MINIMUM
60.000
1.0000
MAXIMUM
1250.0
1160.0
Utilizando un test t para la diferencia de medias obtenemos:
TWO-SAMPLE T TESTS FOR CO2A VS CO2B
VARIABLE
--------CO2A
CO2B
DIFFERENCE
MEAN
--------263.70
155.45
108.25
SAMPLE
SIZE
-----10
11
S.D.
--------362.83
339.37
S.E.
--------114.74
102.32
NULL HYPOTHESIS: DIFFERENCE = 0
ALTERNATIVE HYP: DIFFERENCE <> 0
ASSUMPTION
----------------EQUAL VARIANCES
UNEQUAL VARIANCES
T
-----0.71
0.70
DF
-----19
18.5
P
-----0.4885
0.4901
95% CI FOR DIFFERENCE
--------------------(-212.45, 428.94)
(-214.14, 430.63)
Tests de Hipótesis basados en dos muestras.
ESTADÍSTICA (Q)
TESTS FOR EQUALITY
OF VARIANCES
F
------1.14
NUM DF
-----9
CASES INCLUDED 21
MISSING CASES 1
Dra. Diana Kelmansky
DEN DF
-----10
178
P
-----0.4160
No se rechaza la hipótesis de igualdad de medias, los p-valores del test son altos y
no se rechaza el supuesto de igualdad de varianzas. Pero ...............................
¡NOS OLVIDAMOS DE CHEQUEAR EL SUPUESTO DE NORMALIDAD!
Veamos
Tests de Hipótesis basados en dos muestras.
ESTADÍSTICA (Q)
Dra. Diana Kelmansky
179
Los tests de Shapiro-Wilk rechazan la Normalidad de los dos conjuntos de datos y
los gráficos cuantil-cuantil muestran un claro alejamiento de una recta evidenciando
asimetría a derecha. Los histogramas y los gráficos cuantil-cuantil muestran que los
dos conjuntos de datos tienen distribuciones similares
Es adecuado considerar válido el Modelo (1): ambas muestras provienen de
poblaciones con la misma distribución F cualquiera.
En este caso el test de Wilcoxon testea la
Hipótesis nula (1): H0: θX = θY
que las medianas de la cantidad de dióxido de carbono desprendido (mol CO2/g suelo/hr) en dos tipos de de suelos coinciden, contra la
Hipótesis alternativa: Ha: θX ≠ θY
las medianas de la cantidad de dióxido de carbono desprendido difieren
Statistics -> One, Two, Multi-sample Tests -> Wilcoxon Rank Sum Test
Tests de Hipótesis basados en dos muestras.
ESTADÍSTICA (Q)
Dra. Diana Kelmansky
WILCOXON RANK SUM TEST FOR CO2A VS CO2B
VARIABLE
--------CO2A
CO2B
TOTAL
SAMPLE
SIZE
-----10
11
21
RANK SUM
--------142.00
89.000
231.00
U STAT
--------87.000
23.000
MEAN RANK
--------14.2
8.1
EXACT PERMUTATION TEST TWO-TAILED P-VALUE
0.0879
NORMAL APPROXIMATION WITH CORRECTIONS FOR CONTINUITY AND TIES
TWO-TAILED P-VALUE FOR NORMAL APPROXIMATION
2.218
0.0265
TOTAL NUMBER OF VALUES THAT WERE TIED
0
MAXIMUM DIFFERENCE ALLOWED BETWEEN TIES 0.00001
CASES INCLUDED 21
MISSING CASES 1
Se rechaza la hipótesis nula con un nivel α = 0.10. Decimos que las medianas
muestrales de la cantidad de dióxido de carbono desprendido difieren
significativamente al 10% entre los dos tipos de suelo.
El test de Mann-Whitney da resultados similares al test t aplicado a los rangos de las
observaciones en la muestra combinada pero los p-valores no son válidos:
TWO-SAMPLE T TESTS FOR RANGOSA VS RANGOSB
VARIABLE
--------RANGOSA
RANGOSB
DIFFERENCE
MEAN
--------14.200
8.0909
6.1091
SAMPLE
SIZE
-----10
11
S.D.
--------4.4920
6.2682
S.E.
--------1.4205
1.8899
180
Tests de Hipótesis basados en dos muestras.
ESTADÍSTICA (Q)
Dra. Diana Kelmansky
181
NULL HYPOTHESIS: DIFFERENCE = 0
ALTERNATIVE HYP: DIFFERENCE <> 0
ASSUMPTION
----------------EQUAL VARIANCES
UNEQUAL VARIANCES
T
-----2.54
2.58
DF
-----19
18.1
TESTS FOR EQUALITY
OF VARIANCES
F
------1.95
NUM DF
-----10
CASES INCLUDED 21
MISSING CASES 1
P
-----0.0199
0.0187
95% CI FOR DIFFERENCE
--------------------(1.0804, 11.138)
(1.1435, 11.075)
DEN DF
-----9
P
-----0.1652
EL TEST DE MANN-WHITNEY no permite decidir si las medianas difieren
significativamente SI LOS DATOS DE LAS DOS MUESTRAS PRESENTAN
DISTRIBUCIONES CLARAMENTE DISTINTAS
Consideremos el siguiente ejemplo con datos ficticios.
N
MEAN
SD
MINIMUM
MEDIAN
MAXIMUM
FICT1
20
263.70
353.16
60.000
107.50
1250.0
FICT2
20
107.50
110.29
0.0000
107.50
215.00
Hemos creado dos conjuntos de datos
ficticios “FICT1” y “FICT2” con idéntica
mediana pero diferente distribución
Tests de Hipótesis basados en dos muestras.
ESTADÍSTICA (Q)
Dra. Diana Kelmansky
182
Las distribuciones son diferentes (no hay duda), pero la mediana es la misma en los
dos grupos (ver box-plots). Veamos el resultado del test de Mann-Whitney.
WILCOXON RANK SUM TEST FOR FICT1 VS FICT2
VARIABLE
--------FICT1
FICT2
TOTAL
RANK SUM
--------480.00
340.00
820.00
SAMPLE
SIZE
-----20
20
40
U STAT
--------270.00
130.00
MEAN RANK
--------24.0
17.0
NORMAL APPROXIMATION WITH CORRECTIONS FOR CONTINUITY AND TIES
TWO-TAILED P-VALUE FOR NORMAL APPROXIMATION
1.922
0.0546
TOTAL NUMBER OF VALUES THAT WERE TIED
40
MAXIMUM DIFFERENCE ALLOWED BETWEEN TIES 0.00001
Al 10%, se rechaza la hipótesis nula y concluimos que las dos distribuciones difieren,
pero ¿cómo difieren? Sólo podremos describir la forma en que las dos distribuciones
difieren en base a los histogramas.
El test siguiente no establece supuestos sobre la forma de las distribuciones de las
dos muestras.
25.2 TEST DE LA MEDIANA
Este test se puede generalizar a más de dos grupos y es una alternativa al test de
Mann Whitney cuando interesa un test para el parámetro de posición.
Puede ser usado con datos numéricos o categóricos ordinales.
Modelo:
X 1 , X 2 ,..., X n i.i.d ; distribución F con mediana θX.
Y1 , Y2 ,..., Ym i.i.d ; distribución G con mediana θY.
Hipótesis:
H0: θX = θY
versus
Ha: θX ≠ θY
(Este test tal como lo calculan la mayoría de los paquetes no acepta hipótesis
alternativas unilaterales).
Estadístico: Presentaremos primero la idea de como se construye.
- Se ordenan los n+m datos y se calcula la mediana general θ (Ojo θ no es un
parámetro).
- Se cuenta la cantidad de observaciones menores o iguales que la mediana θ en
cada muestra (mx y my) y la cantidad de observaciones mayores que la mediana
θ (MX y MY).
Estos datos se vuelcan a una tabla de doble entrada como la siguiente:
Tests de Hipótesis basados en dos muestras.
ESTADÍSTICA (Q)
>θ
<θ
Total
-
Muestra X’s
MX
mX
n
Dra. Diana Kelmansky
Muestra Y´s
MY
mY
m
183
Total
a
b
N
Si Ho es verdadera las proporciones de datos menores que la mediana y mayores
que la mediana deberían ser similares en las dos muestras, es decir, esperamos
m X mY
M X MY
que
y
.
≅
≅
n
m
n
m
El estadístico del test:
N2
T=
ab
⎡ (M X − n a / N ) 2 (M Y − m a / N ) 2 ⎤
+
⎢
⎥
n
m
⎣
⎦
es una medida de la distancia entre la cantidad de observaciones que se encuentran
por encima de la mediana y la cantidad esperada cuando H0 es verdadera.
Si a = b (cuando ningún dato coincide con la mediana general) el estadístico
resulta de la siguiente forma simplificada exacta o aproximada (si son pocos los que
coinciden a ≈ b ):
( M X − m X ) 2 ( M Y − mY ) 2
T=
+
n
m
Si las muestras son relativamente grandes, el estadístico tiene distribución
aproximada χ2 (chi-cuadrado) con 1 grado de libertad cuando H0 es verdadera .
Se generaliza a c grupos de observaciones y en ese caso el estadístico tiene c
sumandos y distribución aproximada χ2 (chi-cuadrado) con c-1 grados de libertad
cuando H0 es verdadera.
Apliquemos el test de la mediana a los datos de los dos últimos ejemplos:
MEDIAN TEST FOR CO2A - CO2B
ABOVE MEDIAN
BELOW MEDIAN
TOTAL
TIES WITH MEDIAN
CO2A
--------7
3
10
0
MEDIAN VALUE
93.000
CO2B
--------3
7
10
1
TOTAL
--------10
10
20
1
◄- un dato
coincide con
la mediana
Tests de Hipótesis basados en dos muestras.
ESTADÍSTICA (Q)
CHI-SQUARE
3.20
DF 1
Dra. Diana Kelmansky
184
P-VALUE 0.0736
Conclusión: A nivel 5% no hay suficiente evidencia para rechazar H0 (las medianas
poblacionales son iguales) pero sí al 10%
Datos ficticios (con histogramas muy distintos e igual mediana muestral)
MEDIAN TEST FOR FICT1 - FICT2
ABOVE MEDIAN
BELOW MEDIAN
TOTAL
TIES WITH MEDIAN
FICT1
--------10
10
20
0
MEDIAN VALUE
107.50
CHI-SQUARE
0.00
DF 1
FICT2
--------10
10
20
0
P-VALUE 1.0000
MAX. DIFF. ALLOWED BETWEEN A TIE
CASES INCLUDED 40
TOTAL
--------20
20
40
0
0.00001
MISSING CASES 4
Conclusión: No se rechaza la hipótesis que los dos grupos tienen la misma mediana.
La conclusión es francamente diferente de la que obtuvimos con el test de MannWhitney porque, como las distribuciones subyacentes son diferentes, este último NO
es un test para el parámetro de posición.
El test de la mediana puede transformarse en un test de percentiles para la hipótesis
nula que las dos poblaciones tienen el mismo percentil p. Simplemente ordenamos
todas las observaciones, calculamos el percentil p general y luego contamos que
proporción de los datos de cada muestra caen por debajo del percentil general. Los
datos se vuelcan en una tabla de doble entrada, y el estadístico tiene distribución
aproximada chi-cuadrado.
Descargar