Tests de Hipótesis basados en dos muestras. ESTADÍSTICA (Q) Dra. Diana Kelmansky 173 24 MUESTRAS GRANDES 24. 1 Caso general Modelo: X1 , L , X n 2 ⎧⎪E(X i ) = μ X Var(X i ) = σ X ⎫ ⎬ independientes con ⎨ ⎭ ⎪⎩E(Yi ) = μ Y Var(Yi ) = σ Y2 i.i.d Y1 , L , Ym i.i.d Si n y m son suficientemente grandes (X − Y ) − ( μ X − μ Y ) S X2 n + S Y2 a ~ N (0,1) m Por lo tanto un Intervalo de Confianza de nivel aproximado 1−α para μX − μY está dado por (X − Y) ± z α/2 s 2X n + sY2 m Un test para la hipótesis nula: H0: μX - μY = δ estará basado en el siguiente Estadístico del test Z= (X − Y) − δ S X2 n + S Y2 a ~ N (0,1) bajo H0 m Región de rechazo de nivel aproximado α para cada tipo de hipótesis alternativa y su p-valor Tipo de Hipótesis alternativa a) Ha: μX - μY ≠ δ Región de Rechazo de nivel aproximado α Z ≥ z α /2 p-valor p = 2 P(Z≥ |Zobs|) b) Ha: μX - μY > δ Z ≥ zα p = P(Z ≥ Zobs) c) Ha: μX - μY < δ Z ≤ −z α p = P(Z ≤ Zobs) Tests de Hipótesis basados en dos muestras. ESTADÍSTICA (Q) Dra. Diana Kelmansky 174 24. 2 Tests e intervalos de confianza para la diferencia de proporciones Modelo: X1 , L , X n ⎫ ⎬ independientes ⎭ i.i.d Bi (1, p X ) Y1 , L , Ym i.i.d Bi (1, p Y ) Si n y m son suficientemente grandes (X − Y) − ( p X − p Y ) X (1 − X ) Y (1 − Y ) + n m a ~ N (0,1) Por lo tanto un Intervalo de Confianza de nivel aproximado 1−α para pX − pY está dado por X (1 − X ) Y (1 − Y ) + n m (X − Y) ± z α/2 Un test para la hipótesis nula: H0: pX - pY = 0 estará basado en el siguiente Estadístico del test Z= ( X − Y) − 0 1 1 Sp + n m a ~ N (0,1) bajo H0 Como bajo H0 la varianza de las X’s es igual a la varianza de las Y’s para estimar la varianza común se utiliza un promedio pesado de los estimadores de las varianzas en cada grupo, esto es: n X (1 − X ) + mY (1 − Y ) S 2p = n+m-2 Región de rechazo de nivel aproximado α para cada tipo de hipótesis alternativa y su p-valor Tipo de Hipótesis alternativa a) Ha: pX - pY ≠ 0 Región de Rechazo p-valor de nivel aproximado α p = 2 P(Z≥ |Zobs|) Z ≥ z α /2 b) Ha: pX - pY > 0 Z ≥ zα c) Ha: pX - pY < 0 Z ≤ −z α p = P(Z ≥ Zobs) p = P(Z ≤ Zobs) Tests de Hipótesis basados en dos muestras. ESTADÍSTICA (Q) Dra. Diana Kelmansky 175 Consideraciones sobre los supuestos de los tests e intervalos de confianza, basados en muestras independientes, para la diferencia de medias. 1. Los tests basados en la distribución t suponen que los datos de cada muestra provienen de una distribución Normal. 2. Es aconsejable evaluar el supuesto de Normalidad mediante un test, por ejemplo el test de Shapiro-Wilk. 3. Alejamientos moderados de la distribución normal no modifican fuertemente las conclusiones de los tests t. 4. El test t para dos muestras independientes es extremadamente sensible a la heterogeneidad de varianzas cuando los tamaños de las muestras son muy diferentes. 5. Si falla el supuesto de normalidad pero ambas muestras tienen tamaño suficientemente grande entonces, por el Teorema Central del Límite, se pueden utilizar los tests con nivel aproximado basados en la distribución Normal. 6. El test F para igualdad de varianzas es MUY SENSIBLE a alejamientos de la hipótesis de normalidad, mucho más que el test t. Por lo tanto si los datos sugieren algunas dudas respecto de la normalidad y presentan evidencias de diferencias en las varianzas (por ejemplo, una desviación estándar es más que el doble de la otra) y los tamaños de muestras son muy diferentes, es preferible usar el test de Welch para varianzas distintas. 7. El supuesto de que las observaciones son independientes es muy difícil de verificar. Depende del diseño de la investigación y del procedimiento de recolección de los datos. Cuando este supuesto no se cumple no son válidos los métodos presentados ni los que vamos a presentar. Igual que en el caso de una muestra, si los datos se alejan fuertemente de la distribución normal y la cantidad de datos de alguna de las muestras es pequeña la alternativa es usar procedimientos no paramétricos. 25. TESTS NOPARAMÉTRICOS para dos muestras independientes En el test de t para dos muestras se comparan las medias muestrales de dos conjuntos de datos y se establece si la diferencia es estadísticamente significativa o es atribuible al azar. Veremos a continuación un procedimiento que en vez de realizar los cálculos sobre los datos utiliza los rangos de los mismos datos en una muestra combinada ordenada de menor a mayor. El estadístico del test es equivalente a comparar las medias de los rangos de cada una de las muestras. 25.1 TEST DE MANN-WHITNNEY – TEST DE WILCOXON Tests de Hipótesis basados en dos muestras. ESTADÍSTICA (Q) Dra. Diana Kelmansky 176 El Test de Mann-Whitney para dos muestras independientes, es también conocido como Test de Wilcoxon. Los primeros autores generalizaron el procedimiento que el segundo propuso para el problema de muestras independientes de igual tamaño. Idea intuitiva: A cada dato se le asigna su rango en una muestra total ordenada de las dos muestras. Si los datos de las dos muestras provinieran de poblaciones con la misma distribución y ambas tuvieran la misma cantidad de observaciones, esperaríamos que la suma de rangos de la Muestra 1 fuera “similar” a la suma de rangos de la Muestra 2. Eso resultaría de datos de las dos muestras alternados en la muestra total ordenada. Una suma de rangos demasiado grande o demasiado pequeña sería indicativa de diferencias entre las dos poblaciones de las cuales fueron obtenidas las muestras. Por lo tanto, la hipótesis nula de que las dos poblaciones no difieren debería ser rechazada cuando la suma de rangos de una muestra tiende a ser notablemente mayor (o menor) que los de la otra muestra. Consideramos a continuación dos modelos posibles para el problema. Cada modelo permite testear diferentes hipótesis respecto de las poblaciones de las cuales provienen los datos, pero el test es el mismo. Modelo (1). Ambas muestras proviene de poblaciones cuyas distribuciones solamente difieren en la posición esto es: X 1 , X 2 ,..., X n i.i.d ; distribución F(x) Y1 , Y2 ,..., Ym i.i.d ; distribución G(x) = F(x+c) Si hay una diferencia entre ellas se debe SÓLO a la posición de la distribución. Llamamos θX a la mediana de las observaciones con distribución F y θY a la mediana de las observaciones con distribución G, entonces el Test de MannWhitney permite decidir entre las siguientes hipótesis nula y alternativas: Hipótesis nula (1): H0: θX = θY Hipótesis alternativas posibles Ha: b) θX < θY c) θX > θY a) θX ≠ θY Modelo (2) Los datos de cada muestra provienen de diferentes distribuciones. X 1 , X 2 ,..., X n i.i.d ; distribución F Y1 , Y2 ,..., Ym i.i.d ; distribución G Hipótesis nula (2): H0: F(x) = G(x) para todo x Hipótesis alternativa (2) Ha: F(x) ≠ G(x) para algún x La hipótesis nula afirma que las dos distribuciones poblacionales son iguales (es equivalente a la H0 del Modelo (1)), pero la alternativa dice que las dos distribuciones difieren de algún modo, pero no dice de qué modo. Tests de Hipótesis basados en dos muestras. ESTADÍSTICA (Q) Dra. Diana Kelmansky 177 Estadístico del test es el mismo para ambos modelos T = Suma de rangos de la muestra con menor cantidad de observaciones Cuando hay empates entre las observaciones se reemplaza el rango de cada empate por el promedio de los rangos de los empates La distribución del estadístico está tabulada para tamaños de muestra muy pequeños. El test da resultados muy similares al test de t para dos muestras aplicado a los rangos pero este último solo tiene que ser considerado con fines descriptivos. Para tamaños de muestras moderados (mayores a 10) a grandes se usa una aproximación Normal a la distribución del estadístico, modificando el estadístico anterior por una versión estandarizada y se utilizan valores críticos de la tabla de N(0,1). Si no existieran diferencias entre los dos grupos y ambos tuvieran la misma cantidad de observaciones, esperaríamos que la suma de rangos de la Muestra 1 fuera “similar” a la suma de rangos de la Muestra 2. Lo que nos indicaría que los datos de las dos muestras aparecen alternadamente en la muestra total ordenada. Ejemplo. Interesa comparar la cantidad de dióxido de carbono desprendido (mol CO2/g suelo/hr) en dos tipos de de suelos, A con escasa y B con abundante vegetación, como medida de la actividad microbiana en los mismos ya que ésta afecta el crecimiento de las plantas. Se obtuvieron 10 determinaciones en suelos tipo A y 11 en suelos tipo B. La tabla siguiente muestra un resumen de los resultados: VARIABLE CO2A CO2B N 10 11 MEAN 263.70 155.45 SD 362.83 339.37 MINIMUM 60.000 1.0000 MAXIMUM 1250.0 1160.0 Utilizando un test t para la diferencia de medias obtenemos: TWO-SAMPLE T TESTS FOR CO2A VS CO2B VARIABLE --------CO2A CO2B DIFFERENCE MEAN --------263.70 155.45 108.25 SAMPLE SIZE -----10 11 S.D. --------362.83 339.37 S.E. --------114.74 102.32 NULL HYPOTHESIS: DIFFERENCE = 0 ALTERNATIVE HYP: DIFFERENCE <> 0 ASSUMPTION ----------------EQUAL VARIANCES UNEQUAL VARIANCES T -----0.71 0.70 DF -----19 18.5 P -----0.4885 0.4901 95% CI FOR DIFFERENCE --------------------(-212.45, 428.94) (-214.14, 430.63) Tests de Hipótesis basados en dos muestras. ESTADÍSTICA (Q) TESTS FOR EQUALITY OF VARIANCES F ------1.14 NUM DF -----9 CASES INCLUDED 21 MISSING CASES 1 Dra. Diana Kelmansky DEN DF -----10 178 P -----0.4160 No se rechaza la hipótesis de igualdad de medias, los p-valores del test son altos y no se rechaza el supuesto de igualdad de varianzas. Pero ............................... ¡NOS OLVIDAMOS DE CHEQUEAR EL SUPUESTO DE NORMALIDAD! Veamos Tests de Hipótesis basados en dos muestras. ESTADÍSTICA (Q) Dra. Diana Kelmansky 179 Los tests de Shapiro-Wilk rechazan la Normalidad de los dos conjuntos de datos y los gráficos cuantil-cuantil muestran un claro alejamiento de una recta evidenciando asimetría a derecha. Los histogramas y los gráficos cuantil-cuantil muestran que los dos conjuntos de datos tienen distribuciones similares Es adecuado considerar válido el Modelo (1): ambas muestras provienen de poblaciones con la misma distribución F cualquiera. En este caso el test de Wilcoxon testea la Hipótesis nula (1): H0: θX = θY que las medianas de la cantidad de dióxido de carbono desprendido (mol CO2/g suelo/hr) en dos tipos de de suelos coinciden, contra la Hipótesis alternativa: Ha: θX ≠ θY las medianas de la cantidad de dióxido de carbono desprendido difieren Statistics -> One, Two, Multi-sample Tests -> Wilcoxon Rank Sum Test Tests de Hipótesis basados en dos muestras. ESTADÍSTICA (Q) Dra. Diana Kelmansky WILCOXON RANK SUM TEST FOR CO2A VS CO2B VARIABLE --------CO2A CO2B TOTAL SAMPLE SIZE -----10 11 21 RANK SUM --------142.00 89.000 231.00 U STAT --------87.000 23.000 MEAN RANK --------14.2 8.1 EXACT PERMUTATION TEST TWO-TAILED P-VALUE 0.0879 NORMAL APPROXIMATION WITH CORRECTIONS FOR CONTINUITY AND TIES TWO-TAILED P-VALUE FOR NORMAL APPROXIMATION 2.218 0.0265 TOTAL NUMBER OF VALUES THAT WERE TIED 0 MAXIMUM DIFFERENCE ALLOWED BETWEEN TIES 0.00001 CASES INCLUDED 21 MISSING CASES 1 Se rechaza la hipótesis nula con un nivel α = 0.10. Decimos que las medianas muestrales de la cantidad de dióxido de carbono desprendido difieren significativamente al 10% entre los dos tipos de suelo. El test de Mann-Whitney da resultados similares al test t aplicado a los rangos de las observaciones en la muestra combinada pero los p-valores no son válidos: TWO-SAMPLE T TESTS FOR RANGOSA VS RANGOSB VARIABLE --------RANGOSA RANGOSB DIFFERENCE MEAN --------14.200 8.0909 6.1091 SAMPLE SIZE -----10 11 S.D. --------4.4920 6.2682 S.E. --------1.4205 1.8899 180 Tests de Hipótesis basados en dos muestras. ESTADÍSTICA (Q) Dra. Diana Kelmansky 181 NULL HYPOTHESIS: DIFFERENCE = 0 ALTERNATIVE HYP: DIFFERENCE <> 0 ASSUMPTION ----------------EQUAL VARIANCES UNEQUAL VARIANCES T -----2.54 2.58 DF -----19 18.1 TESTS FOR EQUALITY OF VARIANCES F ------1.95 NUM DF -----10 CASES INCLUDED 21 MISSING CASES 1 P -----0.0199 0.0187 95% CI FOR DIFFERENCE --------------------(1.0804, 11.138) (1.1435, 11.075) DEN DF -----9 P -----0.1652 EL TEST DE MANN-WHITNEY no permite decidir si las medianas difieren significativamente SI LOS DATOS DE LAS DOS MUESTRAS PRESENTAN DISTRIBUCIONES CLARAMENTE DISTINTAS Consideremos el siguiente ejemplo con datos ficticios. N MEAN SD MINIMUM MEDIAN MAXIMUM FICT1 20 263.70 353.16 60.000 107.50 1250.0 FICT2 20 107.50 110.29 0.0000 107.50 215.00 Hemos creado dos conjuntos de datos ficticios “FICT1” y “FICT2” con idéntica mediana pero diferente distribución Tests de Hipótesis basados en dos muestras. ESTADÍSTICA (Q) Dra. Diana Kelmansky 182 Las distribuciones son diferentes (no hay duda), pero la mediana es la misma en los dos grupos (ver box-plots). Veamos el resultado del test de Mann-Whitney. WILCOXON RANK SUM TEST FOR FICT1 VS FICT2 VARIABLE --------FICT1 FICT2 TOTAL RANK SUM --------480.00 340.00 820.00 SAMPLE SIZE -----20 20 40 U STAT --------270.00 130.00 MEAN RANK --------24.0 17.0 NORMAL APPROXIMATION WITH CORRECTIONS FOR CONTINUITY AND TIES TWO-TAILED P-VALUE FOR NORMAL APPROXIMATION 1.922 0.0546 TOTAL NUMBER OF VALUES THAT WERE TIED 40 MAXIMUM DIFFERENCE ALLOWED BETWEEN TIES 0.00001 Al 10%, se rechaza la hipótesis nula y concluimos que las dos distribuciones difieren, pero ¿cómo difieren? Sólo podremos describir la forma en que las dos distribuciones difieren en base a los histogramas. El test siguiente no establece supuestos sobre la forma de las distribuciones de las dos muestras. 25.2 TEST DE LA MEDIANA Este test se puede generalizar a más de dos grupos y es una alternativa al test de Mann Whitney cuando interesa un test para el parámetro de posición. Puede ser usado con datos numéricos o categóricos ordinales. Modelo: X 1 , X 2 ,..., X n i.i.d ; distribución F con mediana θX. Y1 , Y2 ,..., Ym i.i.d ; distribución G con mediana θY. Hipótesis: H0: θX = θY versus Ha: θX ≠ θY (Este test tal como lo calculan la mayoría de los paquetes no acepta hipótesis alternativas unilaterales). Estadístico: Presentaremos primero la idea de como se construye. - Se ordenan los n+m datos y se calcula la mediana general θ (Ojo θ no es un parámetro). - Se cuenta la cantidad de observaciones menores o iguales que la mediana θ en cada muestra (mx y my) y la cantidad de observaciones mayores que la mediana θ (MX y MY). Estos datos se vuelcan a una tabla de doble entrada como la siguiente: Tests de Hipótesis basados en dos muestras. ESTADÍSTICA (Q) >θ <θ Total - Muestra X’s MX mX n Dra. Diana Kelmansky Muestra Y´s MY mY m 183 Total a b N Si Ho es verdadera las proporciones de datos menores que la mediana y mayores que la mediana deberían ser similares en las dos muestras, es decir, esperamos m X mY M X MY que y . ≅ ≅ n m n m El estadístico del test: N2 T= ab ⎡ (M X − n a / N ) 2 (M Y − m a / N ) 2 ⎤ + ⎢ ⎥ n m ⎣ ⎦ es una medida de la distancia entre la cantidad de observaciones que se encuentran por encima de la mediana y la cantidad esperada cuando H0 es verdadera. Si a = b (cuando ningún dato coincide con la mediana general) el estadístico resulta de la siguiente forma simplificada exacta o aproximada (si son pocos los que coinciden a ≈ b ): ( M X − m X ) 2 ( M Y − mY ) 2 T= + n m Si las muestras son relativamente grandes, el estadístico tiene distribución aproximada χ2 (chi-cuadrado) con 1 grado de libertad cuando H0 es verdadera . Se generaliza a c grupos de observaciones y en ese caso el estadístico tiene c sumandos y distribución aproximada χ2 (chi-cuadrado) con c-1 grados de libertad cuando H0 es verdadera. Apliquemos el test de la mediana a los datos de los dos últimos ejemplos: MEDIAN TEST FOR CO2A - CO2B ABOVE MEDIAN BELOW MEDIAN TOTAL TIES WITH MEDIAN CO2A --------7 3 10 0 MEDIAN VALUE 93.000 CO2B --------3 7 10 1 TOTAL --------10 10 20 1 ◄- un dato coincide con la mediana Tests de Hipótesis basados en dos muestras. ESTADÍSTICA (Q) CHI-SQUARE 3.20 DF 1 Dra. Diana Kelmansky 184 P-VALUE 0.0736 Conclusión: A nivel 5% no hay suficiente evidencia para rechazar H0 (las medianas poblacionales son iguales) pero sí al 10% Datos ficticios (con histogramas muy distintos e igual mediana muestral) MEDIAN TEST FOR FICT1 - FICT2 ABOVE MEDIAN BELOW MEDIAN TOTAL TIES WITH MEDIAN FICT1 --------10 10 20 0 MEDIAN VALUE 107.50 CHI-SQUARE 0.00 DF 1 FICT2 --------10 10 20 0 P-VALUE 1.0000 MAX. DIFF. ALLOWED BETWEEN A TIE CASES INCLUDED 40 TOTAL --------20 20 40 0 0.00001 MISSING CASES 4 Conclusión: No se rechaza la hipótesis que los dos grupos tienen la misma mediana. La conclusión es francamente diferente de la que obtuvimos con el test de MannWhitney porque, como las distribuciones subyacentes son diferentes, este último NO es un test para el parámetro de posición. El test de la mediana puede transformarse en un test de percentiles para la hipótesis nula que las dos poblaciones tienen el mismo percentil p. Simplemente ordenamos todas las observaciones, calculamos el percentil p general y luego contamos que proporción de los datos de cada muestra caen por debajo del percentil general. Los datos se vuelcan en una tabla de doble entrada, y el estadístico tiene distribución aproximada chi-cuadrado.