Comparación de dos grupos independientes Solución no paramétrica En capítulo 12: Métodos no paramétricos Los métodos que hemos visto hasta ahora, asumen como distribución muestral la distribución Normal, supuesto que no siempre se cumple, sin embargo estos métodos paramétricos son robustos. ¿Pero qué hacemos cuando no se cumple la normalidad o tenemos muy pocos datos? 1 Opciones: 1. Si hay valores extremos y el tamaño muestral es pequeño cualquier método de inferencia es dudoso. 2. A veces podemos transformar los datos (log es la transformación más usada). Recordar ejemplo sobre emisión de monóxido de Carbono: 14 12 12 10 10 8 8 6 6 4 4 2 Desv. típ. = 5.26 2 Desv. típ. = .61 Media = 8.0 Media = 1.89 N = 46.00 0 2.0 6.0 4.0 10.0 8.0 14.0 12.0 18.0 16.0 22.0 20.0 N = 46.00 0 .50 24.0 1.00 .75 Monóxido de Carbono 1.50 1.25 2.00 1.75 2.50 2.25 3.00 2.75 3.25 Log(CO) ¿Qué pasa con el supuesto de Normalidad? Pruebas de normalidad a Monóxido de Carbono Log(CO) Kolmogorov-Smirnov Estadístico gl Sig. .187 46 .000 .104 46 .200* Estadístico .842 .970 Shapiro-Wilk gl 46 46 Sig. .000 .266 *. Este es un límite inferior de la significación verdadera. a. Corrección de la significación de Lilliefors 2 Gráfico Q-Q normal de Log(CO) 3 2 2 1 1 0 0 Normal esperado Normal esperado Gráfico Q-Q normal de Monóxido de Carbono 3 -1 -2 -3 -10 0 Valor observado 10 20 -1 -2 -3 30 .5 1.0 1.5 2.0 2.5 3.0 3.5 Valor observado 3 3. También existen métodos paramétricos que asumen otras distribuciones, por ejemplo para el tiempo que demora en fallar un producto se usa una distribución de Weibull (ver diagrama). 4 5 4. Finalmente, existen métodos que no asumen una distribución, también llamados de distribución libre o no paramétricos. 6 Los métodos no paramétricos son la manera más directa de solucionar el problema de falta de normalidad. Estos métodos son muy simples de usar y están disponibles en SPSS. Pero tienen dos desventajas. Primero que tienen menos poder* que las equivalentes soluciones paramétricas. Además, los tests no paramétricos NO contestan a la misma pregunta. Por ejemplo si queremos hacer un test para docimar sobre el centro de la distribución, el test no paramétrico establece la hipótesis en términos de la mediana y el test paramétrico usa la media. * Se define poder o potencia del test como la capacidad del test para detectar hipótesis nulas falsas. Potencia = 1- 7 Test Paramétrico Test t simple Test no Problema paramétrico Una muestra Test del signo de rangos de Wilcoxon Muestras Test t simple Test del signo pareadas de rangos de Wilcoxon Dos muestras Test t para Test de suma independientes muestras de rangos de independientes Wilcoxon Más de dos ANOVA de un Test de muestras factor Kruskal-Wallis independientes Diseño en ANOVA con Ji cuadrado de bloques bloque Friedman aleatorios Existen dos grandes tipos de test no paramétricos, los que usan cuentas o números y los que usan rangos. 8 Dos muestras independientes Ejemplo: Se tienen dos parcelas experimentales. ¿Dañará la presencia de maleza la producción de maíz? Malezas por metro cuadrado Producción (en kg) 0 166,7 172,2 165,0 176,9 3 158,6 176,4 153,1 156,0 9 Hipótesis En este problema del maíz la hipótesis nula es que la maleza no afecta la producción de maíz. Si estamos dispuestos a asumir que la producción de maíz es Normal, o si tenemos un tamaño muestral razonablemente grande, usamos el test t para medias independientes. Las hipótesis son: H 0 : 1 2 H1 : 1 2 Cuando la distribución no es Normal, podemos reescribir las hipótesis en términos de medianas: H 0 : mediana1 mediana2 H1 : mediana1 mediana2 ¿Qué tipo de test será el adecuado en este caso? Revisemos es supuesto de normalidad: 10 Pruebas de normalidad a Producción Kolmogorov-Smirnov Estadístico gl Sig. .241 4 .341 4 Maleza x mt2 0 3 Shapiro-Wilk Estadístico gl .938 4 .819 4 . . Sig. .640 .140 a. Corrección de la significación de Lilliefors Gráfico Q-Q normal de Producción para maleza= 0 0.9 Normal esperado 0.6 0.3 0.0 -0.3 -0.6 -0.9 166 168 170 172 174 176 178 Valor observado Gráfico Q-Q normal de Producción para maleza= 3 0.9 Normal esperado 0.6 0.3 0.0 -0.3 -0.6 -0.9 150 155 160 165 170 175 180 Valor observado 11 Test de suma de rangos de Wilcoxon* Transformación a rangos Ordenamos los datos de menor a mayor: Producción 153,1 156,0 158,6 165,0 166,7 172,2 176,4 176,9 1 2 3 7 Rango 4 5 6 8 Pasar de los datos a sus rangos, es equivalente a transformar los datos. Los rangos retienen solamente en orden de las observaciones y no el valor numérico. Si la presencia de maleza afecta la producción de maíz esperamos que los rangos más pequeños sean de ese grupo. Podemos comparar la suma de los rangos de los dos tratamientos: * Este test fue creado por el químico Frank Wilcoxon (1892-1965) en 1945. 12 Tratamiento Suma de rangos Sin maleza 23 Con maleza 13 Por definición la suma de rangos de 1 a 8 es: n(n 1) 8 9 36 2 2 Por lo tanto podemos calcular la suma en uno de los grupos y el otro tiene que ser la diferencia (36- 23=13) Si no hay diferencia entre los tratamientos esperamos que los rangos sean la mitad en cada grupo, es decir 18. 13 Test de suma de rangos de Wilcoxon Se tiene una m.a.s. de tamaño n1 de una población, y una segunda m.a.s. de tamaño n2 de otra población. Hay n observaciones en total, donde n = n1 + n2. Se calcula el rango de las n observaciones. El test estadístico será la suma W de los rangos de grupo con menor suma de rangos, este será el estadístico de suma de rangos de Wilcoxon. Si las dos poblaciones tienen la misma distribución continua, entonces W tiene media: n1 (n 1) W 2 y desviación estándar: n1n2 (n 1) W 12 14 El test de suma de rangos de Wilcoxon rechaza la hipótesis nula de que las dos poblaciones tienen la misma distribución cuando la suma de rangos W está lejos de su media. En el ejemplo del maíz queremos docimar: H0: no hay diferencias en la distribución de la producción de maíz en los dos grupos versus H1: la producción es mayor en el tratamiento sin malezas 15 Nuestro test estadístico W=13 Bajo Ho W tiene media: W 4(8 1) 18 2 y desviación estándar: 4 4(8 1) W 3,4641 12 Valor p = P(W 13| H0 ) Necesitamos conocer la distribución muestral de W bajo la hipótesis nula. Existen tablas que dependen de n1 + n2. Veamos qué nos da SPSS: 16 Estadísticos de contraste b U de Mann-Whitney W de Wilcoxon Z Sig. asintót. (bilateral) Sig. exacta [2*(Sig. unilateral)] Producción 3.000 13.000 -1.443 .149 a .200 a. No corregidos para los empates. b. Variable de agrupación: Maleza x mt2 La salida de SPSS nos da el valor p exacto para la distribución muestral de W. El valor p para la hipótesis unilateral es 0,1 (valor p exacto según SPSS). Si comparamos con el equivalente test paramétrico t=-1,554, valor p=0,171/2=0,0855 17 Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F Producción Se han asumido varianzas iguales No se han asumido varianzas iguales 1.256 Sig. .305 Prueba T para la igualdad de medias t gl Sig. (bilateral) Diferencia de medias Error típ. la diferen 1.554 6 .171 9.1750 5.9 1.554 4.495 .187 9.1750 5.9 18 La aproximación Normal El estadístico de suma de rangos W se aproxima a la distribución Normal cuando n es grande. Entonces podemos formar un test z para estandarizar a W: z W W W El valor de z en el ejemplo del maíz nos da: z 13 18 1,44 3,4641 Esperamos rechazar para valores grandes de W si la hipótesis alternativa es verdadera, por lo que el valor p aproximado es: Valor p P(Z 1.44) 1 0,9251 0,0749 SPSS da el valor p exacto para W y el asintótico o aproximado que utiliza la aproximación a la Normal. 19 Además SPSS nos entrega el estadístico U de MannWhitney, este es equivalente al test de suma de rangos de Wilcoxon. 20 Empates La distribución exacta de test de Wilcoxon para suma de rangos se obtiene asumiendo que todas las observaciones tienen diferentes valores y por lo tanto su rango. En la práctica ocurre que muchas veces tenemos valores iguales. Lo que hacemos es asignar el valor promedio del rango que ocupan. Ejemplo: Observación Rango 153 1 155 2 158 3,5 158 3,5 161 5 164 6 La distribución exacta del test de Wilcoxon se aplica a datos sin empates, por lo que deberemos ajustar la desviación estándar en la presencia de empates. 21 Ejemplo: La comida que se vende en eventos al aire libre puede ser menos segura que la de restoranes porque se prepara en lugares no acondicionados y a menudo por voluntarios. ¿Qué pensará la gente acerca de la seguridad de la comida en ferias? Un estudio preguntó a asistentes a este tipo de eventos: ¿Qué tan a menudo piensa usted que se enferma la gente que consume comida en eventos al aire libre? Las respuestas posibles eran: 1 = raramente 2 = de vez en cuando 3 = a menudo 4 = muy frecuentemente 5 = siempre En total 303 personas respondieron a la pregunta. De estos 196 eran mujeres y 107 hombres. ¿Existe evidencia que hombres y mujeres difieren en su percepción acerca de la seguridad en la comida de ferias al aire libre? 22 Tabla de contingencia Sexo * Respuesta Recuento Respuesta Sexo F M Total raramente 13 22 35 de vez en cuando 108 57 165 a menudo 50 22 72 frecuente mente 23 5 28 siempre 2 1 3 Total 196 107 303 Comparamos los porcentajes por filas: Tabla de contingencia Sexo * Respuesta % de Sexo Respuesta Sexo Total F M raramente 6.6% 20.6% 11.6% de vez en cuando 55.1% 53.3% 54.5% a menudo 25.5% 20.6% 23.8% frecuente mente 11.7% 4.7% 9.2% siempre 1.0% .9% 1.0% Total 100.0% 100.0% 100.0% ¿Es la diferencia entre sexos significativa? H0: hombres y mujeres no difieren en sus respuestas H1: uno de los dos sexos da sistemáticamente mayores respuestas que el otro La hipótesis alternativa es de dos colas. 23 Como las respuestas posibles son sólo 5 hay muchos empates. Veamos la salida de SPSS: Rangos Respuesta Sexo F M Total N 196 107 303 Rango promedio 163.25 131.40 Suma de rangos 31996.50 14059.50 Estadísticos de contraste a U de Mann-Whitney W de Wilcoxon Z Sig. asintót. (bilateral) Respuesta 8281.500 14059.500 -3.334 .001 a. Variable de agrupación: Sexo Tenemos suficiente evidencia para concluir que existen diferencias significativas entre la percepción acerca de la seguridad de la comida al aire libre entre hombres y mujeres. 24 Como el tamaño de la muestra es grande podríamos haber usado el test paramétrico: Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F Respuesta Se han asumido varianzas iguales No se han asumido varianzas iguales 3.031 Sig. .083 Prueba T para la igualdad de m t gl Sig. (bilateral) Diferencia de medias 3.361 301 .001 .33 3.365 218.856 .001 .33 Pero en este caso, tenemos argumentos a favor del test no paramétrico. El test paramétrico asume que las respuestas tienen valor numérico y en realidad en una escala cualitativa. Usar rangos es más apropiado en este caso. 25 E la Tipo de aceite Rangos Absorción Tipo de aceite Animal Vegetal Total Rango promedio 15.29 9.71 N 12 12 24 Suma de rangos 183.50 116.50 Estadísticos de contraste b U de Mann-Whitney W de Wilcoxon Z Sig. asintót. (bilateral) Sig. exacta [2*(Sig. unilateral)] Absorción 38.500 116.500 -1.936 .053 a .052 a. No corregidos para los empates. b. Variable de agrupación: Tipo de aceite Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F Absorción Se han asumido varianzas iguales No se han asumido varianzas iguales Sig. .310 .583 Prueba T para l t gl Sig. (bilateral) 1.928 22 .067 1.928 21.694 .067 26 D de