TEMA 5 Inferencia no paramétrica Guía docente: Pruebas estadísticas unidireccionales (una cola) y pruebas estadísticas bidireccionales (dos colas) Antes de continuar con el tema nos vamos a detener en un aspecto importante del proceso de contraste de hipótesis que es si el tipo de prueba estadística que se aplica se efectúa a una cola o a dos colas. En la Estadística el valor de z=1.96 es recordado como valor que en una distribución normal señala si podemos rechazar la hipótesis nula (superamos o igualamos con el estadístico ese valor) y por lo tanto concluir que hay un efecto estadísticamente significativo. Por ejemplo con la prueba t de Student, la probabilidad de que la media Y1 supere a la media Y2 en 1.96 errores típicos es del 2.5%. Del mismo modo, la probabilidad de que la media Y2 supere a la media Y1 en 1.96 errores típicos es también del 2.5%. La prueba en este caso se ha realizado a dos colas (bidireccional) dado que la diferencia de las medias se busca en las dos colas de la distribución normal. Por lo tanto, si se incluyen las dos direcciones de las diferencias de medias, la probabilidad de que una diferencia entre las medias supere el valor de 1.96 es del 5% (2.5%+2.5%). Generalmente se aplican este tipo de contrastes bilateral en la investigación psicológica. El investigador plantea en su hipótesis que la dirección de la diferencia de medias puede ser tanto a favor de Y1 como de Y2 y una vez que se obtiene la significación estadística (p<0.05) se observa la dirección de las medias y se concluye. Por lo tanto, cuando se trabaja con contrastes unilaterales hay que justificar la decisión de optar por una sola dirección. La opción bilateral o unilateral se establece a priori, antes de recoger los datos y por supuesto antes de analizar los datos. 1 Sin embargo, también es posible plantear un contraste unilateral o a una cola. En realidad muchas de las hipótesis que se plantean en Psicología, o quizás la mayoría, son unidireccionales (este grupo tiene una media mayor que el otro, ha habido un cambio pero en esta dirección, etc.). La decisión de utilizar una prueba a dos colas o a una cola (unidireccional o bidireccional) depende del grado de conocimiento que se tenga de la relación entre las variables. Y nunca debe decidirse después de realizar el experimento ya que la decisión estadística estaría contaminada. Cola superior (contraste unilateral derecho): La zona de rechazo de H0 se encuentra en la cola derecha de la distribución del estadístico 2 Cola inferior (contraste unilateral izquierdo): La zona de rechazo de H0 se encuentra en la cola izquierda de la distribución del estadístico Se efectúa el contraste de hipótesis y el valor de alfa será alfa/2 cuando se realiza un contraste a una cola. Y sólo se interpretará la dirección de las medias que se ha especificado en la hipótesis. Supongamos que el valor de K de Student es igual a 5, si la hipótesis es bilateral se trabaja con el 0.05 pero si la hipótesis es unilateral se trabaja con el 0.025. Con el 0.5 la probabilidad de error al rechazar la hipótesis nula de forma errónea es el doble que en las hipótesis a una cola. En resumen: Por lo tanto las hipótesis nula y alternativa se pueden representar así en función de que el contraste de hipótesis sea unidireccional o bidireccional: Contraste Bidireccional (bilateral, a dos colas) 3 Hipótesis Hipótesis nula alternativa 1= 2 1≠ 2 (En la hipótesis alternativa no se predice la dirección de las 1-2=0 1-2≠0 Opción A: Opción A: medias). Es decir, 1= 2 y si una de las dos medias es mayor que la otra se rechaza la hipótesis nula. Unidireccional (unilateral, a una cola) (En la hipótesis alternativa se predice la dirección de las 1< 2 medias). Se rechaza la hipótesis nula cuando las medias 1> 2 1= 2 proceden de poblaciones diferentes y además una media determinada (se específica a priori) es mayor que la otra: 1> 2 o quizás 1< 2. Opción B: Opción B: 1> 2 1< 2 1= 2 Inferencia paramétrica y no paramétrica. Supuestos de las pruebas parámetricas Las técnicas de inferencia estadística se clasifican en paramétricas y no paramétricas. Para que las pruebas paramétricas ofrezcan resultados precisos y válidos es necesario que cumplan una serie de requisitos que protegen a la validez de conclusión estadística. Por ejemplo, la distribución normal de las puntuaciones de la variable dependiente que están siendo analizadas, la homogeneidad de las varianzas poblacionales (conocida como homocedasticidad) de los grupos que forman las condiciones de la variable independiente (se aplica la prueba de Levene), la independiencia de los errores (comprobación de la esfericidad mediante los valores de épsilon) y que la variable dependiente esté medida al menos en escala de intervalo. Cuando se cumplen esos requisitos, las pruebas estadísticas tienen una alta capacidad para detectar una relación entre las variables si es que realmente existe dicha relación (validez de conclusión estadística). Los métodos estadísticos paramétricos suponen que los datos que se analizan siguen una distribución normal (tipo gaussiana). La validez de esta hipótesis se basa en el teorema central del límite, que señala que la distribución muestral de la media puede ser aproximadamente normal aunque la población de referencia tenga una distribución muy diferente. La aproximación mejora a medida que el tamaño de la muestra aumenta. El incumplimiento de uno o más supuestos afecta a la validez de conclusión estadística ya que puede hacer que la distribución muestral cambie y por lo tanto se modifique el 4 verdadero error de Tipo I pudiendo ser mayor (haciendo el contraste estadístico más liberal) o menor (el contraste estadístico sería más conservador). En definitiva, la violación de los supuestos de las pruebas paramétricas puede provocar estimaciones imprecisas de los valores p de probabilidad vinculados a los estadísticos. También la estimación del tamaño del efecto y sus intervalos de confianza pueden estimarse de forma imprecisa ante las violaciones de los supuestos de normalidad y homocedasticidad (Algina, Keselman y Penfield, 2005; Grissom y Kim, 2001; Onwuegbuzie y Levin, 2003). Esas imprecisiones pueden provocar por lo tanto errores sustantivos en la interpretación de los datos. Puede ocurrir que los datos de la muestra no cumplan los requisitos de las pruebas paramétricas o también puede que la variable dependiente no sea continua por lo que no se cumplen las restricciones establecidas para las pruebas paramétricas. 1. Pruebas no paramétricas Las pruebas no paramétricas son adecuadas cuando no se cumplen los supuestos de las pruebas paramétricas, por ejemplo si los datos no están en escala de intervalo o si la distribución de los datos es bastante asimétrica. Si los índices de asimetría son menores de 2 y los de curtosis menores de 4 se considera que la distribución está próxima a la normalidad (Curran, West and Finch, 1996). Valores superiores de asimetría y curtosis implican que el investigador opte por ejecutar pruebas no paramétricas o realizar una transformación de los datos. Podemos establecer un paralelismo entre las pruebas paramétricas y las no paramétricas más utilizadas en la investigación psicológica: Diseño Dos muestras relacionadas: Dos muestras independientes: K muestras relacionadas: K muestras independientes: Paramétrica t de Student t de Student Anova ‘intra’-sujetos unifactorial Anova ‘entre’-sujetos unifactorial No paramétrica Prueba de Wilcoxon Prueba U de Mann-Whitney Prueba de Friedman Prueba de Kruskal-Wallis En todos los casos (estadística paramétrica y no paramétrica) se lleva a cabo un proceso de decisión estadística mediante una prueba de significación de la hipótesis nula. Otra alternativa ante la violación de la normalidad o la homogeneidad de las varianzas es utilizar estadísticos robustos modernos. Los estadísticos robustos modernos son procedimientos que son capaces de mantener el error de Tipo I en su valor nominal y 5 también el de la potencia estadística incluso cuando los datos no tienen una distribución normal o las varianzas no son homogéneas (Wilcox, 2005). Sin embargo, los métodos robustos modernos son escasamente utilizados por los investigadores (Erceg-Hurn y Mirosevich, 2008). Existe una gran variedad de pruebas no paramétricas tanto para el análisis de variables cualitativas como cuantitativas. Se van a repasar las más utilizadas. En el SPSS se encuentran como siempre en la ventana: Analizar---Pruebas no paramétricas En la ventana se puede elegir el test o prueba no paramétrico: Muestras apareadas, relacionadas o dependientes de 2 grupos. La prueba de Wilcoxon o test de los rangos con signo La prueba de Wilcoxon es una prueba no paramétrica que se utiliza en el lugar de la prueba t de Student paramétrica para dos grupos relacionados. La prueba de Wilcoxon considera la diferencia entre cada observación del grupo experimental y el grupo de comparación. Si la hipótesis nula fuese cierta, las diferencias negativas serían similares en cantidad y tamaño a las diferencias positivas. La prueba de Wilcoxon analiza de nuevo la discrepancia entre los resultados obtenidos y la predicción de la hipótesis nula. 6 La forma de proceder en el cuadro de diálogo es semejante a la de la t de Student para muestras apareadas. SPSS—Analizar---Pruebas no paramétricas---2 muestras relacionadas Muestras no apareadas, no relacionadas o independientes de dos grupos Para muestras independientes en la versión 19 del SPSS se ofrece la siente pantalla. Después iremos a la ventana de campos donde se señalan las variables. 7 Si no queremos que el SPSS ejecute de forma automática una prueba estadística podemos ir a la ventana de Configuración se pueden personalizar las pruebas no paramétricas: De las pruebas que se pueden ejecutar con grupos independientes, la prueba U de Mann-Whitney es la opción que tiene mayor potencia estadística. La prueba de U de Mann Withney Este estadístico fue introducido simultáneamente por Mann y Whitney en 1947 y se utiliza para contrastar si dos muestras, extraídas independientemente, proceden de la misma población. El único supuesto preciso es que la población o poblaciones de donde se extraen las muestras tiene que se de tipo continuo, pero no requiere simetría de la distribución. La hipótesis nula mantiene que las esperanzas matemáticas de ambas poblaciones son iguales, mientras que la alternativa puede establecer que las esperanzas matemáticas son 1. diferentes (contraste de dos colas), o 2. que una de ellas, previamente escogida, es superior a la otra (contraste de una cola). La prueba de U de Mann Withney es una prueba no paramétrica para dos muestras o grupos independientes. Las muestras pueden ser de tamaño diferente. No requiere ningún tipo de supuesto sobre la distribución de las muestras y por ello se puede usar con variables discretas u ordinales como el resto de pruebas no paramétricas. Es la 8 prueba no paramétrica más potente cuando el diseño es de dos grupos independientes. Supongamos los siguientes datos: En la versión 19 del SPSS la salida que ofrece una vez ha efectuado la prueba es: En En la versión anterior de SPSS, la salida del ordenador era así: SPSS—Analizar---Pruebas no paramétricas---2 muestras independientes 9 Muestras apareadas, relacionadas o dependientes de de A=k. El test de Friedman Si la investigación tiene k variables en columnas y n elementos en filas se trata de ordenar cada fila de menor a mayor según las diferentes columnas de 1 hasta k (esto es el rango que ocupa cada variable para ese caso). Si no hay diferencias estadísticamente significativas entre las variables se espera que los rangos estén repartidos en cada columna de manera uniforme y sólo se encontrarán entre las variables pequeñas diferencias debidas al azar. Si la hipótesis nula es cierta, este estadístico de contraste se distribuye según Chi Cuadrado con a-1 grados de libertad. SPSS—Analizar---Pruebas no paramétricas---k muestras relacionadas 10 Muestras no apareadas, no relacionadas o independientes de A=k grupos. El test de Kruskal Wallis Este estadístico, propuesto por W.H.Kruskal y W.A.Wallis en 1952, generaliza el estadistico U, cuando se trabaja con más de 2 muestras independientes y se pretende contrastar la hipótesis nula de que todas ellas proceden de la misma población. Permite comparar más de dos grupos independientes. Se considera que es la prueba no paramétrica más potente cuando el diseño tiene más de dos variables continuas independientes. Es ‘similar’ a la prueba paramétrica de ANOVA para un diseño intrasujetos con un único factor. Si la hipótesis nula es cierta, este estadístico de contraste se distribuye según Chi Cuadrado con a-1 grados de libertad. SPSS—Analizar---Pruebas no paramétricas---k muestras independientes 11 12