Capítulo 11: Comparación de varios tratamientos o grupos Muchas preguntas de investigación en educación, psicología, negocios, industria y ciencias naturales tienen que ver con la comparación de varios grupos o tratamientos. Ya estudiamos como comparar diferencias entre dos tratamientos cuando las poblaciones son independientes, ahora nos interesa comparar más de dos poblaciones. La pregunta de interés del investigador será ¿existen diferencias significativas entre las medias de los tratamientos? Si comprueba que existen diferencias significativas, entonces le interesará saber ¿cuáles de las poblaciones o tratamientos comparados son diferentes? Primero necesitamos saber cómo contestar la pregunta general. El procedimiento para determinar si existen diferencias significativas entre varias poblaciones o grupos se llama Análisis de Varianza, y nos vamos a referir a él usando las letras ANOVA por Analysis of Variance, en inglés. ANOVA es un nombre genérico y se usa para una variedad inmensa de modelos de comparación de medias, también conocido como diseño de experimentos. Por ahora sólo hablaremos del ANOVA simple, de un factor, o de una vía (one way ANOVA), que se refiere a la comparación de medias de dos o más tratamientos. Vamos a llamar factor a una variable cualitativa que usaremos para designar a los grupos o tratamientos a comparar. Los niveles del factor serán el número de tratamientos o grupos. El análisis de varianza es similar al análisis de regresión y en realidad los dos pertenecen a la gran familia de los modelos lineales. Los modelos lineales se caracterizan por investigar la relación entre una variable respuesta cuantitativa y una o más variables explicatorias. Sin embargo el análisis de varianza difiere del análisis de regresión en que en el ANOVA las variables explicatorias son cualitativas o factores. Lo que nos interesa en el análisis de varianza de una vía es extender el test t para dos muestras independientes, para comparar más de dos muestras. ANOVA simple, de un factor, de una vía (one way ANOVA) Caso 1: Un médico quiere comparar la efectividad de tres tratamientos para reducir el colesterol de pacientes con altos niveles de colesterol sanguíneo. Se asignan aleatoriamente 60 individuos a los tres tratamientos (20 en cada uno) y se registra la reducción de colesterol de cada paciente. Caso 2: Una ecóloga está interesada en comparar la concentración de cadmio en 5 ríos. Recolecta 50 muestras de agua (10 muestras en cada río) y mide la concentración de cadmio. En cada uno de los casos, describa: a) ¿cuál es el diseño de la investigación? b) ¿cuál es la variable respuesta? c) ¿cuál es el factor o variable explicativa? d) ¿cuántos niveles tiene cada factor? Estos dos casos tienen similitudes. En ambos tenemos una variable respuesta cuantitativa (reducción del colesterol, concentración de cadmio) medida en varias unidades (personas y muestras de agua). Esperamos que la respuesta sea Normal en ambos casos. Queremos comparar varias poblaciones, tres tratamientos en el caso 1 y 5 ríos en el caso 2. El caso 1 es un experimento en el cual los pacientes son asignados aleatoriamente a los tratamientos. En el caso 2 es un estudio observacional simplemente se toman muestras de distintos ríos. En ambos casos podemos usar el ANOVA para analizar los datos. El caso 1 se analizará mediante un análisis de varianza de un factor con 3 niveles. El caso 2 se analizará mediante un análisis de varianza de un factor con 5 niveles. TOMATES ¿Porqué las plantas de tomate crecen con diferente tamaño? Un agricultor quiere comparar el efecto de tres fertilizantes (A, B y C) en el crecimiento de sus plantas de tomate. Seleccionó 15 plantas de tomate de una semana y las plantó en diferentes maceteros. Asignó aleatoriamente los 3 fertilizantes y se los administró a las plantas por 45 días. La figura muestra la altura de las plantas (en cms) según cada fertilizante. El desarrollo de este tema de estudio se debe principalmente al trabajo de Sir Ronald Fisher, cuyas contribuciones a la estadística, desde 1912 hasta 1962, tuvieron una gran influencia en toda la estadística moderna. 1 ¿Qué ocurrió con la altura de estas plantas? Las plantas de tomate son todas de la misma variedad y de la misma edad. Además recibieron el mismo cuidado. ¿Qué razones hay para que las plantas crezcan a diferente altura? 50 Altura (cms) 45 40 35 30 0 1 2 3 4 Fertilizantes Figura: altura de plantas en centímetros según tres tipos de fertilizantes. DATOS: Altura de plantas de tomates tratadas con distintos fertilizantes Fertilizante A B 31 41 32 42 36 43 38 44 39 46 C 35 36 36 37 38 ¿De qué manera podríamos comparar estos tres tratamientos? La respuesta natural sería comparar cada par de tratamientos o grupos con una prueba t para muestras independientes. Sin embargo, no es correcto hacer pruebas t de Student entre todos los pares posibles de medias ya que se altera el nivel de significación fijado para cada una de las pruebas. Específicamente, aumenta la probabilidad de encontrar diferencias donde no existen, es decir aumenta el Error Tipo I. Si tenemos 3 grupos, son 3 comparaciones posibles. En el Ejemplo A con B, A con C y B con C. Si tenemos 4 tratamientos el número posible de pares de pruebas sería 4 4! 6 . El test de ANOVA permite el estudio simultáneo de las 2 2!2! diferencias con un nivel fijo de significación. Problema de comparaciones múltiples Si tenemos 4 grupos o tratamientos, necesitamos hacer 6 test de hipótesis: H 0 : 1 2 H 0 : 1 3 H 0 : 1 4 H1 : 1 2 H1 : 1 3 H1 : 1 4 =0,05 =0,05 =0,05 H 0 : 2 3 H 0 : 2 4 H1 : 2 3 H1 : 2 4 =0,05 =0,05 H 0 : 3 4 H1 : 3 4 =0,05 2 A medida que aumenta el número de grupos, no podemos garantizar que se mantenga el nivel de significación. Para solucionar este problema es que hacemos primero una pregunta global y dependiendo del resultados seguimos investigando pares de grupos. Comparando medias mediante ANOVA: Se tienen k muestras aleatorias independientes N k , N 2 , N 1 , m.a.s. tamaño n1 m.a.s. tamaño n2 m.a.s. tamaño nk ... Población k Población 2 Población 1 n 1 observaciones de una población N 1, . Tenemos una muestra aleatoria simple de n2 observaciones de una población N 2 , . Tenemos una muestra aleatoria simple de . . . Tenemos una muestra aleatoria simple de nk observaciones de una población N k , . Las k muestras aleatorias son independientes una de otra. Nota: La desviación estándar poblacional de cada grupo es igual a (homocedasticidad). HIPOTESIS GLOBAL Usaremos i para representar la media del grupo i, entonces estaremos interesados en docimar la siguiente hipótesis: H 0 : 1 2 ... k H1 : al menosdos medias no son iguales Graficamente podemos representar esta hipótesis: Ho: las medias poblacionales son iguales N orma l 1 2 3 H1 : al menos una media es diferente N orma l 1 2 N orma l 3 3 TOMATES continuación Hipótesis de interés: H 0 : 1 2 3 H1 : al menosdos medias no son iguales. Con un nivel de significación =0,05 Datos: N Desviación típica Media A 5 35.20 3.564 B 5 43.20 1.924 5 36.40 1.140 15 38.27 4.284 C Total Notación en las k muestras (i=1,2,3): ni n1 n2 n3 yi y1 y2 y3 si s1 s2 s3 Fuentes de variación El análisis de varianza se define como una técnica en la que la variabilidad de un conjunto de datos se divide en varios componentes y cada unos de ellos se asocia a una fuente específica de variación, de manera que durante el análisis es posible encontrar la magnitud con la que contribuye cada una de esas fuentes en la variación total. El nombre ANOVA es porque para comparar las medias de los grupos o tratamientos necesitamos identificar las distintas fuentes de variabilidad. La variabilidad de la variable respuesta, sin referencia a ningún factor que la pudiera estar afectando, se conoce como variabilidad total. La variabilidad de la variable respuesta que se atribuye a factores específicos se conoce como variabilidad explicada. Mide la variabilidad entre los diferentes grupos. La variabilidad de la variable respuesta de las unidades (experimentales) dentro de cada nivel del factor se conoce como variabilidad no-explicada. Se desprende que: Variabilidad total = variabilidad explicada + variabilidad no explicada En el ejemplo de los tomates distinga las fuentes de variación. Para docimar la hipótesis global acerca de las medias usaremos el test estadístico F. Este test contrasta la variabilidad entre los grupos con la variabilidad que será natural dentro de los grupos. F variabilid ad ENTRE las medias muestrales variabilid ad DENTRO de las muestras 4 Pensemos Caso A: Case B: Si las medias muestrales son exactamente iguales, ¿cuál será el numerador del test F? Si las medias muestrales son muy distintas entre los grupos, ¿como será la variabilidad entre comparada con el caso A? ¿Qué valores puede tener el estadístico F? ¿F puede ser negativo? ¿Qué tipo de valores de F serán a favor de la hipótesis alternativa? Medias cuadráticas El test estadístico del ANOVA es la razón entre dos medidas de variación de los datos muestrales. El test estadístico F compara la variación entre los promedios de los grupos con la variación natural dentro de los grupos. Formalmente estas dos medidas de variación se llaman medias cuadráticas, así en el numerador tendemos la media cuadrática entre los grupos (MCE) y en el denominador la media cuadrática dentro de los grupos (MCD). F variabilid ad ENTRE las medias muestrales MCE variabilid ad DENTRO de las muestras MCD Las dos medidas de variabilidad en ANOVA, MCE y MCD tienen la misma forma. Media cuadrática Suma de cuadrados (SC) Grados de libertad(gl) Entre más grande sea la variación entre las medias muestrales comparada con la variación natural dentro de las muestras, mayor evidencia a favor de diferencias entre las medias poblacionales. En vista de que sólo valores grandes del test estadístico nos sirven para rechazar la hipótesis nula, los test F de ANOVA son unilaterales (de una cola) con la dirección del extremo hacia la derecha. El valor p será la probabilidad de observar un test estadístico tan o más grande. Distribución F de Fisher Bajo H 0 el test estadístico F que se calcula en el ANOVA tiene una distribución F de Fisher con (k-1, n-k) grados de libertad. Características: La distribución es sesgada a la derecha Sus valores son positivos, empiezan en cero y se extienden hasta infinito La curva de la distribución queda definida por los grados de libertad del numerador y del denominador 5 GRAFICOS Se muestran dos gráficos de caja. Cada uno representa el resultado de sacar 3 muestras aleatorias independientes de tres poblaciones normales. ¿En cuál de los dos gráficos cree usted que podemos rechazar la hipótesis nula H 0 : 1 2 3 ? Respuesta Respuesta Grupo 1 Grupo 2 Grupo 3 Grupo 1 Grupo 2 Grupo 3 Cómo calculamos F Cuando tenemos una muestra aleatoria de una población con varianza desconocida 2, vamos a estimar esta varianza con la varianza muestral s2. La varianza muestral se calcula tomando la suma de los cuadrados de las desviaciones a la media y dividiendo por los grados de libertad (n-1). En este caso cada muestra aleatoria, una por cada k poblaciones, tiene su media muestral y su varianza muestral representados por: y1 , y2 ,..., yk 2 2 2 y s1 , s 2 ,...,s k . Variación ENTRE grupos: Bajo la hipótesis nula, las medias poblacionales son iguales. Si la hipótesis nula fuera cierta, sería razonable promediar todas las observaciones para tener una estimación de la media de la población. La media muestral común sería: y n1 y1 n2 y 2 nk y k n La media cuadrática ENTRE los grupos o media cuadrática de los tratamientos se calcula como: MCE SCE k 1 donde la suma de cuadrados ENTRE (SCE) se calcula como: SCE n1 y1 y n2 y 2 y nk y k y 2 2 2 n y i y 2 i grupos tamañomuestragrupomedia muestralgrupo media muestralconjunta 2 grupos Variación DENTRO de los grupos: Uno de los supuestos de ANOVA es que las k poblaciones tienen la misma varianza. Cada una de las varianza muestrales es un estimador de la varianza común 2, independiente de si la hipótesis nula es cierta. Los grados de libertad de cada varianza muestral es, ni – 1. La MCD esencialmente combina las varianza muestrales para obtener un estimador de 2. La media cuadrática dentro, es también llamada la media cuadrática del error. El denominador del estadístico F es: MCD SCD nk 6 donde la suma de cuadrados DENTRO de los grupos se calcula: SCD n1 1s12 n2 1s 22 nk 1s k2 n i 1si2 grupos tamañomuestralgrupo - 1varianzamuestralgrupo grupos Note que esta cantidad es una extensión de la estimación combinada de la varianza empleada para la prueba t de 2 muestras: s 2p n1 1s12 n2 1s 22 nk 1s k2 n1 n2 nk k Midiendo la variación TOTAL: En ANOVA de una vía, la varianza total de todas las observaciones esta dada por la suma de cuadrados total, SCT, que mide la variación de cada observación a la media muestral de todas las observaciones. SCT y ij observaciones y observación - media muestral 2 2 observaciones La variación total puede ser particionada entre las dos fuentes de variación entre y dentro. La relación entre las sumas de cuadrados es: SCT SCE SCD . Si se tienen dos de las sumas de cuadrados, se obtiene la tercera fácilmente. Tabla ANOVA Todo esto se resume en la tabla de Análisis de Varianza, en que se presentan las fuentes de variación, los grados de libertad, las sumas de cuadrados y las medias cuadráticas correspondientes: TABLA DE ANALISIS DE VARIANZA gl Fuente de variación Grados de libertad Entre tratamientos k 1 SC Suma de Cuadrados MC Medias cuadráticas SCE ni yi y SCE k 1 n SCD nk k 2 i 1 Dentro de tratamientos nk SCD ni 1si2 i 1 n 1 Total F F MCE MCD SCT yij y n 2 i 1 Salida SPSS para ANOVA TOMATES Inter-grupos Suma de cuadrados 186.133 2 Media cuadrática 93.067 Intra-grupos 70.800 12 5.900 256.933 14 Total gl F 15.774 Sig. .000 7 - Realice los cálculos para docimar la hipotesis de interés del Sr. de los tomates. Compruebe sus resultados con tabla salida del SPSS. Compruebe la relación entre las sumas de cuadrados y la de los grados de libertad. Escriba su conclusión para el Sr. de los Tomates. Revisión de supuestos de ANOVA: Los supuestos del ANOVA son exactamente los mismos que los de la prueba t para comparar dos grupos 1. 1. los grupos o tratamientos son independientes entre sí, por ejemplo en un diseño experimental, los tratamientos son asignados a grupos de personas asignados al azar. Este supuesto es parte del diseño experimental, o en caso de que el estudio sea observaciones se verifica en los datos. 2. La distribución de los residuos es Normal. En la práctica, esto implica un problema sólo si se considera que las poblaciones tienen distribuciones marcadamente asimétricas y en direcciones opuestas. En general, la falta de normalidad de los residuos no tiene gran efecto en el nivel de significancia del test F (se dice que la prueba F es estadísticamente robusta). En otro capítulo hablaremos de una alternativa de análisis cuando los residuos no son normales que se llama estadística no paramétrica. En SPSS no obtenemos directamente los residuos del ANOVA. Como alternativa vamos a verificar el supuesto de Normalidad usando la variable respuesta en vez de los residuos. Se verifica normalidad haciendo gráficos y test de hipótesis. Para los residuos (respuesta) de cada tratamiento construya un histograma o tallo-y-hoja y verifique que no exista un sesgo pronunciado. Para tamaños de grupos ni pequeños, estos gráficos serán de poca utilidad. SPSS realiza dos test estadísticos para verificar normalidad, el test de Kolmogorov-Smirnov y el test de Shapiro-Wilk. El test de Kolmogorov-Smirnov es un test clásico y conocido. El test de Shapiro-Wilk es más nuevo y recomendado para tamaños muestrales mayores a 50. En todo caso, se espera que las conclusiones con cualquiera de los dos test sean las mismas. La hipótesis será: H 0 : los residuos provienentes del tratamiento i son normales H1 : los residuos provienentes del tratamiento i NO son normales Por lo tanto si el valor p del correspondiente test es mayor que 0,05 aceptamos la hipótesis nula y concluimos que se cumple el supuesto de Normalidad. Note que en este caso especial la hipótesis de interés es la hipótesis nula. 3. La varianza de cada una de las distribuciones es la misma (homocedasticidad). El supuesto de homogeneidad de varianza se verifica con el test de Levene, tal como vimos para el caso de comparar dos grupos. Hipótesis H 0 : 12 22 k2 Test Estadístico Distribución bajo Ho F F de Fisher con grados de libertad (k-1, n-k) H1 : al menosuna varianzadifiere Si el valor p del test es mayor que 0,05 entonces aceptamos la hipótesis nula y decimos que se cumple el supuesto de homocedasticidad. Si el valor p fuera menor de 0,05 y entonces no se cumple el supuesto de homogeneidad de varianza. En este caso ya no podremos usar el test F de ANOVA para comparar las medias o tratamientos. Existe un test de comparación de medias que toma en cuenta este problema y se llama el test de Welch. 1 En el libro de Hopkins & Hopkins & Glass aparece una discusión detallada sobre la verificación de supuestos pag. 202207. 8 Salida SPSS para ANOVA TOMATES (continuación) Gráfico Q-Q normal de Altura en cms. Gráfico Q-Q normal de Altura en cms. Para FERTIL= A Para FERTIL= B 1.0 .5 0.0 0.0 Normal esperado .5 -.5 -1.0 30 32 34 36 38 -.5 -1.0 40 40 Valor observado 41 42 43 44 45 46 47 Valor observado Gráfico Q-Q normal de Altura en cms. Para FERTIL= C 1.0 .5 0.0 Normal esperado Normal esperado 1.0 -.5 -1.0 34.5 35.0 35.5 36.0 36.5 37.0 37.5 38.0 38.5 Valor observado Pruebas de normalidad para los tomates con SPSS ALTURA FERTILIZ A A Kolmogorov-Smirnov(a) Estadístico .215 B gl .141 Shapiro-Wilk 5 Sig. .200(*) Estadístico .901 5 .200(*) .200(*) C .237 5 * Este es un límite inferior de la significación verdadera. a Corrección de la significación de Lilliefors gl 5 Sig. .415 .979 5 .928 .961 5 .814 Prueba de homogeneidad de varianzas con SPSS Estadístico de Levene 5.450 gl1 gl2 2 Sig. .061 12 Pruebas robustas de igualdad de las medias Estadístico(a) Welch gl1 22.565 2 a Distribuidos en F asintóticamente. gl2 6.942 Sig. .001 9 Comparaciones múltiples En el ANOVA estamos tratando de comparar varios promedios poblacionales, es decir estamos haciendo comparaciones múltiples. El procedimiento nos indica que primero hacemos un test global para saber si existen diferencias en al menos uno los promedios. Si la respuesta es negativa (es decir aceptamos la hipótesis de que las medias son iguales) no es necesario, ni útil, seguir haciendo comparaciones. Pero si los datos son estadísticamente significativos, entonces la pregunta siguiente es: ¿cuáles medias o grupos difieren? El llamado problema de comparaciones múltiples se debe a que cuando tenemos más de dos grupos a comparar, aumenta el número de pares de comparaciones y el nivel de significación establecido ya no es 0,05 sino mayor. Existe controversia en este tema, pero las revistas de corriente principal en general requieren el uso de métodos de comparaciones múltiples al hacer un ANOVA en sus publicaciones. Existen diferentes métodos de comparaciones múltiples, primero lo más simple sería realizar test t para cada par de medias, esto se conoce como contrastes y "están permitidos" cuando las comparaciones a realizar han sido pre-planeadas en el diseño o protocolo del estudio. Sin embargo, a pesar de poder justificar como pre-planeadas o a- priori, los llamados métodos post-hoc son los más seguros. Los métodos de comparaciones múltiples o post-hoc nos permiten comparar las medias con un nivel de significación global de =0,05. En este curso revisaremos los contrastes (a-priori) y el método de Tukey (post-hoc), SPSS realiza muchos otros métodos que pudieran ser útiles y que siguen la misma filosofía de Tukey. Contrastes Realizar contrastes es equivalente a realizar test t para comparar medias de todos los posibles pares de combinaciones: t yi y j MCD 1 ni 1 nj Donde MCD es la media cuadrática dentro o la estimación de la varianza poblacional. En SPSS tenemos que indicar cuales son los pares a comparar indicándole cuales son los coeficientes de los contrastes. Cada contraste tiene que sumar cero: Coeficientes de los contrastes Fertilizante Contraste 1 A B C 1 -1 0 2 1 0 -1 3 0 1 -1 El contraste 1 equivale a docimar la hipótesis: H 0 :11 1 2 03 0 , es decir H 0 : 1 2 0 :11 0 2 13 0 , es decir H 0 : 1 3 0 El contraste 2 equivale a docimar la hipótesis: H 0 : 01 1 2 13 0 , es decir H 0 : 2 3 0 El contraste 2 equivale a docimar la hipótesis: H 0 10 Pruebas para los contrastes ALTURA Asumiendo igualdad de varianzas Valor del contraste -8.00 Error típico 1.536 t -5.208 12 Sig. (bilateral) .000 2 -1.20 1.536 -.781 12 .450 3 6.80 1.536 4.426 12 .001 Contraste 1 gl Test de Tukey El test de Tukey es bastante conocido y aceptado en la literatura. La prueba estadística que utiliza el método de Tukey es la estadística de rango estudentizado, q, donde q yi y j MCD q ~ q(k , n k ) Existen tablas para la estadística de rango estudentizado pero no las vamos a necesitar, usaremos los resultados de SPSS. Comparaciones múltiples Intervalo de confianza al 95% Error típico 1.536 1.536 Sig. .001 .721 Límite inferior -12.10 -5.30 Límite superior -3.90 2.90 8.00(*) 1.536 .001 3.90 12.10 6.80(*) 1.20 -6.80(*) * La diferencia entre las medias es significativa al nivel .05. 1.536 1.536 1.536 .002 .721 .002 2.70 -2.90 -10.90 10.90 5.30 -2.70 HSD de Tukey (I) Fertilizante A (J) Fertilizante B C B A Diferencia de medias (I-J) -8.00(*) -1.20 C C A B Notar que el error estándar es el mismo, lo que cambia es la distribución que estamos usando como referencia, y por lo tanto cambia el valor- p. Subconjuntos homogéneos Fertilizante N Subconjunto para alfa = .05 1 HSD de Tukey(a) A 2 5 35.20 C 5 36.40 B 5 Sig. 43.20 .721 1.000 Se muestran las medias para los grupos en los subconjuntos homogéneos. a Usa el tamaño muestral de la media armónica = 5.000. Una manera de presentar los resultados es con el gráfico que muestra las medias de cada grupo y sus intervalos de 95% de confianza: Nota final: - El método de Tukey es casi siempre bueno Si se tienen muchos tratamientos y poca planificación (muchas preguntas) Scheffe es el más seguro, pero más exigente Si se tiene un grupo control con el cual se quieren comprar los tratamientos, existe la prueba de Dunnet 11 Pasos en ANOVA de un factor: 1. Describir los grupos y verificar los supuestos, se recomienda una descripción numérica (promedio y error estándar) y descripción gráfica (box) Descripción gráfica de efecto de los fertilizantes en la altura de los tomates 50 50 45 40 40 ALTURA 30 20 N= 5 5 5 A B C 95% IC ALTURA 35 30 25 20 N= 5 5 5 A B C Fertilizante Fertilizante 2. Análisis de los supuestos: Normalidad y Homocedasticidad - Normalidad: Test de Kolmogorov-Smirnov y Shapiro-Wilks - Homocedasticidad: Test de Levene 2a) Si no se obtiene normalidad, se pueden trasformar los datos2 o usar métodos no paramétricos (otro capítulo). 2b) Si no se obtiene homogeneidad de varianza: se pueden trasformar los datos o usar métodos no paramétricos o realizar el Test de Welch (para comparar las medias) 3. Tabla de ANOVA 3a) Si F grande, valor p menor a 0,05 entonces: Test de comparaciones múltiples 3b) Si valor p mayor a 0,05 quiere decir que no hay diferencias estadísticamente significativas entre los promedios y por lo tanto no hay más preguntas. 2 Ver Aron & Aron capítulo 15 12