Escuela Nacional de Estadística e Informática ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA Lima – Perú 2013 Instituto Nacional de Estadística e Informática Escuela Nacional de Estadística e Informática ESTADÍSTICA DESCRIPTIVA PRUEBAS DE COMPARACIONES MÚLTIPLES INTRODUCCIÓN En el ANOVA se trata de comparar varios procedimientos poblacionales, es decir, se hacen comparaciones múltiples. El procedimiento nos indica que primero hacemos una prueba global para saber si existen diferencias en al menos uno de los procedimientos. Si la respuesta es negativa, (es decir, no se rechaza la hipótesis de que las medias son iguales) no es necesario, ni útil, seguir haciendo comparaciones. Pero si los datos nos proveen suficiente evidencia para rechazar la hipótesis de igualdad de medias, entonces la pregunta que surge es ¿cuáles medias o grupos difieren? El llamado problema de comparaciones múltiples se debe a que cuando tenemos más de dos grupos a comparar, aumenta el número de pares de comparaciones y el nivel de significación α establecido ya no es 0,05 sino mayor. Existen diferentes métodos de comparaciones múltiples, primero lo más simple sería realizar pruebas t para cada par de medias, esto se conoce como contrastes y "están permitidos" cuando las comparaciones a realizar han sido pre-planeadas en el diseño o protocolo del estudio. Sin embargo, a pesar de poder justificar como pre-planeadas o a- priori, los llamados métodos posthoc son los más seguros. Los métodos de comparaciones múltiples o post-hoc nos permiten comparar las medias con un nivel de significación global de 𝛼 = 0,05 A. COMPARACIONES BASADAS EN LA DISTRIBUCIÓN t CONTRASTE LSD O DE MÍNIMA DIFERENCIA SIGNIFICATIVA Las pruebas estadísticas para comparaciones múltiples más frecuentemente utilizadas se basan en la distribución t de Student. Supongamos que interesa comparar por parejas los efectos de I tratamientos. Es decir, nos interesa contrastar cualquier hipótesis de la forma: 𝐻0 : 𝜇𝑖 = 𝜇𝑗 𝐻1 : 𝜇𝑖 ≠ 𝜇𝑗 Numero de Pagina: 2 Total de Paginas:7 Instituto Nacional de Estadística e Informática Escuela Nacional de Estadística e Informática ESTADÍSTICA DESCRIPTIVA La técnica más antigua y popular para efectuar estas comparaciones múltiples es el procedimiento LSD (Least Significant Difference) o el contraste de mínima diferencia significativa. Este procedimiento fué sugerido por Fisher en 1935 y es el primer método de comparaciones múltiples que vamos a utilizar. Dicho procedimiento consiste en una prueba de hipótesis por parejas basada en la distribución t. Este método debe aplicarse cuando previamente se haya rechazado la hipótesis nula del test F del análisis de la varianza. Para ello, se determina el siguiente estadístico 𝑦̅𝑖 − 𝑦̅𝑗 𝑡= 1 1 √𝑀𝐶𝐷 (𝑛 + 𝑛 ) 𝑖 𝑗 Donde MCD es la media cuadrática dentro o la estimación de la varianza poblacional. Este estadístico sigue una distribución t de Student con N-1 grados de libertad. Por lo tanto se concluye que la pareja de medias 𝜇𝑖 𝑦 𝜇𝑗 son estadísticamente diferentes si: |𝑦̅𝑖 − 𝑦̅𝑗 | > 𝐿𝑆𝐷 Donde la cantidad LSD, denominada mínima diferencia significativa viene dada por: 𝐿𝑆𝐷 = 𝑡𝛼⁄2,𝑁−1 √𝑀𝐶𝐷 ( 1 1 + ) 𝑛𝑖 𝑛𝑗 Siendo. 𝑛𝑖 𝑦 𝑛𝑗 : Número de observaciones correspondientes a cada media. N-1 El número de grados de libertad de la varianza residual. 𝑡𝛼⁄2,𝑁−1 : Valor crítico de la distribución t con N-1 grados de libertad Observaciones Un problema que presenta la aplicación de este procedimiento, para un número relativamente grande de tratamientos, es que el número de posibles falsos rechazos de la hipótesis nula puede ser elevado aunque no existan diferencias reales. Puede suceder que el método LSD falle al aceptar que todas las parejas son iguales, a pesar de que el estadístico F del análisis de la varianza Numero de Pagina: 3 Total de Paginas:7 Instituto Nacional de Estadística e Informática Escuela Nacional de Estadística e Informática ESTADÍSTICA DESCRIPTIVA resulte significativo; esto es debido a que la prueba F considera simultáneamente todas las posibles comparaciones entre las medias de los tratamientos y no sólo las comparaciones por parejas. MÉTODO DE BONFERRONI En este procedimiento se elige un nivel de significancia α que se reparte entre cada una de las comparaciones consideradas y se utiliza la desigualdad de Bonferroni: 𝑀 𝑃𝑟 ( ⋃ 𝐴𝑚 ) ≤ ∑ 𝑚=1 𝑀 𝑃𝑟(𝐴𝑚 ) 𝑚=1 Controla la tasa de error dividiendo el nivel de significación entre el número de comparaciones (k) llevadas a cabo. Cada comparación se evalúa utilizando un nivel de significación B. PRUEBAS DE RANGOS MÚLTIPLES Estos contrastes se basan en la distribución del rango estudentizado, cuya definición se realiza en términos del número de grupos que hay que comparar y de los grados de libertad del estimador de la varianza. Estos procedimientos, al igual que el procedimiento de Bonferroni, permiten superar las dificultades que surgen al aumentar el número de grupos a comparar y no poderse controlar los falsos rechazos de la hipótesis nula. Los métodos resultantes, en términos generales, son conservadores; es decir, la probabilidad real de rechazar la hipótesis nula cuando es cierta es menor que el nivel de significancia α fijado. MÉTODO DE TUCKEY En este modelo vamos a construir intervalos de confianza con coeficiente de confianza conjunto 1 − α para todas las posibles comparaciones por parejas 𝐼 asociadas a los I niveles, es decir las ( ) comparaciones por parejas. 2 El nivel de confianza conjunto 1 − α indica que de cada 100 muestras en (1 − α) × 100 de ellas, cada uno de los intervalos contiene a su correspondiente diferencia de medias. Por tanto el nivel de confianza de cada uno de los intervalos será al menos 1 – α. Numero de Pagina: 4 Total de Paginas:7 Instituto Nacional de Estadística e Informática Escuela Nacional de Estadística e Informática ESTADÍSTICA DESCRIPTIVA PRUEBA DE RANGO MÚLTIPLE DE DUNCAN El segundo procedimiento de comparaciones múltiples considerado en esta sección es el test de rango múltiple de Duncan. Es un procedimiento iterativo en el cual se intenta comprobar la igualdad de medias basándose en las más extremas. Es similar al procedimiento HSD de Tukey excepto que el nivel de significancia varía de unas comparaciones a otras. Este contraste utiliza la distribución del recorrido estudentizado. Se diferencia de ese test en que su aplicación es secuencial, en el sentido de no utilizar un único valor crítico para todas las diferencias de medias, como el de Tukey, sino un valor crítico que depende del número de medias comprendido entre las dos medias que se comparan, habiendo ordenado previamente las medias en orden creciente. Consideremos, en primer lugar, el modelo equilibrado y después generalizaremos para el caso noequilibrado. MÉTODO DE SCHEFFÉ PARA LA COMPARACIÓN DE TODOS LOS CONTRASTES En muchas situaciones, los experimentadores pueden no conocer de antemano cuáles son los contrastes que quieren comparar, o pueden tener interés en más de a-1 posibles comparaciones. En muchos experimentos de exploración, las comparaciones de interés sólo se descubren después del examen preliminar de los datos. Scheffé ha propuesto un método para comparar todos y cada uno de los contrastes posibles entre las medias de los tratamientos. Este método, basado en la distribución F permite controlar la tasa de error para el conjunto total de comparaciones que es posible diseñar con j medias (una con otra, una con todas las demás, dos con dos, etc.) Utilizado para efectuar sólo comparaciones por pares es un método muy conservador; tiende a considerar significativas menos diferencias de las que debería. C. COMPARACIÓN DE MEDIAS DE TRATAMIENTOS CON UN CONTROL En muchos experimentos, uno de los tratamientos es un control y el analista se interesa en comparar cada una de las medias de los a-1 tratamientos restantes con el control. Por lo tanto, sólo es necesario hacer a-1 comparaciones. Un procedimiento para hacer estas comparaciones ha sido desarrollado por Dunnett. Permite efectuar tanto contrastes bilaterales como unilaterales. Numero de Pagina: 5 Total de Paginas:7 Instituto Nacional de Estadística e Informática Escuela Nacional de Estadística e Informática ESTADÍSTICA DESCRIPTIVA MÉTODO DE DUNNETT Dunnet(1955), desarrolla un procedimiento para comparar un tratamiento control (testigo) con otros tratamientos. Sea 𝜇𝑇 y 𝜇𝑖 (𝑖 = 1, 2, … , 𝑎) las medias poblacionales del control y de las demás 𝑎 − 1 tratamientos y 𝑛 𝑇 y 𝑛𝑖 las correspondientes replicaciones. Para la totalidad de los L contrastes se tiene que: 1 1 𝑃𝑟 [|𝐿 − 𝐿̂| < 𝑑𝑎,𝑔𝑙,𝛼 √( + ) 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 ] = 1 − 𝛼 𝑛𝑖 𝑛 𝑇 Con un nivel 𝛼 de significancia se rechaza 𝐻0 si: 1 1 |𝑦̅𝑖 − 𝑦̅𝑇 | ≥ 𝑑𝑎,𝑔𝑙,𝛼 √( + ) 𝐶𝑀𝐸𝑟𝑟𝑜𝑟 𝑛𝑖 𝑛 𝑇 Observación Es conveniente utilizar una mayor cantidad de observaciones en el tratamiento control que en los otros tratamientos. ALGUNOS COMENTARIOS SOBRE COMPARACIONES MÚLTIPLES Las pruebas de Tukey y de Duncan tienen bases muy semejantes, sin embargo, la prueba de Duncan da diferencias significativas con más facilidad, ya que al formular un nivel de significancia del 5 % la probabilidad de que un contraste incluya dos medias exige una probabilidad del 95 % de que no se encuentre significancia en una diferencia realmente nula, para el caso de tres medias la probabilidad será de (0,95)2 , en el caso de t medias la probabilidad será de (0,95)𝑡−1 ; en tanto que la prueba de Tukey es más exigente, mantiene siempre una probabilidad de (0; 95) de no encontrar significancia en una diferencia realmente nula entre todas las medias de los tratamientos. La prueba de Duncan aplicada ampliamente no es muy rigurosa, por lo cual debe ser usada con mucha cautela. Así la prueba de Duncan es un intermedio entre el excesivo rigor de la prueba de Tukey y la falta de rigor de la prueba t-student. Según Carmer y Swanson, quienes han realizado estudios de simulación de Montecarlo con varios procedimientos de comparaciones múltiples, reportaron que el método de la diferencia significativa mínima es una prueba muy eficaz para detectar diferencias reales en las medias si se aplica sólo después de que la prueba F en el análisis de varianza sea significativa en 5%. Reportan así mismo, un buen desempeño en la detección de diferencias reales con la prueba de rango múltiple de Duncan. Sin embargo, estos métodos no incluyen el índice de error en el Numero de Pagina: 6 Total de Paginas:7 Instituto Nacional de Estadística e Informática Escuela Nacional de Estadística e Informática ESTADÍSTICA DESCRIPTIVA modo del experimento. Debido a que el método de Tuckey efectúa un control sobre el índice de error global, muchos experimentadores prefieren su uso. Numero de Pagina: 7 Total de Paginas:7