08/04/11 Estadística Análisis de la varianza de un factor (ANOVA) Tests a posteriori Prof, Dr. Jose Jacobo Zubcoff Departamento de Ciencias del Mar y Biología Aplicada Estadística ANOVA Ejemplo de problema a resolver: Uno de los focos de contaminación del agua en la Laguna del Mar Menor lo constituyen los vertidos agrícolas procedentes de las cuencas vertientes, ricos en fósforo. Se espera que comparando los niveles de esta laguna con la de otras tres con parecidas características el hecho resultará evidente. Hipótesis: H 0 : No existen diferencias entre las k lagunas H 1 : Hipótesis nula no cierta (al menos alguna laguna es diferente al resto) 1 08/04/11 Estadística ANOVA ¿Qué es y para que sirve? Compara la distribución de una variable continua normal en dos o más poblaciones (niveles o categorías) Pruebas de contraste para dos o más grupos independientes (ANOVA entre sujetos): un factor completamente aleatorizado. Estadística ANOVA • En el tema anterior vimos el empleo de la prueba t para efectuar pruebas de contraste de medias para dos grupos, ya fueran tales grupos relacionados o no relacionados. • El problema es que la prueba t se puede emplear únicamente para el caso de comparar las medias dos grupos. Sin embargo, en muchos casos queremos comparar simultáneamente dos o más grupos. • La solución es el empleo del Análisis de Varianza (ANOVA: ANalysis Of VAriance). El ANOVA sirve para el caso de dos, tres, cuatro,..., grupos, ya sean éstos grupos relacionados o grupos no relacionados. 2 08/04/11 Estadística ANOVA H0: No existen diferencias entre los k niveles H1: La hipótesis nula no es cierta Hipótesis nula: (todas las medias poblacionales de los “k" grupos son iguales) H0: µ1=µ2=µ3...=µa=µ Hipótesis alternativa: (al menos una media poblacional difiere) H1: No es cierto H0 • Parte de un conjunto de observaciones muestrales • K niveles o categorías Estadística ANOVA Supongamos un universo de notas de 9 alumnos de 3 grupos distintos Grupo 1 Grupo 2 Grupo 3 No hay diferencia ENTRE grupos Ni DENTRO de los grupos 5 5 5 5 5 5 5 5 5 Xi,j = µ 3 08/04/11 Estadística ANOVA Supongamos que aplicamos un método de enseñanza (factor) que afecta: Grupo 1 Grupo 2 Grupo 3 5+1=6 5+2=7 5+0=5 5+1=6 5+2=7 5+0=5 5+1=6 5+2=7 5+0=5 Xi,j = µ + αi Donde αi = {1,2,0} efecto del factor El factor influye en establecer diferencias ENTRE grupos Pero NO DENTRO Estadística ANOVA • Por razones ALEATORIAS algunos alumnos rinden mas que otros Grupo 1 Grupo 2 Grupo 3 5+1-1 = 5 5+2+2 = 9 5+0+3 = 8 5+1-2 = 4 5+2+0 = 7 5+0+4 = 9 5+1+0 = 6 5+2+1 = 8 5+0+0 = 5 Xi,j = µ + αi + εi,j Donde εi,j= {-1,-2,0,2,0,1,3,4,0} efecto aleatoriedad La ALEATORIEDAD influye en la variabilidad DENTRO de los grupos 4 08/04/11 ANOVA Grupo 1 5+1-1 = 5 5+1-2 = 4 5+1+0 = 6 X1.= 5 Grupo 2 5+2+2 = 9 5+2+0 = 7 5+2+1 = 8 X2. = 8 Grupo 3 5+0+3 = 8 5+0+4 = 9 5+0+0 = 5 X3. = 7.33 X = 6.78 .. Calculamos las medias por grupo y la media global ANOVA Grupo 1 5 4 6 X1.= 5 Grupo 2 9 7 8 X2. = 8 Grupo 3 8 9 5 X3. = 7.33 X = 6.78 .. Para calcular el efecto aleatorio: diferencias DENTRO "" ( ) 2 k ni ( ) 2 k ( ) X ij # X.. = " " X ij # X i. + " n i X i. # X.. i=1 j=1 i=1 2 ! 5 08/04/11 ANOVA Grupo 1 5 4 6 X1.= 5 Grupo 2 9 7 8 X2. = 8 Grupo 3 8 9 5 X3. = 7.33 X = 6.78 .. Para calcular el efecto del factor: diferencias ENTRE "" ( X ) 2 k ni ( ) 2 k ( ) + " n i X i. # X.. ij # X.. = " " X ij # X i. i=1 j=1 i=1 2 ! Estadística ANOVA Tenemos dos tipos de variabilidad: – ENTRE grupos (debida al factor) – DENTRO grupos (debida a la aleatoriedad) Para poder afirmar que el factor produce efectos: La variabilidad ENTRE grupos debe ser significativamente grande respecto a la DENTRO grupos 6 08/04/11 Estadística ANOVA µ ε Xi,j = + αi + i,j Asumiendo las hipótesis previas: H0: α1= α2= … = αk O bien si consideramos H 0: µ 1= µ 2= … = µ k Xi,j = µ + αi Se quiere comprobar la NO INFLUENCIA del factor α v Todas las muestras proceden de la misma población Estadística ANOVA: Análisis de la varianza de un factor: Modelo lineal: Xij = µi + eij eij es función de la varianza de la población: f(X) µ Xij 0 eij X f(e) e = X - µi 7 08/04/11 Estadística ANOVA f(X1j) f(X1j) µ1 X1j X1j µ1 A 1 f(X2j) f(X2j) µ2 X2j f(Xaj) A2 µ2 X2j f(Xaj) µa Xaj Xaj µa Aa µ µ Estadística Análisis de la varianza de un factor: Si H0 es falsa è las medias de cada población difieren en un valor Ai Modelo lineal: Xij = µ + Ai + eij La H0 es entonces la siguiente: H0 = A1 = A2 = … = Ai = … = Aa = 0 H0 = ∑ Ai2 = 0 Se quiere comprobar la INFLUENCIA del factor A **Todas las muestras proceden de la misma población 8 08/04/11 Estadística ANOVA SCTotal Q = SCDentro + SCEntre = QD + QE Estimación insesgada de σi2 = Q/(n-1) Estimación de la variabilidad ENTRE = QE/(k-1) Estimación de la variabilidad DENTRO = QD/(n-k) Estimación de la variabilidad TOTAL Por simplicidad usamos: Suma de cuadrados DENTRO QD = Estadística ANOVA H0: µ1= µ2= … = µ k H1: Al menos una igualdad no es cierta • Según la Hipótesis fijada => modelo probabilístico NO se rechaza H0 si: 9 08/04/11 Estadística Análisis de la varianza de un factor: Construcción del estadístico de contraste: MCENTRE / MCDENTRO sigue una distribución F Solo hay un valor crítico. La variable F es una t al cuadrado, de ahí que sólo haya una cola. Probabilidad p 1 Si el Fcalc > Fcrit para (a-1) y a(n-1) g.l., se rechaza H0: al menos una de las medias Xi es significativamente diferente de las demás Estadística ANOVA Fuentes de Sumas de cuadrados variación QE = ∑ ni ( X i. − X .. ) k–1 i =1 ni k F i =1 j =1 k ∑ (n − 1)S QE / k − 1 = S 2 E QE F= 2 QD = ∑∑ (X ij − X i. ) = DENTRO Cuadrados Medios 2 k ENTRE G.L. n–k QD / n − k = S D2 n–1 Q / n −1 = S 2 2 i QD Signif. P-valor k −1 n−k i =1 k TOTAL ni Q = ∑∑ (X ij − X .. ) i =1 j =1 Si H0 es falsa, MCENTRE > MCDENTRO è MCENTRE / MCDENTRO > 1 10 08/04/11 Estadística ANOVA Hipótesis necesarias para realizar un ANOVA a) Normalidad de la respuesta en cada nivel b) Homogeneidad de las varianzas c) Independencia de los valores obtenidos Asumiendo los requisitos previos, hacemos el contraste para ANOVA: H 0: µ 1= µ 2= … = µ k H1: Al menos una igualdad no es cierta Estadística ANOVA REQUISITOS DE ANOVA: Homogeneidad de varianzas: f(x1) f(x2) f(x1) µ f(x2) µ f(x3) µ µ f(x3) µ µ Cuando varianzas ≠, se incrementa el error Tipo I 11 08/04/11 Estadística ANOVA REQUISITOS DE ANOVA: Homogeneidad de varianzas: Test de heterogeneidad de varianzas: Bartlett -> high alfa, sensible a NO normalidad Levene -> es una ANOVA para VAR. Asume var iguales!! Scheffe -> insensible a NO normalidad, pero no lo recomnieda … Hartley -> problema cuando 1 var es pequeña…. … etc. Test de Cochran Gexpt = mayor si2 ∑ si 2 • Condición: Tamaños muestrales iguales (balanceado) • La distribución G para (n-1) g.l. y k (tratamientos) ha sido tabulada • No rechazamos H0 (homogeneidad de varianzas) si Gexp t < Gn −1, k ,α Estadística ANOVA REQUISITOS DE ANOVA: Homogeneidad de varianzas: Test de Bartlett: • Pros: Tamaños de n desiguales (no balanceado) • Contas: high alfa, sensible a NO normalidad • Test basado en Chi-cuadrado • Calcula una ponderación de las varianzas estimadas: • El estadístico sería: Siendo C = 1+ M exp t = 1 ⎡⎛ k 1 ⎞ 1 ⎤ ⎟ − ⎢⎜ ∑ ⎥ 3(k − 1) ⎣⎜⎝ i =1 ni − 1 ⎟⎠ n − k ⎦ k S D2 = ∑ (n − 1)S i 2 i i =1 n−k k 1 ⎡ (n − k )Ln S D2 − ∑ (ni − 1)Ln Si2 ⎤⎥ ⎢ C ⎣ i =1 ⎦ ( ) No rechazamos H0 si ( ) M exp t < χ k2−1,α 12 08/04/11 Estadística ANOVA REQUISITOS DE ANOVA: Homogeneidad de varianzas: Test de homogeneidad Varianzas homogéneas Varianzas no homogéneas ANOVA Transformación de datos Conteos (o datos que siguen una dist. de Poisson) è √ (X + 1) Ratios, tasas, concentraciones, etc. è log (X) o log (X + 1) Porcentajes y proporciones è sen-1 √ X (= arcsen X) Estadística ANOVA REQUISITOS DE ANOVA: Homogeneidad de varianzas: Si la transformación de datos no soluciona el problema, y estamos ante alguna de las siguientes situaciones: • Situaciones biológicas que presentan varianzas heterogéneas: gran agrupación de organismos. • Cuando son experimentos bien replicados: el análisis de la varianza es suficientemente robusto. • Experimentos grandes y balanceados. • La validez del test y probabilidades asociadas con la distribución de la F ratio no se ven muy afectadas. 13 08/04/11 Estadística ANOVA REQUISITOS DE ANOVA: Homogeneidad de varianzas: Test de homogeneidad Varianzas homogéneas Varianzas no homogéneas ANOVA Transformación de datos Si se acepta H0 (p > 0,05), no hay problema Si se rechaza H0, considerar αc = 0,01 Utilizar un test no paramétrico (p.ej. Kruskal-Wallis) no soluciona el problema Estadística ANOVA REQUISITOS DE ANOVA: Normalidad de los datos El análisis de la varianza es bastante robusto a las desviaciones de la normalidad, sobre todo cuando: • hay un gran número de tratamientos y / o réplicas; • los datos están equilibrados. Las transformaciones a menudo corrigen el apuntamiento, pero solo deben hacerse cuando NO hay homogeneidad de varianzas. NUNCA ante la falta de NORMALIDAD. 14 08/04/11 Estadística ANOVA Ejemplo 1: Uno de los focos de contaminación del agua en la Laguna del Mar Menor lo constituyen los vertidos agrícolas procedentes de las cuencas vertientes, ricos en fósforo. Para tratar de verificar esta sospecha, se han medido los niveles diversos puntos de la laguna y en el de resto de lagunas. Lago 1 Lago 2 Lago 3 Lago 4 7.1 7.2 5.6 7.2 8.5 6.5 7.1 6.6 6.2 5.9 6.3 6.3 7.3 7.8 6.7 7.4 7.9 6.4 6.5 6.5 ¿Es suficientemente importante esta diferencia como para concluir que el nivel de fósforo en el Mar Menor es diferente al de los demás? Estadística ANOVA 1. Hipótesis del contraste: H 0 : No existen diferencias entre las k lagunas H 1 : Hipótesis nula no cierta (al menos alguna laguna es diferente al resto) (alfa:0.05) H 0 : µ1 = µ 2 = µ3 = µ 4 H1 : Al menos una igualdad no es cierta 2. Verificar hipótesis del modelo (…) • Independencia de los valores observados (comprobar) • Normalidad (para cada grupo test –ej. KS-) • Homogeneidad de las Varianzas (Test de Cochran): 0.75 Gexpt = = 0.408 Max(si2) 1.84 Como Gexpt < Punto Crítico Gexpt = ∑ si 2 No se puede mostrar la No se puede mostrar la imagen. Puede que su VARIANZAS IGUALES 15 08/04/11 Estadística ANOVA 3. Desarrolla el contraste a) Estadísticos: n ̅X S² S No se puede mostrar la imagen. Puede que su equipo no tenga suficiente memoria para abrir la imagen o que ésta esté dañada. Reinicie el i de nuevo. Si sigue apareciendo i i equipo y, a continuación, abra el archivo la x roja, puede que tengai que borrar la imagen e insertarla de nuevo. Lago 1 Lago 2 Lago 3 Lago 4 No se puede mostrar la imagen. Puede que su equipo no tenga suficiente memoria para abrir la imagen o que ésta esté dañada. Reinicie el equipo y, a continuación, abra el archivo de nuevo. Si sigue apareciendo la x roja, puede que tenga que borrar la imagen e insertarla de nuevo. k =4 n = n1 + n2 + n3 + n4 = 20 No se puede mostrar la imagen. Puede que su equipo no tenga suficiente memoria para abrir la imagen o que ésta esté dañada. Reinicie el equipo y, a continuación, abra el archivo de nuevo. Si sigue apareciendo la x roja, puede que tenga que borrar la imagen e insertarla de nuevo. Estadística ANOVA b) Tabla ANOVA: Fuentes de Sumas de variación cuadrados ENTRE 2.41 DENTRO 7.34 TOTAL 9.75 4 2 QE = ∑ ni ( X i. − X .. ) i =1 4 QD = ∑ (ni − 1)Si2 Grados de Libertad Cuadrados Medios F Signif. QE = 5 ⋅ (7.40 − 6.85) 2 + ..... + 5 ⋅ (6.80 − 6.85) 2 = 2.41 QD = (5 −1) ⋅ 0.75 + ..... + (5 −1) ⋅ 0.23 = 7.34 i =1 4 5 Q = ∑∑ (X ij − X .. ) Q = QE + QD = 2.41 + 7.34 = 9.75 i =1 j =1 16 08/04/11 Estadística ANOVA b) Tabla ANOVA: Fuentes de Sumas de variación cuadrados Grados de Libertad Cuadrados Medios ENTRE 2.41 3 0.802 DENTRO 7.34 16 0.459 TOTAL 9.75 19 0.513 GLE = k −1 = 4 −1 = 3 S E2 = F Signif. GL = n − 1 = 20 − 1 = 19 GLD = n − k = 20 − 4 = 16 QE 2.41 Q 7.34 = = 0.802 S D2 = D = = 0.459 k −1 3 n−k 16 S2 = Q n −1 = 9.75 = 0.513 19 Estadística ANOVA b) Tabla ANOVA: Fuentes de Sumas de variación cuadrados Grados de Libertad Cuadrados Medios ENTRE 2.41 3 0.802 DENTRO 7.34 16 0.459 TOTAL 9.75 19 0.513 QE Fexp t = QD k − 1 = 0.802 = 1.747 0.459 n−k Fc ⇒ Fk −1,n − k ,α = F3,16, 0.05 F Signif. 1.747 0.198 NO RECHAZO Fexp t = 1.747 < 3.24 = F3,16,0.05 p − valor = P( F3,16 > Fexp t ) = 0.1977 (Obtenido con R) 17 08/04/11 Estadística Tema 9 Test a posteriori (para ANOVA) Estadística Test a posteriori Comparaciones múltiples • NOTA (ANOVA): en caso de rechazar la hipótesis nula se hace necesario efectuar hipótesis específicas. • Hemos de efectuar contrastes entre medias. Estos pueden ser : • Contrastes Simples (cuando involucran únicamente dos medias) • Contrastes Complejos (cuando involucran tres o más medias). • Empleando otro criterio, los contrastes pueden ser: • "a priori" (cuando se plantean antes de analizar los datos) • "a posteriori" (cuando se plantean una vez vistos los datos) 18 08/04/11 Estadística Test a posteriori Comparaciones múltiples Al hacer varias comparaciones estamos aumentando la probabilidad de error de tipo I. Es decir, si hacemos un ANOVA, la probabilidad de rechazar la hipótesis nula siendo cierta es 0'05. Pero si en cada una de los contrastes empleamos un α = 0'05, ello quiere decir que al hacer los 3 contrastes de arriba, la probabilidad de cometer algún error de tipo I en el experimento es mayor de 0'05. (De manera análoga que comprar muchos billetes de lotería aumenta nuestras posibilidades de tener premio.) Por tanto, se precisa controlar la probabilidad de error tipo I en cada contraste, que será menor que 0'05. Estadística Test a posteriori Comparaciones múltiples Existen varias pruebas que permiten controlar el error tipo I en el experimento. Tales pruebas dependen de si los contrastes son "a priori" o "a posteriori", y de si los contrastes son simples o complejos. • Cuando todos los contrastes son simples y queremos efectuar todas las comparaciones "a priori" (o bien algunas -o todas las- comparaciones "a posteriori"), la prueba más popular es la prueba de Tukey, que R calcula fácilmente. Cuando tenemos unos pocos contrastes "a priori" (i.e., k-1 contrastes o menos), la prueba recomendada es la de Bonferroni. -Cuando tenemos contrastes "a posteriori" y alguno de ellos es complejo, hemos de efectuar la prueba de Scheffé. Hay muchas otras pruebas de comparaciones múltiples, como podéis ver en el R. 19 08/04/11 Estadística Test a posteriori a priori (antes de realizar el experimento) Dos tipos de definición de HA a posteriori (no propongo alternativas hasta haber realizado el experimento) Ejemplo de comparación a priori: H 0: µ 1 = µ 2 = µ 3 = µ 4 HA: µ3 > µ1; µ3 > µ2; µ3 > µ4 Los tests a priori son más potentes, pero están sometidos a mayor riesgo de error Ej: Dunn Sidak Estadística Test a posteriori Tests a posteriori Comparan todos los posibles pares de medias entre sí, de tal modo que definen la alternativa a la H0 Subconjuntos Homogéneos • Únicamente podrá definirse una HA sin ambigüedad en el caso de que se los distintos tratamientos se reúnan en grupos tales que: 1. no haya diferencias entre las medias dentro de un grupo, y 2. cada media en un grupo difiere de todas las medias del otro grupo • Uno de los tests más utilizados es el de Student-Newman-Keuls (SNK) • Otros tests utilizables: Scheffe Tukey LSD Bonferroni … etc. 20 08/04/11 Estadística Test a posteriori Bonferroni Test que realiza comparaciones dos a dos basado en el contraste de diferencias de medias, σ2 desconocidas pero iguales: Xi − X j Sd 1 1 + ni n j < tn−k ,α / K ⇒ No Re chazo 2 Siendo: S D = QD n−k Como interesa mantener Alfa por debajo del nivel predeterminado, se corrige utilizando para cada nivel K, (constante de penalización): ⎛ k ⎞ k! K = ⎜⎜ ⎟⎟ = 2 ( k − 2)!2! ⎝ ⎠ Nº de posibles comparaciones OJO: Test conservador que detecta menos diferencias de las reales. No se recomienda cuando existen muchos niveles Estadística Test a posteriori Otros test: Existen otros test basados también en comparaciones de diferencias de medias tomadas dos a dos. Entre otros: Fisher LSD (diferencia mínima significativa): Test aplicado cuando no es necesario el incremento del error Tipo I (aplicación directa del test tStudent): No se aplica penalización (no conservador). Usado para pocas comparaciones. Tukey HSD (diferencia significativa honesta): Aplica penalización (conservador). Utiliza el llamado estadístico de rango studerizado qk , glerror ,α 21 08/04/11 Estadística Test a posteriori Estadística Test a posteriori Tukey: Ejemplo con R Si aplicamos Tukey con R con los datos del E.1 del T. 8 (rechazaba H1) Lago3-Lago2 Lago3-Lago1 95% family-wise confidence level Lago4-Lago3 OJO: ERAN MEDIAS IGUALES -2 -1 0 1 Differences in mean levels of grupo 22 08/04/11 Estadística Test a posteriori H0 no se rechaza (Test no significativo) Se rechaza H0 (Test significativo) 95% family-wise confidence level -2 -1 0 Lago4-Lago3 Lago4-Lago3 Lago3-Lago2 Lago3-Lago2 Lago3-Lago1 Lago3-Lago1 95% family-wise confidence level 1 -3 -2 -1 0 1 Differences in mean levels of grupo Differences in mean levels of grupo Estadística ANOVA y Test a posteriori Ejemplo 2: Si se parte del mismo supuesto del ejemplo 1, pero con los datos que se adjuntan a continuación: Lago 1 Lago 2 Lago 3 Lago 4 7.8 7.2 5.6 7.2 9.2 6.5 7.1 6.6 6.9 5.9 6.3 6.3 8 7.8 6.7 7.4 8.6 6.4 6.5 6.5 ¿Es suficientemente importante esta diferencia como para concluir que el nivel de fósforo en el Mar Menor (Lago1) es diferente al de los demás? 23 08/04/11 Estadística ANOVA y Test a posteriori 1. Hipótesis del contraste: H 0 : No existen diferencias entre las k lagunas H 1 : Hipótesis nula no cierta (alguna laguna es diferente al resto) (alfa:0.05) H 0 : µ1 = µ 2 = µ3 = µ 4 H1 : Al menos una igualdad no es cierta 2. Verificar hipótesis del modelo (…) • Independencia de los valores observados (comprobar) • Normalidad (para cada grupo test –ej. KS-) • Homogeneidad de las Varianzas (Test de Cochran): 0.75 Gexpt = = 0.408 Max(si2) 1.84 Como Gexpt < Punto Crítico Gexpt = ∑ si 2 No se puede mostrar la No se puede mostrar la imagen. Puede que su VARIANZAS IGUALES Estadística ANOVA y Test a posteriori 3. Desarrolla el contraste a) Estadísticos: Lago 1 Lago 2 Lago 3 Lago 4 5 5 5 5 k =4 n = n1 + n2 + n3 + n4 = 20 1 k ni X .. = ∑∑ X ij = 7.03 n i =1 j =1 ̅Xi 8.10 6.76 6.44 6.80 S²i 0.75 0.55 0.31 0.23 Si 0.87 0.74 0.55 0.47 5.5 6.0 6.5 7.0 7.5 8.0 8.5 9.0 ni lago1 lago2 lago3 lago4 24 08/04/11 Estadística ANOVA y Test a posteriori b) Tabla ANOVA: Fuentes de Sumas de variación cuadrados ENTRE 8.09 DENTRO 7.34 TOTAL 15.43 4 2 QE = ∑ ni ( X i. − X .. ) Grados de Libertad Cuadrados Medios F Signif. QE = 5 ⋅ (8.10 − 7.03) 2 + ..... + 5 ⋅ (6.80 − 7.03) 2 = 8.09 i =1 4 QD = (5 −1) ⋅ 0.75 + ..... + (5 −1) ⋅ 0.23 = 7.34 QD = ∑ (ni − 1)Si2 i =1 4 5 Q = ∑∑ (X ij − X .. ) Q = QE + QD = 8.09 + 7.34 = 15.43 i =1 j =1 Estadística ANOVA y Test a posteriori b) Tabla ANOVA: Fuentes de Sumas de variación cuadrados Grados de Libertad Cuadrados Medios ENTRE 8.09 3 DENTRO 7.34 16 0.459 TOTAL 15.43 19 0.812 GLE = k −1 = 4 −1 = 3 S E2 = QE 8.09 = = 2.70 k −1 3 Signif. 2.70 GLD = n − k = 20 − 4 = 16 S D2 = F QD 7.34 = = 0.459 n−k 16 GL = n − 1 = 20 − 1 = 19 S2 = Q n −1 = 15.43 = 0.812 19 25 08/04/11 Estadística ANOVA y Test a posteriori b) Tabla ANOVA: Fuentes de Sumas de variación cuadrados Grados de Libertad Cuadrados Medios F Signif. 2.70 5.878 p<0.01 ENTRE 8.09 3 DENTRO 7.34 16 0.459 TOTAL 15.43 19 0.812 QE Fexp t = QD k − 1 = 2.70 = 5.878 0.459 n−k Fc ⇒ Fk −1,n − k ,α = F3,16, 0.05 RECHAZO Fexp t = 5.878 > 3.24 = F3,16,0.05 p − valor = P( F3,16 > Fexp t ) = 0.006648 (Obtenido con R) Estadística ANOVA y Test a posteriori c) Test a posteriori (aplicación Bonferroni): QD SD = = 0.459 = 0.677 n−k ⎛ k ⎞ ⎛ 4 ⎞ 4! K = ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ = =6 ⎝ 2 ⎠ ⎝ 2 ⎠ (4 − 2)!2! tij = Xi − X j SD 1 1 + ni n j ⇒ t12 = 8.10 − 6.76 = 4.945 1 1 0.677 + 5 5 (Obtenido con R: pt(t,n-k,lower.tail=false) Muestras 1 1 1 2 2 3 y2 y3 y4 y3 y4 y4 Dif.med. 1.34 1.66 1.30 0.32 -0.04 -0.36 tij t16, 0. 05/6 4.945 6.126 4.797 1.181 0.148 1.328 Signif. Signif. Signif. No signif. No signif. No signif. p-valorij aprox. p<0.005 p<0.005 p<0.005 0.1<p<0.25 p>0.25 0.1<p<0.25 p-valorij 0.000073 0.000007 0.000099 0.127 0.442 0.101 Recuerda: Tanto tc como p-valor se pueden aproximar a partir de la tabla de t. ............................................................ tc = t n − k ,α / K = t16, 0.0083 = 2.673228 (Obtenido con R: qt(1-0.00833,16) 26 08/04/11 Estadística ANOVA y Test a posteriori c) Test a posteriori (aplicación Tukey con R): Lago4-Lago3 Lago3-Lago2 Lago3-Lago1 95% family-wise confidence level -3 -2 -1 0 1 Differences in mean levels of grupo Estadística ANOVA y Test a posteriori Comandos de R: 1. Contraste de bondad de ajuste a una normal: ks.test(nivel,“pnorm”, mean=mean(nivel), sd=sd(nivel)) 2. Homogeneidad de varianzas Test de Cochran: #Construimos una tabla con las varianzas de los grupos: varianzas<-tapply(variable,factor,var) gexpt <- max(varianzas)/sum(varianzas) #Estadísticio experimental qcochran(0.95,6,4) #Punto crítico Test Cochran alternativo: (cargar previamente librería con “library(outliers)”) cochran.test(variable~factor,data=datos) Test Bartlett: bartlett.test(variable~factor) 27 08/04/11 Estadística ANOVA y Test a posteriori Comandos de R: 3. ANOVA: Test ANOVA: aov(variable~(factor)) 4. Compariones múltiples: Test de Bonferroni: pairwise.t.test(variable, factor, p.adj="bonferroni") Test de Tukey: TukeyHSD(aov(variable~factor)) 28