uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA P. Reyes / 13/11/2015 III. ANALISIS DE VARIANZA DE UNA VÍA o DIRECCIÓN (ANOVA 1 VIA) El análisis de la varianza de un criterio (ANOVA) es una metodología para analizar la variación entre muestras y la variación al interior de las mismas mediante la determinación de varianzas. Es llamado de un criterio porque analiza un variable independiente o Factor ej: Velocidad. Como tal, es un método estadístico útil para comparar dos o más medias poblacionales. El ANOVA de un criterio nos permite poner a prueba hipótesis tales como: H 0 1 2 3 .... k H1 : Al menosdos medias poblacionales son diferentes. Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes son: 1. Ambas poblaciones son normales. 2. Las varianzas poblacionales son iguales, esto es, 1 El estadístico tiene una distribución muestral resultando: 2 Fc 22 . sb2 sw2 El valor crítico para la prueba F es: F (k 1, k (n 1)) Donde el número de grados de libertad para el numerador es k-1 y para el denominador es k(n1), siendo el nivel de significancia. k = número de muestras. Por ejemplo: 1. Cuatro catalizadores que pueden afectar la concentración de un componente en una mezcla líquida de tres componentes están siendo investigado. Se obtienen las siguientes concentraciones: A 58.2 57.2 58.4 55.8 54.9 Catalizador B 56.3 54.5 57 55.3 C 50.1 54.2 55.4 D 52.9 49.9 50 51.7 Página 1 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA P. Reyes / 13/11/2015 Ho mu1=mu2=mu3=mu4 alfa(1/2) 0.025 Catalizadores A 1 2 3 4 5 B 58.2 57.2 58.4 55.8 54.9 sumatoria promedio 284.5 56.9 g.promedio 54.4875 n c r gl SCT gl SCTR gl SCE SCT SCTR SCE CMT CMTR CME Fc Ft(0.025,3,12) C D 52.9 49.9 50 51.7 Prom 56.3 50.1 58.2 54.5 54.2 57.2 57 55.4 58.4 55.3 55.8 54.9 56.3 223.1 159.7 204.5 54.5 55.775 53.2333 51.13 57 55.3 50.1 54.2 55.4 52.9 49.9 50 51.7 16 4 5 15 3 12 120.2384 85.6758373 34.5625627 8.01589333 28.5586124 2.88021356 9.91544963 4.47 4.474185 SCT SC 13.8384 7.3984 15.3664 1.7424 0.1764 3.3124 0.0004 6.3504 0.6724 19.1844 0.0784 0.8464 2.4964 20.9764 20.0704 7.7284 # SCR renglones 29.1128 5 6.63578 4 4.71504 3 45.2122 4 85.6758 SCTR 120.238 9.915 es mayor que 4.47, por lo tanto cae en la zona de rechazo, se rechaza Ho.Los catalizadores tienen efectos diferentes Tabla de Análisis de varianza Suma de cuadrados Entre muestras 85.67584 Grados de libertad 3 Dentro de muestras 34.56256 12 Varianza total 120.2384 15 Valor P Cuadrado medio 28.5586 2.88021 0.00143578 Como el valor P es menor que alfa(1/2) por lo que se confirma que Ho se rechaza. Prueba de Tukey T 4.11529534 q(0.01,4,12) 4.2 Diferencia minima significativa DMS 2.339 F(0.05,1,12) 4.75 Página 2 Valor F 9.915 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA x1-x2 1.125 menor que T x1-x3 3.66666667 menor que T x1-x4 x2-x3 5.775 mayor que T 2.54166667 menor que T x2-x4 x3-x4 4.65 mayor que T 2.10833333 menor que T P. Reyes / 13/11/2015 menor que 1.125 DMS mayor que 3.667 DMS mayor que 5.775 DMS mayor que 2.542 DMS mayor que 4.65 DMS menor que 2.108 DMS Basandonos en la diferencia minima significativa que es mas precisa, concluimos que solamente A es igual con B y C es igual con D. La maxima concentracion se obtiene con el catalizador A Residuales 1.3 0.3 1.5 -1.1 -2 0.52 -1.28 1.22 -0.48 -3.13 0.97 2.17 1.77 -1.23 -1.13 0.57 Utilizando los paquetes de Excel y Minitab se tiene: Ejemplo 1: Tres tipos distintos de motores de gasolina fueron probados para determinar cuánto tiempo son útiles antes de necesitar una reparación; si los tiempos de vida de los motores de cada tipo se distribuyen normalmente y tienen la misma varianza, haga una prueba usando 0.05 para determinar si difieren las medias de vida útil antes de requerir una reparación. En la tabla aparecen los tiempos de vida útil, en decenas de miles de millas para cada tipo de motor. A 6 2 4 1 7 B 8 7 7 2 6 C 3 2 5 4 1 Mediante Minitab determinamos si las muestras provienen de una población Normal. Página 3 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA P. Reyes / 13/11/2015 Seleccione en el menu para cada muestra: Stat > Basic statistics > Normalita test Variable – Columnas de datos Test for normality – Seleccionar Ryan Joiner OK >=0.05 . Hay normalidad si P value es Probability Plot of A Normal 99 95 90 Mean StDev N RJ P-Value 4 2.550 5 0.982 >0.100 Mean StDev N RJ P-Value 6 2.345 5 0.909 >0.100 Percent 80 70 60 50 40 30 20 10 5 1 -2 0 2 4 A 6 8 10 Probability Plot of B Normal 99 95 90 Percent 80 70 60 50 40 30 20 10 5 1 0 2 4 6 B 8 10 Página 4 12 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA P. Reyes / 13/11/2015 Probability Plot of C Normal 99 Mean StDev N RJ P-Value 95 90 3 1.581 5 0.998 >0.100 Percent 80 70 60 50 40 30 20 10 5 1 -1 0 1 2 3 C 4 5 6 7 Analizando las gráficas nos damos cuenta de que las muestras provienen de poblaciones normales. Si denotamos por 1, 2 y3 las medias poblacionales de los tiempos de vida útil para los tipos A, B y C, respectivamente, entonces podemos escribir las hipótesis estadísticas como: H 0 : 1 2 3 H1: Al menos dos medias poblacionales no son iguales. Procedimiento en Excel: En el menú herramientas seleccione la opción Análisis de datos, en funciones para análisis seleccione Análisis de varianza de un factor. En Rango de entrada seleccionar la matriz de datos. Página 5 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA P. Reyes / 13/11/2015 Alfa = 0.05 En Rango de salida indicar la celda donde se inciará la presentación de resultados. Análisis de varianza de un factor RESUMEN Grupos Columna 1 Columna 2 Columna 3 ANÁLISIS DE VARIANZA Origen de las variaciones Entre grupos Dentro de los grupos Cuenta Suma 5 5 5 Promedio 20 30 15 4 6 3 Varianza 6.5 5.5 2.5 Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F 23.33333333 2 11.66666667 2.413793103 0.13150932 3.885290312 58 12 4.833333333 Total 81.33333333 14 En la tabla observamos que el estadístico de prueba Fc es menor al valor crítico para F 2.41<3.88, por lo cual no rechazamos al Hipótesis nula H0. No tenemos evidencia estadística para afirmar que los tiempos de vida útil de los motores, antes de requerir una reparación son diferentes. Página 6 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA P. Reyes / 13/11/2015 ANOVA en Minitab. Utilice 0.05 para calcular si difiere el rendimiento de los motores. Seleccionar: Stat > ANOVA > One Way (Unstacked) Response in separate columns A, B, C Seleccionar º! Store Residuals º! Store Fits Confidence level 95% Graphs Seleccionar Normal plot of residuals Comparisons Seleccionar Tukey’s Family error rate OK Resultados: La gráfica normal de residuos debe mostrar los residuos aproximados por una recta para validar el modelo: Normal Probability Plot of the Residuals (responses are A, B, C) 99 95 90 Percent 80 70 60 50 40 30 20 10 5 1 -5.0 -2.5 0.0 Residual 2.5 5.0 One-way ANOVA: A, B, C Source Factor Error Total DF 2 12 14 SS 23.33 58.00 81.33 MS 11.67 4.83 F 2.41 P 0.132 Como este valor P es mayor a 0.05 se rechaza la hipótesis nula y A, B y C no tienen efecto en la respuesta. S = 2.198 Level A N 5 R-Sq = 28.69% Mean 4.000 StDev 2.550 R-Sq(adj) = 16.80% Individual 95% CIs For Mean Based on Pooled StDev ------+---------+---------+---------+--(----------*----------) Página 7 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA B C 5 5 6.000 3.000 2.345 1.581 P. Reyes / 13/11/2015 (----------*----------) (----------*----------) ------+---------+---------+---------+--2.0 4.0 6.0 8.0 Pooled StDev = 2.198 Los intervalos de confianza de los tres niveles A, B, C del factor se pueden traslapar por tanto sus efectos no son diferentes. Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons Individual confidence level = 97.94% A subtracted from: B C Lower -1.707 -4.707 Center 2.000 -1.000 Upper 5.707 2.707 ---------+---------+---------+---------+ (----------*---------) (---------*----------) ---------+---------+---------+---------+ -3.5 0.0 3.5 7.0 Upper 0.707 ---------+---------+---------+---------+ (---------*----------) ---------+---------+---------+---------+ -3.5 0.0 3.5 7.0 B subtracted from: C Lower -6.707 Center -3.000 Como el cero pertenece al intervalo de confianza de las diferencias entre A y B; A y C y entre B y C no hay diferencia entre el efecto entre estos niveles. A continuación se muestran los residuos y los valores estimados para la respuesta Y por el modelo: RESI1 2 -2 0 -3 3 RESI2 2 1 1 -4 0 RESI3 0 -1 2 1 -2 FITS1 4 4 4 4 4 FITS2 6 6 6 6 6 FITS3 3 3 3 3 3 Donde cada residuo es Eij = Yij observado – Yij estimado Yij estimado es el promedio en cada columna. Ejemplo: La tabla adjunta contiene el número de palabras escritas por minuto por cuatro secretarias de la universidad en cinco ocasiones diferentes usando la misma máquina. A 82 79 75 68 65 B 55 67 84 77 71 C 69 72 78 83 74 D 87 61 82 61 72 Página 8 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA P. Reyes / 13/11/2015 La gráfica de residuos los muestra apegados a la recta, indicando que el modelo es válido: Normal Probability Plot of the Residuals (responses are A, B, C, D) 99 95 90 Percent 80 70 60 50 40 30 20 10 5 1 -20 -10 0 Residual 10 20 One-way ANOVA: A, B, C, D Source Factor Error Total DF 3 16 19 SS 52.2 1367.6 1419.8 MS 17.4 85.5 F 0.20 P 0.892 Como el valor P de 0.892 es mayor a alfa de 0.05 no hay efecto en la respuesta cambiando los niveles del factor A, B, C y D. S = 9.245 Level A B C D N 5 5 5 5 R-Sq = 3.68% Mean 73.800 70.800 75.200 72.600 StDev 7.190 10.918 5.450 11.887 R-Sq(adj) = 0.00% Individual 95% CIs For Mean Based on Pooled StDev -------+---------+---------+---------+-(--------------*--------------) (--------------*--------------) (-------------*--------------) (--------------*--------------) -------+---------+---------+---------+-66.0 72.0 78.0 84.0 Pooled StDev = 9.245 Se pueden traslapar los intervalos de confianza de los niveles del factor, por tanto no hay diferencia significativa en sus efectos. Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons Individual confidence level = 98.87% A subtracted from: B C D Lower -19.745 -15.345 -17.945 Center -3.000 1.400 -1.200 Upper 13.745 18.145 15.545 --------+---------+---------+---------+(-------------*------------) (-------------*-------------) (-------------*-------------) --------+---------+---------+---------+-12 0 12 24 Página 9 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA P. Reyes / 13/11/2015 B subtracted from: C D Lower -12.345 -14.945 Center 4.400 1.800 Upper 21.145 18.545 --------+---------+---------+---------+(-------------*-------------) (------------*-------------) --------+---------+---------+---------+-12 0 12 24 Upper 14.145 --------+---------+---------+---------+(-------------*-------------) --------+---------+---------+---------+-12 0 12 24 C subtracted from: D Lower -19.345 Center -2.600 En la prueba de Tukey como el cero pertenece a los intervalos de confianza de todas las diferencias entre niveles A, B, C y D, no hay diferencia entre sus efectos en la respuesta. Los residuos y valores estimados Fits se muestran a continuación: RESI1 8.2 5.2 1.2 -5.8 -8.8 RESI2 -15.8 -3.8 13.2 6.2 0.2 RESI3 -6.2 -3.2 2.8 7.8 -1.2 RESI4 14.4 -11.6 9.4 -11.6 -0.6 FITS1 73.8 73.8 73.8 73.8 73.8 FITS2 70.8 70.8 70.8 70.8 70.8 FITS3 75.2 75.2 75.2 75.2 75.2 FITS4 72.6 72.6 72.6 72.6 72.6 Prueba de Tukey-Snedecor1 Cuando la hipótesis nula Ho es rechazada, estamos interesados en identificar el grupo o grupos particulares que inducen a la diferencia estadísticamente significativa. Los pasos para realizar la prueba son los siguientes: 1. Se ubican las medias de los tratamientos, primero la de mayor valor y por último la de menor, así como la diferencia entre ellas. 2. Se calcula el error estándar de la media : Sx S w2 n 3. Determinamos el valor Q en la tabla de valores críticos Tukey-Snedecor del apéndice, mediante el número de tratamientos k y los grados de libertad dentro de grupos. 4. Se calcula D, utilizando: D QSx 5. Se compara el valor D con la diferencia de los pares de medias de los tratamientos. La presencia de pares mayores que D significa que dichos tratamientos difieren significativamente del nivel . 1 Estadística para las ciencias sociales y del comportamiento. Haroldo Elorza. Segunda Edición. Oxford University Press. Página 10 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA P. Reyes / 13/11/2015 Problemas de ANOVA de 1 vía / Diseño de experimentos de 1 factor: Cálculo manual, Excel y Minitab Problema 1 Para determinar si existe diferencia significativa en el nivel de Matemáticas de 4 grupos de estudiantes de Ingeniería se realizó un examen aleatorio a 6 individuos por grupo. Determine cuales son los grupos en los cuales existen diferencias a un 95% de nivel de confianza. A B C D 75 78 55 64 93 91 66 72 78 97 49 68 71 64 77 63 82 85 70 56 76 77 68 95 Xij A) Método Manual a) Establecimiento de las hipótesis: H 0 1 2 3 .... k Cada Mu representa el promedio de calificación por cada grupo H1 : Al menosdos medias poblacionales son diferentes. b) Suma de cuadrados total r SCT i 1 c ( Xij X ) 2 j 1 r = No. de renglones c = No. de Columnas c) Suma de cuadrados de los tratamientos r SCTR rj ( X j X ) 2 j 1 Xj es el promedio de cada columna y rj = 6 d) Suma de cuadrados del error SCE = SCT - SCTR e) Grados de libertad Gl SCT = N – 1 N = número de datos totales Gl SCTR = C – 1 C = No. de columnas Gl SCE = Gl SCT – Gl SCTR f) Cuadrados medios Página 11 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA P. Reyes / 13/11/2015 MSTR = SCTR / Gl SCTR MSE = SCE / Gl SCE g) Estadístico Fc Fc = MSTR / MSE h) Estadístico de alfa el cual define la región de rechazo Falfa = Distr.f.inv (Alfa, Gl SCTR, Gl SCE) i) Observar si Fc cae en la zona de rechazo lo que indicaría que todas las medias poblacionales no son iguales. j) Determinar el valor P de la prueba y compararlo con alfa para decidir si se rechaza Ho P = Distr.f(Fc, Gl MSTR, GL MSE) B) En Excel (Análisis de datos - ANOVA de un factor) C) Con Minitab (Stat > ANOVA > One Way (unstacked) ) ¿Qué grupo tiene el mayor nivel y cual el menor nivel? Problema 2 Las calificaciones en el examen a 18 empleados de tres unidades de negocio Se muestran a continuación: Probar si no hay diferencia entre las unidades a un 5% de nivel de significancia. A 85 75 82 76 71 85 B 71 75 73 74 69 82 C 59 64 62 69 75 67 ¿Qué unida de negocio tiene la más alta calificación? Problema 3 – Excel y Minitab Probar si hay diferencia en los tiempos de servicio de 4 unidades de negocio para el mismo servicio a un nivel de significancia del 10%. A 5.4 7.8 5.3 7.4 8.4 B 8.7 7.4 9.4 10.1 9.2 C 11.1 10.3 9.7 10.3 9.2 D 9.9 12.8 12.1 10.8 11.3 Página 12 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA 7.3 9.8 8.8 P. Reyes / 13/11/2015 11.5 Problema 4 – Excel y Minitab Cuatro catalizadores que pueden afectar la concentración de un componente en una mezcla líquida de tres componentes están siendo investigados. Se obtienen las siguientes concentraciones: A 58.2 57.2 58.4 55.8 54.9 Catalizador B 56.3 54.5 57 55.3 C 50.1 54.2 55.4 D 52.9 49.9 50 51.7 ¿Qué conclusiones se obtienen a un 10% de nivel de signficancia? ¿Qué catalizador da la mayor concentración? Problema 5 – Excel y Minitab La resistencia a la tensión observada en función del peso porcentual del algodón en una fibra sintética es: Peso porcentual del algodón 15 7 7 15 11 9 20 12 17 12 18 18 25 14 18 18 19 19 30 19 25 22 19 23 35 7 10 11 15 11 Probar si hay diferencia en la resistencia al usar peso porcentuales diferentes a un 5% de significancia o 95% de confianza. ¿Qué peso proporciona la mayor resistencia? a) En Excel los datos se introducen como están en la tabla (Análisis de Datos). b) Para Minitab los datos se deben arreglar como sigue: Otra opción (Response y Factor): %Algodon Resistencia 15 7 15 7 15 15 15 11 15 9 Página 13 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA 20 20 20 20 20 25 25 25 25 12 17 12 18 18 14 18 18 19 25 30 30 30 30 30 35 35 35 35 35 19 19 25 22 19 23 7 10 11 15 11 P. Reyes / 13/11/2015 Problemas de ANOVA de 2 vías / Diseño de experimentos de 1 factor y una variable de bloqueo: Problema 6 – Excel y Minitab Una empresa de taxis intenta crear un sistema de rutas que minimice el tiempo que se pasa manejando a ciertas localidades. El tiempo que toma viajar en cada ruta por los taxis se muestra a continuación: Taxista 1 2 3 4 5 1 12 18 10 13 18 Factor - Ruta 2 3 15 17 18 18 11 15 12 12 14 12 4 13 17 9 15 15 Probar a un nivel del 5% identificar si hay rutas más rápidas y si afecta el taxista. a) En Excel los datos se introducen como están en la tabla (Análisis de Datos ANOVA de dos factores con una muestra por grupo). b) Para Minitab los datos se deben arreglar como sigue: (Stat > ANOVA > Two ways Response Row factor Column factor) Arreglo de datos Taxi_Renglon Ruta_Columna Tiempo_Resp 1 1 12 Página 14 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 P. Reyes / 13/11/2015 18 10 13 18 15 18 11 12 14 17 18 15 12 12 13 17 9 15 15 Problema 7 – Excel y Minitab Se prueba si el tiempo en aprender diferentes sistemas es el mismo. Probar a un 5% con 5 alumnos. Alumno 1 2 3 4 5 A 16 19 14 13 18 Sistema B C 16 24 17 22 13 19 12 18 22 17 Reng 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 Col A A A A A B B B B B C C C C C Tiempo 16 19 14 13 18 16 17 13 12 17 24 22 19 18 22 Problema 8 – Excel y Minitab Se quiere probar si los tiempos de verificación de autos probados en Analizador computarizado y en probadores electrónicos son iguales, para lo cual se usan tres tamaños de autos. Probar a un 5% de significancia. Página 15 uia – Ing. en Alimentos – CEP: Ejercicios de ANOVA Compacto Mediano Grande Analizador Computarizado Electrónico 50 42 55 44 63 46 Página 16 P. Reyes / 13/11/2015 Reng C M G C M G Col Tiempo Com 50 Com 55 Com 63 Ele 42 Ele 44 Ele 46