Capítulo 1 Prácticas y problemas de diseño de experimentos. 1.1. Problemas de diseño de experimentos con ordenador. Problema 3.1. Datos apareados. “El Ministerio de Trabajo desea saber si un plan de seguridad en el trabajo es efectivo en la reducción del número de accidentes laborables y por tanto en la pérdida de horas de trabajo debido a accidentes. Para ello se hace un seguimiento en 16 fábricas, observando las horas de trabajo semanales pérdidas a causa de accidentes, antes y después de implantar el plan de seguridad. Los datos obtenidos son los de la tabla adjunta. Analizar estos datos y obtener conclusiones acerca del problema planteado”. Fábrica Antes Después Fábrica Antes Después 1 55 52 9 110 95 2 63 60 10 33 35 3 90 85 11 44 47 4 47 49 12 74 70 5 75 65 13 60 55 6 90 87 14 87 75 7 73 67 15 41 45 8 92 85 16 15 18 Desarrollo del Problema 3.1. Este problema puede resolverse por dos métodos distintos pero equivalentes que llevan a las mismas conclusiones. En primer lugar y dado que el factor-tratamiento (plan de seguridad ) solo tiene dos niveles (antes y después de implantar el plan) se puede considerar como un problema de datos apareados. Se calcula la variable diferencia Ydif = Yantes y se contrasta la hipótesis de que E (Ydif ) = 0: 1 Ydespues ; 2 Modelos estadísticos aplicados. Juan Vilar Con el Statgraphics se utiliza el siguiente módulo comparacion > dos muestras > comparacion de muestras pareadas Una vez introducidas las variables Yantes e Ydespues ; el módulo proporciona resultados analíticos y grá…cos acerca de la variable diferencia Ydif . Utilizando el test de la t respecto a la media de una muestra resuelve el contraste H0 : E (Ydif ) = 0: ¿Utilizando directamente los datos de la tabla podría resolverse el problema contrastando la hipótesis H0 : E (Yantes ) = E (Ydespues ) ; frente a la alternativa de que las medias son diferentes? Si se quiere resolver el problema de esta forma ¿cómo se debe recoger la muestra?, ¿los resultados obtenidos por ambos procedimientos son iguales?, ¿cuál de los dos procedimientos es mejor? La resolución del problema también puede hacerse por una tabla ANOVA de un modelo de diseño de experimentos con un factor tratamiento (plan de seguridad ) y un factor-bloque (fábrica). Se siguen los siguientes pasos: 1. Con los datos del problema se crean tres variables de 32 observaciones: ? la variable respuesta Y; ? el factor (plan de seguridad ) con dos niveles (antes y después), ? el factor bloque “fábrica” con 16 niveles. 2. Se utiliza el siguiente módulo comparacion > analisis de la varianza > anova factorial sin interacción (máximo orden de interacción=1). Este módulo proporciona un amplio estudio analítico y grá…co para responder al problema planteado. ¿Cómo son el p valor del test de la t utilizado en la técnica de datos apareados y el p valor del test de la F utilizado en la técnica de la tabla ANOVA? ¿Es in‡uyente la variable bloque “fábrica”? En consecuencia ¿es adecuada la recogida muestral para la resolución del problema? 3. Finalmente se contrastan las hipótesis básicas estructurales utilizando las técnicas expuestas en el capítulo anterior. Problema 3.2. (Diseño de experimentos en bloques completamente aleatorizados) “Se ha realizado un diseño de experimentos para estudiar la calidad de las soldaduras, el objetivo es determinar si existen diferencias entre las soldaduras según el elemento de soldadura que se utilice entre tres posibles: níquel, hierro o cobre. Como pueden haber Prácticas y problemas de diseño de experimentos. 3 diferencias signi…cativas entre los elementos a soldar se ha utilizado un diseño de bloques completamente aleatorizados. Para ello se han utilizado diez lingotes (bloques) y de cada uno de ellos se han soldado dos componentes utilizando los tres tipos de soldadura. Finalmente se mide la fuerza (expresada en 100 libras por pulgada cuadrada) necesaria para romper la soldadura. Los resultados obtenidos son los de la tabla adjunta. En base a estos datos estudiar la in‡uencia de factor “tipo de soldadura”, ¿cambian los resultados si no se tiene en cuenta el bloque “lingote”? ”. Níquel Cobre Hierro B1 760 0 710 6 760 4 B2 660 3 740 1 730 4 B3 680 9 700 7 690 7 B4 740 7 750 4 740 7 B5 730 0 660 7 600 2 B6 720 7 650 0 610 2 B7 800 0 700 8 710 7 B8 830 6 760 2 570 0 B9 610 2 660 0 580 5 B10 620 6 720 0 660 3 Desarrollo del Problema 3.2. Se utiliza el siguiente módulo comparacion > analisis de la varianza > anova factorial En este módulo al introducir como variable dependiente “resistencia”y los dos factores: el factor-tratamiento tipo de soldadura y el factor-bloque lingote, se obtiene un completo análisis de la varianza que comprende: - la tabla ANOVA que permite contrastar la in‡uencia de los dos factores; - la tabla de medias que calcula la media de cada nivel de cada uno de los factores, así como intervalos de con…anza para las mismas; - el test de rangos múltiples que permite obtener los grupos homogéneos en ambos factores y las diferencias signi…cativas entre las medias de dos niveles de un factor, se pueden utilizar diferentes métodos (LSD, Sche¤é, Tuckey,.. ). El estudio grá…co que ofrece el módulo es bastante completo: - el grá…co de puntos y el de medias permiten con…rmar gra…camente las conclusiones que se deducen de la tabla ANOVA, - los tres grá…cos de residuos permiten tener idea aproximada acerca del cumplimiento de las hipótesis básicas del modelo, - si en el módulo de opciones de analisis se eligen “interacciones de orden 2 ”, se obtienen grá…cos de interacciones que pueden dar una idea aproximada acerca de la posible existencia o no de interacciones. También se puede calcular el l test de Tuckey sobre la no existencia de interacción aunque con un mayor trabajo ya que el paquete no lo calcula directamente. Como en el análisis de cualquier modelo estadístico se deben guardar los residuos y analizar el cumplimeinto de las hipótesis básicas estructurales como se indicó en el capítulo anterior. El estudio sobre la heterocedasticidad debe hacerse en relación a cada uno de los dos factores. 4 Modelos estadísticos aplicados. Juan Vilar ¿Qué ocurre si no se tiene en cuenta el factor-bloque? Se puede repetir el estudio introduciendo solamente el factor tipo de soldadura. Esto puede hacerse en este módulo o en el siguiente comparacion > analisis de la varianza > anova simple Problema 3.3. (Diseño de experimentos de dos factores con interacción). “Se desea analizar el efecto que sobre el tiempo medio de respuesta tienen dos factores: “la distribución de los …cheros” de las que se consideran tres variantes codi…cadas como F1, F2 y F3; y el “número de bu¤ ers del sistema”, también se consideran tres niveles: 10, 20 y 30 bu¤ers. Se ha hecho una prueba con cada una de las nueve combinaciones posibles, cada prueba consistió en observar el sistema un día completo y calcular el tiempo de respuesta media al compilar un programa en lenguaje C en ese período de tiempo. El experimento se replicó tres veces. Los resultados obtenidos se presentan en la tabla adjunta. En base a estos datos ¿existe in‡uencia de alguno de los dos factores en el tiempo de respuesta del sistema informático?, ¿existe interacción entre ambos factores?” F1 B10 20 7 20 4 20 3 B20 20 0 20 2 10 9 B30 10 8 10 5 10 6 F2 B10 20 9 30 4 30 3 B20 20 7 20 4 20 5 B30 20 2 10 9 20 3 F3 B10 30 7 30 4 30 9 B20 20 9 30 4 30 3 B30 30 5 30 4 30 8 Desarrollo del Problema 3.3. El desarrollo de este problema es análogo al anterior, se utiliza el análisis comparacion > analisis de la varianza > anova factorial ? Se introduce la variable dependiente “tiempo”y los dos factores “…chero”y “bu¤ ers”. ? En un primer estudio conviene introducir el factor “réplica” que indica el orden en el que se repitió el experimento y se estudia el modelo de tres factores sin replicación. Si el modelo se ha replicado correctamente la tabla ANOVA indicará que el factor “réplica” no in‡uye. ? En este caso se deshecha el factor “réplica” y se repite el estudio considerando el modelo de dos factores e interacción entre los dos factores (interacción de orden 2). Se obtienen conclusiones según los resultados obtenidos. ? Se …naliza con el análisis de residuos. Problema 3.4. (Diseño de experimentos en cuadrado latino). “Se quiere estudiar la e…cacia de cuatro fármacos diferentes (F1, F2, F3 y F4) en el tratamiento de una enfermedad. Para ello se observa el número de días que tardan en curar enfermos tratados con estos fármacos. Se considera que el factor edad y el factor peso pueden in‡uir en el experimento, por ello se controlan estos factores y se consideran cuatro niveles de edad (E1, E2, E3 y E4) y cuatro de peso (P1, P2, P3 y P4). Los resultados del experimento diseñado según la técnica del cuadrado latino son los de la tabla adjunta. ¿Qué conclusiones se deducen del experimento?” Prácticas y problemas de diseño de experimentos. P1 P2 P3 P4 10 8 7 6 E1 F1 F2 F3 F4 E2 F2 10 F1 60 5 F4 5 F3 90 5 7 80 5 7 6 5 E3 F4 F3 F1 F2 E4 F3 9 F4 8 F2 9 F1 110 5 Desarrollo del Problema 3.4. Se deben introducir los datos de forma correcta en el …chero, una vez realizado ésto, se utiliza el análisis anterior, siendo la variable respuesta “tiempo” y los tres factores “peso”, “edad ” y “fármaco”. Al calcular la tabla ANOVA si alguno de los factores no es signi…cativo se elimina del modelo y se calcula la nueva tabla ANOVA. 1.2. Problemas resueltos de diseño de experimentos. Problema 3.5. (Diseño de experimentos con bloques completamente aleatorizados) “El servicio bibliotecario de una universidad está interesado en un programa para gestionar la localización de un libro en la base de datos. Le ofrecen cinco programas para tal …n: P1, P2, P3, P4, P5. En la universidad se dispone de cuatro tipos de ordenadores y se desea saber si el tiempo de respuesta de los cinco programas ofertados es el mismo. Para ello se diseña el siguiente experimento: se eligen diez libros al azar y se localizan utilizando los cinco programas y los cuatro tipos de ordenadores. Los tiempos medio de respuesta (en segundos) en cada caso son los de la tabla adjunta.” Ord.1 Ord.2 Ord.3 Ord.4 Prog.1 10 3 20 2 10 8 30 9 Prog.2 10 6 20 4 10 7 40 4 Prog.3 00 5 00 4 00 6 20 0 Prog.4 10 2 20 0 10 5 40 1 Prog.5 10 1 10 8 10 3 30 4 Solución al Problema 3.5. Cálculo de las medias condicionadas (según programa y según ordenador ) Ord.1 Ord.2 Ord.3 Ord.4 yj ^ j Prog.1 10 3 20 2 10 8 30 9 20 3 00 340 Prog.2 10 6 20 4 10 7 40 4 20 525 00 565 Prog.3 00 5 00 4 00 6 20 0 00 875 10 085 Prog.4 10 2 20 0 10 5 40 1 20 2 00 240 Prog.5 10 1 10 8 10 3 30 4 10 9 00 060 yi 10 14 10 76 10 38 30 56 y = 10 96 P^ j =0 ^i 00 82 00 20 00 58 +10 60 P ^i = 0 6 Modelos estadísticos aplicados. Juan Vilar Siendo ^ i = yi y y ^ j = y j y Factor …la ( ) = Factor-bloque ordenador, i = 1; 2; 3; 4: Factor columna ( ) = Factor-tratamiento programa, j = 1; 2; 3; 4; 5: Las predicciones de cada tratamiento (casilla) se calculan utilizando y^ij = ^ + ^ i + ^ j = yi + y j y ; se obtiene Predicciones Ord.1 Ord.2 Ord.3 Ord.4 Prog.1 10 48 20 10 10 72 30 90 Prog.2 10 705 20 325 10 945 40 125 Prog.3 00 055 00 675 00 295 20 475 Prog.4 10 38 20 00 10 62 30 80 Prog.5 10 08 10 70 10 32 30 50 A partir de esta tabla se calculan los residuos eij = yij y^ij ; obteniendo la siguiente tabla de residuos Residuos Ord.1 Ord.2 Ord.3 Ord.4 Prog.1 00 18 00 10 00 08 00 00 Prog.2 00 105 00 075 00 245 00 275 Prog.3 00 455 00 275 00 305 00 475 Prog.4 00 18 00 00 00 12 00 30 Prog.5 00 02 00 10 00 02 00 10 Observar que la suma de los residuos de cada …la y de cada columna es cero. Cálculo de las sumas de cuadrados: scT ( ) = scT (ordenador ) = 5 0 2 0 2 ^ 2i i=1 2 = 5 0 82 + 0 20 + 0 58 + 10 602 = 180 044: scT ( ) = scT (programa) = 4 0 2 0 0 4 X 5 X ^ j 2 j=1 0 2 2 = 4 0 34 + 0 565 + 1 085 + 00 242 + 00 062 = 60 693: De donde scT = scT ( ) + scT ( ) = 180 044 + 60 693 = 240 737: La variabilidad total es scG = 4 X 5 X y )2 (yij i=1 j=1 = 10 3 10 96 = 250 688: 2 + 10 6 10 96 2 + : : : + 40 1 10 96 2 + 30 4 10 96 2 Prácticas y problemas de diseño de experimentos. 7 Una forma alternativa de calcular la variabilidad total (scG) es la siguiente 1X X 2 scG = ns2Y = n y i j ij n 0 1 4 X 5 X 2A = @ yij 20 10 962 : y2 i=1 j=1 La suma de residuos al cuadrado se obtiene como scR = scG scT = 250 688 240 737 = 00 951: El valor de scR también se puede calcular directamente scR = 4 X 5 X e2ij = 00 182 + 00 1052 + : : : + 00 302 + 00 102 = 00 951 i=1 j=1 La Tabla ANOVA que se obtiene es la siguiente Efecto scT ( ) : ordenador. scT ( ): programa. scT scR scG Tabla ANOVA Sum cuad. g.l. Varianza 180 044 3 s^2 = 60 015 60 693 4 s^2 = 10 673 240 737 7 0 0 951 12 s^2R = 00 079 250 688 19 s^2Y = 10 352 estadíst. F F^ = 750 89 F^ = 210 11 p-valor 00 000 00 000 Contrastes que se deducen de esta tabla son los siguientes: Sobre la in‡uencia del factor-tratamiento programa (1) H0 : “el factor-tratamiento programa no in‡uye”: F^ = s^2 s^2R = 10 673 = 210 11 00 079 i = 0; j = 1; : : : ; 5: val = 00 000: F4;12 ? ) p Se rechaza la hipótesis nula de no in‡uencia del factor programa. Sobre la in‡uencia del factor-bloque ordenador. (2) H0 : “el factor-bloque ordenador no in‡uye”: s^2 60 015 F^ = 2 = 0 = 750 89 0 079 s^R F3;12 ? ) p i = 0; i = 1; : : : ; 4: val = 00 000: Se rechaza la hipótesis nula de no in‡uencia del factor ordenador. Ha sido conveniente bloquear. 8 Modelos estadísticos aplicados. Juan Vilar Coe…cientes de determinación. - Porcentaje de variabilidad explicada por el factor-tratamiento programa R2 ( ) = scT ( ) 180 044 = 0 = 00 70243 ) 700 243 %: scG 25 688 - Porcentaje de variabilidad explicada por el factor-bloque ordenador R2 ( ) = 60 693 scT ( ) = 0 = 00 26055 ) 260 055 %: scG 25 688 - Porcentaje de variabilidad explicada por el modelo R2 = R2 ( ) + R2 ( ) = scT = 00 96298 ) 960 298 %: scG Si no tiene en cuenta el factor-bloque ordenador se obtiene la siguiente tabla ANOVA que se deduce de la anterior Tabla ANOVA con sólo el factor-tratamiento programa ( ) Efecto Sum cuad. g.l. Varianza estadíst. F p-valor 0 2 0 scT ( ): programa. 6 693 4 s^ = 1 673 F^ = 10 32 00 307 scR 180 995 15 s^2R = 10 266 scG 250 688 19 s^2Y = 10 352 Tener en cuenta que si no utiliza el factor-bloque ordenador, el diseño de experimentos es otro y la muestra recogida diferente. En cualquier caso los resultados del análisis no deberían variar mucho respecto a los aquí obtenidos. Al hacer el contraste (1) H0 : “el factor programa no in‡uye”: i = 0; j = 1; : : : ; 5; se obtiene F^ = s^2 s^2R = 10 673 = 10 32 2 F4;15 ? ) p 10 266 val = 00 307 Se acepta la hipótesis nula de no in‡uencia del factor programa, en contradicción con lo obtenido anteriormente. A la vista de lo obtenido en este problema, es fundamental controlar los factores in‡uyentes en la variable respuesta. Las siguientes grá…cas permiten examinar las hipótesis básicas del modelo: En la Figura 3.1. se observa el grá…co de residuos frente a predicciones. En las Figuras 3.2. y 3.3. se presentan los grá…cos de interacciones por cada uno de los dos factores. De ellos se deduce la no existencia de interacción entre ambos factores. Prácticas y problemas de diseño de experimentos. Figura 3.1. Grá…co de residuos. Figura 3.2. Grá…co de interacción respecto a programa. Figura 3.3. Grá…co de interacción respecto a ordenador. 9 10 Modelos estadísticos aplicados. Juan Vilar Intervalos de con…anza al 90 % para los parámetros del modelo. 2; Intervalo de con…anza para la varianza, (I 1) s^2R 1) (J 2 (I 1)(J 1) 2 50 226 = 00 948 210 026 2 12 ) 2 3 4 00 079 00 05 = 00 045 3 4 00 079 2 2 00 181 = 2 12 2 12 00 95 = 210 026 00 948 50 226 Intervalo de con…anza para los efectos (ordenador). Se hace para 2 : r 1 ^2 n 2 2I ^2 N ) t(I 1)(J 1) 2; n s^R I 1 r ( 00 82) 20 2 ) t12 00 079 3 r ( 00 82) 20 2 0 0 ) 1 78 = t12 0 95 t12 00 95 = 10 78 00 079 3 ) 2 00 82 2 10 78 = 320 68 00 82 00 054 = 00 874; 00 766 : Intervalo de con…anza para los efectos (programa). Se hace para 3 : ^ r n 1 3 3 2J ^ N ) t(I 1)(J 1) 3; 3 n s^R J 1 r 0 085) 20 ( 1 3 t12 ) 0 0 079 4 r 0 085) ( 1 20 3 ) 10 78 = t12 00 95 t12 00 95 = 10 78 0 0 079 4 ) 3 2 10 085 00 063 = 10 148; 10 022 : Intervalos de con…anza para la diferencia de medias. Se hace para 1 3: r r 10 425 ( 1 4 (y 1 y 3 ) ( 1 I 3) 3) t12 t(I 1)(J 1) ) 0 2 s^R 2 0 079 r 4 10 425 ( 1 3) 0 10 78 1 78 0 2 0 079 ( 1 3) 2 10 425 00 099 = (10 326; 10 524): Prácticas y problemas de diseño de experimentos. Al calcular grupos homogéneos de los ordenadores se obtienen dos grupos: ? O1 ? O3 - O2 -O4 La existencia de estos grupos se puede observar en el grá…co de medias Figura 3.4. Grá…co de medias de los ordenadores. Al calcular grupos homogéneos de los programas se obtienen tres grupos: ? P3 - P4 ? P5 - P4 ? P1 - P2 Esto se observa en el siguiente grá…co de medias de los programas. Figura 3.5. Grá…co de medias de los programas. 11 12 Modelos estadísticos aplicados. Juan Vilar Problema 3.6. (Diseño de experimentos con dos factores e interacción) “Una empresa dedicada a la fabricación de baterías está interesada en diseñar una batería que sea relativamente insensible a la temperatura ambiente. Para ello decide probar con tres materiales distintos: M1, M2, y M3. Para estudiar el efecto del material y la temperatura se diseña el siguiente experimento: utilizando baterías fabricadas con los tres materiales se observa la duración de las baterías en horas cuando éstas trabajan a tres niveles de temperatura: baja, media y alta. El experimento se replicaba cuatro veces y los resultados obtenidos son los de la tabla adjunta. Analizar estos datos y estudiar la in‡uencia de los factores material y temperatura en el rendimiento de la batería. Conclusiones.” Material M1 M2 M3 Baja 130 74 150 159 138 168 155 180 188 126 110 160 Temperatura Media Alta 34 40 20 70 80 75 82 58 136 122 25 70 106 115 58 45 174 120 96 104 150 139 82 60 Solución al Problema 3.6. El modelo matemático a ajustar es el siguiente yijk = + i + j +( )ij + "ijk donde i es el efecto del factor material, i = 1; 2; 3 ) I = 3 j es el efecto del factor temperatura, j = 1; 2; 3 ) J = 3 ( )ij es el efecto de la interacción entre ambos factores. Para estimar estos parámetros se calculan las medias de cada casilla y las medias de cada …la y cada columna. yij M1 M2 M3 yj Baja 1340 75 1550 75 1440 0 1440 83 Medias Media Alta 570 25 570 5 1190 75 490 5 1450 75 850 5 1070 58 640 17 yi 830 17 1080 33 1250 08 y = 1050 53 Se calculan los parámetros del modelo utilizando ^ i = yi se obtiene y ; ^ =yj j y ; (d)ij = yij yi yj +y ; Prácticas y problemas de diseño de experimentos. 13 Parámetros del modelo (d)ij M1 M2 M3 ^ Baja 120 28 80 12 200 38 390 30 j Media 270 95 90 37 180 62 20 05 Alta 150 69 170 47 10 78 410 35 ^i 220 36 20 80 190 55 Se calculan las predicciones a partir de y^ij = ^ + ^ i + ^ j + (d)ij = yij ; se obtiene Predicciones = Medias casilla y^ij Baja Media Alta 0 0 M1 134 75 57 25 570 5 M2 1550 75 1190 75 490 5 0 0 M3 144 0 145 75 850 5 Los residuos se calculan como eijk = yijk y^ij ; i; j = 1; 2; 3; obteniendo Residuos Baja 200 25 600 75 450 25 50 75 320 25 30 25 290 75 60 0 340 0 240 0 160 0 40 75 M1 M2 M3 Media 170 25 220 75 170 75 0 16 25 20 25 130 75 40 75 280 25 250 75 40 25 60 75 230 25 Alta 370 5 120 5 240 5 00 5 0 24 5 200 5 80 5 40 5 100 5 180 5 30 5 250 5 Observar que la suma de residuos de cada casilla vale cero. Cálculo de las sumas de cuadrados: scT ( ) = scT (material ) = 3 4 220 362 + 20 82 + 190 552 = 10;6830 70: 390 32 + 20 052 + 410 352 = 39;1180 70: 1 120 282 + 270 972 + 150 692 + C B ) = scT (interacción) = 4 @ 80 122 + 90 372 + 170 472 + A = 9;6130 78: 200 382 + 180 622 + 10 782 scT ( ) = scT (temperatura) = 3 4 0 scT ( scT = scT ( ) + scT ( ) + scT ( 0 0 ) = 10;683 70 + 39;118 70 + 9;6130 78 = 59;4160 18: 14 Modelos estadísticos aplicados. Juan Vilar scG = 3 X 3 X 4 X (yijk y )2 i=1 j=1 k=1 = ns2Y = n 1X X X 2 y i j k ijk n scR = scG + scT = 77;6470 0 y2 = 77;6470 0: 59;4160 18 = 18;2300 7: La suma de cuadrados de residuos también se puede calcular directamente scR = 3 X 3 X 4 X eijk = 3 X 3 X 4 X (yijk y^ij )2 = i=1 j=1 k=1 i=1 j=1 k=1 40 752 + 200 252 + : : : + 30 52 + 250 52 = = 18;2300 7: Si se utiliza calculadora es más sencillo hacerlo por el método anterior. La Tabla ANOVA que se obtiene en este problema es la siguiente: Efecto scT ( ) scT ( ) scT ( ) scT scR scG Sum cuad. 10;6830 70 39;1180 70 9;6130 78 59;4160 18 18;2300 7 77;6470 0 Tabla ANOVA g.l. Varianza 2 s^2 = 5;3410 86 2 s^2 = 19;5590 4 4 s^2 = 2;4030 44 8 27 s^2R = 6750 213 35 s^2Y = 2;2180 48 estadíst. F 70 91 280 97 30 56 p-valor 00 002 00 000 00 019 s^R = 250 98 s^Y = 470 10 Los coe…cientes de determinación que se obtienen son R2 ( ) = R2 (material ) = scT ( ) 10;6830 70 = = 00 1376 ) 130 76 %: scG 77;6470 0 R2 ( ) = R2 (temperatura) = scT ( ) 39;1180 70 = = 00 5038 ) 500 38 %: scG 77;6470 0 R2 ( scT ( ) 9;6130 78 = = 00 1238 ) 120 38 %: scG 77;6470 0 R2 = ) = R2 (interacción) = scT = R2 ( ) + R2 ( ) + R2 ( scG )= 59;4160 18 = 00 7652 ) 760 52 %: 77;6470 0 Contrastes que se deducen la tabla ANOVA son los siguientes: 1. Sobre la in‡uencia del factor-tratamiento material Prácticas y problemas de diseño de experimentos. (1) H0 : “el factor no in‡uye”: s^2 5;3410 86 = 70 91 F^ = 2 = 6750 213 s^R i 15 = 0; i = 1; : : : ; 3: F2;27 ? ) p val = 00 002: Se rechaza la hipótesis nula de no in‡uencia del factor material. Hecho que se observa claramente en el grá…co de medias del factor material, Figura 3.6. Grá…co de medias respecto a material. Figura 3.7. Grá…co de medias respecto a la temperatura. 2. Sobre la in‡uencia del factor-tratamiento temperatura (2) H0 : “el factor temperatura no in‡uye”: F^ = s^2 s^2R = 19;5590 4 = 280 97 6750 213 i = 0; F2;27 ? ) p j = 1; : : : ; 3: val = 00 000: 16 Modelos estadísticos aplicados. Juan Vilar Se rechaza la hipótesis nula de no in‡uencia del factor temperatura. Esto se observa en el grá…co de medias del factor temperatura (Figura 3.7.). 3. Sobre la in‡uencia de la interacción de los dos factores. (3) H0 : “la interacción de los dos factores no in‡uye”: ( F^ = s^2 s^2R = 2;4030 44 = 30 56 6750 213 F2;27 ? ) p )ij = 0; i; j = 1; : : : ; 3: val = 00 019: Se rechaza la hipótesis nula de no in‡uencia de la interacción de los factores para niveles superiores a 00 02. Esto se puede observar en los grá…cos de interacciones (respecto al factor material, Figura 3.8. y respecto al factor temperatura, Figura 3.9.). Figura 3.8. Grá…co de interacciones respecto a material. Figura 3.9. Grá…co de interacciones respecto a temperatura. En la Figura 3.10. se presenta el grá…co de residuos frente a predicciones en el que no se observa ningún problema. Prácticas y problemas de diseño de experimentos. 17 Figura 3.10. Grá…co de residuos frente a predicciones. Problema 3.7. (Diseño de experimentos en cuadrado latino). “Para estudiar el efecto de la iluminación (A=natural, B=muy fuerte, C=escasa) en la velocidad de lectura se realiza un experimento que consiste en contar el número de palabras leídas en un minuto en distintos tipos de papel (b=blanco, c=en color, s=satinado) y diferente tipografía (g=letra grande, p=letra pequeña, n=normal). Los resultados obtenidos son los de la tabla adjunta. Analizar estos datos y estudiar la posible in‡uencia de los factores iluminación, tipos de papel y diferente tipografía en la variable de interés velocidad de lectura”. Letra grande normal pequeña Tipo de papel satinado blanco color 258 A 230 C 240 B 235 B 270 A 240 C 220 C 225 B 260 A Solución al Problema 3.7. El modelo matemático-estadístico a ajustar es yij(k) = + i + j + (k) + "ij(k) ; donde el factor …la representa al factor tipo de letra, el factor columna representa al factor tipo de papel y el factor letra (cuadrado latino) representa el factor iluminación. Es un modelo con tres factores, cada uno de los cuales tiene tres niveles, se supone que no existen interacciones entre los factores y puede resolverse con solo 32 = 9 observaciones por medio del diseño fraccional de cuadrado latino. Se calculan las medias y parámetros del modelo como sigue y = 242 18 Modelos estadísticos aplicados. Juan Vilar yi 2420 67 2480 33 2350 00 Medias y estimaciones ^ =yj ^ i = yi y yj y k y j 0 0 0 +0 67 237 67 4 33 2620 67 +60 33 2410 67 00 33 2330 33 70 00 2460 67 +40 66 2300 00 ^k = y k y +200 67 80 67 120 00 A partir de estos valores se calculan las predicciones y^ij(k) = ^ + ^ i + ^ j + ^(k) ; i; j = 1; 2; 3; obteniendo Predicciones 2300 33 2380 67 2350 33 2680 67 2410 00 2180 67 2260 00 2600 33 2590 00 Los residuos son eij(k) = yij(k) y^ij(k) ; i; j = 1; 2; 3; se obtiene Residuos 00 33 10 33 00 33 10 33 10 00 10 33 10 00 00 33 10 00 Cálculo de las sumas de cuadrados scT ( ) = scT (tipo letra) = 3 scT ( ) = scT (papel ) = 3 40 332 + 00 332 + 40 662 = 1220 00: scT ( ) = scT (iluminación) = 3 scT 00 672 + 60 332 + 72 = 2680 67: 200 672 + 80 672 + 122 = 1;9380 67: = scT ( ) + scT ( ) + scT ( ) = = 2680 67 + 1220 00 + 1;9380 67 = 2;3290 34: La suma de cuadrados total es scG = 3 X 3 X yij(k) y 2 = ns2Y = n i=1 j=1 1X X 2 y i j ij(k) n La suma de cuadrados no explicada (residual) es scR = scG scT = 2;338 2;3290 34 = 80 67: También scR puede calcularse directamente de los residuos y 2 = 2;338 Prácticas y problemas de diseño de experimentos. scR = = 3 X 3 X e2ij(k) i=1 j=1 2 0 = 2 3 X 3 X 0 yij(k) 19 y^ij(k) 2 i=1 j=1 2 0 1 + 0 33 + 1 33 + 0 332 + 10 332 + 12 + 10 332 + 12 + 00 332 = 80 67: Los coe…cientes de determinación son: R2 ( ) = R2 (tipo letra) = R2 ( ) = R2 (papel ) = R2 ( ) = R2 (iluminación) = R2 = 2680 67 scT ( ) = = 00 1149 ) 110 49 %: scG 2;338 scT ( ) 1220 00 = = 00 522 ) 50 22 %: scG 2;338 scT ( ) 1;9380 67 = = 00 8292 ) 820 92 %: scG 2;338 2;3290 34 sgT = R2 ( ) + R2 ( ) + R2 ( ) = = 00 9962 ) 990 62 %: scG 2;338 La tabla ANOVA que se obtiene es la siguiente Efecto scT ( ) scT ( ) scT ( ) scT scR scG Sum cuad. 2680 67 1220 00 1;9380 67 2;3290 34 80 66 2;3380 0 Tabla ANOVA g.l. Varianza 2 s^2 = 1340 33 2 s^2 = 610 00 2 s^2 = 9690 33 6 2 s^2R = 40 33 8 s^2Y = 2920 25 estadíst. F 31 0 14 08 2230 69 p-valor 00 031 00 066 00 004 s^R = 20 08 s^Y = 170 09 De esta tabla se deducen los siguientes contrastes: 1. Sobre la in‡uencia del factor tipo de letra. (1) H0 : “el factor tipo de letra no in‡uye”: s^2 1340 33 F^ = 2 = 0 = 31 4 33 s^R F2;2 ? ) p i = 0; i = 1; 2; 3: val = 00 031: Se rechaza para niveles de > 00 031 (por ejemplo = 00 05) la hipótesis nula de no in‡uencia del factor tipo de letra. El grá…co de medias con…rma este hecho. 20 Modelos estadísticos aplicados. Juan Vilar Figura 3.11. Grá…co de medias respecto al tipo de letra. 2. Sobre la in‡uencia del factor tipo de papel se obtiene, (2) H0 : “el factor tipo de papel no in‡uye”: F^ = s^2 s^2R = 610 00 = 140 08 40 33 i F2;2 ? ) p = 0; i = 1; 2; 3: val = 00 066: Se acepta para niveles de < 00 066 (por ejemplo = 00 05) la hipótesis nula de no in‡uencia del factor tipo de papel. El grá…co de medias del factor tipo de papel es Figura 3.11. Grá…co de medias respecto al tipo de papel. 3. Sobre la in‡uencia del factor tipo de iluminación, se deduce el siguiente contraste (3) H0 : “el factor tipo de iluminación no in‡uye”: s^2 9690 33 F^ = 2 = 0 = 2330 39 4 33 s^R F2;2 ? ) p i = 0; i = 1; 2; 3: val = 00 004: Prácticas y problemas de diseño de experimentos. 21 Se rechaza para niveles de > 00 004 (por ejemplo = 00 05) la hipótesis nula de no in‡uencia del factor tipo de iluminación. Esto puede observarse en el grá…co de medias del factor Figura 3.13. Grá…co de medias respecto al tipo de iluminación. 1.3. Problemas propuestos de diseño de experimentos. Problema 3.8. “Los siguientes datos proporcionan la presión, sistólica y diastólica, de la sangre (en mm Hg) de 15 pacientes con hipertensión moderada, medidas antes y después de probar un nuevo fármaco. En base a estos datos ¿puede a…rmarse que el nuevo fármaco es efectivo para bajar la tensión arterial?” Pac 1 2 3 . 4 5 6 7 8 Sistólica Ant Desp 210 201 169 165 187 166 160 157 167 147 176 145 185 168 206 180 Diastólica Ant Desp 130 125 122 121 124 121 104 106 112 101 101 85 121 98 124 105 Pac 9 10 11 12 13 14 15 Sistólica Ant Desp 173 147 146 136 174 151 201 168 198 179 148 129 154 131 Diastólica Ant Desp 115 103 102 98 98 90 119 98 106 110 107 103 100 82 Problema 3.9. “Una empresa desea contrastar si el lunes es el día de la semana en que se presentan más bajas por enfermedad común. Para ello, en base a los datos de cinco años, se eligen al azar 10 lunes, 10 martes, 10 miércoles, 10 jueves y 10 viernes, anotando el número de bajas durante tales días. Los resultados obtenidos son los de la tabla adjunta 22 Modelos estadísticos aplicados. Juan Vilar Día Lunes Martes Miércoles Jueves Viernes 26 35 25 51 30 37 20 40 20 62 Muestreo 1 número de bajas 22 55 23 38 28 12 17 17 63 18 62 30 30 13 42 28 40 15 26 37 por día 46 25 57 42 38 23 17 73 52 12 25 25 37 25 16 23 63 26 22 25 Un segundo estudio se realizó en base al mismo experimento pero cambiando el esquema del muestreo, ahora se eligieron al azar diez semanas completas de los cinco años. Los resultados que se obtuvieron son los siguientes: Día Lunes Martes Miércoles Jueves Viernes S1 40 32 42 20 26 Muestreo 2 Semana (número de bajas S2 S3 S4 S5 S6 S7 32 56 65 18 43 30 51 34 35 23 22 45 30 29 30 15 30 42 32 30 40 21 28 46 27 27 17 23 37 53 por día) S8 S9 51 46 35 32 51 31 36 36 22 15 S10 38 58 26 22 22 En base a estos datos: 1. Indicar los modelos matemáticos asociados a ambos tipos de muestreo. 2. Calcular en ambos casos la tabla ANOVA. Conclusiones. 3. Utilizando los dos tipos de muestreo ¿existe un día o más en que el número de bajas por enfermedad común sea signi…cativamente mayor? 4. En ambos casos ¿se veri…can las hipótesis del modelo? En caso negativo, transformar los datos y recalcular los modelos. 5. Comparar razonadamente ambos esquemas de muestreo. Proponer un modelo de muestreo más adecuado”. Problema 3.10. “Se realiza un experimento para investigar el proceso de obtención de la penicilina, siendo la variable de interés la producción obtenida. El estudio se centra en observar los resultados de 4 variantes del proceso básico, denominadas tratamientos A, B, C y D. Se quiere controlar una materia prima importante, el licor de maíz, para ello se utilizan cinco mezclas de licor de maíz (bloques) con los que se realiza el experimento. Los resultados observados son los de la tabla adjunta. En base a estos datos ¿in‡uye la variante del proceso en la producción obtenida? ¿El resultado sería el mismo si no se tiene en cuenta el tipo de maíz utilizado?”. Prácticas y problemas de diseño de experimentos. Bloque Mezcla 1 Mezcla 2 Mezcla 3 Mezcla 4 Mezcla 5 23 Tratamientos A B C D 89 88 97 94 84 77 92 79 81 87 87 85 87 92 89 84 79 81 80 88 Problema 3.11. “Un experimento consiste en anotar las décimas de segundo que se tarda en parar el cronómetro después de ponerlo en marcha. Para ello, se inicializa el cronómetro en 0:00:00, se pone en marcha pulsando un botón para, después, pararlo pulsando el mismo botón. Se anota el tiempo que se ha tardado en pararlo, ésto es, el tiempo que aparece indicado en el cronómetro. Con este experimento se desea estudiar la in‡uencia en la variable de interés (tiempo que se tarda en detener el cronómetro en décimas de segundo) de dos factores: el tipo de reloj utilizado (se han utilizado cuatro relojes: R1, R2, R3 y R4) y de la mano utilizada (derecha (D) o izquierda (I)). Todos los datos de este experimento han sido realizados por una sola persona que ha realizado cinco réplicas de cada tratamiento. Los datos obtenidos son los de la tabla adjunta. En base a ellos estudiar la in‡uencia de los factores y analizar la existencia de interacción entre los dos factores, ¿veri…can los residuos las hipótesis del modelo?”. Reloj Mano Derecha Izquierda R1 11 11 16 12 11 17 17 11 17 16 R2 10 18 20 17 13 30 22 28 22 20 R3 18 16 17 20 15 21 25 22 23 26 R4 12 14 15 16 16 21 16 18 21 18 Problema 3.12. “Se ha realizado un experimento para comprobar si existen diferencias signi…cativas en el tiempo de ejecución entre tres programas que calculan el factorial de un número. También se desea investigar si in‡uye en la variable de interés el intervalo al que pertenece el número del que se calcula el factorial. Los programas utilizados son tres: - Recfact, que calcula el factorial de forma recursiva. - Tailfact, calcula el factorial de usando tail-recursion. - Loopfact, calcula el factorial utilizando un bucle en el que calcula en sucesivas iteraciones el producto …nal. 24 Modelos estadísticos aplicados. Juan Vilar Los intervalos elegidos para hacer el estudio son de longitud cien unidades: [1,100], [101,200], [201,300], [301,400], [401,500]. En el experimento se generaba para cada uno de los cinco intervalos diez números aleatorios (diez réplicas) y para cada número se calculaba el tiempo de ejecución de los tres programas que calculan el factorial.Los datos obtenidos del experimento son los de la tabla adjunta. Programa Recfact Tailfact Loopfact I.1. 10 6 70 9 70 8 110 8 80 5 40 5 50 7 20 8 0 82 40 6 30 2 110 7 100 9 170 0 10 7 70 9 0 5 9 110 2 60 1 110 9 100 7 10 7 110 0 30 2 0 7 8 110 7 60 0 110 6 50 9 160 7 I.2. 170 3 130 3 140 7 230 4 190 0 220 2 190 3 140 8 240 8 150 0 210 5 280 4 360 6 270 9 250 5 210 6 220 0 320 8 340 5 340 5 330 7 210 5 270 8 210 0 240 9 210 1 350 8 270 3 180 9 320 0 Intervalo I.3. 280 8 350 2 310 9 290 2 320 0 310 0 290 9 310 1 340 5 260 5 460 3 510 6 520 6 430 7 430 0 390 5 470 6 440 8 460 4 470 8 420 5 460 4 460 7 410 8 500 3 430 5 380 4 450 1 450 2 510 3 I.4. 390 9 440 9 400 9 440 8 360 9 390 5 460 4 430 1 370 5 390 2 580 9 680 0 550 9 650 2 590 6 550 1 600 2 670 5 700 2 610 9 530 4 540 5 580 7 660 1 680 3 630 4 570 4 570 8 650 8 600 4 I.5. 510 5 510 7 520 6 500 1 550 1 500 6 490 0 560 6 490 1 550 9 850 6 740 1 760 6 840 7 780 2 790 6 830 5 750 8 770 6 740 1 720 4 760 3 740 6 770 4 820 6 750 8 720 2 830 5 740 0 810 3 Las variables en estudio son: Programa: programa utilizado (1=Recfact, 2=Tailfact, 3=Loopfact) Intervalo: intervalo del que se elegía el número (1,2,3,4, 5). Réplica: réplica del experimento (1,...,10) Tiempo: tiempo de ejecución en cada caso. En base a estos datos, 1. Estudiar de la in‡uencia de los tres factores. 2. ¿Qué modelo estadístico se debe utilizar? ¿Se ajusta bien el modelo propuesto a los datos? ¿Existe interacción entre los factores?, en caso a…rmativo interpretar la interacción. 3. Analizar las hipótesis básicas del modelo.” Problema 3.13. “Se diseña un experimento para estudiar la in‡uencia del “tipo de cinta”(dos niveles) y del “tipo de impresora”(dos niveles) en la variable “duración de la cinta en horas”. Los datos se recogen en la tabla adjunta Prácticas y problemas de diseño de experimentos. Impresora I 1 Cinta A Cinta B 0 0 17 1 15 2 190 4 170 2 160 5 160 7 180 9 200 7 0 14 9 200 1 25 Impresora I 2 Cinta A Cinta B 0 0 12 3 11 6 150 6 160 1 130 8 120 1 170 2 180 3 0 10 8 160 7 En base a estos datos 1. Escribir el modelo matemático asociado al problema y las hipótesis que se suponen. 2. Calcular la tabla ANOVA y obtener los contrastes que se deducen. 3. Si suponemos que la interacción es nula ¿cómo in‡uye en la tabla ANOVA? ¿Se modi…can las conclusiones? 4. Calcular un intervalo de con…anza al 90 % para la duración media de la cinta con la impresora I1.” Problema 3.14. “Se realiza un experimento para estudiar el efecto del tipo de material y el tratamiento empleado en el desgaste de unas piezas mecánicas. Los datos obtenidos son los de la tabla adjunta. En base a estos datos analizar la in‡uencia de los dos factores (diseño anadidado o jerarquizado)”. Material Tratamiento Réplica 1 Réplica 2 A a 23 25 B b 30 31 a 42 44 C b 45 50 a 37 38 D b 39 39 a 41 42 E b 44 49 a 20 25 b 24 30 Problema 3.15. “Se realiza un experimento para comparar la energía que se requiere para llevar a cabo tres actividades físicas: correr, pasear y montar en bicicleta. La variable de interés es Y =“número de kilocalorías consumidas por kilómetro recorrido”. Se cree que las diferencias metabólicas entre los individuos puede afectar al número de kilocalorías requeridas para llevar a cabo una determinada actividad y se quiere controlar esta variable extraña. Para ello se seleccionan ocho individuos al azar y se les pide que hagan las tres actividades mencionadas. Se mide el número de kilocalorías consumidas por kilómetro obteniendo los datos de la tabla adjunta. Las actividades se realizan en orden aleatorio con tiempo de recupeación entre una y otra. ¿Puede pensarse que no in‡uye la actividad realizada en el número de kilocalorías consumidas?.” Correr Caminar Pedalear B.1. 10 4 10 1 00 7 B.2. 10 5 10 2 00 8 B.3. 10 8 10 3 00 7 B.4. 10 7 10 3 00 8 B.5. 10 6 00 7 00 1 B.6. 10 5 10 2 00 7 B.7. 10 7 10 1 00 4 B.8 20 0 10 3 00 6 26 Modelos estadísticos aplicados. Juan Vilar Problema 3.16. “Se están investigando los efectos que sobre la resistencia del papel produce el porcentaje de concentración de …bra de madera (hardwood) en la pulpa, la presión del tanque y el tiempo de cocción de la pulpa. Se seleccionan tres niveles de concentración de madera y de presión, y dos niveles de tiempo de cocción. Por tanto, los factores son: concentración porcentual de …bra que se estudia a tres niveles (2, 4 y 8); presión durante el tiempo de cocción que se estudia a tres niveles (400, 500 y 650); y tiempo de cocción que se estudia a dos niveles, 3 y 4 horas. Se realiza un experimento completamente aleatorizado con dos réplicas y se registran los datos que se recogen en el …chero problema-3-16. 1. Analizar los datos y obtener conclusiones. 2. Obtener los grá…cos de residuos apropiados y comentar la adecuación del modelo.”