ESTADISTICA III JULIAN LEONARDO GOMEZ GOMEZ LAURA SOFIA SUAREZ HERRERA LEONEL EGIS GIMENEZ RICK KEVIN ACOSTA VEGA UNIVERSIDAD DEL MAGDALENA FACULTAD DE INGENIERÍA PROGRAMA DE INGENIERÍA INDUSTRIAL SANTA MARTA (D.T.C.H) 2017 TALLER 3 I. Preguntas 1. Conteste las siguientes preguntas, de índole general, con respecto a los diseños factoriales: a) Explique qué son los factores y qué es la(s) variable(s) de respuesta. En un diseño factorial 2𝑘 los factores simbolizan el exponente k y corresponden a los valores estudiados o controlados por el experimentador para analizar su efecto en la variable de respuesta, quien a su vez es la variable de interés de la cual se desea conocer la variación cuando se realicen ciertas variaciones en los factores. b) ¿Cuál es el objetivo de un diseño factorial? El objetivo de un diseño factorial es estudiar el efecto de varios factores sobre una o varias respuestas o características de calidad, es decir, lo que se busca es estudiar la relación entre los factores y la respuesta, con la finalidad de conocer mejor cómo es esta relación y generar conocimiento que permita tomar acciones y decisiones que mejoren el desempeño del proceso. c) Ejemplifique y explique en qué consiste la estrategia de modificar o mover un factor a la vez, que es propia de la experimentación empírica. Consiste en elegir el primer factor, realizar las corridas que quiera con ambos niveles, para obtener así la condición óptima. d) Señale y argumente qué ventajas tienen los experimentos factoriales sobre la estrategia de mover un factor a la vez. -Permiten estudiar el efecto individual y de interacción de los distintos factores. -Se pueden correr fracciones de diseños factoriales, las cuales son de gran utilidad cuando se involucran muchos factores para descartar de manera económica los que no son importantes. -Pueden utilizarse en combinación con diseño de bloques en situaciones en las que no puede correrse todo el diseño factorial bajo las mismas condiciones. e) ¿Qué significa que un factor tenga un efecto significativo? ¿Sobre quién es el efecto? Significa que en interacción con otro factor su significancia es negativa y esto recae en la variable de respuesta, lo que significa que no es el mejor tratamiento f) ¿Todos los factores deben ser de tipo cuantitativo o es posible involucrar factores cualitativos, por ejemplo dos tipos de máquinas, o la presencia o ausencia de alguna sustancia? Si es posible, los factores en estos diseños pueden ser de tipo cualitativo (máquinas, tipos de material, operador, la presencia o ausencia de una operación previa, etc.) , o de tipo cuantitativo (temperatura, humedad, velocidad, presión, etc.). 2. Suponga un diseño factorial 22 , cuyos factores y niveles son: temperatura (8, 20) y velocidad (4, 7). La variable de respuesta es rendimiento. Conteste las siguientes preguntas: a) ¿Por qué este diseño recibe tal nombre? El diseño recibe el nombre porque tiene dos factores y dos niveles. b) Anote los diferentes tratamientos que forman este diseño. Utilice diferentes tipos de códigos. TEMPERATURA 8 20 8 20 VELOCIDAD 4 4 7 7 A + + B + + AB + + CODIGO 1 A B AB c) Represente en forma geométrica al diseño y resalte la región de experimentación. 8 4 8; 7 20; 7 8; 4 20; 4 0 4 8 12 16 20 d) Explique cómo piensa que fue el proceso para seleccionar esos factores y esos niveles. Los factores se eligen porque su comportamiento se considera clave en el proceso y estos niveles son críticos. e) Defina qué son los efectos principales y cuál el efecto de interacción. El efecto de un factor se define como el cambio observado en la variable respuesta debido a un cambio de nivel de tal factor. En particular los efectos principales, son los cambios en la media de la variable respuesta debido a la acción individual de cada factor. Matemáticamente el efecto principal de un factor es la diferencia entre la respuesta media observada cuando tal factor estuvo en su nivel más alto y la respuesta media observada cuando el factor estuvo en su nivel más bajo. Por otro lado, se dice que dos factores interactúan entre sí o que tienen un efecto de interacción sobre la variable respuesta, cuando el efecto de un factor depende del nivel en que se encuentra el otro. f) Señale los diferentes efectos que se pueden estudiar con este diseño y la forma en que se calcula cada uno. En este ejercicio se pueden analizar los efectos principales que son la temperatura y la velocidad y la interacción entre ambos. Esto se logra con las siguientes ecuaciones: 𝑬𝑭𝑬𝑪𝑻𝑶 𝑨 = 𝑪𝑶𝑵𝑻𝑹𝑨𝑺𝑻𝑬 𝑨 𝒏𝟐𝒌−𝟏 g) Describa en qué consiste la aplicación de los tres principios básicos del diseño de experimentos (capítulo 1), en este caso. -Aleatorizar “Aleatorizar todos los factores no controlados por el experimentador en el diseño experimental y que pueden influir en los resultados serán asignados al azar a las unidades experimentales”. -Bloquear “Se deben dividir las unidades experimentales en grupos llamados bloques de modo que las observaciones realizadas en cada bloque se realicen bajo condiciones experimentales lo más parecidas posibles. A diferencia de lo que ocurre con los factores tratamiento, el experimentador no está interesado en investigar las posibles diferencias de la respuesta entre los niveles de los factores bloque”. -La factorización del diseño. “Un diseño factorial es una estrategia experimental que consiste en cruzar los niveles de todos los factores tratamiento en todas las combinaciones posibles”. II. Ejercicios 1. EJERCICIO En una empresa de electrónica una máquina toma componentes que le proporciona un alimentador, para montarlos o depositarlos en una tarjeta. Se ha tenido el problema de que la máquina falla en sus intentos por tomar el componente, lo cual causa paros de la máquina que detienen el proceso hasta que el operador se da cuenta y reinicia el proceso. Para diagnosticar mejor la situación, se decide correr un diseño de experimentos 24 con n = 2 réplicas, en el que se tienen los siguientes factores y niveles (–, +), respectivamente: A) Velocidad de cam (70%, 100%), B) Velocidad de mesa (media, alta), C) Orden o secuencia de colocación (continua, variable), D) Alimentador (1, 2). Como el proceso es muy rápido, es necesario dejarlo operar en cada condición experimental el tiempo suficiente para reproducir el problema. Se consideró que esto se lograba con suficiente confianza con 500 componentes; por ello, cada una de las corridas experimentales consistió en colocar 500 componentes, y se midieron dos variables de respuesta: Y1 = número de errores (o intentos fallidos), y Y2 = tiempo real (en segundos) para tomar y “colocar” los 500 componentes. Es evidente que se quiere minimizar ambas variables. Los datos obtenidos se muestran en la siguiente tabla. a) Al observar los datos obtenidos se deduce que hay algunos tratamientos que tienen pocos o ningún componente caídos, como por ejemplo el (–1, –1, +1, +1), alguien muy “práctico” decidiría poner la máquina a operar bajo estas condiciones, y olvidarse del análisis estadístico. De proceder así, explique qué información se perdería. b) Investigue qué efectos influyen de manera significativa sobre Y1 (apóyese en Pareto y ANOVA). c) Obtenga el mejor ANOVA. El mejor ANOVA se construyó de orden 2 y queda de la siguiente forma: Análisis de Varianza para NUMERO DE ERRORES Fuente A:VELOCIDAD DE CAM B:VELOCIDAD DE MESA C:ORDEN D:ALIMENTADOR AB AC AD BC BD CD bloques Error total Total (corr.) Suma de Cuadrados 1352,0 Gl Cuadrado Medio 1 1352,0 Razón- Valor-P F 2,38 0,1388 338,0 1 338,0 0,59 0,4497 2701,13 3042,0 0,5 666,125 8,0 55,125 2,0 66,125 13122,0 11372,5 32725,5 1 1 1 1 1 1 1 1 1 20 31 2701,13 3042,0 0,5 666,125 8,0 55,125 2,0 66,125 13122,0 568,625 4,75 5,35 0,00 1,17 0,01 0,10 0,00 0,12 23,08 0,0414 0,0315 0,9766 0,2920 0,9068 0,7587 0,9533 0,7367 0,0001 Esta tabla muestra que el valor-P para el alimentador y el orden de colocación son menores que el valor de significancia α= 0,05, por lo cual estos factores influyen significativamente en la variable de respuesta de estudio que en este caso es el número de errores en la máquina. Esta afirmación la podemos comparar con diagrama de Pareto el cual ordena los factores de menor a mayor magnitud en valor absoluto lo que indica que el factor alimentador y el factor orden son los más significativos. c) Si en el análisis anterior encuentra alguna interacción significativa, analice con detalle la más importante e interprete en términos físicos. No existe ninguna interacción significativa. d) ¿Qué tratamiento minimiza Y1? Optimizar Respuesta Meta: minimizar NUMERO DE ERRORES Valor óptimo = 37,0 Factor VELOCIDAD DE CAM VELOCIDAD DE MESA ORDEN ALIMENTADOR Bajo Alto Óptim o -1,0 1,0 -1,0 -1,0 1,0 -1,0 -1,0 1,0 -1,0 1,0 1,0 1,0 Para minimizar el número de errores de debe trabajar la velocidad de cam en nivel bajo, la velocidad de mesa en nivel bajo, el orden en nivel alto y el alimentador en nivel alto. e) Ahora investigue qué efectos influyen de manera relevante sobre Y2. Se tomó un diseño máximo de 4 Análisis de Varianza para TIEMPO REAL Fuente Suma de Gl Cuadrado RazónCuadrados Medio F A:VELOCIDAD DE 1176,13 1 1176,13 1,41 CAM B:VELOCIDAD DE 364,5 1 364,5 0,44 MESA C:ORDEN 1568,0 1 1568,0 1,88 D:ALIMENTADOR 4704,5 1 4704,5 5,65 AB 480,5 1 480,5 0,58 AC 1512,5 1 1512,5 1,82 AD 242,0 1 242,0 0,29 BC 3,125 1 3,125 0,00 BD 105,125 1 105,125 0,13 CD 45,125 1 45,125 0,05 ABC 3,125 1 3,125 0,00 ABD 378,125 1 378,125 0,45 ACD 190,125 1 190,125 0,23 BCD 18,0 1 18,0 0,02 ABCD 2,0 1 2,0 0,00 Valor-P 0,2531 0,5182 0,1901 0,0312 0,4592 0,1977 0,5977 0,9520 0,7273 0,8191 0,9520 0,5106 0,6396 0,8851 0,9616 bloques Error total Total (corr.) 10658,0 12489,0 33939,9 1 10658,0 15 832,6 31 12,80 0,0027 Esta tabla muestra que el valor-P para el alimentador es menor que el valor de significancia α= 0,05, por lo cual este factor influyen significativamente en la variable de respuesta de estudio que en este caso es el tiempo real. Esta afirmación la podemos comparar con diagrama de Pareto el cual ordena los factores de menor a mayor magnitud en valor absoluto lo que indica que el factor alimentador es el más significativo. f) ¿Qué tratamiento minimiza Y2? Optimizar Respuesta Meta: minimizar TIEMPO REAL Valor óptimo = 39,0 Factor VELOCIDAD DE CAM VELOCIDAD DE MESA ORDEN ALIMENTADOR Bajo Alto Óptim o -1,0 1,0 1,0 -1,0 1,0 -1,0 -1,0 1,0 -1,0 1,0 1,0 1,0 Para minimizar el número de errores de debe trabajar la velocidad de cam en nivel alto, la velocidad de mesa en nivel bajo, el orden en nivel alto y el alimentador en nivel alto. g) Encuentre una condición satisfactoria tanto para minimizar Y1 como Y2. No es posible encontrar una condición satisfactoria para minimizar ambas variables. h) De los análisis de varianza para Y1 y Y2 observe el coeficiente R2. ¿Qué concluye de ello? i) PARA EL NUMERO DE ERRORES 𝑅 2 = 65,2488% PARA EL TIEMPO REAL 𝑅 2 = 63,2026% El valor 𝑅 2 muestra el porcentaje de variación de la variable de respuesta respecto a la relación con otras variables que en este caso serían los factores, como se observa la variable número de errores posee mayor variación, esto quiere decir que cualquier cambio en los factores influye de mayor manera en ella que en el tiempo real j) Verifique residuos. VERIFICACCION DE SUPUESTOS PARA NUMERO DE ERRORES Ho: Los datos provienen de una distribución normal Ha: Los datos no provienen de una distribución normal Pruebas de Normalidad para C.RESIDUOS Prueba Estadísti Valor-P co Estadístico W de 0,98271 0,895559 Shapiro-Wilk 6 Debido a que Valor-P es mayor a α= 0,05 se acepta la hipótesis nula y asumimos que se cumple el supuesto de normalidad IGUALDAD DE VARIANZA Ho: Los tratamientos tienen igual varianza Ha: Los tratamientos no tienen igual varianza Tabla ANOVA para C.RESIDUOS por VELOCIDAD DE CAM Fuente Suma de Gl Cuadrado Razón-F Valor-P Cuadrados Medio Entre 1,81899E-12 1 1,81899E-12 0,00 1,0000 grupos Intra grupos Total (Corr.) 12489,0 30 416,3 12489,0 31 Debido a que Valor-P es mayor a α= 0,05 se acepta la hipótesis nula, por lo tanto, se asume que los residuos por velocidad de cam. tienen igual varianza. Tabla ANOVA para C.RESIDUOS por VELOCIDAD DE MESA Fuente Suma de Gl Cuadrado Razón-F Valor-P Cuadrados Medio Entre 1,81899E-12 1 1,81899E-12 0,00 1,0000 grupos Intra 12489,0 30 416,3 grupos Total 12489,0 31 (Corr.) Debido a que Valor-P es mayor a α= 0,05 se acepta la hipótesis nula, por lo tanto, se asume que los residuos por velocidad de mesa tienen igual varianza. Tabla ANOVA para C.RESIDUOS por ORDEN Fuente Suma de Gl Cuadrado Razón-F Cuadrados Medio Entre 0 1 0 0,00 grupos Intra 12489,0 30 416,3 grupos Total 12489,0 31 (Corr.) Valor-P 1,0000 Debido a que Valor-P es mayor a α= 0,05 se acepta la hipótesis nula, por lo tanto, se asume que los residuos por orden tienen igual varianza. Tabla ANOVA para C.RESIDUOS por ALIMENTADOR Fuente Suma de Gl Cuadrado Razón-F Cuadrados Medio Entre 1,81899E-12 1 1,81899E-12 0,00 grupos Intra 12489,0 30 416,3 grupos Total 12489,0 31 (Corr.) Valor-P 1,0000 Debido a que Valor-P es mayor a α= 0,05 se acepta la hipótesis nula, por lo tanto, se asume que los residuos para el alimentador tienen igual varianza. INDEPENDECIA Ho: Los residuos son independientes entre si Ha: Los residuos no son independientes entre si Prueba de Aleatoriedad de C.RESIDUOS (1) Corridas arriba o abajo de la mediana Mediana = 0,0 Número de corridas arriba o abajo de la mediana = 19 Número esperado de corridas = 17,0 Estadístico z para muestras grandes = 0,539096 Valor-P = 0,589817 (2) Corridas arriba y abajo Número de corridas arriba y abajo = 26 Número esperado de corridas = 21,0 Estadístico z para muestras grandes = 1,9425 Valor-P = 0,0520767 (3) Prueba Box-Pierce Prueba basada en las primeras 10 autocorrelaciones Estadístico de prueba para muestras grandes = 8,62044 Valor-P = 0,568464 Luego de realizar las tres pruebas de independencia se determinó que las tres pruebas arrojaron un Valor-P mayor a α= 0,05 por lo tanto se acepta la hipótesis nula, y se asume que los residuos son independientes entre sí. 2 EJERCICIO En el área de SMT se busca reducir los defectos ocasionados por impresiones de soldadura en pasta inadecuada. Se corre un diseño 24 con dos réplicas y dos puntos centrales por réplica. Los factores son: altura de la mesa (A), velocidad de separación (B), velocidad de impresión (C) y presión de las escobillas (D). La variable de respuesta es la altura de la impresión de soldadura en pasta. El experimento se corrió en planta, pero como el proceso es muy rápido (la impresión de una tarjeta tarda menos de un minuto), entonces se recomienda obtener más de un producto en cada condición experimental. Por ello se decidió que cada prueba experimental debería de consistir en dejar que el proceso se estabilizara y a partir de ahí imprimir 10 tarjetas de manera consecutiva, a cada tarjeta se le midió la altura. Con estos 10 datos se calculó la media y la desviación estándar, para así analizar el efecto de los factores sobre ambas. Una vez que se corre en orden aleatorio la primera réplica de todos los tratamientos, se deja de experimentar y al día siguiente se hace de manera similar la segunda réplica. Los datos se muestran a continuación: a) ¿Con qué finalidad se utilizan los puntos centrales? Los puntos centrales se usan para evaluar si existe una curvatura en la superficie de respuesta. Sin embargo, no se puede modelar el efecto de esa curvatura en otro lugar que no sea el punto central. b) Investigue qué efectos influyen de manera significativa sobre la altura promedio de la pasta (apóyese en Pareto y ANOVA). El mejor ANOVA se construyó de orden 4 y queda de la siguiente forma: Al analizar la anova obtenida del experimento y el grafico de Pareto los efectos que influyen de manera significativa sobre la altura promedio de la pasta son: Factor A: Altura de la mesa Factor C: Velocidad de impresión Factor D: Presión de las escobillas Interacción AC Interacción AD c) Si en el análisis anterior encuentra alguna interacción significativa, analice a detalle la más importante. Se encontró que la interacción AC presenta una significancia relativa con un P-value de 0,0042 lo que nos quiere decir que la altura de la mesa y la velocidad de impresión tienen efectos significativos con respecto a la altura de impresión de soldadura en pasta. d) Si se quiere un valor de 6.0 para la altura de la pasta, ¿cuáles son las condiciones para lograrlo? Si se quiere obtener un valor de 6,0 en la altura de impresión de la pasta el factor de altura de la mesa y la velocidad de impresión deben trabajar en nivel alto, y por el contrario la velocidad de separación y la presión de escobillas deberán trabajar en nivel bajo. e) Ahora investigue qué efectos influyen de manera relevante sobre la variabilidad de la altura de la pasta. En la tabla nos muestra que los factores con más relevancia en la variabilidad de la altura de impresión son Factor A: Altura de la mesa, Factor C: Velocidad de impresión, Factor D: Presión de las escobillas, debido a que su P-Value es mucho menor a α= 0,05 f) Encuentre una condición satisfactoria tanto para la altura como para minimizar la variabilidad. No existe una condición satisfactoria para minimizar ambas variables. g) De los análisis de varianza para la media y la desviación estándar vea el coeficiente 𝑅 2 . ¿Qué concluye de ello? R2 varianza para la media = 93,9281% R2 varianza para la desviación estándar = 81,3313% El valor 𝑅 2 muestra el porcentaje de variación de la variable de respuesta respecto a la relación con otras variables que en este caso serían los factores, como se observa la variable de varianza para las medias posee mayor variación, esto quiere decir que cualquier cambio en los factores influye de mayor manera en ella que en la desviación estandar. h) ¿Hay evidencia de curvatura? No hay evidencias de curvatura debido a que Valor-P es de 0,9586 lo cual es mayor que α= 0,05 por lo tanto no existe significancia. i) Verifique residuos. Respuesta: Prueba de normalidad. Ho: Los datos provienen de una distribución normal Ha: Los datos no provienen de una distribución normal Pruebas de Normalidad para RESIDUOS Prueba Estadísti Valor-P co Estadístico W de 0,98708 0,959378 Shapiro-Wilk 8 Debido a que Valor-P es mayor a α= 0,05 se acepta la hipótesis nula y asumimos que se cumple el supuesto de normalidad Igualdad de varianza Ho: Los tratamientos tienen igual varianza Ha: Los tratamientos no tienen igual varianza Tabla ANOVA para ALTURA DE IMPRESION por RESIDUOS Fuente Suma de Gl Cuadrado Razón-F Valor-P Cuadrados Medio Entre 15,5897 23 0,677814 3,43 0,0153 grupos Intra 2,37333 12 0,197778 grupos Total 17,9631 35 (Corr.) Debido a que Valor-P es menor a α= 0,05 se rechaza la hipótesis nula, por lo tanto, se asume que los residuos por altura de impresión no tienen igual varianza. Tabla ANOVA para ALTURA DE LA MESA por RESIDUOS Fuente Suma de Gl Cuadrado Razón-F Valor-P Cuadrados Medio Entre 22,6667 23 0,985507 1,27 0,3432 grupos Intra 9,33333 12 0,777778 grupos Total 32,0 35 (Corr.) Debido a que Valor-P es mayor a α= 0,05 se acepta la hipótesis nula, por lo tanto, se asume que los residuos por altura de la mesa tienen igual varianza. Tabla ANOVA para VELOCIDAD DE SEPARACION por RESIDUOS Fuente Suma de Gl Cuadrado Razón-F Valor-P Cuadrados Medio Entre 13,3333 23 0,57971 0,37 0,9797 grupos Intra 18,6667 12 1,55556 grupos Total 32,0 35 (Corr.) Debido a que Valor-P es mayor a α= 0,05 se acepta la hipótesis nula, por lo tanto, se asume que los residuos para la velocidad de separación tienen igual varianza. Tabla ANOVA para VELOCIDAD DE IMPRESION por RESIDUOS Fuente Suma de Gl Cuadrado Razón-F Valor-P Cuadrados Medio Entre 17,3333 23 0,753623 0,62 0,8459 grupos Intra 14,6667 12 1,22222 grupos Total 32,0 35 (Corr.) Debido a que Valor-P es mayor a α= 0,05 se acepta la hipótesis nula, por lo tanto, se asume que los residuos para la velocidad de impresión tienen igual varianza. Tabla ANOVA para PRESION DE ESCOBILLAS por RESIDUOS Fuente Suma de Gl Cuadrado Razón-F Valor-P Cuadrados Medio Entre 28,0 23 1,21739 3,65 0,0118 grupos Intra 4,0 12 0,333333 grupos Total 32,0 35 (Corr.) Debido a que Valor-P es menor a α= 0,05 no se acepta la hipótesis nula, por lo tanto, se asume que los residuos para la presión de escobillas no tienen igual varianza. Independencia Ho: Los residuos son independientes entre si Ha: Los residuos no son independientes entre si Prueba de Aleatoriedad de RESIDUOS (1) Corridas arriba o abajo de la mediana Mediana = -0,00486113 Número de corridas arriba o abajo de la mediana = 23 Número esperado de corridas = 19,0 Estadístico z para muestras grandes = 1,1837 Valor-P = 0,236531 (2) Corridas arriba y abajo Número de corridas arriba y abajo = 24 Número esperado de corridas = 23,6667 Estadístico z para muestras grandes = -0,0676046 Valor-P = 1,0 (3) Prueba Box-Pierce Prueba basada en las primeras 12 autocorrelaciones Estadístico de prueba para muestras grandes = 6,2224 Valor-P = 0,904459 Luego de realizar las tres pruebas de independencia se determinó que las tres pruebas arrojaron un Valor-P mayor a α= 0,05 por lo tanto se acepta la hipótesis nula, y se asume que los residuos son independientes entre sí.