DISEÑO DE EXPERIMENTOS Comparación de Gráficas en los tratamientos CONTENIDO Importancia del uso de gráficos en el análisis de datos y diseño de experimentos Gráficos de los efectos Gráficos de contorno y superficie de respuesta Gráficos de Pareto Histograma Diagrama de puntos Diagrama de caja y bigotes Gráficos de dispersión Gráficos cuantil-cuantil Gráficos de residuales IMPORTANCIA DEL USO DE GRÁFICOS EN EL ANÁLISIS DE DATOS Y DISEÑO DE EXPERIMENTOS Se consideran herramientas gráficas a aquellas estructuras de organización y presentación de los datos que permiten un análisis de los mismos mediante su apreciación en el espacio. IMPORTANCIA DEL USO DE GRÁFICOS EN EL ANÁLISIS DE DATOS Y DISEÑO DE EXPERIMENTOS La representación grafica o visualización de los datos es importante para cualquier análisis de datos La visualización permite de forma rápida ❑Permiten un mejor conocimiento de los datos, al hacer evidentes determinadas particularidades o incoherencias que pueda llevar a revisar su calidad o a utilizar herramientas estadísticas específicas. ❑Realizar cortes a los datos para poder observarlos desde diferentes perspectivas ❑Comprobar que aquellos modelos, tendencias, predicciones y agrupaciones que se han aplicado sobre los datos, nos devuelven el resultado esperado. ❑En estudios diseñados para probar hipótesis las herramientas gráficas pueden orientar al investigador para la utilización de los métodos estadísticos mas indicados ❑Permiten transmitir información de una manera más sencilla y clara. GRÁFICOS Y DIAGRAMAS UTILIZADOS EN EL ANÁLISIS DE DATOS oHistogramas oDiagramas de puntos oDiagramas de Pareto oGráficos de caja y bigote oDiagramas de dispersión oGráficos Cuantil-Cuantil (Q-Q plots) oGráficos de residuos oGráficos de los efectos de un factor (Diseños factoriales) oGráficos de contorno y superficie de respuesta GRAFICOS DE LOS EFECTOS Determinar las variables que tienen mas influencia en la respuesta. Determinar cual es el ajuste de las x que tienen mayor influencia para que y este cerca del valor deseado Determinar cual es el ajuste de las x que tiene mayor influencia para que la variabilidad de y sea reducida. Determinar cual es el ajuste de las x que tiene mayor influencia para que los efectos de las variables no controlables sean mínimos. PROCESO DE UN SISTEMA EFECTOS PRINCIPALES DE UN FACTOR Se evalúa la incidencia de dos o mas factores en un experimento Respuesta Cambio en la respuesta inferior Cambio en el nivel de factor Efecto de un factor en la variable de respuesta. Efecto de un factor (cambio en la respuesta producida por un cambio en el nivel de un factor) Se hace variar un factor superior Enfoque de un factor a la vez • Ventaja: La interpretación es directa y sencilla. • Desventaja: No toma en cuenta cualquier interacción entre los factores. DISEÑO FACTORIAL Indica la interacción entre los factores A y B Diseño factorial 22 B+ Cambio en la respuesta BB- B+ B+ Respuesta Respuesta B+ Cambio en la respuesta BB- − Factor A Sin interacción + − Factor A Con interacción + 𝐸𝑓𝑒𝑐𝑡𝑜 𝑐𝑎𝑑𝑎 𝑓𝑎𝑐𝑡𝑜𝑟 = σ 𝑅𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠 𝑛𝑖𝑣𝑒𝑙 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 σ 𝑅𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠 𝑛𝑖𝑣𝑒𝑙 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 − 𝑛𝑜. 𝑑𝑒 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠 𝑛𝑜. 𝑑𝑒 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎𝑠 𝐸𝑓𝑒𝑐𝑡𝑜 𝐴𝐵 = 𝐷𝑖𝑓𝑒𝑟𝑒𝑛𝑐𝑖𝑎 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑜𝑠 𝑒𝑓𝑒𝑐𝑡𝑜𝑠 Ventajas: Son de ayuda para interpretar interacciones significativas y para reportar resultados al personal sin preparación estadística. Desventaja: Su interpretación es subjetiva, no debe utilizarse como la única técnica para el análisis de datos. GRAFICO DE CONTORNO Y SUPERFICIE DE RESPUESTA Metodología de la superficie de respuesta (MSR), es una combinación de análisis de Regresión y Diseño experimental introducida por Box y Wilson en 1951. Es una estrategia de experimentación secuencial y modelación que conduce a la localización de los valores óptimos de las variables independientes que maximizan, minimizan o cumplen ciertas restricciones en la variable de respuesta. ❑ Conjunto de técnicas matemáticas y estadística utilizadas para modelar y analizar problemas en las que una variable de interés es influenciada por otras. ❑ Objetivo es optimizar la variable de interés ❑ Permite resolver el problema de encontrar las condiciones de operación optimas de un proceso. GRAFICO DE CONTORNO Y SUPERFICIE DE RESPUESTA Función de respuesta: El valor de respuesta Y depende de los niveles x1 ,x2,…xk de k factores 𝑌 = 𝑓 𝑥1, 𝑥2, … 𝑥𝑘 +ε Función de respuesta predicha: Se puede representar como una ecuación polinomial de primer o segundo grado. 𝑌 =β0 + β1 𝑥1 + β2 𝑥2 Al reemplazar los coeficientes de regresión por su estimadores se obtiene: Valor estimado de Y 𝑌 = β0 + β1 𝑥1 + β2 𝑥2 GRAFICO DE CONTORNO Y SUPERFICIE DE RESPUESTA Superficie de respuesta: 𝑌 = 𝑓 𝑥1, 𝑥2, … 𝑥𝑘 Superficie de respuesta Con k factores, la superficie de respuesta será en k+1 dimensiones 𝑌 = 𝑓 𝑥1 𝑌 = 𝑓 𝑥1 , 𝑥2 Gráficos de contorno: La gráfica de contornos facilita la visualización de una superficie de respuesta en tres dimensiones. Las curvas de los valores iguales de respuesta se grafican en un plano en donde los ejes representan los niveles de los factores Construcción de una superficie de respuesta. La investigación de una superficie de respuesta aborda la localización de la región en la cual se encuentra la respuesta óptima Y. Después de comprobar experimentalmente , va reduciendo la superficie de respuesta en estudio hasta acercarse al punto óptimo. Partimos de un Modelo de primer orden 𝒀 =β0 + β1 𝒙𝟏 + β2 𝒙𝟐 +…+ βk 𝒙𝒌 + ε 𝒌 𝒌 𝒋−𝟏 𝑌 = β0 + βi 𝒙𝒊 + βij 𝒙𝒊𝒙𝒋 + ε 𝒊=𝟏 𝒋=𝟐 𝒊=𝟏 SUPERFICIE DE RESPUESTA Encontrar el optimo Se utiliza cuando Tenemos ya una serie de valores existentes Si se quiere encontrar un máximo se le llama Maximización ascenso a la loma. Si se quiere encontrar un mínimo seria descenso al valle. Diseño de experimento simple no considera la curvatura pero nos da información sobre la trayectoria de ascenso Ajustamos a un modelo de orden uno y aunque no considere la curvatura nos podrá indicar hacia donde nos podemos dirigir. Modelo lineal de primer orden Modelo lineal de con interacción Modelo cuadrático o de segundo orden PASOS PARA APLICAR LA MSR 1. Definir los objetivos de la optimización. Plantear el problema a resolver y seleccionar la respuesta a evaluar 2. Seleccionar los factores que resultas significativos. 3. Establecer la región de operabilidad. 4. Seleccionar el entorno experimental. Definir la región del espacio de los factores en donde se planearan los experimentos. 5. Construir un diseño experimental de optimización. 6. Elaborar un modelo matemático. Obtener la superficie de respuesta y evaluar los resultados. 7. Localizar el óptimo. Utilizar herramientas gráficas y/o matemáticas para predecirlo 8. Verificar experimentalmente. Confirmar el valor de la respuesta utilizando los niveles óptimos de los factores. GRÁFICAS DE PARETO Permite discriminar entre las causas más importantes de un problema y las que afectan menos. Se basa en la idea de que unos pocos factores son los responsables de los cambios significativos en la respuesta Ventaja: Permite tener una idea visual rápida sobre que factor es más influyente. Desventaja: No aporta información sobre sus significancia, se requiere hacer un tratamiento estadístico. HISTOGRAMAS Es una gráfica que muestra como se distribuyen los valores de una variable cuantitativa cuando esta se divide en intervalos uniformes HISTOGRAMA ▪Las barras no están espaciadas ▪Cada barra representa un subconjunto de datos ▪Los datos se deben agrupar en intervalos de igual tamaño llamados clases. ▪No es recomendable que las bases de las barras tengan diferente tamaño. ▪Nos permite detectar valores extremos, características de simetría de la distribución o presencia de varias modas. HISTOGRAMA ¿ Cómo se construye un histograma ? 1. Se puede realizar con al menos 50 datos 2. Se calcula el Rango con el valor mas pequeño y el más grande del grupo de datos 3. El número de intervalos (k) se puede ajustar a aproximadamente la raíz cuadrada del numero de datos. 𝑘≈ 𝑛 Nº de datos (n) Nº de intervalos (k) 50-100 6-10 100-200 10-15 >200 15-20 4. Determinar la amplitud de los intervalos. 5. Definir las clases sumándole al valor mas pequeño, hasta llegar al valor mas grande. HISTOGRAMA 6. Determinar la frecuencia 5. Construir el histograma Picos mas altos, datos mas comunes Ajustan adecuadamente a una distribución normal Valores atípicos Datos multimodales Datos asimétricos, ajuste deficiente. DIAGRAMA DE PUNTOS ▪Útil para representar un conjunto reducido de datos (hasta aproximadamente 20) ▪Detecta Valores extremos, dispersión y tendencia central DIAGRAMAS DE CAJA Y DE BIGOTES Dato atípico 1.5 veces rango Inter cuartil Valor más alto Muestra la forma, la tendencia central y la variabilidad de los datos Tamaño de la muestra mayor a 20 datos Tercer cuartil (percentil 75) Mediana Primer cuartil (percentil 25) Valor más bajo Permiten evaluar la simetría de la distribución. Distribución normal Valores atípicos Datos asimétricos Evaluar y comparar grupos • Buscar la diferencia entre los centros de los grupos. • Buscar diferencias entre dispersiones de los grupos las GRAFICO DE DISPERSIÓN ▪Son utilizados con frecuencia en análisis de dos variables. ▪Las observaciones se representan simultáneamente en un punto. (como una coordenada en un plano cartesiano) ▪Son útiles para detectar valores extremos ▪Para explorar y describir la tendencia de dos variables correlacionadas GRÁFICOS CUANTIL- CUANTIL Permite evaluar si un conjunto de datos proviene o no de una distribución normal • Son herramientas utilizadas para evaluar características distribucionales de una variable. • Comparan una distribución esperada, que se calcula con una función matemática determinada, con la distribución observada que es la que muestran los datos • De forma que se aceptará la hipótesis de normalidad de los datos, siempre que los puntos en el gráfico tengan un comportamiento “suficientemente rectilíneo”. • Se grafican los efectos experimentales vs. Los efectos teóricos • Los datos se encuentran alineados La muestra proviene de una población con distribución normal Distribución sesgada a la derecha forma C. Distribución uniforme forma S PASOS PARA CONSTRUIR UN DIAGRAMA DE PROBABILIDAD 1. Las observaciones de la muestra se ordenan de menor a mayor (y1, y2…yn) 2. Construir un valor i, que va desde i=1,…n 3. Se determina el valor de su probabilidad asociada a la función de la distribución normal P(j) 4. P𝑗 = 𝑖−𝑎 , 𝑛+1−2𝑎 para i=1,…,n Si n ≤ 10, entonces 𝑎(𝑛𝑖𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑐𝑖ó𝑛) = Si n > 10, entonces 𝑎 = 1 , 2 por lo tanto 𝑗 = 1 2 𝑖− 𝑛 3 , 8 por lo tanto 𝑗 = 3 8 1 𝑛+ 4 𝑖− , , 5. Se calculan los cuantiles de la distribución normal estándar 6. Se grafican los datos vs los datos de probabilidad normal GRÁFICOS DE LOS RESIDUOS Al establecer un modelo matemático para predecir un evento con un numero de datos, generalmente se opta por hacer una regresión lineal. No siempre la regresión lineal representa de manera correcta los datos reales En un análisis de varianza se debe de cumplir con los supuestos son Normalidad, homocedasticidad e independencia Si los supuestos se cumplen, el análisis de varianza es una prueba exacta de la hipótesis de que no hay diferencias en las medias de los tratamientos. Para verificar que tanto se adecuan los datos al modelo, que tanto cumplen los supuestos, se realiza en análisis de los residuos Un residuo es la diferencia entre el valor observado y el valor estimado por el modelo matemático (línea de regresión). 𝑟𝑖 = 𝑌𝑖 − 𝑌𝑖 El residual puede ser considerado como el error aleatorio observado 𝒆𝒊 El análisis de residuales permite cotejar si las suposiciones del modelo de regresión se cumplen. Se puede detectar: • Si efectivamente la relación entre las variables X e Y es lineal. • Si hay normalidad de los errores. • Si hay valores anormales en la distribución de errores • Si hay varianza constante (propiedad de Homocedasticidad) y • Si hay independencia de los errores. NORMALIDAD DE LOS RESIDUOS Histogramas de residuos : se utiliza para determinar si los datos son asimétricos o si incluyen valores atípicos. Si es simétrico con un pico en el centro, se concluye que hay normalidad. GRAFICA DE PROBABILIDAD NORMAL DE LOS RESIDUOS Si los residuos, tienen aproximadamente un comportamiento cercano a una línea recta, se considera que satisface el supuesto de normalidad. GRAFICA DE PROBABILIDAD NORMAL DE LOS RESIDUOS La curva S implica una distribución con colas largas La curva S invertida implica una distribución con colas cortas La curva descendente implica una distribución con asimetría a la derecha Puntos alejados de la línea implican una distribución con valores atípicos. Gráfica de residuales en secuencia del tiempo Verificar el supuesto de que los residuos son independientes entre si. Los residuos son independientes si no muestran tendencias ni patrones cuando se muestran en orden cronológico. Si se observa un patrón, puede indicar que los residuos son dependientes Gráfica de residuales vs valor predicho Nos permiten verificar que los residuos están distribuidos aleatoriamente y tienen varianza constante, si es así se considera que satisface el supuesto de homocedasticidad. a) Adecuación del modelo b) y c) Heterocedasticidad (la varianza de los errores no es constantes en todas las observaciones). e) Falta de linealidad. CONCLUSIONES Existen distintos tipos de herramientas gráficas que nos ayudan a analizar datos de una investigación. Son herramientas muy útiles que nos permiten descartar factores y efectos que pueden o no estar influenciando en nuestro sistema tal como los diagramas de efectos. La MSR es una técnica versátil que permite usar diferentes herramientas estadísticas para optimizar un proceso Los gráficos de probabilidad normal nos permiten comparar la distribución empírica de un conjunto de datos con la distribución normal.