MINITAB AVANZADO Contenido Parte A: 1. Configuración personalizada de Minitab 2. Gráficas especiales 3. Manipulación de datos 4. Cálculos y patrones de datos en columnas 5. Distribuciones de probabilidad 6. Estadística inferencial – Pruebas de hipótesis 2 Contenido Parte B: 7. Tamaño de muestra y potencia 8. Análisis exploratorio de datos 9. Estadística no paramétrica 10. Tablas y pruebas no paramétricas 11. Regresión lineal y cuadrática 12. Regresión múltiple 3 Contenido Parte C: 13. Series de tiempo 14. Diseño de experimentos factoriales 15. Estudios de R&R – Concordancia por atributos 16. Capacidad de procesos por atributos 17. Capacidad de procesos 18. Cartas de control ponderadas en el tiempo 4 Contenido Parte A: 1. Configuración personalizada de Minitab 2. Gráficas especiales 3. Manipulación de datos 4. Cálculos y patrones de datos en columnas 5. Distribuciones de probabilidad 6. Estadística inferencial – Pruebas de hipótesis 5 Configuración personalizada del Minitab • Barras de tareas • Personalización • Opciones • Perfiles • Seguridad de archivos 7 Barras de tareas: Tools > toolbars 8 Barras de tareas: Tools > toolbars > Standard Ayuda Editar el último diálogo Ctrl-E Comando anterior Alt-F2 Comando siguiente F2 Cancelar Buscar siguiente Buscar Ctrl-F 9 Tools > toolbars > Project Manager Mostrar folder de sesión Mostrar folders de hojas Ctrl-Alt-D y Gráficas Ctrl-Alt-G Mostrar InforMación Ctrl-Alt-I Mostrar historial Ctrl-Alt-H Mostrar reporte Ctrl-Alt-R Mostrar documentos Relacionados Datos Ctrl-Alt-L Mostrar diseño Ctrl-Alt-E Project Mgr. Ctrl-I Borrar gráficas Mostrar hoja de Datos Ctrl-D Mostrar sesión Ctrl-M 10 Tools > toolbars > Worksheet Asignar Fórmula a columna Insertar celda renglón y columna Mover columna Mostrar Filas de Datos de Puntos Selec. Con Brush Borrar 11 Tools > toolbars > Graph editing Selección Brush Borrar selección 12 Tools > toolbars > Graph annotation tool Selección Insertar Texto Insertar rectángulo círculo, línea, punto Insertar dibujo de línea o superficie 13 Tools > toolbars > 3-D Graph tools Rotación inversa y normal en el eje X Rotación inversa y normal en el eje Y Rotación inversa y normal en el eje Z Rotación inversa y normal ligera en los ejes X, Y y Z Zoom +y- Regreso a parámetros inciales 14 Tools > toolbars > Factorial designs Crear diseño factorial Definir diseño factorial Seleccion ar Diseño óptimo Analizar Diseño factorial Optimizador Analizar variabilidad Preproceso de respuestas para análisis de variabilidad Gráficas factoriales Modificar y mostrar diseño Gráficas de contornos overlaid Gráficas de contorno y superifice de respuesta 15 Tools > toolbars > Response surface designs Crear diseño de superficie de respuesta Definir diseño de superficie de respuesta Seleccionar Diseño óptimo Analizar Diseño de Superficie de respuesta Optimizador Modificar y mostrar diseño Gráficas de contornos overlaid Gráficas de contorno y superifice de respuesta 16 Tools > toolbars > Mixture designs Crear diseño factorial Definir diseño factorial Seleccion ar Diseño óptimo Analizar Diseño factorial Gráficas factoriales Gráfica Del diseño Simplex Gráficas de trazo de respuesta Optimizador Modificar y mostrar diseño Gráficas de contornos overlaid Gráficas de contorno y superifice de respuesta 17 Tools > toolbars > Taguchi designs Crear diseño de Taguchi Analizar Diseño de Taguchi Definir diseño de Taguchi Modificar y mostrar diseño Predecir resultado 18 Tools > Customize Para personalizar las opciones de menú, seleccionar y arrastrar el comando específico, a una barra de menú existente Tools > Options Para personalizar las opciones por Default, de cada una de las opciones y menús de Minitab Tools > Profiles Para personalizar las opciones y menús de Minitab, definidos para un perfil específico Seguridad para archivos Permite asignar passwords en archivos de proyectos. para protegerlos de uso no autorizado. Tools > File Security File > Save Project As > Security Password to open project file Clave para abrir un archivo de proyecto (Hasta 15 caracteres) Password to modify project file Clave para modificar archivo de proyecto Read Only Permite su acceso de solo lectura NOTA: Si el password se olvida o pierde, no hay forma de recuperarlo Gráficas especiales • Gráficas de dispersión de dos variables • Gráficas matriciales de dispersión • Gráficas tridimensionales • Gráficas de contornos • Gráficas de superficies de respuesta 24 Gráficas de dispersión de dos variables Gráfica de dispersión simple File > Open Worksheet > Pulse.mtw o Copiar los datos de Archivos Datos Módulo 2 a Minitab Graph > Scatterplot > Simple Indicar en Y variable Weight y en X variable Height La gráfica de dispersión simple se muestra a continuación: Scatterplot of Weight vs Height 220 200 Weight 180 160 140 120 100 60 62 64 66 68 Height 70 72 74 76 25 Gráfica de dispersión Simple con una variable categórica: File > Open Worksheet > Pulse.mtw Graph > Scatterplot > Simple Indicar en Y variable Weight y en X variable Height Se puede agregar otra variable para estratificar haciendo doble click en los puntos y seleccionando la pestaña Groups e indicando la variable categórica Sex. Scatterplot of Weight vs Height 220 Sex 1 2 200 Weight 180 160 140 120 100 60 62 64 66 68 Height 70 72 74 76 26 Para cambiar el tipo se símbolo por categoría para impresión en blanco y negro: Click sobre cualquiera de los puntos, para seleccionarlos todos Click sobre los puntos de una cierta categoría Doble click para que aparezca el cuadro de diálogo que permita cambiar color, símbolo y tamaño para los puntos de ese grupo. 27 Para marcar más de un punto a la vez se utiliza Brush Con el gráfico seleccionado con un click, seleccionar Editor > Brush, se pueden seleccionar los puntos uno a uno o con un cuadro seleccionar varios a la vez,. manteniendo presionado el botón izquierdo del ratón mientras se seleccionan. Otra forma de activar Brush es con la barra de herramientas Graph Editing llamada desde: Tools > Tool Bars > Graph Editing 28 Con Brush activado y con la ventana de gráfica activa, en el Menu Editor seleccionar Set ID Variables indicar Pulse 1, Pulse 2, Ran, Smokes, Activity seleccionar Include (row numbers) Se muestra la siguiente información: 29 Para poner la Actividad a cada punto se usa: Graph > Scatter plot: With Groups Labels > Data Labels > seleccionar Use Labels from Column Activity 30 Para hacer un Zoom de una zona del diagrama hay que cambiar los valores mínimo y máximo de los ejes, seleccionar cada uno y en Scale Range poner los adecuados. Eje X Minimum 100 Maximum 120 Eje Y Minimum 61 Maximum 64 31 Para identificar las coordenadas de los puntos de la gráfica seleccionar la gráfica Editor > Crosshair El cursor se convierte en una cruz que se puede colocar en el punto para ver las coordenadas 32 Gráficas de dispersión Bivariantes con páneles: Se utiliza el archivo REHEAT.MTW de Minitab localizado en DATA . File > Open Worksheet > Reheat.Mtw Graph > Scatter plot: With Connect Line para unir los puntos Y variable Quality X variables Time Multiple graphs > By Variables > En By variables in separate panels Temp 33 Para modificar la apariencia de la gráfica, seleccionarla y : Editor > Panel > Options Seleccionar Don´t alternate panels Seleccionar Group information: Both variable names and levels Scatterplot of Quality vs Time Temp = 350 Temp = 375 Temp = 400 Temp = 425 Temp = 450 Temp = 475 8 6 4 Quality 2 0 8 6 4 2 0 25 30 35 25 30 35 25 30 35 Time 34 Graficas bivariantes con distribuciones de frecuencia adicionales: Reheat.Mtw File > Open Worksheet> Reheat.Mtw Graph > Marginal Plot Variables Y = PVP X = Pot(CV) Se tienen 3 posibilidades después de indicar la variable Y y X como antes: Marginal Plot of Height vs Weight 75 75 70 70 Height Height Marginal Plot of Height vs Weight 65 65 100 150 Weight 200 100 150 Weight 200 Marginal Plot of Height vs Weight Height 75 70 65 100 150 Weight 200 35 Matrices de Graficas bivariantes simples: Pulse.Mtw Simple File > Open Worksheet > Pulse.Mtw Graph > Matrix Plot > Simple Se tienen varias posibilidades después de indicar las variables: Matriz de "todas" por "todas" las variables seleccionadas Permite seleccionar toda la matriz o solo la parte inferior o superior de la misma 36 Matrix Plot of Pulse1, Pulse2, Height, Weight 50 100 150 100 150 200 100 75 Pulse1 50 150 100 Pulse2 50 75 70 Height 65 200 150 Weight 100 50 75 100 65 70 75 37 Matrices de Graficas bivariantes por grupos: Pulse.Mtw Por grupos File > Open Worksheet > Pulse.Mtw Graph > Matrix Plot > With groups Graph variables > Pulse 1 Pulse 2 Height Weight Categorical variables for subgroups Sex OK Matrix Plot of Pulse1, Pulse2, Height, Weight 50 100 150 100 150 200 100 75 Pulse1 Sex 1 2 50 150 100 Pulse2 50 75 70 Height 65 200 150 Weight 100 50 75 100 65 70 75 38 Matrices de Graficas bivariantes varias X vs varias Y: Pulse.Mtw Por grupos File > Open Worksheet > Pulse.Mtw Graph > Matrix Plot > Each Y vs Each X > With Smoother Y variables > Pulse 1 Pulse 2 X Variables Height Weight OK Matrix Plot of Pulse1, Pulse2 vs Height, Weight 100 125 150 175 200 Pulse1 100 75 50 150 Pulse2 125 100 75 50 60 64 68 Height 72 76 Weight 39 Gráficas de dispersión tridimensionales: Coches.Mtw Grafica bivariada en tres dimensiones Graph > 3D Scatter Plot Se utiliza de nuevo el archivo COCHES.MTW anexo 3DScatterplot of PVPvs Pot.(CV) vs Cil.(cc) 45000000 30000000 PVP 15000000 Indicar las variables para el eje Z, Y y X 450 0 300 0 2000 Cil.(cc) 150 4000 6000 Pot.(CV) 0 40 Con la herramienta Tools > Tool Bars > 3D Graph tools se puede modificar la gráfica: Girar gráfica Zoom Posición inicial Sobre la gráfica de 3 dimensiones se pueden usar también las opciones Brush, modificar ejes, puntos, etc. haciendo doble click sobre ellos. En algunos casos se desea tener los líneas verticales para los puntos, esto se hace en el menu de: Graph > 3D Scatter Plot Data View Seleccionar en Data Display Projected lines 41 Grafica bivariada en tres dimensiones estratificada por una variable categórica Graph > 3D Scatter Plot 3DScatterplotof PVPvsPot.(CV)vsCil.(cc) Num.Cil. 2 4 5 6 8 12 45000000 Indicar las variables Z, Y y X así como la variable (s) categórica (s) 30000000 PVP 15000000 450 300 150 Pot.(CV) 0 0 2000 Cil.(cc) 4000 6000 0 42 ContourPlotofC3vsC2,C1 5.0 Curvas de nivel (Contour Plots) -0.4 -0.4 -0.4 Graph > Contour Plot C2 Columnas de datos para Z, Y y X de Mesh 2.5 -0.8 -0.8 0.4 0.4 0.0 0.8 0.8 -2.5 0.0 -0.4 -0.8 -5.0 -5.0 -2.5 -0.4 -0.8 0.0 C1 -0.8 2.5 5.0 43 Superficie mallada (Wireframe) o superificie con textura (surface) Graph > 3D Scatter Plot Generar datos para la superficie por medio de una función ya establecida con: Calc > Make Mesh Data Columnas donde se guardan los datos generados Datos para un sombrero vaquero Obtener la gráfica con: Graph > 3D Surface Plot 44 Obtener la gráfica con: Graph > 3D Surface Plot Columnas de datos para Z, Y y X de Mesh Se tienen dos opciones, mallada o superficie Surface Plot of C3 vs C2, C1 1 C3 0 5 -1 0 -5 C1 0 5 C2 -5 45 Extraer subconjuntos de datos de hojas de trabajo (Worksheets) Data > Subset worksheet 48 La sección de la hoja de trabajo resultante es: 49 Dividir hojas de trabajo (Worksheets) Data > Split worksheet 50 Reunir hojas de trabajo (Worksheets) Data > Merge worksheet OK 51 Copias diversas Data > Copy OK 52 Apilar columnas Data > Stack columns OK Columnas resultantes 53 Desapilar columnas Data > Unstack columns OK Columnas resultantes 54 Transponer columnas Transpone columnas a renglones Por ejemplo, se tienen datos de estudiantes arreglados en columnas pero se quiere rearreglarlos por tipo de ejercicio: Task Pushups Pullups Situps Lyn Bill 50 66 73 Sam 69 85 88 Marie 70 81 95 57 76 79 File > Open Worksheet > Exercise.Mtw Data > Transpose columns En Transpose the following columns Lyn Bill Sam Marie En Store Transpose seleccionar After last column in use En Create variable names using columns, anotar Task OK 55 Los resultados se muestran a continuación: Labels Lyn Bill Sam Marie Pushups Pullups 50 69 70 57 Situps 66 85 81 76 73 88 95 79 56 Ordenar datos por una más columnas En los siguientes datos de ventas, se desea un listado por agencia: Index Quarter 1 2 3 4 5 6 7 8 Year 1 2 3 4 1 2 3 4 Sales 1991 1991 1991 1991 1992 1992 1992 1992 Advertis 94 99 98 92 106 116 113 108 Capital 17 10 9 22 24 18 13 14 AdAgency 8 6 12 16 29 32 33 36 Omega Omega Alpha Alpha Alpha Alpha Omega Omega File > Open Worksheet > Market.Mtw Data > Sort En Sort column(s), seleccionar Sales Advertis AdAgency En la primera By column seleccionar AdAgency En la segunda By column seleccionar Advertis y seleccionar Descending En Store sorted data seleccionar Columns(s) of current worksheet seleccionar C8 C9 C10 OK 57 Los resultados son los siguientes: Sales Advertis 106 92 116 98 94 108 113 99 24 22 18 9 17 14 13 10 AdAgency Alpha Alpha Alpha Alpha Omega Omega Omega Omega 58 Borrado de datos de renglones y columnas Data > Delete Rows OK Data > Erase variables OK 59 Uso de tablas de conversión Se desea codificar los nombres de estados a sus números de ID Tabla de conversión State MT CO CO OR WA CA WA StNam AL AK AZ AR CA CO CT STID StCod 1 2 3 4 5 6 7 La Tabla resultante es la siguiente: State MT CO File > Open Worksheet > States. Mtw CO Crear una columna nueva STID para los códigos OR Data > Code > Use conversion Table WA En Input column, seleccionar State CA En Output column, seleccionar STID En Column of Original Values, seleccionar StNam WA En Column of New Values, seleccionar StCod CO OK StNam AL AK AZ AR CA CO CT DE StCod STID 1 2 3 4 5 6 7 8 26 6 6 37 47 5 47 6 60 Cambio de tipo de variables Tabla resultante C1-T C2-D Data > Change data type Fechas Ene-10 Feb-10 Mar-10 Abr-10 May-10 Jun-10 Dates Ene-2010 Feb-2010 Mar-2010 Abr-2010 May-2010 Jun-2010 Se desea cambiar datos de fecha en texto a datos en formato de fecha Fechas Ene-1-10 Feb-1-10 Mar-1-10 Abr-1-10 May-1-10 Jun-1-10 Instrucciones de Minitab: Data > Change data type > Text to Date/Time En Change text column, seleccionar Fechas En Store Date / Time columns in, seleccionar Dates En Format of text columns (e.g. mm-dd-yy), mm-yy OK NOTA: mmm da el nombre del mes 61 Extracción de datos de fechas Data > Extract from Date / Time Tabla resultante C2-D Dates FechaNum Ene-2010 201001 Feb-2010 201002 Mar-2010 201003 Abr-2010 201004 May-2010 201005 Jun-2010 201006 62 Concatenar columnas Se usa para combinar columnas de texto en una columna más amplia Por ejemplo, los nombres y apellidos de estudiantes, estan en 2 columnas: Apellido Allen Charles Perkins Richards Stephens Nombre Jo Dave Max Bob Mary File > Open worksheet > STUDENTS.MTW Data > Concatenate En Concatenate text columns, First Last En Store Results, poner Students OK Tabla resultante Students Jo Allen Dave Charles Max Perkins Bob Richards Mary Stephens 63 Despiegue de contantes y matrices Data > Display data Muestra datos seleccionados de constantes y matrices almancenadas dado que no se mostraron en la ventana de sesión. Las constantes son números o textos definidos, para uso en fórmulas y cálculos. Todas las constantes se identifican con un nombre que inicia con K (K1, K2, etc.). Minitab tiene tres constantes reservadas: K998 = * K999 = 2.718 (e ) K1000 = 3.4142 (Pi) También se pueden asignar otros nombres a las constantes. 64 Las matrices son bloques rectangulares de números sobre los que se realizan operaciones matemáticas. Por ejemplo una matriz 3 x 4 (filas x columnas) es: Las matrices tienen una identificación que inicia con M (M1, M2, etc.) También se pueden asignar otros nombres a las matrcies. Instrucciones de Minitab: Data > Display Data En Columns, constants, and matrices to display, las que se quieren mostrar OK 65 Cálculo y patrones de datos en columnas Calculadora aritmética de columnas La calculadora se utiliza para realizar operaciones aritméticas, comparaciones, operaciones lógicas y operaciones entre columnas. Se puede realizar la operaciòn inmediata, o asignarla como fórmula a una columna o constante. Las expresiones no pueden contener matrices. C1-C4 no es un rango de valores, se interpreta como C1 menos C4. Ejemplo: File > Open worksheet > PULSE.Mtw Calc > Calculator Store results in variable, Pulse Diff En Expresion, poner Pulse2 - Pulse 1 OK 68 Los resultados son: Pulse1 Pulse2 64 58 62 66 64 88 70 76 78 80 Pulse Diff 24 12 14 12 16 69 Asignación de una constante Se desea asignar el valor 1.25 en una constante Calc > Calculator Store results in variable, K1 En Expresion, poner 1.25 OK 70 Cálculos con datos de fechas Restar dos columnas de fechas Fecha Hoy - Fecha Anterior Restar 30 días a la fecha de hoy y guardar el resultado numérico TODAY() - 30 Restar 30 días a la fecha de hoy DATE(TODAY() - 30) y guardar el resultadocomo fecha Extraer la fecha de una columna de Fecha / Tiempo DATE(fecha) Guardar un indicador (verdadero Fecha = WHEN("3/15/03") falso) en una columna, con base en la fecha y tiempo de una columna de fecha (1= verdadero, 0=falso) 71 Guardar un indicador (verdadero Tiempo >= TIME ("7:30") AND falso) en una columna, con base Tiempo <= TIME ("13:30") en el tiempo de una columna Guardar un indicador (verdadero Fecha contratada > TODAY()-30 falso) en una columna, con base en comparación de datos de fechas Guardar un indicador (verdadero Fecha contratada >DATE("3/15/03")-30 falso) en una columna, con base en comparación de datos de fechas 72 Expresiones generales Calcular una expresión matemática Coeficiente de variación STDEV(C1)/MEAN(C10)*100 Área del círculo K1000*C1**2 Grados centígrados 5/9*(Farenheit - 32) Guardar texto en columna "Verde" Guardar un indicador de verdadero o falso en col. (1= verdadero, 0=falso) C1 > C2 (C1<10) or (C1>=16) 73 Estadísticas de fila y columna Determina las estadísticas de filas y columnas con las pantallas sig.: Calc > Column statistics Calc > Row statistics 74 Estandarizar valores de variable Se utiliza para determianr los valores Z correspondientes a valores X almacenados en una columna: Calc > Standaridize 75 Patrones de datos en columnas Facilita el llenado de una columna con números que siguen un patrón tales como 1 al 100, o 5 subconjuntos de 1, 2 y 3. Se pueden obtener patrones con números igualmente espaciados o con espaciamientos diferentes como 10, 20, 50…. Calc > Make patterned data 76 Por ejemplo: Calc > Make Patterned Data > Simple set of numbers Store patterned data, poner ID En From firs value, poner 1, en To last value, poner 100 OK Tabla resultante: ID 1 2 3 4 5 77 Otros ejemplos: 78 Otros ejemplos: 79 Arbitrary set of numbers Text Values 80 Simpe set of Date/Time values Arbitrary set of Date/Time values 81 Variables indicadoras parea la regresión Convierte datos categóricos en variables indicadoras para uso en regresión Ejemplo: AL realizar un análisis de regresión de los datos de ventas, se quiere incluir la estación del año, que es variable categórica, primavera, verano, otoño e invierno (datos en archivo SEASONALSALES.MTW). Season Spring Spring Spring Spring Spring Etcétera… Daily Sales 3.75 3.89 4.78 3.82 3.63 82 Instrucciones de Minitab: File > Open worksheet > SEASONALSALES:MTW Calc > Make Indicator variables for, Season Store indicator variables in columns, Spring Summer Fall Winter OK 83 Los datos resultantes son: Season Spring Spring Spring Spring Spring Daily Sales 3.75 3.89 4.78 3.82 3.63 Fall Spring 0 0 0 0 0 1 1 1 1 1 Summer Winter 0 0 0 0 0 0 0 0 0 0 Etc… Se puede ahora realizar la regresión con: Instrucciones de Minitab: Stat > Regresión > Regression En Response, poner Daily Sales En Predictors, Spring Summer Fall Winter OK 84 Los resultados se muestran a continuación: The regression equation is Daily Sales = 0.687 + 0.634 Fall + 3.13 Spring + 4.03 Summer Predictor Constant Fall Spring Summer Coef 0.6870 0.6340 3.1290 4.0310 S = 0.628497 SE Coef 0.1987 0.2811 0.2811 0.2811 R-Sq = 88.8% T 3.46 2.26 11.13 14.34 P 0.001 0.030 0.000 0.000 R-Sq(adj) = 87.8% 85 Interpretación: Los coeficientes para Fall, Spring y Summer son significativos. Las ventas de Spring sonm mayores en $3.13 que las de Winter $0), en general se pueden observar las diferencias de los coeficientes de las estaciones para comparar sus efectos en las ventas. Normal Probability Plot (response is Daily Sales) 99 95 90 Percent 80 70 60 50 40 30 20 10 5 1 -1.5 -1.0 -0.5 0.0 Residual 0.5 1.0 1.5 Los residuos muestran normalidad, por lo que el modelo es válido 86 Distribución normal o de Gauss Estadístico Z Inferencia estadística de los parámetros: m= media Cuando n >= 30 y/o datos históricos) m=proporción Cuando n >= 30 es conocida (de Estadístico t Inferencia estadística del parámetro: m= media Cuando n < 30 y desconocida (sin historial del proceso o prov.) 89 Estadístico 2 Inferencia estadística del parámetro: = desviación estándar Comprobar normalidad del proceso Estadístico F Inferencia estadística del parámetro: 12/ 22 relación de varianzas Revisar normalidad de muestras 90 Generación de números aleatorios para simulación Permite generar números aleatorios a partir de diferentes distribuciones con base en sus parámetros específicos: Calc > Random data 91 Ejemplo para la distribución normal: Calc > Random data > Normal La tabla resultante es: Datos 113.307163 103.446686 100.30218 118.253584 105.06341 Etcetera 92 Distribuciones de probabilidad Permite calcular las densidades de probabilidad, probabilidades acumulativas y probabilidades acumulativas inversas para una serie de distribuciones discretas y continuas: Calc > Probability distributions 93 Ejemplo para la distribución normal: Calc > Probability distributions > Normal Los resultados son: Cumulative Distribution Function Normal with mean = 100 and standard deviation = 10 x 90 P( X <= x ) 0.158655 94 Mostrar áreas bajo la curva de probabilidad Se trata de ver el área que incluye al 10% de los alumnos que obtuvieron las calificaciones más altas a partir del 90%, con una media de 1211 y una desviación estándar de 320, y ver si la calificación de 1738 entra en esta zona. Seleccionar Graph > Probability Distribution Plot. Seleccionar View Probability, click OK. De la Distribution, Seleccionar Normal. En Mean, poner 1211 . En Standard deviation, poner 320 . Click en Shaded area. En Define Shaded Area By, seleccionar X Value. Click Right Tail. En X value, poner 1738 . Distribution Plot Click OK en cada cuadro de diálogo Normal, Mean=1211, StDev=320 0.0014 0.0012 0.0010 Density 1 2 3 4 5 6 7 0.0008 0.0006 0.0004 0.0002 0.0498 0.0000 1211 X 1738 97 O para un 10% del área: 5 Click en Shaded area. En Define Shaded Area By, seleccionar Probab., Right Tail, 0.10. Distribution Plot Normal, Mean=1211, StDev=320 0.0014 0.0012 Density 0.0010 0.0008 0.0006 0.0004 0.0002 0.0000 0.1 1211 X 1621 El valor de 1738 si entra en la zona. 98 Solo como demostración para el caso de dos colas: 5 Click en Shaded area. En Define Shaded Area By, sel. Probab., Both Tails, 0.10. Distribution Plot Normal, Mean=1211, StDev=320 0.0014 0.0012 Density 0.0010 0.0008 0.0006 0.0004 0.0002 0.05 0.0000 0.05 685 1211 X 1737 99 Prueba de normalidad Es una prueba de hipótesis de una población para determinar si la muestra se extrae de una población normal, que es la hipótesis nula. La hipótesis alterna es que no es normal. Se puede hacer por diversos métodos: 1. Método gráfico Se trata de probar la flamabilidad de una fibra y ver si sigue una distribución normal, además se quiere observar su valor en el percentll 87avo. 1 2 3 4 5 6 File > Open worksheet FLAMERTD.MTW. Graph > Probability Plot. Seleccionar Single, click OK. En Graph variables,seleccionar Fabric . Click Scale, y click el Percentile Lines . En Show percentile lines at Y values, teclear 87 . Click OK en cada cuadro de diálogo. 100 Probability Plot of Fabric Normal - 95% CI 99 95 90 87 Mean StDev N AD P-Value 3.573 0.5700 15 0.310 0.517 Percent 80 70 60 50 40 30 20 10 1 4.215 5 2 3 4 Fabric 5 6 Los puntos no salen del intervalo de confianza del 95% y el P value es menor de 0.05 por tanto los datos de la muestra siguen una distribución normal. El IC del 87% se encuentra entre los valores 3.84295 y 4.58790 101 6. Estadística inferencial Pruebas de hipótesis 104 Estadística inferencial • Introducción • Intervalos de confianza • Pruebas de hipótesis de una población • Pruebas de hipótesis de dos poblaciones • Análisis de varianza de una vía (ANOVA One way) • Análisis de varianza de dos vías (ANOVA two ways) • Análisis de medias (ANOM) • ANOVA balanceado 105 IC = Estadístico +- error muestral Intervalo de confianza (95%) , rango de valores para estimar los parámetros , , 2, Población, total de productos y servicios (N) Muestra (n) Inferencia estadística de los parámetros: m= media s= desviación estándar 2= varianza =proporción Estadísticos X, s, p 106 Distribución normal o de Gauss Estadístico Z Inferencia estadística de los parámetros: m= media Cuando n >= 30 y/o datos históricos) m=proporción Cuando n >= 30 es conocida (de Estadístico t Inferencia estadística del parámetro: m= media Cuando n < 30 y desconocida (sin historial del proceso o prov.) 107 Estadístico 2 Inferencia estadística del parámetro: = desviación estándar Comprobar normalidad del proceso Estadístico F Inferencia estadística del parámetro: 12/ 22 relación de varianzas Revisar normalidad de muestras 108 IC = Estadístico +- error muestral Intervalo de confianza (95%) , rango de valores para estimar los parámetros , , 2, Población, total de productos y servicios (N) Estadísticos utilizados: m= media, Z o t =proporción Muestra (n) s= desviación estándar, 2 12/ 22 Rel. de varianzas Estadísticos X, s, p 109 Intervalos de confianza para la media Determinar el intervalo de confianza para la media poblacional , con los datos tomados del índice de calidad del vino, con los datos en el archivo Wine.Mtw. Desv. Estándar = 2.04 Se utiliza el estadístico Z por ser n > 30 File > Open worskeet > Wine.Mtw Stat > Basic statistics > 1-Sample-Z (Test and confidence interval) Samples in columns seleccionar columna Quality Estándar deviation 2.04 Options Confidence level 95% OK Individual Value Plot of Quality Graphs seleccionar Individual value plot OK OK (with 95% Z-confidence interval for the Mean, and StDev = 2.04) _ X Intervalo donde se encuentra La media poblacional 7 8 9 10 11 12 Quality 13 14 15 16 110 Se obtienen los resultados siguientes: One-Sample Z: Quality The assumed standard deviation = 2.04 Variable N Mean StDev SE Mean 95% CI Quality 38 12.437 2.045 0.331 (11.788, 13.085) Conclusión: para un 95% de nivel de confianza, con los datos obtenidos de la muestra del ínidice de calidad del vino (Quality), el intervalo que contiene al índice promedio de calidad para toda la producción de vino es: (11.788 a 13.085) La gráfica de puntos que muestra la distribución de los valores del índice de calidad y el Intervalo de confianza correspondiente, para un nivel de confianza del 95% es: Individual Value Plot of Quality (with 95% Z-confidence interval for the Mean, and S tDev = 2.04) _ X 7 8 9 10 11 12 Quality 13 14 15 16 111 Prueba de hipótesis • Una prueba de hipótesis es una afirmación sobre el valor que se estima tiene un parámetro poblacional , , 2, • Si la afirmación contiene el signo igual (=, >=, <=) se establece primero la hipótesis nula Ho • Si la afirmación contiene los signos (<, >, <> o ) se establece primero la hipótesis alterna Ha • Es necesario establecer el nivel de confianza de la prueba, normalmente 95% (o alfa de 1-NC = 0.05) 112 Prueba de hipótesis para la media Cuando no se conoce la desviación estándar y la muestra n es menor a 30. Por ejemplo, se afirma que las ventas promedio diarias son mayores a 100 unidades: Se toma una muestra de 20 días y se determina que el promedio es 110 y la desviación estandar de la muestra es 5 Establecimiento de hipótesis Ha: m> 100 Ho: m<= 100 En Minitab: Stat > Basic statistics > 1-sample t 113 One-Sample Z se muestran a continuación Los resultados Test of mu = 100T vs > 100 One-Sample The assumed standardcannot deviationbe = 5 made with summarized data. * NOTE * Graphs Test of mu = 100 vs not = 100 95% Lower N Mean StDev SE Mean 95% CI N Mean SE Mean Z P (107.66, 112.34) 20 110.00 5.00Bound 1.12 20 110.00 1.12 T 8.94 P 0.000 108.16 8.94 0.000 Conclusión: El intervalo de confianza donde se encuentra el promedio de las ventas con base en una muestra tomada es (107.66 a 112.34) para un 95% de nivel de confianza. El Intervalo de confianza de (107.66, 112.34) no contiene a la media de la hipótesis (100) y P value es menor a 0.05, se rechaza Ho y se acepta Ha, ya subió el promedio de ventas. 114 Cuando se conoce la desviación estándar y la muestra n es mayor a 30. Para el caso de los datos del archivo Wine.Mtw se trata de probar la afirmación de que el aroma es mayor o igual a 4, a un 95% de nivel de confianza. Establecimiento de hipótesis Ha: m<4 Ho: m>= 4 En Minitab: Stat > Basic statistics > 1-Sample-Z (Test and confidence interval) Samples in columns seleccionar columna Aroma Standard deviation 4.847 Perform hypothesis test Hypothesized mean 4 Options Confidence level 95% Alternative Less Than OK Graphs seleccionar Individual value plot OK OK 115 116 Los resultados se muestran a continuación: One-Sample Z: Aroma Test of mu = 4 vs < 4 The assumed standard deviation = 4.847 Variable Aroma N 38 Mean 4.847 StDev 1.082 95% Upper Bound 6.141 SE Mean 0.786 Z 1.08 P 0.859 Conclusión: El intervalo de confianza donde se encuentra el promedio de Aroma con base en una muestra tomada es (…., 6.141) para un 95% de nivel de confianza. El Intervalo de confianza de (….., 6.141) SI contiene a la media de la hipótesis (4) y P value es mayor a 0.05, NO se rechaza Ho, el Aroma tiene un promedio >= 4. Individual Value Plot of Aroma (with Ho and 95% Z-confidence interval for the Mean, and StDev = 4.847) _ X Ho 3 4 5 6 7 8 A roma 117 Prueba de hipótesis para una proporción Ejemplo: Un producto tiene accesorios que se piensa nadie usa, se hace una encuesta a 200 usuarios y 17 si usan los accesorios. ¿Para un 95% de confianza se confirma la sospecha de que menos del 10% de usuarios usan estos accesorios? Establecer hipótesis: Ho: Proporción >= 0.10 Ha: Proporción < 0.10 Instrucciones de Minitab Stat > Basic Statistics > 1 - Proportion Options Confidence level 95% Test Proportion 0.1 Alternative Less Than seleccionar Use test and interval based on normal distribution OK 118 Se obtuvieron los resultados siguientes: Test and CI for One Proportion Test of p = 0.1 vs p < 0.1 Sample 1 X 17 N 200 Sample p 0.085000 Upper Bound 0.124771 Exact P-Value 0.285 No se rechaza Ho ya que la Proporción del 10% de la hipótesis se encuentra en el intervalo de confianza y el P value es mayor a 0.05, no se acepta la hipótesis alterna. Es válido decir que sólo el 10% de usuarios utilizan los accesorios 119 Comparación de dos medias - Muestras independientes Ho: Media A (mA)- Media B (mB) = 0 Ha: Media A (mA)- Media B (mB) 0 Ejemplo: 10 pieles son curtidas usando el método A y 10 usando el método B, las resistencias a la tracción son las siguientes: Método A Método B 24.3 24.4 25.6 21.5 26.7 25.1 22.7 22.8 24.8 25.2 23.8 23.5 25.9 22.2 26.4 23.5 25.8 23.3 25.4 24.7 ¿Se puede decir que los dos métodos producen resistencias a la tracción diferentes? Usar un nivel de confianza del 95%. En Minitab: Se colocan los valores en dos columnas diferentes C1 y C2 corresp. A Metodos A y B 120 Paso 1. Se realiza un análisis de comparación de varianzas poblacionales: Ho: Varianza A = Varianza B Ha: Varianza A Varianza B Stat > Basic Statistics > 2 Variances Samples in different columns First Método A Second Método B Options Confidence level 95% OK 121 Los resultados son los siguientes: Test for Equal 95% Bonferroni F-Test (normal Test statistic Variances: Método A, Método B confidence intervals for standard deviations distribution) = 1.01, p-value = 0.991 Como el P value es mayor a 0.05 no se rechaza la Hipótesis nula de igualdad de varianzas, por tanto se asume que son iguales. Esta inf. se usará a continuación: 122 Paso 2. Se realiza un análisis de comparación de medias poblacionales Establecer hipótesis H: Media A - Media B = 0 Ha: Media A - Media B 0 Instrucciones de Minitab: Stat > Basic Statistics > 2 - Sample t Samples in different columns First Método A Second Método B seleccionar Assume equal variances Options Confidence level 95% Test difference 0.0 Alternative Not equal OK OK 123 La gráfica de caja parece indicar diferencia entre las medias de las muestras Boxplot of Método A, Método B 27 26 Data 25 24 23 22 21 Método A Método B 124 Se obtienen los siguientes resultados: Two-sample T for Método A vs Método B N Mean StDev SE Mean Método A 10 25.14 1.24 0.39 Método B 10 23.62 1.24 0.39 Difference = mu (Método A) - mu (Método B) Estimate for difference: 1.52000 95% CI for difference: (0.355, 2.685) T-Test of difference = 0 (vs not =): T-Value = 2.74 P-Value = 0.013 DF = 18 Conclusiones: Como el cero no se encuentra en el intervalo de confianza de la diferencia de las dos medias y el valor P value es menor a 0.05 se rechaza la hipótesis nula de igualdad de medias y se acepta Ha afirmando que las medias son diferentes 125 Muestras pareadas - Prueba si las diferencias entre sujetos son iguales. Ho: Media de diferencias = 0 Ha: Media de diferencias Se utilizan cuando se trata de comparar el efecto de dos tratamientos a los mismos sujetos u objetos, por ejemplo el peso de individuos antes y después de una rutina. También se aplica cuando cuando antes de comparar se hacen parejas de sujetos por ejemplo para comparar los promedios de alumos de dos universidades, primero se forman parejas (dos ingenieros, dos administradores, dos arquitectos, etc.) Ejemplo: Se hacen dos tratamientos superficiales para lentes A y B, se seleccionan 10 personas a las que se les instala uno de esos lentes en cualquier lado al azar. Después de un periodo se mide el deterioro (rayas, desgaste, etc.) de cada lente: A un 95% de nivel de confianza ¿Se puede afirmar que los 2 tratamientos producen diferente deterioro en los lentes? Se colocan los datos en las columnas C1 y C2 para los Lentes A y B. 126 Persona 1 2 3 4 5 6 7 8 9 10 Lente A 6.7 5.0 3.6 6.2 5.9 4.0 5.2 4.5 4.4 4.1 Lente B 6.9 5.8 4.1 7.0 7.0 4.6 5.5 5.0 4.3 4.8 En Minitab colocar los datos de Lentes en dos columnas Establecer hipótesis Ho: Diferencia de medias = 0 Ha: Diferencia de medias 0 Instrucciones de Minitab Stat > Basic Statistics > Paired t Samples in different columns First Lente A Second Lente B Graphs Individual value plot Options Confidence level 95% Test mean 0.0 Alternative Not equal OK OK 127 Resultados Paired T-Test and CI: Lente A, Lente B Paired T for Lente A - Lente B N Mean StDev Lente A 10 4.96000 1.02978 Lente B 10 5.50000 1.13039 Difference 10 -0.540000 0.343835 SE Mean 0.32564 0.35746 0.108730 95% CI for mean difference: (-0.785964, -0.294036) T-Test of mean difference = 0 (vs not = 0): T-Value = -4.97 P-Value = 0.001 Como el cero no se encuentra en el intervalo de confianza de la diferencia de las dos medias y el valor P value es menor a 0.05 se rechaza la hipótesis nula de igualdad de medias y se acepta la alterna afirmando que los tratamientos dan deterioros diferentes. 128 Individual Value Plot of Differences (with Ho and 95% t-confidence interval for the mean) _ X Ho -1.2 -1.0 -0.8 -0.6 -0.4 Differences -0.2 0.0 Como el valor de Ho no se encuentra en el intervalo de confianza de la diferencia de las dos medias, se rechaza Ho y se acepta Ha indicando que el deterioro es diferentes en los dos métodos. 129 Comparación de dos proporciones Ejemplo: En una encuesta a 300 clientes de la zona A, 33 estan descontentos En otra zona B se encuestaron a 250 clientes y 22 se mostraron descontentos. A un 95% de nivel de confianza o 5% de nivel de sigfinicancia, ¿Hay diferencia en las proporciones de clientes descontentos en las dos zonas? Establecer hipótesis: Ho: Proporción A = Proporción B Ha: Proporción A Proporción B Instrucciones de Minitab (datos resumidos): Stat > Basic Statistics > 2 - Proportions Options Confidence level 95% Alternative Not equal, Test Difference = 0 Seleccionar Use Pooled estimate p for test OK 130 Los resultados son los siguientes: Test and CI for Two Proportions Sample X N Sample p 1 33 300 0.110000 2 22 250 0.088000 Difference = p (1) - p (2) Estimate for difference: 0.022 95% CI for difference: (-0.0278678, 0.0718678) Test for difference = 0 (vs not = 0): Z = 0.86 P-Value = 0.392 Como el cero SI se encuentra en el intervalo de confianza de la diferencia de las 2 proporciones y el valor P value es mayor a 0.05 no se rechaza la hipótesis nula de igualdad de proporciones o sea que no hay razón para decir que las proporciones son diferentes. 131 Análisis de varianza (ANOVA) El Análisis de Varianza es una prueba de hipótesis que trata de probar la igualdad de varias medias al mismo tiempo: H 0 1 2 3 .... k H 1 : Al menos dos medias son diferentes . Requiere que las poblaciones sean normales y con varianza similar. ANOVA de una vía con datos de tratamientos en diferentes columnas: Ejemplo: Los técnicos de una fábrica de papel hacen un experimento de un factor para ver que variedad de árbol produce menos fenoles en los desechos de pasta de papel. Se colectan los siguientes datos en porcentajes: A un 95% de nivel de confianza, ¿hay alguna variedad que produzca más fenoles que otra? Se colocan los datos en tres columnas distintas: 132 Instrucciones de Minitab: Stat > ANOVA > One Way (Unstacked) Responses in separate columns A B C Confidence Level 95 Comparisons Tukey's, family error rate: 5 Graphs: Residual plots Box plot of data Normal plot of residuals OK 133 Los resultados se muestran a continuación: One-way ANOVA: A, B, C Source DF Factor 2 Error 12 Total 14 S = 0.2309 Level A B C N 4 5 6 SS MS 0.9000 0.4500 0.6400 0.0533 1.5400 R-Sq = 58.44% Mean 1.9000 1.3000 1.4000 StDev 0.1414 0.2121 0.2828 Pooled StDev = 0.2309 Desviación estándar poblacional F 8.44 Como el valor P value es menor a 0.05 existe una diferencia significativa entre algunas medias P 0.005 R-Sq(adj) = 51.52% Individual 95% CIs For Mean Based on Pooled StDev A produce más fenoles que B,C ----+---------+---------+---------+----(-------*--------) (------*-------) (------*------) ----+---------+---------+---------+----1.20 1.50 1.80 2.10 Las medias B y C son similares La media de A es diferente a B y C 134 Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons Individual confidence level = 97.94% A subtracted from: Lower Center B -1.0130 -0.6000 C -0.8974 -0.5000 B subtracted from: Lower Center C -0.2728 0.1000 Upper -0.1870 -0.1026 Upper 0.4728 Como el cero no está en el intervalo de la diferencia B-A o C-A, A es diferente de B y C -----+---------+---------+---------+---(---------*---------) (---------*--------) -----+---------+---------+---------+----0.80 -0.40 -0.00 0.40 -----+---------+---------+---------+---(---------*--------) -----+---------+---------+---------+----0.80 -0.40 -0.00 0.40 El intervalo de la diferencia C-B si incluye el cero por tanto B no es diferentes de C 135 Los resultados gráficos son los siguientes: Boxplot of A, B, C 2.2 2.0 Data 1.8 1.6 1.4 1.2 1.0 A B C Se observa que la media de A es diferente a las medias de B y C (si se superpone B y C tienen elementos comunes y son iguales) Los árboles B y C producen menos cantidad de fenoles. 136 Los resultados gráficos son los siguientes: Normal Probability Plot (responses are A, B, C) 99 95 90 Percent 80 70 60 50 40 30 20 10 5 1 -0.50 -0.25 0.00 Residual 0.25 0.50 Los residuos o errores se apegan a la recta normal, por tanto el modelo ANOVA es un modelo adecuado para los datos 137 ANOVA de una vía con datos de tratamientos en una sola columna Los datos del ejemplo anterior se arreglan en dos columnas como se muestran a continuación: A 1.9 1.8 2.1 1.8 B 1.6 1.1 1.3 1.4 1.1 C 1.3 1.6 1.8 1.1 1.5 1.1 Fenoles 1.9 1.8 2.1 1.8 1.6 1.1 1.3 1.4 1.1 1.3 1.6 1.8 1.1 1.5 1.1 Árbol A A A A B B B B B C C C C C C 138 Instrucciones de Minitab: Stat > ANOVA > One Way Response Fenoles Factor Árbol Confidence Level 95 Comparisons Tukey's, family error rate: 5 Graphs: Residual plots Box plot of data Normal plot of residuals OK Los resultados que se obtienen son iguales a los ejemplo anterior. 139 Ejercicios: Las calificaciones de un curso de liderazgo para 18 participantes de tres diferentes departamentos fueron las mostradas en la tabla siguiente. Probar a un 95% de nivel de confianza o 5% de nivel de significancia si el aprovechamiento fue similar en los tres departamentos o en su caso cuál fue el peor. DEPARTAMENTO Depto_A Depto_B 8 7 7 8 8 7 6 7 7 6 8 8 Depto_C 5 6 6 7 7 6 Arreglados en dos columnas quedan como: Calificaciones Depto 8 Depto_A 7 Depto_A 8 Depto_A 6 Depto_A 7 Depto_A 8 Depto_A 7 Depto_B 8 Depto_B 7 Depto_B 7 Depto_B 6 Depto_B 8 Depto_B 5 Depto_C 6 Depto_C 6 Depto_C 7 Depto_C 7 Depto_C 6 Depto_C 140 a) Con datos en tres columnas Instrucciones de Minitab: Stat > ANOVA > One Way (Unstacked) Responses in separate columns Depto_A Depto_B Depto_C Confidence Level 95 Comparisons Tukey's, family error rate: 5 Graphs: Residual plots Box plot of data Normal plot of residuals OK Como el valor P de es que 0.05, se concluye que El peor aprovechamiento lo tuvo el departamento De las gráficas de diferencias de Tukey, las medias de los procesos que son diferentes son (dado que el cero no se encuentra en el intervalo de confianza de la diferencia de medias – Pairwise comparisons): b) Otra opción con datos en una sola columna Instrucciones de Minitab: Stat > ANOVA > One Way Response Calificación Factor Depto Confidence Level 95 Comparisons Tukey's, family error rate: 5 Graphs: Residual plots Box plot of data Normal plot of residuals OK Identificar la media que es diferente a las demás (donde el cero no pertenezca al intervalo 141 b) Otra opción con datos en una sola columna Con Minitab: Stat > ANOVA One way Response Calificaciones Factor Depto Comparisons: Tukey’s, family error rate 5 Graphs: Box polot of data OK ESTADÍSTICAS > ANOVA UN FACTOR RESPUESTA CALIF FACTOR DEPTO. COMPARACIONES: TUKEY, TASA DE ERROR DE LA FAMILIA 5 GRÁFICAS: DIAGRAMA DE CAJA DE DATOS OK Identificar la media que es diferente a las demás (donde el cero no pertenezca al intervalo de confianza de la diferencia de medias entre cada dos tratamientos Depto). 142 Análisis de varianza de dos vías (ANOVA Two way) Prueba la igualdad de medias poblacionales cuando la clasificación de tratamientos es por variables o factores, las celdas deben estar balanceadas con el mismo número de observaciones y los factores deben ser fijos. Para mostrar las medias en las celdas y sus desviaciones estándar utilizar la opción Cross Tabulation and Chi Square. Si se desea que ciertos factores sean aleatorios, usar ANOVA balanceado o el Modelo lineal general si desea comparar medias usando comparaciones múltiples. Por ejemplo: Se estudia el plancton en dos lagos. Se preparan doce tanques en el laboratorio, seis con agua de cada uno de los lagos, se agrega uno de tres nutrientes en cada tanque y al mes se cuenta el plancton en cada unidad de volumen de agua. Se utiliza el ANOVA de dos vías para este experimento. 143 Instrucciones de Minitab: 1 File > Open worksheet > EXH_AOV.MTW. Zooplank ton Supplement 2 3 4 5 Lak e 34 1 Rose 43 57 40 85 68 67 53 41 24 42 52 1 1 1 2 2 2 2 3 3 3 3 Rose Dennison Dennison Rose Rose Dennison Dennison Rose Rose Dennison Dennison Stat > ANOVA > Two-Way. En Response, seleccionar Zooplankton . En Row factor, seleccionar Supplement . Seleccionar Display means. En Column factor, seleccionar Lake . Sel. Display means. Click OK. 144 Los resultados se muestran a continuación: Two-way ANOVA: Zooplankton versus Supplement, Lake Source Supplement Lake Interaction Error Total S = 10.18 Supplement 1 2 3 DF 2 1 2 6 11 SS 1918.50 21.33 561.17 622.00 3123.00 R-Sq = 80.08% Mean 43.50 68.25 39.75 MS 959.250 21.333 280.583 103.667 F 9.25 0.21 2.71 P 0.015 0.666 0.145 R-Sq(adj) = 63.49% Individual 95% CIs For Mean Based on Pooled StDev --+---------+---------+---------+------(-------*-------) (--------*-------) (--------*-------) --+---------+---------+---------+------30 45 60 75 Interpretación: De la tabla de ANOVA se ve que no hay una interacción significativa entre Supplement*Lake y tampoco Lake es significativo. 145 Mean 43.50 68.25 39.75 Individual 95% CIs For Mean Based on Pooled StDev --+---------+---------+---------+------(-------*-------) (--------*-------) (--------*-------) --+---------+---------+---------+------30 45 60 75 Mean 51.8333 49.1667 Individual 95% CIs For Mean Based on Pooled StDev -----+---------+---------+---------+---(----------------*----------------) (----------------*----------------) -----+---------+---------+---------+---42.0 48.0 54.0 60.0 Supplement 1 2 3 Lake Dennison Rose Hay evidencia significativa que Supplement afecta al crecimiento para un alfa de 0.05. De gráfica de medias parece que Supplement 2 es mejor para crecimiento del plancton. Para examinar comparaciones múltiples de medias, utilizar el modelo lineal general. 146 Análisis de medias Sirve para realizar un análisis de medias (ANOM) para datos normales, binomiales o de Poisson y opcionalmente imprime una tabla resumen para datos normales o binomiales. Por ejemplo para datos normales: Se evalúa el efecto de tres tiempos de niveles de proceso y tres niveles de resistencia en la densidad. Se analizan las medias y un diseño de dos vías para identificar interacciones o efectos principales significativos. 147 Instrucciones de Minitab: 1 File > Open worksheet EXH_AOV.MTW. Density Minutes Strength 7 10 3 8 10 3 10 10 3 7 10 3 1 15 1 4 15 1 3 15 1 2 15 1 6 15 2 7 15 2 8 15 2 Etcétera… 3 4 5 En Response, seleccionar Density . Seleccionar Normal. En Factor 1, seleccionar Minutes . En Factor 2, seleccionar Strength. Click OK. 148 Los resultados se muestran a continuación: Two-Way Normal ANOM for Density Alpha = 0.05 Interaction Effects Effect 2 1.578 0 -2 Strength Minutes 0 -1.578 1 10 2 3 1 15 2 3 Main Effects for Minutes 5 5.300 10 15 Minutes 18 3 8 Mean Mean 6.222 6 2 Main Effects for Strength 7.145 7 1 18 7.145 6.222 5.300 6 4 2 1 2 Strength 3 149 Interpretación: Se muestra la gráfica de interacción y de efectos principales para 2 factores. La gráfica ANOM tiene una línea central y límites de decisión, si un punto cae fuera de estos límites es evidente que es diferente de la gran media. Si la interacción fuera significativa, ya no se consideran los efectos principales por separado, dado que unos dependen de otros. En este caso no es significativo. El punto que representa la media del nivel 3 del factor Minutes se muestra con un asterisco en rojo, indicando que hay evidencia al nivel de alfa = 0.05 de que difiera significativamente de la media general. En el caso de Strenght, hay evidencia de que los efectos principales para los niveles 1 y 3 se encuentren fuera de los límites de decisión y son diferentes de la media general. Los puntos que están fuera se pueden investigar. 150 Ejemplos con datos binomiales Se cuenta el número de soldaduara rechazadas en muestras de tamaño 80 para identificar que proporciones están fuera de la línea con otras muestras. Como las muestras tienen 2 resultados, la proporción de éxitos es constante y son independientes se usa el análisis de medias para datos binomiales. 1 File > Open worksheet EXH_AOV.MTW. WeldRejects 3 6 8 14 6 1 8 1 8 10 1 151 2 Stat > ANOVA > Analysis of Means. 3 En Response, seleccionar WeldRejects . 4 Seleccionar Binomial y poner 80 en Sample size. Click OK. One-Way Binomial ANOM for WeldRejects Alpha = 0.05 0.20 0.1547 Proportion 0.15 0.10 0.075 0.05 0.00 0 1 2 3 4 5 6 Sample 7 8 9 10 11 152 Intrepretación: La gráfica muestra la proporción de defectos para cada muestra, la línea central como la proporción promedio, y los límites superior e inferior. En este caso la muestra 4 sale de los límites de decisión y es anormal. 153 Ejemplo con datos de Poisson Una fábrica de juguetes, quiere monitorear el número de defectos de carros de juguete. Se toman 20 muestras de carros y se crea una carta de medias para examinar el número de defectos en cada muestra. 1 File > Open worksheet TOYS.MTW. Defects Defects 9 4 11 4 2 2 5 5 15 5 13 2 8 3 7 2 5 1 2 6 154 2 Stat > ANOVA > Analysis of Means. 3 En Response, seleccionar Defects 4 Seleccionar Poisson . Click OK. One-Way Poisson ANOM for Defects Alpha = 0.05 16 12.49 Defects 12 8 5.55 4 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Sample 155 Interpretación: La gráfica muestra el número de defectos en cada muestra, la línea central es el promedio de defectos, y los límites de decisión superior e inferior. En este caso, el número de defectos de los carros cinco y seis son anormales ya que caen fuera de los límites de decisión. 156 ANOVA Balanceado Se usa para realizar análisis univariado de varianza para cada una de las variables de respuesta. El diseño debe ser balanceado, con las mismas observaciones por celda. Los factores pueden ser cruzados o anidados, fijos o aleatorios. Se pueden incluir hasta 50 variables de respuesta con hasta 31 factores simultaneos. Los factores son predictores (independientes) que se seleccionan a que varien sistemáticamente durante un experimento para determinar su efecto en la variable de respuesta (variable dependiente). 157 Por ejemplo, si se quiere evaluar el acabado superficial de partes metálicas producidas por varias máquinas y se miden por varios operadores. Tanto "Máquina" como "Operador" son factores en este experimento. Los factores pueden ser cruzados o anidados, dependiendo de cómo se colecten los datos. Factores cruzados: Dos factores son cruzados cuando cada nivel de un factor ocurre en combinación con cada nivel del otro factor. Por ejemplo, los mismos tres operadores evalúan el acabado superficial de las 2 máquinas. 158 Modelo: En la caja de Model solo se especifican las X's no la Y. La opción Make Patterned data, single set of numbers puede ayudar a cargar los números de niveles de un factor. Las reglas para expresar modelos son: 1 * indica un término de interacción, por ejemplo A*B. Por ejemplo: Dos factores cruzados: A B A*B 159 Por ejemplo para un diseño cruzado de tres vías con niveles a, b y c de factores A, B, C, con n observaciones por celda, se tiene: 1 Calc>Make Patterned Data > Simple set of numbers, F3 (Reset def.). Poner A en Store patterned data in. Poner 1 en From first value, niveles de A en To last value. Poner el producto bcn en List the whole sequence. Clik OK 2 Calc>Make Patterned Data > Simple set of numbers, F3 (Reset defaults). Poner B en Store patterned data in. Poner 1 en From first value, niveles de B en To last value. Niveles de A en List each value. Poner cn en List the whole sequence. Click OK 3 Calc>Make Patterned Data > Simple set of numbers, F3 (Reset defaults). Poner C en Store patterned data in. Poner 1 en From first value, niveles de C en To last value. Producto ab en List each value. Poner el tamaño de muestra n en List the whole sequence. Clik OK 160 Ejemplo de ANOVA con dos factores cruzados Se quiere probar cuanto toma usar una calculadora nueva y una antigua. Seis ingenieros trabajan en ambos un problema estadístico y uno de ingeniería usando cada modelo de calculadora y se toma el tiempo en minutos que toma resolver el problema. Los ingenieros se consideran como bloques del diseño experimental. Hay dos factores: Tipo de problema y Modelo de calcualadora, cada uno con dos niuveles. Como cada nivel del factor ocurre en combinación con cada nivel del otro factor, los factores son cruzados. 161 1 File > Open worksheet EXH_AOV.MTW. SolveTime Engineer ProbType Calculator Engineer ProbType Calculator 3.1 Jones Stat New Dixon Stat New 7.5 Jones Stat Old Dixon Stat Old 2.5 Jones Eng New Dixon Eng New 5.1 Jones Eng Old Dixon Eng Old 3.8 Williams Stat New Erickson Stat New 8.1 Williams Stat Old Erickson Stat Old 2.8 Williams Eng New Erickson Eng New 5.3 Williams Eng Old Erickson Eng Old 3 Adams Stat New Maynes Stat New 7.6 Adams Stat Old Maynes Stat Old 2 Adams Eng New Maynes Eng New 4.9 Adams Eng Old Maynes Eng Old 162 2 3 4 5 6 7 Stat > ANOVA > Balanced ANOVA. En Responses, seleccionar SolveTime . En Model, seleccionar Engineer ProbType | Calculator . En Random Factors, seleccionar Engineer . Click Results. En Display means corresponding to the terms, poner ProbType | Calculator . Click OK en cada cuadro de diálogo. 163 Los resultados se muestran a continuación: ANOVA: SolveTime vs Engineer, ProbType, Calculator Factor Type Levels Values Engineer random 6 Adams, Dixon, Erickson, Jones, Maynes, Williams ProbType fixed 2 Eng, Stat Calculator fixed 2 New, Old Analysis of Variance for SolveTime Source DF SS MS F Engineer 5 1.053 0.211 3.13 ProbType 1 16.667 16.667 247.52 Calculator 1 72.107 72.107 1070.89 ProbType*Calculator 1 3.682 3.682 54.68 Error 15 1.010 0.067 Total 23 94.518 S = 0.259487 R-Sq = 98.93% R-Sq(adj) = 98.36% P 0.039 0.000 0.000 0.000 164 Means ProbType Eng Stat N 12 12 Calculator New Old ProbType Eng Eng Stat Stat SolveTime 3.8250 5.4917 N 12 12 SolveTime 2.9250 6.3917 Calculator New Old New Old N SolveTime 6 2.4833 6 5.1667 6 3.3667 6 7.6167 165 Interpretación: Se muestran los factores con su tipo (fijos o aleatorios), número de niveles y valores. Después se muestra la tabla de ANOVA, indicando una interacción significativa entre tipo de problema y calculadora. También se muestran las medias de todos los factores y sus combinaciones como efectos principales. Donde se puede observar que el tiempo se reduce al cambiar de la calculadora antigua a la nueva. 166 Contenido Parte B: 7. Tamaño de muestra y potencia 8. Análisis exploratorio de datos 9. Estadística no paramétrica 10. Tablas y pruebas no paramétricas 11. Regresión lineal y cuadrática 12. Regresión múltiple 168 7. Tamaño de muestra y potencia 169 Tamaño de muestra y potencia • Introducción • Prueba de una y dos medias • Prueba de una y dos proporciones • Prueba de ANOVA de una vía • Diseño de experimentos de dos niveles 170 Tamaño de muestra y potencia Potencia: Es la capacidad de una prueba para detectar una diferencia cuando cuando realmente existe. Hipótesis Nula Desición Verdadera Falsa No rechazar Desición correcta Error tipo II p=1-a p=b Rechazar Error tipo I Desición correcta p=a p=1- b Potencia La potencia de la prueba es la probabilidad de de rechazar correctamente la hipótesis nula siendo que en realidad es falsa. El análisis de potencia puede ayudar a contestar preguntas como: * ¿Cuántas muestras se deben tomar para el análisis? * ¿Es suficiente el tamaño de muestra? * ¿Qué tan grande es la diferencia que la prueba puede detectar? * ¿Son realmente valiosos los resultados de la prueba? 171 Para estimar la potencia, Minitab requiere de dos de los siguientes parámetros: * Tamaños de muestra * Diferencias - un corrimiento significativo de la media que se desea detectar * Valores de potencia - La probabilidad deseada de rechazar Ho cuando es falsa Caso 1. Prueba t de una media poblacional Ejemplo: Se tiene una población normal con media de 365 y límites de especificación de 360 y 370. Si la media se desplaza 2.5 gramos por arriba de la media, el número de defectos sería inaceptable, la desviación estándar histórica es de 2.403: 172 Caso 1. Prueba t de una media poblacional Ejemplo: Se tiene una población normal con media de 365 y límites de especificación de 360 y 370. Si la media se desplaza 2.5 gramos por arriba de la media, el número de defectos sería inaceptable, la desviación estándar histórica es de 2.403: Stat > Power and Sample Size > 1 - Sample t Completar el diálogo como sigue: 173 Los resultados se muestran a continuación: Power and Sample Size 1-Sample t Test Testing mean = null (versus not = null) Calculating power for mean = null + difference Alpha = 0.05 Assumed standard deviation = 2.403 Difference 2.5 Sample Size 6 Se tiene un 53.76% de Potencia para detectar una diferencia de 2.5 si se usan 6 muestras O sea que hay una probabilidad del 46.24% que no se rechaze Ho y se concluya que no hay diferencia significativa. Power 0.537662 CORRIDA DE 2.5 GRS. EN PROMEDIO 0.18 LIE 360 0.16 Ha: Corrida 367.5 Ho: Meta 365 Variable Original Corrida LIE 370 Power Curve for 1-Sample Z Test 1.0 Sample Size 2 4 6 8 10 12 0.14 0.8 0.10 0.6 0.08 Power Y-Data 0.12 0.06 A ssumptions A lpha 0.05 S tDev 2.403 A lternativ e N ot = 0.4 0.04 0.2 0.02 0.00 355 360 365 C1 370 375 0.0 -3 -2 -1 0 Difference 1 2 3 174 ¿Cuántas muestras se requieren para tener un 80% de probabilidad de detectar el corrimiento, y para 85%, 90% y 95%? Stat > Power and Sample Size > 1 - Sample t Se cambia este parámetro Los resultados se muestran a continuación: Difference 2.5 2.5 2.5 2.5 Sample Size 10 11 12 15 Target Power 0.80 0.85 0.90 0.95 Actual Power 0.832695 0.873928 0.905836 0.962487 Si la potencia es demasiado alta por decir 99% se pueden detectar diferencias que realmente no son significativas. 175 Caso 2. Prueba t de comparación de dos medias poblacionales Ejemplo: La potencia de una prueba depende de la diferencia que se quiera detectar respecto a la desviación estándar, para una sigma poner 1 en diferencia y desviación estándar, con valores deseados de Potencia de 0.8 y 0.9. Stat > Power and Sample Size > 2 - Sample t Power and Sample Size 2-Sample t Test Testing mean 1 = mean 2 (versus not =) Calculating power for mean 1 = mean 2 + difference Alpha = 0.05 Assumed standard deviation = 1 Sample Target Difference Size Power Actual Power 1 17 0.8 0.807037 1 23 0.9 0.912498 Se requieren tamaños de muestra de entre 17 y 23 176 Caso 3. Prueba de 1 proporción Para estimar la potencia, Minitab requiere de dos de los siguientes parámetros: * Tamaños de muestra * La proporción - una proporción que se desea detectar con alta probabilidad * Valores de potencia - Probabilidad deseada de rechazar Ho cuando es falsa Suponiendo que se desea detectar una proporción de 0.04 con el 0.8 y 0.9 de niveles de Potencia: Proporción que se desea detectar con alta probabilidad (0.80, 0.90) Es la proporción de la Hipótesis nula Test for One Proportion Testing proportion = 0.02 (versus > 0.02) Alpha = 0.05 Alternative Sample Target Proportion Size Power Actual Power 0.04 391 0.8 0.800388 0.04 580 0.9 0.900226 177 Caso 3. Prueba de 1 proporción Para estimar la potencia, Minitab requiere de dos de los siguientes parámetros: * Tamaños de muestra * La proporción - una proporción que se desea detectar con alta probabilidad * Valores de potencia - Probabilidad deseada de rechazar Ho cuando es falsa Suponiendo que se desea detectar una proporción de 0.04 con el 0.8 y 0.9 de niveles de Potencia: Proporción que se desea detectar con alta probabilidad (0.80, 0.90) Es la proporción de la Hipótesis nula 178 Los resultados se muestran a continuación: Test for One Proportion Testing proportion = 0.02 (versus > 0.02) Alpha = 0.05 Alternative Sample Target Proportion Size Power Actual Power 0.04 391 0.8 0.800388 0.04 580 0.9 0.900226 179 La Potencia de prueba si se utiliza un tamaño de muestra de 500: Stat > Power and Sample Size > 2 - Proportions Sample sizes = 500 Alternative values of p 0.04 Hypothetized p: 0.02 Options: Greater Than Significance Level = 0.05 Power Curve fo 1.0 0.8 Los resultados se muestran a continuación: Test for One Proportion Testing proportion = 0.02 (versus > 0.02) Alpha = 0.05 Alternative Sample Proportion Size Power 0.04 500 0.865861 Power 0.6 0.4 0.2 0.0 0.0 0.2 0.4 Alternative Por tanto con un tamaño de muestra de 500, la potencia de la prueba para detectar un corrimiento de 2% a 4% es del 86.6% 180 Caso 4. Prueba de 2 proporciones Para estimar la potencia, Minitab requiere de dos de los siguientes parámetros: * Tamaños de muestra * La proporción 1 - una proporción que se desea detectar con alta probabilidad * Valores de potencia - Probabilidad deseada de rechazar Ho cuando es falsa o una proporción 2 - contra la que se prueba la igualdad de prop. Ejemplo: Suponiendo que se desea detectar una proporción de 0.04 con el 0.8 y 0.9 de niveles de Potencia: OPTIONS Proporción que se desea detectar con alta probabilidad (0.80, 0.90) GRAPHS 181 Power and Sample Size Test for Two Proportions Testing proportion 1 = proportion 2 (versus not =) Calculating power for proportion 2 = 0.05 Alpha = 0.05 Proportion 1 0.04 0.04 Sample Size 6745 9030 Target Power 0.8 0.9 Actual Power 0.800005 0.900030 The sample size is for each group. 182 Ejemplo: En política se desea saber si hay diferencia entre las proporciones de hombres y mujeres que apoyen una reforma fiscal. Encuestas anteriores muestran que el 30% (p=0.3) de los votantes apoyan la reforma. Se encuestan a 1000 personas de cada género, ¿cuál es la potencia para detectar una diferencia entre hombres y mujeres que soporten la reforma en 5% o más? Stat > Power and Sample Size > 2 - Proportions Sample sizes, 1000 Proportion 1 values 0.25 0.35 Proportion 2, ingresar 0.30 OK 183 Los resultados se muestran a continuación: Power and Sample Size Test for Two Proportions Testing proportion 1=proportion 2 (vs not =) Calculating power for proportion 2 = 0.3 Alpha = 0.05 Proportion 1 0.25 0.35 Sample Size 1000 1000 Power 0.707060 0.665570 184 Power Curve for Test for Two Proportions 1.0 Sample Size 1000 0.8 A ssumptions A lpha 0.05 P roportion 2 0.3 A lternativ e N ot = Power 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 Proportion 1 0.8 1.0 185 Caso 5. ANOVA de una vía Sirve para determinar el tamaño de muestra necesario para detectar diferencia máxima en medias de niveles de un factor, con base en tamaño de muestra y potencia de la prueba deseada. Ejemplo: Se trata de determinar si o no 4 tratamientos afectan el rendimiento de un producto, para lo cual se utilizan 5 observaciones por tratamiento. Se sabe que la media del grupo de control es de 8 y se trata de encontrar diferencia significativa de +4. De investigaciones previas se determino una desviación estándar de 1.64. 186 Instrucciones de Minitab: 1. Stat > Power and Sample Size > One way ANOVA 2. Number of levels, 4 3. Sample sizes, 5 4. En Values of the maximum difference between means, 4 5. En Estándar deviation, 1.64 OK Los resultados son los siguientes: Power and Sample Size One-way ANOVA Alpha = 0.05 Assumed std. Dev. = 1.64 SS Sample Maximum Means Size Power Difference 8 5 0.826860 4 The sample size is for each level. No. Levels = 4 187 Power Curve for One-way ANOVA 1.0 Sample Size 5 0.8 A ssumptions A lpha 0.05 S tDev 1.64 # Lev els 4 Power 0.6 0.4 0.2 0.0 0 1 2 3 4 5 Maximum Difference 6 7 8 Interpretación: Si se asignan 5 observaciones para cada tratamiento, se tiene una potencia del 83% de detectar una diferencia de 4 unidades o más entre las medias de los tratamientos. También se muestra la curva OC de la potencia. 188 Caso 6. Diseños de experimentos de dos niveles Sirve para determinar el número de réplicas necesario para detectar el efecto específico en el nivel de potencia específicado, con base en el número de puntos centrales y efecto mínimo. Ejemplo: Se quiere determinar el "mejor" ajuste de 4 variables de entrada (factores) para mejorar la trasnparencia de una parte plástica. Se ha determinado que el diseño adecuado es un factorial fraccional (1/2) con 8 corridas experim. y 3 puntos centrales. Se intenta detectar efectos de magnitud 5 o más. Experimentación previa sugiere que la desviación estándar es de 4.5. 189 Instrucciones de Minitab: 1. Stat > Power and Sample Size > 2 level Factorial Design 2. Number of factors, 4 3. Number of corner points, 8 4. En Replicates, 1 2 3 4 5. En Effects, 5 6. En Number of center points per block, 3 7. En Standard deviation, 4.5 OK Los resultados se muestran a continuación: Power and Sample Size 2-Level Factorial Design Alpha = 0.05 Assumed standard deviation = 4.5 Factors: 4 Base Design: 4, 8 Blocks: none Including a term for center points in model. Center Points 3 3 3 3 Effect 5 5 5 5 Reps 1 2 3 4 Total Runs 11 19 27 35 Power 0.157738 0.518929 0.730495 0.856508 190 Power Curve for 2-Level Factorial Design 1.0 Reps, C tr Pts Per Blk 1, 3 2, 3 3, 3 4, 3 0.8 A ssumptions A lpha 0.05 S tD ev 4.5 # F actors 4 # C orner P ts 8 # Blocks none # Terms O mitted 0 Power 0.6 0.4 Term Included In M odel C enter P oints Yes 0.2 0.0 -5.0 -2.5 0.0 Effect 2.5 5.0 Interpretación: Si hay una réplica del diseño, solo se tiene el 16% de posibilidad de detectar diferencias de 5. Con 4 réplicas del diseño (1/2) fraccional para 35 corridas (32 puntos vértice y 3 puntos centrales) se tiene el 86% de posibilidad de encontrar efectos importantes. La curva muestra las combinaciones de parámetros y la potencia de la prueba. 191 8. Análisis exploratorio de datos (EDA) 192 Análisis exploratorio de datos (EDA) • Introducción • Prueba de una muestra por Poisson • Prueba de dos muestras por Poisson • Análisis de medianas de dos vías • Regresión resistente • Suavizamiento resistente • Prueba de normalidad con gráfica de desviaciones 193 Introducción • Los métodos de análisis de datos exploratorio (EDA) se utilizan para explorar los datos antes de utilizar otros métodos más tradicionales, o para examinar los residuales de un modelo. • Permiten identificar observaciones anormales (Outliers) y violaciones a los supuestos tradicionales tales como no linealidad o varianza no constante. 194 Prueba de una muestra por Poisson Calcula el intervalo de confianza de la tasa de ocurrencia y el número medio de ocurencias de eventos en una muestra en un proceso de Poisson, y prueba la hipótesis de que la tasa de ocurrencias es igual a un valor especificado. Un proceso de Poisson describe el número de ocurrencias de un evento en un cierto periodo de tiempo como área, volumen, etc. Por ejemplo: El número de llamadas telefónicas diarias a un centro de servicio a clientes El número de defectos en un tramo de alambre 195 Por ejemplo: La empresa A de receptores de TV cuenta el número de unidades con pantallas defectivas que se producen cada trimestre durante los últimos 10 años. Los directivos establecen que 20 defectivos por cuatrimestre es el máximo aceptable, y quieren determinar si la producción actual cumple este requerimiento. 1 2 3 4 5 6 File > Open the worksheet TVDEFECT.MTW. Stat > Basic Statistics > 1-Sample Poisson Rate. En Samples in columns, Seleccionar 'Defective A '. Seleccionar Perform hypothesis test. En Hypothesized rate, poner 20 . Click Options. En Alternative, seleccionar less than. Click OK en cada cuadro de diálogo 196 Defective A Defective B Resultados: 18 20 18 35 21 19 14 30 19 26 14 22 Etc. Etc. Test and CI for One-Sample Poisson Rate: Defective A Test of rate = 20 vs rate < 20 Total Rate of 95% Upper Exact Variable Occurrences N Occurrence Bound P-Value Defective A 713 40 17.8250 18.9628 0.001 Length of observation = 1. Como P value es menor a 0.05, se rechaza Ho y se acepta Ha donde la tasa de defectos es menor a 20 197 Prueba de dos muestras por Poisson Se puede probar si la empresa A tiene una tasa mayor de defectos que la empresa B. La empresa A mide cada tres meses sus defectos y la empresa B cada seis meses. Se trata de probar cual empresa tiene la menor tasa de defectos mensual. 1 File > Open the worksheet TVDEFECT.MTW. 2 Stat > Basic Statistics > 2-Sample Poisson Rate. 3 Samples in different columns, Seleccionar 'Defective A '. 4 First 'Defective A' 5 Second 'Defective B' 6 Click Options. En "Length" of obs. [time, items, area, vol. etc], ner '3 6 ' 7 Confidence level 95.0 Test difference 0 Alternative Not equal 8 Seleccionar Use pooled estimate of rate to test a zero difference 9 Click OK en cada cuadro de diálogo 198 Los resultados se muestran a continuación: Test and CI for Two-Sample Poisson Rates: Defective A, Defective B Variable Defective A Defective B Total Occurrences 713 515 N 40 20 "Length" of Observation 3 6 Rate of Occurrence 5.94167 4.29167 Mean Occurrence 17.825 25.750 Difference = rate(Defective A) - rate(Defective B) Estimate for difference: 1.65 95% CI for difference: (1.07764, 2.22236) Test for difference = 0 (vs not = 0): Z = 5.50 P-Value = 0.000 Exact Test: P-Value = 0.000 Como el valor P value es menor a 0.05 se acepta la hipótesis alterna que A y B son diferentes, donde donde B tiene B tiene la menortasa la menor tasa de de ocurrencia ocurrencia Difference = mu (Defective A) - mu (Defective B) Estimate for difference: -7.925 95% CI for difference: (-10.5053, -5.34474) Test for difference = 0 (vs not = 0): Z = -6.40 P-Value = 0.000 Exact Test: P-Value = 0.000 199 Prueba de bondad de ajuste (Chi cuadrada) Permite comparar los valores observados de la distribución con los valores esperados de la misma distribución y prueba la hipótesis nula de que los valores soin similares: * Prueba que tan bien ajusta una distribución teórica a un conjunto de datos * Prueba si un modelo estadístico ajusta a a los datos. Por ejemplo la regresión Logistics usa una prueba de bondad de ajuste con Chi cuadrada para probar si modela de manera adecuada los datos NOTA: Si las frecuencias esperadas en alguna celda son menores a 5, los resultados pueden no ser válidos. 200 Por ejemplo: Ho: Los datos siguen una distribución Multinomial Ha: Los datos no siguen la distribución Multinomial La filiación política de ciera ciudad es: Republicanos 52%, Demócratas 40% e independientes 8%. Se quiere probar si esta filiación política es similar a la de otra población. Para lo cual utilizan una muestra de 200 personas (datos en POLL.MTW) Political PartyCounts Proportions Republican 121 0.52 Democratic 75 0.4 Others 4 0.08 Instrucciones de Minitab: 1 File > Open Worksheet > POLL.MTW. 2 Sel. Stat > Tables > Chi Square Goodness of Fit (1 var.) 3 En Observed counts, poner Counts . 4 En Category names, poner Political Party 5 Seleccionar Specific proportions, poner Proportions Click OK en cada cuadro de diálogo 201 Los resultados se muestran a continuación: Chi-Square Goodness-of-Fit Test for Obs. Counts in Counts Using category names in Political Party Category Republican Democratic Others N 200 DF 2 Observed 121 75 4 Chi-Sq 12.0913 Test Proportion 0.52 0.40 0.08 Expected 104 80 16 Contribution to Chi-Sq 2.77885 0.31250 9.00000 P-Value 0.002 Interpretación: Como el valor P de la prueba es menor a un alfa de 0.05, se rechaza la hipótesis nula y se concluye que la filiación política no es la misma en las ciudades comparadas 202 Chart of Observed and Expected Values Expected Observed 120 100 60 40 Chart of Contribution to the Chi-Square Value by Category 20 0 Category 9 8 Republican Democratic Others 7 Contributed Value Value 80 6 5 4 3 2 1 0 Others Republican Category Democratic 203 Análisis de medianas de dos vías Es similar al análisis de varianza de dos vías (ANOVA two way), pero no es más robusta en cuanto a puntos aberrantes (Outliers) Ejemplo: Se trata de probar tres tipos de remaches, en los que se aplicó la fuerza por el frente y por detrás, y se mide el impacto, para determinar si hay diferencias en los tres tipos de remaches. 204 Instrucciones de Minitab: Paso: Realizar el análisis de medianas 1 File > Open worksheet > EXH_STAT.MTW. 2 Seleccionar Stat > EDA > Median Polish. 3 En Response, poner Impact . 4 En Row factor, HelmetType . En Column factor, poner Location . 5 En Common effect, poner CommonEffect . En Row effects, poner RowEffect. En Column effects, poner ColumnEffect. 6 Check Residuals. Click OK. Paso 2. Mostrar los resultados 1 Seleccionar Data > Display Data. 2 En Columns, constants, and matrices to display, poner CommonEffect, RowEffect, y ColumnEffect. Click OK. 205 Los resultados se muestran a continuación: CommonEffect 44.5000 Row RowEffect ColumEffect 1 0 -1 2 23 1 3 -3 Interpretación: El efecto general de impacto es 44.5. Los efectos de fila son 0, 23 y -3 respecto al valor común que corresponden al remache 1, 2 y 3 respectivamente. Se observa que el remache 2 tiene un mayor impacto. Los efectos de columna de -1 y 1 indican que hubo una pequeña reducción de impacto ligera respecto al valor común en el frente y un poco mayor para la parte de atrás. 206 Con los residuos se pueden identifcar Outliers. 1 Seleccionar Data > Display Data. 2 En Columns, constants, and matrices to display, poner RESI1. Click OK. RESI1 3.5 -0.5 3.5 0.5 -5.5 -4.5 1.5 -1.5 2.5 0.5 -1.5 -0.5 Celda 1,1 207 Regresión resistente Es similar al análisis de regresión lineal excepto que es más robusta ante puntos aberrantes (Outliers). Se sugiere utilizarla al principio para observar si hay relación lineal. Stat > EDA > Resistant line 208 Suavizamiento resistente Suaviza una serie ordenada de datos colectados durante el tiempo para remover fluctuaciones aleatorias y descubrir tanto las tendencias como los puntos aberrantes (Outliers). Ofrece varios métodos Stat > EDA > Resistant Smoothing 209 Prueba de normalidad con gráfica de desviaciones El rotograma es un histograma suspendido con una distribución normal que lo ajusta. Muestra las desviaciones a partir del ajuste de la distribución normal, como lo hace por percentiles protege contra puntos aberrantes (Outliers) y cuentas anormales de eventos. Ejemplo: Se utiliza un rotograma para determinar si o no las mediciones de peso de 92 estudiantes siguen una distribución normal. Instrucciones de Minitab 1 File > Open worksheet > PULSE.MTW. 2 Seleccionar Stat > EDA > Rootogram 3 En Variable, poner Weight . Click OK. Weight 140 145 160 190 155 Etcétera 210 Los resultados se muestran a continuación 211 Interpretación: La gráfica muestra residuales dobles para indicar que tanto los datos se separan de la distribución normal, Se observa una concentración ligera de signso negativos en el lado inferior y una mayor concentración de signos positivos en la parte central y superior. Sin embargo en ambos casos permanecen dentro del intervalo de confianza, indicando que los pesos son normales. 212 9. Estadística no paramétrica 213 Estadística no paramétrica • Introducción • Prueba de signos de la mediana • Prueba de una mediana de Wilconox • Prueba de rangos de dos muestra de Mann Whitney • Prueba de igualdad de medianas de Kruskal Wallis • Prueba de igualdad de medianas de Mood • Experimentos aleatorizados bloqueados de Friedman • Prueba de rachas 214 ESTADÍSTICA NO PARAMÉTRICA Acciones a tomar sobre los datos normales antes de optar por estas pruebas: Revise y asegúrese de que los datos no siguen una distribución normal. • Desarrollar una Prueba de normalidad. Para la prueba de Bartlet (P value <0.05) • Revisar la información para detectar errores (tipográficos, etc.). Investiguar los valores atípicos. • Una muestra pequeña (n < 30) proveniente de un universo normal, se mostrará algunas veces como anormal. • Intentar transformar los datos. Las transformaciones comunes incluyen: •- Raíz cuadrada de todos los datos •- Logaritmo de todos los datos •- Cuadrado de todos los datos • Si la información es todavía anormal, entonces usar estas herramientas no paramétricas Se utilizan cuando no interesa la forma de la distribución o los datos no son normales 215 Prueba de Hipótesis Atributos Variables No Normales Varianzas Homogeneidad de Varianzas de Levene Tablas de Contingencia de Medianas Correlación Correlación Prueba de signos Normal Wilcoxon MannWhitney KruskalWallis Prueba de Mood Friedman Variancia Chi Prueba-F Homogeneidad de la Variación de Bartlett Medias Pruebas de t Muestra-1 Muestra-2 ANOVA Una vía Dos vías Residuos distribuidos normalmente Correlación Regresión 216 Pruebas no paramétricas con la medianas o medianas Pruebas de la Mediana Prueba de signos: Prueba si el promedio de la mediana de la muestra es igual a un valor conocido o a un valor a alcanzar. Prueba Wilcoxon: Prueba si la mediana de la muestra es igual a un valor conocido o a un valor hipotético. Prueba de dos o más Medianas Prueba Mann-Whitney: Prueba si dos medianas de muestras son iguales. Comprueba el rango de dos muestras, por dif. entre dos medianas del universo. Prueba Kruskal-Wallis: Prueba igualdad de dos o más medianas de muestras Asume que todas las distribuciones tienen la misma forma. Pruebas de dos Medianas Prueba de la mediana de Mood: Otra prueba para más de dos medianas. Prueba más firme para los valores atípicos contenidos en la inf. Prueba de Friedman: Prueba si las medianas de las muestras, clasificadas bajo dos categorías, son iguales. Correlación: Prueba la relación lineal entre dos variables 217 Puebas de signos de la mediana Ho: mediana = mediana hipotetizada versus Ha: mediana ≠ mediana hipotetizada Ejemplo: Se evaluan los índices de precios de 29 casas. Los datos históricos indican que el índice ha sido de 115. Probar a un alfa de 0.10 si el índice se ha incrementado. Nivel de confianza = 1 - alfa = 90% File > Open worksheet > Exh_Stat.Mtw Stat > Nonparametrics > 1-Sample Sign. En Variables, seleccionar PriceIndex Confidence interval level 90 Seleccionar Test median y poner 115 en el cuadro En Alternative, Seleccionar greater than. Click OK. Los resultados son los siguientes: Sign Test for Median: PriceIndex Sign test of median = 115.0 versus > 115.0 N Below Equal Above P PriceIndex 29 12 0 17 0.2291 Interpretación de resultados: Median 144.0 Como el valor P de la prueba es >0.1 no hay evidencia suficiente para rechazar Ho y la mediana no es mayor a 115. 218 Prueba de una mediana de Wilconox Ho: mediana = mediana hipotetizada versus Ha: mediana ≠ mediana hipotetizada Se registran los resultados de examenes en ciencias para 9 estudiantes. Se quiere probar si hay suficiente evidencia de que la mediana sea menor a 77 con alfa = 0.05. Nivel de confianza = 1 - alfa = 95% File > Open worksheet > Exh_Stat.Mtw Stat > Nonparametrics > 1-Sample Wilconox En Variables, seleccionar Achievement Confidence interval level 95 Seleccionar Test median y poner 77 en el cuadro En Alternative, Seleccionar less Than. Click OK. Los resultados son los siguientes: Wilcoxon Signed Rank Test: Achievement Test of median = 77.00 versus median < 77.00 Achievement N 9 N for Test 8 Interpretación de resultados: Wilcoxon Statistic 19.5 P 0.610 Estimated Median 77.50 Como el valor P de la prueba es >0.05 no hay evidencia suficiente para rechazar Ho y la mediana no es estadísticamentemenor a 77. 219 Prueba de rangos de dos muestras de Mann Whitney H0: h1 = h2 versus H1: h1 ≠h2 , donde h es mediana de la población. Se asume que las muestras provienen de dos poblaciones con la misma forma y varianza Ejemplo: Se compara la presión diastólica de dos muestras extraidas de dos poblaciones Se quiere probar a un 5% de nivel de significancia si hay diferencia entre las medianas. Nivel de confianza = 1 - alfa = 90% File > Open worksheet > Exh_Stat.Mtw Stat > Nonparametrics > Mann-Whitney En First Sample, sleccionar DBP1. En Second Sample, seleccionar DBP2. Click OK. En Confidence level 95 y en Alternative, Seleccionar Not equal. Click OK. 220 Los resultados son los siguientes: Mann-Whitney Test and CI: DBP1, DBP2 N Median DBP1 8 69.50 DBP2 9 78.00 Point estimate for ETA1-ETA2 is -7.50 95.1 Percent CI for ETA1-ETA2 is (-18.00,4.00) W = 60.0 Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.2685 The test is significant at 0.2679 (adjusted for ties) Interpretación de resultados: Como el valor P de la prueba es >0.05 no hay evidencia suficiente para rechazar Ho y las medianas no son diferentes estadísticamente. 221 Prueba de igualdad de medianas de Kruskal Wallis H0: Las medianas poblacionales son todas iguales vs H1: Al menos hay una diferente Esta es una generalización de la prueba de Mann Whitney Ejemplo: Se quiere probar si el efecto de tres tratamientos diferentes influyen en el crecimiento de bacterias a un 5% de nivel de significancia Nivel de confianza = 1 - alfa = 90% File > Open worksheet > Exh_Stat.Mtw Stat > Nonparametrics > Kruskal-Wallis. En Response, seleccionar Growth . En Factor, seleccionar Treatment . Click OK. Los resultados son los siguientes: Kruskal-Wallis Kruskal-Wallis Treatment N 1 5 2 5 3 6 Overall 16 H = 8.63 DF = H = 8.64 DF = Test: Growth versus Treatment Test on Growth Median Ave Rank Z Interpretación de resultados: 13.20 7.7 -0.45 Como el valor P de la prueba es < 0.05 hay evidencia suficiente para rechazar Ho y las 12.90 4.3 -2.38 medianas son diferentes estadísticamente. 15.60 12.7 2.71 La mediana 3 difiere menos de la mediana general 8.5 Las medianas 1 y 2 tienen una mayor diferencia respecto a la mediana general. 2 P = 0.013 2 P = 0.013 (adjusted for ties) 222 Prueba de igualdad de medianas de Mood Prueba similar a la anterior: H0: h1 = h2 = h3, versus H1: no todas las h's son iguales con h's medianas poblacionales . de OTIS para los tres niveles educacionales. Ejemplo: Se mide la habilidad intelectual de 179 estudiantes en base al dibujo de figuras después se aplica una prueba OTIS y se quiere probar si a un alfa de 5% hay diferencia significativa entre el nivel de educación 0 - Preprofesionales 1 -Profesionales 2 - Preparatoria Nivel de confianza = 1 - alfa = 90% File > Open worksheet > Cartoon.Mtw Stat > Nonparametrics > Mood´s Median Test En Response, seleccionar OTIS. En Factor, seleccionar ED. Click OK. 223 Los resultados son los siguientes: Mood Median Test: Otis versus ED Mood median test for Otis Chi-Square = 49.08 DF = 2 ED 0 1 2 N<= 47 29 15 N> 9 24 55 Median 97.5 106.0 116.5 Q3-Q1 17.3 21.5 16.3 Interpretación de resultados: Como el valor P es menor a 0.05 indica que las medianas no son iguales P = 0.000 Individual 95.0% CIs ----+---------+---------+---------+-(-----*-----) (------*------) (----*----) ----+---------+---------+---------+-96.0 104.0 112.0 120.0 224 Exp. aleatorizado bloqueado (equivale a ANOVA 2 vías) Prueba de Friedman Ho: Los efectos de todos los tratamientos son cero H1: Los efectos de los tratamientos difieren de cero Ejemplo: Se quiere probar un tratamiento de drogas sobre la actividad enzimatica. Se prueba con tres tratamientos en animales de diferentes granjas. EnzymeActivity Therapy 0.15 1 0.26 1 0.23 1 0.99 1 0.55 2 0.26 2 -0.22 2 0.99 2 0.55 3 0.66 3 0.77 3 0.99 3 Litter 1 2 3 4 1 2 3 4 1 2 3 4 225 Instrucciones de Minitab: File > Open worksheet > EXH_STAT.MTW Stat > Nonparametrics > Friedman. En Response, seleccionar EnzymeActivity. En Treatment, selecionar Therapy. En Blocks, seleccionar Litter. Click OK. Los resultados son los siguientes: Friedman Test: EnzymeActivity versus Therapy blocked by Litter S = 2.38 DF = 2 P = 0.305 S = 3.80 DF = 2 P = 0.150 (adjusted for ties) Los valores P son mayores a 0.10 Sum por tanto no hay evidencia para of decir que el efecto de los Therapy N Est Median Ranks tratamientos sea diferente de cero 1 4 0.2450 6.5 2 4 0.3117 7.0 3 4 0.5783 10.5 Grand median = 0.3783 226 Prueba de Rachas Prueba de Rachas paramétrica: Racha es un punto o serie consecutiva de puntos que caen en un lado de la mediana. Se usa cuando se buscan evidencias de ciertos patrones no aleatorios en el proceso, indicando que la variación es anormal formando grupos, oscilaciones, mezclas y que se deben tomar acciones correctivas. Si la muestra es de uno determina la línea central como la mediana y si la muestra es de subgrupos une las medias de los subgrupos con una línea. Las hipotesis de esta prueba son: H0: Las rachas son aleatorias H1: Las rachas siguen un patrón no aleatorio 227 Por ejemplo con el archivo RADON.MTW de este módulo se tiene: File > Open Worksheet > Radon.mtw Stat > Quality Tools > Run Chart En Single column, seleccionar Membrane . En Subgroup size, poner 2 . Click OK. Run Chart of Membrane 45 Membrane 40 35 30 25 20 1 2 Number of runs about median: Expected number of runs: Longest run about median: Approx P-Value for Clustering: Approx P-Value for Mixtures: 3 4 3 6.00000 5 0.02209 0.97791 5 6 Sample 7 Number of runs up or down: Expected number of runs: Longest run up or down: Approx P-Value for Trends: Approx P-Value for Oscillation: 8 9 10 5 6.33333 3 0.13455 0.86545 Interpretación de resultados Como el P value de Clustering es menor a 0.05 indica que el patrón no es aleatorio y se deben investigar las posibles causas. 228 Prueba de rachas no paramétrica H0: Las rachas son aleatorias H1: Las rachas siguen un patrón no aleatorio Un entrevistador encuesta a 30 personas al azar y les hace una pregunta con 4 posibles respuestas (0, 1, 2 y 3). Se quiere probar si hay una respuesta aleatoria en el orden de las respuestas o que no haya sesgo en el entrevistado. Usar el archivo File > Open Worksheet > EXH_STAT.MTW. Stat > Nonparametrics > Runs Test. En Variables, seleccionar Response . Click OK. Los resultados son los siguientes: Runs Test: Response Runs test for Response Runs above and below K = 1.23333 The observed number of runs = 8 The expected number of runs = 14.9333 11 observations above K, 19 below P-value = 0.005 Interpretación de resultados: Como P value es menor a 0.05 se tiene evidencia de que el comportamiento de las respuestas no es aleatorio y debe investigarse la causa. 229 10. Tablas y pruebas no paramétricas 230 Tablas y pruebas no paramétricas • Contador de eventos • Estadística descriptiva de tablas • Tabulación cruzada y Chi cuadrada • Análisis Chi cuadrada con tabulación cruzada • Tablas de contingencia 231 Contador de eventos Se usa para mostrar cuenta, cuenta acumulada, porcentajes, y porcentajes acumulados para cada variable especificada Suponiendo que se está estudiando la influencia de la actividad de paciente en el desempeño de una droga nueva. Después de colectar los datos, se examina la distribución de la actividad del paciente. 1 File > Open worksheet EXH_TABL.MTW Activity Moderate Moderate A lot Slight Moderate Slight A lot Moderate Moderate Etc. 2 3 4 5 Repetir con GENDER y HEIGHT Los resultados son los siguientes: Tally for Discrete Variables: Activity Activity Count CumCnt Percent CumPct A lot 21 21 23.08 23.08 Moderate 61 82 67.03 90.11 Slight 9 91 9.89 100.00 N= 91 La actividad ligera tiene un 9.89%, la actividad moderada un 67.03% y alta 23.08% Stat > Tables > Tally Individual Variables. En Variables, poner Activity . En Display, seleccionar Counts, Percents, Cumulative counts, y Cumulative percents Click OK 232 Estadística descriptiva de tablas Se usa para generar tablas conteniendo frecuencias estadísticas para variables categóricas y estadísticas resumidas para variables numéricas asociadas. Ejemplo: Se desea resumir las estadísticas de frecuencias de datos de pulso para las personas en el estudio, calasificadas por género y nivel de actividad (datos en el archivo EXT-TABL.MTW) 233 Gender Activity Male Moderate Male Moderate Male A lot Male Slight Male Moderate Etcétera… Smokes No No Yes Yes No Height Weight 66 72 73.5 73 69 Pulse 140 145 160 190 155 64 58 62 66 64 Instrucciones de Minitab: 1 File Open > Worksheet > EXH_TABL.MTW. 2 Seleccionar Stat > Tables > Descriptive Statistics. 3 En For rows, poner Gender . En For columns, poner Smokes . 4 Sel. Categorical variables, check Counts and Row Percents. 5 Sel. Associated variables, poner Pulse . Sel. Display Means Click OK en cada cuadro de diálogo 234 Los resultados se muestran a continuación: Tabulated statistics: Gender, Smokes Rows: Gender Columns: Smokes No Yes All Female 74.59 84.50 76.86 27 8 35 77.14 22.86 100.00 Male 70.00 37 66.07 72.42 19 33.93 70.82 56 100.00 All 71.94 64 70.33 76.00 27 29.67 73.14 91 100.00 Cell Contents: Pulse : Mean Count % of Row 235 Interpretación: Se muestra la tabla resumen tanto de la variable categórica y la variable asociada. Minitab muestra el valor medio del pulso, el contador y los porcentajes de fila clasificados por género y estado de fumar De los 56 hombres, 19 son fumadores, su pulso medio es 72.42 y su porcentaje correspondiente de fila es de 33.93% 236 Ejemplo: Se desea resumir los pesos y estaturas de las personas en el estudio calsificados por género y nivel de actividad. Instrucciones de Minitab: 1 File Open > Worksheet > EXH_TABL.MTW. 2 Seleccionar Stat > Tables > Descriptive Statistics. 3 En For rows, poner Gender . En For columns, poner Activity . 4 Sel. Associated variables, poner Heigh y Weight 5 En Display, seleccionar Means, Std. Dev., y N Missing Click OK en cada cuadro de diálogo 237 Los resultados se muestran a continuación: Tabulated statistics: Gender, Activity Rows: Gender Columns: Activity Female Male A lot 64.60 121.0 2.074 21.02 0 0 5 14.29 Moderate 65.62 124.5 2.735 12.78 0 0 26 74.29 Slight 65.00 123.0 2.160 7.70 0 0 4 11.43 All 65.40 123.8 2.563 13.37 0 0 35 100.00 71.12 155.5 2.649 13.21 0 0 16 28.57 70.43 158.1 2.521 20.58 0 0 35 62.50 72.40 170.0 2.510 19.69 0 0 5 8.93 70.80 158.4 2.579 18.77 0 0 56 100.00 238 All 69.57 147.3 3.773 21.12 0 0 21 23.08 Cell Contents: 68.38 143.8 3.532 24.27 0 0 61 67.03 Height Weight Height Weight Height Weight : : : : : : 69.11 149.1 4.485 28.80 0 0 9 9.89 68.73 145.1 3.679 23.87 0 0 91 100.00 Mean Mean Standard deviation Standard deviation Missing Missing Count % of Row Interpretación: Minitab muestra la media, desviación estándar, y tamaño de muestra para Height y Weight, clasificados por Gender y Activity. El hombre con actividad moderada tiene peso medio de 158.1 lbs. con desv. Est. De 20.58 lbs. Estos valores son con base en 35 observaciones. Al final se muestran las estadísticas totales. 239 Tabulación cruzada y Chi cuadrada Se usa para generar tablas de frecuencia y porcentajes. También se puede realizar una prueba Chi cuadrada y seleccionar el Layout de la tabla. 240 241 242 243 Ejemplo: Sería conveniente clasificar las personas del estudio por género, si fuman o no y peso como la variable asociada. Presentar esta informaciòn en una tabla de tres vías. Instrucciones de Minitab: 1 File Open > Worksheet > EXH_TABL.MTW. 2 Seleccionar Stat > Tables > Cross Tabulation and Chi Square 3 En For rows, poner Gender . En For columns, poner Activity . En For Layers, poner Smokes. 4 En Display, seleccionar Counts Click OK en cada cuadro de diálogo 244 Los resultados se muestran a continuación: Tabulated statistics: Gender, Activity, Smokes Results for Smokes = No Rows: Gender Columns: Activity A lot Moderate Slight All Female 4 20 3 27 Male 12 22 3 37 All 16 42 6 64 Cell Contents: Count Results for Smokes = Yes Rows: Gender Columns: Activity A lot Moderate Slight Female 1 6 1 Male 4 13 2 All 5 19 3 Cell Contents: Count All 8 19 27 245 Interpretación: Minitab crea una tabla de dos vías para cada nivel de la variable por capas, Smoke. La variable de fila es Gender y la variable de columna es Activity. También se puede cambiar el Layout de la tabla asignando variables a través de las filas, debajo de las columnas o por capas. 246 Ejemplo de cambio de Layout de tabla Instrucciones de Minitab: 1 File Open > Worksheet > EXH_TABL.MTW. 2 Seleccionar Stat > Tables > Cross Tabulation and Chi Square 3 En For rows, poner Gender . En For columns, Activity Smokes 4 En Display, seleccionar Counts Click OK en cada cuadro de diálogo 247 Los resultados se muestran a continuación: Tabulated statistics: Gender, Activity, Smokes Rows: Gender Columns: Activity / Smokes A lot Moderate Slight All No Yes No Yes No Yes All Female 4 1 20 6 3 1 35 Male 12 4 22 13 3 2 56 All 16 5 42 19 6 3 91 Cell Contents: Count Interpretación: La variable de fila es Gender, la variable de columna superior es Activity y la inferior es Smokes. 248 Análisis Chi cuadrada con Tabulación cruzada Hay interés en determianr si hay asociación entre el Género y el nivel de actividad para las personas en el estudio. Hacer una prueba Chi Cuadrada. Instrucciones de Minitab: 1 File Open > Worksheet > EXH_TABL.MTW. 2 Seleccionar Stat > Tables > Cross Tabulation and Chi Square 3 En For rows, poner Gender . En For columns, poner Activity 4 En Display, seleccionar Counts 5 Sel. Chi Square > Chi Cuad. Analysis, Exp. Cell counts, Std. Res. Click OK en cada cuadro de diálogo 249 250 Cell Contents: Count Expected count Standardized residual Pearson Chi-Square=2.487, DF=2, P-Value=0.288 Likelihood Ratio Chi-Square = 2.613, DF = 2, P-Value = 0.271 * NOTE * 1 cells with exp. counts less than 5 Interpretación: Las celdas en la tabla continenen las frecuencias, las frecuencias esperadas y los residuos estandarizados. Como P value es mayor a 0.05, no hay evidencia de asociación entre Gender y Activity . Como hay una frecuencia menor a 5, se debe tener precuación al intepretar los resultados 251 Tablas de Contingencia La Tabla de contingencia es una prueba de independencia entre variables. Ho: La variable de renglón es independiente de la variable de columna Las proporciones en todas las columnas de cada renglón son iguales Ha: La variable de renglón tiene dependencia de la variable de columna Las proporciones en las columnas de cada renglón son diferentes Ejemplo: Se tiene interés de probar si la afiliación política depende del sexo y del partído político, para lo cual se encuestan a 100 personas. Democrat Republican Hombres Mujeres 28 22 18 27 Other 4 1 Las instrucciones son las siguientes: File > Open worksheet Exh_Tabl.Mtw. Stat > Tables > Chi-Square Test (Tabla en Worksheet). En Columns que contiene la tabla, indicar Democrat, Republican y Other. Click OK. 252 Los resultados son los siguientes: Chi-Square Test: Democrat, Republican, Other Expected counts are printed below observed counts Chi-Square contributions are printed below expected counts Democrat Republican Other Total 1 28 18 4 50 25.00 22.50 2.50 NOTA: Las frecuencias 0.360 0.900 0.900 esperadas deberían ser mayores a 5. 2 22 27 1 50 25.00 22.50 2.50 0.360 0.900 0.900 Total 50 45 5 100 Chi-Sq = 4.320, DF = 2, P-Value = 0.115 El valor P es mayor a 0.05 y no 2 cells with expected counts less than 5. se rechaza Ho por tanto el tipo de partido es independiente del sexo de los votantes. 253 Ejercicios: 1. Los errores presentados en tres tipos de servicios cuando se prestan por tres regiones se muestran a continuación, probar con una tabla de contingencia si los errores dependen del tipo de servicio y región para un 95% de nivel de confianza. Servicio 1 2 3 Region A Region B Region C 27 12 8 41 22 9 42 14 10 Ho: Los errores NO dependen en cada región del tipo de servicio. Ha: Los errores en cada región, dependen del tipo de servicio, Con Minitab: Stat > Tables > Chi square test (two way table in worksheet) Columns containing the table Region A Region B Region C OK 254 2. Probar a una alfa de 0.05 si los errores que se cometen al facturar en diferentes ramos son similares. Nivel de confianza = 1 - alfa = 95% Orden Farmacia Consumo Comput. Telecom. Correcta 207 136 151 178 Incorrecta 3 4 9 12 Ho: El número de errores no depende del ramo industrial Ha: El número de errores depende del ramo industrial Con Minitab: Stat > Tables > Chi square test (two way table in worksheet) Columns containing the table Farmacia Consumo Comput. Telecom. OK 255 11. Regresión lineal y cuadrática 256 Regresión lineal y cuadrática • Correlación y regresión lineal • Regresión simple por medio de gráfica • Regresión cuadrática por medio de gráfica 257 Correlación y Regresión lineal y cuadrática simple Coeficiente de Correlación Establece si existe una relación entre las variables y responde a la pregunta, ”¿Qué tan evidente es esta relación?". La correlación es una prueba fácil y rápida para eliminar factores que no influyen en la predicción, para una respuesta dada. * Es una medida de la fuerza de la relación lineal entre dos variables x y y. * Es un número entre -1 y 1 * Un valor positivo indica que cuando una variable aumenta, la otra variable aumenta * Un valor negativo indica que cuando una variable aumenta, la otra disminuye * Si las dos variables no están relacionadas, el coeficiente de correlación tiende a 0. 258 Correlación Negativa Evidente 25 20 20 15 15 10 Y Y Correlación Positiva Evidente 25 5 0 5 10 15 20 25 X 5 Sin Correlación 0 r= 1 25 10 0 0 5 10 r = -1 15 20 25 X 20 15 25 Y Correlación Positiva 10 0 0 20 5 10 15 r= 0 20 25 25 X 20 15 15 10 Y Y Correlación Negativa 5 r = 0.8 5 0 0 5 10 15 X 20 25 r = -0.8 10 5 0 0 5 10 15 20 25 X 259 Ejemplo: Se utiliza el archivo PULSE.MTW campos Peso (Weight) y Altura (Height) File > Open Worksheet > Pulse.Mtw o copiar los datos del archivo anexo Antes de calcular el coeficiente de correlación se sugiere hacer un diagrama bivariante para identificar posibles valores anómalos, relaciones no lineales, etc. Graph > Scatterplot: Simple Y = Weight y X = Height Scatterplot of Weight vs Height 220 200 Weight 180 160 140 120 100 60 62 64 66 68 Height 70 72 74 76 260 Ahora se calcula el coeficiente de Correlación que mide el grado de relación que existe entre dos variables, como sigue: Stat > Basic Statistics > Correlation Seleccionar en Variables Weight Height Seleccionar Display P values Los resultados son los siguientes: Correlations: Weight, Height Pearson correlation of Weight and Height Coeficiente = 0.785 de correlación P-Value = 0.000 Como el P value es menor a 0.05, la correlación si es significativa 261 Coeficiente de correlación Reglas empíricas Coeficiente de correlación 0.8 < r < 1.0 0.3 < r < 0.8 Relación Fuerte, positiva Débil, positiva -0.3 < r < 0.3 -0.8 < r < -0.3 -1.0 < r < -0.8 No existe Débil, negativa Fuerte, negativa 262 Análisis de Regresión El análisis de regresión es un método estandarizado para localizar la correlación entre dos grupos de datos, y, quizá más importante, crear un modelo de predicción. Puede ser usado para analizar las relaciones entre: • Una sola “X” predictora y una sola “Y” • Múltiples predictores “X” y una sola “Y” • Varios predictores “X” entre sí 263 Modelo de regresión lineal simple Fitted Line Plot Resultados de prueba (%) = 31.21 + 0.6955 Tiempo de estudio (horas) S R-Sq R-Sq(adj) Resultados de prueba (%) 80 4.47182 77.0% 74.2% 75 R^2 Coef. de determinación 70 65 60 55 50 30 40 50 60 Tiempo de estudio (horas) 70 Mínimos cuadrados 264 Regresión simple por medio de gráfica: File > Open Worksheet > Pulse.Mtw Stat > Regression > Fitted line Plot Seleccionar en Response (Y) Weight y en Predictor (X) Height Seleccionar modelo Type of Regression model Linear Sel. en Graphs > Residuals Standardized > Normal Plot y Residuals vs fits OK Ecuación de Regresión Fitted Line Plot Weight = - 204.7 + 5.092 Height 220 200 Weight 180 S R-Sq R-Sq(adj) 160 140 120 100 60 62 64 66 68 Height 70 72 74 76 14.7920 61.6% 61.2% S Desv. Estandar de los residuos (valor real-estimado por la regresión) R-Sq Coeficiente de Determinación en porcentaje de variación explicada por la ecuación de regresión R-Sq (Adj) - Sólo para regresión múltiple 265 Regression Analysis: Weight versus Height The regression equation is Weight = - 204.7 + 5.092 Height S = 14.7920 R-Sq = 61.6% R-Sq(adj) = 61.2% Analysis of Variance Source DF SS MS F P Regression 1 31591.6 31591.6 144.38 0.000 Error 90 19692.2 218.8 Total 91 51283.9 El valor p menor a 0.05 indica que SI es significativa la Correlación de Y y X. 266 Análisis de los residuos Versus Fits Normal Probability Plot (response is Weight) (response is Weight) 4 99.9 99 95 90 2 Percent Standardized Residual 3 1 0 80 70 60 50 40 30 20 10 5 -1 1 -2 0.1 100 110 120 130 140 150 Fitted Value 160 Los residuos muestran aleatoriedad 170 180 -4 -3 -2 -1 0 1 Standardized Residual 2 3 4 Los residuos siguen una distribución normal 267 Regresión cuadrática por medio de gráfica: File > Open Worksheet > Exh_Reg.Mtw Stat > Regression > Fitted line Plot Seleccionar en Response (Y) EnergyConsumption y en Predictor (X) MachineSetting Seleccionar modelo Type of Regression Model Quadratic Sel. en Graphs > Residuals Standardized > Normal Plot y Residuals vs fits OK Ecuación de Regresión Fitted Line Plot EnergyConsumption = 128.8 - 13.11 MachineSetting + 0.3289 MachineSetting**2 EnergyConsumption 40 S R-Sq R-Sq(adj) 30 6.00002 79.3% 73.4% S Desv. Estandar de los residuos (valor real-estimado por la regresión) 20 10 0 10 15 20 MachineSetting 25 30 R-Sq Coeficiente de Determinación en porcentaje de variación explicada por la ecuación de regresión R-Sq (Adj) - Sólo para regresión múltiple 268 Resultados Polynomial Regression Analysis: EnergyConsumption versus MachineS The regression equation is EnergyConsumption = 128.8-13.11 MachineSetting+0.3289 MachineSett S = 6.00002 R-Sq = 79.3% Analysis of Variance Source DF SS Regression 2 963.81 Error 7 252.00 Total 9 1215.81 Sequential Analysis of Source DF SS Linear 1 28.500 Quadratic 1 935.308 R-Sq(adj) = 73.4% MS F P 481.904 13.39 0.004 36.000 El valor p menor a 0.05 indica que SI es significativa la Correlación de Y y X. Variance F P 0.19 0.673 25.98 0.001 269 Análisis de los residuos Normal Probability Plot (response is EnergyConsumption) 99 95 90 Percent 80 70 60 50 40 30 20 10 5 1 -3 -2 -1 0 1 Standardized Residual 2 3 Los residuos siguen una distribución normal 270 12. Regresión Múltiple 271 Regresión múltiple • Introducción • Regresión múltiple • Regresión por pasos • Regresión por mejores subconjuntos 272 Introducción 273 Regresión múltiple Genera una ecuación que describe la relación estadística entre uno o más predictores y la variable de respuesta y predice nuevas observaciones. Utiliza el método de mínimos cuadrados para derivar la ecuación que minimiza la suma de los residuos al cuadrado. Los resultados de la regresión indican la dirección, tamaño, y significancia estadística de la relación entre los predictores y la respuesta. * El signo de cada coeficiente indica la dirección de la relación. * Los coeficientes representan el cambio pormedio en la respuesta para una unidad de cambio en el predictor, mientras se mantienen constantes otros predictores del modelo. 274 * El valor P de cada coeficiente prueba la hipótesis nula de que el coeficiente es igual a cero (sin efecto). Por tanto, valores bajos de P sugieren que el predictor tiene un efecto significativo en el modelo. * La ecuación predice nuevas observaciones con base en valores específicos de los predictores 275 Regresión múltiple • Cuando se usa más de una variable independiente para predecir los valores de una variable dependiente, el proceso se llama análisis de regresión múltiple, incluye el uso de ecuaciones lineales. Yu b 0 b1 X u1 b 2 X u 2 ....... b k X uk u Se asume que los errores u tienen las características siguientes: • Tienen media cero y varianza común 2. • Son estadísticamente independientes. • Están distribuidos en forma normal. 276 Tamaño de muestra • Tomar 5 observaciones para cada una de las variables independientes, si esta razón es menor de5 a 1, se tiene el riesgo de “sobreajustar” el modelo • Un mejor nivel deseable es tomar 15 a 20 observaciones por cada variable independiente 277 Multicolinealidad • La multicolinealidad implica una dependencia cercana entre regresores (columnas de la matriz X ), de tal forma que si hay una dependencia lineal exacta hará que la matriz X’X sea singular. • La presencia de dependencias cercanamente lineales impactan dramáticamente en la habilidad para estimar los coeficientes de regresión. • La varianza de los coeficientes de la regresión son inflados debido a la multicolinealidad. Es evidente por los valores diferentes de cero que no están en la diagonal principal de X’X. Que son correlaciones simples entre los regresores. 278 Multicolinealidad • Una prueba fácil de probar si hay multicolinealidad entre dos variables es que su coeficiente de correlación sea mayor a 0.7 • Los elementos de la diagonal principal de la matriz X’X se denominan Factores de inflación de varianza (VIFs) y se usan como un diagnóstico importante de multicolinealidad. Para el componente j – ésimo se tiene: • Si es mayor a 10 implica que se tienen serios problemas de multicolinealidad. 1 VIF j 1 R 2j 279 Análisis de los residuos • Los residuos graficados vs la Y estimada, pueden mostrar diferentes patrones indicando adecuación o no adecuación del modelo: • La gráfica de residuos aleatorios cuya suma es cero (null plot) indica modelo adecuado • La gráfica de residuos mostrando una no linealidad curvilínea indica necesidad de transformar las variables • Si los residuos se van abriendo indica que la varianza muestra heteroestacidad y se requiere transformar las variables. Se puede probar con la prueba de Levene de homogeneidad de varianzas 280 Escalamiento de residuos • En algunos casos es difícil hacer comparaciones directas entre los coeficientes de la regresión debido a que la magnitud de bj refleja las unidades de medición del regresor Xj. Por ejemplo: Yˆ 5 X 1 1000X 2 • Para facilitarla visualización de residuos ante grandes diferencias en los coeficientes, se sugiere estandarizar o estudentizar los residuos 281 Escalamiento de residuos • Residuos estandarizados – Se obtienen dividiendo cada residuo entre la desviación estándar de los residuos ei di , MSE – Después de la estandarización, los residuos tienen una media de 0 y desviación estándar de 1 – Con más de 50 datos siguen a la distribución t, de manera que si exceden a 1.96 (límite para alfa 0.05) indica significancia estadística y son “outliers” 282 Escalamiento de residuos • Residuos estudentizados – Son similares a los residuos donde se elimina una observación y se predice su valor, pero además se elimina la i-ésima observación en el cálculo de la desviación estándar usada para estandarizar la í-ésima observación – Puede identificar observaciones que tienen una gran influencia pero que no son detectadas por los residuos estandarizados ri ei , MSE(1 hii ) 283 Escalamiento de residuos • El estadístico PRESS (Prediction Error Sum of Squares) es una medida similar a la R2 en la regresión. Difiere en que se estiman n1 modelos de regresión. • En cada modelo se omite una observación en la estimación del modelo de regresión y entonces se predice el valor de la observación omitida con el modelo estimado. El residuo iésimo será: • ˆ e Y Y ( i ) i (i ) El residuo PRESS es la suma al cuadrado de los residuos individuales e indica una medida de la capacidad de predicción PRESS e(2i ) Yi Yˆ( i ) N i 1 2 RPr2 edicción 1 PRESS SYY 284 Gráficas parciales de regresión • Para mostrar el impacto de casos individuales es más efectiva la gráfica de regresión parcial. Un caso “outlier” impacta en la pendiente de la ecuación de regresión (y su coeficiente). • Una comparación visual de la gráfica de regresión parcial con y sin la observación muestra la influencia de la observación • El coeficiente de correlación parcial es la correlación de la variable independiente Xi y la variable dependiente Yi cuando se han eliminado de ambos Xi y Yi • La correlación semiparcial refleja la correlación entre las variables independiente y dependiente removiendo el efecto Xi 285 Por ejemplo: Se investiga el efecto de los factores que afectan a % de rotura de papas (variable de respuesta) antes de su embarque. Los predictores son el % de papa respecto a otros ingredientes y la temperatura de horneado en grados celsius. % de papas rotas = 4.231 - 0.044(% papas) + 0.023 Temp Predictor Coeficiente Constante % papas Temp 4.231 -0.044 0.023 P 0.322 0.001 0.02 R-Sq = 67.2% 286 Como el P value de ambos predictores es menor a 0.05, son significativos, explican el 67.2% de la varianza del % de papas rotas. * Por cada grado C de incremento en la temperatura, el % de papas rotas se espera se incremente en 0.023% * Para predecir el % de papas rotas con el 50% de papas y una temperatura de cocción de 175 ºC, se calcula el valor esperado de 4.831% de papas rotas. 287 Regresión múltiple 288 Ejemplo: Como parte de una prueba de energía térmica solar, se mide el calor total en Fluxes en las casas. Se desea examinar si este calor puede predecirse por la posición de los puntos focales en el Este; Sur y Norte. HeatFlux 271.8 264 238.8 230.7 251.6 257.9 East 33.53 36.5 34.66 33.13 35.75 34.46 South 40.55 36.19 37.31 32.52 33.71 34.14 North 16.66 16.46 17.66 17.5 16.4 16.28 Etc… Etc.. 289 Instrucciones de Minitab: 1 2 3 4 5 6 7 File > Open worksheet > EXH_REGR.MTW. Seleccionar Stat > Regression > Regression. En Response, seleccionar HeatFlux . EIn Predictors, seleccionar East South North . Click Graphs. En Residuals for Plots, seleccionar Standardized. En Residual Plots, seleccionar Individual Plots. Histogram of residuals, Normal plot of residuals, y Residuals versus fits. Click OK. 8 Click Options. En Display, seleccionar PRESS y predicted R-square. Click OK en cada caja de diálogo. 290 Los resultados se muestran a continuación: Regression Analysis: HeatFlux versus East, South, North The regression equation is HeatFlux = 389 + 2.12 East + 5.32 South - 24.1 North Predictor Constant East South North S = 8.59782 Coef 389.17 2.125 5.3185 -24.132 SE Coef 66.09 1.214 0.9629 1.869 R-Sq = 87.4% T 5.89 1.75 5.52 -12.92 P 0.000 0.092 0.000 0.000 R-Sq(adj) = 85.9% 291 PRESS = 3089.67 R-Sq(pred) = 78.96% Analysis of Variance Source Regression Residual Error Total Source East South North DF 1 1 1 DF 3 25 28 SS 12833.9 1848.1 14681.9 MS 4278.0 73.9 F 57.87 P 0.000 Seq SS 153.8 349.5 12330.6 Unusual Observations Obs East HeatFlux Fit SE Fit Residual St Resid 4 33.1 230.70 210.20 5.03 20.50 2.94R 22 37.8 254.50 237.16 4.24 17.34 2.32R R denotes an observation with a large standardized residual 292 Interpretación: * El valor P de la ANOVA (0.00) indica que el modelo de regresión es significativo a un nivel alfa de 0.05. Indica que al menos un coeficiente es diferente de cero. * Los valores P para los coeficientes estimados de North y South (P = 0.000) indican que tienen influencia significativa en el HeatFlux. El P-value de East de 0.092 indica que no es significativo a un nivel de significancia de 0.05. Además la suma secuencial de cuadrados (sequential sum of squares) indica que el predictor East, no explica una gran cantidad de varianza, Por lo que el modelo con solo North y South serìa apropiado. * El valor de R-sq (adj) de 85.9% tomando en cuenta el número de predictores en el modelo, indica que el modelo ajusta bien a los datos. 293 * El Predicted R-Sq de 78.96% es cercano al valor de R-Sq, el modelo no parece estar sobreajustado y tiene buena capacidad predictiva. * Las observaciones 4 y 22 se identifican como anormales dado que el valor estandarizado de sus residuos es mayor a 2. Pueden ser Outliers. Versus Order Normal Probability Plot (response is HeatFlux) (response is HeatFlux) 2 90 Percent Standardized Residual 99 0 50 10 -2 2 4 6 8 10 12 14 16 18 20 22 24 26 1 28 -3.0 -1.5 Observation Order 0.0 1.5 3.0 Standardized Residual Versus Fits Histogram (response is HeatFlux) (response is HeatFlux) 2 6 Frequency Standardized Residual 8 0 4 2 -2 200 220 240 Fitted Value 260 280 0 -2 -1 0 1 Standardized Residual 2 3 294 Interpretación: * La gráfica de Histograma indica que pueden existir puntos aberrantes en los datos, indicado por las dos barras derechas. * La gráfica de probabilidad normal muestra un patrón aprox. lineal consistente con una distribución normal. Hay dos puntos que salen de la línea, con Brushing se identifican como el 4 y 22. * La gráfica de residuos contra valores estimados, muestra que son más pequeños conforme se incrementa el valor estimado de Y, lo que puede indicar que los resiudos no tienen una varianza constante y tal vez sea necesaria una transf. de datos. 295 Regresión por pasos y mejores subconjuntos 296 Regresión por pasos (Stepwise regression) Remueve y agrega variables al modelo de regresión con el propósito de identificar un subconjunto útil de predictores. Se tienen tres procedimientos: * Regresión estándar por pasos, agrega y remueve variables. * Regresión hacia delante (forward regression), agrega variables * Regresión hacia atrás (backward regression), remueve variables Cuando se selecciona el método por pasos (stepwise), se puede introducir un conjunto inicial de variables predictoras en la caja Predictors in initial model, estas serán removidas si sus valores p son mayores al valor Alpha to enter . Si se quieren mantener en el modelo a pesar de sus valores P incluirlas en la caja Predictors to include in every model. 297 Cuando se selecciona el método de regresión hacia adelante, se puede introducir el valor de Alpha to enter. Cuando se selecciona el método de regresión hacia atrás, se puede introducir el valor de Alpha to remove. Ejemplo: Un grupo de estudiantes registra su peso, estatura, género, preferencia por fumar, nivel de ejercicio y pulso en reposo. Algunos de ellos corren durante un minuto, después de lo cual todos se toman el pulso por segunda vez. Se desea encontrar los mejores predictores para la 2a. tasa de pulso. Pulse1 Pulse2 64 58 62 66 64 Ran 88 70 76 78 80 Smokes 1 1 1 1 1 Sex 2 2 1 1 2 Height 1 1 1 1 1 Weight 66 72 73.5 73 69 Activity 140 145 160 190 155 2 2 3 1 2 298 Instrucciones de Minitab: 1 File > Open worksheet > PULSE.MTW. 2 Pulsar [CTRL] + [M] para activar la Session window. 3 Sel. Editor > Enable Commands para que Minitab muestre comandos. 4 Seleccionar Stat > Regression > Stepwise. 5 En Response, seleccionar Pulse2 . 6 En Predictors, seleccionar Pulse1 Ran Weight . 7 Click Options. 8 In Number of steps between pauses, anotar 2 . 9 Click OK en cada caja de diálogo. 10 En la Session window, en el 1er. More? prompt, poner Yes . 11 En la Session window, en el 2do. More? prompt, poner No . 299 Los resultados se muestran a continuación: Stepwise Regression: Pulse2 versus Pulse1, Ran, ... Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15 Response is Pulse2 on 6 predictors, with N = 92 Step 1 2 Constant 10.28 44.48 Pulse1 0.957 0.912 T-Value 7.42 9.74 P-Value 0.000 0.000 Ran T-Value P-Value S R-Sq R-Sq(adj) Mallows Cp -19.1 -9.05 0.000 13.5 37.97 37.28 103.2 9.82 67.71 66.98 13.5 300 More? (Yes, No, Subcommand, or Help) SUBC> yes Step 3 Constant 42.62 Pulse1 T-Value P-Value 0.812 8.88 0.000 Ran T-Value P-Value -20.1 -10.09 0.000 Sex T-Value P-Value 7.8 3.74 0.000 S R-Sq R-Sq(adj) Mallows Cp 9.18 72.14 71.19 1.9 More? (Yes, No, Subcommand, or Help) SUBC> no 301 Interpretación: El ejemplo utiliza seis predictores. Se pidio que Minitab realice dos etapas en el método de regresión por pasos automático, muestre los resultados y permita intervenir. En la primera etapa del modelo, la variable Pulse 1 se introduce al modelo; en el paso 2, entra la variable Ran, no se removió ninguna variable. En cada paso Minitab indica la constante, Coeficientes y el valor T para cada modelo, desviación estándar y R-sq (adj). Al dar Yes en la segunda etapa, el procedimiento agrega la variable Sex, como ya no hay más variables que entren o salgan, el procedimiento pregunta de nuevo, al constestar con No, se detiene. 302 Regresión por mejores subconjuntos (Best subsets) Este método de regresión identifica los mjeores modelos de regresión que pueden ser formados con las variables predictoras que se especifiquen. Minitab inicia por analizar los modelos de un predictor, y después los de dos predictores, etc. Solo muestra dos de los mejores modelos en cada caso. 303 Ejemplo: Como parte de una prueba de energía térmica solar, se mide el calor total en Fluxes en las casas. Se desea examinar si este calor puede predecirse por las variables de posición de los puntos focales en el Este; Sur y Norte ; la Insulation y la hora. Time of the day . HeatFlux 271.8 264 238.8 230.7 251.6 257.9 East 33.53 36.5 34.66 33.13 35.75 34.46 South 40.55 36.19 37.31 32.52 33.71 34.14 304 Instrucciones de Minitab: 1 File > Open worksheet > EXH_REGR.MTW. 2 Seleccionar Stat > Regression > Best Subsets 3 En Response, seleccionar HeatFlux . 4 En Free Predictors, seleccionar Insulation - Time . Click OK en cada caja de diálogo. 305 Los resultados se muestran a continuación: Best Subsets Regression: HeatFlux vs Insolation, East, ... Response is HeatFlux Vars 1 1 2 2 3 3 4 4 5 R-Sq 72.1 39.4 85.9 82.0 87.4 86.5 89.1 88.0 89.9 R-Sq(adj) 71.0 37.1 84.8 80.6 85.9 84.9 87.3 86.0 87.7 Mallows Cp 38.5 112.7 9.1 17.8 7.6 9.7 5.8 8.2 6.0 S 12.328 18.154 8.9321 10.076 8.5978 8.9110 8.1698 8.5550 8.0390 I n s o l a t i o n E a s t S o u t h N o r t h X T i m e X X X X X X X X X X X X X X X X X X X X X X X X 306 Interpretación de resultados: Cada línea representa un modelo diferente. Vars es el número de variables predictoras en el modelo, R-Sq (adj) está en %. El modelo con todas las variables tiene un valor de Cp de Mallow de 6.0 (debe ser aprox. igual al número de predictores más la constante), tiene una R-Sq(adj) de 87.7% y el menor valor de desviación estándar S (8.0390). Compite con el modelo de cuatro predictores (sin el timepo) tiene un valor de Cp de 5.8, una S uin poco mayor (8.16) y la R-Sq (adj) es ligeramente más baja (87.3%). En el modelo de tres predictores se observa que el agregar la variable East no ayuda al ajuste del modelo. 307 Ejemplo de datos de autos: Estadística de coches: Stat > Regression > Regression Response Velo.max Predictors Num.Cil, Cil.(cc), Pot.(CV) Graphs: Four in One Residuals versus variables Pot.(CV) Options: Prediction intervals for new observations 4 1124 100 308 Se obtienen los siguientes resultados: Regression Analysis: Velo.max versus Num.Cil., Cil.(cc), Pot.(CV) The regression equation is Velo.max = 157 - 5.72 Num.Cil. - 0.00218 Cil.(cc) + 0.521 Pot.(CV) 244 cases used, 3 cases contain missing values Predictor Coef SE Coef T P Constant 157.178 2.562 61.34 0.000 Num.Cil. -5.7177 0.9893 -5.78 Significativo 0.000 (P value < 0.05) Cil.(cc) -0.002178 0.001610 -1.35 No significativo 0.177 (Pvalue > 0.05) Pot.(CV) 0.52092 0.01927 27.03 Significativo 0.000 (P value < 0.05) S = 9.76245 R-Sq = 89.1% Analysis of Variance Source DF SS Regression 3 187887 Residual Error 240 22873 Total 243 210760 Source Num.Cil. Cil.(cc) Pot.(CV) DF 1 1 1 Seq SS 98419 19841 69627 R-Sq(adj) Coef.= De 89.0% determinación MS 62629 95 F 657.14 P 0.000 R residuos con más de 2 sigmas X residuos muy alejados del grupo normal 309 R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. Predicted Values for New Observations Obs Fit SE Fit 95% CI 95% PI 1 183.951 1.161 (181.663, 186.239) (164.584, 203.318) Values of Predictors for New Observations Obs 1 Num.Cil. 4.00 Cil.(cc) 1124 Pot.(CV) 100 310 Los residuos muestran un comportamiento normal por lo que el modelo es adecuado Residual Plots for Velo.max Normal Probability Plot of the Residuals Residuals Versus the Fitted Values 99.9 20 90 Residual Percent 99 50 10 1 0.1 0 -20 -40 -40 -20 0 Residual 20 40 150 Histogramof the Residuals 200 250 Fitted Value 300 Residuals Versus the Order of the Data 80 Residual Frequency 20 60 40 20 0 0 -20 -40 -40 -30 -20 -10 0 Residual 10 20 1 20 40 60 80 100 120 140 160 180 200 220 240 Observation Order 311 ResidualsVersusPot.(CV) El comportamiento de los residuos vs Potencia sugiere que es necesaria una transformación de variables por ejemplo sacarle raíz cuadrada. (responseis Velo.max) 30 20 Residual 10 0 -10 -20 -30 -40 -50 0 100 200 300 400 500 Pot.(CV) 312 Transformando la variable Pot.(CV) por Pot2 = raiz cuadrada de Pot.(CV) se tiene: Regression Analysis: Velo.max vs Num.Cil., Cil.(cc),Pot2 The regression equation is Velo.max = 73.5-1.42 Num.Cil.-0.00699 Cil.(cc)+ 12.8 Pot2 Predictor Constant Num.Cil. Cil.(cc) Pot2 Coef 73.502 -1.4201 -0.006988 12.8232 S = 7.03547 SE Coef 2.258 0.6770 0.001202 0.3177 R-Sq = 94.4% T 32.56 -2.10 -5.82 40.36 P 0.000 0.037 0.000 Significativo (P value < 0.05) 0.000 R-Sq(adj) Mejora = 94.3% el ajuste Predicted Values for New Observations Obs Fit SE Fit 95% CI 95% PI 1 1342.286 29.024 (1285.111, 1399.461) (1283.455, 1401.117)XX XX denotes a point that is an extreme outlier in the pred Values of Predictors for New Observations Obs Num.Cil. Cil.(cc) Pot2 1 4.00 1124 100 313 Residual Plots for Velo.max Normal Probability Plot of the Residuals Residuals Versus the Fitted Values 99.9 20 90 Residual Percent 99 50 10 0 -20 1 0.1 -40 -20 0 -40 20 150 Residual Histogram of the Residuals 200 250 Fitted Value 300 Residuals Versus the Order of the Data 20 Residual Frequency 40 30 20 0 -20 10 0 -30.0 -22.5 -15.0 -7.5 0.0 Residual 7.5 15.0 -40 1 20 40 60 80 100 120 140 160 180 200 220 240 Observation Order 314 Los residuos vs Pot2 ya tienen un mejor comportamiento más aleatorio: Residuals Versus Pot2 (response is Velo.max) 20 10 Residual 0 -10 -20 -30 -40 5.0 7.5 10.0 12.5 15.0 17.5 20.0 22.5 Pot2 315 Selección de la mejor ecuación: Best Subsets Permite obtener un "buen modelo" en función de su sencillez o facilidad de interpretación. Stat > Regression > Stepwise Variables candidatas a entrar en el modelo Variables forzadas a entrar en los modelos 316 Mínimo numero de variables en el modelo 1 Máximo número de variables en el modelo todas Número de ecuaciones que aparecen con 1, 2, 3.... Variables regresoras 317 Los resultados son los siguientes: Best Subsets Regression: Velo.max vs Num.Cil., Cil.(cc), ... Response is Velo.max 244 cases used, 3 cases contain missing values N C P u i o m l t . . . C ( ( P i c C o Mallows l c V t Vars R-Sq R-Sq(adj) C-p S . ) ) 2 1 92.5 92.5 109.0 8.0783 Buenos modelos X 1 86.6 86.5 385.3 10.813 X 2 94.3 94.2 29.3 7.0849 Incluye sólo X Cil.(cc) X y Pot2 2 93.6 93.6 58.0 7.4544 X X 3 94.8 94.8 3.9 6.7261 X X X 3 94.4 94.3 26.5 7.0355 IncluyeXNum.Cil, X X Cil.(Cc), Pot2 4 94.9 94.8 5.0 6.7269 X X X X 318 Selección de la mejor ecuación: Stepwise Se usa cuando el número de variables es muy grande mayor a 31, antes da los mismos resultados que el método anterior: Variable de respuesta Variables candidatas a entrar en lós modelos 319 Criterio para la entrada y salida de variables El método implica que las variables puedan ir entrando o saliendo. Iniciando con ninguna. Las variables van entrando pero ya no salen Las variables van saliendo a partir de tomar todas y no vuelven a entrar Permite mostrar en cada paso las mejores opciones además de la seleccionada y el número de pasos entre pausas. 320 Los resultados obtenidos son los siguientes: Stepwise Regression: Velo.max versus Num.Cil., Cil.(cc), Pot.(CV), Pot2 Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15 Response is Velo.max on 4 predictors, with N = 244 N(cases with missing observations) = 3 N(all cases) = 247 Step 1 2 Variables 3 que entran en cada Constant 78.97 71.48 43.58 paso y su calidad de ajuste Pot2 10.41 12.69 17.41 T-Value 54.66 40.50 18.33 P-Value 0.000 0.000 0.000 Cil.(cc) -0.00845 -0.00722 T-Value -8.58 -7.48 P-Value 0.000 0.000 Pot.(CV) -0.206 T-Value -5.23 P-Value 0.000 S 8.08 7.08 6.73 R-Sq 92.51 94.26 94.85 R-Sq(adj) 92.48 94.21 94.78 Modelo adecuado Mallows C-p 109.0 29.3 3.9 321 Contenido Parte C: 13. Series de tiempo 14. Diseño de experimentos factoriales 15. Estudios de R&R – Concordancia por atributos 16. Capacidad de procesos por atributos 17. Capacidad de procesos 18. Cartas de control ponderadas en el tiempo 323 13. Series de tiempo 324 Series de tiempo • Introducción • Método de Tendencia lineal y cuadrática • Método de Promedio móvil • Método de Suavización exponencial simple • Método de Suavización exponencial doble • Método de Winters 325 INTRODUCCIÓN Los métodos de análisis de series de tiempo consideran el hecho que los datos tomados en diversos periodos de tiempo pueden tener algunas características de autocorrelación, tendencia o estacionalidad que se debe tomar en cuenta. Definición de serie de tiempo: Es una secuencia ordenada de valores de una variable en intervalos de tiempo periódicos y consecutivos. Aplicación: la aplicación de estos métodos tiene dos propósitos: comprender las fuerzas de influencia en los datos y descubrir la estructura que produjo los datos observados. Ajustar el modelo y proceder a realizar pronósticos, monitoreo, retroalimentación y control en avance. Las aplicaciones incluyen pronósticos económicos, análisis de presupuesto, análisis del mercado, etc. 326 Tendencias: Si los datos muestran una tendencia, se pueden ajustar los datos con algún tipo de curva o recta y modelar los residuales. Como el propósito del ajuste es simplemente remover la tendencia a largo plazo, una línea recta es suficiente. 327 Estacionalidad: son fluctuaciones periódicas, por ejemplo cuando hay picos de ventas en la navidad y después declinan. La serie de tiempo de ventas mostrarán un incremento durante septiembre a diciembre y una declinación durante enero y febrero. 328 INDICADORES DE MODELOS DE SERIES DE TIEMPO Estos indicadores sirven para comparar la efectividad de diferentes modelos utilizados. Siempre se busca el valor menor en los indicadores MAPE, MAD y MSD ya que representa un mejor ajuste del modelo. MAPE: Porcentaje promedio absoluto de error, mide la exactitud de los valores estimados de la serie de tiempo. La exactitud se expresa como un porcentaje con yt igual al valor observado, ŷt es el valor estimado y n el número de observaciones. 329 MAD: Desviación media absoluta, mide la exactitud de los valores estimados de la serie de tiempo. Expresa la exactitud en las mismas unidades de los datos. MSD: Desviación cuadrática media, es más sensible a errores anormales de pronóstico que el MAD. 330 MÉTODOS DE PRONÓSTICO Los métodos de series de tiempo incluyen métodos de pronóstico y de suavizamiento simples, métodos de análisis de correlación y métodos de Box Jenkins ARIMA. Métodos de pronóstico y suavizamiento simple: se basan en la idea de que hay patrones visibles en una gráfica de series de tiempo que pueden ser extrapolados al futuro. El método se selecciona dependiendo de si los patrones son estáticos (constantes en el tiempo) o dinámicos (cambian en el tiempo), la naturaleza de los componentes de tendencia y estacionalidad y que tan lejos se quiera pronosticar, son métodos generalmente fáciles y rápidos de aplicar. 331 Métodos de pronóstico ARIMA (Autoregressive Integrated Moving Average): también usan patrones de datos, sin embargo puede que no sean fácilmente visibles en la serie de tiempo. El modelo usa funciones de diferencias, autocorrelación y autocorrelación parcial para ayudar a identificar un modelo aceptable. El modelo ARIMA representa una serie de pasos de filtraje hasta que solo queda ruido aleatorio. Es un proceso iterativo que consume tiempo de ejecución. 332 Por ejemplo: Se colectan datos de empleo en un sector de negocios durante 60 meses y se desea predecir la tasa de empleo para los siguientes 12 meses, EMPLOY.MTW. Trade 322 317 319 323 327 Etc. Food 53.5 53 53.2 52.5 53.4 Etc. Metals 44.2 44.3 44.4 43.4 42.8 Etc. Trade 351 354 355 357 362 Etc. Food 63.6 68.8 68.9 60.1 55.6 Etc. Metals 44.5 45 44.8 44.9 45.2 Etc. 333 MÉTODO DE TENDENCIA LINEAL Las instrucciones de Minitab son las siguientes: 1 File > Open Worksheet > EMPLOY.MTW. 2 Ejecutar Stat > Time Series > Trend Analysis. 3 En Variable, poner Trade. 4 En Model Type, seleccionar Linear 5 Seleccionar Generate forecasts y poner 12 en Number of forecasts. 6 Seleccionar Storage . 7 Seleccionar Fits (Trend Line) , Residuals (detrended data), y Forecasts. Seleccionar OK en cada diálogo. 334 Trend Analysis Plot for Trade Linear Trend Model Yt = 313.989 + 1.16485*t 400 Variable Actual Fits Forecasts 390 380 Accuracy Measures MAPE 1.8999 MAD 6.6177 MSD 67.4325 Trade 370 360 350 340 330 320 310 1 7 14 21 28 35 42 Index 49 56 63 70 MAPE MAD MSD Forecasts Period Forecast 61 385.045 62 386.209 63 387.374 64 388.539 65 389.704 66 390.869 67 392.034 68 393.199 69 394.363 70 395.528 71 396.693 72 397.858 1.8999 6.6177 67.4325 335 MODELO CUADRÁTICO 1 Open Worksheet EMPLOY.MTW. 2 Ejecutar Stat > Time Series > Trend Analysis. 3 En Variable, poner Trade. 4 En Model Type, seleccionar Quadratic. 5 Seleccionar Generate forecasts y poner 12 en Number of forecasts. 6 Seleccionar Storage . 7 Seleccionar Fits (Trend Line) , Residuals (detrended data), y Forecasts. Seleccionar OK en cada diálogo. 336 Trend Analysis Plot for Trade Quadratic Trend Model Yt = 320.762 + 0.509373*t + 0.0107456*t**2 Variable Actual Fits Forecasts 410 400 390 Accuracy Measures MAPE 1.7076 MAD 5.9566 MSD 59.1305 Trade 380 370 360 350 340 330 320 1 7 14 21 28 35 42 Index 49 56 63 70 Forecasts Period Forecast 61 391.818 62 393.649 63 395.502 64 397.376 65 399.271 66 401.188 67 403.127 68 405.087 69 407.068 70 409.071 71 411.096 72 413.142 MAPE 1.7076 MAD 5.9566 MSD 59.1305 337 PROMEDIO MÓVIL Suaviza los datos al promediar observaciones consecutivas en la serie de tiempo. Este método es adecuado cuando no hay componente de tendencia ni estacionalidad Se calcula el promedio móvil de la serie. Por ejemplo si se tienen los números 4, 5, 8, 9, 10 y se usa un promedio móvil de 3. Los primeros dos valores no existen. El tercer valor es el promedio de 4, 5, y 8; el cuarto valor es el promedio de 5, 8, y 9; el quinto valor es el promedio de 8, 9, y10 338 Ejemplo: Se desea predecir el empleo durante los próximos 6 meses en el segmento de metales con los datos de los últimos 60 meses. Se usa el método de promedio móvil si no se tienen patrones bien definidos de tendencia o estacionalidad en los datos. 1 File > Open worksheet EMPLOY.MTW. 2 Seleccionar Stat > Time Series > Moving Average. 3 En Variable, seleccionar Metals. En MA length, poner 3. 4 Seleccionar Center the moving averages. 5 Seleccionar Generate forecasts, y poner 6 en Number of forecasts. Click OK. 339 Moving Average Plot for Metals 52 Variable Actual Fits Forecasts 95.0% PI 50 Moving Average Length 3 Metals 48 Accuracy MAPE MAD MSD 46 44 42 Measures 1.55036 0.70292 0.76433 Forecasts Period Forecast 61 49.2 62 49.2 63 49.2 64 49.2 65 49.2 66 49.2 40 1 7 14 21 MAPE MAD MSD 28 35 Index 42 49 56 63 1.55036 0.70292 0.76433 340 MÉTODOS DE SUAVIZACIÓN EXPONENCIAL SIMPLE Se aplica cuando solo si se tiene un comportamiento de la serie de tiempo sin tendencia o estacionalidad. El componente simple dinámico en un modelo de promedio móvil es el nivel. Peso especificado 1. Se usa el promedio de los primeros seis (o N si N<6) observaciones para el valor inicial suavizado (en tiempo uno). 2. Los valores suavizados subsecuentes se calculan de la fórmula: Valor suavizado en t = a(dato en periodo t)] + (1-a) (valor suavizado en t-1) Donde a es el peso. 341 Ejemplo: Se desea predecir el empleo durante los próximos 6 meses en el segmento de metales con los datos de los últimos 60 meses. 1 2 3 4 File > Open worksheet EMPLOY.MTW. Seleccionar Stat > Time Series > Single Exp Smoothing. En Variable, poner Metals. Seleccionar Generate forecasts, y 6 en Number of forecasts. Click OK. Los resultados se muestran a continuación: Single Exponential Smoothing for Metals Data Metals Length 60 Smoothing Constant Alpha 1.04170 342 Single Exponential Smoothing Plot for Metals 52 Variable Actual Fits Forecasts 95.0% PI 50 Smoothing Constant Alpha 1.04170 Metals 48 Accuracy MAPE MAD MSD 46 44 42 Measures 1.11648 0.50427 0.42956 Forecasts Period Forecast 61 48.0560 62 48.0560 63 48.0560 64 48.0560 65 48.0560 66 48.0560 40 1 7 MAPE MAD MSD 14 21 28 35 Index 42 49 56 63 1.11648 0.50427 0.42956 343 SUAVIZAMIENTO EXPONENCIAL DOBLE (HOLT) Se aplica cuando en la serie de tiempo se presenta una tendencia ascendente o descendente pero sin estacionalidad. Pesos especificados 1. Se hace una regresión lineal en los datos de la serie (Y) contra el tiempo (X). 2. La constante de esta regresión es el valor inicial estimado del componente de nivel, el coeficiente de la pendiente es el estimado inicial del componente de tendencia. Pronósticos: el método de suavizamiento exponencial doble usa los componentes de nivel y de tendencia para generar los pronósticos. 344 Por ejemplo: 1 File > Open worksheet EMPLOY.MTW. 2 Seleccionar Stat > Time Series > Double Exp Smoothing. 3 En Variable, poner Metals. 4 Seleccionar Generate forecasts, y 6 en Number of forecasts. Click OK. Los resultados se muestran a continuación: Double Exponential Smoothing for Metals Data Metals Length 60 Smoothing Constants Alpha (level) 1.03840 Gamma (trend) 0.02997 345 Double Exponential Smoothing Plot for Metals 54 Variable Actual Fits Forecasts 95.0% PI 52 Metals 50 Smoothing Constants Alpha (level) 1.03840 Gamma (trend) 0.02997 48 Accuracy MAPE MAD MSD 46 44 42 Measures 1.19684 0.54058 0.46794 Forecasts Period Forecast 61 48.0961 62 48.1357 63 48.1752 64 48.2147 65 48.2542 66 48.2937 40 1 7 MAPE MAD MSD 14 21 28 35 Index 42 49 56 63 1.19684 0.54058 0.46794 346 MÉTODO DE WINTERS Se aplica cuando en la serie de tiempo se presentan los patrones de tendencia y estacionalidad. Suaviza los datos por el método exponencial de Holt – Winters. Se recomienda este método cuando se tienen presentes los componentes de tendencia y estacionalidad ya sea en forma aditiva o multiplicativa. El efecto multiplicativo se presenta cuando el patrón estacional en los datos depende del tamaño de los datos o sea cuando la magnitud del patrón estacional se incrementa conforme los valores aumentan y decrece cuando los valores de los datos disminuyen. El efecto aditivo es mejor cuando el patrón estacional en los datos no depende del valor de los datos, o sea que el patrón estacional no cambia conforme la serie se incrementa o disminuye de valor. 347 El método de Winters calcula los estimados de de tres componentes: nivel, tendencia y estacionalidad. Calcula estimados dinámicos con ecuaciones para los tres componentes: nivel, tendencia y estacionalidad. Estas ecuaciones dan una mayor ponderación a observaciones recientes y menos peso a observaciones pasadas, las ponderaciones decrecen geométricamente a una tasa constante. La ponderación seleccionada para Nivel, tendencia y estacionalidad es de 0.2 si se quiere hacer una correspondencia con el modelo ARIMA u otros valores entre 0 y 1 para reducir los errores de estimación. 348 Ejemplo de pronósticos utilizando el Método de Winters Se desea predecir el empleo para los siguientes seis meses en la industria alimenticia usando datos colectados sobre los últimos 60 meses, usando el método de Winters con el modelo multiplicativo, dado que hay componente estacional y de tendencia aparente en los datos. Instrucciones de Minitab 1 File > Open Worksheet > EMPLOY.MTW. 2 Ejecutar Stat > Time Series > Winters' Method. 3 En Variable, poner Food. In Seasonal length, 12 . 4 En Model Type, seleccionar Multiplicative. 5 Seleccionar Generate forecasts poner 6 en Number of forecasts. Seleccionar OK. 349 Winters' Method Plot for Food Multiplicative Method Variable A ctual Fits Forecasts 95.0% PI 75 70 Smoothing Constants A lpha (lev el) 0.2 Gamma (trend) 0.2 Delta (seasonal) 0.2 Food 65 A ccuracy MA PE MA D MSD 60 55 Measures 1.88377 1.12068 2.86696 Period Forecast 61 57.8102 62 57.3892 63 57.8332 64 57.9307 65 58.8311 66 62.7415 50 1 7 14 21 28 35 Index Smoothing Constants Alpha (level) 0.2 Gamma (trend) 0.2 Delta (seasonal) 0.2 42 49 56 63 MAPE 1.88377 MAD 1.12068 MSD 2.86696 350 14. Diseños de experimentos 351 Diseño de experimentos • Introducción • Diseños de experimentos 2K • Diseños de experimentos factoriales completos 352 Introducción 353 Diseño de experimentos factoriales • Es una prueba o serie de pruebas donde se inducen cambios deliberados en las variables de entrada de un proceso, para observar su influencia en la variable de salida o respuesta Entradas Salidas (Y) Proceso Entradas Salidas (Y) Diseño de Producto 354 y Número de niveles • En Dos Niveles nos permite considerar únicamente los efectos lineares. 1 2 2 Niveles y • En Tres Niveles hay la necesidad de ejecutar más pruebas, sin embargo, nos permite buscar la curvatura, es decir, los efectos cuadráticos. 1 2 3 3 Niveles 355 Pasos del DOE - generales • Establecer objetivos • Seleccionar variables del proceso • Seleccionar un diseño experimental • Ejecutar el diseño • Asegurar que los datos sean consistentes con los supuestos • Analizar e interpretar los resultados • Usar / presentar los resultados (pueden orientar a corridas futuras) 356 Pasos del DOE - detallado • Proceso en control, evaluar capacidad • Determinar CTQ objetivo a mejorar • Definir como medir la variable de respuesta • Determinar los factores de influencia • Determinar los niveles de experimentación 357 Pasos del DOE – detallado… • Seleccionar diseño experimental a utilizar • Verificar el error R&R del sistema de medición • Planear y asignar recursos a los experimentos • Realizar los experimentos • Medir las unidades experimentales 358 Pasos del DOE - detallado • De resultados identificar factores significativos • Determinar la mejor combinación de niveles de factores para lograr los objetivos • Correr un experimento de confirmación • Establecer controles para mantener la solución • Re evaluar la capacidad del proceso 359 Tipos de Experimentos Tipos Comunes de Experimentos 1. Factorial Completo (todas las combinaciones de factores y niveles) 2. Fraccional Factorial (subgrupo del número total de combinaciones) 3. Examen Objetivos Número Típico de Factores Controlables • Encontrar los niveles de 4 o menos factor que proporcionan los mejores resultados. • Construir un modelo matemático (evalúa todas las interacciones). • Encontrar los niveles de factor que proporcionan los mejores resultados. • Construir un modelo matemático (evalúa todas las interacciones). • Probar muchos factores para encntrar los pocos vitales. (no evalúa interacciones). 5 o más 7 o más 360 Tipos de Experimentos (continuación) Tipos Comunes de Experimentos 4. • Diseño Central Compuesto o Box-Behnken 5. Diseño Robusto 6. Diseño Robusto Dinámico de Taguchi (Función Ideal) Objetivos Número Típico de Factores Controlables • Optimizar • Construir un modelo matemático cuando no haya efectos lineales (Superficie de respuesta). • Optimizar • Para encontrar los niveles de factores a fin de reducir al mínimo la variación ante factores de ruido cambiantes. • Optimizar • Optimizar la función de un producto o proceso de manufactura. • Reducir al mínimo la sensibilidad al ruido y aumentar al máximo la sensibilidad a la señal de entrada. 3 o menos 5 o más 7 o más 361 Los Factores Pueden Afectar... 1. La Variación del Resultado Tiempo de Ciclo Largo Tiempo de Ciclo Corto Dimensión de la Parte 2. El Resultado Promedio Presión de Sujeción Baja Presión de Sujeción Alta Dimensión de la Parte 3. La Variación y el Promedio Temp Alta Temp Baja Dimensión de la Parte 4. Ni la Variación ni el Promedio Ambos materiales producen el mismo resultado Dimensión de la Parte 362 Estrategia cuando el “Valor Meta es Mejor” Paso 1: Encuentra los factores que afectan la variación. Usa estos factores para reducir al mínimo la variación. Paso 2: Encuentra los factores que desplazan el promedio (y no afectan la variación). Usa estos factores para ajustar la salida promedio con la meta deseada. Meta 363 Estrategia cuando el “Valor Mínimo es Mejor” Tendencia de salida baja 0 • El objetivo en este caso es encontrar los factores que afectan la salida promedio (tiempo). Usa estos factores para hacer que la tendencia del promedio sea baja. • Cuando se reduce la variación en la salida al mínimo, también se mejora la salida al detectar los factores que contribuyen en gran medida a la variación. 364 Diseños de experimentos 2K 365 Diseños factoriales de dos niveles El número de combinaciones de prueba para un factorial completo con factores k, cada uno en dos niveles es: k n2 Por lo tanto, a estos diseños se les conoce como diseños . k 2 366 Diseño factorial completo 2K ALTO ALTO Representación Gráfica B B ALTO BAJO BAJO BAJO BAJO A A Prueba A Representación Tabular 1 2 3 4 B + + + + ALTO BAJO Factor ALTO A C 1 2 3 4 5 6 7 8 + + + + B C + + + + + + + + 367 Diseño factorial completo 2K Niveles Bajo Alto Velocidad (seg.) 350 400 Tiempo 1min. 2min. Factores Todas las combinaciones Corrida 1: Corrida 2: Corrida 3: Corrida 4: Velocidad 350 350 400 400 Tiempo 1min. 2min. 1min. 2min. 368 Experimento factorial completo – sin interacción Un experimento factorial completo es un experimento donde se prueban todas las posibles combinaciones de los niveles de todos los factores. Factor A : Factor B : -1 +1 +1 30 52 -1 20 40 Y = Respuesta Efecto del factor A = (52+40)/2 - (30+20)/2 = 21 Efecto del factor B = (30+52)/2 - (20+40)/2 = 11 Efecto de A*B = (52+20)/2 – (30+40)/2 =1 B+1 B-1 A -1 +1 369 Experimento sin interacción B = +1 30 52 Respuesta Promedio B = -1 40 20 A = -1 A = +1 370 Experimento sin interacción Respuesta 52 40 30 20 A = -1 A = +1 371 Modelo de regresión lineal y b 0 b1 x1 b 2 x2 b12 x1 x2 bˆ (20 40 30 52) / 4 35.5 0 bˆ1 21/ 2 11 bˆ2 11/ 2 5.5 bˆ12 1/ 2 0.5 ˆ 35.5 10.5 x1 5.5 x2 0.5 x1 x2 y El coeficiente 0.5 es muy pequeño dado que no hay interacción 372 Gráfica de contornos Experimentos sin interacción 1 Dirección De ascenso rápido 49 46 40 .5 X2 34 0 -.5 28 22 -1 X1 -1 -.6 -.4 -.2 0.0 +.2 +.4 +.6 +.8 +1 373 Superficie de respuesta Experimentos sin interacción Y = respuesta Superficie de respuesta Gráfica del modelo de regresión X1 X2 Experimento factorial completo – con interacción Un experimento factorial completo es un experimento donde se prueban todas las posibles combinaciones de los niveles de todos los factores. Factor A : Factor B : -1 +1 +1 40 12 -1 20 50 Efecto de A*B = {(12+20)-(40+50)}/2 = -29 Y = Respuesta B+1 B-1 A -1 +1 375 Interacción de dos factores Sin interacción Interacción moderada Interacción fuerte Interacción fuerte Factoriales completos vs fraccionales 376 Experimento con interacción B = +1 40 12 Respuesta Promedio B = -1 50 20 A = -1 A = +1 377 Modelo de regresión lineal y b 0 b1 x1 b 2 x2 b12 x1 x2 bˆ (20 40 30 52) / 4 30.5 0 bˆ1 2 / 2 1 bˆ2 18 / 2 9 bˆ12 58 / 2 29 ˆ 30.5 1x1 9 x2 29 x1 x2 y El coeficiente -29 es muy grande representando la interacción 379 Dirección De ascenso rápido Gráfica de contornos 1 49 25 43 .5 40 X2 31 0 34 28 -.5 -1 X1 -1 -.6 -.4 -.2 0.0 +.2 +.4 +.6 +.8 +1 380 Superficie de respuesta Experimentos con interacción Superficie de respuesta Gráfica del modelo de regresión 381 Tabla ANOVA – Experimento de Tratamiento Térmico Origen DF SS Sec SS Aj MS Aj F P Temp 1 162.000 162.00 162.00 46.29 0.002 Tiempo 1 2.000 2.000 2.000 0.57 0.492 Temp* Tiempo 1 72.000 72.000 72.000 20.57 0.011 Error 4 14.000 Total 7 250.000 14.000 3.500 La Temperatura es significativa. El Tiempo, por sí solo, no es significativo. El Tiempo, en combinación con la Temperatura, es significativa. 382 Modelo de regresión 383 Gráficas factoriales de efectos principales e interacciones Main Effects Plot (data means) for Res Interaction Plot (data means) for Res -1 1 -1 1 90 A -1 1 86 90 84 82 A B Mean Res 88 85 80 -1 1 B 384 Gráficas de contornos y de superficie de respuesta Contour Plot of Res B 1 82.5 85.0 87.5 90.0 92.5 Surface Plot of Res 0 95 90 -1 Res -1 0 A 85 1 1 80 0 -1 A B -1 0 1 385 Ejemplo: En el diseño de una página Web se desea maximizar el número Y (miles) de visitas a la misma. Para lo cual se realiza un diseño de experimentos de tres factores con dos niveles y dos réplicas. Factor Nivel bajo Nivel Alto A. Colores 8 12 B. Intensidad 230 240 C. Velocidad de carga 0.6 1 Como respuesta se toma el nivel de visitas en una escala de 0 a 30 entre mayor sea mejor calidad 386 Paso 1. Generar diseño Stat > DOE > Factorial > Create Factorial Design Sel. 2-Level factorial (default generators); Number of factors 3 Designs: Seleccionar Full Factorial Replicates 2 Blocks 1 Factors: Colores 8 12 Intensidad 230 240 Velocidad 0.6 1 Options: Quitar bandera de Randomize runs OK Puede colocar la matriz del diseño en orden aleatorio o estándar con Stat > DOE > Display Design: Estándar order for design Para cambiar de unidades sin codificar a unidades codificadas: Stat > DOE > Display Design: Coded o Uncoded Units 387 Paso 2. Introducir los resultados experimentales: Run Order Colores Intensidad Velocidad 1 8 230 0.6 2 12 230 0.6 3 8 240 0.6 4 12 240 0.6 5 8 230 1 6 12 230 1 7 8 240 1 8 12 240 1 Y 10 26.5 15 17.5 11.5 26 17.5 20 8 28 13 19 10 25 19 18 388 Paso 3. Analizar el diseño Stat > DOE > Factorial > Analyze Factorial Design Response Y Graphs: Seleccionar Effects plots Normal Pareto Alpha = 0.05 Residual for Plots Standardized Seleccionar Normal Plot y Residuals vs Fits Results Seleccionar todos los términos con >> OK OK 389 Los resultados se muestran a continuación. Pareto Chart of the Standardized Effects (response is Y, Alpha = .05) 2.31 F actor A B C A N ame C olores Intensidad V elocidad AB Term AC C Normal Plot of the Standardized Effects BC (response is Y, Alpha = .05) 99 B Effect Type Not Significant Significant 95 ABC 2 4 6 8 10 12 Standardized Effect 14 16 18 80 Los factores e interacciones significativas pasan la raya roja Percent 0 70 60 50 40 30 AC 20 Normal Plot of the Standardized Effects (response is Y, Alpha = .05) 10 AB 5 99 Effect Ty pe Not Significant 1 Significant 95 A 90 80 Percent F actor A B C A 90 70 F actor A B C N ame C olores Intensidad V elocidad -10 -5 0 5 10 Standardized Effect 15 20 60 50 40 30 AC 20 10 AB 390 N ame C olores Intensidad V elocidad Los términos significativos tienen un P value <=0.05 Estimated Effects and Coefficients for Y (coded units) Term Effect Coef SE Coef T P 17.750 0.2932 60.55 0.000 9.500 4.750 0.2932 16.20 0.000 Intensidad -0.750 -0.375 0.2932 -1.28 0.237 Velocidad 1.250 0.625 0.2932 2.13 0.066 Colores*Intensidad -7.000 -3.500 0.2932 -11.94 0.000 Colores*Velocidad -1.750 -0.875 0.2932 -2.98 0.017 Intensidad*Velocidad 1.250 0.625 0.2932 2.13 0.066 Colores*Intensidad*Velocidad 0.000 0.000 0.2932 0.00 1.000 Constant Colores La ecuación de regresión con valores codificados es: Nivel_Serv = 17.75 + 4.75*Colores - 3.5*Colores*Intensidad - 0.875*Colores*velocidad 391 Las gráficas de los residuos se muestran a continuación: Normal Probability Plot (response is Y) 99 95 90 70 60 50 40 30 Versus Fits 20 (response is Y) 10 5 1 1.0 -3 -2 -1 0 1 Standardized Residual Standardized Residual Percent 80 2 0.5 3 0.0 -0.5 -1.0 -1.5 10.0 12.5 15.0 17.5 20.0 Fitted Value 22.5 25.0 27.5 El comportamiento de los residuos es normal, validando el modelo. 392 Los coeficientes son los siguientes: Estimated Coefficients for Y in uncoded units Term Constant Colores Intensidad Velocidad Colores*Intensidad Colores*Velocidad Intensidad*Velocidad Colores*Intensidad*Velocidad Coef -713.375 86.3750 2.92500 -121.875 -0.350000 -2.1875 0.62500 -0.000000 Y = -713.375 + 86.375 Colores - 0.35 Colores*Intensidad - 2.1875 Colores*Velocidad La ecuación incluye solo los términos que son significativos 393 Paso 4. Obtener las gráficas factoriales Stat > DOE > Factorial Plots Sel. Main Effects Plot: Setup: Response Y; Pasar factores con >> Sel. Interaction Plot: Setup: Response Y; Pasar factores con >> Sel. Cube Plot: SetUp >> Response Y; Pasar con >> OK Main Effects Plot for Y Data Means Colores Intensidad 22 20 18 16 Mean 14 8 12 230 240 Velocidad 22 20 18 16 14 0.6 1.0 394 Las interacciones significativas son A*B y A*C Los mejores niveles de operación son: A = 8, B = 230 y C = 0.6 Colores = 12 395 El cubo muestra las diferentes Y's - La mejor combinación es: Cube Plot (data means) for Y 18.25 19.00 14.00 18.25 240 Intensidad 10.75 25.50 1 9.00 27.25 8 12 230 Velocidad 0.6 Colores 396 Paso 5. Gráficas de contornos y de superficie de respuesta Stat > DOE > Contour / Surface Plots Sel. Contour Plot: Setup: Response Y; Sel. gener. plots for all pair of num. Factors Sel. Surface Plot: Setup: Resp. Y; Sel. gener. plots for all pair of num. Factors OK Contour Plots of Y 240 237 Intensidad*Colores 1.0 0.9 0.8 Velocidad*Colores Y < 10.0 – 12.5 – 15.0 – 10.0 12.5 15.0 17.5 397 Contour Plots of Y Intensidad*C olores 240 Velocidad*C olores 1.0 10.0 12.5 15.0 17.5 20.0 22.5 0.9 237 0.8 234 0.7 231 8 1.0 9 10 11 12 Velocidad*Intensidad 0.6 8 9 10 11 12 Y < – – – – – – > 10.0 12.5 15.0 17.5 20.0 22.5 25.0 25.0 Hold Values C olores 8 Intensidad 230 Velocidad 0.6 0.9 0.8 0.7 0.6 231 234 237 240 Las flechas muestran la dirección de experimentación futura para mejores resultados 398 Gráficas de superficie de respuesta 399 Paso 6. Ampliación de la respuesta en la zona de Y = 21 a 24 Stat > DOE > Factorial > Overlaid Contour Plot Seleccionar Response Y con > Seleccionar en Settings Hold Extra factors inProbar Low setting con High y Middle settings Seleccionar en Contours Low 21 High 26 Factors X:Axis A:Colores Y:Axis B:Intensidad OK 400 Contour Plot of Y 240.0 Y 21 24 238.5 Hold Values Velocidad 1 Intensidad 237.0 235.5 234.0 232.5 231.0 8 9 10 Colores 11 12 401 Paso 7. Obtener una respuesta optimizada Stat > DOE > Factorial > Response Optimizer Seleccionar en Response Y Seleccionar en Options :Colores 10 Intensidad 235 Velocidad 0.8 Seleccionar en Set up: Goal Maximize Lower 21 Target 26 OK 402 Sel.y mover las líneas de cada factor hasta obtener el máximo nivel de servicio: Optimal High D Cur 1.0000 Low Colores 12.0 [12.0] 8.0 Intensid 240.0 [230.0] 230.0 Velocida 1.0 [0.60] 0.60 Composite Desirability 1.0000 Y Maximum y = 27.2500 d = 1.0000 403 Diseños de experimentos Factoriales completos 404 Diseño de experimentos factoriales completos de tres niveles Se estudia el nivel de servicio de una sucursal (Y), donde se piensa que los factores que mayor influencia tienen son la velocidad y el tiempo de espera en filas. Se diseña un experimento factorial completo con dos réplicas y tres niveles en cada factor como se muestra en la tabla siguiente. Considerar un 5% de nivel de significancia o 95% de nivel de confianza. Velocidad (seg.) 150 160 170 Tiempo de espera en fila (seg.) 200 215 230 90.4 90.7 90.2 90.2 90.6 90.4 90.1 90.5 89.9 90.3 90.6 90.1 90.5 90.8 90.4 90.7 90.9 90.1 405 PASO 1. GENERAR EL DISEÑO FACTORIAL Stat > DOE > Factorial > Create Factorial Design seleccionar Type of Design: General Full Factorial Design Number of factors 2 Designs: Factor A Name Velocidad Factor B Name Tiempo Number of Replicates 2 Number of Levels 3 Number of Levels 3 Options Quitar bandera de randomize runs Factors Introducir los niveles para Velocidad 200 215 230 Tiempo 150 160 170 OK 406 PASO 2. CARGA DE DATOS DE LA COLUMNA DE RESPUESTA DESPUÉS DE GENERAR EL DISEÑO O ARREGLO StdOrder 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 PtType 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Blocks 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Copiar columna de datos Velocidad Tiempo Nivel_Serv 200 150 90.4 200 160 90.1 200 170 90.5 215 150 90.7 215 160 90.5 215 170 90.8 230 150 90.2 230 160 89.9 230 170 90.4 200 150 90.2 200 160 90.3 200 170 90.7 215 150 90.6 215 160 90.6 215 170 90.9 230 150 90.4 230 160 90.1 230 170 90.1 407 PASO 3. ANALIZAR EL DISEÑO DE EXPERIMENTOS Stat > DOE > Factorial > Analyze Factorial Design Response Seleccionar Nivel_Serv Terms Pasar todos los términos a Selected con >> OK Graphs Residuals for Plots Estandardized Seleccionar Residual plots: Normal y vs fits OK Results ANOVA table, Covariate, Unusual observations Seleccionar todos los términos con >> OK OK Cálculo de residuales Y(i,j) estimada= Promedio de valores en cada celda (i,j) Residuales o error e(i,j) = Y(i,j) real observada - Y (i,j) estimada 408 Los residuales versus Y estimada son aleatorios con media cero Versus Fits Standar dized Residual (response is N iv el_S erv ) 2 1 0 -1 -2 90.0 90.1 90.2 90.3 90.4 90.5 Fitted V alue 90.6 90.7 90.8 90.9 Normal Probability Plot (response is N iv el_S erv ) 99 P er cent 90 50 10 1 -3 -2 -1 0 Standar dized Residual 1 2 3 Los residuales se distribuyen normalmente (apego a la línea recta) 409 Multilevel Factorial Design Factors: 2 Replicates: 2 Base runs: 9 Total runs: 18 Base blocks: 1 Total blocks: 1 Number of levels: 3, 3 General Linear Model: Nivel_Serv vs Velocidad, Tiempo Factor Type Levels Values Temp fixed 3 200, 215, 230 Presion fixed 3 150, 160, 170 Analysis of Variance for Nivel_Serv, with Adjusted SS for Tests Significativos a nivel de 0.05 Source DF Seq SS Adj SS Adj MS F P Velocidad 2 0.76778 0.76778 0.38389 21.59 0.000 Tiempo 2 0.30111 0.30111 0.15056 8.47 0.009 Velocidad*Tiempo 4 0.06889 0.06889 0.01722 0.97 0.470 Error 9 0.16000 0.16000 0.01778 Total 17 1.29778 No significativo a nivel 0.05 S = 0.133333 R-Sq = 87.67% R-Sq(adj) = 76.71% 410 PASO 4. GRÁFICAS FACTORIALES PARA IDENTIFICAR LAS MEJORES CONDICIONES DE OPERACIÓN Determinados de promedios del Nivel_Serv en cada nivel de factores Least Squares Means for Rendimiento Temp 200 215 230 Presion 150 160 170 Temp*Presion 200 150 200 160 200 170 215 150 215 160 215 170 230 150 230 160 230 170 Mean 90.37 90.68 90.18 SE Mean 0.05443 0.05443 0.05443 90.42 90.25 90.57 0.05443 0.05443 0.05443 90.30 90.20 90.60 90.65 90.55 90.85 90.30 90.00 90.25 0.09428 0.09428 0.09428 0.09428 0.09428 0.09428 0.09428 0.09428 0.09428 411 PASO 5. GRÁFICAS FACTORIALES Stat > DOE > Factorial > Factorial Plots Seleccionar Main effects e Interaction Plots Setup para ambas: En Response seleccionar Nivel_Serv y con >> seleccionar todos los factores OK Seleccionar Data Means OK De aquí se seleccionan los mejores niveles de acuerdo al resultado deseado. Si la interacción es significativa, los mejores niveles se seleccionan de las gráficas de interacciones, de otra forma se seleccionan de las gráficas de efectos de los factores principales. 412 Main Effects Plot for Nivel_Serv Data Means Velocidad 90.7 Tiempo Mean 90.6 90.5 90.4 90.3 90.2 200 215 230 150 160 170 Para maximizar el nivel de servicio se seleccionan: Velocidad = 215 seg. Tiempo = 170 seg. 413 Interaction Plot for Nivel_Serv Data Means 90.9 Velocidad 200 215 230 90.8 90.7 Mean 90.6 90.5 90.4 90.3 90.2 90.1 90.0 150 160 Tiempo 170 Esta gráfica no es utilizada debido a que la interacción no fue significativa 414 15. Estudios de R&R Concordancia por atributos 415 Estudios de R&R – Concordancia por atributos • Introducción • Ejemplos 416 Análisis de concordancia por atributos Se usa para evaluar la concordancia de calificaciones nominales u ordinales dadas por diversos evaluadores. Las mediciones son evaluaciones subjetivas dadas por las personas más que mediciones directas. Por ejemplo: - Evaluación de desempeño de automoviles - Clasificación de calidad de fibras como "buena" o "mala" - Evaluación del color del vino, su aroma, y sabor en una escala del 1 al 10. En estas situaciones, las características de calidad son difíciles de definir y evaluar. Para obtener clasificaciones significativas, se utiliza más de un evaluador para clasificar la medición de la respuesta. Si los evaluadores concuerdan, existe la posibilidad de que las calificaciones sean exactas. Si no hay acuerdo, la utilidad de las calificaciones es limitada. 417 Por ejemplo: Una institución evaluadora está capacitando a cinco nuevos evaluadores de la parte escrita de una prueba. La habilidad de los evaluadores para calificar la prueba debe ser consistente con estándares. Cada evaluador califica quince reactivos en una escala de cinco puntos (-2, -1, 0, 1, 2) 1 File > Open Worksheet ESSAY.MTW. Appraiser Sample Rating Attribute Simpson 1 2 2 Montgomery 1 2 2 Holmes 1 2 2 Duncan 1 1 2 Hayes 1 2 2 Simpson 2 -1 -1 Montgomery 2 -1 -1 Holmes 2 -1 -1 Duncan 2 -2 -1 Etc. Etc. Etc. Etc. 418 2 3 4 5 6 7 Stat > Quality Tools > Attribute Agreement Analysis. En Attribute column, seleccionar Rating . En Samples, seleccionar Sample . En Appraisers, seleccionar Appraiser . En Known standard/attribute, seleccionar Attribute . Seleccionar Categories of the attribute data are ordered y click OK. 419 Los resultados son los siguientes: Results for: Essay.MTW Attribute Agreement Analysis for Rating Each Appraiser vs Standard Assessment Agreement Appraiser # Inspected # Matched Percent 95 % CI Duncan 15 8 53.33 (26.59, 78.73) Hayes 15 13 86.67 (59.54, 98.34) Holmes 15 15 100.00 (81.90, 100.00) Montgomery 15 15 100.00 (81.90, 100.00) Simpson 15 14 93.33 (68.05, 99.83) 420 Kendall's Correlation Coefficient Appraiser Coef SE Coef Z Duncan 0.87506 0.192450 4.49744 Hayes 0.94871 0.192450 4.88016 Holmes 1.00000 0.192450 5.14667 Montgomery 1.00000 0.192450 5.14667 Simpson 0.96629 0.192450 4.97151 Between Appraisers Assessment Agreement # Inspected # Matched 15 6 Percent 40.00 P 0.0000 0.0000 0.0000 0.0000 0.0000 95 % CI (16.34, 67.71) 421 Date of study: Reported by: Name of product: Misc: Assessment Agreement Appraiser vs Standard 100 95.0% C I P ercent Percent 80 60 40 20 0 Duncan Hayes Holmes Appraiser Montgomery Simpson 422 Interpretación: Se muestran tres tablas de concordancia: Cada evaluador contra el Estándar, entre evaluadores, y todos los evaluadores contra el estándar. Se incluyen las estadísticas de Kappa y Kendall en cada una. En general los estadísticos sugieren un buen acuerdo. El coeficiente de Kendall entre evaluadores es 0.966317 (p=0.0000). El coeficiente de Kendall para todos los evaluadores contra el estándar es 0.958012 (p=0.0000). La tabla de cada evaluador contra el estándar indica que Duncan y Hayes tienen baja concordancia contra estándar, Holmes y Montgomery concor. en 15 de 15. La gráfica de evaluadores contra el estándar proporciona una vista de la tabla de concordancias de cada uno de los evaluadores contra el estándar. Con base en esto, Duncan, Hayes y Simpson requieren capaciación adicional. 423 Concordancia por Atributos Ejemplo: comparación pasa no pasa 1. Selecciona un mínimo de 20 unidades del proceso. Estas unidades deben representar el espectro completo de la variación del proceso (buenas, erróneas y en límites). 2. Un inspector “experto” realiza una evaluación de cada parte, clasificándola como “Buena” o “No Buena”. 3. Cada persona evaluará las unidades, independientemente y en orden aleatorio, y las definirá como “Buenas” o “No Buenas”. 424 GR&R por Atributos - Ejemplo Legenda de Atributos G =Bueno NG = No Bueno Población Conocida Muestra # Atributo 1 G 2 G 3 G 4 G 5 G 6 G 7 G 8 G 9 NG 10 NG 11 G 12 G 13 NG 14 G 15 G 16 G 17 NG 18 G 19 G 20 G % DEL EVALUADOR COND. DE PRUEBA: Acuerdo Persona #1 #1 G G G G G NG G G G NG G G NG G G G NG G G G (1) % VS. EL ATRIBUTO #2 G G G G G G G G G NG G G NG G G G NG G G G -> (2) -> G G G G G G G G NG G G G NG G G G NG G G G G G G G G G G G NG G G G NG G G G NG G G G 95.00% 100.00% 90.00% 95.00% Y Y Y Y Y N Y Y N N Y Y Y Y Y Y Y Y Y Y Y=Sí N=No Y Y Y Y Y N Y Y N N Y Y Y Y Y Y Y Y Y Y Esta es la medida general de consistencia entre los operadores y el “experto”. ¡90% es lo mínimo! (3) % DE EFECTIVIDAD DE DISCRIMINACION -> 85.00% (4) % DE EFECTIVIDAD DE DISCRIMINACION VS. EL ATRIBUTO -> 85.00% 425 Datos en Minitab Muestra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Atributo G G G G G G G G NG NG G G NG G G G NG G G G Persona 1A G G G G G NG G G G NG G G NG G G G NG G G G Persona 1B G G G G G G G G G NG G G NG G G G NG G G G Persona 2A G G G G G G G G NG G G G NG G G G NG G G G Persona 2B G G G G G G G G NG G G G NG G G G NG G G G 426 Instrucciones de Minitab: 1 Stat > Quality Tools > Attribute Agreement Analysis. 2 En Multiple columns, seleccionar Spersona 1A - Persona 2B 3 En Number of Appraisers, 2 4 En Number of Trials, 2 5 En Known standard/attribute, seleccionar Atributo 6 En Graphs seleccionar todo Click OK. 427 Los resultados se muestran a continuación: Attribute Agreement Analysis for Persona 1A, Persona 1B, Persona 2A, Persona 2B Within Appraisers Assessment Agreement Appraiser # Inspected # Matched Percent 95 % CI 1 20 19 95.00 (75.13, 99.87) 2 20 20 100.00 (86.09, 100.00) # Matched: Appraiser agrees with him/herself across trials. Fleiss' Kappa Statistics Appraiser Response Kappa SE Kappa Z P(vs > 0) 1 G 0.82684 0.223607 3.69774 0.0001 NG 0.82684 0.223607 3.69774 0.0001 2 G 1.00000 0.223607 4.47214 0.0000 NG 1.00000 0.223607 4.47214 0.0000 Each Appraiser vs Standard Assessment Agreement Appraiser # Inspected # Matched Percent 95 % CI 1 20 18 90.00 (68.30, 98.77) 2 20 19 95.00 (75.13, 99.87) 428 Between Appraisers Assessment Agreement # Inspected # Matched Percent 95 % CI 20 17 85.00 (62.11, 96.79) # Matched: All appraisers' assessments agree with each other. Fleiss' Kappa Statistics Response Kappa SE Kappa G 0.663222 0.0912871 NG 0.663222 0.0912871 Z 7.26524 7.26524 P(vs > 0) 0.0000 0.0000 All Appraisers vs Standard Assessment Agreement # Inspected # Matched Percent 95 % CI 20 17 85.00 (62.11, 96.79) # Matched: All appraisers' assessments agree with the known standard. Fleiss' Kappa Statistics Response Kappa SE Kappa Z P(vs > 0) G 0.792005 0.111803 7.08391 0.0000 NG 0.792005 0.111803 7.08391 0.0000 429 Interpretación de Resultados • % del Evaluador es la consistencia de una persona. • % Evaluador vs Atributo es el acuerdo entre la evaluación del operador y la del “experto”. • % de Efectividad de Selección es el acuerdo que existe entre los operadores. • % de Efectividad de Selección vs. el Atributo medida general de la consistencia entre los operadores y el acuerdo con el “experto”. 431 Estudio de Repetibilidad y Reproducibilidad de Atributos - Guías de Aceptabilidad Porcentaje De 90% a 100% Guía Aceptable De 80% a 90% Marginal Menos de 80% Inaceptable 432 16. Capacidad de procesos por atributos 433 Estudios de capacidad por atributos • Introducción • Capacidad de procesos con distribución binomial • Capacidad de procesos con distribución de Poisson 434 Estudios de capacidad por atributos Distribución binomial Se usa este tipo de estudio de capacidad de proceso cuando los datos provienen de una distribución binomial de número de defectivos entre Un total de elementos totales. Se utiliza esta distribución si los datos cumplen las condiciones siguientes: • Cada elemento es resultado de condiciones idénticas • Cada elemento puede resultar en dos resultados posibles (falla/no falla) • La probabilidad de éxito o falla es constante para cada elemento • Los resultados de los elementos son independientes unos de otros 435 Estudios de capacidad por atributos Distribución binomial Se obtienen los resultados siguientes: • Carta de control P para verificar que el proceso esté en control • Carta de % defectivo acumulado, verifica que la cantidad de muestras es suficiente para tener un estimado estable del % defectivo • Histograma de % defectivo, muestra la distribución de los defectivos de las muestras colectadas • Gráfica de tasa de defectivos, verifica que el porcentaje de defectivos no es influenciada por los tamaños de muestra colectados 436 Suponga que se evalúa la responsabilidad del área de ventas telefónicas de la empresa. Se registran las llamadas no contestadas por los representantes de Ventas durante los últimos 20 días. Así como el total de llamadas : Unavail Instrucciones de Minitab: 1. File > Open worksheet > BPCAPA.MTW 2. Stat > Quality tools > Capability analysis > Binomial 1. Defectives Unavailable Use sizes in Calls 2. OK Date able Calls 8/5/96 432 1908 8/6/96 392 1912 8/7/96 497 1934 8/8/96 459 1889 8/9/96 433 1922 Etc. Etc. Etc. 437 Binomial Process Capability Analysis of Unavailable P C har t Rate of Defectives 1 26 U C L=0.25552 0.24 % Defective P r opor tion 0.26 _ P =0.22643 0.22 0.20 LC L=0.19733 1 3 5 7 9 11 13 Sample La p acumulada Tiende al 22%. 15 17 24 Z de 0.75 es un valor muy bajo 22 20 19 1840 1920 2000 Sample Size Tests performed w ith unequal sample sizes C umulative % Defective H istogr am Tar 8 S ummary S tats 23.5 23.0 22.5 22.0 21.5 5 Test TEST from Test 10 Sample 15 20 % Defectiv e: Low er C I: U pper C I: Target: P P M Def: Low er C I: 22.64 22.22 23.07 0.00 226427 222241 U pper C I: P rocess Z: Low er C I: U pper C I: 230654 0.7507 0.7367 0.7646 Fr equency % Defective (95.0% confidence) El proceso requiere mucha mejora 6 4 Process Z = - nomsinv(Pprom) 2 0 0 4 8 12 16 20 % Defective 24 Results for P Chart of Unavailable 1. One point more than 3.00 standard deviations center line. Failed at points: 3 438 Estudios de capacidad por atributos Distribución de Poisson Se usa este tipo de estudio de capacidad de proceso cuando los datos provienen de una distribución de Poisson del número de defectos por unidad de inspección (cuyo tamaño puede variar). Se utiliza esta distribución si los datos cumplen las condiciones siguientes: • La tasa de defectos por unidad de espacio o tiempo es la misma en cada Elemento • El número de defectos observados en las unidades de inspección son independientes unos de otros 439 Estudios de capacidad por atributos Distribución de Poisson Se obtienen los resultados siguientes: • Carta de control U para verificar que el proceso esté en control • Carta de media acumulada de Defectos por Unidad (DPU) verifica que la cantidad de muestras es suficiente para tener un estimado estable de la media • Histograma de DPU, muestra la distribución de los defectos por unidad de las muestras colectadas • Gráfica de tasa de defectos (con subgrupos variables) verifica que el DPU no es influenciada por los tamaños de muestra colectados 440 Suponga que se evalúa la efectividad del proceso de asilamiento en un cable. Se toman muestras de cable de longitudes aleatorias donde se prueban con alto voltaje para encontrar debilidades de aislamiento. Se registran los defectos y la longitud de la muestra: Instrucciones de Minitab: 1. File > Open worksheet > BPCAPA.MTW 2. Stat > Quality tools > Capability analysis > Binomial 1. Defects Week spots Use sizes in Lenght OK Weak Spots Length 2 132 4 130 3 120 1 124 2 138 5 148 Etc. Etc. 441 U C har t Defect Rate 1 0.075 0.075 U C L=0.06904 0.050 DP U Sample C ount P er Unit Poisson Capability Analysis of Weak Spots _ U =0.02652 0.025 0.000 LC L=0 1 11 21 31 41 51 61 Sample 71 81 0.050 0.025 0.000 100 91 120 140 Sample Size La DPU acumulada tiende a 0.0265 Tests performed w ith unequal sample sizes C umulative DP U H istogr am S ummary S tats 0.030 (95.0% confidence) 0.020 0.015 0 20 40 60 Sample 80 100 0.0265 0.0237 0.0295 0.0000 0.0753 0.0000 16 Fr equency M ean D P U : Low er C I: U pper C I: M in D P U : M ax D P U : Targ D P U : 0.025 DP U Tar 12 8 4 0 0. La tasa de DPU no parece ser afectado por la Longitud de cable tomado 0 0 .01 .02 .03 .04 .05 .06 .07 0 0 0 0 0 0 0 DP U Poisson Capability Analysis of Weak Spots Test Results for U Chart of Weak Spots TEST 1. One point more than 3.00 standard deviations from center line. Test Failed at points: 36 442 17. Capacidad de procesos 443 Capacidad de procesos • Procesos normales • Procesos no normales 444 Capacidad de procesos normales 445 Capacidad de procesos normales 446 Prueba de normalidad Es una prueba de hipótesis de una población para determinar si la muestra se extrae de una población normal, que es la hipótesis nula. La hipótesis alterna es que no es normal. Se puede hacer por diversos métodos: 1. Método gráfico Se trata de probar la flamabilidad de una fibra y ver si sigue una distribución normal, además se quiere observar su valor en el percentll 87avo. 1 2 3 4 5 6 File > Open worksheet FLAMERTD.MTW. Graph > Probability Plot. Seleccionar Single, click OK. En Graph variables,seleccionar Fabric . Click Scale, y click el Percentile Lines . En Show percentile lines at Y values, teclear 87 . Click OK en cada cuadro de diálogo. 447 Probability Plot of Fabric Normal - 95% CI 99 95 90 87 Mean StDev N AD P-Value 3.573 0.5700 15 0.310 0.517 Percent 80 70 60 50 40 30 20 10 1 4.215 5 2 3 4 Fabric 5 6 Los puntos no salen del intervalo de confianza del 95% y el P value es menor de 0.05 por tanto los datos de la muestra siguen una distribución normal. El IC del 87% se encuentra entre los valores 3.84295 y 4.58790 448 Los resultados se muestran a continuación Process Capability of Supp2 LSL Media Desviación estándar USL Within Ov erall P rocess D ata LS L 596 Target * USL 604 S ample M ean 600.23 S ample N 100 S tD ev (Within) 1.70499 S tD ev (O v erall) 1.87388 P otential (Within) C apability Cp 0.78 C P L 0.83 C P U 0.74 C pk 0.74 O v erall C apability Pp PPL PPU P pk C pm 597.0 O bserv ed P erformance % < LS L 0.00 % > U S L 2.00 % Total 2.00 598.5 E xp. Within P erformance % < LS L 0.66 % > U S L 1.35 % Total 2.01 600.0 601.5 603.0 604.5 0.71 0.75 0.67 0.67 * Índice de capacidad potencial (Cp) y real del proceso (Cpk) deben ser mayores a 1.33 para que el proceso sea capaz E xp. O v erall P erformance % < LS L 1.20 % > U S L 2.21 % Total 3.41 Fracción defectiva fuera de especificaciones debe ser menor a 3.4 ppm (0.000 34 %) 453 Capacidad de procesos No normales 454 Capacidad de procesos para variables no normales Transformación de Box Cox Transformación de Box Cox (para datos agrupados en subgrupos de tamaño n >1 y con valor positivo), identifica la potencia lamda a la que hay que elevar los datos para que sigan una distribución normal. Ejemplo: Se mide la torcedura que tienen los ladrillos en un horno, los datos están en el archivo TILES.MTW. Se miden 10 ladrillos diarios por 10 días. 455 Etcetera.. Graph > Histogram > Simple Variable Warping Histogram of Warping 14 12 10 Frequency Warping 1.60103 0.84326 3.00679 1.29923 2.24237 2.63579 0.34093 6.96534 3.46645 1.41079 8 6 4 2 0 1 2 3 4 Warping 5 6 7 8 Se observa una distribución no normal 456 Haciendo una prueba de normalidad con: Stat > Basic statistics > Normality test Variable Warping Anderson Darling Probability Plot of Warping Normal 99.9 Mean StDev N AD P-Value 99 Percent 95 90 2.923 1.786 100 1.028 0.010 80 70 60 50 40 30 20 10 5 1 0.1 -4 -2 0 2 4 Warping 6 8 10 Se obtiene un valor P de 0.01 indicando que los datos no son normales. 457 Ahora se transforman los datos por el método de Box Cox: 1 File > Open worksheet TILES.MTW. 2 Seleccionar Stat > Control Charts > Box-Cox Transformation. 3 En Single column, seleccionar Warping . En Subgroup size, 5 . Click OK. Box-Cox Plot of Warping Lower C L 40 Upper C L Lambda (using 95.0% confidence) StDev 30 Estimate 0.39 Lower C L Upper C L 0.17 0.64 Rounded Value 0.50 20 10 Limit 0 -2 -1 0 1 2 Lambda 3 4 5 458 La tabla de Lambda contiene su valor estimado de 0.50, con un intervalo de confianza de (0.17 a 0.64) . Este intervalo contiene valores lamda que se encuentran dentro más menos una sigma de la línea horizontal, de modo que se puede tomar cualquier valor en el intervalo. Si lamda es cero, tomar el logaritmo natural de los datos En este caso el exponente al que hay que elevar los datos es 0.5 o sacar raíz cuadrada. El análisis con la transformación de raíz cuadrada de los datos es: 1 Stat > Quality tools > Capability analysis > Normal 2 Single column - Warping Subgroup size - 5 Lower spec 0 Upper Spec 8 3 Seleccionar Box-Cox > Box-Cox power transformation (W = Y**Lambda). Sel. Lambda = 0.5 (raíz cuadrada). 4 En Estimate, seleccionar R-Bar y sel. Use unbiased constants to calculate overall std. Dev. 459 Process Capability of Warping Using Box-Cox Transformation With Lambda = 0.5 LS L* U S L* transformed data P rocess Data LS L 0 Target * USL 8 S ample M ean 2.92307 S ample N 100 S tDev (Within) 1.75501 S tDev (O v erall) 1.79048 Within O v erall P otential (Within) C apability Cp 0.89 C P L 1.02 C P U 0.76 C pk 0.76 O v erall C apability A fter Transformation LS L* Target* U S L* S ample M ean* S tDev (Within)* S tDev (O v erall)* Pp PPL PPU P pk C pm 0 * 2.82843 1.62374 0.529153 0.539344 0.0 O bserv ed P erformance P P M < LS L 0.00 P P M > U S L 20000.00 P P M Total 20000.00 0.4 0.8 E xp. Within P erformance P P M < LS L* 1075.45 P P M > U S L* 11404.16 P P M Total 12479.61 1.2 1.6 2.0 2.4 0.87 1.00 0.74 0.74 * 2.8 E xp. O v erall P erformance P P M < LS L* 1303.73 P P M > U S L* 12754.26 P P M Total 14057.99 460 Interpretación: Un Cpk de 0.76 indica que el proceso no es capaz de cumplir especificaciones del cliente (0 a 8), debería ser > = 1.33 Considerando el Ppk de 0.74, también dista mucho del valor requerido de 1.33 mínimo. 461 Transformación de Jonhson (para n>= 1) alterno a Box Cox Para datos no normales, esta transformación selecciona una función de tres familias de distribuciones de una variable, que son fácilmente transformadas a una distribución normal. Las distribuciones son Sb, Sl y Su, donde B, L y U se refieren a la variable que se acota, lognormal y no acotada. Minitab muestra los valores P para las distribuciones original y transformada para comparación. No siempre es posible encontrar la función óptima. 462 Para el ejemplo de los ladrillos: 1 File > Open worksheet TILES.MTW. 2 Seleccionar Stat > Quality Tools > Johnson Transformation. 3 En Data are arranged as, seleccionar Single column; seleccionar Warping. 4 En Store transformed data in, seleccionar Single column; C2 . 5 Click Options. En P-Value to select best fit, poner 0.05. Click OK en cada cuadro de diálogo. 463 Johnson Transformation for Warping 99.9 N 100 AD 1.028 P-Value 0.010 99 Percent 90 50 10 1 0.1 -5 0 5 Select a T r ansfor mation P-Value for A D test P r obability P lot for O r iginal Data 0.6 0.8 0.6 0.4 0.2 0.0 Ref P 0.8 Z Value (P-Value = 0.005 means <= 0.005) 10 0.2 0.4 0.6 1.0 1.2 P r obability P lot for T r ansfor med Data 99.9 N 100 AD 0.231 P-Value 0.799 99 Percent 90 50 P -V alue for Best F it: 0.798895 Z for Best F it: 0.6 Best Transformation Ty pe: S B Transformation function equals 0.882908 + 0.987049 * Ln( ( X + 0.132606 ) / ( 9.31101 - X ) ) 10 1 0.1 -2 0 2 4 464 Interpretación: Los datos originales no siguen una distribución normal: P = 0.01 Los datos transformados siguen una distribución normal: P = 0.799 La gráfica de dispersión de P vs Z indica que sobre el rango de 0.25 a 1.25 la función que mejor ajusta es la de Z = 0.6. La tabla muestra el estimado de los parámetros para la transf. Selec. y sus valores corresp. P y Z. La función de transformación es: Y = 0.882908 + 0.987049*ln((X+0.132606)/(9.31101-X)) On X LIE = 0 y X LSE = 8 se tiene: LIE trans = -3.3136 LSE Trans = 2.684355 465 La capacidad del proceso con la columna C2 y estos límites es: 1 File > Open worksheet > TILES.MTW 2 Selecc. Stat > Quality Tools > Capability Analysis > Normal. 3 En Data arranged as Single column, poner Warping , en Subgroup size, 1 4 En Estimate, seleccionar using moving range lenght n = 2 y sel. Use unbiased constants to calculate overall std. Dev. 5 En Lower spec, poner -3.3136. En Upper spec, poner 2.68435 Click OK en cada cuadro de diálogo La gráfica resultante se muestra a continuación: 466 Process Capability of C2 LSL USL P rocess D ata LS L -3.3136 Target * USL 2.68436 S ample M ean 0.011196 S ample N 100 S tD ev (Within) 0.941167 S tD ev (O v erall) 0.997462 W ithin Ov erall P otential (Within) C apability Cp 1.06 C PL 1.18 C P U 0.95 C pk 0.95 O v erall C apability Pp PPL PPU P pk C pm -3 O bserv ed P erformance P P M < LS L 0.00 P P M > U S L 20000.00 P P M Total 20000.00 -2 E xp. Within P erformance P P M < LS L 205.72 P P M > U S L 2253.83 P P M Total 2459.55 -1 0 1 2 1.00 1.11 0.89 0.89 * 3 E xp. O v erall P erformance P P M < LS L 429.18 P P M > U S L 3681.55 P P M Total 4110.73 El Cpk es un poco mayor que con el método de Box Cox 467 Identificación de la función que mejor ajuste los datos Se puede identificar una funcion de entre 14 tipos parametricos: Por ejemplo para el caso de los ladrillos: 1 File > Open worksheet > TILES.MTW. 2 Stat > Quality Tools > Individual Distribution Identification. 3 En Data are arranged as, sel. Single column, Warping . Subgroup size: 1 4 Seleccionar Use all distributions. Click OK. 468 Box-Cox transformation: Lambda = 0.5 Johnson transformation function: 0.882908 + 0.987049 * Ln( ( X + 0.132606 ) / ( 9.31101 - X ) ) Goodness of Fit Test Distribution Normal Box-Cox Transformation Lognormal 3-Parameter Lognormal Exponential 2-Parameter Exponential Weibull 3-Parameter Weibull Smallest Extreme Value Largest Extreme Value Gamma 3-Parameter Gamma Logistic Loglogistic 3-Parameter Loglogistic Johnson Transformation AD 1.028 0.301 1.477 0.523 5.982 3.892 0.248 0.359 3.410 0.504 0.489 0.547 0.879 1.239 0.692 0.231 P 0.010 0.574 <0.005 * <0.003 <0.010 >0.250 0.467 <0.010 0.213 0.238 * 0.013 <0.005 * 0.799 LRT P 0.007 0.000 0.225 0.763 0.085 469 Cuando varias distribuciones ajustan los datos, hacer lo siguiente: Seleccionar la distribucion con el valor mas alto de P, o que se ha usado antes con estos datos o la que de la capacidad de proceso más conservadora. En este caso las distribuciones de Weibull, Weibull 3 parametros y Máximo valor extremo ajustan bien a los datos (P=>0.25, 0.467 y 0.238) Las transformaciones de Box Cox y Johnson también proporcionan un buen ajuste a los datos (P = 0.799 y 0.574). Use la prueba de razón de verosimilitud (LSR) para comparar si las distribuciones de 3 parámetros, ajustan mejor que las de 2 parámetros Si la LRT P es mayor a 0.05 si ajustan mejor en otro caso son iguales. En este caso específico la distribución Weibull de dos parámetros tiene el mismo ajuste que la de tres parámetros (LRT = 0.225) 470 A continuación se identificar los parámetros de la distribución Weibull: ML estimates of distribution Parameters Distribution Location Shape Scale Normal* 2.92307 1.78597 Box-Cox Transformation* 1.62374 0.53798 Lognormal* 0.84429 0.74444 3-Parameter Lognormal 1.37877 0.41843 Exponential 2.92307 2-Parameter Exponential 2.66788 Weibull 1.69368 3.27812 3-Parameter Weibull 1.50491 2.99693 Smallest Extreme Value 3.86413 1.99241 Largest Extreme Value 2.09575 1.41965 Gamma 2.34280 1.24768 3-Parameter Gamma 2.12768 1.33208 Logistic 2.79590 1.01616 Loglogistic 0.90969 0.42168 3-Parameter Loglogistic 1.30433 0.26997 Johnson Transformation* 0.01120 0.99495 Threshold -1.40015 0.25518 0.20988 0.08883 -1.09399 471 Probability Plot for Warping 2-P arameter E xponential - 95% C I 99.9 99.9 90 90 50 50 P er cent P er cent E xponential - 95% C I 10 1 0.1 0.001 0.100 1.000 0.1 0.001 10.000 100.000 Weibull - 95% C I 0.010 0.100 1.000 10.000 War ping - T hr eshold 3-P arameter Weibull - 95% C I 99.9 99.9 90 90 50 50 P er cent P er cent 2-P arameter E xponential A D = 3.892 P -V alue < 0.010 10 War ping 10 1 0.1 0.01 E xponential A D = 5.982 P -V alue < 0.003 1 0.010 G oodness of F it Test Weibull A D = 0.248 P -V alue > 0.250 3-P arameter Weibull A D = 0.359 P -V alue = 0.467 10 1 0.10 1.00 War ping 10.00 0.1 0.1 1.0 10.0 War ping - T hr eshold Por lo anterior se seleccionar la Distribución de Weibull de dos parámetros para el análisis de capacidad con datos no normales Shape = 1.69368 y Scale = 3.27812 472 Método de Weibull - para distribuciones sesgadas a la derecha Se calcula ahora la capacidad del proceso con distr. Weibull: 1 File > Open worksheet > TILES.MTW. 2 Stat > Quality Tools > Capability Analysis > Nonnormal. 3 En Data are arranged as, seleccionar Single column, seleccionar Warping. 4 En Fit data with, seleccionar Distribution, seleccionar Weibull. 5 En Lower spec 0, Upper spec, poner 8 . 6 En Estimate Seleccionar Estimate parameters of distribution Click OK. 473 Se pueden utilizar otras distribuciones que mejor ajusten a los datos Process Capability of Warping Calculations Based on Weibull Distribution Model LSL USL P rocess D ata LS L 0 Target * USL 8 S ample M ean 2.92307 S ample N 100 S hape 1.69368 S cale 3.27812 O v erall C apability Pp 0.81 PPL 1.03 PPU 0.73 P pk 0.73 E xp. O v erall P erformance P P M < LS L 0.00 P P M > U S L 10764.54 P P M Total 10764.54 O bserv ed P erformance P P M < LS L 0.00 P P M > U S L 20000.00 P P M Total 20000.00 0.0 1.5 3.0 4.5 6.0 7.5 Interpretación: El Ppk es igual a 0.73, el proceso dista mucho de estar por arriba de la referencia de 1.33 474 18. Cartas de control ponderadas en el tiempo 475 Cartas de control ponderadas en el tiempo • Carta de sumas acumuladas • Carta EWMA • Carta de promedio móvil 476 Cartas de control especiales Carta de sumas acumuladas (CuSum) Se usa para registrar al centro del proceso.Se corre en tándem (una tras otra) Es más sensible que la gráfica X al movimiento de los pequeños cambios sostenidos en la media del proceso y al movimiento de separación gradual de la media del proceso. Es menos sensible que la gráfica X a un desplazamiento grande del centro del proceso. Se puede aplicar a las X medias o a las Xs individuales 477 Sus parámetros clásicos son h = 4; k = 0.5 Son más eficientes que las cartas de Shewhart para detectar pequeños corrimientos en la media del proceso (2 sigmas o menos) Para crear la carta Cusum se colectan m subgrupos de muestras, c/u de tamaño n y se calcula la media de cada muestra Xi-media. Después se determina Sm o S’m como sigue: m Sm ( X i 0 )...0 media.en.control.estimada i 1 Sm ' 1 X m (X i 1 i 0 )... X desv.es tan dar.de.las.medias 478 Ejemplo: Variaciones de una flecha respecto a una línea de referencia, los datos se encuentran en el archivo CRANKSH.MTW anexo. Carta X media Stat > Control Charts > Variables Charts for Subgroups > Xbar Seleccionar All observations for a chart are in one column, seleccionar AtoBDist En Subgroup sizes, poner 5 . AtoBDist OK -0.44025 Xbar Chart of AtoBDist 5 UCL=4.700 4 Sample Mean 3 2 1 _ _ X=0.442 0 5.90038 2.08965 0.09998 2.01594 Etc. No se observa que el proceso tenga corrimiento o esté fuera de control -1 -2 -3 LCL=-3.817 -4 1 3 5 7 9 11 13 15 Sample 17 19 21 23 25 479 Carta de Sumas acumuladas con Límites Superior e inferior Stat > Control Charts > Time Weighted Charts > Cusum Seleccionar All observations for a chart are in one column, seleccionar AtoBDist En Subgroup sizes, poner 5 . Target 0.0 OK CUSUM Chart of AtoBDist 10.0 Cumulative Sum 7.5 UCL=5.68 5.0 Los puntos 4-10 estan fuera de límite superior de control, el proceso está fuera de control 2.5 0 0.0 -2.5 -5.0 LCL=-5.68 2 4 6 8 10 12 14 Sample 16 18 20 22 Se tienen corridas por arriba del límite superior de control, no visibles en la carta X media anterior 24 Test Results for CUSUM Chart of AtoBDist TEST. One point beyond control limits. Test Failed at points: 4, 5, 6, 7, 8, 9, 10 480 Carta EWMA de promedios móviles ponderados exponencialmente Monitorea un proceso promediando los datos de tal forma que les da cada vez menos peso conforme son removidos en el tiempo. Tiene sensibilidad similar a la de la Cusum Es más sensible que la carta X media a la separación gradual de la media del proceso. Instrucciones de Minitab: Stat > Control Charts > Time Weighted Charts > EWMA Seleccionar All observations for a chart are in one column, seleccionar AtoBDist En Subgroup sizes, poner 5 . Weight of EWMA 0.2 OK 481 EWMA Chart of AtoBDist 2.0 UCL=1.861 1.5 EWMA 1.0 _ _ X=0.442 0.5 0.0 -0.5 LCL=-0.978 -1.0 1 3 5 7 9 11 13 15 Sample 17 19 21 23 25 Test Results for EWMA Chart of AtoBDist TEST. One point beyond control limits. Test Failed at points: 5, 6 482 Carta de promedios móviles Tiene una sensibilidad intermedia entre las cartas X-R y la Cusum y EWMA Stat > Control Charts > Time Weighted Charts > Moving average Seleccionar All observations for a chart are in one column, seleccionar AtoBDist En Subgroup sizes, poner 5 . Lenght of MA 3 OK 483 Moving Average Chart of AtoBDist 5 4 Moving Average 3 UCL=2.900 2 1 _ _ X=0.442 0 -1 -2 LCL=-2.017 -3 -4 1 3 5 7 9 11 13 15 Sample 17 19 21 23 25 TEST. One point beyond control limits. Test Failed at points: 5, 6 484