1 UNIVERSIDAD CENTRAL DE VENEZUELA ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES CÁTEDRA: CONTROL ESTADÍSTICO DE CALIDAD PROFESORA: MARIELA FERMÍN BOOY Tema 2: Tecnicas para mejorar la calidad . Clases 3, 4 y 5 La estadística juega un papel determinante en el mejoramiento y control de la calidad. La estadística descriptiva es útil para resumir la información de los datos muestrales y la inferencia estadística permite sacar conclusiones a partir de una muestra acerca de la población de dónde proviene la muestra. En este tema nos referiremos exclusivamente a métodos descriptivos, en posteriores capítulos estaremos abordando la estadística inferencial para el control estadístico de procesos y el muestreo de aceptación. El diagrama de tallos y hojas El diagrama de tallos y hojas (steam and leaf display) es un dispositivo gráfico similar al histograma, que aporta mayor información que éste, ya que sustituye las barras por los datos mismos. Para su construcción se procede de la siguiente manera: 1. Se ordenan los datos de menor a mayor. 2. Cada valor observado es dividido en dos componentes: los dígitos iniciales (tallo) y los dígitos restantes (hoja). Esta separación debe ser tal que permita destacar las diferencias entre los datos. 3. En una primera columna se colocan los tallos; cada tallo puede ocupar una o más filas. A la derecha de cada tallo se representa una fila que contiene las hojas correspondientes. 4. A la izquierda de los tallos se agrega una columna que contiene las frecuencias absolutas o acumuladas desde el extremo más cercano. En la fila correspondiente a la mediana se coloca la frecuencia absoluta. 5. Valores atípicos por encima (HI) o por debajo (LO) son indicados en el diagrama. Ejemplo: Los siguientes datos representan la acidez (pH) de 26 muestras de precipitaciones recogidas en una ciudad de Pensilvania entre diciembre de 1973 y junio de 1974: 4.57 4.39 4.40 5.51 5.62 4.45 5.78 4.82 4.12 5.67 4.73 4.63 5.29 4.39 4.56 4.29 4.64 4.52 5.08 4.60 4.31 4.26 4.41 4.30 4.26 4.12 2 Datos ordenados: 4,12 4,57 4,12 4,60 4,26 4,63 4,26 4,64 4,29 4,73 4,30 4,82 4,31 5,08 4,39 5,29 4,39 5,51 4,40 5,62 4,41 5,67 4,45 5,78 4,52 4,56 Cada tallo puede ocupar una o más filas. Si un tallo ocupa una sola fila, sus hojas tienen dígitos del 0 al 9. Si ocupan dos filas, las hojas de la primera fila contienen dígitos del 0 al 4 y las de la segunda fila dígitos del 5 al 9. En algunos software estadísticos (como el SPSS) se suele organizar la información de forma que los tallos ocupen 5 filas: la primera fila contiene los dígitos 0 y 1 (encabezadas con un *); la segunda, los dos dígitos 2 y 3 (t=two, three); la tercera, los dígitos 4 y 5 (f=four, five); la cuarta, los dígitos 6 y 7 (s=six, seven); y la quinta los dígitos 8 y 9 (encabezadas por un punto). cada tallo ocupa una fila 4 1122233334445550000 5 025667 No tiene mucho sentido, no se aprecia una distribución cada tallo ocupa dos filas 4 11222333444 4 55566678 5 02 5 5667 mejoró un poco 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 22 669 0199 015 267 034 3 2 Frecuencia cada tallo ocupa cinco filas 2 4* 11 7 4T 2223333 6 4F 444555 4 4S 6667 1 4. 8 1 5* 0 1 5T 2 1 5F 5 3 5S 667 es la mejor 0 9 1 27 8 mejor pero muy disperso La salida del SPSS es (menú “Analizar” > Estadístico descriptivo> Explorar) 3 ph Stem-and-Leaf Plot Frequency Stem & Leaf 2,00 4 . 11 7,00 4 . 2223333 6,00 4 . 444555 4,00 4 . 6667 1,00 4. 8 1,00 5. 0 1,00 5. 2 1,00 5. 5 3,00 Extremes (>=5,6) Stem width: 1,00 Each leaf: 1 case(s) Este es el mismo resultado obtenido al hacerlo manualmente, solo que el software asume que el usuario conoce el procedimiento y la forma de distribución en las cinco filas. Adicionalmente otorga otras informaciones: • Los valores atípicos (Extremes: los últimos 3 valores) que no parecen formar parte de la distribución. Estos se calculan con otro procedimiento. En nuestro cálculo manual están, pero se observan que no parecen llevar el mismo comportamiento de la curva. • El ancho del tallo (Stem width: 1,00). Es un dato imprescindible cuando usamos un software para interpretar correctamente el diagrama. Los valores del tallo deben multiplicarse por el ancho del tallo para interpretarlos. En el ejemplo como el ancho es uno, quedan igual, es decir que un tallo 4 representa un nivel de ph de 4. Si el Stem width fuese 10,00, el valor seria 40. Un tallo de 4 con una hoja de 6, representa entonces un ph de 4,6. • El número de casos que representa la hoja (Each Leaf: 1 case(s)). En nuestro ejemplo cada hoja representa un caso, pero pudiese ser que la cantidad de datos es tan grande que se agruparon los datos previamente y una puede representar, dos, tres, o más casos. Es decir, si en nuestro ejemplo Each Leaf fuese 3, entonces un tallo de 4 con hoja de 6 representaría que existen 9 casos con ph 4,6. El gráfico de tallos ofrece una idea visual de la forma, de la dispersión o variabilidad de la distribución y de la tendencia central. Puede revelar asimetría en la distribución, como en nuestro caso. Podemos ubicar una aproximación de cualquier percentil con facilidad, por ejemplo el décimo percentil sería la observación que está en la posición (0.1) ∗ 26 = 2,6. Como no es el punto medio entonces redondeamos a la posición entera más cercana, el décimo percentil estará en la posición 3 (4,2); el primer cuartil estará en la posición (0.25) ∗ 26 = 6.5, está en el punto medio de las observaciones 6 y 7 (4,3); el tercer cuartil estará en la posición (0.75) ∗ 26 = 19.5, está en el punto medio de las observaciones 19 y 20 ((4.7+4.8)/2=4.75) y la mediana está entre la n/2 y (n/2)+1 observación, es decir entre la 13a y la 14a (4,5). 4 También podemos determinar una aproximación a una medida de dispersión como el rango intercuartílico 𝑄3 − 𝑄1 = 4.75 − 4.3 = 0.45. Gráfico de Cajas Es una representación gráfica de suma utilidad para comparar procesos, tratamientos, y en general para hacer análisis por estratos (lotes, proveedores, turnos, etc). Este gráfico se basa en cuartiles. Consta de un rectángulo central limitado por los cuartiles. La longitud del rectángulo permite apreciar la variabilidad en la zona central de la distribución. Además de los cuartiles están involucrados los siguientes conceptos: • La posición de la mediana se indica mediante una línea que divide al rectángulo, lo que además de ser un indicador de tendencia central es también un indicador del grado de simetría de los datos. • Rango intercuartílico: IQR: Q3 – Q1. • Fronteras interiores (FI): Puntos extremos del intervalo: (𝑄1 − 1.5𝐼𝑄𝑅, 𝑄3 + 1.5𝐼𝑄𝑅). Se considera como punto atípico extremo todo valor fuera de este intervalo. Se suelen representar por pequeños círculos (o). • Fronteras exteriores (FE): Puntos extremos del intervalo: (𝑄1 − 3𝐼𝑄𝑅, 𝑄3 + 3𝐼𝑄𝑅). Se considera como punto atípico remoto todo valor fuera de este intervalo. Se suelen representar por asteriscos (*). • De los lados (generalmente inferior y superior) de las cajas se trazan líneas verticales denominadas bigotes que van desde los cuartiles hasta el máximo valor adyacente superior y hasta el mínimo valor adyacente inferior. La longitud de los bigotes da información acerca del largo de las colas correspondientes. 5 Interpretación De acuerdo con la manera en que se construyó este diagrama, en su interpretación se debe hacer énfasis en: 1. El largo del diagrama (que incluye el rectángulo más ambos brazos o bigotes), ya que esto indica una medida de la variación de los datos y resulta de gran utilidad sobre todo para comparar la variación entre procesos, tratamientos, lotes o turnos de trabajo o producción. En general, entre más largo sea un diagrama indicará una mayor variación de los datos correspondientes. 2. La parte central del diagrama indica la tendencia central de los datos, por lo que también ayudará a comparar dos o más procesos, máquinas, lotes o turnos en cuanto a su tendencia central. 3. Comparar de manera visual la longitud de ambos brazos. Si uno es notoriamente más largo que el otro, entonces la distribución de los datos quizás está sesgada en la dirección del brazo más largo. También es preciso observar la ubicación de la línea mediana que parte la caja, ya que si está más cerca de uno de los extremos, será señal de un probable sesgo en los datos. 4. En caso de que el diagrama esté basado en una cantidad suficiente de datos (por ejemplo 10 como mínimo), es necesario ver si hay datos fuera de las barreras interiores, marcados con un punto, ya que entre más alejado esté un dato del final del brazo, será señal de que probablemente sea un 6 dato atípico. Si los datos caen más allá de las barreras exteriores, prácticamente es un hecho que tales datos son atípicos o aberrantes. Ejemplo: Con los cuartiles reales Utilicemos el ejemplo anterior, con las aproximaciones a los percentiles encontrados (si deseamos mayor precisión, calculamos los percentiles exactos). 4.30 + 4.31 𝑄1 = 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛: 0.25 ∗ 26 = 6.5 → 𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 6𝑡𝑜 𝑦 7𝑜 → = 4.305 2 4.73 + 4.82 𝑄3 = 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛: 0.75 ∗ 26 = 19.5 → 𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 19 𝑦 𝑒𝑙 20 → = 4.775 2 𝑛 𝑛 4.52 + 4.56 𝑀𝑑 = 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛: 𝑒𝑛𝑡𝑟𝑒 𝑦 + 1 → = 4.54 2 2 2 𝐼𝑄𝑅 = 4.775 − 4.305 = 0.47 Fronteras interiores: 𝐹𝐼𝐼 = 𝑄1 − 1.5𝐼𝑄𝑅 = 4.305 − 1.5 ∗ 0.47 = 3.6 𝐹𝐼𝑆 = 𝑄3 + 1.5𝐼𝑄𝑅 = 5.4125 Fronteras exteriores: 𝐹𝐸𝐼 = 𝑄1 − 3𝐼𝑄𝑅 = 2.895 𝐹𝐸𝑆 = 𝑄3 + 3𝐼𝑄𝑅 = 6.185 Bisagras o bigotes: max{𝑥𝑗 : 𝑥𝑗 ≤ 𝐹𝐼𝑆} = 5.29 min{𝑥𝑗 : 𝑥𝑗 ≥ 𝐹𝐼𝐼} = 4.12 7 Los diagramas de caja son de especial eficacia para retratar comparaciones entre conjuntos de observaciones. En general un índice de calidad estará basado es las desviaciones de algunas características. En la siguiente figura se muestra una comparación de calidad entre cuatro plantas de fabricación. De esta gráfica es claro que la planta 2 necesita reducir su variabilidad y que las plantas 2 y 4 necesitan mejorar su nivel de calidad. 8 Diagrama de Pareto El Diagrama de Pareto también es conocido como la Ley 20-80 la cual expresa que “generalmente unas pocas causas (20%) generan la mayor cantidad de problemas (80%)”. También se le conoce como Ley ABC utilizado para el análisis de inventarios. Su origen se le debe a los estudios realizados sobre el ingreso monetario de las personas, por el economista Wilfredo Pareto a comienzos del siglo XX. Este tipo de análisis busca una forma de identificar y diferenciar los pocos “vitales”, de los muchos “triviales” o bien dar prioridad a una serie de causas o factores que afectan a un determinado problema, el cual permite, mediante una representación gráfica o tabular identificar en una forma decreciente los aspectos que se presentan con mayor frecuencia o bien que tienen una incidencia o peso mayor. También puede presentarse en otro tipo de formatos como una gráfica tipo “pastel”. Se utiliza para establecer en dónde se deben concentrar los mayores esfuerzos en el análisis de las causas de un problema. Para ello es necesario contar con datos. Tipos de Diagrama de Pareto Existen dos tipos de diagramas de Pareto: 1. Diagramas de fenómenos. Se utilizan para determinar cuál es el principal problema que origina el resultado no deseado. Estos problemas pueden ser de calidad, costo, entrega, seguridad u otros. 2. Diagramas de causas. Se emplean para, una vez encontrados los problemas importantes, descubrir cuáles son las causas más relevantes que los producen. 9 Beneficios del Diagrama de Pareto • • • • • • Es el primer paso para la realización de mejoras. Canaliza los esfuerzos hacia los “pocos vitales”’. Ayuda a priorizar y a señalar la importancia de cada una de las áreas de oportunidad. Se aplica en todas las situaciones en donde se pretende efectuar una mejora, en cualquiera de los componentes de la calidad del producto o servicio. Permite la comparación entre antes y después, ayudando a cuantificar el impacto de las acciones tomadas para lograr mejoras. Promueve el trabajo en equipo ya que se requiere la participación de todos los individuos relacionados con el área para analizar el problema, obtener Información y llevar a cabo acciones para su solución. Elaboración Para elaborar el Diagrama de Pareto se ordena la lista de causas, productos o clientes en forma decreciente (Mayor a menor) de acuerdo a la frecuencia con que se presentó cada una de las causas o bien el volumen de ventas por clientes o por productos. Es importante se haga en una misma unidad de medida cuando se trata de productos o clientes. Seguidamente se calcula el porcentaje individual de cada categoría, dividiendo el valor de cada una por el total de las causas o productos. El paso siguiente consiste en calcular el porcentaje acumulado, sumando en orden decreciente los porcentajes de cada uno de los rubros en forma acumulada. Para categorizar los valores obtenidos se aplica la siguiente regla: aquellos ítems que se encuentren dentro del valor acumulado hasta el 80% se denominan A. Los siguientes ítems que pasen de 80,001% hasta el 95% se denominan B y al resto hasta completar el 100% se denomina C. Esto es lo que se conoce como 10 Ley ABC o Ley 20-80, ya que aproximadamente el 20% de las causas en estudio generan el 80% del total de los efectos. Para dibujar el gráfico: Utilizando un gráfico de barras, ordenar las causas de mayor a menor, anotando las causas en el eje horizontal (X) y los valores o frecuencia con que se presentó determinada causa en el eje vertical izquierdo (Y). El porcentaje se anota en el eje vertical derecho. Los Softwares estadísticos como por ejemplo SPSS y Minitab permiten obtener estas gráficas de forma muy sencilla. Recomendaciones • • • Definir el período de tiempo a evaluar. Establecer la unidad de medida (costo, frecuencia, porcentaje, tiempo, etc.). Seleccionar al personal adecuado para recopilar datos. Ejemplo Para el siguiente análisis de caso, se considera un proceso de producción que se encuentra afectado por la siguientes causas: • • • • • • • • • • Fluctuaciones de energía Inestabilidad de la máquina Rotación frecuente del operador Rotación frecuente de la máquina Cambios ambientales cíclicos Cansancio o fatiga del operador Partida fría Error de medición Desviación del material Desgaste del equipo 11 En la tabla presentada más arriba se detallan los valores correspondientes a la cantidad de veces que se registró cada una de las causas que afectan al proceso, durante un período determinado. Para cada causa, se calculó el porcentaje que representa en forma individual con respecto al total de causas registradas, y luego se ordenó la tabla de mayor a menor. Una vez ordenada la tabla, se calculó el porcentaje acumulado. Con estos valores es posible obtener el siguiente gráfico: Al marcar sobre el gráfico una línea punteada sobre el valor correspondiente al 80% del porcentaje acumulado, se obtiene la siguiente información: • • • Cambios ambientales Rotación del operador Inestabilidad de la máquina Son las causas que están ocasionando el 80% de los defectos en este proceso, por lo que los esfuerzos destinados a mejorarlo deberían concentrarse en estos 3 aspectos. 12 Otros dispositivos de utilidad Histograma Análisis Matricial Diagrama de Grier Series temporales Diagramas de causa y efecto Diagrama de dispersión