Introducción 9 TEORÍA DE FIABILIDAD Introducción La teoría de la fiabilidad industrial estudia métodos que deben seguirse tanto en el diseño como en la recepción, el transporte y el uso de los productos para garantizar al máximo su rendimiento. Uno de los objetivos de la teoría de la fiabilidad industrial es el abandono de la subjetividad en las previsiones sobre la duración de los productos a través de la cuantificación de dichas previsiones. Así expresiones como: "Esta construcción es más segura que aquélla", "Nuestro producto es más resistente que el de la competencia", tienen que sustituirse por formulaciones más precisas, que necesitan del lenguaje estadístico. Hay que pensar en la fiabilidad desde la primera fase del desarrollo de un producto. Antes de tomar la decisión de fabricarlo en serie hay que someterlo a ensayos que sean suficientemente representativos de sus condiciones de fabricación como para permitir no sólo juzgar lo ensayado, sino también la fabricación en serie. En la etapa de desarrollo de un producto deben elaborarse una serie de reglas que se tendrán que observar a la hora de fabricar los productos, en su recepción y en su explotación, con la finalidad de preservar la fiabilidad. La fiabilidad en la ingeniería está orientada a los fallos. El problema reside en predecir si puede ocurrir un fallo al utilizar un dispositivo y cuándo ocurrirá. Esta información es útil para determinar las políticas de mantenimiento e inspección de una empresa, así como para determinar los plazos de garantía de los productos. También puede utilizarse para predecir costes debidos al mantenimiento y a los eventuales fallos que puedan ocurrir mientras el dispositivo está operativo. La definición utilizada en la ingeniería para la fiabilidad es la de "probabilidad de que un dispositivo haga su función bajo condiciones establecidas, durante un período de tiempo establecido". Para la Física, la probabilidad se define: "Por probabilidad de un acontecimiento de una observación nosotros entendemos nuestra estimación más creíble de la fracción del número de observaciones que resultarán del acontecimiento particular" [Feynman]. Esta idea corresponde a la definición frecuentista de la probabilidad: consiste en imaginar la repetición de una experiencia y establecer la relación entre la frecuencia de un suceso A NA y el número N de repeticiones: P(A)= NA . N Hay por lo menos dos reflexiones ligadas a esta idea: Un suceso no es siempre exactamente repetible. Como mínimo, los tiempos de ocurrencia son distintos. La probabilidad está ligada a la información disponible en cada momento. © Los autores, 2003; © Edicions UPC, 2003. 10 Fiabilidad industrial Otra definición de probabilidad más subjetiva es que "probabilidad es el grado de creencia que tiene un analista u observador." La idea es que la probabilidad es una herramienta analítica basada en la valoración, útil para poder tomar decisiones. Esta definición es en la que se apoya la Escuela Bayesiana. Para revisar las propiedades de la probabilidad se puede consultar el capítulo 2 de Montgomery y Runger (1996). Perspectiva histórica de la teoría de la fiabilidad El origen de la fiabilidad puede atribuirse a los estudios para poder evaluar la mortalidad derivada de las epidemias y a los métodos actuariales desarrollados por las compañías de seguros, para determinar los riesgos de sus pólizas. Como herramienta para el cálculo del riesgo se utilizaba las tablas de vida. La primera tabla de vida data de 1693 y es debida a Edmund Halley1, astrónomo inglés conocido por haber predicho la órbita del cometa que lleva su nombre. A principios de 1900 se utilizaban los métodos actuariales tanto para estimar la supervivencia de pacientes sometidos a distintos tratamientos como para estudiar la fiabilidad de equipamientos, en particular de los ferrocarriles. La teoría matemática de la fiabilidad se desarrolla por las demandas de la tecnología moderna y en particular por las necesidades de los sistemas complejos militares. El área de mantenimiento de máquinas es una de las áreas donde la fiabilidad se aplica con sofisticadas matemáticas. La renovación y los avances de la tecnología se utilizan muy pronto para resolver problemas de reparación e inspección de dispositivos. En 1939 Walodie Weibull, cuando era profesor del Royal Institute of Technology en Suiza, propuso una distribución para describir la duración de materiales, que más tarde llevaría su nombre. La distribución de Weibull es muy utilizada en las aplicaciones, ya que es muy versátil, pues admite distintas formas de funciones de riesgo. En 1951 Epstein y Sobel empezaron a trabajar con la distribución exponencial como modelo probabilístico para estudiar el tiempo de vida de dispositivos [ver Epstein y Sobel (1953)]. Este modelo de probabilidad, tan bueno como muchos otros, se basa en el concepto de población de tamaño infinito o no acotado. La distribución exponencial tiene la propiedad de no tener memoria; es decir, en el cálculo de la probabilidad de que falle un dispositivo no influye el tiempo que hace que funciona. Una razón fundamental de la popularidad de la distribución exponencial es la amplia explotación que se ha hecho de ella en trabajos de fiabilidad, debido a su simplicidad en la suma de las tasas de fallo ya que hace posible el cálculo de diseños de datos de forma simple. La investigación de sistemas de fiabilidad en general (y en particular las funciones de sistemas coherentes) se inició en 1961 a partir del artículo de Birnbaum, Esary y Sauders. 1 Puede encontrarse una traducción al español del artículo citado en James R. Newman (1968). © Los autores, 2003; © Edicions UPC, 2003. Introducción 11 Se puede citar también un trabajo previo de Moore-Shanon donde plantean de forma más abstracta unos enlaces de superfiabilidad. Birmbaum, Esary y Marshall (1966) introdujeron la conexión entre las estructuras de los sistemas coherentes y la clase de distribuciones de tiempos de vida, incluyendo las distribuciones exponenciales. El cálculo de la fiabilidad de los sistemas había llegado a un nivel de complejidad tal que era necesaria la formalización abstracta de dichos sistemas. Los sistemas coherentes forman una clase de modelos de fiabilidad; el concepto fundamental de los sistemas coherentes (coherent system) es que los componentes se encuentran individualmente en uno de los dos estados: funcionan o fallan, y el estado de los sistemas se representa en términos de los estados individuales de cada componente a través de las funciones de estructura (structure function). Dos propiedades clave son: (a) la relevancia de cada componente, es decir, no hay ningún componente cuya fiabilidad no afecte a la fiabilidad del sistema; y (b) la monotonicidad, que encierra el concepto de que la fiabilidad de un sistema nunca puede ser mejorada cuando uno de sus componentes se vuelve menos fiable. Merece mención especial indicar las publicaciones W. Nelson (1982,1990) sobre aplicaciones de fiabilidad industrial y pruebas de vida acelerada que se han convertido en referencias obligadas en el campo de la fiabilidad industrial. El análisis mediante árboles de fallo, FTA (failure tree analysis), es un método de análisis de la seguridad de un sistema. Lo desarrolló por primera vez H.A. Watson en los laboratorios Bell. Pero es en los años 70 cuando el análisis de la fiabilidad de un sistema mediante árboles de fallo toma más fuerza por problemas relacionados con la seguridad en las centrales nucleares. En los años 80 el objetivo principal de los trabajos de fiabilidad está en las redes de comunicaciones. Esto fue motivado por el proyecto Advanced Research Project Agency Network (ARPAnet) del Departamento de Defensa americano, que se planteó el objetivo de la alta fiabilidad de las comunicaciones entre centros estratégicos, aunque los nodos intermedios no fueran altamente fiables. El resultado de estos trabajos ha encontrado aplicación en los sistemas de web e Internet actuales. En los años 90, la investigación de la fiabilidad toma nuevas direcciones con M.B. Mendel. Los orígenes de su investigación se basan en la hipótesis de que muchas de las representaciones en el espacio muestral que se han considerado en la estadística no correspondan en ingeniería a los espacios euclídeos. Por ello, utiliza la geometría diferencial como base para la aproximación de los problemas de ingeniería estadística. Esto puntos de vista se pueden encontrar en recientes publicaciones sobre problemas de fiabilidad de la ingeniería, entre ellos los de Shortle y Mendel (1994) y (1996). Objetivos de la materia La materia de fiabilidad que se imparte en este texto es una introducción a las técnicas estadísticas para resolver cuestiones de fiabilidad industrial. La fiabilidad industrial se diferencia de otras técnicas estadísticas por utilizar los modelos probabilísticos propios de las variables aleatorias que son tiempos de vida hasta el fallo, © Los autores, 2003; © Edicions UPC, 2003. 12 Fiabilidad industrial como la distribución exponencial y la Weibull. Otro rasgo diferencial es que en la práctica las muestras aleatorias de que se dispone no son completas. Esto es debido a que en muchos casos las pruebas de vida o ensayos de fiabilidad son destructivas, con lo cual son costosas económicamente y en tiempo. Por ello, en muchos casos, se finaliza el ensayo antes de observar el fallo. Se desarrollan los modelos exponencial y Weibull en el contexto de la fiabilidad. También se hace una introducción a los datos censurados y la estimación de parámetros con datos censurados. Se hace una introducción a las pruebas de vida acelerada, que son una práctica común en la industria. Son aquellos ensayos que se realizan a un nivel de estrés superior al de las condiciones ordinarias de funcionamiento, con el fin de provocar la aparición de fallos en un tiempo más corto. Estas pruebas se realizan exponiendo los productos a condiciones más severas que las usuales. Generalmente implica aumentar la temperatura, el voltaje, la presión, la vibración, el tiempo operativo, etc. Las pruebas de vida acelerada pueden usarse tanto para evaluar la capacidad de un componente, a fin de satisfacer los requisitos de fiabilidad, como para tener un medio más rápido de detectar debilidades potenciales o modos de fallo. En el último capítulo se desarrolla el análisis de un sistema, formulando los sistemas coherentes, la fiabilidad de un sistema en serie y en paralelo con tasa de fallo constante. Por fin, se hace una introducción al análisis de la fiabilidad mediante árboles de fallo. El objetivo principal de esta materia es dar una introducción a la fiabilidad industrial de forma que el estudiante sea capaz de: Identificar cuándo un problema es propio de la fiabilidad y determinar cuál es la prueba de vida más adecuada para estudiarlo. Reconocer la variable aleatoria que define la problemática planteada, acotando bien la definición de fallo y definiendo las unidades con que se medirá: ciclos, horas, resistencia hasta el fallo, etc. Establecer cuál es el modelo probabilístico adecuado que ajusta mejor los datos de una prueba de vida. Estimar gráficamente con una hoja de cálculo los parámetros de los modelos exponencial y Weibull para muestras con datos completos y datos censurados. Estimar por el método de máxima verosimilitud los parámetros de los modelos exponencial y Weibull para muestras con datos completos y datos censurados. Calcular las características de fiabilidad: la fiabilidad, la vida media hasta el fallo, la tasa de fallo, la función de riesgo, los percentiles y la mediana. Calcular los intervalos de confianza de la vida media y la tasa de fallo del modelo exponencial. Calcular las constantes de los modelos de pruebas de vida con estrés constante: el de Arrhenius y el de la potencia inversa de Weibull. © Los autores, 2003; © Edicions UPC, 2003. Introducción 13 Determinar la fiabilidad de un sistema compuesto por componentes en serie con tasa de fallo constante, en paralelo, sistemas combinados y sistemas con componentes redundantes. Calcular la fiabilidad de un sistema a partir del análisis de un modelo lógico gráfico como los árboles de fallo (FTA). La materia de fiabilidad está estructurada en 5 capítulos y dos apartados de ejercicios y prácticas: Capítulo 1: Conceptos fundamentales En este capítulo se presentan los conceptos generales de la teoría de la fiabilidad. El objetivo de este capítulo es familiarizarse con las nociones de fallo, tasa de fallo, vida media y fiabilidad. Estos conceptos se introducen haciendo referencia al lenguaje y la terminología de una prueba de vida industrial. Se dan los preliminares de las distribuciones de probabilidad en fiabilidad, haciendo hincapié en la función de riesgo (hazard function), que es específica de los estudios de fiabilidad. También se hace una introducción de los distintos enfoques que puede tener la fiabilidad en la industria. Capítulo 2: Fiabilidad con tasa de fallo constante Este capítulo aborda el modelo exponencial, que es el más utilizado en el análisis de pruebas de vida. Se plantea la estimación de la vida media y la tasa de fallo para distintas situaciones de pruebas de vida. Se introducen las muestras aleatorias que no son completas y el concepto de datos censurados. Capítulo 3: Tasa de fallo no constante: El modelo de Weibull y otros Este capítulo trata el modelo de Weibull, que permite modelar tasas de fallo constante, crecientes y decrecientes. También se tratan otras distribuciones como la Gumbel, la Normal y la lognormal. Se describen los gráficos de probabilidad como herramienta para validar el modelo de Weibull y estimar sus parámetros, tanto para muestras completas como datos censurados. Se expone brevemente el método de estimación de la máxima verosimilitud y se proponen estimadores para los parámetros basados en este método. Capítulo 4: Pruebas de vida aceleradas Es una introducción a las pruebas de vida acelerada, que son una práctica común en situaciones donde es difícil la aparición de fallos. Se explican dos tipos de pruebas de donde, a partir de los datos de dispositivos sometidos a una aceleración, se puede inferir la fiabilidad del dispositivo en condiciones normales de uso. Se exponen el modelo de Arrhenius y el de la potencia inversa de Weibull, dos modelos típicos de pruebas de vida con estrés constante, Capítulo 5: Análisis de la fiabilidad de un sistema En este capítulo se desarrolla el análisis de un sistema, formulando los sistemas coherentes, la fiabilidad de un sistema en serie y en paralelo con tasa de fallo constante. Se hace una introducción al análisis de la fiabilidad mediante árboles de fallo. © Los autores, 2003; © Edicions UPC, 2003. 14 Fiabilidad industrial Ejercicios y prácticas de fiabilidad Se proponen ejercicios y prácticas resueltos de los cinco capítulos. La herramienta utilizada es la hoja de cálculo Excel y el programario estadístico Minitab. Autoevaluaciones de fiabilidad Se proponen ejercicios tipo test resueltos. La fuente de algunos de los ejemplos desarrollados en estos apuntes es de W. Nelson (1982) y G. Gómez y M. Canela (1992). © Los autores, 2003; © Edicions UPC, 2003. Conceptos fundamentales 15 1 CONCEPTOS FUNDAMENTALES En este capítulo se presentan los conceptos generales de la teoría de la fiabilidad. El objetivo de este capítulo es familiarizarse con las nociones de fallo, tasa de fallo, vida media y fiabilidad. Estos conceptos se introducen haciendo referencia al lenguaje y la terminología de una prueba de vida industrial. Se dan los preliminares de las distribuciones de probabilidad en fiabilidad, haciendo hincapié en la función de riesgo (hazard function) que es específica de los estudios de fiabilidad. También se hace una introducción de los distintos enfoques que puede tener la fiabilidad en la industria. Fiabilidad es un concepto con muchas connotaciones distintas. Cuando se aplica al ser humano, normalmente se refiere a la habilidad de las personas para hacer ciertas tareas de acuerdo con un estándar especificado. Por extensión, la palabra se aplica a una pieza de un equipo, o a un componente de un sistema, y significa la habilidad de un equipo o componente para cumplir con la funcionalidad que se requiere de él. El origen del uso del término era cualitativo. En su aplicación actual, la fiabilidad es casi siempre un concepto cuantitativo, y esto implica la necesidad de métodos para medirla. Hay muchas razones por las que la fiabilidad necesita ser cuantificada. Quizá el más importante es el económico ya que la mejora de la fiabilidad cuesta dinero, y esto puede ser justificado sólo si se puede evaluar la no fiabilidad de un equipo. Para un componente crítico, del cual su operación funcional es esencial en un sistema, la fiabilidad puede ser medida como la probabilidad de que el componente opere con éxito, y la esperanza del costo de un componente no fiable se mide como el producto de la probabilidad de fallo y el costo del fallo. En una aplicación rutinaria, donde los componentes que fallan pueden ser reparados, la media del tiempo entre fallos (Mean Time Between Failures) es un parámetro crítico. En ambos casos, la necesidad de una definición probabilística de fiabilidad es evidente. 1.1 Fiabilidad y fallo Según la norma internacional ISO 8402, la calidad de un producto es el conjunto de características que le confieren la aptitud para satisfacer las necesidades establecidas y las implícitas. Estas necesidades pueden comportar aspectos relativos a su aptitud de uso, la seguridad, el respeto al medio ambiente, y en muchos casos, la fiabilidad. La fiabilidad (reliability) de un producto se define como la facultad de conservar la calidad, durante un tiempo preestablecido, en unas condiciones determinadas de explotación (definición cualitativa). Para poder cuantificarla se utiliza el lenguaje estadístico y se define como la probabilidad de que un dispositivo desarrolle su función con ciertas condiciones establecidas, durante un período de tiempo establecido. El valor de esta probabilidad se denota por R. Para no tener ambigüedades en la cuantificación de la fiabilidad es importante tener bien definido el concepto de tiempo de vida de un producto y tener identificado cuándo éste falla y de que clase de fallo se trata. © Los autores, 2003; © Edicions UPC, 2003. 16 Fiabilidad industrial La vida de un producto es el período de tiempo durante el que puede ser utilizado, en las condiciones establecidas. Fallo (failure) es la pérdida de alguna de las propiedades del dispositivo que reduce, total o parcialmente, su funcionamiento. Cuando el fallo se define como un cierto nivel de degradación en el funcionamiento del dispositivo, puede interesar estudiar la variación de la propiedad en la que se concreta la degradación con el tiempo y a la curva que la describe se le llama curva de degradación. No es objeto de estos apuntes entrar en el estudio de ésta, que requiere de un aparato matemático más sofisticado. En la figura 1.1, a modo de ilustración, se puede observar gráficamente la deriva de la media y la varianza de una medida de interés. Ejemplo 1.1 Un tipo de resistencia eléctrica de 3.000 nominales presenta una deriva del parámetro fundamental según el siguiente esquema: el valor medio decrece a razón del 1% de su valor inicial cada 1.000 horas; la desviación estándar, inicialmente del 2%, es decir 60Ω, aumenta a razón del 0,5% de su valor inicial cada 1.000 horas. Un esquema de la pauta de la deriva puede ser el de la figura 1.1. ¿Cuál es la probabilidad de que una resistencia se encuentre después de 2.000 horas de funcionamiento dentro del intervalo de tolerancia 3.000 ± 240Ω, suponiendo que la distribución del valor de la resistencia sigue una ley Normal? En t = 0 horas la variable aleatoria, T = "resistencia eléctrica", se distribuye según una distribución Normal de media 3.000Ω y una desviación estándar 60Ω . Es decir, T~N(3.000, 60) En t = 2.000 horas, T ~ N(3.000 - 60Ω; 60 + 0,6Ω) = N(2.940; 60,6) Se calcula la probabilidad de que la resistencia cumpla la tolerancia al cabo de 2.000 horas de funcionamiento a partir de la tablas estadísticas de la distribución Normal Z(0;1) en la tabla 2 del anexo. 2.760-2.940 T -2.940 3.240-2.940 Pr(2.760 ≤ T ≤ 3.240) = Pr ≤ ≤ = 60,6 60,6 60,6 Pr[-2,97 ≤ Z ≤ 4,95] = Pr(Z ≤ 4,95)- Pr[Z ≤ -2,97] = 1-(1-0,9985) = 0,9985, donde Z~N(0;1) No cumplirán la tolerancia un 0,15% de las resistencias. Al cabo de 2.000 horas de funcionamiento. © Los autores, 2003; © Edicions UPC, 2003. Conceptos fundamentales 17 Figura 1.1 Ejemplo de la deriva de los parámetros de la distribución Normal con el tiempo La manera en que se observa el fallo se denomina modo de fallo (failure mode) y el mecanismo del fallo (failure mechanism) se refiere al proceso químico, físico que da lugar al fallo. En ciertos casos la noción de fallo no es transparente: por ejemplo, nos puede interesar saber cuándo una pieza de un motor deja de funcionar de manera adecuada; en este caso debe precisarse muy bien cuál es el fallo. Por ejemplo, si el fallo se detecta por el ruido del motor, se tendrá que definir cómo medirlo (en decibelios por ejemplo) y definir un límite superior de tolerancia (por ejemplo 60 dB). Cuando se supera el límite de 60 dB, tenemos el fallo. Los fallos se pueden clasificar según la causa que lo provoca: fallo por uso indebido (misuse failure) cuando la causa es extrínseca al dispositivo, y fallo por debilidad inherente (inherent weakness failure) cuando la causa es intrínseca. Un sistema es un dispositivo formado por partes, la fiabilidad de las cuales es conocida. Estas partes se denominan componentes. En general, el fallo de un sistema se produce al fallar uno o varios componentes. Según sea el fallo, se denomina fallo primario (primary failure) cuando no es causado ni directamente ni indirectamente por el fallo de otro dispositivo, fallo secundario cuando es causado por el fallo de otro dispositivo, y fallo por desgaste (wear-out failure) cuando es un fallo con una probabilidad de aparición que aumenta a medida que el tiempo pasa, resultado de una serie de procesos característicos del dispositivo. © Los autores, 2003; © Edicions UPC, 2003. 18 Fiabilidad industrial 1.2 Características de fiabilidad Para poder describir el comportamiento del tiempo de vida T de un dispositivo utilizamos la fiabilidad, que es la probabilidad de que un objeto realice su función con ciertas condiciones establecidas, durante un período de tiempo prefijado. T es una variable aleatoria y para cada valor del tiempo t se obtiene un valor de fiabilidad R(t), el que en estadística se denomina distribución de probabilidad. Una distribución de probabilidad se caracteriza mediante unos parámetros estadísticos, que en el contexto de la fiabilidad se denominan características de fiabilidad. La distribución de probabilidad será distinta si los dispositivos se reparan o no, puesto que en un caso la variable aleatoria de interés es el tiempo entre fallos y, en el otro, el tiempo hasta el fallo. En los dispositivos que no se reparan, únicamente tiene sentido considerar tiempos de vida hasta el primer fallo, y la variabilidad de una unidad a otra da una distribución, que es el objeto de estudio de la fiabilidad. Una característica de fiabilidad de la variable aleatoria T: tiempo hasta el fallo es la vida media hasta el fallo, MTTF (mean time to failure). Si los dispositivos son reparados tiene sentido considerar el tiempo entre fallos consecutivos. La fiabilidad en este caso es más complicada, a menos que la distribución de probabilidad de tiempo entre fallos sea independiente de la edad del dispositivo. Una característica de fiabilidad de la variable aleatoria T: tiempo entre fallos consecutivos es el tiempo medio entre fallos, MTBF (mean time between failure). En las aplicaciones, sólo se dispone de un valor aproximado de estos parámetros, obtenido por un procedimiento estadístico de estimación más o menos complejo. Estos valores están muchas veces incluidos en la especificación de un producto, y pueden figurar en una relación contractual entre un cliente y un proveedor, o servir de criterio para una homologación. Es importante concretar de qué forma se obtiene una característica de fiabilidad. Un lenguaje preciso y preferiblemente normalizado ayuda a evitar malentendidos cuando se utilizan valores de las características de fiabilidad. Aquí utilizaremos la terminología de la Internacional Electrotechnical Comision (IEC), recogida en la norma IEC 271. Observación: La variable aleatoria duración de un dispositivo a veces no se mide en tiempo sino en otra magnitud que tiene un significado análogo, por ejemplo la fiabilidad de un cable puede referirse a la resistencia en Newton hasta la rotura, la de un neumático a los kilómetros rodados, la de una tostadora al número de ciclos, la de un motor al número de revoluciones, la de un equipo eléctrico a los kilovatios consumidos. De todas formas mantendremos la notación temporal para simplificar. Otras características de fiabilidad son la fiabilidad y la tasa de fallo. La fiabilidad es la probabilidad de que una variable aleatoria T: tiempo hasta el fallo supere un cierto período de tiempo en funcionamiento y se denota por R(t): R(t) = Pr(T > t), donde T: tiempo hasta el fallo es la variable aleatoria. © Los autores, 2003; © Edicions UPC, 2003. Conceptos fundamentales 19 Hay distintas formas de aproximar una característica de fiabilidad. En general se distinguen cuatro formas distintas: observada, evaluada, extrapolada y predicha. Esta distinción es válida para cualquier característica de fiabilidad. En el caso de la fiabilidad se definen de la siguiente forma: Fiabilidad observada (observed reliability): de un dispositivo que no se repara a un tiempo dado t, es la proporción de dispositivos de una muestra que hacen su función de manera satisfactoria una vez transcurrido este tiempo t. Puede expresarse en porcentaje. El ejemplo 1.2 es una ilustración de este concepto. Ejemplo 1.2 Se realiza un ensayo del mecanismo de arrastre del papel de un nuevo modelo de impresora de chorro de tinta. El ensayo se realiza con 12 unidades y la duración prefijada es de 60.000 ciclos. Los resultados son: 24.609; 25.237; 30.391; 41.434; 42.212; 51.615; 60.000+; 60.000+; 60.000+; 60.000+; 60.000+; 60.000+. El símbolo + indica censura por la derecha, es decir al cabo de 60.000 ciclos aún funcionaba. En este caso la variable aleatoria es: T = "nº ciclos de un mecanismo de arrastre hasta el fallo" La muestra aleatoria simple T1, ... ,T12 es de tamaño n=12. La fiabilidad observada a 50.000 ciclos es: R(50.000) = 7/12 = 0,58 donde se interpreta que este nuevo mecanismo tiene una fiabilidad observada del 0,58, es decir un 58% de las impresoras superan los 50.000 ciclos. Nota: las fórmulas y la terminología para los cálculos se encuentran desarrolladas en el capítulo 2. La fiabilidad evaluada (assessed reliability) hace referencia a valores obtenidos a partir de datos experimentales por un tratamiento estadístico. El resultado de este tratamiento puede dar distinto a la fiabilidad observada como puede apreciarse en el ejemplo 1.3. La ventaja del tratamiento estadístico es que el resultado es más preciso ya que en el cálculo intervienen los tiempos de vida, y además nos permite la obtención de un intervalo de confianza. Se puede dar a la fiabilidad evaluada un límite de confianza inferior o dos límites. Obsérvese en el ejemplo 1.3 un intervalo de confianza unilateral de la fiabilidad evaluada. © Los autores, 2003; © Edicions UPC, 2003. 20 Fiabilidad industrial 1.2.1 Interpretación de un intervalo de confianza (1-α) para un parámetro θ El intervalo de confianza asocia una verosimilitud o nivel de certeza que puede atribuirse a la estimación del parámetro θ. Un intervalo de confianza (1-α) en el sentido clásico (no bayesiano) es tal que, si repetimos el experimento una infinidad de veces (y cada vez recalculamos el intervalo) entonces un porcentaje (1-α)100 % de las veces, el intervalo cubriría el verdadero valor del parámetro desconocido θ. Ejemplo 1.3 Se realiza un ensayo con 20 dispositivos y se finaliza cuando 12 de ellos han fallado. Se obtienen los siguientes resultados: 55, 58, 86, 131, 335, 376, 517, 544, 920, 953, 1.072 y 1.260 horas hasta el fallo. En este caso la variable aleatoria es: T = "tiempo en horas hasta el fallo de un dispositivo" La muestra aleatoria simple T1, ... ,T20 es de tamaño n = 20. Sólo se dispone del tiempo hasta el fallo de 12 de los 20 dispositivos; de los 8 restantes sabemos que han superado las 1.260 horas de funcionamiento. Si suponemos que la distribución exponencial se ajusta bien a los datos podemos estimar la vida media hasta el fallo como: θ̂ = MTTFOBSERVADO = T = 1.365,58 12 horas, donde T es el tiempo total en test T = 55+58+86+131+335+376+517+544+920+953+1.072+1.260+8×60 = 16.387 La vida media evaluada hasta el fallo es de 1.365,58 horas. La fiabilidad observada a 600 horas es 12/20 = 0,60, donde 12 son los dispositivos que han superado las 600 horas. La fiabilidad evaluada a 600 horas es: R(600) = exp(-600/1.365,58) = 0,64 © Los autores, 2003; © Edicions UPC, 2003. Conceptos fundamentales 21 Cálculo de la fiabilidad mínima de 600 horas con una confianza del 0,95 Primero se calcula el intervalo de confianza unilateral del 0,95 para θ, que es: 900,01= 2T 2 χ0,95:24 ≤ θˆ 2 = 36,415 . Así, se deduce que la vida media donde el percentil 0,95 de la distribución χ0,95;24 de los dispositivos es de 900,01 horas como mínimo, con una confianza del 0,95. Utilizando el límite inferior de la estimación de la vida media se encuentra el intervalo de confianza unilateral del 0,95 para R(600), que es R(600) = exp(-600/900,01) = 0,51 De donde se interpreta que, como mínimo, la fiabilidad a 600 horas es de 0,51 con una confianza del 0,95, lo que indica que 51% de los dispositivos superarán las 600 horas y esta afirmación se hace con una confianza del 0,95. Nota: las fórmulas para los cálculos se encuentran descritas en el capítulo 2. La fiabilidad extrapolada (extrapolated reliability) se refiere a un valor obtenido al extrapolar o interpolar una fiabilidad observada o evaluada para poder obtener un valor aplicable a condiciones de estrés distintas, en que se van obteniendo resultados experimentales. Habitualmente, los valores extrapolados se basan en pruebas de vida aceleradas, que comentaremos en el capítulo 4. La fiabilidad predicha (predicted reliability) designa un valor aplicable a un sistema, que se obtiene a partir de los valores observados, evaluados o extrapolados, de sus componentes. Los métodos para el cálculo de las características de fiabilidad de un sistema se harán en el capítulo 5. La tasa de fallo (failure rate) es una característica de la fiabilidad que se puede interpretar como la velocidad a la que se producen los fallos, la fracción de unidades de un producto que fallan por unidad de tiempo. Si la tasa de fallo es constante se designa por λ y si es función del tiempo t se designa por h(t) y se llama función de riesgo (Hazard function). La tasa de fallo es la magnitud recíproca de la vida media, ya que generalmente representa un número medio de fallos por unidad de tiempo. Igual que las otras características de fiabilidad, la tasa de fallo para un tiempo dado puede ser observada, extrapolada, etc. La tasa de fallo, para un intervalo (t1, t2) se define como: h(t1, t2)= R (t1)-R (t 2 ) (t 2 -t1)R (t1) © Los autores, 2003; © Edicions UPC, 2003. 22 Fiabilidad industrial y es llamada también tasa de fallo auténtico (true failure rate). La fiabilidad R(t) representa la proporción de unidades que no han fallado en el instante t. El cociente (R(t1) - R(t2)) / R(t1) representa la fracción de unidades que, no habiendo fallado en el instante t1, fallan en el intervalo (t1, t2). Si hacemos el límite de h(t1, t2) cuando t2 tiende a t1 se obtiene la función de riesgo o tasa de fallo instantáneo en un instante t, que es una derivada: h(t)= -R ′(t) R (t) Si se asume que la tasa de fallo no depende de t, es decir es constante, el tratamiento estadístico es mucho más sencillo tal como veremos en el siguiente capítulo. Ejemplo 1.4 La siguiente tabla de mortalidad debida a Halley (1693) es un ejemplo clásico, que fue discutido por Todhunter en 1949, que puede servir de ilustración para discutir las fórmulas de la fiabilidad y de la tasa de fallo definidas. La tabla muestra las edades de defunción de las personas de la época, que vienen agrupadas en intervalos de 5 años. Edad t Proporción F(t) Fiabilidad R(t) Tasa h(t) 0−5 5−10 10−15 15−20 20−25 25−30 30−35 35−40 40−45 45−50 50−55 55−60 60−65 65−70 70−75 75−80 80−85 0,290 0,057 0,031 0,030 0,032 0,037 0,042 0,045 0,049 0,052 0,053 0,050 0,050 0,051 0,053 0,044 0,034 0,290 0,347 0,378 0,408 0,440 0,477 0,519 0,564 0,613 0,665 0,718 0,768 0,818 0,869 0,922 0,966 1 0,710 0,653 0,622 0,592 0,560 0,523 0,481 0,436 0,387 0,335 0,282 0,232 0,182 0,131 0,078 0,034 0 0,058 0,016 0,009 0,010 0,011 0,013 0,016 0,019 0,022 0,027 0,032 0,035 0,043 0,056 0,081 0,113 0,200 © Los autores, 2003; © Edicions UPC, 2003. Conceptos fundamentales 23 1.3 Pruebas de vida Las pruebas de vida son experimentos cuya finalidad es determinar el valor de una característica de fiabilidad (determination tests) o bien asegurar que una característica de fiabilidad es superior o inferior a un límite especificado (compliance test). Una cuestión importante es la elección de las condiciones exteriores y el régimen de trabajo que hace falta seguir durante las pruebas. En la elección de las condiciones se deben tener en cuenta las particularidades del producto durante su explotación, como temperatura, humedad, tensión, vibraciones, etc. Las condiciones exteriores pueden tener una influencia decisiva en la variación de los parámetros medidos. La aproximación de las pruebas de vida es estadística, puesto que a priori no puede saberse cuándo se va a producir el fallo. Es decir, la aparición del fallo tiene un carácter aleatorio. El conjunto de reglas que rigen el desarrollo de las pruebas se designa por plan de las pruebas y éste ha de estar bien definido antes de empezar a experimentar. Debe fijarse el número de unidades que se prueban, y la duración, que vendrá restringida por la disponibilidad económica y de tiempo. La duración puede fijarse en tiempo o en número de unidades que sé esta dispuesto a observar que fallen. En ambos casos puede pasar que la prueba termine y haya unidades donde no se ha observado el fallo. Los ejemplos 1.2 y 1.3 ilustran situaciones típicas de pruebas de vida: en el ejemplo 1.2 se fija la duración de la prueba en 60.000 ciclos y en el ejemplo 1.3 se fija la cantidad de unidades que se está dispuesto a esperar que fallen, en particular 12. El tratamiento estadístico en este caso requiere de las técnicas de muestras estadísticas no completas, puesto que la información de que se dispone sobre algunas unidades es que el fallo no ha ocurrido durante el tiempo de la prueba, denominado tiempo total de test. Estos datos se llaman censurados. El concepto de censuramiento se define en el capítulo 2. También es importante fijar si el seguimiento de la prueba será continuo o periódico. En muchos casos no se dispone de equipos conectados a las unidades para poder determinar exactamente cuándo ha habido el fallo y en estos casos debe fijarse con qué periodicidad se efectuará y cuáles serán las unidades de medida. En otros casos puede que el seguimiento no sea en tiempo real sino operacional, es decir el seguimiento se hace a largo plazo y sólo cuando el dispositivo opera, por ejemplo en el tiempo de vuelo, y no el tiempo desde su fabricación. Es importante establecer si las unidades que fallan serán reemplazadas o no, a medida que vayan fallando (sistemas reparables o no reparables) y cuándo se dá por terminada la prueba. Debido a la duración y al coste de las pruebas de vida se plantea el reducir el número de unidades sometidas al test y el tiempo de la prueba. En algunos casos la magnitud de la vida media del producto hace inviable una prueba de vida en las condiciones normales de funcionamiento del producto. Es en estos casos que se hace necesaria la realización de pruebas de vida aceleradas (accelerated life test), en las cuales las condiciones de la prueba se hacen más severas a fin de acelerar el proceso de envejecimiento y bajar la vida media. Para poder sacar partido de este tipo de pruebas debe disponerse de un modelo teórico o empírico que permita la extrapolación de los resultados en condiciones ordinarias de © Los autores, 2003; © Edicions UPC, 2003. 24 Fiabilidad industrial funcionamiento. Las principales dificultades de la elaboración de planes de prueba de vida acelerada están ligadas al estudio de los aspectos físico-químicos del proceso de envejecimiento, en función de las condiciones externas y el régimen de trabajo. Este tema se desarrolla en el capítulo 4. 1.4 Distribuciones de probabilidad en fiabilidad En muchas áreas de la estadística aplicada, la distribución Normal es el punto de partida natural para modelar la variable aleatoria de interés. Puede resultar de consideraciones puramente pragmáticas o del argumento teórico basado en el Teorema del Límite Central, el cual nos dice que si una variable aleatoria es la suma de un gran número de efectos pequeños, entonces la distribución es aproximadamente Normal. En el contexto de fiabilidad, el caso de la Normalidad tiene una importancia menor. Por un lado los tiempos de vida y las resistencias a la rotura son cantidades inherentemente positivas y además para una variable aleatoria de estas características surge de forma natural la idea de que la aparición de fallos puede seguir el proceso de Poisson, con lo que en este caso la distribución exponencial es más adecuada. En la práctica, los modelos utilizados en fiabilidad son generalizaciones de la distribución exponencial, tales como las distribuciones Gamma y Weibull. Otro aspecto distintivo del análisis estadístico de los datos de fiabilidad es el papel central que juegan la función de fiabilidad y la función de riesgo (Hazard Function) y la natural aparición de datos censurados. 1.4.1 El proceso de Poisson El proceso de Poisson modeliza los tiempos entre sucesos aleatorios. Supongamos que se observan una serie de sucesos aleatorios; concretando, supongamos que los sucesos son fallos de unidades, de forma que las observaciones son tiempos entre fallos, por ejemplo en sistemas reparables. Las hipótesis naturales, las cuales pueden o no satisfacerse en algún ejemplo particular, son: Los fallos que ocurren en intervalos de tiempo disjuntos son estadísticamente independientes. La tasa de fallo (media de fallos por unidad de tiempo) es constante, así que no depende del intervalo examinado en particular. Cuando ambas hipótesis se cumplen, entonces el proceso de aparición de fallos se llama proceso de Poisson con tasa de fallo λ. El proceso de Poisson tiene dos propiedades importantes: El número de fallos X en un intervalo de longitud t sigue una distribución de Poisson con media λt, de tal forma que Pr(X = k) = (λt)k e-λt/k! , k≥0 © Los autores, 2003; © Edicions UPC, 2003. Conceptos fundamentales 25 Los tiempos entre fallos sucesivos son variables aleatorias independientes, cada una de las cuales sigue una distribución exponencial con parámetro λ, así que: Pr(tiempo de fallo > t) = e-λt, 0 < t < ∞ El tiempo medio entre fallos (MTBF) es λ-1. La primera propiedad está totalmente relacionada con la distribución de Poisson de parámetro λ: X ∼Poisson(λ) ⇔ Pr(X = k) = λke-λ/k!, k = 0,1,2, ... Además, el proceso de Poisson es un buen modelo para aquellos sistemas con muchos componentes que pueden fallar, pero que la probabilidad de fallo de cada uno de los componentes es pequeña. Este fenómeno es conocido con el nombre de sucesos raros. La segunda propiedad sugiere la distribución exponencial como modelo para tiempos de vida. La distribución exponencial se estudiará en el capítulo 2. En las aplicaciones la hipótesis 2 puede ser crítica, ya que muchos sistemas pueden mejorar o deteriorarse con el tiempo. En este caso se necesitan modelos más generales como los procesos de Poisson no homogéneos (Nonhomogeneous Poisson Process) donde la tasa de fallo no es constante. Este tipo de modelos es particularmente importante en el análisis de sistemas reparables. Para ampliar el tema consultar el capítulo 8 del libro de Crowder y otros (1995). 1.4.2 Preliminares de las distribuciones del tiempo de vida Para fijar ideas, supondremos la variable aleatoria T = "duración de una unidad hasta el fallo" Aquí utilizaremos tiempo en el sentido más general. Puede ser tiempo real o tiempo operacional o incluso cualquier variable no negativa, tal como resistencia a la rotura o número de revoluciones hasta el fallo o número de ciclos hasta el fallo. Entonces F(t) = Pr(T ≤ t) es la función de distribución de T y R(t) = Pr(T > t) = 1-F(t) es la función de fiabilidad o función de supervivencia de T. Fiabilidad (R) se utiliza en el contexto de fiabilidad industrial y supervivencia (S) en el contexto de supervivencia en epidemiología. Diremos que T tiene la función de densidad f(t) = dF (t ) dR(t ) =dt d(t ) © Los autores, 2003; © Edicions UPC, 2003. 26 Fiabilidad industrial así que la probabilidad de que una unidad falle en un intervalo de tiempo pequeño (t, t+δt] es Pr(t < T ≤ t+δt) ≅ f(t)δt Consideremos el mismo suceso, t < T ≤ t+δt, condicionado al hecho de que la unidad no ha fallado antes del tiempo t. Es decir Pr(t < T ≤ t+δt| T>t) ≅ f(t )δt R (t ) La función h(t) dada por h(t) = -R ′(t ) f (t ) = R (t ) R (t ) es la función de riesgo (hazard function) o función tasa de fallo, y es un indicador de la disposición al fallo de una unidad después de un intervalo de funcionamiento t. La función de riesgo acumulada es t H(t)= ∫ h(u )du 0 de donde se puede deducir R(t) = exp{-H(t)} Obsérvese que f, F, R, h y H son descripciones equivalentes de T en el sentido que, dada cualquiera de ellas, se pueden deducir las otras cuatro. A continuación discutimos tipologías de la función de riesgo: Si h(t) = λ es constante, entonces H(t) = λt y R(t) = exp(-λt), que es la función de fiabilidad de una distribución exponencial de parámetro de tasa de fallo λ. La correspondiente función de densidad es f(t) = λe-λt Así, la distribución del tiempo de vida exponencial corresponde a dispositivos que no envejecen, y es un punto de partida para modelar datos de fiabilidad. Esta es la etapa de la vida de un dispositivo llamada período de fallo con tasa constante (constant failure rate periode). Si h(t) es una función creciente de t, entonces se dice que T tiene una tasa de fallo creciente. Esto es apropiado cuando las unidades están sujetas al envejecimiento debido al desgaste, la fatiga o la acumulación de daños. Esta es la etapa de la vida de un dispositivo llamada período de fallo por desgaste (wear-out failure periode). © Los autores, 2003; © Edicions UPC, 2003. Conceptos fundamentales 27 Conceptos fundamentales p27 n Si h(t) es una función decreciente de t, ent nces se dice que T tiene una tasa de fall decreciente. Estfunción puede currir, p de r ejempl , cuand el prque ces de fabricación duce Si h(t) es una decreciente t, entonces se dice T tiene una tasa deprfallo decreciente. Esto puede ocurrir, por ejemplo, cuando el proceso de fabricación produce una pr p rción apreciable de unidades c n baja calidad que pueden pr v car un fall una proporción de unidades conlas baja calidad de quecalidad puedensuperi provocar falloda prec z. Pasad apreciable un ciert tiemp , quedan unidades r, l uncual precoz. unidadescdemún calidad cualsitiv da s una tasaPasado de fallun cierto inferi tiempo, r. Esta quedan es unalassituación en superior, algun s lo disp una tasa de fallo inferior. Esta es una situación común en algunos dispositivos electrónic s. En tales cas s se s mete a veces al disp sitiv a una prueba de electrónicos.c En tales casos somete dispositivo a una prueba resistencia n estrés más se grande dela cveces rrespalndiente a las c ndici nesdede resistencia con estrés más grande del correspondiente a las condiciones deen funci namient para eliminar las unidades subestándares. Estas pruebas s n típicas para eliminar las unidades subestándares. Estases pruebas sondetípicas ende lafuncionamiento industria electrónica, y se llaman pruebas de burn-in. Esta la etapa la vida la industria electrónica, y se llaman pruebas de burn-in. Esta es la etapa de la vida de un disp sitiv llamada período de fallo precoz (early failure periode). un dispositivo llamada período de fallo precoz (early failure periode). n Otra c sa que se debe resaltar es la función de riesg en f rma curva de bañera (bathOtra cosa que se debe resaltar es la función de riesgo en forma curva de bañera (bathtub hazard), que tiene un riesg inicial decreciente per eventualmente pasa a un riesg tub hazard), que tiene un riesgo inicial decreciente pero eventualmente pasa a un riesgo creciente. Un escenari en el cual se puede bservar este c mp rtamient es c m creciente. Un escenario en el cual se puede observar este comportamiento es como sigue. L s disp sitiv s c n baja calidad tienden a tener una fallada prec z, dejand sigue. Los dispositivos con baja calidad tienden a tener una fallada precoz, dejando pas s de tienden aa hacer hacer bajar bajary yaacontinuación c ntinuaciónaplanar aplanar paso aa l los de alta alta calidad. calidad. Est Estoss tienden la la función de riesg en la etapa de su vida para la cual ha sid diseñada. Después de este función de riesgo en la etapa de su vida para la cual ha sido diseñada. Después de este perí d , debid crecer,yycausa causauna unafunción funcióndederiesgo riesgcreciente. creciente. período, debido aa la la fatiga, fatiga, empieza empieza aa crecer, Tasa Tasa de de fallo fallo FFALLO ALLO PRECOZ PRECOZ ESGASTE DD ESGASTE T ASACONSTANTE CONSTANTE TASA Tiempo Tiempo Figura 1.2 1.2 Etapas Figura Etapas de de lalavida vidade deun undispositivo disp sitiv Observaciones: en en muchas muchas situaci situaciones Observaciones: nes de de interés interés aplicado aplicad lalamayoría may ríadedelaslasunidades unidades defectuosas son separadas (quizá como resultado del control de calidad) empezar defectu sas s n separadas (quizá c m resultad del c ntr l de calidad)antes antesdede empezar el período de observación con lo cual es difícil encontrar funciones de riesgo decreciente. La el perí d de bservación c n l cual es difícil enc ntrar funci nes de riesg decreciente. La fiabilidad de algunos componentes electrónicos, puede ser tan alta que el equipo del que fiabilidad de algun s c mp nentes electrónic s, puede ser tan alta que el equip del que formaran parte quedará obsoleto antes de llegar a la fase de desgaste, por lo cual en este f tipo rmaran parte quedará bs let antes de llegar a la fase de desgaste, p r l cual en este de productos no interesa la etapa del período de envejecimiento. tip de pr duct s n interesa la etapa del perí d de envejecimient . En algunos productos el período de fallo precoz no forma parte de su vida comercial, ya que En s prla duct s el perí d deque fall elprec n f rma dede sulavida c mercial, yase que sealgun organiza producción de forma fallo z precoz se départe dentro fábrica. Por esto sesomete rganiza la pr ducción de f rma que prueba el fall prec z se dé dentr de la fábrica. P r estdelse a veces al dispositivo a una de resistencia con estrés más grande s correspondiente mete a veces a al las dispcondiciones sitiv a una prueba de resistencia c n estrés más grande de funcionamiento. Estas pruebas son típicas en ladel c industria rresp ndiente a las c ndici nes de funci namient . Estas pruebas s n típicas en la electrónica, y se llaman pruebas de burn-in. Y es por esto, que en muchos industria electrónica, y se llaman pruebas de burn-in. Y es p r est , que en much s productos solamente interesa la etapa período de fallo con tasa constante. pr duct s s lamente interesa la etapa perí d de fall c n tasa c nstante. Es difícil encontrar modelos probabilísticos para modelar funciones de riesgo con curva de Es difícil Pueden enc ntrar m del s pr babilístic s para m este delarproblema funci nes riesg c n(1979). curva de bañera. encontrarse estudios donde se trata ende Gaver y Acar bañera. Pueden enc ntrarse estudi s d nde se trata este pr blema en Gaver y Acar (1979). © Los autores, 2003; © Edicions UPC, 2003. 28 Fiabilidad industrial Ejemplo 1. 5 El siguiente gráfico es la tasa de fallo de la tabla de mortalidad de Halley (ejemplo 1.4). Obsérvese que tiene forma de curva de bañera. 05 510 10 -1 15 5 -2 20 0 -2 25 5 -3 30 0 -3 35 5 -4 40 0 -4 45 5 -5 50 0 -5 55 5 -6 60 0 -6 65 5 -7 70 0 -7 75 5 -8 80 0 -8 5 0,25 0,2 0,15 0,1 0,05 0 AÑOS 1.5 Enfoques de la fiabilidad Para finalizar este capítulo, y a manera de síntesis podemos decir que la fiabilidad en la industria se puede enfocar desde un punto de vista cuantitativo o cualitativo. Desde el punto de vista cuantitativo, tenemos herramientas como la curva de fiabilidad, la curva de degradación o las características de fiabilidad para cuantificar el comportamiento de la vida de los dispositivos. Estos conceptos ya han sido desarrollados a lo largo de este capítulo. Desde el punto de vista cualitativo las herramientas que se utilizan en la industria son el Análisis de modo de fallo y sus efectos (AMFE) y los análisis por árboles de fallos FTA (failure tree analysis). Este último se desarrollara en el capítulo 5. El análisis modal de fallos y sus efectos es un sistema metódico de valoración de prioridades de riesgos de un proceso o producto con el propósito de reconocer y evaluar fallos potenciales de un producto o proceso y sus efectos, identificar acciones que puedan eliminar o reducir el riesgo de los potenciales fallos y documentar el proceso. Fue desarrollado por la NASA en el proyecto Apolo a mediados de los años 70. Después de las aplicaciones en los viajes aéreos y espaciales así como en las centrales nucleares se utilizó de inmediato en la industria de la automoción; actualmente es una herramienta de uso habitual en la industria. Es una técnica de carácter preventivo que debe llevarse a cabo en las fases de diseño y desarrollo de productos y servicios a lo largo del proceso de fabricación para que se puedan detectar y prevenir los posible modos de fallo potenciales. En el manual Potential Failure Mode and Effects Analysis de la QS 9000, normativa del sector de la automoción Ford, Opel y General Motors, pueden encontrase las ideas fundamentales de esta técnica y la manera de aplicarlas. © Los autores, 2003; © Edicions UPC, 2003. Fiabilidad con tasa de fallo constante 29 2 FIABILIDAD CON TASA DE FALLO CONSTANTE En este capítulo se aborda el modelo exponencial que, como hemos mencionado en el apartado 1.4, es un punto de partida natural como distribución en fiabilidad. Se introducen las muestras aleatorias no completas y el concepto de datos censurados. Se plantea la estimación de la vida media y la tasa de fallo para distintos tipos de pruebas de vida. 2.1 El modelo Exponencial La función de fiabilidad de una variable aleatoria T = "Tiempo de vida hasta el fallo de un dispositivo", cuya distribución es expo-nencial, se expresa como -t R(t) = Pr(T > t) = exp(-λt) = exp , t > 0 θ donde λ es un parámetro positivo, denominado tasa se fallo, y θ=1/λ es otra parametrización habitual de la distribución exponencial que representa la media del tiempo de vida . La figura 2.1 muestra dos funciones de fiabilidad. Utilizando las fórmulas del apartado 1.4 se deduce que h(t), la función de riesgo (hazard function) de la distribución exponencial es constante: h(t) = -R ′(t ) =λ R (t ) En este caso se llama tasa de fallo. La función de densidad exponencial tiene la expresión: f(t) = λ exp(-λt) = 1 t exp - , t >0 θ θ Para cualquier valor de λ la forma de la función de densidad es siempre la misma. Así, por ejemplo, si el tiempo en minutos, T, de cierto dispositivo es exponencial con tasa de fallo λ, el tiempo en horas es T*=T/60, y T* se distribuye exponencial con tasa de fallo 60λ. La figura 2.2 muestra dos funciones de densidad exponencial. La función de distribución exponencial viene dada por: F(t) = Pr(T ≤ t) = 1- exp(-λt), t>0 La media o esperanza matemática de la exponencial se deduce de ∞ E(T) = ∫ tf (t )dt = θ = 1/λ 0 © Los autores, 2003; © Edicions UPC, 2003. 30 Fiabilidad industrial y la varianza ∞ Var(T) = ∫ (t - θ)2 f (t )dt = θ2 = (1/λ)2 0 En el capítulo 3 veremos que la función exponencial es un caso especial de la distribución de Weibull. El ejemplo 2.1 ilustra la interpretación de las características de fiabilidad de la distribución exponencial. R(t) F ia b ilid a d 1 0 ,8 0 ,6 0 ,4 0 ,2 0 λ=5 λ=10 0 0 ,2 0 ,4 0 ,6 0 ,8 1 1 ,2 T Figura 2.1 Función de fiabilidad exponencial con tasa de fallo λ = 5 (sólido) y λ = 10 (punteado) f(t) D e n s id a d 10 8 6 4 2 0 λ=10 λ=5 0 0 ,1 0 ,2 0 ,3 0 ,4 0 ,5 0 ,6 T Figura 2.2 Función de densidad exponencial con tasa de fallo λ = 5 (sólido) y λ = 10 (punteado) © Los autores, 2003; © Edicions UPC, 2003. 0 ,7 0 ,8 Fiabilidad con tasa de fallo constante p31 Ejemplo 2.1 Cambio de un motor Diesel La duración en km del cambio de un motor Diesel de un automóvil sigue una ley exponencial de vida media θ = 300.000 km. La tasa de fallo es λ = 1/300.000 = 3×10-6 fallos/km o 3 fallos por 1 millón de km de funcionamiento. La dirección de una fabrica quiere decidir si es necesario rediseñar los equipos actuales para poder mantener la garantía, que es actualmente de 20.000 km de funcionamiento. Se calcula la probabilidad de que fallen antes de 60.000: 20.000 Pr(T ≤ 20.000) = F(20.000) = 1-R(20.000) = 1-exp = 0,0645 300.000 Esto indica que un 6,45% de los cambios fallan durante la garantía. La dirección de la empresa quiere saber en qué valor tiene que fijar la garantía para que fallen únicamente un 5% de los cambios de los motores. Para esto se plantea cuál ha de ser el valor k de la variable aleatoria T para que F(t) = 1-R(k) = 0,05, es decir R(k) = Pr(T > k) = 0,95, de donde se deduce: k R(k) = exp = 0,95 ⇒ k = -ln(0,95)x300.000 = 15.388 km 300.000 La magnitud k = 15.388 km representa el percentil del 5% de la distribución de la variable aleatoria T, km hasta el fallo de un cambio del motor. Conclusión: Si la dirección desea que sólo fallen un 5% de los cambios del motor durante el período de garantía debería fijarla en 15.388 Km. de funcionamiento. En caso de querer mantener los 20.000 Km. debería rediseñar los cambios. Es importante remarcar que esto se ha hecho suponiendo que el modelo exponencial es adecuado para modelar los km de funcionamiento hasta el fallo de los cambios de los motores. 2.2 Datos censurados Frecuentemente los datos de tiempo de vida tienen observaciones incompletas. El tratamiento estadístico y en particular la estimación de las características de fiabilidad cambia respecto a la estimación clásica de muestras completas. Este tipo de datos se denominan datos censurados. El mecanismo de censuramiento puede ser por la derecha, por la izquierda y por intervalo. En principio el tiempo de vida de las unidades no depende del mecanismo de censuramiento. Ocurre comúnmente que el valor exacto del tiempo de vida de una unidad no es observado pero se sabe que excede de un cierto tiempo c. Tales tipos de observaciones reciben el nombre de censuradas por la derecha. Una observación de este tipo aparece cuando la unidad aún no ha fallado cuando termina el tiempo previsto de la prueba de vida. © Los autores, 2003; © Edicions UPC, 2003. 32 Fiabilidad industrial El censuramiento por la izquierda aparece cuando de la unidad se conoce que ha fallado algún tiempo antes c. Por ejemplo cuando el test sobre la unidad se hace cada hora. Si una unidad ha fallado antes de la primera hora entonces de la unidad sólo se sabe que el tiempo de vida es inferior a una hora. En este escenario puede darse que una unidad falle entre la segunda y la tercera hora (es decir, que la unidad trabaje en el segundo test y en el tercero ya no funcione). Entonces sabemos que la unidad ha durado más de dos horas pero menos de tres horas. Este es un ejemplo de censuramiento por intervalo. Un posible mecanismo de censuramiento, conocido como tipo I, es cuando se ponen n unidades en un ensayo y a priori se fija un periodo t0 de la prueba. Entonces, los i-ésimos tiempos de vida Ti (i = 1, ... ,n) que se observan son los que Ti ≤ t0, mientras que hay otros de los que sólo se sabe que Ti > t0. Este tipo de censuramiento es fácil de tratar estadísticamente. Otro tipo de mecanismo de censuramiento puede darse cuando se hace un test a n unidades y cada unidad es observada hasta que el observador está convencido de que la unidad ha empezado a fallar. El punto de vista del observador se basa en su experiencia y no en puras suposiciones. En este caso, el mecanismo de censuramiento contiene información de interés sobre los tiempos de vida. Esta situación se puede formalizar de la siguiente forma: sea Ti censurada por la derecha por ci; entonces se sabe que Ti > ci y además Ti = ci + εi, donde εi es una variable aleatoria positiva de media cero y varianza pequeña (su pequeñez depende de la experiencia del observador). Así, según este esquema, una unidad censurada en ci puede no ser representativa de todas las unidades que tienen un tiempo de vida ci o superior. Este tipo de mecanismo de censuramiento debe tratarse con métodos estadísticos más complejos que no se desarrollarán en este texto. (Puede consultarse Crowder y otros (1995).) Una forma de censuramiento habitual en estudios de fiabilidad es el censuramiento por la derecha llamado tipo II. En este caso se fija la duración del ensayo hasta después de haber observado un número especificado de unidades que fallen. Obsérvese que el tiempo de censuramiento por la derecha (o tiempos, si todas las unidades no se han puesto en funcionamiento a la vez) no es (son) conocido (s) por avanzado. Pueden encontrarse otras formas más complicadas de censuramiento por la derecha, pero deben tratarse de manera particular cada una de ellas, sabiendo que cualquier unidad censurada por la derecha en ci es representativa de todas las unidades similares que tienen un tiempo de vida superior a ci. Para el censuramiento por la izquierda y por intervalo pueden aplicarse criterios similares. Dada una muestra aleatoria simple de la variable de interés T si la realización de la muestra es completa, es decir, si disponemos de todos los tiempos de vida, se trata de pruebas de vida con datos completos. Si la realización de la muestra es incompleta, por lo tanto no hemos observado todos los fallos, se trata de pruebas de vida con datos censurados. 2.3 Estimación de la vida media y la tasa de fallo de la distribución exponencial Sea T = "tiempo de vida de una unidad", una variable aleatoria que se distribuye exp(θ). Sea T1, T2, ... , Tn una muestra aleatoria de T. Se define el tiempo total de test T, como la suma de los tiempos de funcionamiento de las unidades de la muestra (hayan fallado o no). © Los autores, 2003; © Edicions UPC, 2003. Fiabilidad con tasa de fallo constante 33 El valor estimado de la vida media viene dada por MTTF = θ̂ = T r ^ indica la estimación del parámetro θ, la vida media hasta el fallo. T es el tiempo total en test y r es el número de fallos observados. Cuando la muestra es completa r coincide con n, tamaño de la muestra. El valor estimado de la tasa de fallo λ= 1/θ viene dado por λ̂ = r T donde T es el tiempo total de test y r es el número de fallos observados. Obviamente aquí también, para una muestra completa r, coincide con n. 2.4 Pruebas con datos completos. Intervalos de confianza 1-α para la vida media y la tasa de fallo El intervalo de confianza bilateral 1-α para la vida media es χ 2T 2 (1-α/2);2n ≤ θˆ ≤ χ 2T (2.1) 2 (α/2);2n donde T es el tiempo total de test de una muestra de tamaño n y χ1-2 α;ν es el (1-α)-percentil 2 de la distribución χ con ν grados de libertad, en este caso ν = 2n, donde n es el tamaño de la muestra. El intervalo de confianza unilateral 1-α para la vida media es 2T χ(1-2 α);2n ≤ θˆ (2.2) donde T es el tiempo total en test de una muestra de tamaño n y χ2α;ν es el (1-α)-percentil de la distribución χ2 con ν grados de libertad, en este caso ν = 2n. El intervalo de confianza bilateral 1-α para la tasa de fallo λ es χ(2α/2);2n 2T ≤ λˆ ≤ χ(1-2 α/2);2n (2.3) 2T donde T es el tiempo total de test de una muestra de tamaño n y 2 distribución χ con ν grados de libertad, en este caso ν = 2n. © Los autores, 2003; © Edicions UPC, 2003. χ2α;ν es el α-percentil de la 34 Fiabilidad industrial De forma similar, se puede definir el intervalo de confianza unilateral 1-α para la tasa de fallo λ χ2α;2n 2T ≤ λˆ (2.4) Ejemplo 2.2 La siguiente tabla presenta los datos obtenidos en una prueba de vida en que se midieron los tiempos de perforación (time to breakdown) en minutos, de un fluido aislante entre electrodos sometido a un voltaje de 34 kV. El experimento duró hasta que todos los componentes (n = 19) fallaron. (fuente W. Nelson 1982) Sea la variable aleatoria T= "Tiempo, en minutos, de un fluido aislante sometido a 34 kV" y supongamos que T es exponencial. El tiempo total de test es T = n ∑t i = 272,82 minutos, donde t1,...,tn es la realización de la i=1 muestra de la variable aleatoria T. La media del tiempo de vida en minutos es θ̂ = T = 272,8191/19 = 14,3589 minutos. n El intervalo de confianza 0,95, aplicando la fórmula (2.1), de la media del tiempo de vida es 9,59 ≤ θ̂ ≤ 23,85 En los anexos se encuentran las tablas de son para este caso: 2 χ0,025;38 = 22,8785 χ2 donde los percentiles de la distribución χ2, 2 χ0,975;38 = 56,8955 lo que indica que la vida media de un fluido sometido a un voltaje de 34kV se encuentra entre 9,59 y 23,85 minutos con una confianza del 0,95. La tasa de fallo se estima como λ̂ = 1/ θ̂ = 0,0696, de donde se deduce que la tasa de fallo es de 0,0696 fallos por minuto. Aplicando la fórmula (2.3) se calcula el intervalo de confianza 0,95 para la tasa de fallo: 0,0419 ≤ λ̂ ≤ 0,1043 lo que indica que la tasa de fallo de un fluido sometido a un voltaje de 34kV se encuentra entre 0,042 y 0,10 fallos por minuto. © Los autores, 2003; © Edicions UPC, 2003. Fiabilidad con tasa de fallo constante 35 La función de fiabilidad estimada o evaluada es R(t) = exp -t , t≥0 14,36 de donde podemos decir que la fiabilidad evaluada a 15 minutos sería 0,35, es decir, que el 35% de los componentes sometidos a un voltaje constante de 34kV superaran los 15 minutos. El intervalo de confianza 0,975 unilateral para R(15) es exp(-15/9,59) = 0,21 ≤ R(15) Es decir, que con una confianza del 0,975 podemos asegurar que el 21% de los componentes superaran los 15 minutos. Nota: Obsérvese que para el cálculo del intervalo de confianza unilateral 0,975 para R(15) utilizamos el límite inferior del intervalo de confianza 0,95 de la estimación de la media del tiempo de vida. 2.5 Pruebas de vida con duración prefijada (Censuramiento tipo I) 2.5.1 Tiempos de fallo conocidos Supongamos un experimento en el que tenemos n dispositivos y prefijamos un tiempo t0 de duración y se registran los tiempos de fallo. Este tipo de prueba admite dos variantes, según si se reemplazan o no los dispositivos. En el primer caso se dice que la prueba se realiza con sustitución. Los dos tipos de prueba tienen un tratamiento matemático parecido, las pruebas con sustitución no tienen otra finalidad que aumentar el tamaño de la muestra. Al cabo de t0 horas observamos r < n fallos. En este caso el tiempo total en test T viene dado por: T= r ∑t +(n-r )t i 0 , donde ti ≤ t0 i=1 Si las pruebas son con sustitución, T = n x t0. La estimación de la vida media es θ̂ = MTTF = T/r (2.5) El intervalo de confianza bilateral 1-α es χ 2T 2 1-(α/2);2r +2 ≤ θˆ ≤ χ 2T 2 (α/2);2r © Los autores, 2003; © Edicions UPC, 2003. (2.6) 36 Fiabilidad industrial donde T es el tiempo total de test de una muestra de tamaño n y χ2α;ν es el α-percentil de la distribución χ con ν grados de libertad y donde r(<n) es el número de fallos observados de la muestra. 2 El intervalo de confianza unilateral se obtiene sustituyendo en la fórmula (2.6) α/2 por α en un solo límite. Hay una ilustración en el ejemplo 2.3. Si durante el período previsto para la prueba no se observa ningún fallo, es decir r = 0, no podemos dar un valor para θ ni para R(t0), pero sí límites de confianza inferiores para la vida media y la fiabilidad. Ejemplo 2.3 Se realiza una prueba de vida con n = 12 componentes durante una semana, es decir fijando el tiempo de duración en t0 = 168 horas, con substitución, observándose r = 3 fallos. Se quiere evaluar la fiabilidad al cabo de 168 horas y la vida media en horas de funcionamiento. El tiempo total en test T es de 168 x 12 = 2.016 horas. La vida media en horas de funcionamiento aplicando la fórmula (2.5) es θ̂ = MTTF = T/r = 2.016/3 = 672 horas. Sustituyendo α por α/2 en el límite inferior de la fórmula (2,6) se obtiene un límite inferior de confianza 0,95 para la vida media de 2x2016 =259,96 horas θˆ ≥ 2 χ0,95;8 2 donde χ0,95; 8 = 15,51 se encuentra en las tablas estadísticas del Anexo. Lo que indica que estos dispositivos tienen una duración media mínima de 259,96 horas, y esta afirmación se hace con una confianza del 0,95. La fiabilidad estimada al cabo de 168 horas es R̂ (168) = exp(-168/672) = 0,78 lo que indica que 78% de los dispositivos superan una semana. Obsérvese que ésta es una estimación puntual sin ningún grado de confianza. Se podría precisar más dando una aproximación por intervalo de confianza. Utilizando el límite de confianza inferior de la estimación de la vida media se obtiene con un 95% de confianza: R̂ (168) ≥ exp(-168/259,96) = 0,524 Es decir, la probabilidad de que una pieza funcione al cabo de 168 horas es superior al 52,4% con una confianza del 95%. © Los autores, 2003; © Edicions UPC, 2003. Fiabilidad con tasa de fallo constante 37 Si durante este período de 168 horas los n=12 componentes no hubiesen fallado, es decir, no se hubiese observado ningún fallo, podríamos asegurar, con una confianza del 95%, que la vida media de estos dispositivos es superior a: 2x2.016 4.092 θˆ ≥ = =673,12 2 χ0,95;2 5,99 Sustituyendo por θ̂ = 673,12 obtenemos R̂ (168) = exp(-168/673,12) = 0,78, que nos da un límite inferior de confianza para la fiabilidad al cabo de una semana, que se puede interpretar como que la probabilidad de que un componente no haya fallado al cabo de una semana es superior al 78%, con una confianza del 95%. 2.5.2 Pruebas de vida donde no se registran los tiempos de fallo En los estudios de fiabilidad en la industria pueden plantearse pruebas de vida donde, fijado un tiempo de duración t0, sólo se pueda obtener el número de fallos y no se registre el tiempo de fallo de cada unidad. En este caso puede calcularse la fiabilidad en el momento t0 como: R(t0)= n- r n (fiabilidad observada) donde n es el tamaño de la muestra y r son los fallos observados. El intervalo de confianza 1-α para la fiabilidad al cabo de t0 horas viene dado por 1 1+ (r +1)/(n -r ) F2 ≤ Rˆ (t0 ) ≤ F1 F1+(r /n - r +1)) (2.7) donde F1 = F (1- α2 ;2n -2r +2;2r ) y F2 = F (1- α2 ;2r +2;2n -2r ) son los (1-α/2) percentiles de la distribución F con 2n-2r+2 y 2r grados de libertad y 2r+2 y 2n-2r respectivamente. Los percentiles del 0,90 y 0,95 de la distribución F se encuentran en las tablas estadísticas del Anexo. De la misma manera que en la fórmula 2.6, puede obtenerse el intervalo unilateral inferior sustituyendo α/2 por α en el límite inferior de la fórmula (2.7). El comentario se ilustra en el ejemplo 2.4. Las fórmulas para obtener la fiabilidad observada y el intervalo de confianza anteriores, obviamente no dependen de la distribución de los datos. Si por estudios anteriores o por la naturaleza de los datos puede suponerse que el modelo exponencial es válido, se puede estimar la vida media como: θˆ = -t 0 = lnR (t 0 ) -t 0 n-r ln n © Los autores, 2003; © Edicions UPC, 2003. (2.8) 38 Fiabilidad industrial Ejemplo 2.4 Se dispone de n = 20 unidades de un dispositivo durante una semana, 168 horas. Al finalizar la semana sólo se observa que han fallado 5 unidades. La fiabilidad observada de este producto al cabo de una semana R(168) = 15/20 = 0,75 horas, lo que indica que un 0,75% de los dispositivos superan la semana. Esta aproximación es sin grado de confianza. Sustituyendo α/2 por α en el límite inferior de la fórmula (2.7) el intervalo de confianza 0,95 unilateral al cabo de 1 semana es: 1 1 0,54 = = ≤ Rˆ (168) 1+( r +1)/( n r ) F 2 1+ (5+1)/(20-5) F2 donde F2 = F(0,95;12;30) = 2,09, n es el tamaño de la muestra y r el numero de fallos observados. Con lo que se puede afirmar que la fiabilidad del dispositivo al cabo de una semana es superior al 54%, con una confianza del 95%. Si podemos suponer que los tiempos de vida (no registrados) se distribuyen exponencial, a partir de la fórmula (2.8) una estimación puntual de la vida media es: -168 θˆ = = 583,9 horas 15 ln 20 El intervalo unilateral inferior con una confianza del 95%, utilizando el límite de confianza inferior obtenido para la fiabilidad en la fórmula 2.8, es: -168 = 272,6 ≤ θ̂ ln(0,54) Concluimos que la validez del modelo exponencial permite asegurar que la vida media es superior a 272,6 horas, con una confianza del 95%. 2.6 Pruebas de vida con número de fallos prefijados (Censuramiento tipo II) Supongamos una prueba donde especifiquemos previamente el número de componentes que estamos dispuestos a esperar que fallen. Este tipo de prueba se utiliza cuando el coste de los dispositivos es elevado, o en la fase de desarrollo del producto donde se dispone de pocos prototipos. Sea r el número de fallos prefijado; entonces la muestra ordenada de los tiempos será t(1), t(2), ... ,t(r), t(r+1), ... ,t(n) y el tiempo total de test T = t(1) + t(2) + ... + t(r) + (n-r)t(r) Nota: Una muestra ordenada es cuando t(1) ≤ t(2) ≤ ... ≤t(r) < t(r+1) ≤ ... ≤ t(n), donde el subíndice entre paréntesis sirve para distinguirla de una muestra aleatoria simple. La estimación de la vida media es: © Los autores, 2003; © Edicions UPC, 2003. Fiabilidad con tasa de fallo constante 39 θ̂ = MTTF = T /r El intervalo de confianza bilateral 1-α de la vida media: χ 2T 2 (1- α/2);2 r ≤ θˆ ≤ χ 2T 2 ( α/2);2 r Igual como se ha desarrollado en el apartado 2.5 se obtiene una estimación de la fiabilidad y los intervalos de confianza (1-α) bilaterales y unilaterales sustituyéndose el valor estimado de θ̂ en la fórmula de la fiabilidad de una exponencial. En el ejemplo 2.5 se desarrollan algunos de estos cálculos. Ejemplo 2.5 Sea una prueba de vida donde se ponen en funcionamiento 12 dispositivos y se detiene la prueba una vez han fallado r = 4 dispositivos. Los tiempos de los 4 primeros fallos han sido: 175,2 185,5 215,2 y 315,7 horas. Se quiere evaluar la vida media de los dispositivos y la fiabilidad al cabo de 200 horas de funcionamiento. El tiempo total de test es T = t(1) + t(2) + ... + t(r) + (n-r)t(r) = 175,2 + 185,5 + 215,2 + 315,7 + 8x315,7 = 3.417,2 horas. La estimación de la vida media es θ̂ = MTTF = T/r = 854,3 horas. El intervalo de confianza bilateral 0,90 es 440,64= donde 2 χ0,95;8 = 15,51 y 2 χ0,05;8 2x3.417,2 χ 2 0,95;8 2x3.417,2 ≤ θˆ ≤ =2.503,44 2 χ0,05;8 = 2,73. Utilizando la estimación puntual de la vida media y sustituyendo en la fórmula de la fiabilidad -t de una distribución exponencial R(t)=exp , se obtiene una estimación puntual de la θ fiabilidad a las 200 horas de funcionamiento: R(200) = exp(-200/854,3) = 0,79 lo que indica que un 79% de los dispositivos superan las 200 horas. Para calcular el intervalo unilateral de la fiabilidad a las 200 horas se sustituye el límite inferior de la estimación por el intervalo de la vida media del dispositivo en la expresión de la fiabilidad. Se obtiene R(200) ≥ exp(-200/440,64) = 0,45 Por lo tanto, la fiabilidad estimada al cabo de 200 horas será superior al 0,45, con una confianza del 95%. © Los autores, 2003; © Edicions UPC, 2003. Tasa de fallo no constante. El modelo de Weibull y otros 41 3 TASA DE FALLO NO CONSTANTE. EL MODELO DE WEIBULL Y OTROS Este capítulo trata el modelo de Weibull, que permite modelar tasas de fallo no constante, crecientes y decrecientes. También se tratan otras distribuciones como la Gumbel, la Normal y la lognormal. Se describen los gráficos de probabilidad como herramienta para validar el modelo de Weibull y estimar sus parámetros. Se expone brevemente el método de estimación de la máxima verosimilitud y se proponen estimadores para los parámetros basados en este método. 3.1 Modelo de Weibull La función de fiabilidad de una variable aleatoria T = "tiempo de vida de un dispositivo" de una distribución de Weibull(α,β) es t β R(t) = Pr(T > t) = exp − , t ≥ 0 α (3.1) donde α y β son parámetros positivos, α un parámetro de escala (scale) y β un parámetro de perfil o de forma (shape). Nótese que cuando β=1, se obtiene una distribución exponencial de λ = 1/α. En la figura 3.1 puede verse la forma de 4 funciones de fiabilidad con el mismo parámetro α=1 y distintos valores de β. La función de riesgo (hazard function) de Weibull es h(t) = βα-βtβ-1 Si β < 1 la función de riesgo o tasa de fallo disminuye al aumentar el tiempo. Este comportamiento es propio de los fallos prematuros. Productos con esta tasa de fallo suelen ser verificados en fábrica para que los fallos no se produzcan en el mercado. Si β = 1 (modelo exponencial) la función de riesgo es constante. Una tasa de fallo constante es una característica de los fallos ocasionales. En esta situación el número de fallos y el momento en que ocurren no depende del tiempo que el dispositivo funciona. Si β > 1 la función de riesgo es creciente. Esto indica que los fallos son debidos al envejecimiento, a la fatiga o al desgaste. En particular si 1 < β < 2, la función de riesgo crece rápidamente al principio y muy poco al final; para β = 2 la función de riesgo crece linealmente con el tiempo; para β > 2 crece poco al principio y rápido posteriormente, es decir, el intervalo de tiempo en el cual se produce un fallo es cada vez menor. Es recomendable que los dispositivos con tasa de fallo creciente tengan un plan de mantenimiento preventivo. En la figura 3.2 se muestra una selección de funciones de riesgo Weibull, crecientes, decrecientes y constantes. © Los autores, 2003; © Edicions UPC, 2003. 42 Fiabilidad industrial El p-percentil (tp) en la distribución Weibull se calcula a partir de la expresión: tp = α[-ln(1-p)]1/β que se deduce de despejar tp en: p = Pr(T ≤ tp) = 1-R(tp) = 1-exp[-(tp/α)β] (3.2) El parámetro α es aproximadamente el percentil del 63,2%, se interpreta como el valor de la variable del tiempo de vida en el que fallan el 63,2% de las unidades, y se obtiene sustituyendo α en la fórmula (3.2) y aproximando 1-e-1 ≅ 0,632. Esta propiedad se utiliza en la estimación gráfica de los parámetros de la Weibull, herramienta bastamente utilizada en la industria. En particular la mediana (0,5-percentil) de la distribución Weibull es: t0,5 = α[-ln(1-0,5)]1/β = α[(0,6931)]1/β (3.3) 1 β =8 0,8 0,6 0,4 β = 3,5 β =2 0,2 β =1 0 0 0,5 1 1,5 2 2,5 3 Figura 3.1 Funciones de fiabilidad de Weibull con α = 1 y β = 1; 2; 3,5 y 8 © Los autores, 2003; © Edicions UPC, 2003. 3,5 Tasa de fallo no constante. El modelo de Weibull y otros 43 β=2,5 6 β=2 4 β=0,5 β=1 2 0 0 0,5 1 1,5 2 Figura 3.2 Funciones de riesgo de Weibull con α = 1 y β = 0,5; 1; 2 y 2,5. La función de densidad de Weibull es: t β β β-1 f(t) = β t exp - , t > 0 α α La media viene dada por E(T) = µ = αΓ(1+(1/β)) (3.4) Var(T) = α2[ Γ(1+(2/β)) - Γ(1+(1/β))2] (3.5) y la varianza por donde la función Γ es Γ(x) = ∞ ∫0 u x -1 -u e du En el anexo de tablas estadísticas se encuentra la función Γ tabulada. Cuando β es grande (mayor que 5), la media y la varianza se pueden aproximar por α y 1,64α2/β2 respectivamente. La forma de la densidad depende del valor de β. En la figura 3.3 se muestran una selección de funciones de densidad. La distribución de Weibull es probablemente la más utilizada en análisis de la fiabilidad. Proporciona modelos razonables para tiempos de vida de muchos tipos de unidades distintas, tales como tubos de vacío, cojinetes de bola y envejecimiento de materiales composites. Una posible razón de esta adecuación es el hecho de que es una distribución de valores extremos. De todas maneras, la forma de la función de fiabilidad y la amplia variedad de formas de la función de densidad la hacen una generalización convenientemente particular de la distribución exponencial. © Los autores, 2003; © Edicions UPC, 2003. 44 Fiabilidad industrial 3,5 3 β= 8 2,5 2 1,5 β= 1 β= 3,5 1 β=2 0,5 0 -0,5 0 0,5 1 1,5 2 2,5 3 Figura 3.3 Funciones de densidad de Weibull con α = 1 y β = 1; 2; 3,5 y 8. Ejemplo 3.1 Sea T el tiempo de vida del tambor de una lavadora, que se distribuye según un modelo de Weibull con parámetros α=10 años y β=2. El parámetro α=10 años indica que un 36,8% de las bobinas duran más de 10 años, puesto que a es percentil del 0,632 de la distribución del tiempo de vida. El parámetro β=2 indica que tiene una función de riesgo linealmente creciente con el tiempo (figura 3.2). Esto indica que los fallos son debidos al envejecimiento. La vida media de las bobinas, aplicando la fórmula (3.4), es: µ = αΓ(1+(1/β)) = 10Γ(1+(1/2)) = 10x0,886 = 8,86 años Nota: Γ(1+(1/2)) = 0,886 se encuentra en las tablas de estadística (5). La mediana de la distribución es (3.3): t0.5 = -α[-ln(1-0,5)]1/β = 10[0,6931]1/2 = 8,32 años lo que indica que la mitad de las bobinas durarán 8,32 años. La varianza de la distribución (3.4) es Var(T) = α2[ Γ(1+(2/β)) - [Γ(1+(1/β))]2] = 21,5 años2 Y la desviación estándar 4,64 años. © Los autores, 2003; © Edicions UPC, 2003. Tasa de fallo no constante. El modelo de Weibull y otros 45 Si la garantía de los tambores es de 2 años, ¿qué proporción de tambores fallarán durante la garantía? Sea la variable aleatoria T = "tiempo de vida en años de los tambores": Pr(T ≤ 2) = 1-R(2) = 1-exp[-(2/10)2] = 0,039 donde R es la función de fiabilidad. Es decir, un 3,9 % de las bobinas fallarán durante la garantía. ¿Cuántos años de garantía se deberían establecer para que únicamente fallasen un 1% durante la garantía? R(t0,01) = exp[-(t0,01/10)2] = 0,99 ⇒ ln(0,99) = -(t0,01/10)2 ⇒ 2 t 0,01 = -ln(0,99)x100 = 1,005 años2 ⇒ t0,01 = 1,0025 años Es decir, se aconsejaría fijar la garantía en 1 año. 3.2 Otras distribuciones de fiabilidad La distribución de Gumbel, o del valor extremo, o Gompertz, tiene función de fiabilidad: R(x) = exp{exp[(x-µ)/σ], -∞ < x < +∞ donde µ es el parámetro de localización y σ > 0 es el parámetro de escala. Esta distribución también surge como una posible distribución límite de valores mínimos y tiene una tasa de fallo o función de riesgo (figura 3.4) exponencialmente creciente. Más comúnmente, sin embargo, surge como distribución del logT, donde T es una distribución de Weibull. La relación en este caso es µ = log α y σ = 1/β. La función de densidad de Gumbel es f(x) = σ-1exp{(x-µ)/σ}R(x), -∞ < x < +∞ Para todos los parámetros tiene la misma forma. La figura 3.4 muestra la función de densidad y la función de riesgo de una distribución de Gumbel con µ = 0 y σ = 1, donde puede observarse que la función de riesgo es creciente. © Los autores, 2003; © Edicions UPC, 2003. 46 Fiabilidad industrial Función de densidad de una distribución de Gumbel 0,4 0,3 0,2 0,1 0 -4 -3 -2 -1 0 1 2 Función de riesgo de una distribución de Gumbel 2 1,5 1 0,5 0 -4 -3 -2 -1 0 1 Figura 3.4 Funciones de densidad y de riesgo de Gumbel para µ = 0 y σ2 = 1 La distribución más frecuentemente utilizada en estadística es la distribución Normal cuya densidad de probabilidad es f(x) = (2πσ2)-1/2exp {-(x-µ)2/ (2σ2)} para -∞ < x < +∞, con media µ y varianza σ2. Cuando µ = 0 y σ = 1, se tiene la distribución Normal estándar. La forma de la función de densidad es la conocida campana de Gauss y la función de riesgo o tasa de fallo es una función creciente. Algunas veces se utiliza la distribución Normal como distribución del tiempo de vida, aunque da valores negativos con probabilidad positiva. Más frecuente es el uso como modelo para logT, logaritmo del tiempo de vida, que es equivalente a considerar la distribución lognormal para los tiempos de vida. © Los autores, 2003; © Edicions UPC, 2003. Tasa de fallo no constante. El modelo de Weibull y otros 47 Funciones de densidad de la distribución Normal 1,5 1 0,5 -3,5 -2,5 -1,5 0 -0,5 0,5 1,5 2,5 3,5 Funciones de riesgo de la distribución Normal 25 20 15 10 5 0 -1 -5 0 1 2 3 4 Figura 3.5 Funciones de densidad y de riesgo de la distribución Normal para σ = 1; 0,5 y 0,25 y µ = 0. La densidad lognormal viene dada por f(t) = (2πσ2t2)-1/2exp {-(log t-µ)2/ (2σ2)}, t > 0 La media y la varianza de la distribución lognormal son exp(µ+1/2σ2) y exp(2µ+σ2){exp(σ2)-1} respectivamente. Para valores pequeños de σ la distribución lognormal se parece a la normal. La utilización de estos modelos en las aplicaciones está justificada cuando las variables T o logT se puede suponer que son el resultado de la suma de un gran número de efectos pequeños, justificación teórica basada en el teorema del límite central. Las funciones de fiabilidad y de riesgo de la Normal y la lognormal sólo pueden expresarse en términos de integrales. La gráfica de la función de riesgo de la distribución lognormal crece al principio, eventualmente decrece, y tiende a 0 para t → ∞. Este comportamiento es justo al revés de lo que uno espera del tiempo de vida de una unidad en la práctica. Tal como se ha discutido en el apartado 1.4, la función de riesgo a lo largo de todas las etapas de la vida de un dispositivo suele tener forma de curva de bañera, y es de esperar que el tiempo de vida de un componente a largo plazo tenga una función de riesgo creciente debido al envejecimiento. © Los autores, 2003; © Edicions UPC, 2003. 48 Fiabilidad industrial En algunos casos solamente se producen fallos después de un cierto tiempo g predeterminado (por ejemplo, el número de ciclos hasta la rotura del muelle de cierre de un cinturón de seguridad presenta un número de ciclos -que aquí sustituye al tiempo- sin fallos muy marcado). En estas circunstancias interesa trabajar con las distribuciones definidas con otro parámetro de traslación o de localización. Por ejemplo la densidad exponencial trasladada toma la forma f(t) = λexp{ -λ (t-γ)) }, t > γ o la densidad de Weibull trasladada o con tres parámetros: (t - γ ) β β β−1 f(t) = β (t - γ ) exp - , t > γ α α En general se reemplaza t por (t-γ), a la derecha de la expresión de la función de densidad. Si se toma γ = 0 se tiene la versión no trasladada de la función de la densidad. En el contexto de fiabilidad uno espera que γ no sea negativa. Si γ es conocida no hay más problema que sustituir T por T-γ. Sin embargo, si γ no es conocida la estimación de los parámetros es más compleja. Existen otras distribuciones de fiabilidad como la Gamma, distribuciones mixtas o generalizaciones de las comentadas, normalmente con tres parámetros. Estas distribuciones son más flexibles y describen mejor el mecanismo de fallo, pero es a un costo más elevado de complejidad matemática. Para ampliar el tema ver Crowder y otros (1991). 3.3 Gráficos probabilísticos En las aplicaciones es habitual utilizar gráficos probabilísticos para determinar si es o no adecuado el modelo de Weibull para los datos. Suelen utilizarse también para estimar gráficamente los parámetros del modelo. Existen en la literatura unos gráficos probabilísticos impresos, llamados comúnmente papeles probabilísticos, tanto para muestras completas como censuradas. Un gráfico probabilístico es un gráfico basado en la distribución empírica y relativo a familias de distribuciones específicas como la de Weibull, la Normal, o la lognormal. Consiste en dibujar la distribución empírica de los datos en un papel donde uno de los ejes está adecuadamente transformado (escala logarítmica o doble logarítmica, etc.), y evaluar si los puntos dibujados se ajustan a una línea recta. No es aconsejable quedarse sólo con la apreciación visual, pues puede resultar un método de ajuste un poco subjetivo. Actualmente se puede calcular la ecuación de una recta de regresión por el método de mínimos cuadrados con una hoja de cálculo o una simple calculadora de bolsillo. Existen papeles probabilísticos para muchas distribuciones, en particular para la distribución exponencial y la de Weibull. El modelo se escoge basándose en la experiencia previa de datos similares y en la comprensión del fenómeno físico, químico o biológico que origina el fallo. Actualmente los programarios estadísticos tienen incorporadas rutinas para dibujar gráficos probabilísticos. El Minitab en particular, en su apartado de fiabilidad, dibuja los gráficos © Los autores, 2003; © Edicions UPC, 2003. Tasa de fallo no constante. El modelo de Weibull y otros 49 probabilísticos de la Weibull, la lognormal, la normal y la exponencial, y estima sus parámetros por el método de máxima verosimilitud, tanto para datos completos como censurados. También es posible evaluar mediante gráficos la adecuación del modelo de Weibull para muestras completas, mediante simples cálculos y gráficos utilizando una hoja de cálculo. Los ejercicios prácticos de este apartado se plantean utilizando la hoja de cálculo del Excel. 3.3.1 Muestras completas Para ilustrar la base teórica del gráfico probabilístico de Weibull consideremos la función de fiabilidad de Weibull: R(t) = 1-F(t) = exp{-(t/α)β} Se aplica el logaritmo natural en ambos lados dos veces ln(1-F(t)) = -(t/α)β ln(-ln(1-F(t)) = βln(t)-βln(α) que es equivalente a ln(ln(1/(1-F(t))) = βln(t)-βln(α) Sustituyendo la función de distribución F(t) por la función de distribución empírica Fn(t) se tiene lnln[1/(1- Fn(t))] = βln(t)-βln(α) (3.6) o lo que es equivalente: lnln[1/ Rn(t)] = βln(t)-βln(α) Concluimos que lnln[1/Rn(t)] es una función lineal de ln(t), donde la pendiente es el parámetro de forma β. El gráfico probabilístico de Weibull se basa en esta relación lineal y una manera fácil de comprobar si unos datos se ajustan al modelo de Weibull es hacer el gráfico lnln[1/Rn(t)] versus ln(t), donde t son los datos ordenados y Rn(t) es la función de fiabilidad empírica, y evaluar hasta qué punto la relación lineal es factible. Utilización del gráfico probabilístico Se dibuja en el eje de abscisas ln(t(i)), es decir, el logaritmo de los datos, donde t(i) es la muestra ordenada; y en el eje de ordenadas lnln[1/(1-Fn(i)], donde Fn(i) es la función de distribución empírica, y se ajusta una recta. En función de lo bien que se ajusten los datos a la recta se decide si la relación es lineal, y en caso afirmativo se concluye que el modelo de Weibull es adecuado. © Los autores, 2003; © Edicions UPC, 2003. 50 Fiabilidad industrial Puede utilizarse la recta mínimo cuadrática para estimar gráficamente los parámetros de la Weibull. La pendiente es el parámetro de forma β, y α puede estimarse teniendo en cuenta que es el percentil del 63% (ejemplo 3.2). Los estimadores gráficos de los parámetros de una distribución no son los óptimos, en el sentido que los de máxima verosimilitud tienen propiedades mejores (se explicarán en el siguiente apartado), pero tienen algunas ventajas como el ser rápidos y fáciles de calcular. Ayudan a presentar los datos de forma comprensible visualmente, cosa que es muy útil a la hora de sacar conclusiones, y facilitan su comprensión. Las hojas de cálculo, como por ejemplo el Excel, son una buena herramienta de cálculo, de fácil manejo, para hacer un gráfico probabilístico. Construcción de un gráfico probabilístico de Weibull 1. Ordenar los n tiempos de fallo de menor a mayor (muestra ordenada) t(1) ≤ ... ≤ t(i) ≤ ... ≤ t(n) 2. Asignar los rangos (rank) 3. Calcular Fn(i), la función de distribución empírica que representa el porcentaje de fallos ocurridos antes del tiempo de fallo correspondiente al rango i: Fn(i) = i -0,5 , i=1,…,n n (*) 4. Dibujar los puntos: para el fallo de rango i se sitúa en ln (t(i)) en las abcisas, y en el eje de ordenadas lnln(1/(1-Fn(i))). 5. Determinar visualmente una recta de manera que las desviaciones entre los datos y la recta sean lo menores posible y decidir si el ajuste es suficiente. Puede utilizarse la recta mínima cuadrática. 6. En caso de que el modelo de Weibull parezca plausible, estimar gráficamente valores de α y β. los En el apartado de prácticas del capítulo 3 se desarrolla un ejemplo con las pautas que se deben seguir para construir el gráfico probabilístico con una hoja de cálculo Excel. (*) La fórmula dada para el cálculo de la función de distribución empírica no es única. Interesados en profundizar el tema consultar pág. 118 de Nelson (1982). El programa Minitab da distintas opciones como: la normal escore (i-3/8)/n-1/4, la de Kaplan-Meier modificado (i-0,5)/n, la de Herd-Honson i/(n+1) y i/n, que se llama de KaplanMeir. © Los autores, 2003; © Edicions UPC, 2003. Tasa de fallo no constante. El modelo de Weibull y otros 51 Ejemplo 3. 2 En una prueba de vida interesa el tiempo de perforación, en minutos, de un fluido aislante interpuesto entre dos electrodos a un voltaje de 38kV. Los datos son 0,74; 1,13; 0,09; 0,47; 0,73; 2,38; 1,4 y 0,39, donde los n=8 son datos completos, ya que el experimento termina cuando fallan todas las unidades. Con una hoja de cálculo puede calcularse: t(i) rango i Fn(i) ln(t(i)) lnln[1/(1- Fn(i))] 0,09 0,39 0,47 0,73 0,74 1,13 1,40 2,38 1 2 3 4 5 6 7 8 0,06 0,19 0,31 0,44 0,56 0,69 0,81 0,94 -2,41 -0,94 -0,76 -0,31 -0,30 0,12 0,34 0,87 -2,74 -1,57 -0,98 -0,55 -0,19 0,15 0,52 1,02 Obsérvese que la muestra está ordenada de menor a mayor. Se dibuja lnln[1/ (1-Fn(t)] versus ln(t). En este caso se ha realizado con una hoja de cálculo del Excel, agregándose a los datos la línea de tendencia, lo que indica que: lnln[1/ (1-Fn(t)] = 1,203 ln(t) –0,0334 y con un coeficiente de determinación R2=0,9721, que indica un ajuste razonable. y = 1,203x - 0,0334 1,5 R 2 = 0,9721 1,0 0,5 ln(ti) -3,0 0,0 -2,5 -2,0 -1,5 -1,0 -0,5 -0,5 0,0 0,5 1,0 1,5 -1,0 -1,5 -2,0 -2,5 -3,0 ln(ln(1/(1-Fn(t)))) -3,5 Conclusión: los datos se ajustan razonablemente a una distribución de Weibull y la estimación gráfica de los parámetros es β̂ = 1,203 α̂ = exp(0,0334/1,203)=1,32 La estimación de β es la pendiente de la recta y la estimación de α se obtiene sustituyendo en la expresión 3.6 y despejando. © Los autores, 2003; © Edicions UPC, 2003. 52 Fiabilidad industrial 3.3.2 Muestras con datos censurados Los gráficos de riesgo son la alternativa a los gráficos de probabilidad cuando los datos están censurados. A continuación damos la justificación teórica y las pautas para realizar el gráfico de riesgo con una hoja de cálculo. Para la construcción de gráficos probabilísticos con datos censurados se utilizará también el programario Minitab. Su utilización se explica en el apartado de prácticas mediante un ejemplo. Justificación de los gráficos de riesgo para la distribución de Weibull La función de riesgo acumulada de una distribución, H(t), se define como la integral de la función de riesgo, es decir: t H(t) = ∫ h(u )du 0 La función de riesgo acumulada de un modelo de Weibull es t H(t) = α β Aplicando el logaritmo neperiano en la ecuación 3.1 obtenemos H(t) = -lnR(t), y aplicando el mismo razonamiento que en los gráficos para datos completos obtenemos una relación lineal entre el logaritmo neperiano de H(t) y el logaritmo neperiano de t: ln(H(t)) = βln(t) - βln(α) Construcción del gráfico de riesgo (hazard plots) 1. Ordenar los n datos de menor a mayor, teniendo en cuenta tanto los tiempos de fallo observados como los datos censurados, marcando éstos con el signo +. 2. Asignar el rango decreciente a los datos: al valor menor le corresponderá rango n, al segundo rango n-1, y así sucesivamente. 3. Calcular el valor de riesgo empírico, únicamente para los tiempos de fallo observados: hn = 1/rango decreciente i 4. Calcular el riesgo acumulado Hn(i )= ∑ hn (k ) para cada fallo. k =1 © Los autores, 2003; © Edicions UPC, 2003. Tasa de fallo no constante. El modelo de Weibull y otros 53 5. Para cada tiempo de fallo observado dibujar ln(ti) en el eje de abcisas y ln(Hn(i)) en el eje de ordenadas. Los datos censurados no aparecen en el gráfico. 6. Calcular la recta mínimo cuadrática. 7. Estimar los parámetros gráficamente a partir de la expresión ln(H(t)) = βln(t) - βln(α) Ejemplo 3.3 Se realiza un ensayo del mecanismo de arrastre de papel en un nuevo modelo de impresora de chorro de tinta. El ensayo se realiza con 12 unidades, y la duración (prefijada) es de 60.000 ciclos. Los resultados se presentan en la tabla del ejemplo 1.2. Con una hoja de cálculo Excel puede calcularse: Se dibuja lnHn(i) versus ln(t). En este caso se ha realizado con una hoja de cálculo del Excel, y se ha agregado a los datos la línea de tendencia, lo que indica que lnH(t) = 2,3278ln(t)–25,59 y con un coeficiente de determinación R2 = 0,8759, que indica un ajuste razonable. 0,000 -0,50010,00 10,20 10,40 10,60 10,80 11,00 -1,000 -1,500 -2,000 -2,500 y = 2,3278x - 25,59 2 R = 0,8759 -3,000 © Los autores, 2003; © Edicions UPC, 2003. 54 Fiabilidad industrial Conclusión: Los datos se ajustan razonablemente a una distribución de Weibull y la estimación gráfica de los parámetros es, teniendo en cuenta que ln(H(t))=βln(t) - βln(α): β̂ = 2,3278 α̂ = 59.451,18 3.4 Método de estimación de máxima verosimilitud En este apartado se expone el método general de estimación de máxima verosimilitud. Para fijar ideas supongamos que tenemos una observación de una muestra (t1, ... ,tn) de una población de interés. Supongamos primero que ninguna de las observaciones está censuradas. En el contexto de fiabilidad es razonable pensar en ti como tiempos de vida. Supongamos que pueden ser vistas como observaciones de una función de densidad común f(t;θ1,θ2, ... ,θm), donde la forma de f es conocida pero los parámetros son desconocidos, (por ejemplo, una distribución de Weibull donde los parámetros α y β son desconocidos). Para simplificar tomaremos la notación θ = (θ1,θ2, ... ,θm). Entonces la función de verosimilitud de las observaciones será n L(θ)= ∏ f (t i ; θ) i =1 Si algunas de las observaciones están censuradas por la derecha, podemos partir los números de la observaciones 1,2,...,n en dos conjuntos disjuntos: uno llamado N, correspondiente a las observaciones no censuradas, y otro llamado C, correspondiente a las observaciones censuradas por la derecha. Entonces la función de verosimilitud se expresa como L(θ) = ∏f (t ; θ)∏R(t ; θ) i ∈N i i ∈U i donde la densidad de las observaciones censuradas por la derecha se ha sustituido por la función de fiabilidad. De manera similar, la densidad de las observaciones censuradas por la izquierda puede se reemplaza por la función de distribución. Y, en el caso de tener observaciones censuradas por intervalo, la función de densidad se reemplaza por la función de distribución evaluada en el límite superior menos la evaluada en el límite inferior, de forma que da la probabilidad de ocurrencia del tiempo de vida dentro del intervalo. En cualquier de los casos comentados es más conveniente trabajar con el logaritmo de la función de verosimilitud: l(θ) = ln(L(θ)) Los estimadores máximo verosímil θˆ 1,θˆ 2 ...,θˆ m de θ1,θ2,...,θm son aquellos valores que maximizan la función de verosimilitud, o lo que es equivalente, el logaritmo de la función de verosimilitud. Normalmente, los estimadores máximo verosímil se encuentran resolviendo las ecuaciones: ∂l =0 , ∂θ j j = 1,2, ... ,m © Los autores, 2003; © Edicions UPC, 2003. Tasa de fallo no constante. El modelo de Weibull y otros 55 El ejemplo 3.3 ilustra cómo se calculan los estimadores máximo verosímil en el caso de la distribución normal. Muchas veces la solución de estas ecuaciones no es explícita y se requiere de métodos numéricos tales como el algoritmo de Newton. La problemática al entorno de estas soluciones se escapa del objetivo de estos apuntes. Si se quiere ampliar el tema se puede consultar el capítulo 3 de Crowder y otros. Las ecuaciones normales de la distribución de Weibull no dan una solución explícita y es necesaria la utilización de algoritmos como el de Newton para resolverlas. Para más detalles consultar la página 340 de Nelson (1982). Se utilizará el programario estadístico Minitab para calcular los estimadores máximo verosímil, y su funcionamiento se explicará en el desarrollo de las prácticas. Basándose en la teoría general del método de máxima verosimilitud, una vez estimados los parámetros α y β de la Weibull y las varianzas de α̂ y β̂ , pueden estimarse las características de fiabilidad y los intervalos de confianza. Los estimadores MV son asintóticamente normales, es decir, para muestras de tamaño grande: α̂ ~N(α;Var( α̂ )) β̂ ~N(β;Var( β̂ )) Entonces los intervalos de confianza (1-δ) aproximados de α y β pueden calcularse: αˆ - z δ/2 Var(αˆ ) ≤ αˆ ≤ αˆ + z δ/2 Var(αˆ ) βˆ - z δ/2 Var(β̂ ) ≤ βˆ ≤ βˆ + z δ/2 Var(βˆ ) (3.7) donde zδ/2 es el valor de la distribución N(0;1) que deja en la cola una probabilidad δ/2 y el tamaño de la muestra n tiene que ser grande. El cálculo de las varianzas de α̂ y β̂ es computacionalmente complejo, ya que involucra el cálculo de la inversa de la matriz de derivadas segundas del logaritmo de la función de verosimilitud. La mayoría de programas estadísticos que cubren la fiabilidad disponen de rutinas que calculan estas varianzas. Puede utilizarse también las siguientes expresiones que dan una buena aproximación: 2 αˆ 1,1087 Var(αˆ ) ≅ n βˆ 0,6079 Var(βˆ ) ≅ βˆ 2 n La estimación de la fiabilidad en un momento t0, o un percentil de la distribución de Weibull se obtiene mediante un simple cálculo. Si se disponen de los estimadores MV α̂ y β̂ , la fiabilidad estimada en t0 es ˆ Rˆ (t 0 )=exp -(t 0 /αˆ )β y la estimación del percentil p: 1/β tˆp = αˆ [-ln(1-p)] ˆ © Los autores, 2003; © Edicions UPC, 2003. 56 Fiabilidad industrial Los estimadores obtenidos de la fiabilidad y del percentil son también máximo verosímiles gracias a la propiedad de invariancia funcional de los estimadores MV. Conceptos avanzados La estimación máximo verosímil (MV) no es el único método de estimación, pero sí es el más ventajoso puesto que, por un lado, muchos de los problemas estadísticos que surgen en el contexto de fiabilidad pueden resolverse utilizando MV. Además, la generalización de MV tiene ventajas desde el punto de vista computacional ya que con el mismo programa pueden obtenerse estimadores máximo verosímil en cualquier contexto. En segundo lugar, la propiedad de la invariancia funcional de los estimadores MV nos asegura que una vez calculado θ̂ , se puede obtener el estimador MV de una función de él, g(θ), directamente, sin tener que empezar de nuevo el proceso de estimación. Y tercero, los errores estándares de las estimaciones MV pueden calcularse a partir de una rutina en que invierte la matriz de información muestral. Desde el punto de vista teórico, los estimadores MV también tienen propiedades recomendables. Bajo condiciones de regularidad los estimadores máximo verosímiles son consistentes, asintóticamente Normales y asimpoticamente eficientes. Para detalles técnicos consultar Cox and Hinkley (1974). Ejemplo 3.4 Estimación por máxima verosimilitud de los parámetros de la distribución Normal. Sea X~N(µ; σ2 ), cuya función de densidad es f(x) = 1 2πσ2 1 e 2σ 2 ( x- µ )2 , - ∞ < x < +∞ Dada X = (x1, ... ,xn), una muestra de tamaño n de X, el logaritmo de la función de verosimilitud como función del parámetro θ = (µ,σ2) es n n 1 n lnL X (µ, σ2 ) = ∑ lnf( xi ) = - ln2 π σ2 - 2 ∑ ( x i -µ )2 2 2σ i =1 i =1 Buscamos el máximo del logaritmo de la función de verosimilitud: ∂lnL ∑ (x i -µ) = =0 ∂µ σ2 ∂ ln L = - n + 1 ∂σ2 2σ2 2σ 4 ∑ (x -µ) =0 2 i n ∑ (x i -µ)=0 i =1 n (x i -µ)2 ∑ σ2 = i=1 n De aquí se deducen los estimadores máximo verosímil de la media y la variancia de la distribución Normal, que son: n -1 2 µˆ = X σˆ 2 = S n © Los autores, 2003; © Edicions UPC, 2003. Pruebas de vida acelerada 57 4 PRUEBAS DE VIDA ACELERADA En este capítulo se hace una introducción de las pruebas de vida acelerada y se explican dos modelos típicos de pruebas de vida con estrés constante, el de Arrhenius y el de la potencia inversa de Weibull. Las pruebas de vida acelerada son aquellas que se realizan a un nivel de estrés superior al de las condiciones ordinarias de funcionamiento, con el fin de provocar la aparición de fallos en un tiempo más corto. Estas pruebas se realizan exponiendo los productos a condiciones más severas que las usuales. Generalmente implica aumentar la temperatura, el voltaje, la presión, la vibración, el tiempo operativo, etc. Las pruebas de vida acelerada pueden usarse tanto para evaluar la capacidad de un componente para satisfacer los requisitos de fiabilidad como para tener un medio más rápido de detectar debilidades potenciales o modos de fallo. Por ejemplo es habitual en la industria hacer estudios del número de ciclos hasta el fallo aparatos como lavadoras, tostadoras, etc., de forma seguida, que condensan envejecimiento correspondiente de 6 meses a 10 años. En estos casos no es necesario aparato matemático especial para determinar la relación de tiempo de vida, puesto que extrapola en función del tiempo operativo de los mismos. de el un se La relación entre los fallos y la tasa de fallo en condiciones aceleradas, y las correspondientes en condiciones normales de funcionamiento, debe conocerse a través de datos históricos o a partir de modelos estadísticos, que relacionen el tiempo de vida de los componentes con el estrés a que están sometido. Son bien conocidas, por ejemplo, las tasas de fallo en función de las tensiones aplicadas y las temperaturas de funcionamiento de condensadores y resistencias, y las relaciones pueden usarse para evaluar unidades de un nuevo lote, tipo o fabricante. Una relación frecuentemente usada es que la tasa de fallo se duplica aproximadamente por cada subida de 10°C. Puesto que estos componentes suelen ser muy fiables, se usan temperaturas elevadas en combinación con sobretensiones, a fin de determinar tasas de fallo en un tiempo razonable. Los ensayos acelerados de nuevos productos es una práctica común y se usa para detectar modos de fallo potenciales. Las pruebas de vida acelerada con fines de valoración se restringen a las piezas y los componentes, de los cuales se conocen las relaciones entre las tasas de fallo en condiciones normales y de estrés. Un requisito importante es que las condiciones de estrés no puedan introducir nuevos modos de fallo. Cuando las relaciones están bien definidas, las pruebas de vida aceleradas pueden dar estimaciones de las características de fiabilidad a una fracción del coste de las pruebas ordinarias, y son ventajosas. La relación entre pruebas aceleradas y normales puede ser relativa a una tasa de fallo, a una tasa de degradación o cambio de una característica, o al tiempo del desgaste. Siempre que se conozca la relación, los datos en condiciones aceleradas pueden reducirse a datos en condiciones normales, generalmente multiplicados por algunas constantes apropiadas. © Los autores, 2003; © Edicions UPC, 2003. 58 Fiabilidad industrial De todas formas, para ciertos componentes se conocen las constantes a partir de estudios documentados. El manual MIL-HBK-217 es la fuente más consultada en la industria electrónica. Hay otra aplicación en que se usan las pruebas de vida aceleradas, las pruebas conocidas como burn-in, de purga, que causan el efecto de eliminar las unidades potencialmente infiables sin afectar a las unidades buenas. Un ejemplo de esta prueba es el ensayo de aceleración a 20.000 g , donde g es la aceleración de la gravedad 9,81m/s2, que se aplica a los semiconductores (hay algún fabricante que ha aumentado incluso este nivel de g en un 50%, hasta 30.000 g en algunas unidades, sin observar efectos medibles sobre la actuación o longevidad de las unidades que pasan la prueba). Tal ensayo sirve para eliminar las unidades que tienen una debilidad mecánica en potencia y una fiabilidad inferior. El ensayo puede también hacer que fallen ciertas unidades cuya fiabilidad hubiera sido satisfactoria, pero, imponiéndolo a todas las unidades, la fiabilidad general resultante del lote después del ensayo es considerablemente superior a la que hubiera sido de no haberse realizado el ensayo. Es importante verificar que las unidades que superan la prueba no se hayan degradado. 4.1 Modelos de pruebas de vida con estrés constante En este apartado se desarrollan dos tipos de pruebas de donde, a partir de los datos de dispositivos sometidos a una aceleración, se puede inferir la fiabilidad del dispositivo en condiciones normales de uso. Son modelos típicos de pruebas de vida con estrés constante, el de Arrhenius y el de la potencia inversa. La relación entre el estrés y el tiempo de vida hasta el fallo consiste en una función de potencia o exponencial. Esta relación puede transformarse en una relación lineal entre el estrés (o una función de éste) y el logaritmo del tiempo. Un modelo estadístico para una prueba de vida acelerada consiste en: Una distribución de probabilidad (exponencial, Weibull, etc.) que describe la variabilidad de la vida del dispositivo de una unidad a otra. Una relación entre el estrés y la vida. Esta relación se tiene que materializar, con el fin de que sea operativa, en una ecuación matemática que relacione el estrés con un parámetro de posición de la distribución del tiempo de fallo. 4.1.1 Modelo Arrhenius-Exponencial El modelo de Arrhenius-exponencial consta de dos elementos. Por un lado se supone que el tiempo de fallo del dispositivo tiene una distribución exponencial con vida media θ y el parámetro θ varía con la temperatura de acuerdo con una ecuación denominada ecuación de Arrhenius, porque está basada en la ley de Arrhenius de la cinética química. La ecuación de Arrhenius en este caso tiene la forma: θ(τ) = AeB /τ © Los autores, 2003; © Edicions UPC, 2003. (4.1) Pruebas de vida acelerada 59 donde τ es la temperatura absoluta y A y B son constantes. Tomando logaritmos en los dos miembros de la ecuación obtenemos µ = ln(θ) = γ0 + γ1/τ donde µ es un parámetro en función del estrés (en este caso es función del parámetro de posición θ, la vida media, de la distribución del tiempo de vida). Las constantes γ0 y γ1 se determinan por regresión lineal a partir de los datos de pruebas de vida aceleradas. En el caso de que el modelo sea válido sólo puede extrapolarse en el intervalo de temperatura en el cual no quede modificado el mecanismo de fallo. Este modelo es muy utilizado en el sector electrónico, donde se dispone de tasas de fallo de diferentes componentes. En general se trabaja con la distribución exponencial y el modelo de Arrhenius, puesto que permiten obtener tasas de fallo mediante pruebas de vida acelerada en un tiempo compatible con los ajustados ciclos del desarrollo de nuevos productos. Ejemplo 4.1 Tasa de fallo de un semiconductor [fuente: Nelson (1990)] Para ciertos componentes se conocen las constantes γ0 y γ1 a partir de estudios documentados, como el MIL-HBK-217. Por ejemplo, la tasa de fallo (en fallos por millón de horas) a una temperatura para un componente electrónico MOS (metol oxide semiconductor), en función de la temperatura τ (dentro de un cierto intervalo), es λ = 1,08×108×exp(-6.373/τ), de donde θ=1/λ=0,9259x10-8exp(6.373/τ) que equivale a tomar, en la fórmula (4.1): A = 0,9259×108 B = 6.373 Si se quiere conocer la fiabilidad correspondiente a un período de garantía de un año, trabajando a 55°C (τ = 328,16°K), la tasa de fallo sería λ = 1,08x108x exp(-6.373/328,16) = 0,3974 fallos por millón de horas Esto significa una vida media de θ = 1/λ = (1/0,39742)x106 = 2.516.232,88 horas Contando 8.760 horas por año, resulta una vida media de 287,24 años. La fiabilidad al año es: R(1 año) = R(8.760) = exp(-λx 8.760) = exp(-0,3974x10-6x8.760) = 0,9965 © Los autores, 2003; © Edicions UPC, 2003. 60 Fiabilidad industrial 4.1.2 El modelo potencia inversa de Weibull El modelo de la potencia inversa describe la relación entre el voltaje, que es la variable de estrés, y el tiempo de fallo de un aislante eléctrico de la siguiente forma: T = K V -N donde T representa la duración del aislante, V es el voltaje y K y N son constantes. T es una variable aleatoria con una cierta distribución estadística. La relación también se considera válida cuando se sustituye T por un parámetro de posición o de escala de la distribución. Tomando logaritmos en los dos miembros obtenemos µ = γ0+γ1ln(V) donde las constantes γ0 = ln(k) y γ1 = -N, se determinan a partir de las pruebas de vida aceleradas mediante la regresión lineal. Un caso particular es el modelo de la potencia inversa de Weibull, donde se supone que el tiempo de fallo del producto tiene una distribución Weibull con parámetros α y β. La ecuación se expresa como α(V) = K V -N donde α(V) es el parámetro de escala de una distribución de Weibull y varía con el voltaje V, mientras que β es independiente del voltaje: µ = ln(α(V)) = γ0+γ1ln(V) (4.2) De aquí se deduce que el logaritmo del parámetro escala de las distribuciones Weibull a distintos voltajes es lineal respecto del logaritmo de los voltajes. Para ilustrar este hecho se utiliza el ejemplo 4.2, debido a Nelson. © Los autores, 2003; © Edicions UPC, 2003. Pruebas de vida acelerada 61 Ejemplo 4.2 [fuente: Nelson (1982)] En una prueba de vida interesa el tiempo de perforación, en minutos, de un fluido aislante interpuesto entre dos electrodos. El tiempo de perforación se mide a siete voltajes diferentes. El experimento se alarga hasta que fallen todas las unidades. Los resultados se encuentran en la tabla: En la siguiente tabla se presentan los parámetros α y β de Weibull, obtenidos por máxima verosimilitud. Se han estimado por separado utilizando el programa Minitab: El siguiente gráfico probabilístico justifica la distribución de Weibull para los datos de cada voltaje. © Los autores, 2003; © Edicions UPC, 2003. 62 Fiabilidad industrial La relación lineal entre ln(α) y ln(V) se calcula con una hoja de cálculo Excel: y = -17,579x + 64,263 R2 = 0,9916 Log(alpha) 8 6 4 2 0 3,2000 3,3000 3,4000 3,5000 3,6000 Log(V) © Los autores, 2003; © Edicions UPC, 2003. 3,7000 Pruebas de vida acelerada 63 De donde la relación lineal viene dada por la recta de regresión: ln(α) = 64,263 - 17,579ln(V) con un coeficiente de determinación de R2 = 0,9916, lo que indica una relación lineal alta. La estimación de las constantes K y N de la ley de la potencia inversa se deducen de la fórmula (4.2): K = exp{64,263} = 8,11×1027 © Los autores, 2003; © Edicions UPC, 2003. N =17,579 Análisis de la fiabilidad de un sistema 65 5 ANÁLISIS DE LA FIABILIDAD DE UN SISTEMA En este capítulo se desarrolla el análisis de un sistema, formulando los sistemas coherentes, la fiabilidad de un sistema en serie y en paralelo con tasa de fallo constante. Y se hace una introducción al análisis de la fiabilidad mediante árboles de fallo. En los capítulos precedentes hemos discutido la fiabilidad de unidades individuales sin referirnos a cuál era su lugar en el conjunto de la estructura del sistema en estudio. Esto es lo más simple si son sistemas muy complejos. Un sistema es, en este contexto, un dispositivo formado por partes cuya fiabilidad es conocida. Estas partes se llaman componentes. La actuación de un sistema puede analizarse como función de componentes individuales. Si los datos son recogidos en componentes individuales, entonces es posible hacer inferencia estadística sobre la fiabilidad de estos componentes, pero aún queda el problema del cálculo de la fiabilidad del sistema a partir de la fiabilidad de sus componentes que es lo que se desarrolla en este apartado. En general el fallo de un sistema se produce al fallar uno o varios componentes. El problema básico de la fiabilidad de sistemas consiste en el cálculo de la fiabilidad R(t) de un sistema a partir de la fiabilidad R1(t), R2 (t), ... , Rn (t) de sus componentes. 5.1 Sistemas coherentes La clase más conocida de sistemas son los sistemas coherentes. El concepto fundamental de los sistemas coherentes (coherent system) es que las componentes se encuentran, individualmente, en uno de los dos estados, funcionan o fallan, y el estado de los sistemas se representa en términos de los estados individuales de cada componente a través de las funciones de estructura (structure function). Ejemplos de sistemas coherentes son los sistemas en serie, en paralelo o mixtos, que desarrollaremos en este capítulo. A continuación se formula las funciones de estructura. Sea un sistema con n componentes. Se define Xi, el estado del componente i: 1 Xi = 0 si el componente funciona si el componente no funciona Se define φ , el estado del sistema, como 1 φ = 0 si el sistema funciona si el sistema no funciona La función de estructura es φ = φ( X) , donde X = (x1, ... ,xn) es el vector de los estados de los componentes. © Los autores, 2003; © Edicions UPC, 2003. 66 Fiabilidad industrial Ejemplos 5.1 Sistema en serie Es aquel para el que el fallo del sistema equivale al de un solo componente. n φ(X) = ∏ x i i=1 A C B Figura 5.1 Ejemplo de un sistema en serie formado por tres componentes 5.2 Sistema en paralelo Es aquel para el cual se produce un fallo cuando todos los componentes fallan. n φ(X) = 1- ∏ (1- xi ) i=1 Figura 5.2 Ejemplo de un sistema en paralelo con tres componentes 5.3 Sistema K entre n Es un sistema más general que enlaza los sistemas serie y los sistemas paralelos. En este caso el sistema está operativo si por lo menos K componentes de entre n componentes están operativos. K = n corresponde a un sistema en serie y K = 1 corresponde a un sistema en paralelo. 1 si ∑ xi ≥ K φ( X ) = 0 si ∑ xi < K (5.1) El sistema 2 entre 3 de la figura 5.2 está operativo si por lo menos dos componentes de una de las tres cadenas están operativos. En este caso la expresión (5.1) debería contener la restricción que los componentes fueran de la misma cadena. © Los autores, 2003; © Edicions UPC, 2003. Análisis de la fiabilidad de un sistema 67 Figura 5.3 Ejemplo de un sistema 2 entre 3 5.4 Fiabilidad de una red Este es un ejemplo simplificado de un problema de la fiabilidad de una red (network reliability), en la que el sistema puede ser representado por una red de componentes y el estado del sistema depende de la existencia de un camino a través del cual los componentes funcionan. Un sistema computador consiste en un computador central que tiene conectados tres terminales. El computador tiene conectada una impresora y también es posible imprimir en otra unidad central. El sistema se considera que funciona si es posible utilizar el computador y tener una impresora de salida conectada. Para esto se requiere que: (a) funcione el computador central, (b) al menos una terminal de las tres funcione, y (c) que funcione la impresora local o que la conexión con la otra unidad que tiene conectada la impresora funcione. Este sistema se puede representarse gráficamente (figura 5.4), donde 1, 2 y 3 son las tres terminales, 4 el computador, 5 la impresora local y 6 la otra unidad. Y en este caso φ( X )={1-(1-x 1)(1-x 2 )(1-x 3 )}x 4 {1-(1-x 5 )(1-x 6 )} A partir de este ejemplo sencillo puede apreciar el potencial que uno puede tener para sistemas más complicados. Por ejemplo, un sistema computacional de una compañía o una universidad puede representarse mediante diagramas de este tipo donde los sistemas, mucho más grandes y complejos, pueden requerir millares de componentes y una estructura de redes complicadas. También las centrales nucleares han sido modeladas por redes de este tipo. 1 5 2 4 6 3 Figura 5.4 Ejemplo de un sistema computacional © Los autores, 2003; © Edicions UPC, 2003. 68 Fiabilidad industrial La formulación matemática de los sistemas coherentes es como sigue: Un sistema representado por una función de estructura es coherente si cumple les dos propiedades siguientes: Relevancia de cada componente, es decir, no hay ninguna componente cuya fiabilidad no afecte a la fiabilidad del sistema; Monotonicidad, que encierra el concepto de que la fiabilidad de un sistema nunca puede ser mejorada cuando uno de sus componentes se vuelva menos fiable. Estas dos propiedades se pueden formular como sigue: El i-ésimo componente es irrelevante si, para todos los estados de los otros componentes x1,...,xi-1,xi+1,...,xn el estado del sistema es el mismo, independientemente de que xi sea 0 ó 1: φ ( x1, ... ,xi-1,1,xi+1, ... ,xn) = φ ( x1, ... ,xi-1,0,xi+1, ... ,xn) Nota: Si un componente no es irrelevante es relevante. f:fuente f:fuente t:terminal t:terminal Todos los componentes son relevantes Un componente irrelevante Figura 5.5 Ejemplos de componentes relevantes e irrelevantes La monotonicidad de la función de estructura se refiere a la monotonía de cada xi: φ ( x1,...,xi-1,0,xi+1,...,xn) ≤ φ ( x1,...,xi-1,1,xi+1,...,xn) Definición: Una función de estructura φ se define como un sistema coherente si es monótona y cada componente es relevante. La función de fiabilidad de un sistema puede formalizarse como R(t) = n ∑ φ( x )∏{R (t ) x i =1 i xi (1- Ri (t ))1- xi } donde los componentes son independientes y Ri(t) es la fiabilidad del componente i, es decir, es la probabilidad de que el componente i-ésimo funcione en el instante t, y donde φ(X ) es la función de estructura que define a xi = 1 si el componente funciona y xi=0 si no funciona. © Los autores, 2003; © Edicions UPC, 2003. Análisis de la fiabilidad de un sistema 69 5.2 Fiabilidad de un sistema en serie con tasa de fallo constante Si los componentes son independientes, la fiabilidad de un sistema en serie se calcula por la regla del producto. Regla del producto: un sistema en serie, con los componentes independientes, funciona sí y sólo sí todos los componentes funcionan: R(t) = R1(t)×R2(t) × … ×Rn(t) Hablamos de sistema en serie con tasa de fallo constante cuando todos los componentes tienen tasa de fallo constante, es decir, cuando el tiempo de vida de los componentes se distribuye exponencial de parámetro λi, Ri(t) = e-λt y por la regla del producto: R(t)= e- λ1t × e- λ2t ...e- λnt O, equivalentemente, R(t)=e-λt, donde λ=λ1+λ2+…+λn. Un sistema en serie con los componentes con tasa de fallo constante tiene la tasa de fallo constante e igual a la suma de las tasas de fallo. Nota: Puede servir para calcular la tasa de fallo de un producto que tiene diferentes tipos de fallo independientes y con tasa de fallo constante. La vida media de un sistema en serie con los componentes con tasa de fallo constante se calcula a partir de las vidas medias θi = 1/λi de sus componentes: θ= 1 1 1 1 + +...+ θ1 θ2 θn En un sistema en serie complejo, formado por grupos de componentes idénticos, si el primer grupo tiene n1 componentes con tasa de fallo λ1, el segundo n2 componentes con tasa de fallo λ2, etc., las fórmulas anteriores se pueden escribir: R (t ) = R1(t )n1 × R2 (t )n2 ...Rk (t )nk donde la tasa de fallo del sistema es λ = n1⋅λ1+ n2⋅λ2+ … + nk⋅λk y la vida media del sistema es θ= 1 n1 n2 n + +... + k θ1 θ2 θn donde θi = 1/λi las vidas medias de los subgrupos de sus componentes. © Los autores, 2003; © Edicions UPC, 2003. 70 Fiabilidad industrial La tasa de fallo de un sistema en serie, formado por n componentes idénticas con tasa de fallo λc, es: λ = n⋅λc Si los componentes no son idénticos, a veces es útil considerar la tasa de fallo equivalente, que sería la que tendrían los componentes de un sistema con la misma fiabilidad si fuesen idénticos. Es igual a la media aritmética de las tasas de fallo reales de los componentes: λc = λ1 + λ 2 ... + λn n 5.3 Fiabilidad de un sistema en paralelo La fiabilidad de un sistema en paralelo con n componentes de fiabilidad Ri(t), i = 1,...,n es R(t) = 1 - {(1-R1(t)) (1-R2(t)) … (1-Rn(t))} donde la probabilidad de que el sistema falle antes de un instante t es Pr(T ≤ t) = 1-R(t) = (1-R1(t)) (1-R2(t)) … (1-Rn(t)). Si todos los componentes son idénticos, con fiabilidad Rc(t), entonces la fiabilidad es R(t) = 1-(1-Rc(t))n La fiabilidad de un sistema en paralelo, donde todos los componentes tienen tasa de fallo constante, es R(t) = 1- (1- e- λ1t )(1- e- λ2t )...(1- e- λnt ) . Concluimos que un sistema en paralelo, donde todos los componentes tengan tasa de fallo constante, no tiene tasa de fallo constante. En un sistema en paralelo si fiabilidad es: los componentes son idénticos, con tasa de fallo λc, la R(t) = 1- (1- e- λct )n y la vida media puede obtenerse como θ = 1 λc 1 1 1 1+ 2 + 3 +...+ n . Para n grande se puede utilizar la aproximación θ ≡ 1 (logn + γ ) , donde γ es la constante de λc Euler : γ = 0,577. © Los autores, 2003; © Edicions UPC, 2003. Análisis de la fiabilidad de un sistema 71 5.4 Redundancia La redundancia es el principal método para aumentar la fiabilidad de un sistema y se define como la existencia de más de un medio para realizar una determinada función. Estos medios no tienen por qué ser idénticos (MIL-STD-721B). La redundancia puede implicar el uso de dos o más componentes o conjuntos idénticos, de forma que cuando uno falla hay otros que realizan la función; o bien puede incluir medios diferentes para realizar la función. Una rueda de repuesto de un automóvil es un ejemplo de pieza redundante; el sextante manual usado para la navegación de un vehículo espacial en caso de fallo de los controles automáticos es un ejemplo del segundo método. En ambos ejemplos, el componente redundante (la rueda o el sextante) se usa sólo cuando falla el sistema primario. Este uso se llama redundancia secuencial. Otros sistemas redundantes se hacen funcionar simultáneamente, de modo que todos los sistemas utilizables (no fallados) realicen la función durante todo el tiempo. Este tipo se llama redundancia en paralelo activo. El uso de cuatro motores en un avión es un ejemplo de redundancia en paralelo activo. El tipo de redundancia viene impuesto ante todo por consideraciones de actuación del sistema. La redundancia secuencial proporciona teóricamente más fiabilidad que la redundancia en paralelo activo si las funciones de detección de fallos y conmutación son extremadamente fiables. En caso contrario se prefiere la redundancia en paralelo activo desde el punto de vista de la fiabilidad. Ambos tipos dan una fiabilidad del sistema mucho mejor que el sistema no redundante. Los cálculos de la fiabilidad de sistemas redundantes pueden resultar muy complicados. En esta apartado se presentan, a título de ejemplo, algunos cálculos de fiabilidad de sistemas con componentes redundantes. La norma MIL-STD-721B define la redundancia activa (redundancia en paralelo activo) como la redundancia de los sistemas en los que los objetos redundantes operan simultáneamente, en lugar de ser activados cuando son necesarios. Y la redundancia secuencial (standby) se define como la redundancia de los sistemas en los que el medio alternativo de realizar una función no se activa hasta que es necesario, y es activado por el fallo del medio primario de realizar la función. Un ejemplo de redundancia activa es un avión trimotor, que funciona siempre que funcionen dos motores. Consideraciones a tener en cuenta son que, en un sistema secuencial (standby), el componente redundante se activa mediante un interruptor que tiene su propia fiabilidad. Si la fiabilidad del interruptor no es del 100%, se puede perder la fiabilidad ganada con la redundancia. Y además, el hecho de que el componente redundante no esté activado mientras el otro funciona correctamente, reduce las oportunidades de fallo. Por lo tanto, si la fiabilidad del interruptor es 100% fiable, un sistema secuencial (standby) tiene una fiabilidad más alta que un sistema en paralelo simple. El ejemplo 5.5 muestra la mejora de la fiabilidad de un sistema redundante activo. © Los autores, 2003; © Edicions UPC, 2003. 72 Fiabilidad industrial Ejemplo 5.5 Supongamos que cierto componente tiene, para una cierta misión, una fiabilidad del 0,75. Si sustituimos este componente por dos componentes idénticos en paralelo, obtenemos una fiabilidad del 93,75%: R = 1-(1-0,75)2 = 0,9395 Si lo substituimos por 4 componentes en paralelo, la fiabilidad del sistema aumenta hasta el 99,61%: R = 1-(1-0,75)4 = 0,9961 Si continuamos aumentando la redundancia, la fiabilidad continúa aumentando, pero el aumento es cada vez menor. Para un sistema en paralelo con n componentes standby, con interruptor 100% fiable, con todos los componentes con la misma tasa de fallo λ, constante, la fiabilidad puede calcularse a través de la fórmula: R = e-λt[1+ λt + (λt)2/2! + … +(λt)n-1/(n-1)!] que es la expresión para un sistema con n unidades iguales y con n-1 unidades de reserva. Ejemplo 5.6 En el ejemplo 5.5 se considera un sistema en paralelo donde los componentes tienen una fiabilidad Rc = 0,75 = exp(-λt). Esto equivale a λt =0,2876. Supongamos ahora que se trata de un sistema standby con interruptor 100%, con dos componentes, uno funcionado y el otro en standby: R = 0,75(1+0,2867) = 0,965 Si añadimos otro componente standby: R = 0,75(1+0,2867+0,041) = 0,996 Nota: Si lo comparamos con el ejemplo 5.6, observamos que con 3 componentes es suficiente para superar una fiabilidad del 99%. En el ejemplo 5.6 puede apreciarse, comparado con el ejemplo 5.5, que la redundancia secuencial con interruptor 100% fiable requiere de menos componentes para alcanzar la misma fiabilidad que la redundancia en paralelo activa. Supongamos que el dispositivo de detección de fallo no es perfectamente fiable, por lo que es preciso tener en cuenta sus probabilidades de fallo. Si suponemos que el diseño del sistema es tal que la función de detección sólo está ligada a las unidades de reserva y no afectan a la primera unidad que funciona, entonces se incluye en la fórmula la probabilidad de detección de fallo Psw . © Los autores, 2003; © Edicions UPC, 2003. Análisis de la fiabilidad de un sistema 73 En este caso, dado un sistema formado por dos componentes con tasa de fallo constante en redundancia standby, si la activación del componente es manual, mediante un interruptor 100% fiable, y Psw es la probabilidad de detección, entonces la fiabilidad es R(t) = e-λt(1+ Psw λt) Observaciones: Si la activación se hace mediante un interruptor automático con probabilidad de funcionar p, la fórmula también es válida. Si la activación se hace mediante un interruptor automático y la probabilidad de funcionar es variable, se debe considerar la fiabilidad del interruptor. Cuando tiene tasa de fallo constante λs, la fórmula es λ R(t) = e- λt 1+ (1-e- λst ) λs Ejemplo 5.7 Supongamos un sistema formado por dos componentes en standby, con tasa de fallo constante 0,75. La activación es manual, con un interruptor 100% fiable y una probabilidad de detección del 90%. Como la fiabilidad de los componentes es Rc = e-λt = 0,75 ⇒ λt = 0,2877 La fiabilidad del sistema es R = 0,75(1+0,9x0,2876) = 0,944 Ejemplo 5.8 Sistemas combinados Los sistemas combinados de la figura 5.5 están formados por subsistemas en serie del mismo componente. El primero es un sistema en serie formado por tres unidades de este componente, y los otros tres son sistemas combinados formados a partir de 6 unidades del componente. a) Serie © Los autores, 2003; © Edicions UPC, 2003. 74 Fiabilidad industrial b) Paralelo-serie c) Mixto-paralelo d) Serie-paralelo Figura 5.5 Sistemas combinados Cálculos: Si el componente básico es el mismo, con fiabilidad 0,95, la fiabilidad de los cuatro sistemas es: a) Ra = 0,95×0,95×0,95 = 0,857375 b) Rb = 1-(1-0,95×0,95×0,95)2 = 0,9796 c) Rc = (1-(1-0,95×0,95)2)×(1-(1-0,95)2) = 0,9880 d) Rc = (1-0,052) ×(1-0,052) × (1-0,052) = 0,9925 5.5 Análisis mediante árboles de fallo La fiabilidad de redes (Network reliability) se basa en una representación gráfica abstracta de un sistema. Básicamente está orientada al suceso éxito, pero en la práctica es mejor orientarla al fallo. Muchas veces un árbol de fallos (o árbol lógico) es el mejor dispositivo para deducir cuál es el mayor evento que puede producir un fallo en el sistema. © Los autores, 2003; © Edicions UPC, 2003. Análisis de la fiabilidad de un sistema 75 El análisis mediante árboles de fallo, abreviadamente FTA (failure tree analysis), es una técnica que utiliza gráficos, denominados árboles de fallo, que representan con operadores booleanos ("Y" y "O") las combinaciones de estados lógicos susceptibles de conducir un sistema a una situación no deseada. 5.5.1 Construcción de un árbol de fallos La construcción de árboles de fallos es uno de los principales métodos de sistemas de análisis de seguridad. Fue desarrollado en los años 60 en la industria aeroespacial. Puede ser una herramienta de diseño muy útil. Se pueden identificar los accidentes potenciales en el diseño de un sistema y puede ser de ayuda para eliminar cambios de diseño costosos y retornos. También se utiliza como herramienta de diagnóstico para predecir las causas de fallo más probables de un sistema en el caso que deje de funcionar. Un árbol de fallos es un modelo lógico gráfico donde se representan varias combinaciones de posibles sucesos, de fallo y normales, que ocurren en un sistema, donde el suceso no deseado se sitúa arriba de todo del árbol. Entre los elementos de un sistema se incluyen: hardware, software, y también factores humanos y ambientales. Para construir un árbol de fallos de un sistema siempre se empieza definiendo el suceso principal. Antes de empezar a construirlo debe entenderse el sistema, profundizando en las limitaciones del entorno y del problema. Una vez construido, se analiza el árbol y, para que tenga aplicabilidad, deben estudiarse las medidas correctivas y adoptarse las que se consideren oportunas para evitar o disminuir la probabilidad de fallo del sistema. 5.5.2 Símbolos de los sucesos Los símbolos se muestran en la figura 5.6, donde se representan tipos específicos de sucesos de fallo y normales de los análisis de árboles de fallo. El rectángulo define un suceso que es la salida de una puerta lógica, y depende del tipo de puerta lógica y de las entradas de la puerta lógica. Un suceso de fallo es un estado del sistema no normal. No necesariamente ha de ser debido al fallo de un componente. Por ejemplo, el suceso fallo puede ocurrir debido a un error de comando o de comunicación. El círculo define un fallo inherente básico de un elemento del sistema cuando opera sin las especificaciones diseñadas. Nos referimos a este suceso como suceso básico primario. El rombo representa aquel fallo, distinto del fallo primario, que no interesa desarrollar más (lo denominamos suceso básico secundario). Los sucesos básicos, pués, son primarios (círculo) o secundarios (rombo). El suceso interruptor representa un suceso que, por diseño, se espera que ocurra siempre (on) o que no ocurra nunca (off). Suceso de fallo Suceso básico primario Suceso básico secundario Figura 5.6 Símbolos de los sucesos de un árbol lógico de fallos © Los autores, 2003; © Edicions UPC, 2003. Suceso interruptor 76 Fiabilidad industrial 5.5.3 Puertas lógicas Los árboles de fallo utilizan puertas O (OR gates) y puertas Y (AND gates). La puerta O es una conexión lógica entre un suceso combinado y diversos sucesos elementales, lo que significa que el suceso combinado tiene lugar cuando se da al menos alguno de los sucesos elementales. La puerta Y es una conexión lógica entre un suceso combinado y diversos sucesos elementales, lo que significa que el suceso combinado tiene lugar cuando se dan simultáneamente todos los sucesos elementales. + . Puerta O Puerta Y Figura 5.7 Símbolos de las puertas lógicas Ejemplo 5.9 La fiabilidad del sistema de la figura 5.8 se calcula a partir de los fallos primarios cuyos sucesos 1, 2, 3, 4, 5, 6 y 7 son independientes. Supongamos que las probabilidades de estos fallos son, respectivamente P1=0,2; P2=0,3; P3=0,32; P4=0,24; P5=0,22; P6=0,15 y P7=0,12 El cálculo de la probabilidad de fallo del sistema (suceso F) es como sigue: PF = PA×P1×PB PA se calcula por la regla del producto, ya que es una puerta Y: PA = P2×P3×P4 = 0,3×0,32×0,24 = 0,02304 PB se calcula por la regla del producto a partir de la probabilidad del complementario, ya que se trata de una puerta O: (1-PB) = (1-P5)×(1-P6)×(1-P7) = (1-0,22)×(1-0,15)×(1-0,12) = 0,58344 De donde se deduce que PB = 0,41656. © Los autores, 2003; © Edicions UPC, 2003. Análisis de la fiabilidad de un sistema 77 Y se concluye que la probabilidad de fallo del sistema es PF = 0,02304×0,2×0,41656 = 0,0019195 F . 1 A B . 2 3 + 4 5 Figura 5.8 Árbol de fallo del ejemplo 5.9 © Los autores, 2003; © Edicions UPC, 2003. 6 7