teoría de fiabilidad

Anuncio
Introducción
9
TEORÍA DE FIABILIDAD
Introducción
La teoría de la fiabilidad industrial estudia métodos que deben seguirse tanto en el diseño
como en la recepción, el transporte y el uso de los productos para garantizar al máximo su
rendimiento. Uno de los objetivos de la teoría de la fiabilidad industrial es el abandono de la
subjetividad en las previsiones sobre la duración de los productos a través de la
cuantificación de dichas previsiones. Así expresiones como: "Esta construcción es más
segura que aquélla", "Nuestro producto es más resistente que el de la competencia", tienen
que sustituirse por formulaciones más precisas, que necesitan del lenguaje estadístico.
Hay que pensar en la fiabilidad desde la primera fase del desarrollo de un producto. Antes
de tomar la decisión de fabricarlo en serie hay que someterlo a ensayos que sean
suficientemente representativos de sus condiciones de fabricación como para permitir no
sólo juzgar lo ensayado, sino también la fabricación en serie. En la etapa de desarrollo de un
producto deben elaborarse una serie de reglas que se tendrán que observar a la hora de
fabricar los productos, en su recepción y en su explotación, con la finalidad de preservar la
fiabilidad.
La fiabilidad en la ingeniería está orientada a los fallos. El problema reside en predecir si
puede ocurrir un fallo al utilizar un dispositivo y cuándo ocurrirá. Esta información es útil para
determinar las políticas de mantenimiento e inspección de una empresa, así como para
determinar los plazos de garantía de los productos. También puede utilizarse para predecir
costes debidos al mantenimiento y a los eventuales fallos que puedan ocurrir mientras el
dispositivo está operativo.
La definición utilizada en la ingeniería para la fiabilidad es la de "probabilidad de que un
dispositivo haga su función bajo condiciones establecidas, durante un período de tiempo
establecido".
Para la Física, la probabilidad se define: "Por probabilidad de un acontecimiento de una
observación nosotros entendemos nuestra estimación más creíble de la fracción del número
de observaciones que resultarán del acontecimiento particular" [Feynman]. Esta idea
corresponde a la definición frecuentista de la probabilidad: consiste en imaginar la repetición
de una experiencia y establecer la relación entre la frecuencia de un suceso A NA y el
número N de repeticiones:
P(A)=
NA
.
N
Hay por lo menos dos reflexiones ligadas a esta idea:
„
Un suceso no es siempre exactamente repetible. Como mínimo, los tiempos de
ocurrencia son distintos.
„
La probabilidad está ligada a la información disponible en cada momento.
© Los autores, 2003; © Edicions UPC, 2003.
10
Fiabilidad industrial
Otra definición de probabilidad más subjetiva es que "probabilidad es el grado de creencia
que tiene un analista u observador." La idea es que la probabilidad es una herramienta
analítica basada en la valoración, útil para poder tomar decisiones. Esta definición es en la
que se apoya la Escuela Bayesiana.
Para revisar las propiedades de la probabilidad se puede consultar el capítulo 2 de
Montgomery y Runger (1996).
„
Perspectiva histórica de la teoría de la fiabilidad
El origen de la fiabilidad puede atribuirse a los estudios para poder evaluar la mortalidad
derivada de las epidemias y a los métodos actuariales desarrollados por las compañías de
seguros, para determinar los riesgos de sus pólizas. Como herramienta para el cálculo del
riesgo se utilizaba las tablas de vida.
La primera tabla de vida data de 1693 y es debida a Edmund Halley1, astrónomo inglés
conocido por haber predicho la órbita del cometa que lleva su nombre.
A principios de 1900 se utilizaban los métodos actuariales tanto para estimar la
supervivencia de pacientes sometidos a distintos tratamientos como para estudiar la
fiabilidad de equipamientos, en particular de los ferrocarriles.
La teoría matemática de la fiabilidad se desarrolla por las demandas de la tecnología
moderna y en particular por las necesidades de los sistemas complejos militares. El área de
mantenimiento de máquinas es una de las áreas donde la fiabilidad se aplica con
sofisticadas matemáticas. La renovación y los avances de la tecnología se utilizan muy
pronto para resolver problemas de reparación e inspección de dispositivos.
En 1939 Walodie Weibull, cuando era profesor del Royal Institute of Technology en Suiza,
propuso una distribución para describir la duración de materiales, que más tarde llevaría su
nombre. La distribución de Weibull es muy utilizada en las aplicaciones, ya que es muy
versátil, pues admite distintas formas de funciones de riesgo.
En 1951 Epstein y Sobel empezaron a trabajar con la distribución exponencial como modelo
probabilístico para estudiar el tiempo de vida de dispositivos [ver Epstein y Sobel (1953)].
Este modelo de probabilidad, tan bueno como muchos otros, se basa en el concepto de
población de tamaño infinito o no acotado. La distribución exponencial tiene la propiedad de
no tener memoria; es decir, en el cálculo de la probabilidad de que falle un dispositivo no
influye el tiempo que hace que funciona.
Una razón fundamental de la popularidad de la distribución exponencial es la amplia
explotación que se ha hecho de ella en trabajos de fiabilidad, debido a su simplicidad en la
suma de las tasas de fallo ya que hace posible el cálculo de diseños de datos de forma
simple.
La investigación de sistemas de fiabilidad en general (y en particular las funciones de
sistemas coherentes) se inició en 1961 a partir del artículo de Birnbaum, Esary y Sauders.
1
Puede encontrarse una traducción al español del artículo citado en James R. Newman (1968).
© Los autores, 2003; © Edicions UPC, 2003.
Introducción
11
Se puede citar también un trabajo previo de Moore-Shanon donde plantean de forma más
abstracta unos enlaces de superfiabilidad. Birmbaum, Esary y Marshall (1966) introdujeron
la conexión entre las estructuras de los sistemas coherentes y la clase de distribuciones de
tiempos de vida, incluyendo las distribuciones exponenciales.
El cálculo de la fiabilidad de los sistemas había llegado a un nivel de complejidad tal que era
necesaria la formalización abstracta de dichos sistemas.
Los sistemas coherentes forman una clase de modelos de fiabilidad; el concepto
fundamental de los sistemas coherentes (coherent system) es que los componentes se
encuentran individualmente en uno de los dos estados: funcionan o fallan, y el estado de los
sistemas se representa en términos de los estados individuales de cada componente a
través de las funciones de estructura (structure function). Dos propiedades clave son: (a) la
relevancia de cada componente, es decir, no hay ningún componente cuya fiabilidad no
afecte a la fiabilidad del sistema; y (b) la monotonicidad, que encierra el concepto de que la
fiabilidad de un sistema nunca puede ser mejorada cuando uno de sus componentes se
vuelve menos fiable.
Merece mención especial indicar las publicaciones W. Nelson (1982,1990) sobre
aplicaciones de fiabilidad industrial y pruebas de vida acelerada que se han convertido en
referencias obligadas en el campo de la fiabilidad industrial.
El análisis mediante árboles de fallo, FTA (failure tree analysis), es un método de análisis de
la seguridad de un sistema. Lo desarrolló por primera vez H.A. Watson en los laboratorios
Bell. Pero es en los años 70 cuando el análisis de la fiabilidad de un sistema mediante
árboles de fallo toma más fuerza por problemas relacionados con la seguridad en las
centrales nucleares.
En los años 80 el objetivo principal de los trabajos de fiabilidad está en las redes de
comunicaciones. Esto fue motivado por el proyecto Advanced Research Project Agency
Network (ARPAnet) del Departamento de Defensa americano, que se planteó el objetivo de
la alta fiabilidad de las comunicaciones entre centros estratégicos, aunque los nodos
intermedios no fueran altamente fiables. El resultado de estos trabajos ha encontrado
aplicación en los sistemas de web e Internet actuales.
En los años 90, la investigación de la fiabilidad toma nuevas direcciones con M.B. Mendel.
Los orígenes de su investigación se basan en la hipótesis de que muchas de las
representaciones en el espacio muestral que se han considerado en la estadística no
correspondan en ingeniería a los espacios euclídeos. Por ello, utiliza la geometría diferencial
como base para la aproximación de los problemas de ingeniería estadística. Esto puntos de
vista se pueden encontrar en recientes publicaciones sobre problemas de fiabilidad de la
ingeniería, entre ellos los de Shortle y Mendel (1994) y (1996).
„
Objetivos de la materia
La materia de fiabilidad que se imparte en este texto es una introducción a las técnicas
estadísticas para resolver cuestiones de fiabilidad industrial.
La fiabilidad industrial se diferencia de otras técnicas estadísticas por utilizar los modelos
probabilísticos propios de las variables aleatorias que son tiempos de vida hasta el fallo,
© Los autores, 2003; © Edicions UPC, 2003.
12
Fiabilidad industrial
como la distribución exponencial y la Weibull. Otro rasgo diferencial es que en la práctica las
muestras aleatorias de que se dispone no son completas. Esto es debido a que en muchos
casos las pruebas de vida o ensayos de fiabilidad son destructivas, con lo cual son costosas
económicamente y en tiempo. Por ello, en muchos casos, se finaliza el ensayo antes de
observar el fallo.
Se desarrollan los modelos exponencial y Weibull en el contexto de la fiabilidad. También se
hace una introducción a los datos censurados y la estimación de parámetros con datos
censurados.
Se hace una introducción a las pruebas de vida acelerada, que son una práctica común en
la industria. Son aquellos ensayos que se realizan a un nivel de estrés superior al de las
condiciones ordinarias de funcionamiento, con el fin de provocar la aparición de fallos en un
tiempo más corto. Estas pruebas se realizan exponiendo los productos a condiciones más
severas que las usuales. Generalmente implica aumentar la temperatura, el voltaje, la
presión, la vibración, el tiempo operativo, etc.
Las pruebas de vida acelerada pueden usarse tanto para evaluar la capacidad de un
componente, a fin de satisfacer los requisitos de fiabilidad, como para tener un medio más
rápido de detectar debilidades potenciales o modos de fallo.
En el último capítulo se desarrolla el análisis de un sistema, formulando los sistemas
coherentes, la fiabilidad de un sistema en serie y en paralelo con tasa de fallo constante. Por
fin, se hace una introducción al análisis de la fiabilidad mediante árboles de fallo.
El objetivo principal de esta materia es dar una introducción a la fiabilidad industrial de forma
que el estudiante sea capaz de:
„
Identificar cuándo un problema es propio de la fiabilidad y determinar cuál es la prueba
de vida más adecuada para estudiarlo.
„
Reconocer la variable aleatoria que define la problemática planteada, acotando bien la
definición de fallo y definiendo las unidades con que se medirá: ciclos, horas, resistencia
hasta el fallo, etc.
„
Establecer cuál es el modelo probabilístico adecuado que ajusta mejor los datos de una
prueba de vida.
„
Estimar gráficamente con una hoja de cálculo los parámetros de los modelos
exponencial y Weibull para muestras con datos completos y datos censurados.
„
Estimar por el método de máxima verosimilitud los parámetros de los modelos
exponencial y Weibull para muestras con datos completos y datos censurados.
„
Calcular las características de fiabilidad: la fiabilidad, la vida media hasta el fallo, la tasa
de fallo, la función de riesgo, los percentiles y la mediana.
„
Calcular los intervalos de confianza de la vida media y la tasa de fallo del modelo
exponencial.
„
Calcular las constantes de los modelos de pruebas de vida con estrés constante: el de
Arrhenius y el de la potencia inversa de Weibull.
© Los autores, 2003; © Edicions UPC, 2003.
Introducción
13
„
Determinar la fiabilidad de un sistema compuesto por componentes en serie con tasa de
fallo constante, en paralelo, sistemas combinados y sistemas con componentes
redundantes.
„
Calcular la fiabilidad de un sistema a partir del análisis de un modelo lógico gráfico
como los árboles de fallo (FTA).
La materia de fiabilidad está estructurada en 5 capítulos y dos apartados de ejercicios y
prácticas:
„
Capítulo 1: Conceptos fundamentales
En este capítulo se presentan los conceptos generales de la teoría de la fiabilidad. El
objetivo de este capítulo es familiarizarse con las nociones de fallo, tasa de fallo, vida
media y fiabilidad. Estos conceptos se introducen haciendo referencia al lenguaje y la
terminología de una prueba de vida industrial. Se dan los preliminares de las
distribuciones de probabilidad en fiabilidad, haciendo hincapié en la función de riesgo
(hazard function), que es específica de los estudios de fiabilidad. También se hace una
introducción de los distintos enfoques que puede tener la fiabilidad en la industria.
„
Capítulo 2: Fiabilidad con tasa de fallo constante
Este capítulo aborda el modelo exponencial, que es el más utilizado en el análisis de
pruebas de vida. Se plantea la estimación de la vida media y la tasa de fallo para
distintas situaciones de pruebas de vida. Se introducen las muestras aleatorias que no
son completas y el concepto de datos censurados.
„
Capítulo 3: Tasa de fallo no constante: El modelo de Weibull y otros
Este capítulo trata el modelo de Weibull, que permite modelar tasas de fallo constante,
crecientes y decrecientes. También se tratan otras distribuciones como la Gumbel, la
Normal y la lognormal. Se describen los gráficos de probabilidad como herramienta para
validar el modelo de Weibull y estimar sus parámetros, tanto para muestras completas
como datos censurados. Se expone brevemente el método de estimación de la máxima
verosimilitud y se proponen estimadores para los parámetros basados en este método.
„
Capítulo 4: Pruebas de vida aceleradas
Es una introducción a las pruebas de vida acelerada, que son una práctica común en
situaciones donde es difícil la aparición de fallos. Se explican dos tipos de pruebas de
donde, a partir de los datos de dispositivos sometidos a una aceleración, se puede
inferir la fiabilidad del dispositivo en condiciones normales de uso. Se exponen el
modelo de Arrhenius y el de la potencia inversa de Weibull, dos modelos típicos de
pruebas de vida con estrés constante,
„
Capítulo 5: Análisis de la fiabilidad de un sistema
En este capítulo se desarrolla el análisis de un sistema, formulando los sistemas
coherentes, la fiabilidad de un sistema en serie y en paralelo con tasa de fallo
constante. Se hace una introducción al análisis de la fiabilidad mediante árboles de fallo.
© Los autores, 2003; © Edicions UPC, 2003.
14
„
Fiabilidad industrial
Ejercicios y prácticas de fiabilidad
Se proponen ejercicios y prácticas resueltos de los cinco capítulos. La herramienta
utilizada es la hoja de cálculo Excel y el programario estadístico Minitab.
„
Autoevaluaciones de fiabilidad
Se proponen ejercicios tipo test resueltos.
La fuente de algunos de los ejemplos desarrollados en estos apuntes es de W. Nelson
(1982) y G. Gómez y M. Canela (1992).
© Los autores, 2003; © Edicions UPC, 2003.
Conceptos fundamentales
15
1 CONCEPTOS FUNDAMENTALES
En este capítulo se presentan los conceptos generales de la teoría de la fiabilidad. El
objetivo de este capítulo es familiarizarse con las nociones de fallo, tasa de fallo, vida media
y fiabilidad. Estos conceptos se introducen haciendo referencia al lenguaje y la terminología
de una prueba de vida industrial. Se dan los preliminares de las distribuciones de
probabilidad en fiabilidad, haciendo hincapié en la función de riesgo (hazard function) que es
específica de los estudios de fiabilidad. También se hace una introducción de los distintos
enfoques que puede tener la fiabilidad en la industria.
Fiabilidad es un concepto con muchas connotaciones distintas. Cuando se aplica al ser
humano, normalmente se refiere a la habilidad de las personas para hacer ciertas tareas de
acuerdo con un estándar especificado. Por extensión, la palabra se aplica a una pieza de un
equipo, o a un componente de un sistema, y significa la habilidad de un equipo o
componente para cumplir con la funcionalidad que se requiere de él. El origen del uso del
término era cualitativo.
En su aplicación actual, la fiabilidad es casi siempre un concepto cuantitativo, y esto implica
la necesidad de métodos para medirla.
Hay muchas razones por las que la fiabilidad necesita ser cuantificada. Quizá el más
importante es el económico ya que la mejora de la fiabilidad cuesta dinero, y esto puede ser
justificado sólo si se puede evaluar la no fiabilidad de un equipo. Para un componente
crítico, del cual su operación funcional es esencial en un sistema, la fiabilidad puede ser
medida como la probabilidad de que el componente opere con éxito, y la esperanza del
costo de un componente no fiable se mide como el producto de la probabilidad de fallo y el
costo del fallo. En una aplicación rutinaria, donde los componentes que fallan pueden ser
reparados, la media del tiempo entre fallos (Mean Time Between Failures) es un parámetro
crítico. En ambos casos, la necesidad de una definición probabilística de fiabilidad es
evidente.
1.1 Fiabilidad y fallo
Según la norma internacional ISO 8402, la calidad de un producto es el conjunto de
características que le confieren la aptitud para satisfacer las necesidades establecidas y las
implícitas. Estas necesidades pueden comportar aspectos relativos a su aptitud de uso, la
seguridad, el respeto al medio ambiente, y en muchos casos, la fiabilidad.
La fiabilidad (reliability) de un producto se define como la facultad de conservar la calidad,
durante un tiempo preestablecido, en unas condiciones determinadas de explotación
(definición cualitativa). Para poder cuantificarla se utiliza el lenguaje estadístico y se define
como la probabilidad de que un dispositivo desarrolle su función con ciertas condiciones
establecidas, durante un período de tiempo establecido. El valor de esta probabilidad se
denota por R.
Para no tener ambigüedades en la cuantificación de la fiabilidad es importante tener bien
definido el concepto de tiempo de vida de un producto y tener identificado cuándo éste falla
y de que clase de fallo se trata.
© Los autores, 2003; © Edicions UPC, 2003.
16
Fiabilidad industrial
La vida de un producto es el período de tiempo durante el que puede ser utilizado, en las
condiciones establecidas.
Fallo (failure) es la pérdida de alguna de las propiedades del dispositivo que reduce, total o
parcialmente, su funcionamiento.
Cuando el fallo se define como un cierto nivel de degradación en el funcionamiento del
dispositivo, puede interesar estudiar la variación de la propiedad en la que se concreta la
degradación con el tiempo y a la curva que la describe se le llama curva de degradación. No
es objeto de estos apuntes entrar en el estudio de ésta, que requiere de un aparato
matemático más sofisticado. En la figura 1.1, a modo de ilustración, se puede observar
gráficamente la deriva de la media y la varianza de una medida de interés.
Ejemplo 1.1
Un tipo de resistencia eléctrica de 3.000 nominales presenta una deriva del parámetro
fundamental según el siguiente esquema: el valor medio decrece a razón del 1% de su valor
inicial cada 1.000 horas; la desviación estándar, inicialmente del 2%, es decir 60Ω, aumenta
a razón del 0,5% de su valor inicial cada 1.000 horas. Un esquema de la pauta de la deriva
puede ser el de la figura 1.1.
¿Cuál es la probabilidad de que una resistencia se encuentre después de 2.000 horas de
funcionamiento dentro del intervalo de tolerancia 3.000 ± 240Ω, suponiendo que la
distribución del valor de la resistencia sigue una ley Normal?
En t = 0 horas la variable aleatoria, T = "resistencia eléctrica", se distribuye según una
distribución Normal de media 3.000Ω y una desviación estándar 60Ω . Es decir,
T~N(3.000, 60)
En t = 2.000 horas, T ~ N(3.000 - 60Ω; 60 + 0,6Ω) = N(2.940; 60,6)
Se calcula la probabilidad de que la resistencia cumpla la tolerancia al cabo de 2.000 horas
de funcionamiento a partir de la tablas estadísticas de la distribución Normal Z(0;1) en la
tabla 2 del anexo.
 2.760-2.940 T -2.940 3.240-2.940 
Pr(2.760 ≤ T ≤ 3.240) = Pr 
≤
≤
 =
60,6
60,6
60,6


Pr[-2,97 ≤ Z ≤ 4,95] = Pr(Z ≤ 4,95)- Pr[Z ≤ -2,97] = 1-(1-0,9985) = 0,9985, donde Z~N(0;1)
No cumplirán la tolerancia un 0,15% de las resistencias. Al cabo de 2.000 horas de
funcionamiento.
© Los autores, 2003; © Edicions UPC, 2003.
Conceptos fundamentales
17
Figura 1.1 Ejemplo de la deriva de los parámetros de la distribución Normal con el tiempo
La manera en que se observa el fallo se denomina modo de fallo (failure mode) y el
mecanismo del fallo (failure mechanism) se refiere al proceso químico, físico que da lugar al
fallo.
En ciertos casos la noción de fallo no es transparente: por ejemplo, nos puede interesar
saber cuándo una pieza de un motor deja de funcionar de manera adecuada; en este caso
debe precisarse muy bien cuál es el fallo. Por ejemplo, si el fallo se detecta por el ruido del
motor, se tendrá que definir cómo medirlo (en decibelios por ejemplo) y definir un límite
superior de tolerancia (por ejemplo 60 dB). Cuando se supera el límite de 60 dB, tenemos el
fallo.
Los fallos se pueden clasificar según la causa que lo provoca: fallo por uso indebido (misuse
failure) cuando la causa es extrínseca al dispositivo, y fallo por debilidad inherente (inherent
weakness failure) cuando la causa es intrínseca.
Un sistema es un dispositivo formado por partes, la fiabilidad de las cuales es conocida.
Estas partes se denominan componentes. En general, el fallo de un sistema se produce al
fallar uno o varios componentes. Según sea el fallo, se denomina fallo primario (primary
failure) cuando no es causado ni directamente ni indirectamente por el fallo de otro
dispositivo, fallo secundario cuando es causado por el fallo de otro dispositivo, y fallo por
desgaste (wear-out failure) cuando es un fallo con una probabilidad de aparición que
aumenta a medida que el tiempo pasa, resultado de una serie de procesos característicos
del dispositivo.
© Los autores, 2003; © Edicions UPC, 2003.
18
Fiabilidad industrial
1.2 Características de fiabilidad
Para poder describir el comportamiento del tiempo de vida T de un dispositivo utilizamos la
fiabilidad, que es la probabilidad de que un objeto realice su función con ciertas condiciones
establecidas, durante un período de tiempo prefijado. T es una variable aleatoria y para cada
valor del tiempo t se obtiene un valor de fiabilidad R(t), el que en estadística se denomina
distribución de probabilidad. Una distribución de probabilidad se caracteriza mediante unos
parámetros estadísticos, que en el contexto de la fiabilidad se denominan características de
fiabilidad. La distribución de probabilidad será distinta si los dispositivos se reparan o no,
puesto que en un caso la variable aleatoria de interés es el tiempo entre fallos y, en el otro,
el tiempo hasta el fallo.
En los dispositivos que no se reparan, únicamente tiene sentido considerar tiempos de vida
hasta el primer fallo, y la variabilidad de una unidad a otra da una distribución, que es el
objeto de estudio de la fiabilidad.
Una característica de fiabilidad de la variable aleatoria T: tiempo hasta el fallo es la vida
media hasta el fallo, MTTF (mean time to failure).
Si los dispositivos son reparados tiene sentido considerar el tiempo entre fallos
consecutivos. La fiabilidad en este caso es más complicada, a menos que la distribución de
probabilidad de tiempo entre fallos sea independiente de la edad del dispositivo.
Una característica de fiabilidad de la variable aleatoria T: tiempo entre fallos consecutivos es
el tiempo medio entre fallos, MTBF (mean time between failure).
En las aplicaciones, sólo se dispone de un valor aproximado de estos parámetros, obtenido
por un procedimiento estadístico de estimación más o menos complejo. Estos valores están
muchas veces incluidos en la especificación de un producto, y pueden figurar en una
relación contractual entre un cliente y un proveedor, o servir de criterio para una
homologación. Es importante concretar de qué forma se obtiene una característica de
fiabilidad. Un lenguaje preciso y preferiblemente normalizado ayuda a evitar malentendidos
cuando se utilizan valores de las características de fiabilidad. Aquí utilizaremos la
terminología de la Internacional Electrotechnical Comision (IEC), recogida en la norma IEC
271.
Observación: La variable aleatoria duración de un dispositivo a veces no se mide en tiempo
sino en otra magnitud que tiene un significado análogo, por ejemplo la fiabilidad de un cable
puede referirse a la resistencia en Newton hasta la rotura, la de un neumático a los
kilómetros rodados, la de una tostadora al número de ciclos, la de un motor al número de
revoluciones, la de un equipo eléctrico a los kilovatios consumidos. De todas formas
mantendremos la notación temporal para simplificar.
Otras características de fiabilidad son la fiabilidad y la tasa de fallo.
La fiabilidad es la probabilidad de que una variable aleatoria T: tiempo hasta el fallo supere
un cierto período de tiempo en funcionamiento y se denota por R(t):
R(t) = Pr(T > t), donde T: tiempo hasta el fallo es la variable aleatoria.
© Los autores, 2003; © Edicions UPC, 2003.
Conceptos fundamentales
19
Hay distintas formas de aproximar una característica de fiabilidad. En general se distinguen
cuatro formas distintas: observada, evaluada, extrapolada y predicha. Esta distinción es
válida para cualquier característica de fiabilidad. En el caso de la fiabilidad se definen de la
siguiente forma:
Fiabilidad observada (observed reliability): de un dispositivo que no se repara a un tiempo
dado t, es la proporción de dispositivos de una muestra que hacen su función de manera
satisfactoria una vez transcurrido este tiempo t. Puede expresarse en porcentaje. El ejemplo
1.2 es una ilustración de este concepto.
Ejemplo 1.2
Se realiza un ensayo del mecanismo de arrastre del papel de un nuevo modelo de
impresora de chorro de tinta. El ensayo se realiza con 12 unidades y la duración prefijada es
de 60.000 ciclos. Los resultados son:
24.609; 25.237; 30.391; 41.434; 42.212; 51.615; 60.000+; 60.000+; 60.000+; 60.000+;
60.000+; 60.000+.
El símbolo + indica censura por la derecha, es decir al cabo de 60.000 ciclos aún
funcionaba.
En este caso la variable aleatoria es:
T = "nº ciclos de un mecanismo de arrastre hasta el fallo"
La muestra aleatoria simple T1, ... ,T12 es de tamaño n=12.
La fiabilidad observada a 50.000 ciclos es:
R(50.000) = 7/12 = 0,58
donde se interpreta que este nuevo mecanismo tiene una fiabilidad observada del 0,58, es
decir un 58% de las impresoras superan los 50.000 ciclos.
Nota: las fórmulas y la terminología para los cálculos se encuentran desarrolladas en el
capítulo 2.
La fiabilidad evaluada (assessed reliability) hace referencia a valores obtenidos a partir de
datos experimentales por un tratamiento estadístico. El resultado de este tratamiento puede
dar distinto a la fiabilidad observada como puede apreciarse en el ejemplo 1.3. La ventaja
del tratamiento estadístico es que el resultado es más preciso ya que en el cálculo
intervienen los tiempos de vida, y además nos permite la obtención de un intervalo de
confianza. Se puede dar a la fiabilidad evaluada un límite de confianza inferior o dos límites.
Obsérvese en el ejemplo 1.3 un intervalo de confianza unilateral de la fiabilidad evaluada.
© Los autores, 2003; © Edicions UPC, 2003.
20
Fiabilidad industrial
1.2.1 Interpretación de un intervalo de confianza (1-α) para un parámetro θ
El intervalo de confianza asocia una verosimilitud o nivel de certeza que puede atribuirse a
la estimación del parámetro θ.
Un intervalo de confianza (1-α) en el sentido clásico (no bayesiano) es tal que, si repetimos
el experimento una infinidad de veces (y cada vez recalculamos el intervalo) entonces un
porcentaje (1-α)100 % de las veces, el intervalo cubriría el verdadero valor del parámetro
desconocido θ.
Ejemplo 1.3
Se realiza un ensayo con 20 dispositivos y se finaliza cuando 12 de ellos han fallado. Se
obtienen los siguientes resultados:
55, 58, 86, 131, 335, 376, 517, 544, 920, 953, 1.072 y 1.260 horas hasta el fallo.
En este caso la variable aleatoria es:
T = "tiempo en horas hasta el fallo de un dispositivo"
La muestra aleatoria simple T1, ... ,T20 es de tamaño n = 20.
Sólo se dispone del tiempo hasta el fallo de 12 de los 20 dispositivos; de los 8 restantes
sabemos que han superado las 1.260 horas de funcionamiento.
Si suponemos que la distribución exponencial se ajusta bien a los datos podemos estimar la
vida media hasta el fallo como:
θ̂ = MTTFOBSERVADO =
T
= 1.365,58
12
horas, donde T es el tiempo total en test
T = 55+58+86+131+335+376+517+544+920+953+1.072+1.260+8×60 = 16.387
La vida media evaluada hasta el fallo es de 1.365,58 horas.
La fiabilidad observada a 600 horas es 12/20 = 0,60, donde 12 son los dispositivos que han
superado las 600 horas.
La fiabilidad evaluada a 600 horas es:
R(600) = exp(-600/1.365,58) = 0,64
© Los autores, 2003; © Edicions UPC, 2003.
Conceptos fundamentales
21
Cálculo de la fiabilidad mínima de 600 horas con una confianza del 0,95
Primero se calcula el intervalo de confianza unilateral del 0,95 para θ, que es:
900,01=
2T
2
χ0,95:24
≤ θˆ
2
= 36,415 . Así, se deduce que la vida media
donde el percentil 0,95 de la distribución χ0,95;24
de los dispositivos es de 900,01 horas como mínimo, con una confianza del 0,95.
Utilizando el límite inferior de la estimación de la vida media se encuentra el intervalo de
confianza unilateral del 0,95 para R(600), que es
R(600) = exp(-600/900,01) = 0,51
De donde se interpreta que, como mínimo, la fiabilidad a 600 horas es de 0,51 con una
confianza del 0,95, lo que indica que 51% de los dispositivos superarán las 600 horas y esta
afirmación se hace con una confianza del 0,95.
Nota: las fórmulas para los cálculos se encuentran descritas en el capítulo 2.
La fiabilidad extrapolada (extrapolated reliability) se refiere a un valor obtenido al extrapolar
o interpolar una fiabilidad observada o evaluada para poder obtener un valor aplicable a
condiciones de estrés distintas, en que se van obteniendo resultados experimentales.
Habitualmente, los valores extrapolados se basan en pruebas de vida aceleradas, que
comentaremos en el capítulo 4.
La fiabilidad predicha (predicted reliability) designa un valor aplicable a un sistema, que se
obtiene a partir de los valores observados, evaluados o extrapolados, de sus componentes.
Los métodos para el cálculo de las características de fiabilidad de un sistema se harán en el
capítulo 5.
La tasa de fallo (failure rate) es una característica de la fiabilidad que se puede interpretar
como la velocidad a la que se producen los fallos, la fracción de unidades de un producto
que fallan por unidad de tiempo.
Si la tasa de fallo es constante se designa por λ y si es función del tiempo t se designa por
h(t) y se llama función de riesgo (Hazard function).
La tasa de fallo es la magnitud recíproca de la vida media, ya que generalmente representa
un número medio de fallos por unidad de tiempo.
Igual que las otras características de fiabilidad, la tasa de fallo para un tiempo dado puede
ser observada, extrapolada, etc.
La tasa de fallo, para un intervalo (t1, t2) se define como:
h(t1, t2)=
R (t1)-R (t 2 )
(t 2 -t1)R (t1)
© Los autores, 2003; © Edicions UPC, 2003.
22
Fiabilidad industrial
y es llamada también tasa de fallo auténtico (true failure rate). La fiabilidad R(t) representa la
proporción de unidades que no han fallado en el instante t.
El cociente (R(t1) - R(t2)) / R(t1) representa la fracción de unidades que, no habiendo fallado
en el instante t1, fallan en el intervalo (t1, t2).
Si hacemos el límite de h(t1, t2) cuando t2 tiende a t1 se obtiene la función de riesgo o tasa
de fallo instantáneo en un instante t, que es una derivada:
h(t)=
-R ′(t)
R (t)
Si se asume que la tasa de fallo no depende de t, es decir es constante, el tratamiento
estadístico es mucho más sencillo tal como veremos en el siguiente capítulo.
Ejemplo 1.4
La siguiente tabla de mortalidad debida a Halley (1693) es un ejemplo clásico, que fue
discutido por Todhunter en 1949, que puede servir de ilustración para discutir las fórmulas
de la fiabilidad y de la tasa de fallo definidas. La tabla muestra las edades de defunción de
las personas de la época, que vienen agrupadas en intervalos de 5 años.
Edad t
Proporción
F(t)
Fiabilidad R(t)
Tasa h(t)
0−5
5−10
10−15
15−20
20−25
25−30
30−35
35−40
40−45
45−50
50−55
55−60
60−65
65−70
70−75
75−80
80−85
0,290
0,057
0,031
0,030
0,032
0,037
0,042
0,045
0,049
0,052
0,053
0,050
0,050
0,051
0,053
0,044
0,034
0,290
0,347
0,378
0,408
0,440
0,477
0,519
0,564
0,613
0,665
0,718
0,768
0,818
0,869
0,922
0,966
1
0,710
0,653
0,622
0,592
0,560
0,523
0,481
0,436
0,387
0,335
0,282
0,232
0,182
0,131
0,078
0,034
0
0,058
0,016
0,009
0,010
0,011
0,013
0,016
0,019
0,022
0,027
0,032
0,035
0,043
0,056
0,081
0,113
0,200
© Los autores, 2003; © Edicions UPC, 2003.
Conceptos fundamentales
23
1.3 Pruebas de vida
Las pruebas de vida son experimentos cuya finalidad es determinar el valor de una
característica de fiabilidad (determination tests) o bien asegurar que una característica de
fiabilidad es superior o inferior a un límite especificado (compliance test).
Una cuestión importante es la elección de las condiciones exteriores y el régimen de trabajo
que hace falta seguir durante las pruebas. En la elección de las condiciones se deben tener
en cuenta las particularidades del producto durante su explotación, como temperatura,
humedad, tensión, vibraciones, etc. Las condiciones exteriores pueden tener una influencia
decisiva en la variación de los parámetros medidos.
La aproximación de las pruebas de vida es estadística, puesto que a priori no puede saberse
cuándo se va a producir el fallo. Es decir, la aparición del fallo tiene un carácter aleatorio.
El conjunto de reglas que rigen el desarrollo de las pruebas se designa por plan de las
pruebas y éste ha de estar bien definido antes de empezar a experimentar. Debe fijarse el
número de unidades que se prueban, y la duración, que vendrá restringida por la
disponibilidad económica y de tiempo. La duración puede fijarse en tiempo o en número de
unidades que sé esta dispuesto a observar que fallen. En ambos casos puede pasar que la
prueba termine y haya unidades donde no se ha observado el fallo.
Los ejemplos 1.2 y 1.3 ilustran situaciones típicas de pruebas de vida: en el ejemplo 1.2 se
fija la duración de la prueba en 60.000 ciclos y en el ejemplo 1.3 se fija la cantidad de
unidades que se está dispuesto a esperar que fallen, en particular 12.
El tratamiento estadístico en este caso requiere de las técnicas de muestras estadísticas no
completas, puesto que la información de que se dispone sobre algunas unidades es que el
fallo no ha ocurrido durante el tiempo de la prueba, denominado tiempo total de test. Estos
datos se llaman censurados. El concepto de censuramiento se define en el capítulo 2.
También es importante fijar si el seguimiento de la prueba será continuo o periódico. En
muchos casos no se dispone de equipos conectados a las unidades para poder determinar
exactamente cuándo ha habido el fallo y en estos casos debe fijarse con qué periodicidad se
efectuará y cuáles serán las unidades de medida. En otros casos puede que el seguimiento
no sea en tiempo real sino operacional, es decir el seguimiento se hace a largo plazo y sólo
cuando el dispositivo opera, por ejemplo en el tiempo de vuelo, y no el tiempo desde su
fabricación.
Es importante establecer si las unidades que fallan serán reemplazadas o no, a medida que
vayan fallando (sistemas reparables o no reparables) y cuándo se dá por terminada la
prueba.
Debido a la duración y al coste de las pruebas de vida se plantea el reducir el número de
unidades sometidas al test y el tiempo de la prueba. En algunos casos la magnitud de la
vida media del producto hace inviable una prueba de vida en las condiciones normales de
funcionamiento del producto. Es en estos casos que se hace necesaria la realización de
pruebas de vida aceleradas (accelerated life test), en las cuales las condiciones de la prueba
se hacen más severas a fin de acelerar el proceso de envejecimiento y bajar la vida media.
Para poder sacar partido de este tipo de pruebas debe disponerse de un modelo teórico o
empírico que permita la extrapolación de los resultados en condiciones ordinarias de
© Los autores, 2003; © Edicions UPC, 2003.
24
Fiabilidad industrial
funcionamiento. Las principales dificultades de la elaboración de planes de prueba de vida
acelerada están ligadas al estudio de los aspectos físico-químicos del proceso de
envejecimiento, en función de las condiciones externas y el régimen de trabajo. Este tema
se desarrolla en el capítulo 4.
1.4 Distribuciones de probabilidad en fiabilidad
En muchas áreas de la estadística aplicada, la distribución Normal es el punto de partida
natural para modelar la variable aleatoria de interés. Puede resultar de consideraciones
puramente pragmáticas o del argumento teórico basado en el Teorema del Límite Central, el
cual nos dice que si una variable aleatoria es la suma de un gran número de efectos
pequeños, entonces la distribución es aproximadamente Normal. En el contexto de
fiabilidad, el caso de la Normalidad tiene una importancia menor. Por un lado los tiempos de
vida y las resistencias a la rotura son cantidades inherentemente positivas y además para
una variable aleatoria de estas características surge de forma natural la idea de que la
aparición de fallos puede seguir el proceso de Poisson, con lo que en este caso la
distribución exponencial es más adecuada.
En la práctica, los modelos utilizados en fiabilidad son generalizaciones de la distribución
exponencial, tales como las distribuciones Gamma y Weibull.
Otro aspecto distintivo del análisis estadístico de los datos de fiabilidad es el papel central
que juegan la función de fiabilidad y la función de riesgo (Hazard Function) y la natural
aparición de datos censurados.
1.4.1 El proceso de Poisson
El proceso de Poisson modeliza los tiempos entre sucesos aleatorios. Supongamos que se
observan una serie de sucesos aleatorios; concretando, supongamos que los sucesos son
fallos de unidades, de forma que las observaciones son tiempos entre fallos, por ejemplo en
sistemas reparables. Las hipótesis naturales, las cuales pueden o no satisfacerse en algún
ejemplo particular, son:
„
Los fallos que ocurren en intervalos de tiempo disjuntos son estadísticamente
independientes.
„
La tasa de fallo (media de fallos por unidad de tiempo) es constante, así que no
depende del intervalo examinado en particular.
Cuando ambas hipótesis se cumplen, entonces el proceso de aparición de fallos se llama
proceso de Poisson con tasa de fallo λ.
El proceso de Poisson tiene dos propiedades importantes:
„
El número de fallos X en un intervalo de longitud t sigue una distribución de Poisson con
media λt, de tal forma que
Pr(X = k) = (λt)k e-λt/k! , k≥0
© Los autores, 2003; © Edicions UPC, 2003.
Conceptos fundamentales
„
25
Los tiempos entre fallos sucesivos son variables aleatorias independientes, cada una de
las cuales sigue una distribución exponencial con parámetro λ, así que:
Pr(tiempo de fallo > t) = e-λt, 0 < t < ∞
El tiempo medio entre fallos (MTBF) es λ-1.
La primera propiedad está totalmente relacionada con la distribución de Poisson de
parámetro λ:
X ∼Poisson(λ) ⇔ Pr(X = k) = λke-λ/k!, k = 0,1,2, ...
Además, el proceso de Poisson es un buen modelo para aquellos sistemas con muchos
componentes que pueden fallar, pero que la probabilidad de fallo de cada uno de los
componentes es pequeña. Este fenómeno es conocido con el nombre de sucesos raros.
La segunda propiedad sugiere la distribución exponencial como modelo para tiempos de
vida. La distribución exponencial se estudiará en el capítulo 2.
En las aplicaciones la hipótesis 2 puede ser crítica, ya que muchos sistemas pueden mejorar
o deteriorarse con el tiempo. En este caso se necesitan modelos más generales como los
procesos de Poisson no homogéneos (Nonhomogeneous Poisson Process) donde la tasa
de fallo no es constante. Este tipo de modelos es particularmente importante en el análisis
de sistemas reparables. Para ampliar el tema consultar el capítulo 8 del libro de Crowder y
otros (1995).
1.4.2 Preliminares de las distribuciones del tiempo de vida
Para fijar ideas, supondremos la variable aleatoria
T = "duración de una unidad hasta el fallo"
Aquí utilizaremos tiempo en el sentido más general. Puede ser tiempo real o tiempo
operacional o incluso cualquier variable no negativa, tal como resistencia a la rotura o
número de revoluciones hasta el fallo o número de ciclos hasta el fallo. Entonces
F(t) = Pr(T ≤ t)
es la función de distribución de T y
R(t) = Pr(T > t) = 1-F(t)
es la función de fiabilidad o función de supervivencia de T. Fiabilidad (R) se utiliza en el
contexto de fiabilidad industrial y supervivencia (S) en el contexto de supervivencia en
epidemiología.
Diremos que T tiene la función de densidad
f(t) =
dF (t ) dR(t )
=dt
d(t )
© Los autores, 2003; © Edicions UPC, 2003.
26
Fiabilidad industrial
así que la probabilidad de que una unidad falle en un intervalo de tiempo pequeño (t, t+δt] es
Pr(t < T ≤ t+δt) ≅ f(t)δt
Consideremos el mismo suceso, t < T ≤ t+δt, condicionado al hecho de que la unidad no ha
fallado antes del tiempo t. Es decir
Pr(t < T ≤ t+δt| T>t) ≅
f(t )δt
R (t )
La función h(t) dada por
h(t) =
-R ′(t )
f (t )
=
R (t )
R (t )
es la función de riesgo (hazard function) o función tasa de fallo, y es un indicador de la
disposición al fallo de una unidad después de un intervalo de funcionamiento t. La función de
riesgo acumulada es
t
H(t)= ∫ h(u )du
0
de donde se puede deducir
R(t) = exp{-H(t)}
Obsérvese que f, F, R, h y H son descripciones equivalentes de T en el sentido que, dada
cualquiera de ellas, se pueden deducir las otras cuatro.
A continuación discutimos tipologías de la función de riesgo:
„
Si h(t) = λ es constante, entonces H(t) = λt y R(t) = exp(-λt), que es la función de
fiabilidad de una distribución exponencial de parámetro de tasa de fallo λ. La
correspondiente función de densidad es
f(t) = λe-λt
Así, la distribución del tiempo de vida exponencial corresponde a dispositivos que no
envejecen, y es un punto de partida para modelar datos de fiabilidad. Esta es la etapa
de la vida de un dispositivo llamada período de fallo con tasa constante (constant failure
rate periode).
„
Si h(t) es una función creciente de t, entonces se dice que T tiene una tasa de fallo
creciente. Esto es apropiado cuando las unidades están sujetas al envejecimiento
debido al desgaste, la fatiga o la acumulación de daños. Esta es la etapa de la vida de
un dispositivo llamada período de fallo por desgaste (wear-out failure periode).
© Los autores, 2003; © Edicions UPC, 2003.
Conceptos fundamentales
27
Conceptos fundamentales
p27
„
n
Si h(t) es una función decreciente de t, ent nces se dice que T tiene una tasa de fall
decreciente.
Estfunción
puede
currir, p de
r ejempl
, cuand
el prque
ces
de fabricación
duce
Si h(t) es una
decreciente
t, entonces
se dice
T tiene
una tasa deprfallo
decreciente.
Esto
puede ocurrir,
por ejemplo,
cuando
el proceso
de fabricación
produce
una
pr p rción
apreciable
de unidades
c n baja
calidad
que pueden
pr v car
un fall
una proporción
de unidades
conlas
baja
calidad de
quecalidad
puedensuperi
provocar
falloda
prec
z. Pasad apreciable
un ciert tiemp
, quedan
unidades
r, l uncual
precoz.
unidadescdemún
calidad
cualsitiv
da s
una
tasaPasado
de fallun cierto
inferi tiempo,
r. Esta quedan
es unalassituación
en superior,
algun s lo
disp
una
tasa
de
fallo
inferior.
Esta
es
una
situación
común
en
algunos
dispositivos
electrónic s. En tales cas s se s mete a veces al disp sitiv a una prueba de
electrónicos.c En
tales casos
somete
dispositivo
a una
prueba
resistencia
n estrés
más se
grande
dela cveces
rrespalndiente
a las
c ndici
nesdede
resistencia
con
estrés
más
grande
del
correspondiente
a
las
condiciones
deen
funci namient para eliminar las unidades subestándares. Estas pruebas s n típicas
para eliminar
las unidades
subestándares.
Estases
pruebas
sondetípicas
ende
lafuncionamiento
industria electrónica,
y se llaman
pruebas
de burn-in. Esta
la etapa
la vida
la
industria
electrónica,
y
se
llaman
pruebas
de
burn-in.
Esta
es
la
etapa
de
la
vida
de
un disp sitiv llamada período de fallo precoz (early failure periode).
un dispositivo llamada período de fallo precoz (early failure periode).
„
n
Otra c sa que se debe resaltar es la función de riesg en f rma curva de bañera (bathOtra cosa que se debe resaltar es la función de riesgo en forma curva de bañera (bathtub
hazard), que tiene un riesg inicial decreciente per eventualmente pasa a un riesg
tub hazard), que tiene un riesgo inicial decreciente pero eventualmente pasa a un riesgo
creciente. Un escenari en el cual se puede bservar este c mp rtamient es c m
creciente. Un escenario en el cual se puede observar este comportamiento es como
sigue. L s disp sitiv s c n baja calidad tienden a tener una fallada prec z, dejand
sigue. Los dispositivos con baja calidad tienden a tener una fallada precoz, dejando
pas
s de
tienden aa hacer
hacer bajar
bajary yaacontinuación
c ntinuaciónaplanar
aplanar
paso aa l los
de alta
alta calidad.
calidad. Est
Estoss tienden
la la
función
de
riesg
en
la
etapa
de
su
vida
para
la
cual
ha
sid
diseñada.
Después
de
este
función de riesgo en la etapa de su vida para la cual ha sido diseñada. Después de este
perí
d , debid
crecer,yycausa
causauna
unafunción
funcióndederiesgo
riesgcreciente.
creciente.
período,
debido aa la
la fatiga,
fatiga, empieza
empieza aa crecer,
Tasa
Tasa de
de fallo
fallo
FFALLO
ALLO
PRECOZ
PRECOZ
ESGASTE
DD
ESGASTE
T
ASACONSTANTE
CONSTANTE
TASA
Tiempo
Tiempo
Figura 1.2
1.2 Etapas
Figura
Etapas de
de lalavida
vidade
deun
undispositivo
disp sitiv
Observaciones: en
en muchas
muchas situaci
situaciones
Observaciones:
nes de
de interés
interés aplicado
aplicad lalamayoría
may ríadedelaslasunidades
unidades
defectuosas
son
separadas
(quizá
como
resultado
del
control
de
calidad)
empezar
defectu sas s n separadas (quizá c m resultad del c ntr l de calidad)antes
antesdede
empezar
el período de observación con lo cual es difícil encontrar funciones de riesgo decreciente. La
el perí d de bservación c n l cual es difícil enc ntrar funci nes de riesg decreciente. La
fiabilidad de algunos componentes electrónicos, puede ser tan alta que el equipo del que
fiabilidad de algun s c mp nentes electrónic s, puede ser tan alta que el equip del que
formaran parte quedará obsoleto antes de llegar a la fase de desgaste, por lo cual en este
f tipo
rmaran
parte quedará bs let antes de llegar a la fase de desgaste, p r l cual en este
de productos no interesa la etapa del período de envejecimiento.
tip de pr duct s n interesa la etapa del perí d de envejecimient .
En algunos productos el período de fallo precoz no forma parte de su vida comercial, ya que
En
s prla duct
s el perí
d deque
fall elprec
n f rma
dede
sulavida
c mercial,
yase
que
sealgun
organiza
producción
de forma
fallo z
precoz
se départe
dentro
fábrica.
Por esto
sesomete
rganiza
la pr ducción
de f rma
que prueba
el fall prec
z se dé dentr
de la fábrica.
P r estdelse
a veces
al dispositivo
a una
de resistencia
con estrés
más grande
s correspondiente
mete a veces a
al las
dispcondiciones
sitiv a una
prueba
de
resistencia
c
n
estrés
más
grande
de funcionamiento. Estas pruebas son típicas
en ladel
c industria
rresp ndiente
a
las
c
ndici
nes
de
funci
namient
.
Estas
pruebas
s
n
típicas
en la
electrónica, y se llaman pruebas de burn-in. Y es por esto, que en muchos
industria
electrónica,
y
se
llaman
pruebas
de
burn-in.
Y
es
p
r
est
,
que
en
much
s
productos solamente interesa la etapa período de fallo con tasa constante.
pr duct s s lamente interesa la etapa perí d de fall c n tasa c nstante.
Es difícil encontrar modelos probabilísticos para modelar funciones de riesgo con curva de
Es
difícil Pueden
enc ntrar
m del s pr
babilístic
s para
m este
delarproblema
funci nes
riesg
c n(1979).
curva de
bañera.
encontrarse
estudios
donde
se trata
ende
Gaver
y Acar
bañera. Pueden enc ntrarse estudi s d nde se trata este pr blema en Gaver y Acar (1979).
© Los autores, 2003; © Edicions UPC, 2003.
28
Fiabilidad industrial
Ejemplo 1. 5
El siguiente gráfico es la tasa de fallo de la tabla de mortalidad de Halley (ejemplo 1.4).
Obsérvese que tiene forma de curva de bañera.
05
510
10
-1
15 5
-2
20 0
-2
25 5
-3
30 0
-3
35 5
-4
40 0
-4
45 5
-5
50 0
-5
55 5
-6
60 0
-6
65 5
-7
70 0
-7
75 5
-8
80 0
-8
5
0,25
0,2
0,15
0,1
0,05
0
AÑOS
1.5 Enfoques de la fiabilidad
Para finalizar este capítulo, y a manera de síntesis podemos decir que la fiabilidad en la
industria se puede enfocar desde un punto de vista cuantitativo o cualitativo.
Desde el punto de vista cuantitativo, tenemos herramientas como la curva de fiabilidad, la
curva de degradación o las características de fiabilidad para cuantificar el comportamiento
de la vida de los dispositivos. Estos conceptos ya han sido desarrollados a lo largo de este
capítulo.
Desde el punto de vista cualitativo las herramientas que se utilizan en la industria son el
Análisis de modo de fallo y sus efectos (AMFE) y los análisis por árboles de fallos FTA
(failure tree analysis). Este último se desarrollara en el capítulo 5.
El análisis modal de fallos y sus efectos es un sistema metódico de valoración de
prioridades de riesgos de un proceso o producto con el propósito de reconocer y evaluar
fallos potenciales de un producto o proceso y sus efectos, identificar acciones que puedan
eliminar o reducir el riesgo de los potenciales fallos y documentar el proceso.
Fue desarrollado por la NASA en el proyecto Apolo a mediados de los años 70. Después de
las aplicaciones en los viajes aéreos y espaciales así como en las centrales nucleares se
utilizó de inmediato en la industria de la automoción; actualmente es una herramienta de uso
habitual en la industria.
Es una técnica de carácter preventivo que debe llevarse a cabo en las fases de diseño y
desarrollo de productos y servicios a lo largo del proceso de fabricación para que se puedan
detectar y prevenir los posible modos de fallo potenciales.
En el manual Potential Failure Mode and Effects Analysis de la QS 9000, normativa del
sector de la automoción Ford, Opel y General Motors, pueden encontrase las ideas
fundamentales de esta técnica y la manera de aplicarlas.
© Los autores, 2003; © Edicions UPC, 2003.
Fiabilidad con tasa de fallo constante
29
2 FIABILIDAD CON TASA DE FALLO CONSTANTE
En este capítulo se aborda el modelo exponencial que, como hemos mencionado en el
apartado 1.4, es un punto de partida natural como distribución en fiabilidad. Se introducen
las muestras aleatorias no completas y el concepto de datos censurados. Se plantea la
estimación de la vida media y la tasa de fallo para distintos tipos de pruebas de vida.
2.1 El modelo Exponencial
La función de fiabilidad de una variable aleatoria T = "Tiempo de vida hasta el fallo de un
dispositivo", cuya distribución es expo-nencial, se expresa como
 -t 
R(t) = Pr(T > t) = exp(-λt) = exp   , t > 0
θ
donde λ es un parámetro positivo, denominado tasa se fallo, y θ=1/λ es otra parametrización
habitual de la distribución exponencial que representa la media del tiempo de vida . La figura
2.1 muestra dos funciones de fiabilidad.
Utilizando las fórmulas del apartado 1.4 se deduce que h(t), la función de riesgo (hazard
function) de la distribución exponencial es constante:
h(t) =
-R ′(t )
=λ
R (t )
En este caso se llama tasa de fallo.
La función de densidad exponencial tiene la expresión:
f(t) = λ exp(-λt) =
1
 t
exp  -  , t >0
θ
 θ
Para cualquier valor de λ la forma de la función de densidad es siempre la misma. Así, por
ejemplo, si el tiempo en minutos, T, de cierto dispositivo es exponencial con tasa de fallo λ,
el tiempo en horas es T*=T/60, y T* se distribuye exponencial con tasa de fallo 60λ. La
figura 2.2 muestra dos funciones de densidad exponencial.
La función de distribución exponencial viene dada por:
F(t) = Pr(T ≤ t) = 1- exp(-λt),
t>0
La media o esperanza matemática de la exponencial se deduce de
∞
E(T) = ∫ tf (t )dt = θ = 1/λ
0
© Los autores, 2003; © Edicions UPC, 2003.
30
Fiabilidad industrial
y la varianza
∞
Var(T) = ∫ (t - θ)2 f (t )dt = θ2 = (1/λ)2
0
En el capítulo 3 veremos que la función exponencial es un caso especial de la distribución
de Weibull.
El ejemplo 2.1 ilustra la interpretación de las características de fiabilidad de la distribución
exponencial.
R(t)
F ia b ilid a d
1
0 ,8
0 ,6
0 ,4
0 ,2
0
λ=5
λ=10
0
0 ,2
0 ,4
0 ,6
0 ,8
1
1 ,2
T
Figura 2.1 Función de fiabilidad exponencial
con tasa de fallo λ = 5 (sólido) y λ = 10 (punteado)
f(t)
D e n s id a d
10
8
6
4
2
0
λ=10
λ=5
0
0 ,1
0 ,2
0 ,3
0 ,4
0 ,5
0 ,6
T
Figura 2.2 Función de densidad exponencial
con tasa de fallo λ = 5 (sólido) y λ = 10 (punteado)
© Los autores, 2003; © Edicions UPC, 2003.
0 ,7
0 ,8
Fiabilidad con tasa de fallo constante
p31
Ejemplo 2.1 Cambio de un motor Diesel
La duración en km del cambio de un motor Diesel de un automóvil sigue una ley exponencial
de vida media θ = 300.000 km. La tasa de fallo es λ = 1/300.000 = 3×10-6 fallos/km o 3 fallos
por 1 millón de km de funcionamiento.
La dirección de una fabrica quiere decidir si es necesario rediseñar los equipos actuales
para poder mantener la garantía, que es actualmente de 20.000 km de funcionamiento.
Se calcula la probabilidad de que fallen antes de 60.000:
 20.000 
Pr(T ≤ 20.000) = F(20.000) = 1-R(20.000) = 1-exp   = 0,0645
 300.000 
Esto indica que un 6,45% de los cambios fallan durante la garantía.
La dirección de la empresa quiere saber en qué valor tiene que fijar la garantía para que
fallen únicamente un 5% de los cambios de los motores.
Para esto se plantea cuál ha de ser el valor k de la variable aleatoria T para que
F(t) = 1-R(k) = 0,05, es decir R(k) = Pr(T > k) = 0,95, de donde se deduce:
k


R(k) = exp   = 0,95 ⇒ k = -ln(0,95)x300.000 = 15.388 km
 300.000 
La magnitud k = 15.388 km representa el percentil del 5% de la distribución de la variable
aleatoria T, km hasta el fallo de un cambio del motor.
Conclusión: Si la dirección desea que sólo fallen un 5% de los cambios del motor durante el
período de garantía debería fijarla en 15.388 Km. de funcionamiento. En caso de querer
mantener los 20.000 Km. debería rediseñar los cambios. Es importante remarcar que esto
se ha hecho suponiendo que el modelo exponencial es adecuado para modelar los km de
funcionamiento hasta el fallo de los cambios de los motores.
2.2 Datos censurados
Frecuentemente los datos de tiempo de vida tienen observaciones incompletas. El
tratamiento estadístico y en particular la estimación de las características de fiabilidad
cambia respecto a la estimación clásica de muestras completas.
Este tipo de datos se denominan datos censurados. El mecanismo de censuramiento puede
ser por la derecha, por la izquierda y por intervalo. En principio el tiempo de vida de las
unidades no depende del mecanismo de censuramiento.
Ocurre comúnmente que el valor exacto del tiempo de vida de una unidad no es observado
pero se sabe que excede de un cierto tiempo c. Tales tipos de observaciones reciben el
nombre de censuradas por la derecha. Una observación de este tipo aparece cuando la
unidad aún no ha fallado cuando termina el tiempo previsto de la prueba de vida.
© Los autores, 2003; © Edicions UPC, 2003.
32
Fiabilidad industrial
El censuramiento por la izquierda aparece cuando de la unidad se conoce que ha fallado
algún tiempo antes c. Por ejemplo cuando el test sobre la unidad se hace cada hora. Si una
unidad ha fallado antes de la primera hora entonces de la unidad sólo se sabe que el tiempo
de vida es inferior a una hora. En este escenario puede darse que una unidad falle entre la
segunda y la tercera hora (es decir, que la unidad trabaje en el segundo test y en el tercero
ya no funcione). Entonces sabemos que la unidad ha durado más de dos horas pero menos
de tres horas. Este es un ejemplo de censuramiento por intervalo.
Un posible mecanismo de censuramiento, conocido como tipo I, es cuando se ponen n
unidades en un ensayo y a priori se fija un periodo t0 de la prueba. Entonces, los i-ésimos
tiempos de vida Ti (i = 1, ... ,n) que se observan son los que Ti ≤ t0, mientras que hay otros
de los que sólo se sabe que Ti > t0. Este tipo de censuramiento es fácil de tratar
estadísticamente.
Otro tipo de mecanismo de censuramiento puede darse cuando se hace un test a n
unidades y cada unidad es observada hasta que el observador está convencido de que la
unidad ha empezado a fallar. El punto de vista del observador se basa en su experiencia y
no en puras suposiciones. En este caso, el mecanismo de censuramiento contiene
información de interés sobre los tiempos de vida. Esta situación se puede formalizar de la
siguiente forma: sea Ti censurada por la derecha por ci; entonces se sabe que Ti > ci y
además Ti = ci + εi, donde εi es una variable aleatoria positiva de media cero y varianza
pequeña (su pequeñez depende de la experiencia del observador). Así, según este
esquema, una unidad censurada en ci puede no ser representativa de todas las unidades
que tienen un tiempo de vida ci o superior. Este tipo de mecanismo de censuramiento debe
tratarse con métodos estadísticos más complejos que no se desarrollarán en este texto.
(Puede consultarse Crowder y otros (1995).)
Una forma de censuramiento habitual en estudios de fiabilidad es el censuramiento por la
derecha llamado tipo II. En este caso se fija la duración del ensayo hasta después de haber
observado un número especificado de unidades que fallen. Obsérvese que el tiempo de
censuramiento por la derecha (o tiempos, si todas las unidades no se han puesto en
funcionamiento a la vez) no es (son) conocido (s) por avanzado. Pueden encontrarse otras
formas más complicadas de censuramiento por la derecha, pero deben tratarse de manera
particular cada una de ellas, sabiendo que cualquier unidad censurada por la derecha en ci
es representativa de todas las unidades similares que tienen un tiempo de vida superior a ci.
Para el censuramiento por la izquierda y por intervalo pueden aplicarse criterios similares.
Dada una muestra aleatoria simple de la variable de interés T si la realización de la muestra
es completa, es decir, si disponemos de todos los tiempos de vida, se trata de pruebas de
vida con datos completos. Si la realización de la muestra es incompleta, por lo tanto no
hemos observado todos los fallos, se trata de pruebas de vida con datos censurados.
2.3 Estimación de la vida media y la tasa de fallo de la distribución exponencial
Sea T = "tiempo de vida de una unidad", una variable aleatoria que se distribuye exp(θ).
Sea T1, T2, ... , Tn una muestra aleatoria de T. Se define el tiempo total de test T, como la
suma de los tiempos de funcionamiento de las unidades de la muestra (hayan fallado o no).
© Los autores, 2003; © Edicions UPC, 2003.
Fiabilidad con tasa de fallo constante
33
El valor estimado de la vida media viene dada por
MTTF = θ̂ =
T
r
^ indica la estimación del parámetro θ, la vida media hasta el fallo. T es el tiempo total en
test y r es el número de fallos observados. Cuando la muestra es completa r coincide con n,
tamaño de la muestra.
El valor estimado de la tasa de fallo λ= 1/θ viene dado por
λ̂ =
r
T
donde T es el tiempo total de test y r es el número de fallos observados. Obviamente aquí
también, para una muestra completa r, coincide con n.
2.4 Pruebas con datos completos. Intervalos de confianza 1-α para la vida media
y la tasa de fallo
El intervalo de confianza bilateral 1-α para la vida media es
χ
2T
2
(1-α/2);2n
≤ θˆ ≤
χ
2T
(2.1)
2
(α/2);2n
donde T es el tiempo total de test de una muestra de tamaño n y
χ1-2 α;ν
es el (1-α)-percentil
2
de la distribución χ con ν grados de libertad, en este caso ν = 2n, donde n es el tamaño de
la muestra.
El intervalo de confianza unilateral 1-α para la vida media es
2T
χ(1-2 α);2n
≤ θˆ
(2.2)
donde T es el tiempo total en test de una muestra de tamaño n y
χ2α;ν es el (1-α)-percentil de
la distribución χ2 con ν grados de libertad, en este caso ν = 2n.
El intervalo de confianza bilateral 1-α para la tasa de fallo λ es
χ(2α/2);2n
2T
≤ λˆ ≤
χ(1-2 α/2);2n
(2.3)
2T
donde T es el tiempo total de test de una muestra de tamaño n y
2
distribución χ con ν grados de libertad, en este caso ν = 2n.
© Los autores, 2003; © Edicions UPC, 2003.
χ2α;ν
es el α-percentil de la
34
Fiabilidad industrial
De forma similar, se puede definir el intervalo de confianza unilateral 1-α para la tasa de
fallo λ
χ2α;2n
2T
≤ λˆ
(2.4)
Ejemplo 2.2
La siguiente tabla presenta los datos obtenidos en una prueba de vida en que se midieron
los tiempos de perforación (time to breakdown) en minutos, de un fluido aislante entre
electrodos sometido a un voltaje de 34 kV. El experimento duró hasta que todos los
componentes (n = 19) fallaron.
(fuente W. Nelson 1982)
Sea la variable aleatoria T= "Tiempo, en minutos, de un fluido aislante sometido a 34 kV" y
supongamos que T es exponencial.
El tiempo total de test es T =
n
∑t
i
= 272,82 minutos, donde t1,...,tn es la realización de la
i=1
muestra de la variable aleatoria T.
La media del tiempo de vida en minutos es θ̂ =
T
= 272,8191/19 = 14,3589 minutos.
n
El intervalo de confianza 0,95, aplicando la fórmula (2.1), de la media del tiempo de vida es
9,59 ≤ θ̂ ≤ 23,85
En los anexos se encuentran las tablas de
son para este caso:
2
χ0,025;38
= 22,8785
χ2 donde los percentiles de la distribución χ2,
2
χ0,975;38
= 56,8955
lo que indica que la vida media de un fluido sometido a un voltaje de 34kV se encuentra
entre 9,59 y 23,85 minutos con una confianza del 0,95.
La tasa de fallo se estima como λ̂ = 1/ θ̂ = 0,0696, de donde se deduce que la tasa de fallo
es de 0,0696 fallos por minuto.
Aplicando la fórmula (2.3) se calcula el intervalo de confianza 0,95 para la tasa de fallo:
0,0419 ≤ λ̂ ≤ 0,1043
lo que indica que la tasa de fallo de un fluido sometido a un voltaje de 34kV se encuentra
entre 0,042 y 0,10 fallos por minuto.
© Los autores, 2003; © Edicions UPC, 2003.
Fiabilidad con tasa de fallo constante
35
La función de fiabilidad estimada o evaluada es
R(t) = exp
-t
, t≥0
14,36
de donde podemos decir que la fiabilidad evaluada a 15 minutos sería 0,35, es decir, que el
35% de los componentes sometidos a un voltaje constante de 34kV superaran los 15
minutos.
El intervalo de confianza 0,975 unilateral para R(15) es
exp(-15/9,59) = 0,21 ≤ R(15)
Es decir, que con una confianza del 0,975 podemos asegurar que el 21% de los
componentes superaran los 15 minutos.
Nota: Obsérvese que para el cálculo del intervalo de confianza unilateral 0,975 para R(15)
utilizamos el límite inferior del intervalo de confianza 0,95 de la estimación de la media del
tiempo de vida.
2.5 Pruebas de vida con duración prefijada (Censuramiento tipo I)
2.5.1 Tiempos de fallo conocidos
Supongamos un experimento en el que tenemos n dispositivos y prefijamos un tiempo t0 de
duración y se registran los tiempos de fallo. Este tipo de prueba admite dos variantes, según
si se reemplazan o no los dispositivos. En el primer caso se dice que la prueba se realiza
con sustitución. Los dos tipos de prueba tienen un tratamiento matemático parecido, las
pruebas con sustitución no tienen otra finalidad que aumentar el tamaño de la muestra.
Al cabo de t0 horas observamos r < n fallos.
En este caso el tiempo total en test T viene dado por:
T=
r
∑t +(n-r )t
i
0
, donde ti ≤ t0
i=1
Si las pruebas son con sustitución, T = n x t0.
La estimación de la vida media es
θ̂ = MTTF = T/r
(2.5)
El intervalo de confianza bilateral 1-α es
χ
2T
2
1-(α/2);2r +2
≤ θˆ ≤
χ
2T
2
(α/2);2r
© Los autores, 2003; © Edicions UPC, 2003.
(2.6)
36
Fiabilidad industrial
donde T es el tiempo total de test de una muestra de tamaño n y
χ2α;ν
es el α-percentil de la
distribución χ con ν grados de libertad y donde r(<n) es el número de fallos observados de
la muestra.
2
El intervalo de confianza unilateral se obtiene sustituyendo en la fórmula (2.6) α/2 por α en
un solo límite. Hay una ilustración en el ejemplo 2.3.
Si durante el período previsto para la prueba no se observa ningún fallo, es decir r = 0, no
podemos dar un valor para θ ni para R(t0), pero sí límites de confianza inferiores para la vida
media y la fiabilidad.
Ejemplo 2.3
Se realiza una prueba de vida con n = 12 componentes durante una semana, es decir
fijando el tiempo de duración en t0 = 168 horas, con substitución, observándose r = 3 fallos.
Se quiere evaluar la fiabilidad al cabo de 168 horas y la vida media en horas de
funcionamiento. El tiempo total en test T es de 168 x 12 = 2.016 horas.
La vida media en horas de funcionamiento aplicando la fórmula (2.5) es
θ̂ = MTTF = T/r = 2.016/3 = 672 horas.
Sustituyendo α por α/2 en el límite inferior de la fórmula (2,6) se obtiene un límite inferior de
confianza 0,95 para la vida media de
2x2016
=259,96 horas
θˆ ≥ 2
χ0,95;8
2
donde χ0,95;
8 = 15,51 se encuentra en las tablas estadísticas del Anexo. Lo que indica que
estos dispositivos tienen una duración media mínima de 259,96 horas, y esta afirmación se
hace con una confianza del 0,95.
La fiabilidad estimada al cabo de 168 horas es
R̂ (168) = exp(-168/672) = 0,78
lo que indica que 78% de los dispositivos superan una semana.
Obsérvese que ésta es una estimación puntual sin ningún grado de confianza. Se podría
precisar más dando una aproximación por intervalo de confianza. Utilizando el límite de
confianza inferior de la estimación de la vida media se obtiene con un 95% de confianza:
R̂ (168) ≥ exp(-168/259,96) = 0,524
Es decir, la probabilidad de que una pieza funcione al cabo de 168 horas es superior al
52,4% con una confianza del 95%.
© Los autores, 2003; © Edicions UPC, 2003.
Fiabilidad con tasa de fallo constante
37
Si durante este período de 168 horas los n=12 componentes no hubiesen fallado, es decir,
no se hubiese observado ningún fallo, podríamos asegurar, con una confianza del 95%, que
la vida media de estos dispositivos es superior a:
2x2.016 4.092
θˆ ≥
=
=673,12
2
χ0,95;2
5,99
Sustituyendo por θ̂ = 673,12 obtenemos R̂ (168) = exp(-168/673,12) = 0,78, que nos da un
límite inferior de confianza para la fiabilidad al cabo de una semana, que se puede
interpretar como que la probabilidad de que un componente no haya fallado al cabo de una
semana es superior al 78%, con una confianza del 95%.
2.5.2 Pruebas de vida donde no se registran los tiempos de fallo
En los estudios de fiabilidad en la industria pueden plantearse pruebas de vida donde, fijado
un tiempo de duración t0, sólo se pueda obtener el número de fallos y no se registre el
tiempo de fallo de cada unidad. En este caso puede calcularse la fiabilidad en el momento t0
como:
R(t0)=
n- r
n
(fiabilidad observada)
donde n es el tamaño de la muestra y r son los fallos observados.
El intervalo de confianza 1-α para la fiabilidad al cabo de t0 horas viene dado por
1
1+ (r +1)/(n -r ) F2


≤ Rˆ (t0 ) ≤
F1
F1+(r /n - r +1))
(2.7)
donde F1 = F (1- α2 ;2n -2r +2;2r ) y F2 = F (1- α2 ;2r +2;2n -2r ) son los (1-α/2) percentiles de la distribución F
con 2n-2r+2 y 2r grados de libertad y 2r+2 y 2n-2r respectivamente. Los percentiles del 0,90
y 0,95 de la distribución F se encuentran en las tablas estadísticas del Anexo.
De la misma manera que en la fórmula 2.6, puede obtenerse el intervalo unilateral inferior
sustituyendo α/2 por α en el límite inferior de la fórmula (2.7). El comentario se ilustra en el
ejemplo 2.4.
Las fórmulas para obtener la fiabilidad observada y el intervalo de confianza anteriores,
obviamente no dependen de la distribución de los datos. Si por estudios anteriores o por la
naturaleza de los datos puede suponerse que el modelo exponencial es válido, se puede
estimar la vida media como:
θˆ =
-t 0
=
lnR (t 0 )
-t 0
n-r 
ln 

 n 
© Los autores, 2003; © Edicions UPC, 2003.
(2.8)
38
Fiabilidad industrial
Ejemplo 2.4
Se dispone de n = 20 unidades de un dispositivo durante una semana, 168 horas. Al finalizar
la semana sólo se observa que han fallado 5 unidades.
La fiabilidad observada de este producto al cabo de una semana R(168) = 15/20 = 0,75
horas, lo que indica que un 0,75% de los dispositivos superan la semana. Esta aproximación
es sin grado de confianza.
Sustituyendo α/2 por α en el límite inferior de la fórmula (2.7) el intervalo de confianza 0,95
unilateral al cabo de 1 semana es:
1
1
0,54 =
=
≤ Rˆ (168)
1+(
r
+1)/(
n
r
)
F


2
1+ (5+1)/(20-5) F2


donde F2 = F(0,95;12;30) = 2,09, n es el tamaño de la muestra y r el numero de fallos
observados. Con lo que se puede afirmar que la fiabilidad del dispositivo al cabo de una
semana es superior al 54%, con una confianza del 95%.
Si podemos suponer que los tiempos de vida (no registrados) se distribuyen exponencial, a
partir de la fórmula (2.8) una estimación puntual de la vida media es:
-168
θˆ =
= 583,9 horas
 15 
ln  
 20 
El intervalo unilateral inferior con una confianza del 95%, utilizando el límite de confianza
inferior obtenido para la fiabilidad en la fórmula 2.8, es:
-168
= 272,6 ≤ θ̂
ln(0,54)
Concluimos que la validez del modelo exponencial permite asegurar que la vida media es
superior a 272,6 horas, con una confianza del 95%.
2.6 Pruebas de vida con número de fallos prefijados (Censuramiento tipo II)
Supongamos una prueba donde especifiquemos previamente el número de componentes
que estamos dispuestos a esperar que fallen. Este tipo de prueba se utiliza cuando el coste
de los dispositivos es elevado, o en la fase de desarrollo del producto donde se dispone de
pocos prototipos.
Sea r el número de fallos prefijado; entonces la muestra ordenada de los tiempos será
t(1), t(2), ... ,t(r), t(r+1), ... ,t(n) y el tiempo total de test
T = t(1) + t(2) + ... + t(r) + (n-r)t(r)
Nota: Una muestra ordenada es cuando t(1) ≤ t(2) ≤ ... ≤t(r) < t(r+1) ≤ ... ≤ t(n), donde el subíndice
entre paréntesis sirve para distinguirla de una muestra aleatoria simple.
La estimación de la vida media es:
© Los autores, 2003; © Edicions UPC, 2003.
Fiabilidad con tasa de fallo constante
39
θ̂ = MTTF = T /r
El intervalo de confianza bilateral 1-α de la vida media:
χ
2T
2
(1- α/2);2 r
≤ θˆ ≤
χ
2T
2
( α/2);2 r
Igual como se ha desarrollado en el apartado 2.5 se obtiene una estimación de la fiabilidad y
los intervalos de confianza (1-α) bilaterales y unilaterales sustituyéndose el valor estimado
de θ̂ en la fórmula de la fiabilidad de una exponencial. En el ejemplo 2.5 se desarrollan
algunos de estos cálculos.
Ejemplo 2.5
Sea una prueba de vida donde se ponen en funcionamiento 12 dispositivos y se detiene la
prueba una vez han fallado r = 4 dispositivos. Los tiempos de los 4 primeros fallos han sido:
175,2 185,5 215,2 y 315,7 horas.
Se quiere evaluar la vida media de los dispositivos y la fiabilidad al cabo de 200 horas de
funcionamiento.
El tiempo total de test es
T = t(1) + t(2) + ... + t(r) + (n-r)t(r) = 175,2 + 185,5 + 215,2 + 315,7 + 8x315,7 = 3.417,2 horas.
La estimación de la vida media es
θ̂ = MTTF = T/r = 854,3 horas.
El intervalo de confianza bilateral 0,90 es
440,64=
donde
2
χ0,95;8
= 15,51 y
2
χ0,05;8
2x3.417,2
χ
2
0,95;8
2x3.417,2
≤ θˆ ≤
=2.503,44
2
χ0,05;8
= 2,73.
Utilizando la estimación puntual de la vida media y sustituyendo en la fórmula de la fiabilidad
 -t 
de una distribución exponencial R(t)=exp   , se obtiene una estimación puntual de la
θ
fiabilidad a las 200 horas de funcionamiento:
R(200) = exp(-200/854,3) = 0,79
lo que indica que un 79% de los dispositivos superan las 200 horas.
Para calcular el intervalo unilateral de la fiabilidad a las 200 horas se sustituye el límite
inferior de la estimación por el intervalo de la vida media del dispositivo en la expresión de la
fiabilidad. Se obtiene
R(200) ≥ exp(-200/440,64) = 0,45
Por lo tanto, la fiabilidad estimada al cabo de 200 horas será superior al 0,45, con una
confianza del 95%.
© Los autores, 2003; © Edicions UPC, 2003.
Tasa de fallo no constante. El modelo de Weibull y otros
41
3 TASA DE FALLO NO CONSTANTE. EL MODELO DE WEIBULL Y OTROS
Este capítulo trata el modelo de Weibull, que permite modelar tasas de fallo no constante,
crecientes y decrecientes. También se tratan otras distribuciones como la Gumbel, la Normal
y la lognormal. Se describen los gráficos de probabilidad como herramienta para validar el
modelo de Weibull y estimar sus parámetros. Se expone brevemente el método de
estimación de la máxima verosimilitud y se proponen estimadores para los parámetros
basados en este método.
3.1 Modelo de Weibull
La función de fiabilidad de una variable aleatoria T = "tiempo de vida de un dispositivo" de
una distribución de Weibull(α,β) es
  t β 
R(t) = Pr(T > t) = exp  −    , t ≥ 0
  α  
(3.1)
donde α y β son parámetros positivos, α un parámetro de escala (scale) y β un parámetro de
perfil o de forma (shape). Nótese que cuando β=1, se obtiene una distribución exponencial
de λ = 1/α. En la figura 3.1 puede verse la forma de 4 funciones de fiabilidad con el mismo
parámetro α=1 y distintos valores de β.
La función de riesgo (hazard function) de Weibull es
h(t) = βα-βtβ-1
Si β < 1 la función de riesgo o tasa de fallo disminuye al aumentar el tiempo. Este
comportamiento es propio de los fallos prematuros. Productos con esta tasa de fallo suelen
ser verificados en fábrica para que los fallos no se produzcan en el mercado.
Si β = 1 (modelo exponencial) la función de riesgo es constante. Una tasa de fallo constante
es una característica de los fallos ocasionales. En esta situación el número de fallos y el
momento en que ocurren no depende del tiempo que el dispositivo funciona.
Si β > 1 la función de riesgo es creciente. Esto indica que los fallos son debidos al
envejecimiento, a la fatiga o al desgaste. En particular si 1 < β < 2, la función de riesgo crece
rápidamente al principio y muy poco al final; para β = 2 la función de riesgo crece
linealmente con el tiempo; para β > 2 crece poco al principio y rápido posteriormente, es
decir, el intervalo de tiempo en el cual se produce un fallo es cada vez menor. Es
recomendable que los dispositivos con tasa de fallo creciente tengan un plan de
mantenimiento preventivo.
En la figura 3.2 se muestra una selección de funciones de riesgo Weibull, crecientes,
decrecientes y constantes.
© Los autores, 2003; © Edicions UPC, 2003.
42
Fiabilidad industrial
El p-percentil (tp) en la distribución Weibull se calcula a partir de la expresión:
tp = α[-ln(1-p)]1/β
que se deduce de despejar tp en:
p = Pr(T ≤ tp) = 1-R(tp) = 1-exp[-(tp/α)β]
(3.2)
El parámetro α es aproximadamente el percentil del 63,2%, se interpreta como el valor de la
variable del tiempo de vida en el que fallan el 63,2% de las unidades, y se obtiene
sustituyendo α en la fórmula (3.2) y aproximando 1-e-1 ≅ 0,632. Esta propiedad se utiliza en
la estimación gráfica de los parámetros de la Weibull, herramienta bastamente utilizada en la
industria.
En particular la mediana (0,5-percentil) de la distribución Weibull es:
t0,5 = α[-ln(1-0,5)]1/β = α[(0,6931)]1/β
(3.3)
1
β =8
0,8
0,6
0,4
β = 3,5
β =2
0,2
β =1
0
0
0,5
1
1,5
2
2,5
3
Figura 3.1 Funciones de fiabilidad de Weibull con α = 1 y β = 1; 2; 3,5 y 8
© Los autores, 2003; © Edicions UPC, 2003.
3,5
Tasa de fallo no constante. El modelo de Weibull y otros
43
β=2,5
6
β=2
4
β=0,5
β=1
2
0
0
0,5
1
1,5
2
Figura 3.2 Funciones de riesgo de Weibull con α = 1 y β = 0,5; 1; 2 y 2,5.
La función de densidad de Weibull es:
  t β 
β β-1
f(t) = β t exp  -    , t > 0
α
  α  
La media viene dada por
E(T) = µ = αΓ(1+(1/β))
(3.4)
Var(T) = α2[ Γ(1+(2/β)) - Γ(1+(1/β))2]
(3.5)
y la varianza por
donde la función Γ es
Γ(x) =
∞
∫0 u
x -1 -u
e du
En el anexo de tablas estadísticas se encuentra la función Γ tabulada.
Cuando β es grande (mayor que 5), la media y la varianza se pueden aproximar por α y
1,64α2/β2 respectivamente.
La forma de la densidad depende del valor de β. En la figura 3.3 se muestran una selección
de funciones de densidad.
La distribución de Weibull es probablemente la más utilizada en análisis de la fiabilidad.
Proporciona modelos razonables para tiempos de vida de muchos tipos de unidades
distintas, tales como tubos de vacío, cojinetes de bola y envejecimiento de materiales
composites. Una posible razón de esta adecuación es el hecho de que es una distribución
de valores extremos. De todas maneras, la forma de la función de fiabilidad y la amplia
variedad de formas de la función de densidad la hacen una generalización
convenientemente particular de la distribución exponencial.
© Los autores, 2003; © Edicions UPC, 2003.
44
Fiabilidad industrial
3,5
3
β= 8
2,5
2
1,5
β= 1
β= 3,5
1
β=2
0,5
0
-0,5 0
0,5
1
1,5
2
2,5
3
Figura 3.3 Funciones de densidad de Weibull con α = 1 y β = 1; 2; 3,5 y 8.
Ejemplo 3.1
Sea T el tiempo de vida del tambor de una lavadora, que se distribuye según un modelo de
Weibull con parámetros α=10 años y β=2.
El parámetro α=10 años indica que un 36,8% de las bobinas duran más de 10 años, puesto
que a es percentil del 0,632 de la distribución del tiempo de vida.
El parámetro β=2 indica que tiene una función de riesgo linealmente creciente con el tiempo
(figura 3.2). Esto indica que los fallos son debidos al envejecimiento.
La vida media de las bobinas, aplicando la fórmula (3.4), es:
µ = αΓ(1+(1/β)) = 10Γ(1+(1/2)) = 10x0,886 = 8,86 años
Nota: Γ(1+(1/2)) = 0,886 se encuentra en las tablas de estadística (5).
La mediana de la distribución es (3.3):
t0.5 = -α[-ln(1-0,5)]1/β = 10[0,6931]1/2 = 8,32 años
lo que indica que la mitad de las bobinas durarán 8,32 años.
La varianza de la distribución (3.4) es
Var(T) = α2[ Γ(1+(2/β)) - [Γ(1+(1/β))]2] = 21,5 años2
Y la desviación estándar 4,64 años.
© Los autores, 2003; © Edicions UPC, 2003.
Tasa de fallo no constante. El modelo de Weibull y otros
45
Si la garantía de los tambores es de 2 años, ¿qué proporción de tambores fallarán durante
la garantía?
Sea la variable aleatoria T = "tiempo de vida en años de los tambores":
Pr(T ≤ 2) = 1-R(2) = 1-exp[-(2/10)2] = 0,039
donde R es la función de fiabilidad.
Es decir, un 3,9 % de las bobinas fallarán durante la garantía.
¿Cuántos años de garantía se deberían establecer para que únicamente fallasen un 1%
durante la garantía?
R(t0,01) = exp[-(t0,01/10)2] = 0,99 ⇒ ln(0,99) = -(t0,01/10)2 ⇒
2
t 0,01
= -ln(0,99)x100 = 1,005 años2 ⇒ t0,01 = 1,0025 años
Es decir, se aconsejaría fijar la garantía en 1 año.
3.2 Otras distribuciones de fiabilidad
La distribución de Gumbel, o del valor extremo, o Gompertz, tiene función de fiabilidad:
R(x) = exp{exp[(x-µ)/σ], -∞ < x < +∞
donde µ es el parámetro de localización y σ > 0 es el parámetro de escala. Esta distribución
también surge como una posible distribución límite de valores mínimos y tiene una tasa de
fallo o función de riesgo (figura 3.4) exponencialmente creciente. Más comúnmente, sin
embargo, surge como distribución del logT, donde T es una distribución de Weibull. La
relación en este caso es µ = log α y σ = 1/β.
La función de densidad de Gumbel es
f(x) = σ-1exp{(x-µ)/σ}R(x), -∞ < x < +∞
Para todos los parámetros tiene la misma forma. La figura 3.4 muestra la función de
densidad y la función de riesgo de una distribución de Gumbel con µ = 0 y σ = 1, donde
puede observarse que la función de riesgo es creciente.
© Los autores, 2003; © Edicions UPC, 2003.
46
Fiabilidad industrial
Función de densidad de una distribución de Gumbel
0,4
0,3
0,2
0,1
0
-4
-3
-2
-1
0
1
2
Función de riesgo de una distribución de Gumbel
2
1,5
1
0,5
0
-4
-3
-2
-1
0
1
Figura 3.4 Funciones de densidad y de riesgo de Gumbel para µ = 0 y σ2 = 1
La distribución más frecuentemente utilizada en estadística es la distribución Normal cuya
densidad de probabilidad es
f(x) = (2πσ2)-1/2exp {-(x-µ)2/ (2σ2)}
para -∞ < x < +∞, con media µ y varianza σ2. Cuando µ = 0 y σ = 1, se tiene la distribución
Normal estándar. La forma de la función de densidad es la conocida campana de Gauss y
la función de riesgo o tasa de fallo es una función creciente.
Algunas veces se utiliza la distribución Normal como distribución del tiempo de vida, aunque
da valores negativos con probabilidad positiva. Más frecuente es el uso como modelo para
logT, logaritmo del tiempo de vida, que es equivalente a considerar la distribución lognormal
para los tiempos de vida.
© Los autores, 2003; © Edicions UPC, 2003.
Tasa de fallo no constante. El modelo de Weibull y otros
47
Funciones de densidad de la distribución Normal
1,5
1
0,5
-3,5
-2,5
-1,5
0
-0,5
0,5
1,5
2,5
3,5
Funciones de riesgo de la distribución Normal
25
20
15
10
5
0
-1
-5 0
1
2
3
4
Figura 3.5 Funciones de densidad y de riesgo de la distribución Normal para σ = 1; 0,5 y 0,25 y µ = 0.
La densidad lognormal viene dada por
f(t) = (2πσ2t2)-1/2exp {-(log t-µ)2/ (2σ2)}, t > 0
La media y la varianza de la distribución lognormal son exp(µ+1/2σ2) y exp(2µ+σ2){exp(σ2)-1}
respectivamente.
Para valores pequeños de σ la distribución lognormal se parece a la normal. La utilización
de estos modelos en las aplicaciones está justificada cuando las variables T o logT se puede
suponer que son el resultado de la suma de un gran número de efectos pequeños,
justificación teórica basada en el teorema del límite central.
Las funciones de fiabilidad y de riesgo de la Normal y la lognormal sólo pueden expresarse
en términos de integrales. La gráfica de la función de riesgo de la distribución lognormal
crece al principio, eventualmente decrece, y tiende a 0 para t → ∞. Este comportamiento es
justo al revés de lo que uno espera del tiempo de vida de una unidad en la práctica. Tal
como se ha discutido en el apartado 1.4, la función de riesgo a lo largo de todas las etapas
de la vida de un dispositivo suele tener forma de curva de bañera, y es de esperar que el
tiempo de vida de un componente a largo plazo tenga una función de riesgo creciente
debido al envejecimiento.
© Los autores, 2003; © Edicions UPC, 2003.
48
Fiabilidad industrial
En algunos casos solamente se producen fallos después de un cierto tiempo g
predeterminado (por ejemplo, el número de ciclos hasta la rotura del muelle de cierre de un
cinturón de seguridad presenta un número de ciclos -que aquí sustituye al tiempo- sin fallos
muy marcado). En estas circunstancias interesa trabajar con las distribuciones definidas con
otro parámetro de traslación o de localización. Por ejemplo la densidad exponencial
trasladada toma la forma
f(t) = λexp{ -λ (t-γ)) }, t > γ
o la densidad de Weibull trasladada o con tres parámetros:
  (t - γ ) β 
β
β−1
f(t) = β (t - γ ) exp - 
 , t > γ
α
  α  
En general se reemplaza t por (t-γ), a la derecha de la expresión de la función de densidad.
Si se toma γ = 0 se tiene la versión no trasladada de la función de la densidad. En el
contexto de fiabilidad uno espera que γ no sea negativa. Si γ es conocida no hay más
problema que sustituir T por T-γ. Sin embargo, si γ no es conocida la estimación de los
parámetros es más compleja.
Existen otras distribuciones de fiabilidad como la Gamma, distribuciones mixtas o
generalizaciones de las comentadas, normalmente con tres parámetros. Estas distribuciones
son más flexibles y describen mejor el mecanismo de fallo, pero es a un costo más elevado
de complejidad matemática. Para ampliar el tema ver Crowder y otros (1991).
3.3 Gráficos probabilísticos
En las aplicaciones es habitual utilizar gráficos probabilísticos para determinar si es o no
adecuado el modelo de Weibull para los datos. Suelen utilizarse también para estimar
gráficamente los parámetros del modelo. Existen en la literatura unos gráficos probabilísticos
impresos, llamados comúnmente papeles probabilísticos, tanto para muestras completas
como censuradas.
Un gráfico probabilístico es un gráfico basado en la distribución empírica y relativo a familias
de distribuciones específicas como la de Weibull, la Normal, o la lognormal. Consiste en
dibujar la distribución empírica de los datos en un papel donde uno de los ejes está
adecuadamente transformado (escala logarítmica o doble logarítmica, etc.), y evaluar si los
puntos dibujados se ajustan a una línea recta. No es aconsejable quedarse sólo con la
apreciación visual, pues puede resultar un método de ajuste un poco subjetivo. Actualmente
se puede calcular la ecuación de una recta de regresión por el método de mínimos
cuadrados con una hoja de cálculo o una simple calculadora de bolsillo.
Existen papeles probabilísticos para muchas distribuciones, en particular para la distribución
exponencial y la de Weibull. El modelo se escoge basándose en la experiencia previa de
datos similares y en la comprensión del fenómeno físico, químico o biológico que origina el
fallo.
Actualmente los programarios estadísticos tienen incorporadas rutinas para dibujar gráficos
probabilísticos. El Minitab en particular, en su apartado de fiabilidad, dibuja los gráficos
© Los autores, 2003; © Edicions UPC, 2003.
Tasa de fallo no constante. El modelo de Weibull y otros
49
probabilísticos de la Weibull, la lognormal, la normal y la exponencial, y estima sus
parámetros por el método de máxima verosimilitud, tanto para datos completos como
censurados.
También es posible evaluar mediante gráficos la adecuación del modelo de Weibull para
muestras completas, mediante simples cálculos y gráficos utilizando una hoja de cálculo.
Los ejercicios prácticos de este apartado se plantean utilizando la hoja de cálculo del Excel.
3.3.1 Muestras completas
Para ilustrar la base teórica del gráfico probabilístico de Weibull consideremos la función de
fiabilidad de Weibull:
R(t) = 1-F(t) = exp{-(t/α)β}
Se aplica el logaritmo natural en ambos lados dos veces
ln(1-F(t)) = -(t/α)β
ln(-ln(1-F(t)) = βln(t)-βln(α)
que es equivalente a
ln(ln(1/(1-F(t))) = βln(t)-βln(α)
Sustituyendo la función de distribución F(t) por la función de distribución empírica Fn(t) se
tiene
lnln[1/(1- Fn(t))] = βln(t)-βln(α)
(3.6)
o lo que es equivalente:
lnln[1/ Rn(t)] = βln(t)-βln(α)
Concluimos que lnln[1/Rn(t)] es una función lineal de ln(t), donde la pendiente es el
parámetro de forma β. El gráfico probabilístico de Weibull se basa en esta relación lineal y
una manera fácil de comprobar si unos datos se ajustan al modelo de Weibull es hacer el
gráfico lnln[1/Rn(t)] versus ln(t), donde t son los datos ordenados y Rn(t) es la función de
fiabilidad empírica, y evaluar hasta qué punto la relación lineal es factible.
„
Utilización del gráfico probabilístico
Se dibuja en el eje de abscisas ln(t(i)), es decir, el logaritmo de los datos, donde t(i) es la
muestra ordenada; y en el eje de ordenadas lnln[1/(1-Fn(i)], donde Fn(i) es la función de
distribución empírica, y se ajusta una recta.
En función de lo bien que se ajusten los datos a la recta se decide si la relación es lineal, y
en caso afirmativo se concluye que el modelo de Weibull es adecuado.
© Los autores, 2003; © Edicions UPC, 2003.
50
Fiabilidad industrial
Puede utilizarse la recta mínimo cuadrática para estimar gráficamente los parámetros de la
Weibull. La pendiente es el parámetro de forma β, y α puede estimarse teniendo en cuenta
que es el percentil del 63% (ejemplo 3.2).
Los estimadores gráficos de los parámetros de una distribución no son los óptimos, en el
sentido que los de máxima verosimilitud tienen propiedades mejores (se explicarán en el
siguiente apartado), pero tienen algunas ventajas como el ser rápidos y fáciles de calcular.
Ayudan a presentar los datos de forma comprensible visualmente, cosa que es muy útil a la
hora de sacar conclusiones, y facilitan su comprensión. Las hojas de cálculo, como por
ejemplo el Excel, son una buena herramienta de cálculo, de fácil manejo, para hacer un
gráfico probabilístico.
„
Construcción de un gráfico probabilístico de Weibull
1. Ordenar los n tiempos de fallo de menor a mayor (muestra ordenada)
t(1) ≤ ... ≤ t(i) ≤ ... ≤ t(n)
2. Asignar los rangos (rank)
3. Calcular Fn(i), la función de distribución empírica que representa el porcentaje de fallos
ocurridos antes del tiempo de fallo correspondiente al rango i:
Fn(i) =
i -0,5
, i=1,…,n
n
(*)
4. Dibujar los puntos: para el fallo de rango i se sitúa en ln (t(i)) en las abcisas, y en el eje
de ordenadas lnln(1/(1-Fn(i))).
5. Determinar visualmente una recta de manera que las desviaciones entre los datos y la
recta sean lo menores posible y decidir si el ajuste es suficiente. Puede utilizarse la recta
mínima cuadrática.
6. En caso de que el modelo de Weibull parezca plausible, estimar gráficamente
valores de α y β.
los
En el apartado de prácticas del capítulo 3 se desarrolla un ejemplo con las pautas que se
deben seguir para construir el gráfico probabilístico con una hoja de cálculo Excel.
(*)
La fórmula dada para el cálculo de la función de distribución empírica no es única. Interesados en profundizar
el tema consultar pág. 118 de Nelson (1982). El programa Minitab da distintas opciones como: la normal escore
(i-3/8)/n-1/4, la de Kaplan-Meier modificado (i-0,5)/n, la de Herd-Honson i/(n+1) y i/n, que se llama de KaplanMeir.
© Los autores, 2003; © Edicions UPC, 2003.
Tasa de fallo no constante. El modelo de Weibull y otros
51
Ejemplo 3. 2
En una prueba de vida interesa el tiempo de perforación, en minutos, de un fluido aislante
interpuesto entre dos electrodos a un voltaje de 38kV. Los datos son 0,74; 1,13; 0,09; 0,47;
0,73; 2,38; 1,4 y 0,39, donde los n=8 son datos completos, ya que el experimento termina
cuando fallan todas las unidades.
Con una hoja de cálculo puede calcularse:
t(i)
rango i
Fn(i)
ln(t(i))
lnln[1/(1- Fn(i))]
0,09
0,39
0,47
0,73
0,74
1,13
1,40
2,38
1
2
3
4
5
6
7
8
0,06
0,19
0,31
0,44
0,56
0,69
0,81
0,94
-2,41
-0,94
-0,76
-0,31
-0,30
0,12
0,34
0,87
-2,74
-1,57
-0,98
-0,55
-0,19
0,15
0,52
1,02
Obsérvese que la muestra está ordenada de menor a mayor.
Se dibuja lnln[1/ (1-Fn(t)] versus ln(t). En este caso se ha realizado con una hoja de cálculo
del Excel, agregándose a los datos la línea de tendencia, lo que indica que:
lnln[1/ (1-Fn(t)] = 1,203 ln(t) –0,0334
y con un coeficiente de determinación R2=0,9721, que indica un ajuste razonable.
y = 1,203x - 0,0334
1,5
R 2 = 0,9721
1,0
0,5
ln(ti)
-3,0
0,0
-2,5
-2,0
-1,5
-1,0
-0,5
-0,5 0,0
0,5
1,0
1,5
-1,0
-1,5
-2,0
-2,5
-3,0
ln(ln(1/(1-Fn(t))))
-3,5
Conclusión: los datos se ajustan razonablemente a una distribución de Weibull y la
estimación gráfica de los parámetros es
β̂ = 1,203
α̂ = exp(0,0334/1,203)=1,32
La estimación de β es la pendiente de la recta y la estimación de α se obtiene sustituyendo
en la expresión 3.6 y despejando.
© Los autores, 2003; © Edicions UPC, 2003.
52
Fiabilidad industrial
3.3.2 Muestras con datos censurados
Los gráficos de riesgo son la alternativa a los gráficos de probabilidad cuando los datos
están censurados.
A continuación damos la justificación teórica y las pautas para realizar el gráfico de riesgo
con una hoja de cálculo.
Para la construcción de gráficos probabilísticos con datos censurados se utilizará también el
programario Minitab. Su utilización se explica en el apartado de prácticas mediante un
ejemplo.
„
Justificación de los gráficos de riesgo para la distribución de Weibull
La función de riesgo acumulada de una distribución, H(t), se define como la integral de la
función de riesgo, es decir:
t
H(t) = ∫ h(u )du
0
La función de riesgo acumulada de un modelo de Weibull es
t 
H(t) =  
α
β
Aplicando el logaritmo neperiano en la ecuación 3.1 obtenemos H(t) = -lnR(t), y aplicando el
mismo razonamiento que en los gráficos para datos completos obtenemos una relación
lineal entre el logaritmo neperiano de H(t) y el logaritmo neperiano de t:
ln(H(t)) = βln(t) - βln(α)
„
Construcción del gráfico de riesgo (hazard plots)
1. Ordenar los n datos de menor a mayor, teniendo en cuenta tanto los tiempos de fallo
observados como los datos censurados, marcando éstos con el signo +.
2. Asignar el rango decreciente a los datos: al valor menor le corresponderá rango n, al
segundo rango n-1, y así sucesivamente.
3. Calcular el valor de riesgo empírico, únicamente para los tiempos de fallo observados:
hn = 1/rango decreciente
i
4. Calcular el riesgo acumulado Hn(i )= ∑ hn (k ) para cada fallo.
k =1
© Los autores, 2003; © Edicions UPC, 2003.
Tasa de fallo no constante. El modelo de Weibull y otros
53
5. Para cada tiempo de fallo observado dibujar ln(ti) en el eje de abcisas y ln(Hn(i)) en el eje
de ordenadas. Los datos censurados no aparecen en el gráfico.
6. Calcular la recta mínimo cuadrática.
7. Estimar los parámetros gráficamente a partir de la expresión
ln(H(t)) = βln(t) - βln(α)
Ejemplo 3.3
Se realiza un ensayo del mecanismo de arrastre de papel en un nuevo modelo de impresora
de chorro de tinta. El ensayo se realiza con 12 unidades, y la duración (prefijada) es de
60.000 ciclos. Los resultados se presentan en la tabla del ejemplo 1.2.
Con una hoja de cálculo Excel puede calcularse:
Se dibuja lnHn(i) versus ln(t). En este caso se ha realizado con una hoja de cálculo del Excel,
y se ha agregado a los datos la línea de tendencia, lo que indica que
lnH(t) = 2,3278ln(t)–25,59
y con un coeficiente de determinación R2 = 0,8759, que indica un ajuste razonable.
0,000
-0,50010,00
10,20
10,40
10,60
10,80
11,00
-1,000
-1,500
-2,000
-2,500
y = 2,3278x - 25,59
2
R = 0,8759
-3,000
© Los autores, 2003; © Edicions UPC, 2003.
54
Fiabilidad industrial
Conclusión: Los datos se ajustan razonablemente a una distribución de Weibull y la
estimación gráfica de los parámetros es, teniendo en cuenta que ln(H(t))=βln(t) - βln(α):
β̂ = 2,3278
α̂ = 59.451,18
3.4 Método de estimación de máxima verosimilitud
En este apartado se expone el método general de estimación de máxima verosimilitud. Para
fijar ideas supongamos que tenemos una observación de una muestra (t1, ... ,tn) de una
población de interés. Supongamos primero que ninguna de las observaciones está
censuradas. En el contexto de fiabilidad es razonable pensar en ti como tiempos de vida.
Supongamos que pueden ser vistas como observaciones de una función de densidad
común f(t;θ1,θ2, ... ,θm), donde la forma de f es conocida pero los parámetros son
desconocidos, (por ejemplo, una distribución de Weibull donde los parámetros α y β son
desconocidos). Para simplificar tomaremos la notación θ = (θ1,θ2, ... ,θm). Entonces la función
de verosimilitud de las observaciones será
n
L(θ)= ∏ f (t i ; θ)
i =1
Si algunas de las observaciones están censuradas por la derecha, podemos partir los
números de la observaciones 1,2,...,n en dos conjuntos disjuntos: uno llamado N,
correspondiente a las observaciones no censuradas, y otro llamado C, correspondiente a las
observaciones censuradas por la derecha. Entonces la función de verosimilitud se expresa
como
L(θ) =
∏f (t ; θ)∏R(t ; θ)
i ∈N
i
i ∈U
i
donde la densidad de las observaciones censuradas por la derecha se ha sustituido por la
función de fiabilidad. De manera similar, la densidad de las observaciones censuradas por la
izquierda puede se reemplaza por la función de distribución. Y, en el caso de tener
observaciones censuradas por intervalo, la función de densidad se reemplaza por la función
de distribución evaluada en el límite superior menos la evaluada en el límite inferior, de
forma que da la probabilidad de ocurrencia del tiempo de vida dentro del intervalo.
En cualquier de los casos comentados es más conveniente trabajar con el logaritmo de la
función de verosimilitud:
l(θ) = ln(L(θ))
Los estimadores máximo verosímil θˆ 1,θˆ 2 ...,θˆ m de θ1,θ2,...,θm son aquellos valores que
maximizan la función de verosimilitud, o lo que es equivalente, el logaritmo de la función de
verosimilitud.
Normalmente, los estimadores máximo verosímil se encuentran resolviendo las ecuaciones:
∂l
=0 ,
∂θ j
j = 1,2, ... ,m
© Los autores, 2003; © Edicions UPC, 2003.
Tasa de fallo no constante. El modelo de Weibull y otros
55
El ejemplo 3.3 ilustra cómo se calculan los estimadores máximo verosímil en el caso de la
distribución normal. Muchas veces la solución de estas ecuaciones no es explícita y se
requiere de métodos numéricos tales como el algoritmo de Newton. La problemática al
entorno de estas soluciones se escapa del objetivo de estos apuntes. Si se quiere ampliar el
tema se puede consultar el capítulo 3 de Crowder y otros.
Las ecuaciones normales de la distribución de Weibull no dan una solución explícita y es
necesaria la utilización de algoritmos como el de Newton para resolverlas. Para más detalles
consultar la página 340 de Nelson (1982).
Se utilizará el programario estadístico Minitab para calcular los estimadores máximo
verosímil, y su funcionamiento se explicará en el desarrollo de las prácticas.
Basándose en la teoría general del método de máxima verosimilitud, una vez estimados los
parámetros α y β de la Weibull y las varianzas de α̂ y β̂ , pueden estimarse las
características de fiabilidad y los intervalos de confianza.
Los estimadores MV son asintóticamente normales, es decir, para muestras de tamaño
grande:
α̂ ~N(α;Var( α̂ ))
β̂ ~N(β;Var( β̂ ))
Entonces los intervalos de confianza (1-δ) aproximados de α y β pueden calcularse:
αˆ - z δ/2 Var(αˆ ) ≤ αˆ ≤ αˆ + z δ/2 Var(αˆ )
βˆ - z δ/2 Var(β̂ ) ≤ βˆ ≤ βˆ + z δ/2 Var(βˆ )
(3.7)
donde zδ/2 es el valor de la distribución N(0;1) que deja en la cola una probabilidad δ/2 y el
tamaño de la muestra n tiene que ser grande.
El cálculo de las varianzas de α̂ y β̂ es computacionalmente complejo, ya que involucra el
cálculo de la inversa de la matriz de derivadas segundas del logaritmo de la función de
verosimilitud. La mayoría de programas estadísticos que cubren la fiabilidad disponen de
rutinas que calculan estas varianzas. Puede utilizarse también las siguientes expresiones
que dan una buena aproximación:
2
 αˆ  1,1087
Var(αˆ ) ≅  
n
 βˆ 
0,6079
Var(βˆ ) ≅ βˆ 2
n
La estimación de la fiabilidad en un momento t0, o un percentil de la distribución de Weibull
se obtiene mediante un simple cálculo. Si se disponen de los estimadores MV α̂ y β̂ , la
fiabilidad estimada en t0 es
ˆ
Rˆ (t 0 )=exp -(t 0 /αˆ )β 


y la estimación del percentil p:
1/β
tˆp = αˆ [-ln(1-p)]
ˆ
© Los autores, 2003; © Edicions UPC, 2003.
56
Fiabilidad industrial
Los estimadores obtenidos de la fiabilidad y del percentil son también máximo verosímiles
gracias a la propiedad de invariancia funcional de los estimadores MV.
„
Conceptos avanzados
La estimación máximo verosímil (MV) no es el único método de estimación, pero sí es el
más ventajoso puesto que, por un lado, muchos de los problemas estadísticos que surgen
en el contexto de fiabilidad pueden resolverse utilizando MV. Además, la generalización de
MV tiene ventajas desde el punto de vista computacional ya que con el mismo programa
pueden obtenerse estimadores máximo verosímil en cualquier contexto. En segundo lugar,
la propiedad de la invariancia funcional de los estimadores MV nos asegura que una vez
calculado θ̂ , se puede obtener el estimador MV de una función de él, g(θ), directamente, sin
tener que empezar de nuevo el proceso de estimación. Y tercero, los errores estándares de
las estimaciones MV pueden calcularse a partir de una rutina en que invierte la matriz de
información muestral.
Desde el punto de vista teórico, los estimadores MV también tienen propiedades
recomendables. Bajo condiciones de regularidad los estimadores máximo verosímiles son
consistentes, asintóticamente Normales y asimpoticamente eficientes. Para detalles técnicos
consultar Cox and Hinkley (1974).
Ejemplo 3.4
Estimación por máxima verosimilitud de los parámetros de la
distribución Normal.
Sea X~N(µ; σ2 ), cuya función de densidad es
f(x) =
1
2πσ2
1
e 2σ
2
( x- µ )2
, - ∞ < x < +∞
Dada X = (x1, ... ,xn), una muestra de tamaño n de X, el logaritmo de la función de
verosimilitud como función del parámetro θ = (µ,σ2) es
n
n
1 n
lnL X (µ, σ2 ) = ∑ lnf( xi ) = - ln2 π σ2 - 2 ∑ ( x i -µ )2
2
2σ i =1
i =1
Buscamos el máximo del logaritmo de la función de verosimilitud:
 ∂lnL ∑ (x i -µ)
=
=0

 ∂µ
σ2

 ∂ ln L = - n + 1
 ∂σ2
2σ2 2σ 4
∑ (x -µ) =0
2
i
 n
 ∑ (x i -µ)=0
i =1

n

(x i -µ)2
∑

σ2 = i=1

n
De aquí se deducen los estimadores máximo verosímil de la media y la variancia de la
distribución Normal, que son:
n -1 2
µˆ = X
σˆ 2 =
S
n
© Los autores, 2003; © Edicions UPC, 2003.
Pruebas de vida acelerada
57
4 PRUEBAS DE VIDA ACELERADA
En este capítulo se hace una introducción de las pruebas de vida acelerada y se explican
dos modelos típicos de pruebas de vida con estrés constante, el de Arrhenius y el de la
potencia inversa de Weibull.
Las pruebas de vida acelerada son aquellas que se realizan a un nivel de estrés superior al
de las condiciones ordinarias de funcionamiento, con el fin de provocar la aparición de fallos
en un tiempo más corto. Estas pruebas se realizan exponiendo los productos a condiciones
más severas que las usuales. Generalmente implica aumentar la temperatura, el voltaje, la
presión, la vibración, el tiempo operativo, etc.
Las pruebas de vida acelerada pueden usarse tanto para evaluar la capacidad de un
componente para satisfacer los requisitos de fiabilidad como para tener un medio más
rápido de detectar debilidades potenciales o modos de fallo.
Por ejemplo es habitual en la industria hacer estudios del número de ciclos hasta el fallo
aparatos como lavadoras, tostadoras, etc., de forma seguida, que condensan
envejecimiento correspondiente de 6 meses a 10 años. En estos casos no es necesario
aparato matemático especial para determinar la relación de tiempo de vida, puesto que
extrapola en función del tiempo operativo de los mismos.
de
el
un
se
La relación entre los fallos y la tasa de fallo en condiciones aceleradas, y las
correspondientes en condiciones normales de funcionamiento, debe conocerse a través de
datos históricos o a partir de modelos estadísticos, que relacionen el tiempo de vida de los
componentes con el estrés a que están sometido.
Son bien conocidas, por ejemplo, las tasas de fallo en función de las tensiones aplicadas y
las temperaturas de funcionamiento de condensadores y resistencias, y las relaciones
pueden usarse para evaluar unidades de un nuevo lote, tipo o fabricante. Una relación
frecuentemente usada es que la tasa de fallo se duplica aproximadamente por cada subida
de 10°C. Puesto que estos componentes suelen ser muy fiables, se usan temperaturas
elevadas en combinación con sobretensiones, a fin de determinar tasas de fallo en un
tiempo razonable.
Los ensayos acelerados de nuevos productos es una práctica común y se usa para detectar
modos de fallo potenciales.
Las pruebas de vida acelerada con fines de valoración se restringen a las piezas y los
componentes, de los cuales se conocen las relaciones entre las tasas de fallo en
condiciones normales y de estrés. Un requisito importante es que las condiciones de estrés
no puedan introducir nuevos modos de fallo.
Cuando las relaciones están bien definidas, las pruebas de vida aceleradas pueden dar
estimaciones de las características de fiabilidad a una fracción del coste de las pruebas
ordinarias, y son ventajosas.
La relación entre pruebas aceleradas y normales puede ser relativa a una tasa de fallo, a
una tasa de degradación o cambio de una característica, o al tiempo del desgaste. Siempre
que se conozca la relación, los datos en condiciones aceleradas pueden reducirse a datos
en condiciones normales, generalmente multiplicados por algunas constantes apropiadas.
© Los autores, 2003; © Edicions UPC, 2003.
58
Fiabilidad industrial
De todas formas, para ciertos componentes se conocen las constantes a partir de estudios
documentados. El manual MIL-HBK-217 es la fuente más consultada en la industria
electrónica.
Hay otra aplicación en que se usan las pruebas de vida aceleradas, las pruebas conocidas
como burn-in, de purga, que causan el efecto de eliminar las unidades potencialmente
infiables sin afectar a las unidades buenas. Un ejemplo de esta prueba es el ensayo de
aceleración a 20.000 g , donde g es la aceleración de la gravedad 9,81m/s2, que se aplica a
los semiconductores (hay algún fabricante que ha aumentado incluso este nivel de g en un
50%, hasta 30.000 g en algunas unidades, sin observar efectos medibles sobre la actuación
o longevidad de las unidades que pasan la prueba). Tal ensayo sirve para eliminar las
unidades que tienen una debilidad mecánica en potencia y una fiabilidad inferior. El ensayo
puede también hacer que fallen ciertas unidades cuya fiabilidad hubiera sido satisfactoria,
pero, imponiéndolo a todas las unidades, la fiabilidad general resultante del lote después del
ensayo es considerablemente superior a la que hubiera sido de no haberse realizado el
ensayo. Es importante verificar que las unidades que superan la prueba no se hayan
degradado.
4.1 Modelos de pruebas de vida con estrés constante
En este apartado se desarrollan dos tipos de pruebas de donde, a partir de los datos de
dispositivos sometidos a una aceleración, se puede inferir la fiabilidad del dispositivo en
condiciones normales de uso. Son modelos típicos de pruebas de vida con estrés constante,
el de Arrhenius y el de la potencia inversa. La relación entre el estrés y el tiempo de vida
hasta el fallo consiste en una función de potencia o exponencial. Esta relación puede
transformarse en una relación lineal entre el estrés (o una función de éste) y el logaritmo del
tiempo.
Un modelo estadístico para una prueba de vida acelerada consiste en:
„
Una distribución de probabilidad (exponencial, Weibull, etc.) que describe la variabilidad
de la vida del dispositivo de una unidad a otra.
„
Una relación entre el estrés y la vida. Esta relación se tiene que materializar, con el fin
de que sea operativa, en una ecuación matemática que relacione el estrés con un
parámetro de posición de la distribución del tiempo de fallo.
4.1.1 Modelo Arrhenius-Exponencial
El modelo de Arrhenius-exponencial consta de dos elementos. Por un lado se supone que el
tiempo de fallo del dispositivo tiene una distribución exponencial con vida media θ y el
parámetro θ varía con la temperatura de acuerdo con una ecuación denominada ecuación
de Arrhenius, porque está basada en la ley de Arrhenius de la cinética química.
La ecuación de Arrhenius en este caso tiene la forma:
θ(τ) = AeB /τ
© Los autores, 2003; © Edicions UPC, 2003.
(4.1)
Pruebas de vida acelerada
59
donde τ es la temperatura absoluta y A y B son constantes. Tomando logaritmos en los dos
miembros de la ecuación obtenemos
µ = ln(θ) = γ0 + γ1/τ
donde µ es un parámetro en función del estrés (en este caso es función del parámetro de
posición θ, la vida media, de la distribución del tiempo de vida). Las constantes γ0 y γ1 se
determinan por regresión lineal a partir de los datos de pruebas de vida aceleradas. En el
caso de que el modelo sea válido sólo puede extrapolarse en el intervalo de temperatura en
el cual no quede modificado el mecanismo de fallo.
Este modelo es muy utilizado en el sector electrónico, donde se dispone de tasas de fallo de
diferentes componentes. En general se trabaja con la distribución exponencial y el modelo
de Arrhenius, puesto que permiten obtener tasas de fallo mediante pruebas de vida
acelerada en un tiempo compatible con los ajustados ciclos del desarrollo de nuevos
productos.
Ejemplo 4.1 Tasa de fallo de un semiconductor [fuente: Nelson (1990)]
Para ciertos componentes se conocen las constantes γ0 y γ1 a partir de estudios
documentados, como el MIL-HBK-217. Por ejemplo, la tasa de fallo (en fallos por millón de
horas) a una temperatura para un componente electrónico MOS (metol oxide
semiconductor), en función de la temperatura τ (dentro de un cierto intervalo), es
λ = 1,08×108×exp(-6.373/τ), de donde θ=1/λ=0,9259x10-8exp(6.373/τ)
que equivale a tomar, en la fórmula (4.1):
A = 0,9259×108
B = 6.373
Si se quiere conocer la fiabilidad correspondiente a un período de garantía de un año,
trabajando a 55°C (τ = 328,16°K), la tasa de fallo sería
λ = 1,08x108x exp(-6.373/328,16) = 0,3974 fallos por millón de horas
Esto significa una vida media de
θ = 1/λ = (1/0,39742)x106 = 2.516.232,88 horas
Contando 8.760 horas por año, resulta una vida media de 287,24 años.
La fiabilidad al año es:
R(1 año) = R(8.760) = exp(-λx 8.760) = exp(-0,3974x10-6x8.760) = 0,9965
© Los autores, 2003; © Edicions UPC, 2003.
60
Fiabilidad industrial
4.1.2 El modelo potencia inversa de Weibull
El modelo de la potencia inversa describe la relación entre el voltaje, que es la variable de
estrés, y el tiempo de fallo de un aislante eléctrico de la siguiente forma:
T = K V -N
donde T representa la duración del aislante, V es el voltaje y K y N son constantes. T es una
variable aleatoria con una cierta distribución estadística. La relación también se considera
válida cuando se sustituye T por un parámetro de posición o de escala de la distribución.
Tomando logaritmos en los dos miembros obtenemos
µ = γ0+γ1ln(V)
donde las constantes γ0 = ln(k) y γ1 = -N, se determinan a partir de las pruebas de vida
aceleradas mediante la regresión lineal.
Un caso particular es el modelo de la potencia inversa de Weibull, donde se supone que el
tiempo de fallo del producto tiene una distribución Weibull con parámetros α y β. La
ecuación se expresa como
α(V) = K V -N
donde α(V) es el parámetro de escala de una distribución de Weibull y varía con el voltaje V,
mientras que β es independiente del voltaje:
µ = ln(α(V)) = γ0+γ1ln(V)
(4.2)
De aquí se deduce que el logaritmo del parámetro escala de las distribuciones Weibull a
distintos voltajes es lineal respecto del logaritmo de los voltajes. Para ilustrar este hecho se
utiliza el ejemplo 4.2, debido a Nelson.
© Los autores, 2003; © Edicions UPC, 2003.
Pruebas de vida acelerada
61
Ejemplo 4.2 [fuente: Nelson (1982)]
En una prueba de vida interesa el tiempo de perforación, en minutos, de un fluido aislante
interpuesto entre dos electrodos. El tiempo de perforación se mide a siete voltajes
diferentes. El experimento se alarga hasta que fallen todas las unidades. Los resultados se
encuentran en la tabla:
En la siguiente tabla se presentan los parámetros α y β de Weibull, obtenidos por máxima
verosimilitud. Se han estimado por separado utilizando el programa Minitab:
El siguiente gráfico probabilístico justifica la distribución de Weibull para los datos de cada
voltaje.
© Los autores, 2003; © Edicions UPC, 2003.
62
Fiabilidad industrial
La relación lineal entre ln(α) y ln(V) se calcula con una hoja de cálculo Excel:
y = -17,579x + 64,263
R2 = 0,9916
Log(alpha)
8
6
4
2
0
3,2000
3,3000
3,4000
3,5000
3,6000
Log(V)
© Los autores, 2003; © Edicions UPC, 2003.
3,7000
Pruebas de vida acelerada
63
De donde la relación lineal viene dada por la recta de regresión:
ln(α) = 64,263 - 17,579ln(V)
con un coeficiente de determinación de R2 = 0,9916, lo que indica una relación lineal alta.
La estimación de las constantes K y N de la ley de la potencia inversa se deducen de la
fórmula (4.2):
K = exp{64,263} = 8,11×1027
© Los autores, 2003; © Edicions UPC, 2003.
N =17,579
Análisis de la fiabilidad de un sistema
65
5 ANÁLISIS DE LA FIABILIDAD DE UN SISTEMA
En este capítulo se desarrolla el análisis de un sistema, formulando los sistemas coherentes,
la fiabilidad de un sistema en serie y en paralelo con tasa de fallo constante. Y se hace una
introducción al análisis de la fiabilidad mediante árboles de fallo.
En los capítulos precedentes hemos discutido la fiabilidad de unidades individuales sin
referirnos a cuál era su lugar en el conjunto de la estructura del sistema en estudio. Esto es
lo más simple si son sistemas muy complejos.
Un sistema es, en este contexto, un dispositivo formado por partes cuya fiabilidad es
conocida. Estas partes se llaman componentes.
La actuación de un sistema puede analizarse como función de componentes individuales. Si
los datos son recogidos en componentes individuales, entonces es posible hacer inferencia
estadística sobre la fiabilidad de estos componentes, pero aún queda el problema del
cálculo de la fiabilidad del sistema a partir de la fiabilidad de sus componentes que es lo que
se desarrolla en este apartado.
En general el fallo de un sistema se produce al fallar uno o varios componentes. El problema
básico de la fiabilidad de sistemas consiste en el cálculo de la fiabilidad R(t) de un sistema a
partir de la fiabilidad R1(t), R2 (t), ... , Rn (t) de sus componentes.
5.1 Sistemas coherentes
La clase más conocida de sistemas son los sistemas coherentes. El concepto fundamental
de los sistemas coherentes (coherent system) es que las componentes se encuentran,
individualmente, en uno de los dos estados, funcionan o fallan, y el estado de los sistemas
se representa en términos de los estados individuales de cada componente a través de las
funciones de estructura (structure function). Ejemplos de sistemas coherentes son los
sistemas en serie, en paralelo o mixtos, que desarrollaremos en este capítulo.
A continuación se formula las funciones de estructura.
Sea un sistema con n componentes. Se define Xi, el estado del componente i:
1
Xi = 
0
si el componente funciona
si el componente no funciona
Se define φ , el estado del sistema, como
1
φ = 
0
si el sistema funciona
si el sistema no funciona
La función de estructura es φ = φ( X) , donde X = (x1, ... ,xn) es el vector de los estados de los
componentes.
© Los autores, 2003; © Edicions UPC, 2003.
66
Fiabilidad industrial
Ejemplos
5.1 Sistema en serie
Es aquel para el que el fallo del sistema equivale al de un solo componente.
n
φ(X) = ∏ x
i
i=1
A
C
B
Figura 5.1 Ejemplo de un sistema en serie formado por tres componentes
5.2 Sistema en paralelo
Es aquel para el cual se produce un fallo cuando todos los componentes fallan.
n
φ(X) = 1- ∏ (1- xi )
i=1
Figura 5.2 Ejemplo de un sistema en paralelo con tres componentes
5.3 Sistema K entre n
Es un sistema más general que enlaza los sistemas serie y los sistemas paralelos. En este
caso el sistema está operativo si por lo menos K componentes de entre n componentes
están operativos. K = n corresponde a un sistema en serie y K = 1 corresponde a un
sistema en paralelo.
1 si ∑ xi ≥ K
φ( X ) = 
0 si ∑ xi < K
(5.1)
El sistema 2 entre 3 de la figura 5.2 está operativo si por lo menos dos componentes de una
de las tres cadenas están operativos. En este caso la expresión (5.1) debería contener la
restricción que los componentes fueran de la misma cadena.
© Los autores, 2003; © Edicions UPC, 2003.
Análisis de la fiabilidad de un sistema
67
Figura 5.3 Ejemplo de un sistema 2 entre 3
5.4 Fiabilidad de una red
Este es un ejemplo simplificado de un problema de la fiabilidad de una red (network
reliability), en la que el sistema puede ser representado por una red de componentes y el
estado del sistema depende de la existencia de un camino a través del cual los
componentes funcionan.
Un sistema computador consiste en un computador central que tiene conectados tres
terminales. El computador tiene conectada una impresora y también es posible imprimir en
otra unidad central. El sistema se considera que funciona si es posible utilizar el computador
y tener una impresora de salida conectada. Para esto se requiere que: (a) funcione el
computador central, (b) al menos una terminal de las tres funcione, y (c) que funcione la
impresora local o que la conexión con la otra unidad que tiene conectada la impresora
funcione.
Este sistema se puede representarse gráficamente (figura 5.4), donde 1, 2 y 3 son las tres
terminales, 4 el computador, 5 la impresora local y 6 la otra unidad. Y en este caso
φ( X )={1-(1-x 1)(1-x 2 )(1-x 3 )}x 4 {1-(1-x 5 )(1-x 6 )}
A partir de este ejemplo sencillo puede apreciar el potencial que uno puede tener para
sistemas más complicados. Por ejemplo, un sistema computacional de una compañía o una
universidad puede representarse mediante diagramas de este tipo donde los sistemas,
mucho más grandes y complejos, pueden requerir millares de componentes y una estructura
de redes complicadas. También las centrales nucleares han sido modeladas por redes de
este tipo.
1
5
2
4
6
3
Figura 5.4 Ejemplo de un sistema computacional
© Los autores, 2003; © Edicions UPC, 2003.
68
Fiabilidad industrial
La formulación matemática de los sistemas coherentes es como sigue:
Un sistema representado por una función de estructura es coherente si cumple les dos
propiedades siguientes:
„
Relevancia de cada componente, es decir, no hay ninguna componente cuya fiabilidad
no afecte a la fiabilidad del sistema;
„
Monotonicidad, que encierra el concepto de que la fiabilidad de un sistema nunca puede
ser mejorada cuando uno de sus componentes se vuelva menos fiable.
Estas dos propiedades se pueden formular como sigue:
El i-ésimo componente es irrelevante si, para todos los estados de los otros componentes
x1,...,xi-1,xi+1,...,xn el estado del sistema es el mismo, independientemente de que xi sea 0 ó 1:
φ ( x1, ... ,xi-1,1,xi+1, ... ,xn) = φ ( x1, ... ,xi-1,0,xi+1, ... ,xn)
Nota: Si un componente no es irrelevante es relevante.
f:fuente
f:fuente
t:terminal
t:terminal
Todos los componentes son relevantes
Un componente irrelevante
Figura 5.5 Ejemplos de componentes relevantes e irrelevantes
La monotonicidad de la función de estructura se refiere a la monotonía de cada xi:
φ ( x1,...,xi-1,0,xi+1,...,xn) ≤ φ ( x1,...,xi-1,1,xi+1,...,xn)
Definición: Una función de estructura φ se define como un sistema coherente si es
monótona y cada componente es relevante.
La función de fiabilidad de un sistema puede formalizarse como
R(t) =

n
∑ φ( x )∏{R (t )
x

i =1
i
xi

(1- Ri (t ))1- xi 

}
donde los componentes son independientes y Ri(t) es la fiabilidad del componente i, es
decir, es la probabilidad de que el componente i-ésimo funcione en el instante t, y donde
φ(X ) es la función de estructura que define a xi = 1 si el componente funciona y xi=0 si no
funciona.
© Los autores, 2003; © Edicions UPC, 2003.
Análisis de la fiabilidad de un sistema
69
5.2 Fiabilidad de un sistema en serie con tasa de fallo constante
Si los componentes son independientes, la fiabilidad de un sistema en serie se calcula por la
regla del producto.
Regla del producto: un sistema en serie, con los componentes independientes, funciona sí y
sólo sí todos los componentes funcionan:
R(t) = R1(t)×R2(t) × … ×Rn(t)
Hablamos de sistema en serie con tasa de fallo constante cuando todos los componentes
tienen tasa de fallo constante, es decir, cuando el tiempo de vida de los componentes se
distribuye exponencial de parámetro λi, Ri(t) = e-λt y por la regla del producto:
R(t)= e- λ1t × e- λ2t ...e- λnt
O, equivalentemente, R(t)=e-λt, donde λ=λ1+λ2+…+λn.
Un sistema en serie con los componentes con tasa de fallo constante tiene la tasa de fallo
constante e igual a la suma de las tasas de fallo.
Nota: Puede servir para calcular la tasa de fallo de un producto que tiene diferentes tipos de
fallo independientes y con tasa de fallo constante.
La vida media de un sistema en serie con los componentes con tasa de fallo constante se
calcula a partir de las vidas medias θi = 1/λi de sus componentes:
θ=
1
1 1
1
+ +...+
θ1 θ2
θn
En un sistema en serie complejo, formado por grupos de componentes idénticos, si el primer
grupo tiene n1 componentes con tasa de fallo λ1, el segundo n2 componentes con tasa de
fallo λ2, etc., las fórmulas anteriores se pueden escribir:
R (t ) = R1(t )n1 × R2 (t )n2 ...Rk (t )nk
donde la tasa de fallo del sistema es
λ = n1⋅λ1+ n2⋅λ2+ … + nk⋅λk
y la vida media del sistema es
θ=
1
n1 n2
n
+ +... + k
θ1 θ2
θn
donde θi = 1/λi las vidas medias de los subgrupos de sus componentes.
© Los autores, 2003; © Edicions UPC, 2003.
70
Fiabilidad industrial
La tasa de fallo de un sistema en serie, formado por n componentes idénticas con tasa de
fallo λc, es:
λ = n⋅λc
Si los componentes no son idénticos, a veces es útil considerar la tasa de fallo equivalente,
que sería la que tendrían los componentes de un sistema con la misma fiabilidad si fuesen
idénticos. Es igual a la media aritmética de las tasas de fallo reales de los componentes:
λc =
λ1 + λ 2 ... + λn
n
5.3 Fiabilidad de un sistema en paralelo
La fiabilidad de un sistema en paralelo con n componentes de fiabilidad Ri(t), i = 1,...,n es
R(t) = 1 - {(1-R1(t)) (1-R2(t)) … (1-Rn(t))}
donde la probabilidad de que el sistema falle antes de un instante t es
Pr(T ≤ t) = 1-R(t) = (1-R1(t)) (1-R2(t)) … (1-Rn(t)).
Si todos los componentes son idénticos, con fiabilidad Rc(t), entonces la fiabilidad es
R(t) = 1-(1-Rc(t))n
La fiabilidad de un sistema en paralelo, donde todos los componentes tienen tasa de fallo
constante, es
R(t) = 1- (1- e- λ1t )(1- e- λ2t )...(1- e- λnt ) .
Concluimos que un sistema en paralelo, donde todos los componentes tengan tasa de fallo
constante, no tiene tasa de fallo constante.
En un sistema en paralelo si
fiabilidad es:
los componentes son idénticos, con tasa de fallo λc, la
R(t) = 1- (1- e- λct )n
y la vida media puede obtenerse como θ =
1
λc
1
 1 1
 1+ 2 + 3 +...+ n  .


Para n grande se puede utilizar la aproximación θ ≡
1
(logn + γ ) , donde γ es la constante de
λc
Euler : γ = 0,577.
© Los autores, 2003; © Edicions UPC, 2003.
Análisis de la fiabilidad de un sistema
71
5.4 Redundancia
La redundancia es el principal método para aumentar la fiabilidad de un sistema y se define
como la existencia de más de un medio para realizar una determinada función. Estos
medios no tienen por qué ser idénticos (MIL-STD-721B).
La redundancia puede implicar el uso de dos o más componentes o conjuntos idénticos, de
forma que cuando uno falla hay otros que realizan la función; o bien puede incluir medios
diferentes para realizar la función. Una rueda de repuesto de un automóvil es un ejemplo de
pieza redundante; el sextante manual usado para la navegación de un vehículo espacial en
caso de fallo de los controles automáticos es un ejemplo del segundo método.
En ambos ejemplos, el componente redundante (la rueda o el sextante) se usa sólo cuando
falla el sistema primario. Este uso se llama redundancia secuencial.
Otros sistemas redundantes se hacen funcionar simultáneamente, de modo que todos los
sistemas utilizables (no fallados) realicen la función durante todo el tiempo. Este tipo se
llama redundancia en paralelo activo. El uso de cuatro motores en un avión es un ejemplo
de redundancia en paralelo activo.
El tipo de redundancia viene impuesto ante todo por consideraciones de actuación del
sistema. La redundancia secuencial proporciona teóricamente más fiabilidad que la
redundancia en paralelo activo si las funciones de detección de fallos y conmutación son
extremadamente fiables. En caso contrario se prefiere la redundancia en paralelo activo
desde el punto de vista de la fiabilidad. Ambos tipos dan una fiabilidad del sistema mucho
mejor que el sistema no redundante. Los cálculos de la fiabilidad de sistemas redundantes
pueden resultar muy complicados. En esta apartado se presentan, a título de ejemplo,
algunos cálculos de fiabilidad de sistemas con componentes redundantes.
La norma MIL-STD-721B define la redundancia activa (redundancia en paralelo activo)
como la redundancia de los sistemas en los que los objetos redundantes operan
simultáneamente, en lugar de ser activados cuando son necesarios.
Y la redundancia secuencial (standby) se define como la redundancia de los sistemas en los
que el medio alternativo de realizar una función no se activa hasta que es necesario, y es
activado por el fallo del medio primario de realizar la función.
Un ejemplo de redundancia activa es un avión trimotor, que funciona siempre que funcionen
dos motores.
Consideraciones a tener en cuenta son que, en un sistema secuencial (standby), el
componente redundante se activa mediante un interruptor que tiene su propia fiabilidad. Si
la fiabilidad del interruptor no es del 100%, se puede perder la fiabilidad ganada con la
redundancia. Y además, el hecho de que el componente redundante no esté activado
mientras el otro funciona correctamente, reduce las oportunidades de fallo. Por lo tanto, si la
fiabilidad del interruptor es 100% fiable, un sistema secuencial (standby) tiene una fiabilidad
más alta que un sistema en paralelo simple.
El ejemplo 5.5 muestra la mejora de la fiabilidad de un sistema redundante activo.
© Los autores, 2003; © Edicions UPC, 2003.
72
Fiabilidad industrial
Ejemplo 5.5
Supongamos que cierto componente tiene, para una cierta misión, una fiabilidad del 0,75. Si
sustituimos este componente por dos componentes idénticos en paralelo, obtenemos una
fiabilidad del 93,75%:
R = 1-(1-0,75)2 = 0,9395
Si lo substituimos por 4 componentes en paralelo, la fiabilidad del sistema aumenta hasta el
99,61%:
R = 1-(1-0,75)4 = 0,9961
Si continuamos aumentando la redundancia, la fiabilidad continúa aumentando, pero el
aumento es cada vez menor.
Para un sistema en paralelo con n componentes standby, con interruptor 100% fiable, con
todos los componentes con la misma tasa de fallo λ, constante, la fiabilidad puede
calcularse a través de la fórmula:
R = e-λt[1+ λt + (λt)2/2! + … +(λt)n-1/(n-1)!]
que es la expresión para un sistema con n unidades iguales y con n-1 unidades de reserva.
Ejemplo 5.6
En el ejemplo 5.5 se considera un sistema en paralelo donde los componentes tienen una
fiabilidad Rc = 0,75 = exp(-λt). Esto equivale a λt =0,2876.
Supongamos ahora que se trata de un sistema standby con interruptor 100%, con dos
componentes, uno funcionado y el otro en standby:
R = 0,75(1+0,2867) = 0,965
Si añadimos otro componente standby:
R = 0,75(1+0,2867+0,041) = 0,996
Nota: Si lo comparamos con el ejemplo 5.6, observamos que con 3 componentes es
suficiente para superar una fiabilidad del 99%.
En el ejemplo 5.6 puede apreciarse, comparado con el ejemplo 5.5, que la redundancia
secuencial con interruptor 100% fiable requiere de menos componentes para alcanzar la
misma fiabilidad que la redundancia en paralelo activa.
Supongamos que el dispositivo de detección de fallo no es perfectamente fiable, por lo que
es preciso tener en cuenta sus probabilidades de fallo. Si suponemos que el diseño del
sistema es tal que la función de detección sólo está ligada a las unidades de reserva y no
afectan a la primera unidad que funciona, entonces se incluye en la fórmula la probabilidad
de detección de fallo Psw .
© Los autores, 2003; © Edicions UPC, 2003.
Análisis de la fiabilidad de un sistema
73
En este caso, dado un sistema formado por dos componentes con tasa de fallo constante en
redundancia standby, si la activación del componente es manual, mediante un interruptor
100% fiable, y Psw es la probabilidad de detección, entonces la fiabilidad es
R(t) = e-λt(1+ Psw λt)
Observaciones:
„
Si la activación se hace mediante un interruptor automático con probabilidad de
funcionar p, la fórmula también es válida.
„
Si la activación se hace mediante un interruptor automático y la probabilidad de
funcionar es variable, se debe considerar la fiabilidad del interruptor. Cuando tiene tasa
de fallo constante λs, la fórmula es


λ
R(t) = e- λt  1+ (1-e- λst ) 
 λs

Ejemplo 5.7
Supongamos un sistema formado por dos componentes en standby, con tasa de fallo
constante 0,75. La activación es manual, con un interruptor 100% fiable y una probabilidad
de detección del 90%.
Como la fiabilidad de los componentes es Rc = e-λt = 0,75 ⇒ λt = 0,2877
La fiabilidad del sistema es
R = 0,75(1+0,9x0,2876) = 0,944
Ejemplo 5.8 Sistemas combinados
Los sistemas combinados de la figura 5.5 están formados por subsistemas en serie del
mismo componente. El primero es un sistema en serie formado por tres unidades de este
componente, y los otros tres son sistemas combinados formados a partir de 6 unidades del
componente.
a) Serie
© Los autores, 2003; © Edicions UPC, 2003.
74
Fiabilidad industrial
b) Paralelo-serie
c) Mixto-paralelo
d) Serie-paralelo
Figura 5.5 Sistemas combinados
Cálculos: Si el componente básico es el mismo, con fiabilidad 0,95, la fiabilidad de los
cuatro sistemas es:
a) Ra = 0,95×0,95×0,95 = 0,857375
b) Rb = 1-(1-0,95×0,95×0,95)2 = 0,9796
c) Rc = (1-(1-0,95×0,95)2)×(1-(1-0,95)2) = 0,9880
d) Rc = (1-0,052) ×(1-0,052) × (1-0,052) = 0,9925
5.5 Análisis mediante árboles de fallo
La fiabilidad de redes (Network reliability) se basa en una representación gráfica abstracta
de un sistema. Básicamente está orientada al suceso éxito, pero en la práctica es mejor
orientarla al fallo.
Muchas veces un árbol de fallos (o árbol lógico) es el mejor dispositivo para deducir cuál es
el mayor evento que puede producir un fallo en el sistema.
© Los autores, 2003; © Edicions UPC, 2003.
Análisis de la fiabilidad de un sistema
75
El análisis mediante árboles de fallo, abreviadamente FTA (failure tree analysis), es una
técnica que utiliza gráficos, denominados árboles de fallo, que representan con operadores
booleanos ("Y" y "O") las combinaciones de estados lógicos susceptibles de conducir un
sistema a una situación no deseada.
5.5.1 Construcción de un árbol de fallos
La construcción de árboles de fallos es uno de los principales métodos de sistemas de
análisis de seguridad. Fue desarrollado en los años 60 en la industria aeroespacial. Puede
ser una herramienta de diseño muy útil. Se pueden identificar los accidentes potenciales en
el diseño de un sistema y puede ser de ayuda para eliminar cambios de diseño costosos y
retornos. También se utiliza como herramienta de diagnóstico para predecir las causas de
fallo más probables de un sistema en el caso que deje de funcionar.
Un árbol de fallos es un modelo lógico gráfico donde se representan varias combinaciones
de posibles sucesos, de fallo y normales, que ocurren en un sistema, donde el suceso no
deseado se sitúa arriba de todo del árbol. Entre los elementos de un sistema se incluyen:
hardware, software, y también factores humanos y ambientales.
Para construir un árbol de fallos de un sistema siempre se empieza definiendo el suceso
principal. Antes de empezar a construirlo debe entenderse el sistema, profundizando en las
limitaciones del entorno y del problema. Una vez construido, se analiza el árbol y, para que
tenga aplicabilidad, deben estudiarse las medidas correctivas y adoptarse las que se
consideren oportunas para evitar o disminuir la probabilidad de fallo del sistema.
5.5.2 Símbolos de los sucesos
Los símbolos se muestran en la figura 5.6, donde se representan tipos específicos de
sucesos de fallo y normales de los análisis de árboles de fallo. El rectángulo define un
suceso que es la salida de una puerta lógica, y depende del tipo de puerta lógica y de las
entradas de la puerta lógica. Un suceso de fallo es un estado del sistema no normal. No
necesariamente ha de ser debido al fallo de un componente. Por ejemplo, el suceso fallo
puede ocurrir debido a un error de comando o de comunicación.
El círculo define un fallo inherente básico de un elemento del sistema cuando opera sin las
especificaciones diseñadas. Nos referimos a este suceso como suceso básico primario. El
rombo representa aquel fallo, distinto del fallo primario, que no interesa desarrollar más (lo
denominamos suceso básico secundario). Los sucesos básicos, pués, son primarios
(círculo) o secundarios (rombo). El suceso interruptor representa un suceso que, por diseño,
se espera que ocurra siempre (on) o que no ocurra nunca (off).
Suceso de fallo
Suceso básico primario
Suceso básico secundario
Figura 5.6 Símbolos de los sucesos de un árbol lógico de fallos
© Los autores, 2003; © Edicions UPC, 2003.
Suceso interruptor
76
Fiabilidad industrial
5.5.3 Puertas lógicas
Los árboles de fallo utilizan puertas O (OR gates) y puertas Y (AND gates). La puerta O es
una conexión lógica entre un suceso combinado y diversos sucesos elementales, lo que
significa que el suceso combinado tiene lugar cuando se da al menos alguno de los sucesos
elementales. La puerta Y es una conexión lógica entre un suceso combinado y diversos
sucesos elementales, lo que significa que el suceso combinado tiene lugar cuando se dan
simultáneamente todos los sucesos elementales.
+
.
Puerta O
Puerta Y
Figura 5.7 Símbolos de las puertas lógicas
Ejemplo 5.9
La fiabilidad del sistema de la figura 5.8 se calcula a partir de los fallos primarios cuyos
sucesos 1, 2, 3, 4, 5, 6 y 7 son independientes. Supongamos que las probabilidades de
estos fallos son, respectivamente
P1=0,2; P2=0,3; P3=0,32; P4=0,24; P5=0,22; P6=0,15 y P7=0,12
El cálculo de la probabilidad de fallo del sistema (suceso F) es como sigue:
PF = PA×P1×PB
PA se calcula por la regla del producto, ya que es una puerta Y:
PA = P2×P3×P4 = 0,3×0,32×0,24 = 0,02304
PB se calcula por la regla del producto a partir de la probabilidad del complementario, ya que
se trata de una puerta O:
(1-PB) = (1-P5)×(1-P6)×(1-P7) = (1-0,22)×(1-0,15)×(1-0,12) = 0,58344
De donde se deduce que PB = 0,41656.
© Los autores, 2003; © Edicions UPC, 2003.
Análisis de la fiabilidad de un sistema
77
Y se concluye que la probabilidad de fallo del sistema es
PF = 0,02304×0,2×0,41656 = 0,0019195
F
.
1
A
B
.
2
3
+
4
5
Figura 5.8 Árbol de fallo del ejemplo 5.9
© Los autores, 2003; © Edicions UPC, 2003.
6
7
Descargar