análisis no paramétrico de los tiempos de fallo

Anuncio
Análisis no paramétrico de los tiempos de fallo
FIABILIDAD (IV): ANÁLISIS NO PARAMÉTRICO
DE LOS TIEMPOS DE FALLO
Autores: Ángel A. Juan Pérez ([email protected]), Rafael García Martín ([email protected]).
RELACIÓN CON OTROS MATH-BLOCS________________________________
Este math-block forma parte de una serie de 8 documentos relacionados todos ellos con la
Fiabilidad de componentes desde un punto de vista estadístico:
•
•
•
•
•
•
•
•
Conceptos Básicos (I).
Identificación y descripción gráfica de los datos (II).
Análisis paramétrico de los tiempos de fallo (III).
Análisis no paramétrico de los tiempos de fallo (IV).
Comparación no paramétrica de muestras (V).
Tests de vida acelerada (VI).
Modelos de regresión para observaciones censuradas (VII).
Análisis Probit (Éxito / fracaso) (VIII).
MAPA CONCEPTUAL_______________________________________________
Observaciones con
censura arb. simple
Observaciones con
censura arb. múltiple
Fiabilidad (IV): Análisis
no paramétrico de los
tiempos de fallo
Estimador
Kaplan-Meier
Bandas de
confianza
Análisis no paramétrico
con Minitab
Análisis no paramétrico
con Statistica
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
1
Análisis no paramétrico de los tiempos de fallo
INTRODUCCIÓN____________________________________________________
En ocasiones puede resultar ventajoso, o incluso necesario, comenzar el análisis de las
observaciones con métodos analíticos y gráficos que no requieran de grandes supuestos previos
sobre el modelo. Tales métodos no paramétricos permiten interpretar los datos obtenidos sin la
distorsión que podría causar la elección de un modelo subyacente no demasiado acertado. En
algunos casos, estos métodos no paramétricos serán suficientes para realizar el análisis de los
datos. En otras ocasiones, sin embargo, supondrán un paso intermedio hacia un modelo más
estructurado (paramétrico) que permita profundizar más en el análisis de las observaciones.
En la primera parte de este math-block se proporcionan un conjunto de fórmulas a partir de las
cuales se podrán calcular estimadores no paramétricos e intervalos de confianza para la función de
distribución F(t), tanto en el caso de observaciones con censura arbitraria simple como en el caso
de observaciones con censura arbitraria múltiple. Se usará la hoja de cálculo Excel para ilustrar el
uso de dichas fórmulas.
Como referencia bibliográfica, se recomienda consultar Lawless (1982) [13] y Nelson (1982) [18].
De forma análoga a como se enfocó el análisis paramétrico (en el math-block Fiabilidad III), las
partes segunda y tercera del presente math-block contienen ejemplos prácticos de análisis no
paramétrico desarrollados con ayuda de los programas MINITAB y STATISTICA.
OBSERVACIONES CON CENSURA ARBITRARIA SIMPLE_________________
Notación: La mayoría de las investigaciones sobre tiempos de fallo comienzan en el instante t = 0
con una muestra inicial de n dispositivos. Al final de cada intervalo temporal, se suele disponer de
información sobre el estado de dichos dispositivos. En lo que sigue, se denotará por di al número
de dispositivos que han fallado en el intervalo (ti-1, ti].
Parece lógico pensar que un buen estimador no paramétrico de F(ti) será:
i
∑
dj
(
de
fallos
en
0,
t
n
º
]
j =1
i
ˆ(t i ) =
F
=
n
n
ˆ(t i ) es el EMV de F(ti ). Observar, además, que este estimador
Se puede demostrar que este F
está definido para todos los valores de ti (extremos superiores de los intervalos):
ˆ(t) = F
ˆ(ti −1 ) ∀ t ∈ [t i- 1, ti ]
Si di = 0, entonces: F
ˆ(ti −1 ) ≤ F
ˆ(t) ≤ F
ˆ(ti ) ∀ t ∈ (t i −1 , ti ] , siendo F
ˆ(ti −1) < F
ˆ(ti)
ˆ(t) creciente y F
Si di > 0, F
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
2
Análisis no paramétrico de los tiempos de fallo
~
~

~
Un intervalo de confianza para F(ti) a nivel 1-α vendrá dado por: F(ti ), F(ti) , siendo:


 (n − nF̂ + 1)Φ
~
(α / 2;2n− 2nF̂+ 2,2nF̂ ) 

F( t i ) = 1 +

nF̂


−1
~
~
F( t i ) =


n − nF̂


1
+


 (nF̂ + 1)Φ (α / 2;2nF̂ + 2,2n− 2nF̂ ) 
−1
ˆ≡F
ˆ(t i ) y Φ (p;v ,v ) es aquel valor que, en una distribución F con (v1,v2) grados de
donde F
1 2
libertad, deja a su derecha un área p.
Ejemplo (censura arbitraria simple): Supongamos que se parte de una muestra de 100
dispositivos que comienzan a funcionar en el instante t = 0. Se sabe que, transcurrido un año, ha
fallado 1 dispositivo. Otros dos dispositivos fallan entre el primer y segundo año, y 2 más dejan de
funcionar entre el segundo y tercer año.
Usando las ecuaciones anteriores, y con ayuda de EXCEL, se calcularán y representarán
gráficamente los estimadores de F(ti) así como sus intervalos de confianza asociados (archivo
Censura_simple.xls):
A la hora de construir la hoja de cálculo, se han usado las siguientes fórmulas:
F5 = E5/$B$11
G5 = (1+(($B$11-$B$11*F5+1)*DISTR.F.INV($B$13/2;2*$B$11-2*$B$11*F5+2;2*$B$11*F5))/($B$11*F5))^(-1)
H5 = (1+($B$11-$B$11*F5)/(($B$11*F5+1)*DISTR.F.INV($B$13/2;2*$B$11*F5+2;2*$B$11-2*$B$11*F5)))^(-1)
.....
Etc.
Observar que, una vez construída esta hoja de cálculo, es inmediata la obtención obtener de
intervalos de confianza a nivel 1-α (para ello sólo es necesario cambiar la casilla B13).
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
3
Análisis no paramétrico de los tiempos de fallo
OBSERVACIONES CON CENSURA ARBITRARIA MÚLTIPLE_______________
Notación: Supóngase que se dispone de una muestra inicial de n dispositivos, los cuales han
comenzado a funcionar en el instante t = 0. Si una unidad no ha fallado en del intervalo i-ésimo (ti-1,
ti], o bien se habrá perdido su pista en dicho intervalo (con lo que sería una observación censurada
por intervalo), o bien se sabrá que ha continuado funcionando en el intervalo siguiente. En caso de
ser una observación censurada, supondremos que el instante de censura coincide con el extremo
superior del intervalo (ti).
Se denotará por:
di = número de unidades que han fallado en el intervalo (ti-1, ti],
ri = número de unidades censuradas en el intervalo (ti-1, ti],
ni = número de unidades entrantes en el intervalo (ti-1, ti], i.e., aquellas que funcionen
correctamente al inicio del mismo:
ni = n −
i −1
∑
dj −
j=0
i −1
∑ rj
i = 1,..., m
,
j=0
donde m es el número de intervalos, y se sobreentiende que d0 = 0, y r0 = 0.
Según se vio al presentar la tabla de supervivencia (en el math-block Fiabilidad I), un buen
estimador no paramétrico para la función de supervivencia sería:
ˆ(t ) =
S
i
i
∏ (1 − pˆ j )
,
i = 1,...,m
j =1
Por tanto, un estimador no paramétrico para la función de distribución F(ti) será:
ˆ(t ) ,
ˆ(t i ) = 1 − S
F
i
i = 1,...,m
ˆ(t i ) es el EMV de F(ti). Observar, además, que este último estimador
Se puede comprobar que F
está definido para todos los valores de ti (extremos superiores de los intervalos):
ˆ(t) = F
ˆ(ti −1 ) ∀ t ∈ [t i - 1, ti ]
Si di = 0, entonces: F
ˆ
ˆ
ˆ
Si di > 0, F(t i −1 ) ≤ F(t) ≤ F(ti ) ∀ t ∈ (t i −1 , t i ] siendo
ˆ(ti −1) < F
ˆ(ti)
Fˆ (t ) creciente y F
El siguiente resultado, conocido como Fórmula de Greenwood, proporciona un buen estimador
ˆ(t i ) :
para la varianza de F
(
)
(
) (
i
) ∑ n (1pˆ− pˆ )
ˆ(t ) ≈ S
ˆ (t )
ˆ(t i ) = Var S
Var F
i
i
2
j =1
j
j
j
ˆ
La raíz cuadrada de la fórmula anterior es un estimador de sF
ˆ , el error estándar de F(t i ) .
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
4
Análisis no paramétrico de los tiempos de fallo
~
~

~
Un intervalo de confianza para F(ti) a nivel 1-α vendrá dado por: F(ti ), F(ti) , siendo:


~
F( t i ) =
donde
~
~
F( t i ) =
F̂
F̂ + (1 − F̂ ) ⋅ w
F̂
F̂ + (1 − F̂) / w
z
ˆ
s ˆ 
ˆ=F
ˆ(t i ) y w = exp  (α / 2) F
F
 , siendo zα/2 el percentil 1 - α/2 en una N(0,1).
ˆ1 − F
ˆ 
 F

(
)
Ejemplo Censura Arb. Múltiple: Supongamos que se parte de una muestra de 300 dispositivos
que comienzan a funcionar en el instante t = 0. Transcurrido un año han fallado 4 dispositivos, y
hay 99 observaciones censuradas (no se sabe qué ha ocurrido con dichas unidades). Durante el
segundo año han fallado 5 dispositivos, y el número de observaciones censuradas es de 95.
Finalmente, durante el tercer año, han fallado otros dos dispositivos, siendo 95 el número de
observaciones censuradas.
Usando las ecuaciones anteriores, y con ayuda de EXCEL, se calcularán y representarán
gráficamente los estimadores de F(ti) así como sus intervalos de confianza asociados (archivo
Censura_multiple.xls):
F6 = D11-D5-E5
H6 = 1-G6
I6 = H5*H6
K6 = I6^2*(G5/(F5*H5)+G6/(F6*H6))
L6 = J6/(J6+(1-J6)*(EXP(DISTR.NORM.INV(1-$D$13/2;0;1)*RAIZ(K6)/(J6*(1-J6)))))
M6 = J6/(J6+(1-J6)/(EXP(DISTR.NORM.INV(1-$D$13/2;0;1)*RAIZ(K6)/(J6*(1-J6)))))
Etc.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
5
Análisis no paramétrico de los tiempos de fallo
ESTIMADOR DE KAPLAN-MEIER______________________________________
Hasta ahora, se ha supuesto que los tiempos de fallo exactos no eran conocidos, ya que para ello
hubiera sido necesario realizar un proceso de inspección continuo. En cualquier caso, es obvio que
conforme se vaya aumentando el número de inspecciones realizadas, irá disminuyendo la longitud
de los intervalos, con lo que la mayoría de éstos no contendrán fallo alguno, pues todos los fallos
se hallarán concentrados en sólo unos pocos intervalos.
Notar que la función F(t) será constante en todos aquellos intervalos sin fallos, incrementándose
sólo en los intervalos en que haya uno o más fallos. Si el tamaño de los intervalos es
suficientemente pequeño, cada intervalo registrará a lo sumo un único fallo, con lo que se obtendrá
una función F(t) escalonada: será constante en todos los intervalos sin fallos, y dará un “salto” en
aquellos intervalos que contengan un fallo. En el límite, conforme la longitud de los intervalos
ˆ(t) que se obtiene se conoce como estimador de Kaplan-Meier o
tienda a 0, el estimador F
estimador Producto-límite.
“BANDAS” DE CONFIANZA PARA MUESTRAS GRANDES________________
En las páginas anteriores, se han proporcionado fórmulas con las cuales es posible hallar
intervalos de confianza para el valor de la función F(t) en un instante concreto ti. Sin embargo, en
ocasiones puede resultar conveniente disponer de intervalos de confianza para F(t) en todo un
rango continuo de posibles valores de t.
Cuando el tamaño de la muestra sea suficientemente grande, la mayoría de paquetes estadísticos
actuales permiten obtener estas “bandas de confianza”, las cuales serán especialmente útiles a la
hora de determinar si las observaciones se alejan significativamente de un determinado modelo
paramétrico.
Lógicamente, para cualquier valor de t, la “amplitud” de estas bandas será mayor que la del
correspondiente intervalo de confianza (puesto que las bandas deberán contener a los intervalos
de confianza puntuales, siendo su precisión menor que la de estos últimos).
TIEMPOS DE CENSURA NO CONOCIDOS______________________________
Al desarrollar los métodos anteriores, se ha supuesto que todas las censuras ocurren en el extremo
superior de cada intervalo. En tal sentido, se puede equiparar el conjunto de observaciones que
entra en cada intervalo con el conjunto de observaciones en riesgo. Al hacer esta hipótesis no se
está restando generalidad al modelo siempre que los tiempos de censura sean conocidos, ya que
en tal caso, bastará con tomar los extremos de los intervalos de forma que coincidan con tales
tiempos.
Sin embargo, si en vez de conocer de forma exacta los tiempos de censura, lo único que se
supiese es que dichos tiempos están contenidos en una serie de intervalos temporales, ya no sería
posible identificar el conjunto de observaciones entrantes con el conjunto de observaciones en
riesgo, ya que este último va disminuyendo a lo largo del intervalo (debido a que se producen en él
censuras). En tal caso, se optaría por tomar el número de observaciones en riesgo como el número
de observaciones entrantes en un intervalo menos la mitad de las censuradas en dicho intervalo
(tal y como se hizo en el math-block Fiabilidad I cuando se presentó la tabla de supervivencia).
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
6
Análisis no paramétrico de los tiempos de fallo
ANÁLISIS NO PARAMÉTRICO CON MINITAB
Cuando no resulte posible ajustar los tiempos de fallo observados por ninguna distribución
conocida, no se podrá recurrir a los métodos paramétricos, vistos el math-block "Fiabilidad III", para
describir la distribución de los datos, por lo que deberemos utilizar otros métodos que no se basen
en ninguna distribución teórica (métodos no paramétricos). La opción Non-Parametric Dist.
Analysis de MINITAB ofrece el estimador de Kaplan-Meier, la tabla de supervivencia (que ya se
explicó en el math-block "Fiabilidad I"), y la tabla de Turnbull.
Se mostrarán a continuación sendos ejemplos de análisis no paramétrico según los datos
contengan observaciones censuradas a derecha o por intervalos.
EJEMPLO ANÁLISIS NO PARAMÉTRICO CON CENSURA A DERECHA______.
Se pretende realizar un análisis no paramétrico de los datos pertenecientes al caso de las cubiertas
para motores visto en el math-block Fiabilidad II (observaciones censuradas sólo a derecha).
Entrada de datos (input): Se deberán indicar las variables de interés así como las columnas de
censura:
Se opta por el estimador de Kaplan-Meier para este ejemplo (otra opción sería la tabla de
supervivencia) y se requiere el gráfico de la función de supervivencia:
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
7
Análisis no paramétrico de los tiempos de fallo
Salida de datos (output): a continuación se muestran los resultados:
Distribution Analysis: Tiemp80
Variable: Tiemp80
Censoring Information
Uncensored value
Right censored value
Censoring value: Comp80 = 0
Nonparametric Estimates
Count
37
13
Characteristics of Variable
Standard
95,0% Normal CI
Mean(MTTF)
Error
Lower
Upper
55,7000
2,2069
51,3746
60,0254
Median =
55,0000
IQR =
* Q1 =
48,0000 Q3 =
Kaplan-Meier Estimates
Number
Number
Survival
Time
at Risk
Failed Probability
Upper
23,0000
50
1
0,9800
24,0000
49
1
0,9600
27,0000
48
2
0,9200
31,0000
46
1
0,9000
...
...
...
...
59,0000
22
1
0,4200
60,0000
21
1
0,4000
61,0000
20
1
0,3800
62,0000
19
1
0,3600
64,0000
18
1
0,3400
66,0000
17
1
0,3200
67,0000
16
2
0,2800
74,0000
13
1
0,2585
Distribution Analysis: Tiemp100
Variable: Tiemp100
Censoring Information
Uncensored value
Right censored value
Censoring value: Comp100 = 0
Nonparametric Estimates
Count
34
6
*
Standard
Error
0,0198
0,0277
0,0384
0,0424
...
0,0698
0,0693
0,0686
0,0679
0,0670
0,0660
0,0635
0,0622
95,0% Normal CI
Lower
0,9412
0,9057
0,8448
0,8168
...
0,2832
0,2642
0,2455
0,2270
0,2087
0,1907
0,1555
0,1366
1,0000
1,0000
0,9952
0,9832
...
0,5568
0,5358
0,5145
0,4930
0,4713
0,4493
0,4045
0,3803
La tabla de Kaplan-Meier nos ofrece
información (para cada intervalo) sobre:
nº de unidades en riesgo, nº de
observaciones
que
han
fallado,
probabilidad de sobrevivir hasta ese
instante, etc.
Characteristics of Variable
Standard
95,0% Normal CI
Mean(MTTF)
Error
Lower
Upper
41,6563
3,4695
34,8561
48,4564
Median =
38,0000
IQR =
30,0000 Q1 =
24,0000 Q3 =
54,0000
Kaplan-Meier Estimates
Number
Number
CI
Time
at Risk
Failed
Upper
6,0000
40
1
1,0000
10,0000
39
1
11,0000
38
1
14,0000
37
1
...
...
...
54,0000
11
1
68,0000
8
1
69,0000
7
1
72,0000
6
1
76,0000
5
1
Survival
Standard
Probability
Error
Lower
0,9750
0,0247
0,9266
0,9500
0,9250
0,9000
...
0,2500
0,2187
0,1875
0,1563
0,1250
Distribution Analysis: Tiemp80; Tiemp100
0,0345
0,0416
0,0474
...
0,0685
0,0667
0,0640
0,0605
0,0559
95,0% Normal
0,8825
0,8434
0,8070
...
0,1158
0,0881
0,0620
0,0376
0,0154
1,0000
1,0000
0,9930
...
0,3842
0,3494
0,3130
0,2749
0,2346
Además, MINITAB realiza dos
Comparison of Survival Curves
test para contrastar la
Test Statistics
hipótesis nula de que todos
Method
Chi-Square
DF
P-Value
los grupos muestrales son
Log-Rank
7,7152
1
0,0055
Wilcoxon
13,1326
1
0,0003
iguales
Proyecto e-Math
8
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
De los resultados se concluye que el tiempo de fallo mediano para una temperatura de 80º C es de
55 meses, y de 38 meses en el caso de una temperatura de 100º C. Así que el incremento de
temperatura conlleva a una disminución del tiempo mediano de fallo de aproximadamente 17
meses.
Las estimaciones sobre supervivencia están registradas en la tabla de Kaplan-Meier. Por ejemplo,
a 80º C, un 90% de las cubiertas seguirán funcionando correctamente tras 31 meses, mientras que
a 100º C dicho porcentaje de cubiertas sólo sobrevivirían unos 14 meses.
La última parte del “output” anterior contiene los resultados de dos test distintos que contrastan la
hipótesis nula de que todos los grupos de muestras son similares en cuanto a sus tiempos de fallo.
En el ejemplo de las cubiertas para motores, se obtiene un p-valor significativo tanto para el test
Log-Rank como para el test de Wilcoxon (considerando α = 0,05), por lo que se confirma la
existencia de diferencias sensibles entre los tiempos de fallo a 80º C y a 100º C.
Además de los informes anteriores, el programa proporciona también el siguiente gráfico no
paramétrico de la función de supervivencia de cada grupo, en el cual se aprecian las mencionadas
variaciones entre ambos por cuanto al tiempo de fallo se refiere:
Nonparametric Survival Plot for Tiemp80-Tiemp100
Kaplan-Meier Method
Censoring Column in Comp80-Comp100
Tiemp80
1,0
Tiemp100
0,9
0,8
Probability
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
10
20
30
40
50
60
70
80
Time to Failure
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
9
Análisis no paramétrico de los tiempos de fallo
EJEMPLO ANÁLISIS NO PARAMÉTRICO CON CENSURA ARBITRARIA______
Para mostrar cómo llevar a cabo un análisis no paramétrico cuando las observaciones están
censuradas a derecha, izquierda y/o por intervalos (censura arbitraria), se recurrirá nuevamente el
ejemplo de los neumáticos introducido en el math-block Fiabilidad III:
Entrada de datos (input): como siempre, en primer lugar se deben indicar las variables que
contienen los tiempos de fallo y las columnas de censura:
Salida de datos (output): a continuación se muestran e interpretan los resultados:
Distribution Analysis, Start = Inicio and End = Fin
Variable
Start: Inicio
Frequency: Frec
End:
Censoring Information
Right censored value
Interval censored value
Left censored value
Fin
Count
71
694
8
Turnbull Estimates
Interval
Probability
Standard
Lower
Upper
of Failure
Error
*
10000,00
0,0103
0,0036
10000,00
20000,00
0,0129
0,0041
20000,00
30000,00
0,0181
0,0048
30000,00
40000,00
0,0323
0,0064
40000,00
50000,00
0,0479
0,0077
50000,00
60000,00
0,1125
0,0114
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Aquí aparecen el nº de
obs. censuradas a
derecha, el nº de obs.
censuradas por intervalos,
y el nº de obs. censuradas
Probabilidad condicional de
que la unidad falle en cada
intervalo bajo el supuesto
de que ha llegado hasta él
en buen estado
10
Análisis no paramétrico de los tiempos de fallo
60000,00
70000,00
80000,00
90000,00
Time
10000,00
20000,00
30000,00
40000,00
50000,00
60000,00
70000,00
80000,00
90000,00
70000,00
80000,00
90000,00
*
Survival
Probability
0,9897
0,9767
0,9586
0,9263
0,8784
0,7658
0,5783
0,2794
0,0918
0,1876
0,2988
0,1876
0,0918
Standard
Error
0,0036
0,0054
0,0072
0,0094
0,0118
0,0152
0,0178
0,0161
0,0104
0,0140
0,0165
0,0140
*
95,0% Normal CI
Lower
Upper
0,9825
0,9968
0,9661
0,9873
0,9446
0,9726
0,9078
0,9447
0,8554
0,9014
0,7360
0,7957
0,5435
0,6131
0,2478
0,3111
0,0715
0,1122
Función de
Supervivencia
La tabla de Turnbull muestra en primer lugar las probabilidades de fallo para cada intervalo. Así,
por ejemplo, la probabilidad de que un neumático que haya llegado en buen estado hasta los
60.000 km. falle en los próximos 10.000 km. es de 0,1876.
Además, esta tabla también proporciona la función de supervivencia: se aprecia, en la columna
correspondiente, que un 92,63% de los neumáticos pasaron en buen estado los 40.000 km.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
11
Análisis no paramétrico de los tiempos de fallo
ANÁLISIS NO PARAMÉTRICO CON STATISTICA
Volviendo al ejemplo de los portátiles, introducido en el math-block Fiabilidad III (archivo
fiabilidad.sta), y sobre el cual ya se llevó a cabo un análisis paramétrico, se construirá ahora una
tabla de supervivencia (Life Table):
Entrada de datos (input): Dentro del módulo Survival Analysis, seleccionar la opción Life Tables &
Distributions :
Pulsar ahora sobre el botón Variables y seleccionar las primeras seis variables en la lista de la
izquierda. Después, seleccionar la variable Censur? como el indicador de censura en la lista de la
derecha:
Salida de datos (output): se obtendrá la siguiente pantalla:
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
12
Análisis no paramétrico de los tiempos de fallo
Ya sólo falta pulsar sobre el botón Life Table para obtener una completa tabla de supervivencia:
EJEMPLO ESTIMADOR DE KAPLAN- MEIER____________________________
Como alternativa a clasificar los tiempos de fallo observados en una tabla de supervivencia, se
podría estimar la función de supervivencia directamente de los datos. Intuitivamente, se trata de
crear una tabla de supervivencia de forma que cada intervalo temporal contenga una única
observación. Así, sería posible estimar la función de supervivencia en cada intervalo sin más que
multiplicar las probabilidades de supervivencia de los intervalos (observaciones) anteriores. Este
estimador de la función de supervivencia se llama estimador producto-límite o estimador de
Kaplan-Meier.
La ventaja del método Kaplan-Meier respecto a la tabla de supervivencia es que las estimaciones
resultantes no dependen de cómo se agrupan los datos en los intervalos. De hecho, Kaplan-Meier
se podría considerar como un caso particular de la tabla de supervivencia.
Entrada de datos (input): Para aplicar Kaplan-Meier al ejemplo de los ordenadores portátiles, se
debe elegir la opción Kaplan & Meier product-limit method :
Nuevamente, se pulsará sobre el botón Variables y se seleccionarán las primeras seis variables en
la lista de la izquierda, así como la variable Censur? como el indicador de censura en la lista de la
derecha.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
13
Análisis no paramétrico de los tiempos de fallo
Salida de datos (output): se obtendrá la siguiente pantalla:
Para obtener el estimador Kaplan-Meier, pulsar sobre el botón Product-limit survival analysis :
Es posible obtener una representación gráfica de la función de supervivencia pulsando sobre
Graph of survival times vs. cum. proportion surviving :
Survival Function
Complete
Censored
1,0
Cumulative Proportion Surviving
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0
500
1000
1500
2000
Survival Time
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
14
Análisis no paramétrico de los tiempos de fallo
Con este gráfico se aprecian mejor las características de la función de supervivencia: dicha función
decrece rápidamente durante, aproximadamente, los 100 días posteriores a la reparación.
Después, la función va decreciendo de forma mucho menos acentuada.
Así, parece lógico concluir que los primeros 100 días después de la reparación configuran un
período crítico en la supervivencia de los portátiles.
Por último, también es posible obtener los percentiles de la función de supervivencia sin más que
pulsar sobre Percentiles of survival function :
A partir de este último “output”, se puede afirmar que el 25% de todos los portátiles fallarán antes
de los primeros 64 días tras la reparación. El 50% de todos los portátiles sobrevivirán más de 679
días (casi dos años). El percentil 75 no pudo calcularse debido a que tan sólo las observaciones
censuradas mostraban períodos de duración largos según se aprecia en la tabla de supervivencia
anterior (están representadas con el signo +).
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
15
Análisis no paramétrico de los tiempos de fallo
BIBLIOGRAFÍA_____________________________________________________
[1].
Aitchison, J., Jr. and Brown, J.A.C., The Lognormal Distribution, Campbridge University Press New
York, 176 pp., 1957.
[2].
Cramer, H., Mathematical Methods of Statistics, Princeton University Press,Princeton, NJ, 1946.
[3].
Davis, D.J., An Analysis of Some Failure Data, J. Am.Stat. Assoc., Vol. 47, p. 113, 1952.
[4].
Dudewicz, E.J., An Analysis of Some Failure Data, J. Am.Stat. Assoc., Vol. 47, p. 113, 1952.
[5].
Dudewicz, E.J., and Mishra, Sataya N., Modern Mathematical Statistics, John Wiley & Sons Inc.,
New York, 1988.
[6].
Hahn, Gerald J., and Shapiro, Samuel S., StatisticalModels in Engineering, John Wiley & Sons, Inc.,
NewYork, 355 pp., 1967.
[7].
Hald, A., Statistical Theory with Engineering Applications,John Wiley & Sons, Inc., New York, 783
pp., 1952.
[8].
Johnson, Leonard G., The Median Ranks of Sample Values in their Population With an
Application to CertainFatigue Studies, Industrial Mathematics, Vol. 2, 1951.
[9].
Johnson, Leonard G., The Statistical Treatment of Fatigue Experiment, Elsevier Publishing
Company, NewYork, 144 pp., 1964.
[10].
Kapur, K.C., and Lamberson, L.R., Reliability in Engineering Design, John Wiley & Sons, Inc.,New
York, 586 pp., 1977.
[11].
Kececioglu, Dimitri, Reliability Engineering Handbook,Prentice Hall, Inc., Engelwood Cliffs, New
Jersey, Vol. 1,1991.
[12].
Kececioglu, Demitri, Reliability & Life Testing Handbook,Prentice Hall, Inc., Engelwood Cliffs, New
Jersey, Vol. 1and 2, 1993 and 1994.
[13].
Lawless, J.F., Statistical Models And Methods for Lifetime Data,John Wiley & Sons, Inc., New York,
1982.
[14].
Leemis Lawrence M., Reliability- Probabalistic Models and Strategical Methods, Prentice Hall, Inc.,
Engelwood Cliffs, New Jersey, 1995.
[15]. Lloyd, David K., and Lipow Myron, Reliability: Management, Methods, and Mathematics,
1962,Prentice Hall, Englewood Cliffs, New Jersey.
[16].
Mann, Nancy R., Schafer, Ray E., and Singpurwalla,Nozer D., Methods for Statistical Analysis of
Reliability and Life Data, John Wiley & Sons, Inc., New York, 1974.
[17]. Meeker, W.Q., and Escobar, L.A., Statistical Methods for Reliability Data, John Wiley & Sons, Inc.,
New York, 1998.
[18].
Nelson, Wayne, Applied Life Data Analysis, John Wiley & Sons, Inc., New York, 1982.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
16
Análisis no paramétrico de los tiempos de fallo
ENLACES_________________________________________________________
[W1]
Desde la página de la empresa Relia Soft podemos consultar la revista Reliability Edge
o bien subcribirnos gratuitamente a ella. Se trata de una publicación cuatrimestral
relacionada con la Ingenieria de la Fiabilidad, que contiene artículos desde un nivel de
introducción hasta el nivel más alto posible.
[W2]
También desde esa página podemos consultar, o bien subcribirnos, la revista Reliability
Hot Wire, una revista eléctronica con artículos sumamente interesantes.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
17
Descargar