Estimación de la función de distribución condicional en presencia

Anuncio
ESTADÍSTICA ESPAÑOLA
Vol. 45, Núm. 153, 2003, págs. 275 a 301
Estimación de la función de distribución condicional en presencia de
censura y truncamiento: una aplicación
al estudio de la mortalidad en pacientes
diabéticos
por
Mª DEL CARMEN IGLESIAS PÉREZ
Departamento de Estadística e Investigación Operativa
Escuela Universitaria de Ingeniería Técnica Forestal
Universidad de Vigo
RESUMEN
En Análisis de Supervivencia es frecuente encontrarse con tiempos de fallo sujetos a truncamiento por la izquierda y censura por la
derecha (TICD) junto con covariables relacionadas con la variable de
interés. Una forma de explicar el efecto de las covariables sobre el
tiempo de fallo es por medio de la función de distribución condicional.
Utilizando técnicas de estimación no paramétrica de curvas, Iglesias
Pérez y González Manteiga (1999) definen y estudian el comportamiento asintótico de un estimador de la función de distribución del
tiempo de fallo condicionado al valor de las covariables, que denominan estimador límite producto generalizado (LPG).
En este artículo se ilustra el comportamiento de dicho estimador
LPG en un problema con datos reales, relativo a la mortalidad en pacientes diabéticos, mostrando su gran potencialidad en el terreno aplicado. El análisis estadístico de los datos pone de manifiesto como el
276
ESTADÍSTICA ESPAÑOLA
estimador generalizado proporciona una información importante sobre
el problema que se aborda, información que en el análisis incondicional permanece oculta. En este trabajo también se aporta una idea
nueva para el cálculo del parámetro de suavizado, presente en el estimador LPG, en el complejo contexto de presencia de censura, truncamiento y covariables.
Palabras clave: datos censurados, datos truncados, estimadores límite-producto, estimación núcleo, parámetro de suavizado.
Clasificación AMS: 62G05
1. INTRODUCCIÓN
El Análisis de Supervivencia se ocupa del estudio de los tiempos de fallo de un
conjunto de individuos. Por tiempo de fallo se entiende el período transcurrido
desde un instante inicial hasta un instante final (fallo) que han de ser definidos
previamente y de forma precisa por el investigador. Esta formulación general se
adapta a multitud de problemas. Así, el tiempo de fallo puede medir el período
transcurrido entre la entrada en estudio de un paciente con una enfermedad terminal y su muerte, o el tiempo de duración de una máquina eléctrica desde su instalación; también puede responder al tiempo transcurrido desde el tratamiento de un
enfermo con una determinada medicación hasta su alta, o la permanencia de un
individuo en paro hasta la obtención de su primer empleo. Todos estos problemas
tienen en común que el suceso fallo está perfectamente definido de antemano y
puede ocurrir, a lo sumo, una vez en cada individuo. A su vez verifican que la
variable de interés, el tiempo de fallo (también denominado tiempo de vida o de
duración), es una variable no negativa.
En este contexto aparecen con frecuencia problemas de seguimiento que proporcionan muestras censuradas. Si el estudio que hemos diseñado termina antes
del fallo de algunos individuos tendremos una información incompleta de su tiempo
de fallo, pues sólo dispondremos del tiempo transcurrido hasta un instante final
conocido (previo al fallo) y que se suele denominar censura. Lo mismo ocurrirá si
un paciente terminal abandona el estudio o muere por causas ajenas a su enfermedad, o si una máquina sometida a un estudio de seguimiento es robada cuando
todavía funciona.
La modelización de una situación con censura por la derecha tiene en cuenta
las siguientes variables: la variable de interés (tiempo de fallo) que denotaremos
por Y; una variable de censura, C, destinada a medir el tiempo transcurrido desde
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
277
el instante inicial hasta el instante de censura o pérdida de seguimiento; la variable
observada, Z, que será Z= min{Y, C}, puesto que se observa el tiempo de fallo
siempre que sea inferior al tiempo de censura, en caso contrario se observa el
tiempo de censura y, finalmente, la variable δ=1 {Y = C} que indica cuando se observa un fallo (δ =1) y cuando una censura (δ =0). Todas estas variables aparecen,
implícitamente, en la muestra observada bajo censura, dada por {(Z1, δ1 ), (Z2,
δ2),...,(Zn, δn)}.
Dependiendo de las hipótesis que se asuman sobre las variables Y y C existen
distintos modelos de censura. El modelo utilizado en el presente trabajo es el
denominado modelo de censura aleatoria por la derecha donde se supone que C
es una variable aleatoria y que es independiente de la variable Y.
El estudio de tiempos de fallo también presenta peculiaridades en la recogida de
la información muestral. Así, para ciertos esquemas de muestreo, el tiempo de fallo
se observa solamente cuando excede cierto umbral aleatorio, denominado tiempo
de truncamiento. Supongamos como ejemplo, que se quiere estudiar el tiempo de
duración de una enfermedad vírica Y, y para ello sólo se dispone de los datos
correspondientes a enfermos que acuden a consulta médica padeciendo la enfermedad. Si llamamos T al tiempo desde que la enfermedad comienza en un individuo hasta que éste decide ir a consultarse, estamos diciendo que sólo observamos
tiempos de fallo de aquellos individuos que acuden a consulta, esto es, individuos
con Y mayor o igual que T. Si el individuo sana antes de acudir al especialista (Y <
T) entonces el valor de Y para ese sujeto no se observa.
La situación anteriormente planteada sirve para ilustrar el denominado modelo
de truncamiento aleatorio por la izquierda . En dicho modelo se asume la existencia de dos variables aleatorias independientes: el tiempo de fallo Y y el tiempo
de truncamiento T, y se observan pares (Yi, Ti) solamente cuando Ti ≤ Yi (en otro
caso no hay observación).
El modelo de truncamiento aleatorio por la izquierda y censura aleatoria
por la derecha (en adelante TICD) integra las dos situaciones anteriormente
descritas. Sea ( T,Y,C) un vector aleatorio donde T es el tiempo de truncamiento, Y
el tiempo de fallo y C el tiempo de censura, y supongamos además que Y es independiente de (T,C). En el modelo TICD se observan vectores (T, Z, δ) si Z ≥ T,
donde Z= min{Y, C} y δ=1{Y ≤ C}. Cuando Z<T no hay observación. La información
n
muestral consiste entonces en n vectores aleatorios {(Ti, Zi, δi)} i =1 independientes e
idénticamente distribuidos de los (T, Z, δ) observados; por tanto Ti ≤ Zi, para todo
i=1,...,n.
El primer problema que uno se plantea en este contexto es el de encontrar un
estimador de la función de distribución de Y, F(y)=P(Y ≤ y), que desempeñe el
278
ESTADÍSTICA ESPAÑOLA
papel que juega la función de distribución empírica en el muestreo aleatorio simple
para datos completos. Tal estimador permitiría obtener estimaciones de parámetros
de interés relacionados con F, tales como la media, la mediana o la desviación
típica, y también de otras funciones, como la función de supervivencia, S(y)=1-F(y),
o la función razón de fallo acumulada, Λ(y)= - ln S(y). Turnbull (1976) y Tsai, Jewell
y Wang (1987) definen y estudian un estimador de F para el modelo TICD que
presenta la siguiente forma:




1{Z i ≤ y , δi =1} 

ˆ
Fn ( y ) = 1 − ∏ 1 − n

i =1
 ∑1{T j ≤ Z i ≤ Z j } 
j =1


n
(1.1)
Este estimador, denominado estimador límite-producto de F, es el estimador no
paramétrico de máxima verosimilitud de F en presencia de censura y truncamiento,
y además, bajo las necesarias condiciones de identificabilidad, verifica propiedades
de consistencia y convergencia débil.
Es importante observar que en ausencia de truncamiento el estimador
F̂n coincide con el estimador de Kaplan-Meier (Kaplan y Meier, 1958) y en ausencia
de censura se reduce al estimador de Linden-Bell (Linden-Bell (1971) y Woodroofe
(1985)). Cuando no hay censura ni truncamiento el estimador F̂n coincide con la
función de distribución empírica.
Un problema más complejo que la estimación de la distribución de Y, pero de
enorme interés, consiste en tratar de explicar y predecir el tiempo de fallo, Y, en
función de un conjunto de variables explicativas o covariables, X, cuando hay
censura y truncamiento. En el caso de datos completos, los modelos más utilizados
son el modelo de tiempo de fallo acelerado, que permite una formulación lineal de
la función de regresión del lnY, y el modelo de las razones de fallo proporcionales o
modelo de Cox, donde los efectos de las covariables sobre el tiempo de fallo se
P(y ≤ Y ≤ y + h Y ≥ y )
recogen a través de la función razón de fallo λ( y ) = limh→ 0
h
(también llamada función de azar o función de riesgo), que mide el riesgo instantáneo de fallo en el tiempo y.
La estimación de los parámetros del modelo de tiempo de fallo acelerado en un
contexto de censura presenta dificultades que distintos autores han intentado
solventar. Entre las propuestas más interesantes destacamos las de Miller (1976),
Buckley y James (1979), Koul, Susarla y Van Ryzin (1981) y Stute (1993). La
presencia de truncamiento (además de censura) en los datos complica la ya difícil
tarea de encontrar estimadores consistentes, exigiendo la adaptación de los mét o-
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
279
dos anteriores y un estudio teórico de los mismos en el marco del modelo TICD con
covariables, estudio que todavía sigue en fase de investigación. En cuanto al
modelo de Cox, es sin duda el más utilizado actualmente en presencia de censura
(y de censura con truncamiento) puesto que permite la estimación consistente de
las componentes que lo definen. Sin embargo, la suposición básica del modelo de
Cox, consistente en la proporcionalidad de las razones de fallo, resulta en muchas
aplicaciones poco verosímil. (Ver por ejemplo, Kalbfleisch y Prentice (1980) o Cox y
Oakes (1984) para una visión general del análisis de tiempos de fallo).
Una alternativa a los modelos anteriores consiste en explicar el efecto de las covariables sobre el tiempo de fallo mediante la función de distribución condicional
F(y x) = P(Y ≤ y X = x ) . El estudio de estimadores límite-producto condicionales o
generalizados para F(y x ) en presencia de censura ha sido abordado por Beran
(1981), Dabrowska (1989), Akritas (1994), González Manteiga y Cadarso Suárez
(1994) o Van Keilegom y Veraverbeke (1997)), entre otros autores. Todos ellos
utilizan un enfoque no paramétrico de tipo núcleo de estimación de curvas (Härdle
(1990), Wand y Jones (1995)), aunque con distintos tipos de pesos (Gasser-Muller,
Nadaraya-Watson, k-puntos próximos). Por ejemplo, el estimador tipo núcleo de la
función de regresión m(x ) = E(Y X = x ) con pesos de Nadaraya-Watson en el caso
de una muestra aleatoria simple
{(X i , Yi )}ni=1 de datos completos viene dado por:
n
m̂h (x) =
∑ K
i =1
n
x − Xi 
Y
h  i
n
=
x − Xj 

K 
h 
j= 1 
∑
∑B
hi
(x)Yi
i =1
donde K es una función núcleo (función real, continua, acotada, simétrica y que
integra 1) y h el conocido parámetro de suavización de la estimación no paramétrica. Intuitivamente, m̂h (x ) no es más que un promedio local, es decir, m(x) se
estima por una media ponderada de valores Yi, donde las ponderaciones, Bhi(x),
tienen en cuenta la distancia entre los valores de Xi y x, y el parámetro de suavizado, h, es el encargado de regular el tamaño de la vecindad de x donde se pondera.
Obviamente, el estimador núcleo de la función de distribución condicional F(yx)
para datos completos será F̂h (y x) =
(
)
que F(y x) = E 1{Y≤y} X = x .
n
∑B
i=1
hi
(x )1{Y ≤y} ,
i
sin más que tener en cuenta
Iglesias Pérez y González Manteiga (1999) definen un estimador límite producto
condicional de F(y x ) en presencia de censura y truncamiento, cuya expresión es
de la forma:
280
ESTADÍSTICA ESPAÑOLA
F̂h (y x ) = 1 −
n
∏
i=1





1{Zi ≤y ,δ i=1}B hi(x ) 
1 − n



1{Tj ≤Zi ≤Z j}B hj(x ) 

j=1


(1.2)
∑
y que en adelante llamaremos estimador límite-producto generalizado (LPG).
Asumiendo un modelo TICD con covariables en el cuál se observan vectores
(X,T,Z, δ) cuando Z≥T y si Z<T no hay observación (X tampoco se observa), y que
supone además la independencia condicional de las variables Y,T y C a la variable
X, se han obtenido varias propiedades asintóticas del estimador LPG, tales como:
una representación casi segura en términos de suma de variables aleatorias independientes más un término de error, la consistencia uniforme fuerte sobre intervalos
compactos, la normalidad asintótica y la convergencia débil del proceso (Iglesias
Pérez y González Manteiga (1999)). También se ha diseñado y probado la consistencia de un método de remuestreo bootstrap para aproximar la distribución del
(
)
estadístico nh F̂h (y x) − F(y x ) (Iglesias Pérez y González Manteiga (2002)).
Conviene observar que cuando no hay truncamiento el estimador LPG definido
en (1.2) se reduce al estimador límite-producto condicional con censura, extensamente estudiado en la literatura como ya ha sido previamente comentado. Por otro
lado, en ausencia de covariables el estimador LPG coincide con el estimador límiteproducto definido en (1.1).
Desde el punto de vista práctico, el estimador LPG permite definir de forma sencilla e inmediata estimadores de la función de regresión y de la mediana o de
cualquier otro cuantil condicional. Basta con calcular:
m̂h (x ) =
donde Ĉ h (Zi x ) =
∑1{
Tj≤ Zi ≤Z j
∫
ydF̂h (y x ) =
δ B (x )
∑ Z Ĉ (Z x ) (1 − F̂ (Z x)),
n
i
h
i= 1
}B hj (x)
es
i
el
hi
h
−
i
i
estimador
tipo
núcleo
de
C(y x ) = P(T ≤ y ≤ Z T ≤ Z, X = x ), y
{
}
F̂h−1(p x ) = inf y : F̂h (y x) ≥ p , p ∈ (0,1)
(1.3)
como estimadores de la función de regresión y del cuantil condicional de orden p,
respectivamente.
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
281
El objetivo de este artículo es ilustrar el comportamiento del estimador LPG en
un problema con datos reales, dejando, de este modo, constancia de su gran
potencialidad en el terreno aplicado. Es un trabajo interesante puesto que muestra
como el estimador generalizado proporciona una información importante sobre el
problema que se aborda, relativo al análisis sobre la mortalidad en pacientes diabéticos, información que en un análisis incondicional permanece oculta. También se
aporta una idea nueva para el cálculo del parámetro ventana, presente en el estimador LPG, en este complejo contexto de presencia de censura, truncamiento y
covariables. Concretamente, hemos adaptado un criterio de tipo validación cruzada
introducido por Bowman, Hall y Prvan (1998) para la estimación tipo núcleo de
funciones de distribución en muestreo aleatorio simple de una variable.
2. LOS DATOS REALES
Se trata de analizar los datos recopilados por el doctor Anders Green sobre la
mortalidad de diabéticos en el condado de Fyn (Dinamarca). Esta base de datos ha
sido objeto de diversos estudios en el campo del análisis de supervivencia (ver
Andersen, Borgan, Gill y Keiding (1993), pag.14). La situación es la siguiente:
A 1 de julio de 1973, el condado de Fyn tenía alrededor de 450.000 habitantes,
de los cuales 1.499 padecían una diabetes mellitus dependiente de insulina. Esta
información fue obtenida mediante la recopilación en los ficheros del Servicio
Nacional de Salud de todas las prescripciones de insulina, durante un periodo de 5
meses (cubriendo la fecha arriba citada) y, posteriormente, chequeando el historial
médico de cada paciente que proporcionó una serie de variables relevantes. A 1 de
enero de 1982 (8 años y medio después del inicio del estudio) se evaluó el estado
de supervivencia (fallo, no fallo) de cada uno de los pacientes, mediante el registro
de habitantes de la zona. De todo ello, se obtuvo un archivo de 1.499 casos, con la
siguiente información para cada caso:
1. Número de caso o de identificación del paciente (de 1 a 1.499).
2. Sexo: Hombre=1, Mujer=0.
3. Estado de supervivencia: Fallo=1, No fallo=0.
4. Fecha de salida del estudio: ddmmaa (día-mes-año).
5. Edad (en años) a la salida.
6. Edad (en años) a la entrada del estudio (010773).
7. Edad (en años) de diagnóstico de la enfermedad.
8. Duración (en meses) de la enfermedad a la entrada (010773).
282
ESTADÍSTICA ESPAÑOLA
Estas variables nos proporcionan unas primeras consideraciones importantes:
− La presencia de censura por la derecha aparece de forma natural dado que al
final del estudio hay muchos pacientes que todavía viven y por tanto, la variable
“edad a la salida” es el mínimo entre el tiempo de fallo (variable de interés) y el
tiempo de censura. Con la notación utilizada en la sección anterior se tiene que la
variable observada es Z= “Edad a la salida del estudio” y la variable indicadora de
fallo es δ= “Estado de supervivencia”.
− Al estar interesados en el estudio del tiempo de fallo de pacientes diabéticos, sólo
tiene sentido el seguimiento de pacientes después del comienzo de su enfermedad,
esto es, de pacientes que hayan sido diagnosticados. Pero debido al sistema de
recopilación utilizado, sólo observaremos datos de aquellos pacientes diagnosticados que estén vivos en la fecha de inicio del estudio. Es decir, definiendo la variable
truncamiento T= “Edad a la entrada del estudio”, sólo observaremos pacientes con
T≤Z y perderemos la información relativa a diabéticos que se han muerto o perdido
antes del inicio del estudio. Esto da lugar a un truncamiento por la izquierda que
debe ser tenido en cuenta para evitar el sesgo de estimación que se cometería al
utilizar una muestra de datos que pierde los pacientes con tiempos de fallo cortos
(en los cuales Z no llega a T).
− Tal como vienen dados los datos, las variables Y, C y T miden la edad de cada
individuo en diferentes fechas del calendario: la de su fallo, la de su pérdida de
seguimiento o fecha final del estudio (si sobrevive) y la de inicio del estudio, respectivamente. Otra posibilidad consiste en definir las variables Y, C y T como
tiempos de fallo, de censura y de truncamiento, entendiendo como tales los tiempos
transcurridos desde el diagnóstico de la enfermedad hasta el fallo, la pérdida de
seguimiento y la entrada en el estudio, respectivamente. Esta definición de las
variables será la utilizada en adelante.
− Posibles covariables en este estudio pueden ser el sexo o la edad de diagnóstico
de la enfermedad.
A continuación presentamos algunos datos de interés, fruto de un sencillo análisis descriptivo:
− De los 1.499 pacientes diabéticos, 783 son hombres (52,23%) y 716 mujeres
(47,77%).
− El porcentaje global de censura es del 67,24% (1.008 casos censurados: 3 por
emigración y el resto por sobrevivir al estudio). Entre los hombres el porcentaje de
censura es del 67,56% (529 casos) y entre las mujeres del 66,9% (479 casos).
− Las medidas resumen de la covariable X= “Edad (en años) de diagnóstico” por
sexos, son las siguientes:
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
Hombres
Mujeres
Media =
30,65
35,12
D. típica =
18,66
20,88
Percentil 25 =
15
15
Mediana =
29
35
Percentil 75 =
45
52
Mínimo =
0
1
Máximo =
85
87
283
3. ANÁLISIS CONDICIONALES
Entre los distintos análisis condicionales realizados a estos datos, exponemos a
continuación los relativos al cálculo de los estimadores de la función razón de fallo
acumulada condicional y de la función de supervivencia condicional, que proporcionan una información de gran interés en términos de interpretación aplicada.
Hemos tomado como covariable X la edad de diagnóstico de la enfermedad,
desglosando los resultados por sexos. Entre todos los posibles valores de la variable X, hemos elegido tres: 15, 30 y 50 años, por coincidir (más o menos según el
sexo) con los cuartiles de la variable.
En cualquier análisis condicional que pretendamos realizar, nos encontramos
con un primer problema: la elección del parámetro ventana. Nos centraremos, a
continuación, en elegir una ventana o parámetro de suavización que proporcione un
“buen'' estimador de la función de distribución condicional.
3.1.
Selección de la ventana
La selección del parámetro de suavización (o ventana) es un problema muy relevante y complejo de la estimación no paramétrica de curvas. El problema de
elección de la ventana para el estimador tipo núcleo de la función de densidad y de
la función de regresión para datos completos cuenta ya con selectores óptimos. En
el contexto de la estimación núcleo de la función de distribución, donde el estimador de la distribución F viene dado por
F̂h (x ) =
1
n
n
∑ W
i =1
x − Xi 

h 
284
ESTADÍSTICA ESPAÑOLA
siendo W una función de distribución, el problema sigue todavía abierto y, en este
sentido, cabe citar algunas propuestas recientes debidas a Sarda (1993), Altman y
Leger (1995) y Bowman, Hall y Prvan (1998). Estos últimos autores proponen un
método de validación cruzada, adaptado a la estimación núcleo de funciones de
distribución, que consiste en minimizar la función dada por:
CV(h) =
1
n
2
∑ ∫ [1{
n
]
−i
x−X i ≥0} − F̂h (x ) dx
i =1
donde F̂h−i (x ) denota la estimación no paramétrica de F en el punto x construida sin
la observación i-ésima. Dichos autores prueban que la función CV(h) proporciona
un estimador insesgado de la curva MISE(h) para tamaño muestral n-1, trasladada
verticalmente por una constante desconocida. Como dicha constante no depende
de h no afecta a la elección de la ventana óptima.
Nosotros hemos generalizado este criterio a nuestro contexto de estimación de
la función de distribución condicional con censura y truncamiento. De este modo,
hemos seleccionado el parámetro ventana que minimiza el siguiente criterio:
CVG(h) =
2
∑ ∫[
n
i =1
]
w i 1{y−Zi ≥0} − F̂ (−i )h (y x ) dy
(3.1)
donde F̂h(−i )(y x ) denota el estimador LPG de la función n de distribución condicional
con censura y truncamiento construido sin los datos del individuo i-ésimo y wi es el
(
( )
salto de F̂h (y x) en Zi dado por δ iBhi (x ) 1 − F̂h Z −i x / Ĉh (Z i x ) .
Una vez decidido el modo de elegir el parámetro ventana, lo hemos aplicado a
nuestros datos. Como ya hemos comentado anteriormente, para cada individuo se
han considerado las variables Z=“Tiempo transcurrido desde el diagnóstico de la
enfermedad hasta la salida del estudio”, T=“Tiempo transcurrido desde el diagnóstico de la enfermedad hasta la entrada en el estudio” y X=“Edad (en años) de diagnóstico”. Para las variables Z y T hemos elegido como unidad de tiempo el año, si
bien ha sido recalculada a partir del tiempo medido en meses y por ello no presenta
un aspecto tan discretizado como el de la variable X. Finalmente, decir que hemos
(
)
utilizado la función núcleo de Epanechnikov K(x ) = 0,75 1 − x 2 , si x ≤ 1 .
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
285
El comportamiento del criterio CVG(h) (expuesto en (3.1)) para los distintos
valores de x (15, 30 y 50), según los sexos, se presenta las siguientes gráficas(1) :
Figura 1
hombres, x=15
10
9
8
7
6
CVG
5
4
0
5
10
15
20
25
30
20
25
30
H
Figura 2
mujeres, x=15
12
10
8
6
4
2
CVG
0
-2
0
5
10
15
H
( 1) El valor cero alcanzado por el criterio CVG(h) para h=1 en el grupo de las mujeres
con x=15 no debe ser tenido en cuenta al proceder de un sumatorio con todos los términos
nulos. Ello se debe a que los 8 casos de mujeres diagnosticadas a los 15 años son censurados.
286
ESTADÍSTICA ESPAÑOLA
Figura 3
hombres, x=30
9
8
7
6
CVG
5
4
0
5
10
15
20
25
30
20
25
30
H
Figura 4
mujeres, x=30
20
18
16
14
12
10
CVG
8
6
4
0
H
5
10
15
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
Figura 5
hombres, x=50
7
6
5
4
CVG
3
2
0
5
10
15
20
25
30
20
25
30
H
Figura 6
mujeres, x=50
12
11
10
9
8
7
CVG
6
5
4
0
H
5
10
15
287
288
ESTADÍSTICA ESPAÑOLA
Como es habitual cuando se trabaja con un criterio de validación cruzada, hemos elegido la ventana óptima como el mayor de los mínimos locales. De este
modo, los resultados para la ventana óptima según el criterio CVG(h) son:
Tabla (3.2)
3.2.
Hombres
Mujeres
x=15
h=2
h=7
x=30
h=6
h=7
x=50
h=4
h=8
Estimación de la razón de fallo acumulada condicional
En este apartado se calcula, para cada sexo, el estimador de la función razón
de fallo acumulada condicionada a los valores para la edad de diagnóstico de x=15,
x=30 y x=50 respectivamente, dado por
ˆ h (y x ) =
Λ
n
∑
i= 1
1{Zi ≤y ,δi =1}B hi (x )
,
Ĉ h (Z i x)
donde las ventanas utilizadas son las de la tabla (3.2). También se obtiene el
estimador de la función razón de fallo acumulada incondicional cuya expresión
n
1{Z i ≤y, δi =1}
ˆ n (y ) =
es Λ
. Todas estas curvas se muestran en las siguientes
n
i =1
1{Tj≤ Zi ≤Z j}
∑
∑
j =1
gráficas:
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
Figura 7
4
3
Landa(z) estimada
2
1
SEXO
hombre
0
mujer
0
10
20
30
40
50
60
70
z
Figura 8
2,0
Landa(z / x=15) estimada
1,5
1,0
,5
SEXO
hombre
0,0
mujer
0
z
10
20
30
40
50
60
70
289
290
ESTADÍSTICA ESPAÑOLA
Figura 9
3,5
3,0
Landa(z / x=30) estimada
2,5
2,0
1,5
1,0
SEXO
,5
hombre
0,0
mujer
0
10
20
30
40
50
60
70
z
Figura 10
6
5
Landa(z / x=50) estimada
4
3
2
SEXO
1
hombre
0
mujer
0
10
20
30
40
z
Agrupando las curvas por sexos, se tiene:
50
60
70
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
291
Figura 11
SEXO: hombre
5
4
3
2
Landa(z ) estimada
1
Landa(z / x=15) est.
Landa(z / x=30) est.
0
Landa(z / x=50) est.
0
10
20
30
40
50
60
70
Figura 12
SEXO: mujer
6
5
4
3
2
Landa(z ) estimada
Landa(z / x=15) est.
1
Landa(z / x=30) est.
0
Landa(z / x=50) est.
0
10
20
30
40
50
60
70
La relación existente entre las funciones razón de fallo acumulada y razón de
fallo (la segunda es la derivada de la primera), nos permiten interpretar estas
curvas en términos del riesgo de mortalidad para los años transcurridos desde el
diagnóstico. Así, un comportamiento convexo de la función razón de fallo acumulada indicará un crecimiento en el riesgo de mortalidad y un comportamiento cóncavo
un decrecimiento en el mismo.
292
ESTADÍSTICA ESPAÑOLA
Para la edad de diagnóstico de x=15 años se puede observar, tanto para hombres como para mujeres, un comportamiento inicial y bastante prolongado de riesgo
de mortalidad creciente conforme aumenta el tiempo desde el diagnóstico, riesgo
que finalmente tiende a decrecer (a partir de los 35-40 años desde el diagnóstico
para los hombres y casi los 50 para las mujeres). Además, la función razón de fallo
acumulada en los hombres está por encima de la misma en el grupo de mujeres y
la diferencia entre ellas aumenta progresivamente, de lo que se deduce un riesgo
de mortalidad mayor en los hombres que en las mujeres.
Para x=30 años el comportamiento para el riesgo de muerte sigue unas pautas
similares a las descritas para x=15, en cuanto que para hombres y mujeres se
observa un crecimiento inicial y un posterior decrecimiento (el cambio en el crec imiento se puede situar alrededor de los 40 años desde el diagnóstico (70 años de
ˆ h (y x ) por sexos están mucho
edad) en ambos sexos). Sin embargo, las curvas Λ
más próximas que en el caso anterior. Como diferencia más destacable cabe citar
un crecimiento del riesgo algo más rápido en los hombres.
Para x=50 años, hay que destacar un riesgo de muerte en periodos cercanos a
la edad de diagnóstico bastante importante en el grupo de los hombres que va
decreciendo durante los 10 primeros años desde el diagnóstico para posteriormente iniciar una remontada. En las mujeres también se observa un riesgo de
mortalidad que decrece inicialmente, si bien empieza más tardíamente y ocurre de
forma más moderada. A partir de los 10-15 años desde el diagnóstico se produce
un crecimiento en el riesgo de mortalidad prácticamente similar en ambos sexos.
Como última característica destacable mencionaremos que, tanto en hombres
como en mujeres, el riesgo de mortalidad comienza antes y crece más rápidamente
si la edad de comienzo de la enfermedad es a los 50 años que si es a los 15 o 30
años. Esto se observa fácilmente en las últimas gráficas de este apartado, correspondientes a las funciones de razón de fallo acumuladas condicionales por sexos.
3.3.
Estimación de la función de supervivencia condicional
En esta sección se calcula, para cada sexo, el estimador de la función de supervivencia condicionada a los valores x=15, x=30 y x=50, respectivamente, dado por
Ŝ h (y x ) = 1 − F̂h (y x) =
n

∏ 1 −
i=1
1{Zi ≤y, δi=1} Bhi (x) 
.
Ĉh (Z i x ) 
También se presenta el estimador de la función de supervivencia para el caso
incondicional, es decir Ŝn (y ) = 1 − F̂n (y ) , con F̂n (y ) definido en (1.1). Estas curvas
se muestran en las gráficas siguientes:
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
Figura 13
1,0
,8
,6
S(z) estimada
,4
SEXO
,2
hombre
0,0
mujer
0
10
20
30
40
50
60
70
z
Figura 14
1,2
1,0
,8
S(z / x=15) estimada
,6
,4
SEXO
,2
hombre
0,0
mujer
0
z
10
20
30
40
50
60
70
293
294
ESTADÍSTICA ESPAÑOLA
Figura 15
1,2
1,0
,8
S(z / x=30) estimada
,6
,4
SEXO
,2
hombre
0,0
mujer
0
10
20
30
40
50
60
70
z
Figura 16
1,2
1,0
,8
S(z / x=50) estimada
,6
,4
SEXO
,2
hombre
0,0
mujer
0
10
20
30
40
50
60
70
z
Las curvas de supervivencia para cada sexo, se presentan a continuación:
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
295
Figura 17
SEXO: hombre
1,2
1,0
,8
,6
,4
S(z ) estimada
S(z / x=15) est.
,2
S(z / x=30) est.
0,0
S(z / x=50) est.
0
10
20
30
40
50
60
70
Figura 18
SEXO: mujer
1,2
1,0
,8
,6
,4
S(z ) estimada
S(z / x=15) est.
,2
S(z / x=30) est.
0,0
S(z / x=50) est.
0
10
20
30
40
50
60
70
Si consideramos como medida del eje X los años de vida, en lugar de los transcurridos desde el diagnóstico, las curvas condicionales anteriores se ven de la
siguiente forma:
296
ESTADÍSTICA ESPAÑOLA
Figura 19
SEXO: hombre
1,2
1,0
,8
,6
,4
S(z / x=15) est.
,2
S(z / x=30) est.
0,0
S(z / x=50) est.
10
20
30
40
50
60
70
80
90
100
Figura 20
SEXO: mujer
1,2
1,0
,8
,6
,4
S(z / x=15) est.
,2
S(z / x=30) est.
0,0
10
S(z / x=50) est.
20
30
40
50
60
70
80
90
100
Una primera característica que podemos destacar a la vista de las gráficas es
que el sexo influye en la supervivencia (mortalidad) de los diabéticos. En el caso
incondicional está claro que las mujeres presentan una supervivencia más alta que
los hombres. Particularizando por edades de diagnóstico, vemos que esta tendencia también se mantiene, aunque podemos profundizar un poco más.
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
297
Para x=15 años la diferencia entre las curvas de supervivencia a favor de las
mujeres aparece de forma muy marcada, salvo en un pequeño intervalo inicial, y se
va incrementando considerablemente conforme aumenta el tiempo transcurrido
desde el diagnóstico de la enfermedad. Así, por ejemplo, la probabilidad de sobrevivir 10 años desde el diagnóstico, esto es, de superar los 25 años de vida es del
100% para hombres y mujeres; la probabilidad de sobrevivir 20 años desde el
diagnóstico, esto es, de superar los 35 años de vida es del 85,71% para los hombres y sube al 91,22% para las mujeres, mientras que la probabilidad de sobrevivir
30 años desde el diagnóstico (superar los 45) es del 52,86% en los hombres frente
al 79,45% de las mujeres y la de sobrevivir 40 años desde el diagnóstico o de
superar los 55 años de vida es del 17,62% para los hombres y del 57,77% para las
mujeres. Además, los valores medianos de ambas distribuciones son 32,92 y 44,17
años desde el diagnóstico para hombres y mujeres, respectivamente. Prácticamente 11 años de diferencia, a favor de las mujeres.
Para x=50 años, también se observa una diferencia muy marcada entre las curvas de supervivencia de hombres y mujeres, pero aquí la diferencia, que empieza
siendo muy importante, disminuye conforme aumenta el tiempo transcurrido desde
el diagnóstico. Así, el año de vida desde el diagnóstico sólo lo supera el 44,12% de
los hombres frente al 100% de las mujeres, los 10 años de vida desde el diagnóstico (60 años de edad) equivalen a los percentiles 67,57 y 23,40 para hombres y
mujeres, respectivamente, y los 20 años desde el diagnóstico (70 años de edad) se
corresponden con el percentil 86,29 en hombres y el 56,77 en mujeres. En cuanto a
las medianas de la distribución son de 0,50 y 18,83 años (desde el diagnóstico) en
hombres y en mujeres, respectivamente.
Aunque para x=30 años se mantiene la tendencia de mayor supervivencia en
mujeres que en hombres, se observa mucha más cercanía entre las curvas de
supervivencia de ambos sexos que para las edades de diagnóstico de 15 y 50
años, e incluso se puede ver la existencia de algunos solapamientos en torno a los
20 y 45 años desde el diagnóstico (50 y 75 años de edad, respectivamente). Los
tiempos de 10, 20, 30 y 40 años desde el diagnóstico (edades de 40, 50, 60 y 70
años) corresponden a los percentiles 0; 11,60; 37,70 y 76,70 en hombres y 0; 7,33;
31,82 y 61,26 en mujeres. Las medianas toman valores, en años desde el diagnóstico, de 32,67 para los hombres y 38,25 para las mujeres.
Otra característica importante es que la edad de diagnóstico también influye en
el comportamiento de la supervivencia (mortalidad) de los diabéticos. Además de
los comentarios efectuados previamente, se puede ver que, en general, la supervivencia en un cierto tiempo desde el diagnóstico disminuye al incrementar la edad
de comienzo de la enfermedad: es más difícil sobrevivir 10 años desde el diagnóstico partiendo de 50 años que partiendo de 15 años, pero también es bastante
298
ESTADÍSTICA ESPAÑOLA
evidente el hecho de que no es lo mismo alcanzar una edad de vida de 60 años
que de 25. Por ello, conviene matizar que la afirmación anterior no significa que la
supervivencia para cierta edad disminuya al incrementar la edad de comienzo de la
enfermedad, es más, de los últimos gráficos se infiere mas bien lo contrario: los
diabéticos diagnosticados a los 15 años presentan, tanto en hombres como en
mujeres, una supervivencia menor (en edad) que los diagnosticados a los 30 o 50
años.
Finalmente, es importante destacar la fuerte influencia del fenómeno de la censura que se manifiesta de forma muy clara en la parte derecha de las curvas de
supervivencia (no acaban valiendo cero), sobre todo en el caso de x=15 años y de
forma más débil para x=30 años.
4. CONCLUSIONES
Desde el punto de vista aplicado, resulta de gran interés el estudio del comportamiento del tiempo de fallo en función de los valores de ciertas covariables cuando
los primeros se encuentran sujetos a censura y truncamiento. Con respecto a la
base de datos considerada, esto se traduce en el análisis de la influencia del sexo y
la edad de diagnóstico de la diabetes sobre la supervivencia de los diabéticos.
La función de distribución del tiempo de vida (fallo) condicionada al valor de las
covariables es una fuente de información relevante y de ahí el interés de contar con
estimadores de la misma. El estimador LPG es a nuestro entender, la única propuesta disponible hasta el momento.
El cálculo del estimador LPG exige la elección de un parámetro de suavización.
En este sentido, se aporta una idea para la selección de la ventana en presencia de
censura, truncamiento y covariables. El estudio del comportamiento teórico de
dicha ventana excede los objetivos de este artículo. (Téngase en cuenta que el
problema de selección de la ventana en la estimación núcleo de funciones de
distribución no condicionales con datos completos no está todavía cerrado).
En este problema concreto el estimador LPG muestra que, efectivamente, tanto
el sexo como la edad de diagnóstico de la diabetes influyen en la supervivencia
(mortalidad) de los diabéticos, pero además, saca a la luz una serie de comportamientos que en el análisis incondicional quedan ocultos. Entre ellos podemos
destacar: el alto riesgo de muerte en periodos cercanos a la edad de diagnóstico
para los hombres diagnosticados a los 50 años, el distinto comportamiento del
riesgo de muerte en periodos cercanos a la edad de diagnóstico según dicho
diagnóstico sea a los 15 o a los 50 años; la gran diferencia entre la supervivencia
de hombres y mujeres, a favor de éstas últimas, cuando la diabetes se diagnostica
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
299
a los 15 y a los 50 años (alrededor de 11 y 18 años más de vida mediana, respectivamente); el comportamiento más igualado de la supervivencia en ambos sexos
cuando el diagnóstico es a los 30 años, o, finalmente, la menor supervivencia que
presentan, tanto en hombres como en mujeres, los diabéticos diagnosticados en
edades tempranas.
5. AGRADECIMIENTOS
Agradecemos al Profesor Per Kragh Andersen, del Departamento de Bioestadística de la Universidad de Copenhague, su cooperación al proporcionarnos los
datos utilizados en este artículo, y al Dr. Anders Green por su trabajo en la recopilación de dichos datos. Asimismo agradecemos el soporte económico del proyecto
PB98-0182-C02 del Ministerio de Educación y Cultura, que ha facilitado la realización del presente trabajo.
REFERENCIAS
AKRITAS, M.G. (1994). «Nearest neighbor estimation of a bivariate distribution under
random censoring». Ann. Statist. 22, 1299-1327.
ALTMAN, N. y LEGER, C. (1995). «Bandwidth selection for kernel distribution function
estimation». J. Statist. Plan. Inf. 46, 195-214.
ANDERSEN, P.K., BORGAN, O., GILL, R.D. y KEIDING, N. (1993). «Statistical Models
Based on Counting Processes ». Springer-Verlag, New York.
BERAN, R. (1981). «Nonparametric regression with randomly censored data».
Technical report. Univ. California, Berkeley.
BOWMAN, A., HALL, P. y PRVAN, T. (1998). «Bandwidth selection for the smoothing of
distribution functions». Biometrika. 85, 799-808.
BUCKLEY , J. y JAMES , I. (1979). «Linear regression with censored data». Biometrika.
66, 429-436.
COX, D.R. y OAKES, D. (1984). «Analysis of survival data». Chapman and Hall,
London.
DABROWSKA, D. (1989). «Uniform consistency of the kernel conditional Kaplan-Meier
estimate». Ann. Statist. 17, 1157-1167.
300
ESTADÍSTICA ESPAÑOLA
GONZÁLEZ-MANTEIGA, W. y CADARSO-S UÁREZ, C. (1994). «Asymptotic properties of a
generalized Kaplan-Meier estimator with some applications ». J. Nonparametric
Statist. 4, 65-78.
HARDLE, W. (1990). «Applied nonparametric regression». Cambridge University
Press.
IGLESIAS PÉREZ, M.C. y GONZÁLEZ MANTEIGA, W. (1999). «Strong representation of a
generalized product-limit estimator for truncated and censored data with some
applications». J. Nonparametric Statist.10, 213-244.
IGLESIAS PÉREZ, M.C. y GONZÁLEZ MANTEIGA, W. (2002). «Bootstrap for the conditional distribution function with truncated and censored data». (to appear in the
Ann. Inst. Statist. Math.).
KALBFLEISCH, J.D. y PRENTICE, R.L. (1980). «The statistical analysis of failure time
data». John Wiley & Sons, New York.
KAPLAN, E.L. y MEIER, P. (1958). «Nonparametric estimation from incomplete observations». J. Amer. Statist. Assoc. 53, 457-481.
KOUL , H.L., SUSARLA, V. y VAN RYZIN, J. (1981). «Regression analysis with randomly
right-censored data». Ann. Statist. 9, 1276-1288.
LYNDEN-B ELL, D. (1971). «A method of allowing for known observational selection in
small samples applied to 3CR quasars ». Mon. Not. R. Astr. Soc. 155, 95-118.
MILLER, R.G. (1976). «Least Squares Regression with Censored Data». Biometrika
63, 521-532.
SARDA , P. (1993). «Smoothing parameter selection for smooth distribution functions». J. Statist. Plan. Inf. 35, 65-75.
STUTE, W. (1993). «Consistent estimation under random censorship when covariables are present». J. Multivar. Analysis 45, 89-103.
TURNBULL, B.W. (1976). «The empirical distribution function with arbitrarily grouped,
censored and truncated data». J. R. Statist. Soc. B, 38, 290-295.
TSAI, W.Y., JEWELL, N.P. y WANG, M.C. (1987). «A note on the product-limit estimator under right censoring and left truncation». Biometrika 74, 883-886.
VAN KEILEGOM , I. y VERAVERBEKE, N. (1997). «Estimation and bootstrap with cens ored data in fixed design nonparametric regression». Ann. Inst. Statist. Math. 49,
467-491.
W AND, M.P. y JONES , M.C. (1995). «Kernel smoothing». Chapman and Hall, London.
ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: …
301
W OODROOFE , M. (1985). «Estimating a distribution function with truncated data».
Ann. Statist. 13, 163-177.
ESTIMATION OF THE CONDITIONAL DISTRIBUTION FUNCTION
WITH TRUNCATED AND CENSORED DATA: AN APPLICATION TO
THE STUDY OF THE MORTALITY OF DIABETICS
SUMMARY
Frequently in Survival Analysis the failure time is subject to random
left truncation and right censorship (LTRC) and moreover, some covariables associated with the failure time are present. The conditional
distribution function provides an approach to modeling the effects of
covariables on failure time. A generalized product-limit estimator
(GPLE) of the conditional distribution function in this context is defined
and studied by Iglesias-Pérez and González-Manteiga (1999) via non
parametric estimation.
This paper illustrates the GPLE performance in a real problem
about the mortality of diabetics, and in this way, it shows the potentiality of this estimator in applications. By means of the statistical analysis
of the data, it can be seen that the GPLE gives an important information about the survival of diabetics, which remains in hiding by an unconditional analysis. Also in this work we present an idea to calculate
the bandwidth parameter of GPLE, in this complex context of censored
and truncated data with covariables.
Keywords: censored data, truncated data, product-limit estimators,
kernel estimation, bandwidth parameter.
AMS classification: 62G05
Descargar