ESTADÍSTICA ESPAÑOLA Vol. 45, Núm. 153, 2003, págs. 275 a 301 Estimación de la función de distribución condicional en presencia de censura y truncamiento: una aplicación al estudio de la mortalidad en pacientes diabéticos por Mª DEL CARMEN IGLESIAS PÉREZ Departamento de Estadística e Investigación Operativa Escuela Universitaria de Ingeniería Técnica Forestal Universidad de Vigo RESUMEN En Análisis de Supervivencia es frecuente encontrarse con tiempos de fallo sujetos a truncamiento por la izquierda y censura por la derecha (TICD) junto con covariables relacionadas con la variable de interés. Una forma de explicar el efecto de las covariables sobre el tiempo de fallo es por medio de la función de distribución condicional. Utilizando técnicas de estimación no paramétrica de curvas, Iglesias Pérez y González Manteiga (1999) definen y estudian el comportamiento asintótico de un estimador de la función de distribución del tiempo de fallo condicionado al valor de las covariables, que denominan estimador límite producto generalizado (LPG). En este artículo se ilustra el comportamiento de dicho estimador LPG en un problema con datos reales, relativo a la mortalidad en pacientes diabéticos, mostrando su gran potencialidad en el terreno aplicado. El análisis estadístico de los datos pone de manifiesto como el 276 ESTADÍSTICA ESPAÑOLA estimador generalizado proporciona una información importante sobre el problema que se aborda, información que en el análisis incondicional permanece oculta. En este trabajo también se aporta una idea nueva para el cálculo del parámetro de suavizado, presente en el estimador LPG, en el complejo contexto de presencia de censura, truncamiento y covariables. Palabras clave: datos censurados, datos truncados, estimadores límite-producto, estimación núcleo, parámetro de suavizado. Clasificación AMS: 62G05 1. INTRODUCCIÓN El Análisis de Supervivencia se ocupa del estudio de los tiempos de fallo de un conjunto de individuos. Por tiempo de fallo se entiende el período transcurrido desde un instante inicial hasta un instante final (fallo) que han de ser definidos previamente y de forma precisa por el investigador. Esta formulación general se adapta a multitud de problemas. Así, el tiempo de fallo puede medir el período transcurrido entre la entrada en estudio de un paciente con una enfermedad terminal y su muerte, o el tiempo de duración de una máquina eléctrica desde su instalación; también puede responder al tiempo transcurrido desde el tratamiento de un enfermo con una determinada medicación hasta su alta, o la permanencia de un individuo en paro hasta la obtención de su primer empleo. Todos estos problemas tienen en común que el suceso fallo está perfectamente definido de antemano y puede ocurrir, a lo sumo, una vez en cada individuo. A su vez verifican que la variable de interés, el tiempo de fallo (también denominado tiempo de vida o de duración), es una variable no negativa. En este contexto aparecen con frecuencia problemas de seguimiento que proporcionan muestras censuradas. Si el estudio que hemos diseñado termina antes del fallo de algunos individuos tendremos una información incompleta de su tiempo de fallo, pues sólo dispondremos del tiempo transcurrido hasta un instante final conocido (previo al fallo) y que se suele denominar censura. Lo mismo ocurrirá si un paciente terminal abandona el estudio o muere por causas ajenas a su enfermedad, o si una máquina sometida a un estudio de seguimiento es robada cuando todavía funciona. La modelización de una situación con censura por la derecha tiene en cuenta las siguientes variables: la variable de interés (tiempo de fallo) que denotaremos por Y; una variable de censura, C, destinada a medir el tiempo transcurrido desde ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … 277 el instante inicial hasta el instante de censura o pérdida de seguimiento; la variable observada, Z, que será Z= min{Y, C}, puesto que se observa el tiempo de fallo siempre que sea inferior al tiempo de censura, en caso contrario se observa el tiempo de censura y, finalmente, la variable δ=1 {Y = C} que indica cuando se observa un fallo (δ =1) y cuando una censura (δ =0). Todas estas variables aparecen, implícitamente, en la muestra observada bajo censura, dada por {(Z1, δ1 ), (Z2, δ2),...,(Zn, δn)}. Dependiendo de las hipótesis que se asuman sobre las variables Y y C existen distintos modelos de censura. El modelo utilizado en el presente trabajo es el denominado modelo de censura aleatoria por la derecha donde se supone que C es una variable aleatoria y que es independiente de la variable Y. El estudio de tiempos de fallo también presenta peculiaridades en la recogida de la información muestral. Así, para ciertos esquemas de muestreo, el tiempo de fallo se observa solamente cuando excede cierto umbral aleatorio, denominado tiempo de truncamiento. Supongamos como ejemplo, que se quiere estudiar el tiempo de duración de una enfermedad vírica Y, y para ello sólo se dispone de los datos correspondientes a enfermos que acuden a consulta médica padeciendo la enfermedad. Si llamamos T al tiempo desde que la enfermedad comienza en un individuo hasta que éste decide ir a consultarse, estamos diciendo que sólo observamos tiempos de fallo de aquellos individuos que acuden a consulta, esto es, individuos con Y mayor o igual que T. Si el individuo sana antes de acudir al especialista (Y < T) entonces el valor de Y para ese sujeto no se observa. La situación anteriormente planteada sirve para ilustrar el denominado modelo de truncamiento aleatorio por la izquierda . En dicho modelo se asume la existencia de dos variables aleatorias independientes: el tiempo de fallo Y y el tiempo de truncamiento T, y se observan pares (Yi, Ti) solamente cuando Ti ≤ Yi (en otro caso no hay observación). El modelo de truncamiento aleatorio por la izquierda y censura aleatoria por la derecha (en adelante TICD) integra las dos situaciones anteriormente descritas. Sea ( T,Y,C) un vector aleatorio donde T es el tiempo de truncamiento, Y el tiempo de fallo y C el tiempo de censura, y supongamos además que Y es independiente de (T,C). En el modelo TICD se observan vectores (T, Z, δ) si Z ≥ T, donde Z= min{Y, C} y δ=1{Y ≤ C}. Cuando Z<T no hay observación. La información n muestral consiste entonces en n vectores aleatorios {(Ti, Zi, δi)} i =1 independientes e idénticamente distribuidos de los (T, Z, δ) observados; por tanto Ti ≤ Zi, para todo i=1,...,n. El primer problema que uno se plantea en este contexto es el de encontrar un estimador de la función de distribución de Y, F(y)=P(Y ≤ y), que desempeñe el 278 ESTADÍSTICA ESPAÑOLA papel que juega la función de distribución empírica en el muestreo aleatorio simple para datos completos. Tal estimador permitiría obtener estimaciones de parámetros de interés relacionados con F, tales como la media, la mediana o la desviación típica, y también de otras funciones, como la función de supervivencia, S(y)=1-F(y), o la función razón de fallo acumulada, Λ(y)= - ln S(y). Turnbull (1976) y Tsai, Jewell y Wang (1987) definen y estudian un estimador de F para el modelo TICD que presenta la siguiente forma: 1{Z i ≤ y , δi =1} ˆ Fn ( y ) = 1 − ∏ 1 − n i =1 ∑1{T j ≤ Z i ≤ Z j } j =1 n (1.1) Este estimador, denominado estimador límite-producto de F, es el estimador no paramétrico de máxima verosimilitud de F en presencia de censura y truncamiento, y además, bajo las necesarias condiciones de identificabilidad, verifica propiedades de consistencia y convergencia débil. Es importante observar que en ausencia de truncamiento el estimador F̂n coincide con el estimador de Kaplan-Meier (Kaplan y Meier, 1958) y en ausencia de censura se reduce al estimador de Linden-Bell (Linden-Bell (1971) y Woodroofe (1985)). Cuando no hay censura ni truncamiento el estimador F̂n coincide con la función de distribución empírica. Un problema más complejo que la estimación de la distribución de Y, pero de enorme interés, consiste en tratar de explicar y predecir el tiempo de fallo, Y, en función de un conjunto de variables explicativas o covariables, X, cuando hay censura y truncamiento. En el caso de datos completos, los modelos más utilizados son el modelo de tiempo de fallo acelerado, que permite una formulación lineal de la función de regresión del lnY, y el modelo de las razones de fallo proporcionales o modelo de Cox, donde los efectos de las covariables sobre el tiempo de fallo se P(y ≤ Y ≤ y + h Y ≥ y ) recogen a través de la función razón de fallo λ( y ) = limh→ 0 h (también llamada función de azar o función de riesgo), que mide el riesgo instantáneo de fallo en el tiempo y. La estimación de los parámetros del modelo de tiempo de fallo acelerado en un contexto de censura presenta dificultades que distintos autores han intentado solventar. Entre las propuestas más interesantes destacamos las de Miller (1976), Buckley y James (1979), Koul, Susarla y Van Ryzin (1981) y Stute (1993). La presencia de truncamiento (además de censura) en los datos complica la ya difícil tarea de encontrar estimadores consistentes, exigiendo la adaptación de los mét o- ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … 279 dos anteriores y un estudio teórico de los mismos en el marco del modelo TICD con covariables, estudio que todavía sigue en fase de investigación. En cuanto al modelo de Cox, es sin duda el más utilizado actualmente en presencia de censura (y de censura con truncamiento) puesto que permite la estimación consistente de las componentes que lo definen. Sin embargo, la suposición básica del modelo de Cox, consistente en la proporcionalidad de las razones de fallo, resulta en muchas aplicaciones poco verosímil. (Ver por ejemplo, Kalbfleisch y Prentice (1980) o Cox y Oakes (1984) para una visión general del análisis de tiempos de fallo). Una alternativa a los modelos anteriores consiste en explicar el efecto de las covariables sobre el tiempo de fallo mediante la función de distribución condicional F(y x) = P(Y ≤ y X = x ) . El estudio de estimadores límite-producto condicionales o generalizados para F(y x ) en presencia de censura ha sido abordado por Beran (1981), Dabrowska (1989), Akritas (1994), González Manteiga y Cadarso Suárez (1994) o Van Keilegom y Veraverbeke (1997)), entre otros autores. Todos ellos utilizan un enfoque no paramétrico de tipo núcleo de estimación de curvas (Härdle (1990), Wand y Jones (1995)), aunque con distintos tipos de pesos (Gasser-Muller, Nadaraya-Watson, k-puntos próximos). Por ejemplo, el estimador tipo núcleo de la función de regresión m(x ) = E(Y X = x ) con pesos de Nadaraya-Watson en el caso de una muestra aleatoria simple {(X i , Yi )}ni=1 de datos completos viene dado por: n m̂h (x) = ∑ K i =1 n x − Xi Y h i n = x − Xj K h j= 1 ∑ ∑B hi (x)Yi i =1 donde K es una función núcleo (función real, continua, acotada, simétrica y que integra 1) y h el conocido parámetro de suavización de la estimación no paramétrica. Intuitivamente, m̂h (x ) no es más que un promedio local, es decir, m(x) se estima por una media ponderada de valores Yi, donde las ponderaciones, Bhi(x), tienen en cuenta la distancia entre los valores de Xi y x, y el parámetro de suavizado, h, es el encargado de regular el tamaño de la vecindad de x donde se pondera. Obviamente, el estimador núcleo de la función de distribución condicional F(yx) para datos completos será F̂h (y x) = ( ) que F(y x) = E 1{Y≤y} X = x . n ∑B i=1 hi (x )1{Y ≤y} , i sin más que tener en cuenta Iglesias Pérez y González Manteiga (1999) definen un estimador límite producto condicional de F(y x ) en presencia de censura y truncamiento, cuya expresión es de la forma: 280 ESTADÍSTICA ESPAÑOLA F̂h (y x ) = 1 − n ∏ i=1 1{Zi ≤y ,δ i=1}B hi(x ) 1 − n 1{Tj ≤Zi ≤Z j}B hj(x ) j=1 (1.2) ∑ y que en adelante llamaremos estimador límite-producto generalizado (LPG). Asumiendo un modelo TICD con covariables en el cuál se observan vectores (X,T,Z, δ) cuando Z≥T y si Z<T no hay observación (X tampoco se observa), y que supone además la independencia condicional de las variables Y,T y C a la variable X, se han obtenido varias propiedades asintóticas del estimador LPG, tales como: una representación casi segura en términos de suma de variables aleatorias independientes más un término de error, la consistencia uniforme fuerte sobre intervalos compactos, la normalidad asintótica y la convergencia débil del proceso (Iglesias Pérez y González Manteiga (1999)). También se ha diseñado y probado la consistencia de un método de remuestreo bootstrap para aproximar la distribución del ( ) estadístico nh F̂h (y x) − F(y x ) (Iglesias Pérez y González Manteiga (2002)). Conviene observar que cuando no hay truncamiento el estimador LPG definido en (1.2) se reduce al estimador límite-producto condicional con censura, extensamente estudiado en la literatura como ya ha sido previamente comentado. Por otro lado, en ausencia de covariables el estimador LPG coincide con el estimador límiteproducto definido en (1.1). Desde el punto de vista práctico, el estimador LPG permite definir de forma sencilla e inmediata estimadores de la función de regresión y de la mediana o de cualquier otro cuantil condicional. Basta con calcular: m̂h (x ) = donde Ĉ h (Zi x ) = ∑1{ Tj≤ Zi ≤Z j ∫ ydF̂h (y x ) = δ B (x ) ∑ Z Ĉ (Z x ) (1 − F̂ (Z x)), n i h i= 1 }B hj (x) es i el hi h − i i estimador tipo núcleo de C(y x ) = P(T ≤ y ≤ Z T ≤ Z, X = x ), y { } F̂h−1(p x ) = inf y : F̂h (y x) ≥ p , p ∈ (0,1) (1.3) como estimadores de la función de regresión y del cuantil condicional de orden p, respectivamente. ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … 281 El objetivo de este artículo es ilustrar el comportamiento del estimador LPG en un problema con datos reales, dejando, de este modo, constancia de su gran potencialidad en el terreno aplicado. Es un trabajo interesante puesto que muestra como el estimador generalizado proporciona una información importante sobre el problema que se aborda, relativo al análisis sobre la mortalidad en pacientes diabéticos, información que en un análisis incondicional permanece oculta. También se aporta una idea nueva para el cálculo del parámetro ventana, presente en el estimador LPG, en este complejo contexto de presencia de censura, truncamiento y covariables. Concretamente, hemos adaptado un criterio de tipo validación cruzada introducido por Bowman, Hall y Prvan (1998) para la estimación tipo núcleo de funciones de distribución en muestreo aleatorio simple de una variable. 2. LOS DATOS REALES Se trata de analizar los datos recopilados por el doctor Anders Green sobre la mortalidad de diabéticos en el condado de Fyn (Dinamarca). Esta base de datos ha sido objeto de diversos estudios en el campo del análisis de supervivencia (ver Andersen, Borgan, Gill y Keiding (1993), pag.14). La situación es la siguiente: A 1 de julio de 1973, el condado de Fyn tenía alrededor de 450.000 habitantes, de los cuales 1.499 padecían una diabetes mellitus dependiente de insulina. Esta información fue obtenida mediante la recopilación en los ficheros del Servicio Nacional de Salud de todas las prescripciones de insulina, durante un periodo de 5 meses (cubriendo la fecha arriba citada) y, posteriormente, chequeando el historial médico de cada paciente que proporcionó una serie de variables relevantes. A 1 de enero de 1982 (8 años y medio después del inicio del estudio) se evaluó el estado de supervivencia (fallo, no fallo) de cada uno de los pacientes, mediante el registro de habitantes de la zona. De todo ello, se obtuvo un archivo de 1.499 casos, con la siguiente información para cada caso: 1. Número de caso o de identificación del paciente (de 1 a 1.499). 2. Sexo: Hombre=1, Mujer=0. 3. Estado de supervivencia: Fallo=1, No fallo=0. 4. Fecha de salida del estudio: ddmmaa (día-mes-año). 5. Edad (en años) a la salida. 6. Edad (en años) a la entrada del estudio (010773). 7. Edad (en años) de diagnóstico de la enfermedad. 8. Duración (en meses) de la enfermedad a la entrada (010773). 282 ESTADÍSTICA ESPAÑOLA Estas variables nos proporcionan unas primeras consideraciones importantes: − La presencia de censura por la derecha aparece de forma natural dado que al final del estudio hay muchos pacientes que todavía viven y por tanto, la variable “edad a la salida” es el mínimo entre el tiempo de fallo (variable de interés) y el tiempo de censura. Con la notación utilizada en la sección anterior se tiene que la variable observada es Z= “Edad a la salida del estudio” y la variable indicadora de fallo es δ= “Estado de supervivencia”. − Al estar interesados en el estudio del tiempo de fallo de pacientes diabéticos, sólo tiene sentido el seguimiento de pacientes después del comienzo de su enfermedad, esto es, de pacientes que hayan sido diagnosticados. Pero debido al sistema de recopilación utilizado, sólo observaremos datos de aquellos pacientes diagnosticados que estén vivos en la fecha de inicio del estudio. Es decir, definiendo la variable truncamiento T= “Edad a la entrada del estudio”, sólo observaremos pacientes con T≤Z y perderemos la información relativa a diabéticos que se han muerto o perdido antes del inicio del estudio. Esto da lugar a un truncamiento por la izquierda que debe ser tenido en cuenta para evitar el sesgo de estimación que se cometería al utilizar una muestra de datos que pierde los pacientes con tiempos de fallo cortos (en los cuales Z no llega a T). − Tal como vienen dados los datos, las variables Y, C y T miden la edad de cada individuo en diferentes fechas del calendario: la de su fallo, la de su pérdida de seguimiento o fecha final del estudio (si sobrevive) y la de inicio del estudio, respectivamente. Otra posibilidad consiste en definir las variables Y, C y T como tiempos de fallo, de censura y de truncamiento, entendiendo como tales los tiempos transcurridos desde el diagnóstico de la enfermedad hasta el fallo, la pérdida de seguimiento y la entrada en el estudio, respectivamente. Esta definición de las variables será la utilizada en adelante. − Posibles covariables en este estudio pueden ser el sexo o la edad de diagnóstico de la enfermedad. A continuación presentamos algunos datos de interés, fruto de un sencillo análisis descriptivo: − De los 1.499 pacientes diabéticos, 783 son hombres (52,23%) y 716 mujeres (47,77%). − El porcentaje global de censura es del 67,24% (1.008 casos censurados: 3 por emigración y el resto por sobrevivir al estudio). Entre los hombres el porcentaje de censura es del 67,56% (529 casos) y entre las mujeres del 66,9% (479 casos). − Las medidas resumen de la covariable X= “Edad (en años) de diagnóstico” por sexos, son las siguientes: ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … Hombres Mujeres Media = 30,65 35,12 D. típica = 18,66 20,88 Percentil 25 = 15 15 Mediana = 29 35 Percentil 75 = 45 52 Mínimo = 0 1 Máximo = 85 87 283 3. ANÁLISIS CONDICIONALES Entre los distintos análisis condicionales realizados a estos datos, exponemos a continuación los relativos al cálculo de los estimadores de la función razón de fallo acumulada condicional y de la función de supervivencia condicional, que proporcionan una información de gran interés en términos de interpretación aplicada. Hemos tomado como covariable X la edad de diagnóstico de la enfermedad, desglosando los resultados por sexos. Entre todos los posibles valores de la variable X, hemos elegido tres: 15, 30 y 50 años, por coincidir (más o menos según el sexo) con los cuartiles de la variable. En cualquier análisis condicional que pretendamos realizar, nos encontramos con un primer problema: la elección del parámetro ventana. Nos centraremos, a continuación, en elegir una ventana o parámetro de suavización que proporcione un “buen'' estimador de la función de distribución condicional. 3.1. Selección de la ventana La selección del parámetro de suavización (o ventana) es un problema muy relevante y complejo de la estimación no paramétrica de curvas. El problema de elección de la ventana para el estimador tipo núcleo de la función de densidad y de la función de regresión para datos completos cuenta ya con selectores óptimos. En el contexto de la estimación núcleo de la función de distribución, donde el estimador de la distribución F viene dado por F̂h (x ) = 1 n n ∑ W i =1 x − Xi h 284 ESTADÍSTICA ESPAÑOLA siendo W una función de distribución, el problema sigue todavía abierto y, en este sentido, cabe citar algunas propuestas recientes debidas a Sarda (1993), Altman y Leger (1995) y Bowman, Hall y Prvan (1998). Estos últimos autores proponen un método de validación cruzada, adaptado a la estimación núcleo de funciones de distribución, que consiste en minimizar la función dada por: CV(h) = 1 n 2 ∑ ∫ [1{ n ] −i x−X i ≥0} − F̂h (x ) dx i =1 donde F̂h−i (x ) denota la estimación no paramétrica de F en el punto x construida sin la observación i-ésima. Dichos autores prueban que la función CV(h) proporciona un estimador insesgado de la curva MISE(h) para tamaño muestral n-1, trasladada verticalmente por una constante desconocida. Como dicha constante no depende de h no afecta a la elección de la ventana óptima. Nosotros hemos generalizado este criterio a nuestro contexto de estimación de la función de distribución condicional con censura y truncamiento. De este modo, hemos seleccionado el parámetro ventana que minimiza el siguiente criterio: CVG(h) = 2 ∑ ∫[ n i =1 ] w i 1{y−Zi ≥0} − F̂ (−i )h (y x ) dy (3.1) donde F̂h(−i )(y x ) denota el estimador LPG de la función n de distribución condicional con censura y truncamiento construido sin los datos del individuo i-ésimo y wi es el ( ( ) salto de F̂h (y x) en Zi dado por δ iBhi (x ) 1 − F̂h Z −i x / Ĉh (Z i x ) . Una vez decidido el modo de elegir el parámetro ventana, lo hemos aplicado a nuestros datos. Como ya hemos comentado anteriormente, para cada individuo se han considerado las variables Z=“Tiempo transcurrido desde el diagnóstico de la enfermedad hasta la salida del estudio”, T=“Tiempo transcurrido desde el diagnóstico de la enfermedad hasta la entrada en el estudio” y X=“Edad (en años) de diagnóstico”. Para las variables Z y T hemos elegido como unidad de tiempo el año, si bien ha sido recalculada a partir del tiempo medido en meses y por ello no presenta un aspecto tan discretizado como el de la variable X. Finalmente, decir que hemos ( ) utilizado la función núcleo de Epanechnikov K(x ) = 0,75 1 − x 2 , si x ≤ 1 . ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … 285 El comportamiento del criterio CVG(h) (expuesto en (3.1)) para los distintos valores de x (15, 30 y 50), según los sexos, se presenta las siguientes gráficas(1) : Figura 1 hombres, x=15 10 9 8 7 6 CVG 5 4 0 5 10 15 20 25 30 20 25 30 H Figura 2 mujeres, x=15 12 10 8 6 4 2 CVG 0 -2 0 5 10 15 H ( 1) El valor cero alcanzado por el criterio CVG(h) para h=1 en el grupo de las mujeres con x=15 no debe ser tenido en cuenta al proceder de un sumatorio con todos los términos nulos. Ello se debe a que los 8 casos de mujeres diagnosticadas a los 15 años son censurados. 286 ESTADÍSTICA ESPAÑOLA Figura 3 hombres, x=30 9 8 7 6 CVG 5 4 0 5 10 15 20 25 30 20 25 30 H Figura 4 mujeres, x=30 20 18 16 14 12 10 CVG 8 6 4 0 H 5 10 15 ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … Figura 5 hombres, x=50 7 6 5 4 CVG 3 2 0 5 10 15 20 25 30 20 25 30 H Figura 6 mujeres, x=50 12 11 10 9 8 7 CVG 6 5 4 0 H 5 10 15 287 288 ESTADÍSTICA ESPAÑOLA Como es habitual cuando se trabaja con un criterio de validación cruzada, hemos elegido la ventana óptima como el mayor de los mínimos locales. De este modo, los resultados para la ventana óptima según el criterio CVG(h) son: Tabla (3.2) 3.2. Hombres Mujeres x=15 h=2 h=7 x=30 h=6 h=7 x=50 h=4 h=8 Estimación de la razón de fallo acumulada condicional En este apartado se calcula, para cada sexo, el estimador de la función razón de fallo acumulada condicionada a los valores para la edad de diagnóstico de x=15, x=30 y x=50 respectivamente, dado por ˆ h (y x ) = Λ n ∑ i= 1 1{Zi ≤y ,δi =1}B hi (x ) , Ĉ h (Z i x) donde las ventanas utilizadas son las de la tabla (3.2). También se obtiene el estimador de la función razón de fallo acumulada incondicional cuya expresión n 1{Z i ≤y, δi =1} ˆ n (y ) = es Λ . Todas estas curvas se muestran en las siguientes n i =1 1{Tj≤ Zi ≤Z j} ∑ ∑ j =1 gráficas: ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … Figura 7 4 3 Landa(z) estimada 2 1 SEXO hombre 0 mujer 0 10 20 30 40 50 60 70 z Figura 8 2,0 Landa(z / x=15) estimada 1,5 1,0 ,5 SEXO hombre 0,0 mujer 0 z 10 20 30 40 50 60 70 289 290 ESTADÍSTICA ESPAÑOLA Figura 9 3,5 3,0 Landa(z / x=30) estimada 2,5 2,0 1,5 1,0 SEXO ,5 hombre 0,0 mujer 0 10 20 30 40 50 60 70 z Figura 10 6 5 Landa(z / x=50) estimada 4 3 2 SEXO 1 hombre 0 mujer 0 10 20 30 40 z Agrupando las curvas por sexos, se tiene: 50 60 70 ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … 291 Figura 11 SEXO: hombre 5 4 3 2 Landa(z ) estimada 1 Landa(z / x=15) est. Landa(z / x=30) est. 0 Landa(z / x=50) est. 0 10 20 30 40 50 60 70 Figura 12 SEXO: mujer 6 5 4 3 2 Landa(z ) estimada Landa(z / x=15) est. 1 Landa(z / x=30) est. 0 Landa(z / x=50) est. 0 10 20 30 40 50 60 70 La relación existente entre las funciones razón de fallo acumulada y razón de fallo (la segunda es la derivada de la primera), nos permiten interpretar estas curvas en términos del riesgo de mortalidad para los años transcurridos desde el diagnóstico. Así, un comportamiento convexo de la función razón de fallo acumulada indicará un crecimiento en el riesgo de mortalidad y un comportamiento cóncavo un decrecimiento en el mismo. 292 ESTADÍSTICA ESPAÑOLA Para la edad de diagnóstico de x=15 años se puede observar, tanto para hombres como para mujeres, un comportamiento inicial y bastante prolongado de riesgo de mortalidad creciente conforme aumenta el tiempo desde el diagnóstico, riesgo que finalmente tiende a decrecer (a partir de los 35-40 años desde el diagnóstico para los hombres y casi los 50 para las mujeres). Además, la función razón de fallo acumulada en los hombres está por encima de la misma en el grupo de mujeres y la diferencia entre ellas aumenta progresivamente, de lo que se deduce un riesgo de mortalidad mayor en los hombres que en las mujeres. Para x=30 años el comportamiento para el riesgo de muerte sigue unas pautas similares a las descritas para x=15, en cuanto que para hombres y mujeres se observa un crecimiento inicial y un posterior decrecimiento (el cambio en el crec imiento se puede situar alrededor de los 40 años desde el diagnóstico (70 años de ˆ h (y x ) por sexos están mucho edad) en ambos sexos). Sin embargo, las curvas Λ más próximas que en el caso anterior. Como diferencia más destacable cabe citar un crecimiento del riesgo algo más rápido en los hombres. Para x=50 años, hay que destacar un riesgo de muerte en periodos cercanos a la edad de diagnóstico bastante importante en el grupo de los hombres que va decreciendo durante los 10 primeros años desde el diagnóstico para posteriormente iniciar una remontada. En las mujeres también se observa un riesgo de mortalidad que decrece inicialmente, si bien empieza más tardíamente y ocurre de forma más moderada. A partir de los 10-15 años desde el diagnóstico se produce un crecimiento en el riesgo de mortalidad prácticamente similar en ambos sexos. Como última característica destacable mencionaremos que, tanto en hombres como en mujeres, el riesgo de mortalidad comienza antes y crece más rápidamente si la edad de comienzo de la enfermedad es a los 50 años que si es a los 15 o 30 años. Esto se observa fácilmente en las últimas gráficas de este apartado, correspondientes a las funciones de razón de fallo acumuladas condicionales por sexos. 3.3. Estimación de la función de supervivencia condicional En esta sección se calcula, para cada sexo, el estimador de la función de supervivencia condicionada a los valores x=15, x=30 y x=50, respectivamente, dado por Ŝ h (y x ) = 1 − F̂h (y x) = n ∏ 1 − i=1 1{Zi ≤y, δi=1} Bhi (x) . Ĉh (Z i x ) También se presenta el estimador de la función de supervivencia para el caso incondicional, es decir Ŝn (y ) = 1 − F̂n (y ) , con F̂n (y ) definido en (1.1). Estas curvas se muestran en las gráficas siguientes: ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … Figura 13 1,0 ,8 ,6 S(z) estimada ,4 SEXO ,2 hombre 0,0 mujer 0 10 20 30 40 50 60 70 z Figura 14 1,2 1,0 ,8 S(z / x=15) estimada ,6 ,4 SEXO ,2 hombre 0,0 mujer 0 z 10 20 30 40 50 60 70 293 294 ESTADÍSTICA ESPAÑOLA Figura 15 1,2 1,0 ,8 S(z / x=30) estimada ,6 ,4 SEXO ,2 hombre 0,0 mujer 0 10 20 30 40 50 60 70 z Figura 16 1,2 1,0 ,8 S(z / x=50) estimada ,6 ,4 SEXO ,2 hombre 0,0 mujer 0 10 20 30 40 50 60 70 z Las curvas de supervivencia para cada sexo, se presentan a continuación: ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … 295 Figura 17 SEXO: hombre 1,2 1,0 ,8 ,6 ,4 S(z ) estimada S(z / x=15) est. ,2 S(z / x=30) est. 0,0 S(z / x=50) est. 0 10 20 30 40 50 60 70 Figura 18 SEXO: mujer 1,2 1,0 ,8 ,6 ,4 S(z ) estimada S(z / x=15) est. ,2 S(z / x=30) est. 0,0 S(z / x=50) est. 0 10 20 30 40 50 60 70 Si consideramos como medida del eje X los años de vida, en lugar de los transcurridos desde el diagnóstico, las curvas condicionales anteriores se ven de la siguiente forma: 296 ESTADÍSTICA ESPAÑOLA Figura 19 SEXO: hombre 1,2 1,0 ,8 ,6 ,4 S(z / x=15) est. ,2 S(z / x=30) est. 0,0 S(z / x=50) est. 10 20 30 40 50 60 70 80 90 100 Figura 20 SEXO: mujer 1,2 1,0 ,8 ,6 ,4 S(z / x=15) est. ,2 S(z / x=30) est. 0,0 10 S(z / x=50) est. 20 30 40 50 60 70 80 90 100 Una primera característica que podemos destacar a la vista de las gráficas es que el sexo influye en la supervivencia (mortalidad) de los diabéticos. En el caso incondicional está claro que las mujeres presentan una supervivencia más alta que los hombres. Particularizando por edades de diagnóstico, vemos que esta tendencia también se mantiene, aunque podemos profundizar un poco más. ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … 297 Para x=15 años la diferencia entre las curvas de supervivencia a favor de las mujeres aparece de forma muy marcada, salvo en un pequeño intervalo inicial, y se va incrementando considerablemente conforme aumenta el tiempo transcurrido desde el diagnóstico de la enfermedad. Así, por ejemplo, la probabilidad de sobrevivir 10 años desde el diagnóstico, esto es, de superar los 25 años de vida es del 100% para hombres y mujeres; la probabilidad de sobrevivir 20 años desde el diagnóstico, esto es, de superar los 35 años de vida es del 85,71% para los hombres y sube al 91,22% para las mujeres, mientras que la probabilidad de sobrevivir 30 años desde el diagnóstico (superar los 45) es del 52,86% en los hombres frente al 79,45% de las mujeres y la de sobrevivir 40 años desde el diagnóstico o de superar los 55 años de vida es del 17,62% para los hombres y del 57,77% para las mujeres. Además, los valores medianos de ambas distribuciones son 32,92 y 44,17 años desde el diagnóstico para hombres y mujeres, respectivamente. Prácticamente 11 años de diferencia, a favor de las mujeres. Para x=50 años, también se observa una diferencia muy marcada entre las curvas de supervivencia de hombres y mujeres, pero aquí la diferencia, que empieza siendo muy importante, disminuye conforme aumenta el tiempo transcurrido desde el diagnóstico. Así, el año de vida desde el diagnóstico sólo lo supera el 44,12% de los hombres frente al 100% de las mujeres, los 10 años de vida desde el diagnóstico (60 años de edad) equivalen a los percentiles 67,57 y 23,40 para hombres y mujeres, respectivamente, y los 20 años desde el diagnóstico (70 años de edad) se corresponden con el percentil 86,29 en hombres y el 56,77 en mujeres. En cuanto a las medianas de la distribución son de 0,50 y 18,83 años (desde el diagnóstico) en hombres y en mujeres, respectivamente. Aunque para x=30 años se mantiene la tendencia de mayor supervivencia en mujeres que en hombres, se observa mucha más cercanía entre las curvas de supervivencia de ambos sexos que para las edades de diagnóstico de 15 y 50 años, e incluso se puede ver la existencia de algunos solapamientos en torno a los 20 y 45 años desde el diagnóstico (50 y 75 años de edad, respectivamente). Los tiempos de 10, 20, 30 y 40 años desde el diagnóstico (edades de 40, 50, 60 y 70 años) corresponden a los percentiles 0; 11,60; 37,70 y 76,70 en hombres y 0; 7,33; 31,82 y 61,26 en mujeres. Las medianas toman valores, en años desde el diagnóstico, de 32,67 para los hombres y 38,25 para las mujeres. Otra característica importante es que la edad de diagnóstico también influye en el comportamiento de la supervivencia (mortalidad) de los diabéticos. Además de los comentarios efectuados previamente, se puede ver que, en general, la supervivencia en un cierto tiempo desde el diagnóstico disminuye al incrementar la edad de comienzo de la enfermedad: es más difícil sobrevivir 10 años desde el diagnóstico partiendo de 50 años que partiendo de 15 años, pero también es bastante 298 ESTADÍSTICA ESPAÑOLA evidente el hecho de que no es lo mismo alcanzar una edad de vida de 60 años que de 25. Por ello, conviene matizar que la afirmación anterior no significa que la supervivencia para cierta edad disminuya al incrementar la edad de comienzo de la enfermedad, es más, de los últimos gráficos se infiere mas bien lo contrario: los diabéticos diagnosticados a los 15 años presentan, tanto en hombres como en mujeres, una supervivencia menor (en edad) que los diagnosticados a los 30 o 50 años. Finalmente, es importante destacar la fuerte influencia del fenómeno de la censura que se manifiesta de forma muy clara en la parte derecha de las curvas de supervivencia (no acaban valiendo cero), sobre todo en el caso de x=15 años y de forma más débil para x=30 años. 4. CONCLUSIONES Desde el punto de vista aplicado, resulta de gran interés el estudio del comportamiento del tiempo de fallo en función de los valores de ciertas covariables cuando los primeros se encuentran sujetos a censura y truncamiento. Con respecto a la base de datos considerada, esto se traduce en el análisis de la influencia del sexo y la edad de diagnóstico de la diabetes sobre la supervivencia de los diabéticos. La función de distribución del tiempo de vida (fallo) condicionada al valor de las covariables es una fuente de información relevante y de ahí el interés de contar con estimadores de la misma. El estimador LPG es a nuestro entender, la única propuesta disponible hasta el momento. El cálculo del estimador LPG exige la elección de un parámetro de suavización. En este sentido, se aporta una idea para la selección de la ventana en presencia de censura, truncamiento y covariables. El estudio del comportamiento teórico de dicha ventana excede los objetivos de este artículo. (Téngase en cuenta que el problema de selección de la ventana en la estimación núcleo de funciones de distribución no condicionales con datos completos no está todavía cerrado). En este problema concreto el estimador LPG muestra que, efectivamente, tanto el sexo como la edad de diagnóstico de la diabetes influyen en la supervivencia (mortalidad) de los diabéticos, pero además, saca a la luz una serie de comportamientos que en el análisis incondicional quedan ocultos. Entre ellos podemos destacar: el alto riesgo de muerte en periodos cercanos a la edad de diagnóstico para los hombres diagnosticados a los 50 años, el distinto comportamiento del riesgo de muerte en periodos cercanos a la edad de diagnóstico según dicho diagnóstico sea a los 15 o a los 50 años; la gran diferencia entre la supervivencia de hombres y mujeres, a favor de éstas últimas, cuando la diabetes se diagnostica ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … 299 a los 15 y a los 50 años (alrededor de 11 y 18 años más de vida mediana, respectivamente); el comportamiento más igualado de la supervivencia en ambos sexos cuando el diagnóstico es a los 30 años, o, finalmente, la menor supervivencia que presentan, tanto en hombres como en mujeres, los diabéticos diagnosticados en edades tempranas. 5. AGRADECIMIENTOS Agradecemos al Profesor Per Kragh Andersen, del Departamento de Bioestadística de la Universidad de Copenhague, su cooperación al proporcionarnos los datos utilizados en este artículo, y al Dr. Anders Green por su trabajo en la recopilación de dichos datos. Asimismo agradecemos el soporte económico del proyecto PB98-0182-C02 del Ministerio de Educación y Cultura, que ha facilitado la realización del presente trabajo. REFERENCIAS AKRITAS, M.G. (1994). «Nearest neighbor estimation of a bivariate distribution under random censoring». Ann. Statist. 22, 1299-1327. ALTMAN, N. y LEGER, C. (1995). «Bandwidth selection for kernel distribution function estimation». J. Statist. Plan. Inf. 46, 195-214. ANDERSEN, P.K., BORGAN, O., GILL, R.D. y KEIDING, N. (1993). «Statistical Models Based on Counting Processes ». Springer-Verlag, New York. BERAN, R. (1981). «Nonparametric regression with randomly censored data». Technical report. Univ. California, Berkeley. BOWMAN, A., HALL, P. y PRVAN, T. (1998). «Bandwidth selection for the smoothing of distribution functions». Biometrika. 85, 799-808. BUCKLEY , J. y JAMES , I. (1979). «Linear regression with censored data». Biometrika. 66, 429-436. COX, D.R. y OAKES, D. (1984). «Analysis of survival data». Chapman and Hall, London. DABROWSKA, D. (1989). «Uniform consistency of the kernel conditional Kaplan-Meier estimate». Ann. Statist. 17, 1157-1167. 300 ESTADÍSTICA ESPAÑOLA GONZÁLEZ-MANTEIGA, W. y CADARSO-S UÁREZ, C. (1994). «Asymptotic properties of a generalized Kaplan-Meier estimator with some applications ». J. Nonparametric Statist. 4, 65-78. HARDLE, W. (1990). «Applied nonparametric regression». Cambridge University Press. IGLESIAS PÉREZ, M.C. y GONZÁLEZ MANTEIGA, W. (1999). «Strong representation of a generalized product-limit estimator for truncated and censored data with some applications». J. Nonparametric Statist.10, 213-244. IGLESIAS PÉREZ, M.C. y GONZÁLEZ MANTEIGA, W. (2002). «Bootstrap for the conditional distribution function with truncated and censored data». (to appear in the Ann. Inst. Statist. Math.). KALBFLEISCH, J.D. y PRENTICE, R.L. (1980). «The statistical analysis of failure time data». John Wiley & Sons, New York. KAPLAN, E.L. y MEIER, P. (1958). «Nonparametric estimation from incomplete observations». J. Amer. Statist. Assoc. 53, 457-481. KOUL , H.L., SUSARLA, V. y VAN RYZIN, J. (1981). «Regression analysis with randomly right-censored data». Ann. Statist. 9, 1276-1288. LYNDEN-B ELL, D. (1971). «A method of allowing for known observational selection in small samples applied to 3CR quasars ». Mon. Not. R. Astr. Soc. 155, 95-118. MILLER, R.G. (1976). «Least Squares Regression with Censored Data». Biometrika 63, 521-532. SARDA , P. (1993). «Smoothing parameter selection for smooth distribution functions». J. Statist. Plan. Inf. 35, 65-75. STUTE, W. (1993). «Consistent estimation under random censorship when covariables are present». J. Multivar. Analysis 45, 89-103. TURNBULL, B.W. (1976). «The empirical distribution function with arbitrarily grouped, censored and truncated data». J. R. Statist. Soc. B, 38, 290-295. TSAI, W.Y., JEWELL, N.P. y WANG, M.C. (1987). «A note on the product-limit estimator under right censoring and left truncation». Biometrika 74, 883-886. VAN KEILEGOM , I. y VERAVERBEKE, N. (1997). «Estimation and bootstrap with cens ored data in fixed design nonparametric regression». Ann. Inst. Statist. Math. 49, 467-491. W AND, M.P. y JONES , M.C. (1995). «Kernel smoothing». Chapman and Hall, London. ESTIMACIÓN DE LA FUNCIÓN DE DISTRIBUCIÓN CONDICIONAL EN PRESENCIA DE CENSURA Y TRUNCAMIENTO: … 301 W OODROOFE , M. (1985). «Estimating a distribution function with truncated data». Ann. Statist. 13, 163-177. ESTIMATION OF THE CONDITIONAL DISTRIBUTION FUNCTION WITH TRUNCATED AND CENSORED DATA: AN APPLICATION TO THE STUDY OF THE MORTALITY OF DIABETICS SUMMARY Frequently in Survival Analysis the failure time is subject to random left truncation and right censorship (LTRC) and moreover, some covariables associated with the failure time are present. The conditional distribution function provides an approach to modeling the effects of covariables on failure time. A generalized product-limit estimator (GPLE) of the conditional distribution function in this context is defined and studied by Iglesias-Pérez and González-Manteiga (1999) via non parametric estimation. This paper illustrates the GPLE performance in a real problem about the mortality of diabetics, and in this way, it shows the potentiality of this estimator in applications. By means of the statistical analysis of the data, it can be seen that the GPLE gives an important information about the survival of diabetics, which remains in hiding by an unconditional analysis. Also in this work we present an idea to calculate the bandwidth parameter of GPLE, in this complex context of censored and truncated data with covariables. Keywords: censored data, truncated data, product-limit estimators, kernel estimation, bandwidth parameter. AMS classification: 62G05