PROFESOR: LUIS E. NIETO BARAJAS 2. Censura y truncamiento Los datos de tiempo de fallo se presentan en diferentes formas que crean problemas especiales cuando se analizan. En muchas ocasiones no se conoce con exactitud el valor del tiempo de fallo y únicamente se cuenta con información parcial. Una característica especial, comúnmente presente en datos de tiempo de fallo es la censura. De manera amplia, la censura ocurre cuando se conoce que algunos tiempos de fallo han ocurrido en cierto intervalo de tiempo. Existen varias categorías de censura: censura por la derecha, censura por la izquierda o censura por intervalo. Para incorporar la censura adecuadamente, tenemos que considerar el diseño que fue utilizado para la obtención de los datos de supervivencia. Hay varios tipos de mecanismos de censura dentro de la censura por la izquierda o derecha. Cada tipo dará lugar a una función de verosimilitud distinta. Una segunda característica que hace distinto al análisis de supervivencia de otros análisis estadísticos es el truncamiento. 35 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS El truncamiento ocurre cuando la observación del tiempo de fallo no sería posible sin la ocurrencia de un tiempo suficientemente corto o largo. Al igual que la censura existen varias categorías de truncamiento: truncamiento por la derecha y truncamiento por la izquierda. 2.1 Censura por la derecha Como se mencionó anteriormente existen varias formas de generar censura. Estos mecanismos de censura son: censura tipo I, censura tipo II y censura aleatoria. CENSURA TIPO I. o La censura tipo I aplica cuando el tiempo de supervivencia es observado sólo si ese tiempo es menor a un tiempo predeterminado de censura. En caso contrario, la observación se considera censurada por la derecha. o Los tiempos de censura pueden variar de individuo a individuo. o Sea Ci el tiempo de censura del individuo i. El tiempo de fallo Ti es observado si Ti C i , de otra forma sólo conocemos que Ti C i . En presencia de censura por la derecha tendremos para cada individuo un par de observaciones ti , i , donde ti minTi , C i y i I Ti C i . 36 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS o Importante: Una observación Ti es censurada por la derecha si Ti C i . o La forma más común en que ocurre la censura tipo I es cuando en un ensayo clínico, con humanos o con animales, comienza con un número fijo de individuos a los que se les administra un tratamiento. Debido a costos o a tiempos acotados, el investigador decide terminar el estudio antes de que todos los individuos presenten su evento de fin. o Aunque la forma más común en la que se presenta la censura tipo I es cuando se tiene un tiempo determinado para la terminación de un estudio, lo cual no permite que el evento de fin ocurra, no generalicemos 37 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS y pensemos que si no se conoce el evento de inicio entonces se incurrirá en una censura por la izquierda. De hecho, en el caso de que un individuo entró al estudio en cierto momento a partir del cual se comenzó a registrar su tiempo y presenta su evento de fin, pero no se conoce el momento del evento de inicio porque ocurrió antes de que entrara al estudio. En este caso, su tiempo de fallo Ti será un tiempo tal que Ti C i , donde Ci es su tiempo registrado desde el inicio del estudio. o Múltiples tiempos de censura: Considera un estudio con ratones, en donde para cada sexo, 200 ratones fueron aleatoriamente divididos en 4 grupos (niveles de dosis) y cada ratón fue monitoreado hasta la muerte o hasta un tiempo pre‐especificado de sacrificio (42 o 104 semanas). 38 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS CENSURA TIPO II. o La censura tipo II ocurre cuando un estudio continua hasta que se presenta la falla de los primeros r n individuos. En este caso, sólo los primeros r tiempos t(1) t(2) t(r) son observados y los últimos nr tiempos quedan censurados por la derecha. o La censura tipo II ocurre por lo general en pruebas de la duración de equipo. Todos los aparatos son puestos a funcionar al mismo tiempo y la prueba se termina cuando los primeros r de los n aparatos fallan. 39 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS o Los experimentos con censura tipo II tienen la desventaja práctica de que el tiempo total del estudio T(r) , que define el tiempo de censura C, es aleatorio y desconocido al inicio del estudio. Por otro lado, puede reducir costos y tiempo debido a que pudiera necesitarse un tiempo muy largo en que todos los aparatos fallen. o De igual manera, una observación Ti será censurada por la derecha de tipo II si Ti C , con C T(r) . CENSURA ALEATORIA. o La cesura aleatoria ocurre cuando los tiempos de censura Ci de cada paciente son consideradas variables aleatorias. o Por ejemplo, en un ensayo clínico, pacientes entran al estudio en momentos distintos y cada uno puede recibir un tratamiento distinto. La cesura puede ocurrir por distintas causas que compiten al mismo tiempo, como muerte accidental, migración a otra población, muerte por otra causa distinta al evento de interés, salida del paciente del ensayo clínico, terminación del estudio, etc. o La censura aleatoria ocurre, por ejemplo, en estudios de pacientes con diálisis, donde falla del catéter es la primera razón de censura de los 40 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS tiempos de infección. Otras razones de censura son muerte del paciente o que el hospital se rehuse a aceptar al paciente por falta de pago. o Si el mecanismo de censura aleatoria Ci es dependiente de los tiempos de falla Ti, se le conoce como censura informativa, es decir, el tiempo de censura nos da información sobre los tiempos de fallo. En caso de que el mecanismo de censura sea independiente del tiempo de fallo, se le conoce como censura no informativa y el tratamiento de este tipo de datos es igual a los de censura tipo I. 2.2 Censura por la izquierda y censura por intervalo Censura por la izquierda. Un tiempo de fallo asociado con un individuo específico en un estudio, es considerado censurado por la izquierda, si es menor a un tiempo de censura observado. Por ejemplo, el tiempo de fin ha ocurrido en un momento anterior al momento de inicio en el estudio, o cuando el tiempo de inicio ocurrió posterior al inicio del estudio pero por alguna razón no se registró. Si Cl denota el tiempo de censura por la izquierda y Ti el tiempo de fallo del individuo i, entonces el tiempo de fallo es observado sólo si Ti Cl , en caso contrario Ti Cl se dice que la observación está censurada por la 41 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS izquierda. Los datos con censura por la izquierda corresponderán a un par de observaciones ti , i , donde ti max Ti , Cl y i I Ti Cl . o Importante: Una observación Ti es censurada por la izquierda si Ti Cl . Un ejemplo de censura por la izquierda son los datos de los tiempos al primer uso de marihuana. Otro ejemplo surge en los centros de desarrollo de habilidades tempranas infantil se tiene el interés de determinar el momento en el que un niño aprende a desarrollar cierta tarea. La edad a la que un niño aprende la tarea es nuestro tiempo de interés. Frecuentemente algunos niños pueden ya desarrollar la tarea cuando inician en el estudio. En este caso estos tiempos son censurados por la izquierda. Doble censura. Frecuentemente si en un estudio ocurre censura por la izquierda, también puede ocurrir censura por la derecha. En este caso los tiempos de fallo con considerados doblemente censurados. En el caso de datos doblemente censurados, las observaciones pueden ser representadas por un par de variables ti , i donde ti maxminTi , Cr , Cl , con Cr y Cl los tiempos de censura por la derecha y por la izquierda, respectivamente; y i es indicador que toma el valor de 1 42 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS si ti es un tiempo exacto, 0 si es censurado por la derecha y ‐1 si es censurado por la izquierda. En este caso Cl es el tiempo antes del cual algunos individuos presentan el evento de interés, Cr es el tiempo después del cual algunos individuos presentan el evento de interés. El tiempo Ti será observado de manera exacta si es menor o igual a Cr y mayor o igual a Cl. En el ejemplo de la Marihuana, una posible respuesta es “nunca la he probado” lo que haría que la observación fuera censurada por la derecha. Censura por intervalo. Debido a que los tiempos de fallo por lo general ocurren en tiempo cronológico, una variedad de esquemas son usados para obtener datos de acuerdo a las restricciones del tiempo de prevalencia y de los recursos. Una forma más general de censura ocurre cuando la información del tiempo de fallo sólo se conoce dentro de un intervalo. A este tipo de censura se le conoce como censura por intervalo o censura intermitente. La censura por intervalo ocurre cuando individuos en un estudio son monitoreados intermitentemente en momentos discretos del tiempo, digamos semanas o meses. Si un individuo i no ha presentado su evento de fin antes del tiempo Li, pero al siguiente tiempo de observación Ri el 43 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS individuo ya presentó el evento de interés, entonces se dice que Ti es censurado en el intervalo (L i ,Ri ] , i.e., L i Ti Ri . Por ejemplo, en un estudio de pacientes con problemas cardiacos, la edad a la que individuos desarrollan por primera vez una enfermedad coronaria de corazón, por lo general se conoce de manera exacta. Sin embargo, la edad a la que presentan por primera vez angina de pecho se conocerá sólo entre dos exámenes clínicos de dos años de diferencia. 2.3 Truncamiento Una segunda característica de los datos de tiempos de fallo, que algunas veces se confunde con censura es el truncamiento. El truncamiento se define como la condición que presentan ciertos individuos, que sin ella no serían percibidos por el investigador. Truncamiento en el análisis de tiempos de falla ocurre cuando únicamente aquellos individuos cuyo tiempo de fallo ocurre en una ventana U, V son observados. Un individuo cuyo tiempo de fallo no está en este intervalo, no es observado y ningún tipo de información está disponible para el investigador. En cambio en la censura, al menos se conoce información parcial. 44 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS Una mejor forma de entender al truncamiento es pensar que sólo nos interesan los tiempos de fallo Ti tales que Ui Ti Vi , es decir, Ti Ti Ui , Vi . Truncamiento por la izquierda se presenta cuando es necesario que ocurra otro evento con tiempo de ocurrencia U, previo al evento de interés, para que el individuo sea considerado en el estudio. Es decir, sólo existe una cota inferior y V . El evento U puede ser exposición a una enfermedad, entrada a un centro de retiro, etc. Si Ui es el tiempo en el que ocurre el evento de truncamiento, entonces un individuo i, truncado por la izquierda, es aquel que para ser incluido en el estudio, su tiempo de fallo Ti debe de ser superior a Ui, i.e., Ti Ui . Aquellos individuos cuyo tiempo de fallo fue inferior al tiempo de truncamiento no son considerados como parte del estudio. Al truncamiento por la izquierda también se le conoce como tiempo retrasado de entrada a un estudio. Un ejemplo típico de truncamiento por la izquierda es en estudios de supervivencia de adultos mayores. Supongamos que un adulto mayor se considera aquel cuya edad es mayor a 60 años. En este caso sólo las edades de muerte de las personas con más de 60 años son considerados en el estudio. Aquellos individuos cuya edad de muerte sea menor a los 60 años no se contemplan en el estudio. 45 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS Otro ejemplo de truncamiento por la izquierda es en el estudio del diámetro de partículas vistas con un microscopio. Sólo las partículas suficientemente grandes que puedan ser vistas con la resolución del microscopio son observadas y aquellas partículas más pequeñas no son percibidas por el investigador. Truncamiento por la derecha se presenta cuando el tiempo de fallo debe de ser inferior a un tiempo de truncamiento V para que sea considerado en el estudio. Es decir, sólo existe una cota superior y U 0 . Aquellos individuos cuyo tiempo de fallo es superior a V no son observados. Truncamiento por la derecha surge en, por ejemplo, en el estudio de las distancias de las estrellas a la tierra. Estrellas cuya distancia la tierra sea muy grande no son consideradas en el estudio. Otro ejemplo es el estudio de los tiempos de infección por VIH. Sólo aquellos individuos que fueron infectados y han desarrollado sida con considerados en el estudio. Aquellos que no han desarrollado sida son desconocidos para el investigador. Lo más común en un estudio de análisis de supervivencia es que se tengan observaciones censuradas por la derecha y truncadas por la izquierda. 46 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS 2.4 Construcción de la función de verosimilitud Como se ha mencionado anteriormente, el diseño del estudio de los tiempos de falla, que involucra observaciones censuradas y truncadas, debe de ser considerado con cuidado en la construcción de la función de verosimilitud. En un sentido amplio, la función de verosimilitud se puede entender como la distribución (“probabilidad”) conjunta de las observaciones, vista como función de los parámetros. Es este sentido, los distintos tipos de observaciones, censuradas y/o truncadas contribuyen a la verosimilitud de diferente manera. CONTRIBUCIONES A LA FUNCIÓN DE VEROSIMILITUD por tipo de observación: o Exactas Ti: f ti o Censuradas por la derecha Ti C i : PTi C i SC i o Censuradas por la izquierda Ti C i : PTi C i 1 SC i o Censuradas por intervalo L i Ti Ri : PL i Ti Ri SL i SRi o Truncadas por la izquierda Ti Ti Ui : PTi Ti Ui f ti SUi o Truncadas por la derecha Ti Ti Vi : PTi Ti Vi f ti 1 SVi o Truncadas por intervalo Ti Ti Ui , Vi : PTi Ti Ui , Vi f ti SUi SVi 47 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS Finalmente, dado que las observaciones son mutuamente independientes, la función de verosimilitud se construye multiplicando todas las contribuciones a la verosimilitud de todas las observaciones, i.e., L f ti SC i 1 SC i SL i SRi iD iR iL iI donde D es el conjunto de los tiempos de fallo, R el conjunto de las observaciones censuradas por la derecha, L el conjunto de las observaciones censuradas por la izquierda, e I el conjunto de las observaciones censuradas por intervalo. o Para observaciones truncadas por la izquierda, se reemplaza f ti por f ti SUi , y SC i por SC i SUi para observaciones exactas y censuradas por la derecha, respectivamente. o Para observaciones truncadas por la derecha, no existen observaciones censuradas, únicamente observaciones exactas. En este caso, se reemplaza f ti por f ti 1 SVi . Consideremos ahora ejemplos particulares de la forma de la función de verosimilitud para distintos tipos de observaciones censuradas y truncadas. Censura tipo I. Sean T1,T2,…,Tn una colección de v.a.i.i.d. En lugar de tener el valor observado de cada v.a., tenemos un tiempo ti que sabemos que puede corresponder a una observación exacta o a un tiempo de censura 48 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS por la derecha. En este caso, la muestra observada consiste de pares de variables ti , i , i1,…,n, donde ti minTi , C i y i I Ti C i . En este caso, la función de verosimilitud es de la forma n L f ti i Sti 1i i1 Considerando que f t ht St , entonces la verosimilitud se reduce a n n L hti Sti hti i exp Hti . i i1 i1 EJEMPLO: Suponga que los tiempos de fallo Ti son independientes y provienen de una distribución exponencial con función de densidad f t e t , y función de supervivencia St e t . En este caso, la función de riesgo es ht . Por lo tanto, la función de verosimilitud toma la forma n L i exp ti i1 n r exp ti , i1 n con r i el número de observaciones exactas en la muestra. La i1 función de log‐verosimilitud es n log L r log ti . i1 El estimador máximo verosímil es aquel que dlog L d 0 . Este es ˆ r i1 ti n . 49 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS Censura aleatoria. Consideremos ahora el caso en el que la censura por la derecha es producida por un mecanismo aleatorio. Suponga que cada individuo tiene un tiempo de fallo T y un tiempo de censura C, con T y C variables aleatorias independientes con funciones de supervivencia S(t) y G(t) respectivamente. Suponga que todos los tiempos de fallo y los tiempos de censura son mutuamente independientes. Suponga además que G(t) no depende de ninguno de los parámetros de S(t). Igual que en el caso de censura tipo I, ti minTi , C i y i I Ti C i . Entonces, los datos de n individuos consiste de pares ti , i , i1,…,n. Si suponemos que f(t) y g(t) son las funciones de densidad de T y C respectivamente, entonces la distribución conjunta de las observables es Pti t, i 0 PC i t, Ti C i gt St Pti t, i 1 PTi t, Ti C i f t Gt Estas dos expresiones se pueden combinar en una sola expresión de la siguiente manera Pti t, i f t Gt i gt St 1i En este caso, la distribución conjunta es n L f ti Gti i gti Sti 1i . i1 Como g(t) y G(t) no contienen ninguno de los parámetros de f(t) y S(t), se puede prescindir de ellos y escribir n L f ti i Sti 1i i1 50 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS Por lo tanto, la verosimilitud con censura aleatoria es proporcional a la verosimilitud con censura tipo I. Censura tipo II. Recordemos que únicamente los r tiempos de fallo t(1) t(2) t(r) más pequeños son observados, dejando a nr tiempos censurados por la derecha. Entonces, los datos consisten en los r tiempos de fallo más pequeños en una m.a. T1,T2,…,Tn. Usando resultados de cálculo de probabilidades podemos obtener la función de densidad conjunta de las estadísticas de orden T(1) , T(r) y definir la función de verosimilitud como n! r nr L f t (i) St (r) . n r ! i1 Si quitamos la constante n! n r ! , y si notamos que en términos de la notación ti , i se tiene que para i 0 , ti t(r) entonces la verosimilitud anterior se reescribe como n L f ti i Sti 1i i1 Que coincide nuevamente con la función de verosimilitud obtenida con censura tipo I. Truncamiento por la izquierda. Consideremos un escenario en donde los tiempos de fallo están truncados por la izquierda, i.e., para que Ti sea observado debe de ocurrir que Ti Ui . En este caso, los datos observados consisten de ui , ti , i , para i1,…,n, donde ti ui es un tiempo de fallo o un tiempo de censura por la derecha de acuerdo con el indicador i. En 51 Análisis de Supervivencia PROFESOR: LUIS E. NIETO BARAJAS este caso, la función de verosimilitud para n individuos con observaciones independientes es i 1i f t St L i i i1 Sui Sui n n hi ti i i1 Sti . Sui Truncamiento por la derecha. Consideremos ahora un escenario en donde los tiempos de fallo están truncados por la derecha, i.e., para que Ti sea observado debe de ocurrir que Ti Vi . En este caso, los datos observados consisten de v i , ti , para i1,…,n. Nótese que en este caso todas las observaciones son exactas, i.e., no hay observaciones censuradas por la derecha. En este caso, la función de verosimilitud para n individuos con observaciones independientes es f ti . 1 S v i1 i n L EJEMPLO: Considera los datos de un estudio retrospectivo (hacia atrás en el tiempo) de pacientes con VIH y sida. El objetivo es estimar la distribución del tiempo t entre la infección por VIH y el diagnóstico de sida. El grupo de estudio consistía en pacientes que tenían un diagnóstico de sida antes del 1 de julio de 1986. para cada persona también se conocía el momento de infección, porque se consideró que el contagio ocurrió mediante una transfusión sanguínea. La condición para ser considerados en el estudio es que Ti v i , con vitiempo entre la infección de VIH y 1 de julio de 1986. 52 Análisis de Supervivencia