ANALISIS DE SUPERVIVENCIA Se define en términos generales como un conjunto de métodos para el análisis de variables que miden el tiempo hasta la ocurrencia de un evento de interés. El evento puede ser la muerte, la aparición de una enfermedad, el no pago de una deuda, etc. Una dificultad propia del análisis de supervivencia es la posibilidad de tener una situación en donde la información sobre la supervivencia de algunos individuos es incompleta, es decir, que el tiempo hasta que se produce el suceso no sea observado, bien porque el evento de interés ha ocurrido antes que la persona entrara en el estudio (censura por la izquierda), bien porque cuando se analiza el estudio aún no ha acontecido (censura por la derecha), y en general porque lo único que se sabe es que el evento de interés ha ocurrido dentro de un cierto intervalo de tiempo. Estas características peculiares de los estudios de supervivencia se conocen bajo el nombre de censura. Seguidamente se hace un resumen de los análisis que se pueden hacer con las variables del tipo “tiempo hasta un evento”, de forma univariada y multivariada, conceptos para ser discutidos en las dos sesiones del cursillo, una por cada gran área. Análisis Univariados Los análisis del tiempo hasta la ocurrencia de un evento se realizan bajo muchos puntos de vista, desde descriptivos hasta modelos de regresión, pero no con las metodologías clásicas. En primer lugar, los tiempos de supervivencia son positivos, y para efectos de pronóstico, metodologías como la regresión lineal ordinaria puede no ser la mejor opción. En segundo lugar, y la más importante, las metodologías clásicas, no están diseñadas para manejar apropiadamente la censura de las observaciones. Los análisis se centran de forma importante en las funciones de sobrevivencia y de riesgo. La función de supervivencia da la probabilidad de sobrevivir (o no experimentar el evento) hasta un punto particular en el tiempo. Con la función de riesgo se puede aproximar la probabilidad que un individuo que ha sobrevivido a un tiempo t, le ocurra el evento en un instante infinitesimal próximo. Dado que en los cursos típicos de probabilidad e inferencia, estas funciones o no son tratadas o se mencionan de forma superficial, los textos y cursos en esta área comienzan por abordar detalladamente estas funciones junto con las funciones de probabilidad y de distribución. Se definen las funciones, sus relaciones y su estimación, ejemplificando estos conceptos con base en las distribuciones de probabilidad más usadas en el modelamiento del tiempo a un evento, como la weilbul, lognormal, y loglogística, entre otras. Los procesos de inferencia incluyen pruebas de una, dos y k poblaciones, además de pruebas de bondad de ajuste. Para describir la relación de un factor de interés (por ejemplo, un tratamiento) con el tiempo a un evento, en la presencia de varias covariables, como la edad o la raza, se dispone de varios modelos con enfoque paramétrico, no paramétrico y semiparamétrico. El enfoque no paramétrico no se hace a través de un modelo tipo regresión, y en ese sentido aunque incluye procesos de inferencia, es usual que se le catalogue como de procesos descriptivos. Es realizado principalmente a través del estimador Kaplan Meier de la función de supervivencia. Las diferencias globales entre las curvas de supervivencia estimada de dos o más grupos (como varones frente a mujeres, o grupo tratamiento frente a grupo control), se hace a través de pruebas como la de log-rank. En la práctica estas pruebas se ven como métodos para comparar las curvas estimadas de Kaplan-Meier para cada grupo de individuos. Los modelos de regresión pueden ser totalmente especificados de forma paramétrica, o incluir una parte no paramétrica. Los modelos de regresión paramétricos asumen que la distribución subyacente de los tiempos de supervivencia sigue una distribución de probabilidad continua conocida. El logaritmo del tiempo de supervivencia es expresado en términos de las covariantes, y los parámetros del modelo se estiman generalmente usando una modificación apropiada de la verosimilitud para contemplar la censura. Un modelo de regresión que no asume una distribución de probabilidad para el tiempo a un evento, es el modelo de regresión de riesgos proporcionales de Cox (1972). El modelo expresa la función de riesgo en términos de una función de riesgo bajo unas condiciones iniciales (riesgo basal), y una función de las covariantes. La parte que relaciona el riesgo con las covariantes está definida paramétricamente, y el riesgo basal no tiene supuestos ni se define en forma paramétrica, por esto se le denomina como modelo semi-paramétrico. Si bien se supone una relación no lineal entre la función de riesgo y los factores predictivos, la razón de riesgo que compara dos observaciones, es constante en el tiempo (para el caso en que las variables predictoras no varían con el tiempo). Esta suposición se conoce como supuesto de riesgos proporcionales. Lo anterior cubre los métodos más simples y comunes para el análisis de supervivencia con censura por la derecha. Otros métodos de análisis existen que manejan diferentes tipos de censura, con covariables predictoras dependientes en el tiempo, y con múltiples tiempos a evento. Algunos textos populares de consulta sobre metodologías de análisis univariados son los de: Klein & Moeschberger (2005), Lawless (2002), Kalbfleisch & Prentice (2002), Hosmer & Lemeshow (2008), Klinbaum (2011), Collet (2003), e Ibrahim et al. (2004). Análisis Multivariados Datos de tiempos multivariados de supervivencia surgen cuando la muestra consiste de grupos y cada grupo contiene varios tiempos a evento posiblemente dependientes, que pueden ser repeticiones de la misma clase de evento o pueden ser eventos de diferente naturaleza. Estos datos también se conocen como datos de tiempos de fallo correlacionados o agrupados. Hay dos casos generales de estructuras multivariadas (Hougard, 2000): - Datos en Paralelo: El individuo puede experimentar dos o más tiempos de fallos distintos que no satisfacen ninguna restricción de orden, y que se pueden observar en paralelo. - Datos Longitudinales: Para cada unidad se observan los eventos de interés o transiciones, en el tiempo. La diferencia entre estos dos casos es que para los datos en paralelo el número de tiempos es fijo, mientras que a los datos longitudinales se les permite un número aleatorio. Hougard (2000) describe seis subdivisiones de estos dos tipos de datos, para lo cual se da un breve comentario y algunos ejemplos. Para los datos en paralelo varias unidades se siguen simultáneamente. Las observaciones pueden consistir de datos pareados de varias personas como el tiempo a la muerte de un par de gemelos. Los datos también pueden provenir de tiempos de fallo de varios órganos del mismo individuo, por ejemplo, el tiempo de pérdida de la visión del ojo derecho e izquierdo. Un tercer caso resulta cuando el mismo evento se estudió durante un número fijo de veces, como el tiempo de alguna enfermedad antes y después de algún tratamiento; aparentemente la estructura de datos es longitudinal pero en este caso es paralelo porque el número de tiempos de observación es fijo. Un estudio popular es el de retinopatía diabética, (Huster, 1989), donde un grupo de 197 pacientes con diabetes fue seguido a través del tiempo; para cada persona un ojo fue tratado con fotocoagulación con láser, y el otro ojo no se trató. T1 y T2 son los tiempos en un grado determinado de pérdida de visión en cada uno de los dos ojos. Las personas con diabetes tienen un riesgo de pérdida de la visión, y el estudio mide la efectividad del tratamiento. Para los datos longitudinales, los tiempos pueden corresponder a la recurrencia de eventos similares (eventos recurrentes), o pueden ser transiciones entre diferentes estados (diferentes eventos). Cuando pueden ocurrir varias causas para el mismo evento, se tienen causas que compiten en la realización del evento, concluyendo en un tercer caso de datos longitudinales mencionado como riesgos en competencia. Esta tercera situación en sí no es multivariada porque se tiene un sólo evento, pero se incluye aquí porque el caso se puede beneficiar de la teoría general. El estudio de la Administración de la Cooperativa de Urología Grupo de Investigación de Veteranos (Byar, 1980) en el contexto del cáncer de vejiga, es un caso de estudio popular en tiempos de eventos recurrentes. En el estudio, todos los pacientes tenían tumores de vejiga cuando entraron en el estudio, una vez que estos se retiraron, los pacientes fueron asignados aleatoriamente a uno de tres tratamientos: placebo, tiotepa y piridoxina. Muchos pacientes tuvieron múltiples recidivas de tumores durante el estudio y nuevos tumores fueron removidos en cada visita. Uno de los análisis evalúa la eficacia de tiotepa basado en los tiempos de la recurrencia del tumor. Otro ejemplo se encuentra en el seguimiento de pacientes tratados de cáncer de colon (lin, 1999). Los pacientes fueron asignados al azar a quimioterapia o con placebo. Las personas diagnosticadas con cáncer de colon y libre de la enfermedad, pueden posteriormente tener recurrencia y luego mueren. El estudio analiza el efecto de la terapia en retrasar el tiempo hasta la recurrencia y el tiempo hasta la muerte desde la terapia. Un caso típico de datos longitudinales se presenta cuando una persona puede caer en tres estados: sano, discapacitado y muerto, y es seguido en el tiempo. En algunos casos, las transiciones se producen de forma secuencial y la transición k sólo se produce después de haber ocurrido las k-1 transiciones anteriores. Referencias 1. Collett, D. Modelling Survival Data in Medical Research, Second Edition. Chapman and Hall/CRC, 2003. 2. Cox, D. R. Regression Models and Life Tables (with discussion). Journal of the Royal Statistical Society, Series B (1972); 34, 187-220. 3. Hosmer D.W., Lemeshow S., and May S. Applied Survival Analysis: Regression Modeling of Time-to-Event Data. Wiley, 2008. 4. Hougaard, P. Analysis of Multivariate Survival Data. Springer-Verlag, New York (2000). 5. Ibrahim, J. G., Chen, M-H. & Sinha, D. Bayesian Survival Analysis. Springer, 2004. 6. Kalbeisch, J. D. and Prentice, R. L. The Statistical Analysis of Failure Time Data. John Wiley, New York, 2nd edition (2002). 7. Klein, J. P. & Moeschberger, M. L. Survival Analysis: Techniques for Censored and Truncated Data. Springer, 2005. 8. Kleinbaum, D. G. & Klein, M. Survival Analysis: A Self-Learning Text, Third Edition (Statistics for Biology and Health). Springer, 2011. 9. Lawless, J. F. Statistical Models and Methods for Lifetime Data, 2 nd edition. Wiley Hoboken (2003).