Supervivencia Relativa - Universidad de Granada

Anuncio
UNIVERSIDAD DE GRANADA
Departamento de Estadística e I.O.
MASTER OFICIAL EN ESTADÍSTICA APLICADA
SUPERVIVENCIA RELATIVA
Silvia García Ortega
Tutora: M. Luz Gámiz Pérez
Granada, Junio 2014
Trabajo Fin de Máster: Supervivencia Relativa
A MI FAMILIA,
LA PASADA, PRESENTE… Y FUTURA!
“El reto de la vida es un continuo
aprendizaje para la supervivencia…”
Silvia García Ortega
II
Trabajo Fin de Máster: Supervivencia Relativa
AGRADECIMIENTOS
No podía empezar este trabajo sino agradeciendo a todas las personas que de
una u otra forma me han ayudado a estar aquí.
En primer lugar, a M. Luz Gámiz… cuando me matriculé en un máster que
se ajustaba a mis horarios no imaginé que también lo haría mi tutora. Da
igual a qué hora del día o de la noche le escribiese, ella siempre estaba ahí,
solucionando el problema. Así que, aunque sea típico y tópico deseo dar mis
más sinceras GRACIAS a mi tutora M. Luz Gámiz, un verdadero placer
tenerla de nuevo como profesora.
¿Qué decir de la familia? Sin su esfuerzo y continuo sacrificio no hubiese
logrado realizar mis estudios. Hoy estoy aquí gracias a ellos. Y gracias no
sólo por estos meses sino por toda una vida. A pesar de la distancia os siento
muy cerca. Os Quiero!
También tengo que dar las gracias a mis amigos, amigos que se convierten
en familia… han sido un derroche de ánimos, una inyección de optimismo...
Qué agradable es sentirse tan arropada y querida… GRACIAS. Con vosotros
cualquier día, a cualquier hora, en cualquier lugar… Y GRACIAS, una vez
más, a los que también han sido “mis profes de R”, qué paciencia han tenido
conmigo!!!!
Y en último lugar, pero no menos importante… infinitas GRACIAS a mi
esposo, quien ha tenido que soportar muy de cerca mis altibajos emocionales
y aún así sigue a mi lado. Ha sido un año complicado pero contigo todo es
más fácil. Gracias por estar siempre ahí, por animarme… por quererme… No
imagino mi vida sin ti!! TE QUIERO!
Silvia García Ortega
III
Trabajo Fin de Máster: Supervivencia Relativa
Silvia García Ortega
IV
Trabajo Fin de Máster: Supervivencia Relativa
ÍNDICE
Capítulo I. Introducción al análisis de supervivencia ......................................................... 3
I.1. Características de los datos de tiempo.................................................................... 4
I.2. Funciones que describen la variable aleatoria tiempo de vida ................................... 6
I.3. Modelos aleatorios usuales en análisis de supervivencia ........................................... 8
I.3.1. Modelos paramétricos .................................................................................... 8
I.3.2. Métodos no paramétricos ............................................................................. 10
I.3.3. Modelos Semiparamétricos ........................................................................... 17
Capítulo II. Cálculo de la Supervivencia Relativa ............................................................ 21
II.1. Introducción ..................................................................................................... 21
II.1.1. ¿Qué se entiende por supervivencia relativa? ................................................ 22
II.1.2. Definición y Notación .................................................................................. 24
II.2. Supervivencia esperada (SE) .............................................................................. 25
II.2.1 Métodos Ederer para el cáculo de la SE ......................................................... 26
II.2.2 Método Hakulinen para el cálculo de la SE ..................................................... 27
II.2.3. Intervalo de Confianza para la Supervivencia Relativa.................................... 27
II.2.4. Ejemplo ..................................................................................................... 28
II.3. Modelos de regresión para el análisis de la supervivencia relativa .......................... 34
II.3.1 Modelo aditivo............................................................................................. 34
II.3.2 Modelo multiplicativo ................................................................................... 35
II.3.3. Otros modelos............................................................................................ 36
Capítulo III. Supervivencia Relativa en R. El libro relsurv ................................................ 39
III.1.
III.2.
III.3.
III.4.
Función rsaad .................................................................................................. 40
Función rsmul .................................................................................................. 41
Función rstrans ................................................................................................ 42
Ejemplos ......................................................................................................... 42
Capítulo IV. Aplicación Práctica: Supervivencia relativa de enfermos de SIDA en población
infantil ....................................................................................................................... 50
IV.1.
IV.2.
IV.3.
IV.4.
IV.5.
Presentación de los datos.................................................................................. 50
Estimación de la supervivencia observada........................................................... 51
Cálculo de la supervivencia esperada ................................................................. 58
Estudio de la supervivencia relativa .................................................................... 61
Conclusiones .................................................................................................... 64
Anexo 1. Análisis de supervivencia mediante R ............................................................. 66
Anexo 2. Tablas de Mortalidad ..................................................................................... 74
Anexo 3. Glosario de términos ...................................................................................... 88
Anexo 4. Código ......................................................................................................... 96
Anexo 5. Bibliografía ..................................................................................................100
Silvia García Ortega
1
Trabajo Fin de Máster: Supervivencia Relativa
Silvia García Ortega
2
Trabajo Fin de Máster: Supervivencia Relativa
Capítulo I
Introducción al análisis de supervivencia
El Análisis de Supervivencia o Análisis de Fiabilidad es el conjunto de técnicas que se
utilizan para analizar los datos, en los que la variable de interés T es el tiempo que transcurre
desde un instante inicial bien definido, hasta la ocurrencia de un determinado suceso o
instante final (p.e. fallo de una pieza, recaída o muerte de un paciente, etc).
Existen varios textos que abordan en profundidad el análisis de supervivencia, tales como
Klein y Moeschberger (1997), Andersen, Borgan, Gill y Keiding (1993), Cox y Oakes
(1984), Lawless (1982), Kalbfleish y Prentice (1980), entre otros.
Son múltiples las ocasiones en las que solo se tienen datos completos de este tiempo de
seguimiento o tiempo de vida T (v.a. no negativa) en una parte pequeña de las n unidades o
individuos de la muestra que se desea analizar, mientras que del resto solamente se tiene
información parcial o incompleta.
Por tanto: Si se observan los individuos desde un evento inicial hasta el evento final o de
ocurrencia del fenómeno que se desea estudiar se tiene una observación completa, y a la
ocurrencia del evento de interés se le suele denominar fallo o muerte.
Silvia García Ortega
3
Trabajo Fin de Máster: Supervivencia Relativa
Con más frecuencia, es posible contar con observaciones incompletas de los períodos que
transcurren entre el tiempo inicial y el tiempo final. Esta particularidad, dificulta el análisis
estadístico en los estudios de Fiabilidad y de Análisis de Supervivencia, ya que los datos
pueden venir con censura o truncamiento.
En el
se estudia la ocurrencia de un fenómeno demográfico en una
cohorte de individuos. En este sentido, al trabajar con grupos homogéneos de población, se
ofrece un mayor poder explicativo, ya que se realiza sobre individuos caracterizados por un
suceso-origen común.
Pertenece a una misma
el conjunto de individuos que entran a formar parte de un
conjunto poblacional observable, dentro del mismo periodo de tiempo. Cuando el conjunto
poblacional es el total de la población y la entrada no es otra cosa que el nacimiento, la
cohorte recibe el nombre de
.
Por otro lado, en el
se estudia la experiencia de los individuos en un
momento histórico determinado. Este se presta mejor al estudio coyuntural de un momento
determinado, que también es útil para la interpretación causal y supera el inconveniente de
los indicadores longitudinales que no pueden ser calculados sino después de la ocurrencia
completa del fenómeno estudiado en una cohorte. Su objetivo es el de describir una población
y analizar los fenómenos que la caracterizan. Sin embargo presenta el inconveniente de
recoger, para un momento determinado, la experiencia de un conjunto diverso de
generaciones.
I.1. Características de los datos de tiempo
Como hemos visto, la censura y el truncamiento son las dos principales inconvenientes que
hacen imposible la observación completa de los tiempos de seguimiento.
En la censura, se distinguen dos tipos:
(censura única por tiempo): El suceso de interés se observa si ocurre antes
de de un instante fijo predeterminado; por tanto, los individuos son observados hasta un
tiempo determinado. Este tipo de censura es común, cuando por diversas causas, el
investigador finaliza el estudio antes de que todos los individuos hayan experimentado el
suceso de interés.
(censura única por número de fallos): los individuos son observados hasta
que ocurran un número determinado de fallos o eventos de interés. Estos experimentos se
denominan ensayos limitados o censurados por número de fallos y son fáciles de analizar
desde el punto de vista estadístico.
La determinación del tiempo para el Tipo I y el número de fallos para el Tipo II deben
establecerse antes de iniciar el experimento, y no durante el transcurso del mismo. La
Silvia García Ortega
4
Trabajo Fin de Máster: Supervivencia Relativa
necesidad de que el mecanismo de censura sea independiente de la observación del fenómeno
es un requisito imprescindible para la validez de las conclusiones.
Atendiendo a las causas que dan lugar a la censura (aleatorias o controladas) o al
truncamiento, se distinguen los siguientes tipos:
: Se considera dentro de la Censura Tipo I. Una observación se
dice censurada a la derecha de un cierto valor conocido si se desconoce el valor exacto de
la observación
y solo se sabe que esta es mayor que . Así pues, se presenta cuando
termina la observación y aún no ha ocurrido el suceso que se desea observar. Existen varias
razones para que se de este tipo de censura:
Finaliza el estudio y no haya ocurrido el evento (si el periodo de seguimiento es finito),
El individuo abandona el estudio,
El individuo o dispositivo ha sido afectado por otro evento que imposibilite la ocurrencia del
evento que se desea observar.
: Análogamente, una observación
se dice censurada a la
izquierda de un cierto valor conocido si se desconoce el valor exacto de la observación y
solo se sabe que ésta es menor que
el momento exacto en el que ocurrió el evento es
desconocido, sólo se sabe que ha ocurrido antes de que el individuo se incluya en el estudio.
Por consiguiente, en la primera observación que se realiza sobre el individuo ya ha ocurrido
el evento que se desea observar. Este tipo de censura suele confundirse con el truncamiento
por la izquierda o la entrada tardía.
: Los datos están censurados tanto por la izquierda como por la derecha.
Situaciones prácticas con muestras doblemente censuradas han sido estudiadas entre otros
por, Gehan (1965), Mantel (1967), Peto (1973), Leiderman et al.(1973), Turnbull (1974),
Turnbull y Weiss (1978), Morales et al. (1991), Tang et al. (1995).
: Tiene lugar cuando el tiempo de vida se sabe que ocurre
solamente dentro de un intervalo. Este tipo de censura se presenta cuando se tiene un estudio
longitudinal donde el seguimiento del estado de los sujetos se realiza periódicamente y por
tanto, el fallo sólo puede conocerse entre dos periodos de revisión, generando un intervalo de
la forma
para cada sujeto en el estudio.
: Se produce cuando en el transcurso de un estudio, algunas unidades
experimentan otros sucesos independientes del de interés que provocan la salida del estudio.
Esto puede deberse fundamentalmente a varias razones: a que hasta el momento de la
finalización del estudio no haya ocurrido el evento (si el periodo de seguimiento es finito), a
que el individuo abandone el estudio, o en el caso de que ocurra en el individuo o dispositivo
otro evento que imposibilite la ocurrencia del evento que se desea observar.
Silvia García Ortega
5
Trabajo Fin de Máster: Supervivencia Relativa
: Cuando no existe un único tiempo de censura. Para una descripción
detallada puede consultarse a Hill et al. (1990), Miller (1981), Lawless (1982), Kalbleisch y
Prentice (1980).
(entrada tardía al estudio): los sujetos comienzan a ser
observados a edades aleatorias, es decir, el origen del tiempo de vida precede al origen del
estudio. Para aquellos sujetos en los que el fallo tiene lugar antes del inicio del estudio serán
ignorados y no entrarán a formar parte del estudio. La información que se registra se refiere
por tanto no a la variable de interés tiempo de vida tal cual, sino a esta variable condicionada
a que el individuo sobrevivió para entrar en el estudio.
: sólo se incluyen los individuos que presentan el suceso. En
este caso la información que se registra también corresponde a una variable condicionada a
que el tiempo de fallo fue anterior a la finalización del estudio.
I.2. Funciones que describen la variable aleatoria tiempo de vida
Sea una variable aleatoria continua positiva (o no negativa) que representa el tiempo hasta
la ocurrencia del suceso de interés, con función de distribución
absolutamente continua
y función de densidad de probabilidad
.
La
, se define como la probabilidad de que el
individuo sobreviva más allá del instante , esto es:
PROPIEDADES
1.
2.
es monótona, decreciente y continua
y
Si T es una variable continua, la
,
el cociente entre la función de densidad y la función de supervivencia:
, se define como
Se interpreta como la probabilidad de que a un individuo le ocurra el suceso de interés en la
siguiente unidad de tiempo
dado que ha sobrevivido hasta el tiempo t.
Silvia García Ortega
6
Trabajo Fin de Máster: Supervivencia Relativa
Cuando se está estudiando la evolución de un individuo, se puede estimar esta función
considerando una serie de individuos en condiciones similares. Con el fin de elegir un
modelo adecuado en términos de la función de riesgo, es conveniente tener en cuenta los de
tres tipos de "fallos" (sucesos en general) que presentan características esencialmente
temporales:
: se manifiesta al principio de la vida del individuo y va desapareciendo
conforme se desarrolla el periodo inicial. P.e.: en las tablas de mortalidad humana se supone
que al principio de la vida de un individuo hay presentes ciertas características de tipo
hereditario que pueden provocar desenlaces fatales y que van desapareciendo conforme el
individuo crece.
: ocurre durante el periodo en el que el individuo presenta una función de
riesgo constante, generalmente menor que la que prevalece durante su periodo inicial. P.e.: en
las tablas de mortalidad humana, las muertes ocurridas entre los 10 y 30 años se suponen que
son por accidentes.
: se asocia con un deterioro gradual del individuo. P.e.: en las tablas de
mortalidad humana a partir de los 30 años existe una proporción creciente de muertes debidas
al envejecimiento del individuo.
La función de riesgo o tasa de fallo, varía en función del tiempo, de forma que, si la
evolución de un individuo sólo estuviese afectada por estos tres tipos de fallo, el modelo
seleccionado tendría una función de riesgo cuya forma es conocida como Curva de Bañera.
Se caracteriza, porque durante el primer periodo de vida de las unidades o individuos, la tasa
de fallo es decreciente (periodo de fallos precoces) hasta que se alcanza un valor en el cual se
mantiene sensiblemente constante (periodo de fallos accidentales) y que es la zona llamada
de “vida útil”. Finalmente, a partir de un determinado instante de tiempo, la tasa de fallo
crece suavemente al comienzo, pero luego con el tiempo de un modo más rápido (periodo de
fallos por envejecimiento).
Para toda variable continua T, la Función Riesgo Acumulada,
, se define como:
Esta función es importante en la medición de la frecuencia con que ocurren los fallos o
rupturas en el tiempo, en la construcción de papeles probabilísticos y en el análisis de
residuos para el ajuste de algunos modelos.
Silvia García Ortega
7
Trabajo Fin de Máster: Supervivencia Relativa
Las funciones
y
así definidas, caracterizan la distribución de
probabilidad de la variable aleatoria , de modo que una vez obtenida una de ellas el resto
también se puede determinar:
I.3. Modelos aleatorios usuales en análisis de supervivencia
En este apartado comentaremos las distribuciones de probabilidad más empleadas en
Fiabilidad y Análisis de Supervivencia. Los métodos tradicionalmente utilizados en análisis
de supervivencia, pueden dividirse en tres grupos: paramétricos, no paramétricos y
semiparamétricos. Los más extendidos, son los semiparamétricos y paramétricos; y las
estimaciones que se obtienen con estos métodos, sirven de gran apoyo a posteriores análisis
estadísticos más detallados y elaborados. Los métodos no paramétricos tienden a ser más
sencillos. Éstos métodos son menos eficientes que los métodos paramétricos, pero resultan de
gran utilidad cuando no se conoce ningún modelo paramétrico que se ajuste adecuadamente a
los datos.
I.3.1. Modelos paramétricos
A menudo, se han empleado en la literatura modelos paramétricos para estimar funciones de
fiabilidad y realizar contrastes de hipótesis sobre las mismas. En general, son usados en el
análisis del tiempo de vida y en problemas relacionados con la modelización del
envejecimiento y el proceso de fallo. Dentro de estos modelos, los más utilizados son la
Exponencial, la Gamma, la Weibull, la Normal y la Log-Normal.
Para hacer uso de ellos, en un principio se asumen ciertas funciones de probabilidad para la
variable T. Seguidamente, se procede con la estimación de los parámetros característicos de
la distribución elegida, a través métodos de máxima verosimilitud o mínimos cuadrados, y
usar su normalidad asintótica para realizar la estimación por intervalos y los contrastes de
hipótesis. Por último se realizan las pruebas de bondad de ajuste.
Los modelos paramétricos, en general, se consideran más potentes que los no paramétricos. A
continuación se presentan algunas de las distribuciones anteriormente referenciadas.
Distribución Exponencial
La distribución exponencial es la más utilizada en el análisis de tiempo de fallos. Se emplea
para modelizar el tiempo transcurrido entre dos sucesos aleatorios siendo la tasa de
ocurrencia, , constante. Su función de densidad tiene la siguiente expresión:
,
dónde
es la tasa de fallo, constante y positiva.
En fiabilidad se usa para describir los tiempos de fallo de una unidad durante su etapa de vida
útil, en la cual la tasa de fallo es (aproximadamente) constante. Esto significa que, para una
unidad que no haya fallado con anterioridad, la probabilidad de fallar en el siguiente intervalo
infinitesimal es independiente de la edad de la unidad.
Silvia García Ortega
8
Trabajo Fin de Máster: Supervivencia Relativa
La distribución exponencial tiene como característica especial la propiedad de no memoria,
que describe el proceso de vida sin envejecimiento.
Distribución Gamma
La distribución Gamma es una generalización de la exponencial.
Sea una v.a. de tiempo de vida, se dice que se distribuye según una Gamma de parámetros
y ,
si su función de densidad es de la forma:
donde
es el parámetro de forma,
Gamma que se define como
.
es el parámetro de escala Γ
y representa la función
con
Su función riesgo se aproxima asintóticamente a 1/λ cuando t→∞, lo cual sugiere que la
distribución Gamma puede ser útil como un modelo de población cuando los individuos que
sufren determinada enfermedad son sometidos a un programa de seguimiento regular. La
razón de fallo puede crecer o decrecer algo inicialmente, pero después de algún tiempo la
enfermedad tiende a estabilizarse y a partir de ahí la recaída es tan probable en un intervalo
, se obtiene la distribución
de tiempo como en otro de la misma amplitud. Si
exponencial.
Distribución Weibull
La distribución exponencial presenta el inconveniente de suponer una razón de fallo
constante, por tanto, no es aplicable a modelos de tiempos de vida con razón de fallo no
constante. Para estos casos se tiene la distribución Weibull,
, que definiremos a partir
de su función razón de fallo.
Sea
una v.a. tiempo de vida tal que la correspondiente razón de fallo viene dada por:
,
donde es el parámetro de escala,
como distribución de Rayleigh.
es el parámetro de forma. Cuando
, es conocida
Distribución Log-normal
Un inconveniente que presenta la distribución normal en el estudio de tiempos de fallos es
que considera valores negativos y esto no tiene sentido, ya que los tiempos transcurridos
hasta el fallo son siempre valores positivos. Existen dos formas de solventar este problema;
truncando la distribución normal o considerando la distribución Log-normal, que sólo
considera valores positivos.
Silvia García Ortega
9
Trabajo Fin de Máster: Supervivencia Relativa
Sea una v.a., se dice que se distribuye según una Log-normal,
una v.a. con distribución Normal, es decir,
donde
.
es el parámetro de localización,
si su logaritmo es
es el parámetro de dispersión de la distribución
Sus funciones de densidad y distribución tiene la expresión:
Distribución Log-Logística
La distribución log-logística, al igual que la log-normal es útil para funciones de riesgo no
monótonas.
Su función de riesgo y la de supervivencia vienen dadas por las expresiones:
I.3.2. Métodos no paramétricos
Los modelos no paramétricos, son métodos analíticos y gráficos que permiten interpretar los
datos obtenidos, en los que no se asume ningún tipo concreto de modelo probabilístico para
los tiempos de fallo y las funciones básicas (fiabilidad, riesgo) se estiman directamente de los
datos. Los más utilizados en la estimación de las características en fiabilidad son la función
de fiabilidad empírica, las tablas de Vida o métodos actuariales, el estimador Kaplan-Meier y
el método de Nelson Aalen.
Tablas de vida o método actuarial
Las tablas de vida, Bohmer (1912), estiman para un determinado periodo de tiempo, la
probabilidad de que los sucesos a analizar no sucedan hasta transcurrido un periodo de
tiempo como mínimo igual al que se está analizando. Por consiguiente, tienen como objetivo
describir y establecer previsiones sobre la mortalidad, fiabilidad o supervivencia de una
población de interés, a partir de la consideración de una cohorte, o conjunto de datos
procedentes de un estudio, a los cuales se les hace un seguimiento en un período de tiempo
determinado, comprobando si se registra en cada uno de sus miembros o elementos, la
presencia o ausencia de una característica o evento de interés en la población.
Silvia García Ortega
10
Trabajo Fin de Máster: Supervivencia Relativa
La validez de éste método exige que la distribución del tiempo de fallo de todos los
individuos, censurados y no censurados, sea la misma. Es uno de los métodos más clásicos y
directos para describir la fiabilidad de una muestra a través de la llamada
, la cual no es más que una tabla de frecuencias
mejorada y ampliada.
A partir de ella, es posible hacer una primera estimación sobre los comportamientos de las
funciones de supervivencia
, de distribución
, de densidad
y tasa de fallo
.
La distribución de los tiempos de fallo se divide en un determinado número de intervalos que
denotamos (
. Para cada intervalo se registra el número de observaciones o dispositivos
que entra al intervalo en buen estado, (número que entra en el intervalo), el número de los
que han fallado (número de eventos terminales), y el número de observaciones perdidas o
censuradas en (número que sale en el intervalo). Se calcula a partir de ellos el número de
expuestos al riesgo, asumiendo que las pérdidas se producen homogéneamente a lo largo del
mismo, su número promedio es
. La probabilidad de fallo es la proporción
, y la de supervivencia es
.
Casi todas las tablas de vida presentan una estructura más o menos estándar con una
descripción detallada, Abaurrea,J. y Cebríán, A. (1998).
Función de Fiabilidad Empírica
Supongamos que se observan
del fallo, de forma que
en el tiempo con
ítems hasta que ocurre el fallo, sea el tiempo de ocurrencia
con
y sea
el número de fallos ocurridos
.
Se define la función de fiabilidad empírica como:
Para
siendo
y
.
PROPIEDADES
1. Es no creciente.
2. Toma valor
en todo menor que el primer tiempo de fallo observado,
.
3. Toma valor
en todo mayor que el último tiempo de fallo observado,
.
3. Es continua a la derecha. Permanece constante entre dos observaciones consecutivas y
presenta un solo salto
en la observación j-ésima.
4. Si es la función de distribución que describe la v.a. , tiempo de vida del sistema en
estudio,
, se tiene el Teorema de Glivenko-Cantelli, según el cual, si definimos
Silvia García Ortega
11
Trabajo Fin de Máster: Supervivencia Relativa
entonces
, es decir,
converge uniformemente hacia
seguramente. En este enunciado entendemos por
.
, casi
Cuando en la muestra aparecen observaciones censuradas, la función de fiabilidad estimada
no es un buen estimador ya que tiende a subestimar la función de fiabilidad. Esto ocurre
porque se asume que los ítems fallan en el tiempo de censura y esto es un error ya que lo
único que sabemos es que hasta ese instante de censura el ítem no había fallado, pero después
de ese tiempo no se dispone de información.
Si tenemos censura de tipo I, duración del test prefijada, transcurrido un tiempo
observaciones, por lo que el estimador
está definido únicamente en el intervalo
no hay
.
Si tenemos censura de tipo II, se observa la muestra hasta la ocurrencia del r-ésimo fallo,
construimos un estimador
hasta que alcanza el valor
. Por tanto, estará definida
en el intervalo
.
Cuando las muestras son multicensuradas se aplican otros métodos más adecuados como el
estimador de Kaplan-Meier.
Estimador de Kaplan-Meier o Estimador Producto Límite
El impulso de las técnicas de estimación no paramétrica con datos censurados se inicia con
los aportes de Kaplan y Meier (1958), quienes publicaron algunos resultados para
observaciones censuradas a la derecha e incorporaron un estudio de las propiedades básicas
de un nuevo estimador, que se conocerá más tarde con el nombre de sus creadores. Es el más
utilizado para estimar la función de fiabilidad con datos no agrupados en presencia de
censura. Descompone la supervivencia o fiabilidad de una unidad al cabo de t años, en un
producto de probabilidades condicionadas, que deben ser previamente estimadas, antes del
cálculo del estimador.
Supongamos que se observa una muestra aleatoria de n unidades o individuos y
)
tiempos
en los cuales ocurren fallos. En estos n individuos, se permite la
posibilidad de que haya más de un fallo en , denotamos por , el número de fallos en .
Además de estos tiempos de vida
, existen a su vez tiempos de censura , para
aquellos individuos en los que el tiempo de censura no es observado.
El
(K-M) o producto límite se define como:
donde:
Silvia García Ortega
12
Trabajo Fin de Máster: Supervivencia Relativa
: es el número de fallos en el instante . Si no hay empates
: Población superviviente en el momento
inmediatamente antes del instante
.
. Es el número de individuos en riesgo
La probabilidad de supervivencia es constante entre dos fallos consecutivos ya que
conocemos con exactitud dónde se producen los fallos.
Si el último dato observado es un tiempo de censura , entonces no se han observado todos
los fallos de los individuos en estudio, luego, la estimación de la función de supervivencia no
llega a valer cero en ningún momento, por tanto, no se puede estimar esta curva hasta
, ya
que no sería una curva de supervivencia propiamente dicha. En este caso, se construye el
estimador solo hasta el tiempo de censura y el último intervalo sería
, en cuyo caso
.
PROPIEDADES
El estimador de K-M se caracteriza por su facilidad de cálculo y por ser el estimador no
paramétrico máximo verosímil de la función de fiabilidad. En el caso de no tener censura
este estimador coincide con la función de fiabilidad empírica definida en el apartado anterior.
Conserva las propiedades de
, de
para
datos censurados y es asintóticamente normal; aunque estas mismas propiedades ya no son
tan robustas con pequeñas muestras (es sensible a observaciones atípicas). En particular, es
sesgado y la magnitud del sesgo es inversamente proporcional al tamaño de la muestra.
Constituye la opción más utilizada, cuando el objetivo es el cálculo de la supervivencia, cada
vez que un individuo experimenta el evento, generando las proporciones y probabilidades
exactas de supervivencia, ya que utiliza tiempos de supervivencia. En otras palabras, la
proporción acumulada de casos que “sobreviven” es calculada siempre para el tiempo de
supervivencia individual de cada sujeto, sin agrupar los tiempos de supervivencia en
intervalos.
Cuando los datos en estudio se registran con una fuerte censura, el problema que se presenta
con este estimador es que sus estimaciones no sólo tienen la tendencia a sobrestimar la
fiabilidad o supervivencia de las unidades o individuos en estudio con un alto valor de sesgo,
sino que van acompañadas de muy poca variabilidad de las estimaciones. Las estimaciones de
K-M obtenidas en realidad son estimaciones sesgadas (sobrestimaciones), razón por la cual,
cobra importancia la necesidad de reducir el sesgo que producen las estimaciones de K-M
con datos censurados.
VARIANZA DEL ESTIMADOR
Para cualquier instante , el estimador de K-M de
da una estimación puntual. Así que
será necesario contar con una buena estimación de de su varianza para obtener la estimación
en diferentes instantes de tiempo o sobre diferentes muestras. El estimador de la varianza
viene dado por la formula de Greenwood (1926).
Para su cálculo, utilizaremos la aproximación por el método Delta que consiste en usar una
aproximación en series de Taylor de modo que obtengamos una función lineal que aproxime
Silvia García Ortega
13
Trabajo Fin de Máster: Supervivencia Relativa
al estimador de la función de supervivencia, es decir, a una función más complicada. Por
tanto, es necesario que la función pueda ser expresada en serie de Taylor.
Método Delta: Sea X una v.a. con media
y sea
una función diferenciable, entonces:
Para
Aplicando la varianza en ambos lados de la igualdad obtenemos:
donde asumimos que
son independientes. Ahora se aplica el método Delta:
Como queremos obtener el resultado para
método Delta para
Deshaciendo el valor de
Greenwood:
y no para
, volvemos a aplicar el
:
y calculando la estimación de la varianza, se obtiene la fórmula de
Un estimador del error estándar de
es:
NOTA: Hay que tener en cuenta que si no existen observaciones censuradas antes de :
INTERVALOS DE CONFIANZA
Teniendo en cuenta la normalidad asintótica de los estimadores de máxima verosimilitud,
como es el caso del estimador de K-M, los intervalos a un nivel
de confianza
de la función de supervivencia en cada tiempo fijo se calculan de la siguiente forma:
Silvia García Ortega
14
Trabajo Fin de Máster: Supervivencia Relativa
donde:
es el cuantil de orden
en una distribución normal estándar.
Como
se define únicamente en el extremo superior de los intervalos que contienen
fallos, generalmente sólo se calcula en tales puntos (si no hay fallos en un intervalo,
se
mantiene constante durante ese intervalo). Para un punto final superior especificado en la
que se desea una estimación de
, una aproximación normal de un intervalo de confianza
para
es
Los intervalos de confianza se basan en el supuesto de que la distribución:
puede aproximarse por a una N(0,1). Entonces
implica que:
Nótese que
, es fijo mientras que
y
son aleatorios. La aproximación obtenida
es una aproximación para muestras grandes y mejora con el aumento de tamaño de la
muestra.
En el caso de que el tamaño de la muestra no sea muy grande, la distribución normal puede
no proporcionar una aproximación adecuada para la distribución , en especial en las colas
de la distribución, (donde
es cercano a 0 o 1). Por ejemplo, es posible que
ó
, resultado que estaría fuera del rango de una función de fiabilidad. En general,
podemos obtener una mejor aproximación mediante el uso de la transformación
y basando los intervalos de confianza en la distribución:
Silvia García Ortega
15
Trabajo Fin de Máster: Supervivencia Relativa
Como
no está acotado, es decir oscila entre
próxima a una N(0,1). Esto nos lleva al intervalo de confianza:
donde
y
,
está más
.
Estimador de la función de riesgo acumulada: Estimador de Nelson-Aalen
El estimador de Nelson-Aalen fue propuesto por primera vez en el ámbito de la fiabilidad por
Nelson (1969 y 1972). Posteriormente Aalen (1978) extendió sus usos más allá de la
supervivencia para estudiar sus propiedades usando martingalas. Altschuler en 1970 lo
obtuvo utilizando técnicas de procesos de conteo con animales.
Dado que la función de riesgo acumulado se puede expresar de la forma:
,
siendo
el estimador de Kaplan-Meier, un posible estimador de
puede obtenerse
mediante las sumas acumuladas de la estimación empírica de la función de riesgo:
donde:
: es el número de fallos ocurridos en el instante .
: es el número de individuos en riesgo en .
Al estimador así definido se le conoce como
. El
cociente
proporciona una estimación de la probabilidad condicionada de que una
unidad que sobrevive hasta justo antes del instante , falle en el instante .
A partir de la relación logarítmica entre
y
se obtiene un estimador alternativo de la
función de supervivencia,
, conocido como estimador de Fleming-Harrington:
Cuando es una v.a. continua
y
son estimadores asintóticamente equivalentes y
con la excepción de valores altos de t, donde las estimaciones son más inestables, la
diferencia entre ambo será por lo general pequeña.
Silvia García Ortega
16
Trabajo Fin de Máster: Supervivencia Relativa
es la aproximación lineal de primer orden de la función
puesto que:
Estas estimaciones son de gran utilidad en la construcción de gráficas, para evaluar la
selección de una determinada familia paramétrica de distribuciones, cuando se trata de
modelizar la distribución del tiempo de vida de una unidad o individuo y realizar unas
primeras estimaciones de los parámetros del modelo seleccionado, Nelson (1982), Lawless
(1982).
Pan y Chappell (1998) introdujeron el estimador de Nelson-Aalen extendido para la función
de supervivencia en el caso de truncamiento a la izquierda y censura a la derecha con el fin de
corregir el importante sesgo producido por la subestimación de la citada supervivencia. Así
pues, soluciona el problema de la subestimación dado por este último cuando hay
truncamiento.
I.3.3. Modelos Semiparamétricos
Los modelos semiparamétricos permiten estudiar la relación entre la función de
supervivencia y el tiempo evaluando el efecto de covariables sobre la función riesgo. Entre
los modelos existentes destacamos el Modelo de Riesgos Proporcionales de Cox.
Modelo de Riesgos Proporcionales de Cox
El modelo de riesgos proporcionales introducido por Cox (1972) es el modelo de regresión
más utilizado en análisis de supervivencia. Su enfoque ha permitido la verificación de los
supuestos de riesgos proporcionales y el estudio de los residuos.
Algunos desarrollos y generalizaciones del modelo de Cox pueden verse en: Cox
(1972,1975), Miller (1976), Buckley-James (1979), Tsiatis (1978a), Andersen y Gill (1982),
Johansen (1983), Andersen et al. (1993), Therneau y Grambsch (2000).
El modelo de riesgos proporcionales nos permite analizar no sólo la relación entre la tasa de
fallo y el tiempo, sino también la posible relación con diferentes variables registradas para
cada sujeto. Es decir, se trata de calcular la tasa de fallo o mortalidad como una función del
tiempo y de un determinado conjunto de variables explicativas o covariables.
El modelo de riesgos proporcionales de Cox, como método de predicción de fallos tiene la
expresión:
donde:
Silvia García Ortega
17
Trabajo Fin de Máster: Supervivencia Relativa
•
•
•
•
es la edad alcanzada por la unidad (individuo).
es una función desconocida, aribitraria y no negativa en el tiempo
es la traspuesta de un vector de covariables.
es el vector de parámetros de regresión.
Si se asume que
es la función de riesgo de una unidad con vector de covariables
(nivel base), en el modelo de riesgos proporcionales de Cox, la función de fiabilidad
condicionada para T, dado un vector de covariables Z, es:
siendo
la función de fiabilidad base.
Así pues, el modelo de Cox se dice que es semiparamétrico, ya que incluye una parte
paramétrica
denominada
o
, con el vector de parámetros
de la regresión, y otra parte no paramétrica
llamada
,
desconocida, arbitraria y no negativa en el tiempo.
Este modelo tiene sus ventajas. Cuando el objetivo es comparar grupos, valorar
supervivencias relativas, lo que interesa es calcular cocientes de riesgo y al dividir las dos
funciones, como el término Este modelo tiene sus ventajas. Cuando el objetivo es comparar
grupos, valorar supervivencias relativas, lo que interesa es calcular cocientes de riesgo y al
dividir las dos funciones, como el término
interviene en ambas, desaparece, por lo que
en estos casos realmente da igual cual pueda ser la forma de esta función. Sin embargo, esta
característica puede ser un inconveniente cuando lo que se desea es calcular un valor absoluto
de supervivencia para un determinado perfil de riesgo, ya que entonces sí es necesario
estimar
, y dicha estimación se efectúa directamente a partir de los datos.
El modelo de riesgos proporcionales estratificado, como extensión del modelo de Cox
permite obtener la estimación de los modelos para distintos grupos disjuntos o estratos y tiene
la expresión:
donde:
•
•
son las funciones de riesgo básicas en cada uno de los estratos, arbitrarias y
distintas.
: es el vector de coeficientes que coincide en todos los estratos.
Este modelo se considera cuando la hipótesis de proporcionalidad no se verifica en los
estratos de un factor; se asume que las funciones de riesgo son proporcionales dentro del
mismo estrato, pero no necesariamente a través de los
estratos. Sin embargo presenta
Silvia García Ortega
18
Trabajo Fin de Máster: Supervivencia Relativa
desventaja, y es que no existe ningún
estratificación
que permita estimar el efecto de la covariable de
A continuación vamos a ver distintas técnicas que permiten valorar la bondad del ajuste del
modelo de riesgos proporcionales a un conjunto de datos.
Residuos de Cox-Snell
Esta técnica va dirigida a valorar la bondad del ajuste del modelo de Cox de manera global.
Para datos completos, es decir, sin censura, los residuos generalizados de Cox-Snell se
definen de la siguiente forma:
donde:
•
•
: es el residuo i-ésimo para la unidad de la muestra.
: es la fiabilidad estimada evaluada en con vector de covariables .
Si el modelo de Cox es correcto y los valores estimados de los parámetros de regresión están
próximos a los reales, los residuos obtenidos deben ajustarse a una distribución exponencial
de parámetro 1.
Diagnósticos de Regresión
Dependiendo del tipo de residuos generados en el ajuste se pueden usar para distintas
opciones:
•
•
•
•
Descubrir la forma funcional correcta de un predictor continuo.
Identificar los sujetos que están pobremente predichos por el modelo.
Distinguir los puntos o individuos de influencia.
Verificar el supuesto de riesgo proporcional.
Entre los residuos que podemos obtener, los de interés en el modelo de Cox son:
• Residuos de martingala, deviance.
• Residuos de puntuaje, score.
• Residuos de Schoenfeld.
Silvia García Ortega
19
Trabajo Fin de Máster: Supervivencia Relativa
Silvia García Ortega
20
Trabajo Fin de Máster: Supervivencia Relativa
Capítulo II
Cálculo de la Supervivencia Relativa
II.1. Introducción
En Análisis de Supervivencia, estamos interesados en el tiempo transcurrido desde el inicio
de una observación hasta la ocurrencia de un cierto suceso (el fallecimiento, la recaída en una
enfermedad, etc.). Suponemos que el suceso final está bien definido en el sentido de que no
hay duda acerca de si el suceso final ha ocurrido ciertamente o no. En la práctica esto no es
siempre así. Si estamos interesados en el estudio de fallecimientos por causa-específica,
entonces en muchas ocasiones resulta complicado y hasta imposible establecer la causa de la
muerte, o bien hay muchas causas diferentes de muerte, siendo imposible asignar la muerte a
una sola causa.
Una solución a este problema puede proporcionarse mediante el uso de técnicas de
supervivencia relativa, que consisten en comparar un estudio de supervivencia en una cohorte
con lo que sería esperable en caso de que los sujetos se ajustasen a las tasas de mortalidad de
la población de referencia (localización, edad, sexo y año calendario). Estos métodos
permiten la estimación de la proporción de muertes debidas a una determinada causa. Para
entender mejor la problemática que motiva la aplicación de técnicas de análisis de
supervivencia relativa, pongámonos en el siguiente caso.
Si una persona con una enfermedad incurable comete suicidio, la causa de muerte que
aparece en su certificado de defunción será suicidio, y si hubiese muchos casos como este, los
estadísticos de mortalidad mostrarían una proporción de fallecidos debido a la enfermedad en
cuestión mucho menor de lo que debería ser. Este ejemplo es, aunque más o menos
hipotético, bastante obvio. En cambio, en muchas situaciones similares, resulta difícil, si no
Silvia García Ortega
21
Trabajo Fin de Máster: Supervivencia Relativa
imposible, identificar entre posibles diferentes, la causa de muerte. Las personas con cierta
enfermedad (diabetes, alta presión arterial, etc) pueden morir debido a causas naturales, pero
es bastante posible y obvio que vivan durante más tiempo si la enfermedad no estuviese
presente. En tales casos, los métodos de supervivencia relativa ayudan a estimar la
proporción de población que fallece debido a una causa determinada. Estos métodos son muy
usados en los registros de cáncer (poner referencias) aunque casi nunca se emplean en otras
áreas de medicina.
El propósito de esta memoria es hacer una revisión de los métodos más usuales de análisis de
supervivencia relativa. Presentar un programa estadístico integrado en el entorno R (relsurv)
que incluye funciones de uso sencillo y que permiten ajustar de manera flexible los modelos
de regresión de supervivencia relativa más extendidos en la práctica. Ilustramos todos los
métodos estudiados mediante ejemplos y en la parte final de la memoria presentamos una
aplicación con datos reales.
II.1.1. ¿Qué se entiende por supervivencia relativa?
El término supervivencia relativa hace referencia a la experiencia vital de un grupo. Los
métodos de análisis de supervivencia habituales no dan respuesta en general a las siguientes
cuestiones que surgen de manera natural:
¿Cuánto tiempo, en relación a una población general, ha vivido una persona en concreto?
¿Vivió Individuo 1 relativamente más tiempo que Individuo 2?
Tomemos como ejemplo el caso del presidente del gobierno de España entre los años 1976 y
1981, Adolfo Suárez Illana (25/09/1932), fallecido el pasado 23 de marzo del presente año. Y
del poeta granadino de la generación del 36, Luis Rosales Camacho (31/05/1910), también
fallecido a la edad de 81 años el 26 de abril de 1992.
En el año 1910 la esperanza de vida en España entre la población masculina se estimaba en
40.92 años (fuente: Instituto Nacional de Estadística) y en el año 1932 ascendía a 48.38 años
Por consiguiente, tanto Luis Rosales como Adolfo Suárez superaron ampliamente la
esperanza de vida estimada al nacimiento para los individuos de su generación. Pero podemos
decir mucho más, podemos en concreto calcular para cada individuo la proporción esperada
de la población general que no habría sobrevivido a su tiempo de vida registrado. Dicho de
otra forma, sea FE(t) la función de distribución correspondiente al tiempo de vida residual de
la población para una edad, sexo y año de calendario dados. Entonces, estaríamos interesados
en la transformación Y=FE(T) que convierte un tiempo de supervivencia T a su valor
asociado en la FE. Para un valor de t, y basado en las tablas de mortalidad de la población
subyacente, calcula la proporción de la población con unos valores dados de sexo, edad y año
de nacimiento, que no han superado un tiempo de vida igual a t.
Silvia García Ortega
22
Trabajo Fin de Máster: Supervivencia Relativa
Figura 1. Comparativa de curvas de mortalidad
A partir de las curvas de la Figura 1, podemos leer mientras que un 79.45% de los nacidos en
1910 no llegó a cumplir los 81 años, este porcentaje se disminuye hasta 60.82% para la
generación de 1932. Lo que significa que Luis Rosales con una edad de 81 años, sobrevivió
casi el 80% de su generación, en cambio Adolfo Suárez que ha vivido la misma cantidad de
años que el poeta granadino, ha sobrevivido apenas a un 61% de los individuos de su
generación.
La conclusión que podemos sacar de este análisis es que para hacernos una idea de la
supervivencia de un individuo debemos enmarcarlo en una población con las mismas
características (año cronológico, edad, sexo) que el individuo en cuestión.
Otra motivación para el estudio de la supervivencia relativa podemos encontrarla en el
siguiente ejemplo. Supongamos que tenemos una muestra para analizar con datos sobre
supervivencia de enfermas de cáncer de pecho de todas las provincias de España.
Supongamos que nuestro análisis ha mostrado que las mujeres del norte evolucionan peor que
las mujeres del sur. Podríamos estar en este caso tentados a justificar este comportamiento
basados en determinados factores que expliquen la diferencia. Pero el hecho es que las
mujeres del norte tienen menos esperanza de vida que las mujeres en el sur, siendo la
diferencia alrededor de 3 años. De este modo, nuestro análisis sobre la muestra de enfermas
de cáncer simplemente podría estar reflejando este hecho, y así no hay diferencias relativas
en supervivencia de las mujeres con cáncer de pecho basadas en localizaciones geográficas.
Es más, en caso de haberlas, éstas serían menores de lo que refleja nuestro estudio inicial. Lo
indicado en este caso sería calcular por separado la supervivencia observada en la muestra,
así como la supervivencia esperada usando tablas de de vida poblacionales (si están
disponibles) para las mujeres del norte y del sur del país y comparar las curvas obtenidas en
cada caso. En España, el Instituto Nacional de Estadística publica periódicamente tablas de
mortalidad de la población según año de calendario, sexo y edad, que es la información que
Silvia García Ortega
23
Trabajo Fin de Máster: Supervivencia Relativa
necesitamos en nuestro caso, aunque el instituto permite al usuario obtener información más
detallada.
II.1.2. Definición y Notación
Consideremos un estudio longitudinal de una cohorte en el que se observa el riesgo de
fallecer, una vez diagnosticada una determinada enfermedad. Bajo la hipótesis de que ésta es
la única causa de muerte, podemos hacer uso de la supervivencia por causa específica para
determinar la proporción de individuos que sobreviven a ella. En este caso, los tiempos de
seguimiento de tales individuos que no han fallecido por la citada enfermedad, se consideran
tiempos censurados y sólo se consideran las muertes causadas por la enfermedad como
eventos. Obsérvese que este método tiene dos inconvenientes:
la subestimación de la tasa de fallecimiento, al no considerar otras causas de fallecimiento;
y el sesgo, ya que los certificados de defunción no siempre están disponibles o tienen buena
calidad, lo que puede dar lugar a una diferencia entre el valor esperado y su verdadero valor.
Una posible solución a estos problemas es utilizar la supervivencia relativa (SR), que se
define como:
Donde
•
: Supervivencia Observada (SO), calculada a partir de la muestra de enfermos
diagnosticados;
•
): Supervivencia Esperada (SE)
En general
, dado que la supervivencia entre pacientes con una enfermedad grave
será menor que en la población general. En algunos casos se pueden obtener valores
superiores a 1 lo que indicaría que la supervivencia de los sujetos en estudio supera a la de la
población general.
El primer paso para el cálculo de la SR es definir el tiempo o periodo de estudio en años. El
tiempo de supervivencia (TS) se define como el intervalo entre el diagnóstico de la
enfermedad y el evento de interés, que en este caso es la defunción del individuo. En
ocasiones no se dispone de esta información hasta el final de su periodo de estudio, por lo que
en este caso, diremos que su TS es censurado y su tiempo de seguimiento se calculará desde
la fecha de diagnostico de la enfermedad hasta el último contacto con el individuo. De esta
forma, se disponen de 2 variables respuesta para cada individuo: el tiempo de seguimiento y
la censura/evento.
La SO se determina asumiendo que los eventos son todas las defunciones
independientemente de la causa de muerte. (En el capítulo I se definieron los métodos para su
cálculo).
Silvia García Ortega
24
Trabajo Fin de Máster: Supervivencia Relativa
La SE se estima a partir de la mortalidad de la población residente en el área geográfica de la
cual proceden los miembros de la cohorte en estudio, siendo ésta por consiguiente una
corrección del sesgo en la estimación de la SO. (En el siguiente apartado se estudia cómo
calcular la SE).
Para llevar a cabo el cálculo de la SR se pueden emplear las siguientes herramientas
informáticas:
Relsurv: Libro de R que permite estimar un modelo de regresión de SR a partir del método de
Estève, que a su vez permite estimar la SE con las técnicas de Ederer. Este paquete se
estudiará en este capítulo.
Surv: Libro de R que permite estimar la SE con los métodos de Hakulinen y Ederer.
Waers: Aplicación web que permite el cálculo de la SR utilizando el método de Hakulinen.
Además, permite al usuario seleccionar la población de referencia.
Este capítulo se va a centrar en la descripción del procedimiento para el cálculo de la SR en
función del método escogido para la estimación de la SE, comentando las ventajas e
inconvenientes de cada uno de ellos.
II.2. Supervivencia esperada (SE)
Como acabamos de comentar en el apartado anterior, la supervivencia esperada se estima a
partir de las tasas de supervivencia poblacionales de la región de dónde procede la cohorte en
estudio y es una corrección del sesgo que obtenemos al estimar la supervivencia observada.
Sea la tasa de mortalidad poblacional (independiente de la causa) para los individuos de un
grupo de edad y en un año en concreto en la zona de residencia de los pacientes. Definamos
dicha tasa, para ese grupo de edad y ese año en la región de procedencia de los pacientes,
como:
A partir de ella, vamos a definir el estimador de la Tasa de Supervivencia Poblacional (TSP).
Sea
la TSP en el año j-ésimo para los pacientes del grupo de edad i-ésimo, entonces,
.
Hay que calcular las tasas para todos años del periodo de estudio y todas las edades,
seguidamente se aplican dichas tasas a la cohorte en estudio.
La Supervivencia Esperada se puede estimar por tres métodos:
•
•
•
Método Ederer I
Método Ederer II
Método Hakulinen
Silvia García Ortega
25
Trabajo Fin de Máster: Supervivencia Relativa
II.2.1 Métodos Ederer para el cáculo de la SE
Sea el momento en el que se ha producido un evento y
media en la cohorte de estudio en el intervalo (
. Sea
a tiempo .
la supervivencia poblacional
la supervivencia esperada
Entonces la Supervivencia Esperada se calcula como:
Es decir, los métodos de Ederer calculan, en cada momento en el que se produce un evento, la
supervivencia poblacional media de la cohorte. La diferencia entre los métodos está en el
número de individuos que considera en cada intervalo:
Método Ederer I : considera a todos los pacientes en cada intervalo.
Método Ederer II: considera sólo a los pacientes que están en riesgo en cada intervalo.
Es decir, ambos métodos son iguales, para su cálculo se realizan los mismos pasos, lo único
que los diferencia es el número de pacientes considerado en cada intervalo.
Determinemos los pasos a seguir para calcular
por el método Ederer I:
1. Determinar el tiempo mínimo y máximo de supervivencia en la cohorte, y dividir
dicho tiempo en intervalos de igual amplitud.
2. Estimar para cada paciente la supervivencia poblacional en cada tiempo, aunque no
esté en riesgo en dicho tiempo.
3. Calcular la media de las supervivencias poblacionales de cada individuo en , es
decir,
4. Aplicar la expresión para
.
Los pasos a seguir para calcular
difiere en el punto 2:
por el método Ederer II son similares al anterior, sólo
1. Determinar el tiempo mínimo y máximo de supervivencia en la cohorte, y dividir
dicho tiempo en intervalos de igual amplitud.
2. Estimar para cada paciente en riesgo la supervivencia poblacional en cada tiempo.
3. Calcular la media de las supervivencias poblacionales de cada individuo en , es
decir,
4. Aplicar la expresión para el cálculo de
Si el tiempo de seguimiento de los pacientes es entre 5 y 10 años, ambos métodos dan
resultados similares, sin embargo si supera los 10 años se recomienda aplicar el estimador
obtenido por el método Hakulinen.
Silvia García Ortega
26
Trabajo Fin de Máster: Supervivencia Relativa
II.2.2 Método Hakulinen para el cálculo de la SE
El método Hakulinen, también denominado long-term, emplea un estimador que tiene en
cuenta el tiempo de censura, similar al estimador Kaplan-Meier. Es decir, el número de
pacientes de riesgo de cada intervalo se calcula teniendo en cuenta un número de abandonos
esperados en dicho tiempo. Por tanto, este método se basa en determinar para cada intervalo
el número de pacientes de riesgo.
Sea el número de pacientes de riesgo a tiempo y estimador del número de pacientes de
riesgo esperado (suma de las supervivencias poblacionales de cada uno de los pacientes de
riesgo).
Se define el estimador de la SE mediante el método de Hakulinen como:
dónde:
es el número de defunciones esperadas
: intervalo de tiempo (amplitud)
: es una corrección que se denomina anticipación al tiempo de censura
A la hora de calcular la SR la decisión más complicada es la elección del método para
determinar la SE.
Son recomendables los métodos de Ederer II y Hakulinen puesto que minimizan el sesgo en
la estimación de SE.
Por otro lado, en un estudio a largo plazo y cuando hay pocos individuos el método Ederer I
puede sobrestimar la SE, luego sobreestima la SR.
II.2.3. Intervalo de Confianza para la Supervivencia Relativa
La forma general de un intervalo de confianza viene dada por la expresión:
Aplicando esta expresión a nuestro caso tendemos que el estimador
es
.
Para poder obtener el IC necesitamos calcular la varianza de
, para ello se va a
considera la transformación log-log complementaria a la
. Sea
, cuya varianza puede ser aproximada mediante el método delta (visto en
el capítulo I):
Silvia García Ortega
27
Trabajo Fin de Máster: Supervivencia Relativa
A partir de esta expresión y considerando
y superior del IC a nivel para
.
constante, obtendríamos los limites inferior
Sean
Con el valor de la distribución normal estándar que deja un área a su derecha de
límites del IC son:
, los
II.2.4. Ejemplo
Supongamos una cohorte de Andalucía formada por 5 individuos con un tipo de enfermedad
durante el periodo 2003-2007. Se ha seguido a la cohorte durante 5 años, con edades entre 35
y 59 años en el momento del diagnostico. Por tanto:
La cohorte se sigue como máximo hasta 2012.
Cuando se termina el estudio, los individuos de la cohorte habrán cumplido como máximo 64
años.
Vamos a calcular la supervivencia esperada (por los métodos de Ederer I, Ederer II y
Hakulinen). En primer lugar tenemos que conseguir la supervivencia poblacional para las
edades de 35 a 64 durante en el periodo 2003-2012, para ello que vamos a seguir los
siguientes pasos:
•
•
•
En la página web del INE obtenemos las tasas de mortalidad
para la población
indicada. (Vienen expresadas en tantos por mil, ver Tabla 1).
A la Tabla 1 le aplicamos la transformación
consiguiendo así la
supervivencia poblacional, Tabla 2.
Con la información contenida en la tabla 2 calculamos la Supervivencia Esperada por
los tres métodos, Tabla 3.
Silvia García Ortega
28
Trabajo Fin de Máster: Supervivencia Relativa
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
0,929199
1,011388
1,046871
1,296142
1,25687
1,406275
1,615378
1,709496
1,816846
1,992992
2,165021
2,290724
2,499228
2,922654
2,869284
3,098605
3,351407
3,768063
3,937362
4,326172
4,839625
4,824683
5,648507
5,95759
6,552353
7,234996
7,320606
8,053462
9,411285
9,703368
0,879031
0,93702
1,132144
1,106296
1,32567
1,262648
1,417868
1,540024
1,651091
1,93006
2,153448
2,235684
2,487272
2,797837
2,823061
3,200936
3,535599
3,630764
3,938861
4,105151
4,490734
5,117498
5,088532
5,623407
6,26288
6,832723
7,388928
7,249231
8,262302
9,587192
0,88834
0,89905
1,009217
1,136923
1,183598
1,283136
1,420485
1,529709
1,59759
1,860673
1,979007
2,189073
2,391495
2,525406
2,801627
3,124165
3,2474
3,633505
3,791221
4,311532
4,48521
4,76913
5,387665
5,496495
6,49538
6,842246
7,280737
8,011813
8,109943
9,006563
0,734051
0,836324
0,917286
1,031665
1,221225
1,232835
1,269611
1,425596
1,663161
1,861327
1,881141
2,133535
2,249142
2,568101
2,583631
3,011574
3,300402
3,55941
3,890032
4,154393
4,368918
4,810634
5,215776
5,690227
5,911944
6,841695
6,823933
7,757857
8,21508
8,724148
0,691379
0,792733
0,835213
0,960597
1,124589
1,20494
1,329698
1,58316
1,579246
1,690004
1,937266
1,981945
2,294822
2,423618
2,645949
2,951717
3,130669
3,501538
3,872081
4,218583
4,351572
4,68747
5,059429
5,676206
5,97558
6,616507
7,165421
7,419804
8,132013
9,271851
0,681346
0,781737
0,792374
0,850408
0,983681
1,133566
1,227477
1,335662
1,508351
1,693107
1,893364
2,026613
2,268474
2,398647
2,761727
3,060514
3,127058
3,523206
3,752053
4,008068
4,351718
4,548428
5,04829
5,546987
5,723678
6,678252
6,662107
7,611003
7,876668
8,389986
0,598802
0,690816
0,69652
0,855591
0,843128
1,041446
1,205668
1,261784
1,354783
1,469177
1,80194
1,938243
2,182795
2,247468
2,616692
2,850418
2,999576
3,181079
3,624784
4,1841
4,17371
4,622998
5,033307
5,341768
5,747495
6,085837
6,738703
7,30094
7,828166
8,328084
0,550469
0,614132
0,673758
0,737292
0,830305
0,961363
1,040473
1,216512
1,327187
1,517544
1,627555
1,893906
2,067685
2,18748
2,470949
2,717423
3,02354
3,385337
3,499917
3,872407
4,151145
4,555555
5,057751
5,224788
5,865293
6,036854
6,265703
7,255015
7,447819
8,288963
0,523665
0,577184
0,653466
0,692623
0,808922
0,900674
0,970599
1,121715
1,342639
1,395021
1,5188
1,718821
2,009046
2,162136
2,427182
2,681722
2,988724
3,390426
3,460109
3,790939
3,909658
4,683956
4,874749
5,196701
5,707574
6,180711
6,347326
7,006695
7,874335
7,802263
0,50674
0,548621
0,640147
0,669529
0,756222
0,862148
0,915394
1,005186
1,228929
1,417855
1,516226
1,645247
1,897096
2,223445
2,363935
2,411277
2,858171
3,111142
3,474748
3,664807
3,889902
4,31057
4,887399
5,119894
5,558191
6,030547
6,659348
7,027987
7,529573
8,256974
Tabla 1. Tasa de mortalidad de Andalucía en el periodo 2003-2012 para los individuos de edades comprendidas entre 35 y 64 años.( Expresada en tantos por mil).
Cada año de calendario está compuesto de dos filas, la primera para las edades de 35 a 49 y la segunda para las edades de 50 a 64.
Fuente: Tablas de mortalidad. INE (http://www.ine.es/jaxi/tabla.do?type=pcaxis&path=/t20/p319a/serie/p01/l0/&file=01001.px).
Silvia García Ortega
29
Trabajo Fin de Máster: Supervivencia Relativa
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
0,9991
0,9990
0,9990
0,9987
0,9987
0,9986
0,9984
0,9983
0,9982
0,9980
0,9978
0,9977
0,9975
0,9971
0,9971
0,9969
0,9967
0,9962
0,9961
0,9957
0,9952
0,9952
0,9944
0,9941
0,9935
0,9928
0,9927
0,9920
0,9906
0,9903
0,9991
0,9991
0,9989
0,9989
0,9987
0,9987
0,9986
0,9985
0,9984
0,9981
0,9978
0,9978
0,9975
0,9972
0,9972
0,9968
0,9965
0,9964
0,9961
0,9959
0,9955
0,9949
0,9949
0,9944
0,9938
0,9932
0,9926
0,9928
0,9918
0,9905
0,9991
0,9991
0,9990
0,9989
0,9988
0,9987
0,9986
0,9985
0,9984
0,9981
0,9980
0,9978
0,9976
0,9975
0,9972
0,9969
0,9968
0,9964
0,9962
0,9957
0,9955
0,9952
0,9946
0,9945
0,9935
0,9932
0,9927
0,9920
0,9919
0,9910
0,9993
0,9992
0,9991
0,9990
0,9988
0,9988
0,9987
0,9986
0,9983
0,9981
0,9981
0,9979
0,9978
0,9974
0,9974
0,9970
0,9967
0,9964
0,9961
0,9959
0,9956
0,9952
0,9948
0,9943
0,9941
0,9932
0,9932
0,9923
0,9918
0,9913
0,9993
0,9992
0,9992
0,9990
0,9989
0,9988
0,9987
0,9984
0,9984
0,9983
0,9981
0,9980
0,9977
0,9976
0,9974
0,9971
0,9969
0,9965
0,9961
0,9958
0,9957
0,9953
0,9950
0,9943
0,9940
0,9934
0,9929
0,9926
0,9919
0,9908
0,9993
0,9992
0,9992
0,9991
0,9990
0,9989
0,9988
0,9987
0,9985
0,9983
0,9981
0,9980
0,9977
0,9976
0,9972
0,9969
0,9969
0,9965
0,9963
0,9960
0,9957
0,9955
0,9950
0,9945
0,9943
0,9933
0,9934
0,9924
0,9922
0,9916
0,9994
0,9993
0,9993
0,9991
0,9992
0,9990
0,9988
0,9987
0,9986
0,9985
0,9982
0,9981
0,9978
0,9978
0,9974
0,9972
0,9970
0,9968
0,9964
0,9958
0,9958
0,9954
0,9950
0,9947
0,9943
0,9939
0,9933
0,9927
0,9922
0,9917
0,9994
0,9994
0,9993
0,9993
0,9992
0,9990
0,9990
0,9988
0,9987
0,9985
0,9984
0,9981
0,9979
0,9978
0,9975
0,9973
0,9970
0,9966
0,9965
0,9961
0,9959
0,9955
0,9950
0,9948
0,9942
0,9940
0,9938
0,9928
0,9926
0,9917
0,9995
0,9994
0,9993
0,9993
0,9992
0,9991
0,9990
0,9989
0,9987
0,9986
0,9985
0,9983
0,9980
0,9978
0,9976
0,9973
0,9970
0,9966
0,9965
0,9962
0,9961
0,9953
0,9951
0,9948
0,9943
0,9938
0,9937
0,9930
0,9922
0,9922
0,9995
0,9995
0,9994
0,9993
0,9992
0,9991
0,9991
0,9990
0,9988
0,9986
0,9985
0,9984
0,9981
0,9978
0,9976
0,9976
0,9971
0,9969
0,9965
0,9963
0,9961
0,9957
0,9951
0,9949
0,9945
0,9940
0,9934
0,9930
0,9925
0,9918
Tabla 2. Supervivencia Poblacional de Andalucía en el periodo 2003-2012 para los individuos de edades comprendidas entre 35 y 64 años.
Silvia García Ortega
30
Trabajo Fin de Máster: Supervivencia Relativa
A partir de la tabla de supervivencias poblacionales (Tabla 2) vamos a estimar la
Supervivencia Esperada por los tres métodos vistos. Para ello, consideremos que para cada
individuo conocemos la edad y el año de calendario en el que entraron en la cohorte de
estudio, si está vivo (0) o ha fallecido (1) al final al final del estudio (columna Estado), años
de seguimiento desde la entrada en la cohorte (columna Tiempo).
NOTA: los datos correspondientes a las columnas Edad entrada, Año entrada, Estado y
Tiempo son ficticios.
Tabla 3. Calculo de la Supervivencia Esperada
Supervivencia Poblacional (SP)
Edad
Año
Entrada
Entrada
1
36
2
Individuo
Estado
Tiempo
Año 1
Año 2
Año 3
Año 4
Año 5
2006
1
1
0,9992
0,9992
0,9991
0,9992
0,9990
45
2007
0
2
0,9981
0,9980
0,9978
0,9978
0,9976
3
40
2006
0
3
0,9988
0,9987
0,9987
0,9986
0,9985
4
55
2003
1
4
0,9952
0,9949
0,9946
0,9943
0,9940
5
39
2007
1
5
0,9989
0,9989
0,9988
0,9988
0,9987
Media de la SP en la cohorte:
0,9980
0,9979
0,9978
0,9977
0,9976
SE(t):
0,9980
0,9959
0,9937
0,9915
0,9891
Media de la SP en la cohorte
0,9980
0,9976
0,9974
0,9966
0,9987
SE(t):
0,9980
0,9956
0,9930
0,9896
0,9882
5
4
3
2
1
4,9900
3,9904
2,9921
1,9931
0,9987
0,0100
0,0096
0,0079
0,0069
0,0013
0,9978
0,9973
0,9968
0,9954
0,9973
0,9978
0,9950
0,9919
0,9873
0,9846
Ederer I
Ederer II
Hakulinen
SE(t):
Esta tabla nos muestra, por ejemplo, que el individuo 2 entró en la cohorte en 2007 con 45
años y se ha seguido durante 1 año. En la tabla 2, tenemos la TSP para dicho paciente durante
2007, que fue 0,9981. En el segundo año de seguimiento, año 2008, el paciente tenía 46 años
teniendo una TSP de 0,9980. En el tercer año, año 2009, se aplica la TSP de los individuos de
Silvia García Ortega
31
Trabajo Fin de Máster: Supervivencia Relativa
47 que es 0,9978. Esta información es la que necesitaríamos para aplicar el método de Ederer
II. Para Ederer I tendríamos que llegar hasta el cuarto y quinto año, que serían las TSP de los
individuos de 48 años en 2010 y la de los individuos de 49 años en 2011, que son 0,9978 y
0,9976 respectivamente. (Las TSP del individuo 2 son las celdas marcadas en la tabla 2).
Ya disponemos de la información necesaria para calcular la SE por los distintos métodos:
• La SE mediante Ederer I se obtiene calculando la SP media de los cinco individuos en
cada año y multiplicando la SP media de cada año con la de los años anteriores.
Año j
Cálculo de la supervivencia estimada (SE): Método Ederer I
SEj
Año 1
0.9980
SE1
Año 2
SE2
Año 3
SE3
….
……………………………………………………………………
….
• La SE mediante Ederer II se obtiene calculando SP media de los 5 individuos en el primer
año, en el segundo año se calcula la media de los individuos de 2 a 5, en el tercer año de
los individuos de 3 a 5 y así hasta el último año. La SE de nuevo es el producto de la SP
de un año por la de los años anteriores:
Año j
Cálculo de la supervivencia estimada (SE): Método Ederer II
SEj
Año 1
0.9980
SE1
Año 2
SE2
Año 3
SE3
….
……………………………………………………………………
….
• Para calcular la SE mediante Hakulinen vamos a considerar además:
•
: el número de pacientes en riesgo en el primer año es 5, en el segundo 4, etc.
•
: para el primer año es la suma de las cinco supervivencias poblacionales
correspondientes a los pacientes en riesgo. Para el segundo año sería la suma de los
cuatro pacientes en riesgo, etc.
•
es el número de defunciones esperadas
•
: el intervalo de tiempo en nuestro ejemplo es 1
Aplicando la formula vista en el apartado 2.2 se obtiene la SE por el método de Hakulinen:
Silvia García Ortega
32
Trabajo Fin de Máster: Supervivencia Relativa
Año j
Cálculo de la supervivencia estimada (SE): Método Hakulinen
SEj
Año 1
SE1
Año 2
SE2
Año 3
SE3
….
……………………………………………………………………
….
Como podemos observar los dos métodos de Ederer dan estimaciones similares y sus valores
son superiores a la SE obtenida mediante Hakulinen.
NOTA: Si el tiempo máximo de seguimiento supera los 10 años se recomienda usar el
estimador obtenido por el método de Hakulinen.
Silvia García Ortega
33
Trabajo Fin de Máster: Supervivencia Relativa
II.3. Modelos de regresión para el análisis de la supervivencia
relativa
Es natural pensar que el efecto de una covariable en el riesgo se vea modificada con el paso
del tiempo. En esta situación, los modelos con parámetros "constantes" pueden ser
inadecuados. Existen diferentes metodologías que encuentran una alternativa en la que se
especifica un modelo de riesgo aditivo o multiplicativo para cada riesgo causa-específica
involucrado. Estos modelos asumen que las covariables actúan de manera aditiva o
multiplicativa sobre la función de riesgo base que se supone desconocida. Este efecto se
evalúa a través de las funciones dependientes del tiempo, por lo que puede explorarse su
variación. La función de supervivencia relativa, SR, depende de estas covariables, pudiendo
modelizarse a través de estos modelos de riesgo aditivos y multiplicativos.
En el Capítulo III de esta memoria reviasmos el libro relsurv integrado en el entorno de
programación R que incorpora un paquete de funciones desarrolladas para ajustar el modelo
de transformación, el modelo multiplicativo de Andersen, y tres enfoques diferentes para
ajustar el modelo aditivo.
II.3.1 Modelo aditivo
El modelo aditivo es el que aparece con mayor frecuencia en literatura de Supervivencia
Relativa. Bajo este modelo, el riesgo de cada individuo (riesgo observado, ) es la suma de
la población riesgo ( ) más un término de riesgo adicional no negativo ( ), esto es:
donde:
•
•
•
•
, siendo
el vector de valores de la variable para el que las tablas
poblacionales están estratificadas y es un vector de valores de algunas covariables
adicionales que se desean incluir en el análisis de regresión.
es el riesgo de cada individuo debido a su edad, sexo, año de cohorte o
cualquier otra combinación de covariables incluidas en los datos de mortalidad de la
población.
es el exceso de riesgo específico para la enfermedad en cuestión.
es el riesgo observado.
El término de exceso de riesgo,
suele modelizarse como:
donde:
•
•
representa la función de riesgo base o riesgo adicional subyacente.
es el vector de parámetros de la regresión.
por lo que el riesgo observado,
Silvia García Ortega
, puede expresarse como:
34
Trabajo Fin de Máster: Supervivencia Relativa
A partir de la igualdad
, podemos expresar:
Por tanto, la ecuación del modelo aditivo nos da el siguiente producto de funciones de
supervivencia:
donde,
La ecuación anterior tiene la misma forma que la función de supervivencia relativa
, de ahí que a menudo se utilice la frase de
para
esta clase de riesgo aditivo.
Nótese que el modelo aditiovo asume que
en todo momento y para
cualquier valor de las covariables, con
la función de supervivencia adecuada. Esto
suele verificarse en determinados estudios de investigación.
II.3.2 Modelo multiplicativo
El modelo de riesgo multiplicativo presenta una relación multiplicativa entre sus
componentes:
análogo al caso anterior:
•
•
•
•
siendo es el vector de valores de la variable para el que las tablas
poblacionales están estratificadas y es un vector de valores de algunas covariables
adicionales que se desean incluir en el análisis de regresión.
es el riesgo de cada individuo debido a su edad, sexo, año de cohorte o
cualquier otra combinación de covariables incluidas los datos de mortalidad de la
población.
es el exceso de riesgo específico para la enfermedad en cuestión.
es el riesgo observado.
Silvia García Ortega
35
Trabajo Fin de Máster: Supervivencia Relativa
Este modelo no asume que el riesgo observado sea mayor que el riesgo de la población
pero tiene una interpretación menos obvia que el modelo aditivo.
El factor
puede ser visto como la mortalidad relativa y por esta razón los modelos de
este tipo a veces se denominan
. Este modelo posee
menos restricciones matemáticas que el modelo aditivo, pero existen motivos por los que este
último es más utilizado en la práctica para determinados estudios.
Como buen modelo, dependerá del valor que se asuma para
común utilizada es
donde
, aunque la forma más
es la mortalidad base relativa.
El ajuste se realiza mediante la inclusión de las tasas de mortalidad de la población como una
covariable dependiente del tiempo en el modelo de Cox. Por consiguiente, los modelos de
riesgo multiplicativo están compuestos por una función de riesgo base que depende del
tiempo, y por un término positivo, el cual es una función exponencial de un vector de
covariables inherentes a cada individuo, multiplicado por un vector de parámetros de
regresión.
Así pues, una extensión del modelo de Cox permite obtener la estimación de los modelos
para distintos estratos. El modelo obtenido se conoce como modelo de Cox estratificado y
está definido para el estrato j-ésimo como:
Este modelo permite obtener la estimación del modelo en presencia de una variable de
estratificación sobre la cual se desean obtener funciones de supervivencia por cada uno de los
distintos grupos y probablemente poder estudiar la existencia o no de las funciones de
supervivencia entre los grupos.
El modelo de Cox estratificado también constituye una de las maneras de corregir el modelo
de Cox cuando no se cumple el supuesto de riesgos proporcionales para alguna de las
covariables. Es este caso suele correrse el modelo estratificando por la covariable que no
cumple con el supuesto de riesgo proporcional. Este procedimiento permite corregir el sesgo
en la estimación del parámetro que puede presentarse cuando no se verifica el supuesto de
riesgo proporcional. Sin embargo, presenta una desventaja y es que no existe ningún que
permita estimar el efecto de la covariable de estratificación.
II.3.3. Otros modelos
La tercera opción son los modelos de transformación que no hacen ninguna suposición acerca
de la relación entre lo observado, la población y el exceso de riesgo. En primer lugar, todos
los tiempos de supervivencia individuales se transforman a una escala diferente (teniendo en
Silvia García Ortega
36
Trabajo Fin de Máster: Supervivencia Relativa
cuenta la mortalidad de la población general), donde pueden ser analizados adicionalmente
por cualquiera de los modelos de supervivencia ordinarios.
En este enfoque los distintos tiempos de supervivencia se transforman primero como
)
donde
es la función de distribución acumulada de una persona de cierta edad, sexo y año
de cohorte (o cualquier otra combinación incluidas en las tablas de población) que se
aplicaría como si dicha persona fuese representante de la población general. Esta función de
distribución se calcula a partir de los datos de mortalidad general de la población. Los valores
de pueden ser interpretados como los valores obtenidos en la función de distribución
acumulativa esperada para cada individuo.
Al transformar a la nueva escala, el riesgo de la población se toma en cuenta
automáticamente, en consecuencia todo lo que queda es precisamente el riesgo específico de
la enfermedad, lo que podemos así directamente del modelo. Una de las posibilidades es usar
el modelo de Cox
Silvia García Ortega
37
Trabajo Fin de Máster: Supervivencia Relativa
Silvia García Ortega
38
Trabajo Fin de Máster: Supervivencia Relativa
Capítulo III
Supervivencia relativa en R. El libro relsurv
Existen distintos enfoques para analizar la supervivencia relativa, pero todo el software
disponible (Surv, macros y funciones de SAS, Stata, RSurv de R) se centra únicamente en
uno de los modelos y en el uso específico de tablas de población general. Por este motivo, a
los usuarios les resulta complicado comparar los diferentes métodos.
El paquete
de R ha sido desarrollado en gran parte por Maja Pohar Perme y su
núcleo consta de tres funciones (
,
y
) que se ajustan a los modelos
descritos en el apartado anterior.
La principal ventaja del uso de R para la SR es la forma en la que se maneja los datos de
mortalidad de la población. Una clase de objeto especial denominado
, está
diseñado de manera tan amplia que puede tener en cuenta cualquier particularidad de
formato. Este objeto está presente si las variables que se utilizan para el cálculo de la SE (por
ejemplo, edad, sexo y año) no están organizadas o nombradas de la misma forma que en las
tablas de población. La correspondencia se indicaría de la siguiente forma:
La construcción del objeto
e es sencillo. En primer lugar, los datos deben estar
organizados en una matriz rectangular, que por lo general está compuesta de tres dimensiones
(sexo, edad y año calendario). Si los datos de mortalidad de la población no atienden a una
matriz rectangular (un caso habitual será tener tasas para las mujeres hasta una edad más
Silvia García Ortega
39
Trabajo Fin de Máster: Supervivencia Relativa
avanzada que en los hombres), sólo hay que llevar el último valor hacia adelante, ya que esto
también se hace por todas las funciones que utilizan los objetos
.
Para cualquier modelo de supervivencia relativa se requieren dos conjuntos de datos. Uno son
los datos observados, que se pasan a la función como argumento
. Y el otro conjunto es
la tabla de mortalidad de la población con la que queremos comparar nuestros datos
observados, que será un objeto de la clase
.
Todas las funciones siguen las mismas reglas sintácticas.
III.1. Función rsaad
Esta función ajusta los datos a un modelo aditivo. El usuario puede elegir, a través del
argumento
, los diferentes métodos de estimación. Por defecto toma el método Estéve
(de máxima verosimilitud) que se especifica en "max.lik" (visto en el apartado 3.3.3), las
otras dos opciones son
" con un error binomial (apartado 3.3.1) y
con un error de Poisson (apartado 3.3.2). Cuando se utiliza uno de los
métodos glm, las proporciones de supervivencia observada y la esperada para cada grupo se
muestran como grupos de objetos.
Su sintaxis tiene la forma:
donde:
•
•
. Es un objeto, con la respuesta de la izquierda de un operador ~, y los términos a
la derecha. Los términos se componen de variables predictoras separadas por el operador
+, junto con un término
. Dicho término coincide con lo que se espera de su
cohorte para cada sujeto. Si están organizados y nombrados en la misma forma que en las
tablas de las variables de población, el término
puede omitirse. La respuesta
debe ser un objeto
como el devuelto por la función
. NOTA: el tiempo debe
estar expresado en días, y lo mismo ocurre para las variables
e (las variables
utilizadas en los cuadros de población), por ejemplo, la edad y el año (año se hará en el
formato de fecha, es decir, en el número de días desde 01, 01 ,1960).
. Es un data.frame en el que se pasan nuestros datos observados.
•
. Es una tabla de tasas de mortalidad, organizados como un objeto
(definida en el paquete
).
•
. Es un único valor que indica el seguimiento en años o un vector que especifica los
intervalos en años en los que el riesgo es constante, los tiempos que son más grandes que
max(int) son censurados (p.e.
tendríamos cuatro intervalos: [0,
0.5], (0.5, 1], (1,5], (5,10]. Es decir, los intervalos son cerrados por la derecha y abiertos
por la izquierda excepto el primer intervalo que también es cerrado por la izquierda). Si
Silvia García Ortega
40
Trabajo Fin de Máster: Supervivencia Relativa
falta, se asume que sólo hay un intervalo (entre 0 y el tiempo máximo de observación). El
método EM no necesita los intervalos, sólo puede especificarse el tiempo máximo (todos
los tiempos son censurados después de ese máximo).
•
.
. Filtra los valores perdidos, se usa después de cualquier argumento utilizado.
Por defecto es
.
•
glm.bin o glm.poi para un modelo glm,
el modelo de máxima verosimilitud (por defecto).
•
Es el vector de valores iniciales de la iteración. Por defecto el valor inicial es cero
para todas las variables.
•
Es una lista de parámetros para controlar el proceso del ajuste, p.e. el número de
iteraciones. Consultar la documentación de
para más detalles.
para el algoritmo EM y max.lik para
El método de máxima verosimilitud y ambos métodos gml asumen un modelo paramétrico
con una función de riesgo constante por tramos. Los intervalos en los que se supone constante
se debe pasar a través de argumento
. El método
es semiparamétrico, es decir, no se
hacen suposiciones para el riesgo de referencia y por lo tanto no hay que especificar
intervalos.
Los métodos que utilizan gml son métodos para datos agrupados. Los grupos se forman de
acuerdo con los valores de covarianza. Por tanto, esto debe tenerse en cuenta al ajustar un
modelo. El método gml devuelve las tablas de vida para los grupos especificados por las
covariables en grupos.
En el método
las probabilidades individuales de morir debido al exceso de riesgo se
devuelven como Nie.
III.2. Función rsmul
Ajusta los datos al modelo multiplicativo de Andersen (visto en el apartado 3.3.4). Una
alternativa es
que divide el tiempo en intervalos, por ejemplo, la
mortalidad a 1 de enero y el cumpleaños del individuo. Es una extensión de la función
usando la SR.
Su sintaxis es:
)
Sus argumentos coinciden con los de la función
, salvo:
•
. Es el número máximo de años de seguimiento utilizados para el cálculo de la
supervivencia (el resto está censurado). Si falta, se establece el máximo observado del
tiempo de seguimiento.
•
Puede tomar los valores
y
Por defecto es el método
que asume
que el riesgo es constante en intervalos anuales. El método
divide el tiempo en
Silvia García Ortega
41
Trabajo Fin de Máster: Supervivencia Relativa
intervalos, por ejemplo, la mortalidad a 1 de enero y el cumpleaños del individuo. Por
tanto, el método de
es más preciso, pero al mismo tiempo puede ser más intenso
computacionalmente hablando.
Devuelve un objeto de clase coxph.
III.3. Función rstrans
Esta función ajusta los datos al modelo de transformación (visto en el apartado 3.3.5). Si sólo
se necesitan los tiempos de transformación, esto se puede hacer directamente por la función
(paquete de
) o por la función
, donde se devuelve los tiempos
transformados en valor de producción (
,y
.
Esta función transforma el tiempo de cada persona en su probabilidad de morir en ese
momento de acuerdo con
. A continuación, se ajusta al modelo de riesgos
proporcionales de Cox con los tiempos transformados como respuesta. También se puede
utilizar para calcular los tiempos transformados (no se necesitan covariables en la fórmula
para ese propósito).
Su sintaxis es:
Todos sus argumentos coinciden con la función
Devuelve un objeto de clase
h. (ver
y
para más detalles) y
un objeto de clase
que contiene los tiempos transformadas (estos tiempos no dependen
de las covariables).
Además de estas funciones también incluye las funciones necesarias para realizar pruebas de
bondad de ajuste y representaciones gráficas para todos los modelos descritos. También
incluye dos conjuntos de datos uno se llama
y contiene los datos de supervivencia que
puede ser utilizado como un ejemplo, el conjunto de datos
contiene las tablas de
mortalidad de la población de Eslovenia.
III.4. Ejemplos
Para ilustrar el uso del paquete
vamos a realizar un ejemplo con los tres modelos
aditivos, para ello vamos a utilizar los datos que proporciona el propio paquete.
El primer paso es instalar
con la sentencia:
> install.packages("relsurv")
A continuación cargamos el paquete:
> library("relsurv", lib.loc="C:/Archivos de programa/R/R-3.1.0/library")
Los datos con los que vamos a trabajar se incluyen en el archivo RDATA y corresponden a
pacientes que han sufrido un infarto agudo de miocardio. La información fue recopilada en el
Silvia García Ortega
42
Trabajo Fin de Máster: Supervivencia Relativa
estudio llevado a cabo en el Centro Clínico de la Universidad de Ljubljana y contiene 1.040
pacientes diagnosticados entre 1982 y 1986 y seguidos hasta 1997. Durante este tiempo, se
produjeron 547 muertes no se especifica las causas de muerte por lo que se trata de un buen
ejemplo de la necesidad de la metodología de la SR. Para ello vamos a considerar los
primeros 5 años de seguimiento (
)
Leemos los datos y veamos su estructura:
> data(rdata)
> rdata[1:10,]
time cens
1 2657 1
2 1097 1
3 3764 1
4 3724 1
5 5076 0
6 139
1
7 4940 1
8 5078 0
9 596
1
10 4635 1
age
68
63
60
66
57
57
67
59
43
50
sex
2
2
1
2
2
2
1
1
1
2
year
8210
8278
8254
8054
8224
8233
8335
8177
8288
8281
agegr
62-70
62-70
54-61
62-70
54-61
54-61
62-70
54-61
<54
<54
En la ayuda de R-Studio podemos obtener información sobre las variables:
•
•
•
•
•
•
: tiempo de supervivencia expresado en días, por lo que tiene el formato
adecuado.
: Indicador de censura (0 = censura, 1 = muerte), también tiene el formato
correcto.
: edad en años.
: sexo (1 = hombre, 2 = mujer), se toma como covariable.
: fecha de diagnóstico (en formato de fecha).
: variable categórica o factor, que contiene cuatro grupos de edad (<54, 54-61,
62-70, 71-95), siendo la categoría <54 el grupo de referencia.
Comprobemos que
es efectivamente un factor:
> is.factor(rdata$agegr)
[1] TRUE
El estudio se realizó en Eslovenia, así que vamos a considerar las tablas de población
eslovenas:
> data(slopop)
Silvia García Ortega
43
Trabajo Fin de Máster: Supervivencia Relativa
Las variables
y
están en el mismo formato que las tablas de población eslovenas,
. A se debe poner en días, por tanto tenemos que multiplicar por 365.241, y el
quedaría así:
> ratetable(age=age*365.24, sex=sex,year=year)
Calculemos los modelos:
>Esteve<-rsadd(Surv(time,cens)∼sex+as.factor(agegr)+ratetable(age=age*365.24,
sex=sex,year=year), data=rdata,ratetable=slopop,int=5)
> summary(Esteve)
Call:rsadd(formula = Surv(time, cens) ~ sex + as.factor(agegr) + ratetable(age = age *
365.24, sex = sex, year = year), data = rdata, ratetable = slopop, int = 5)
Coefficients:
Estimate Std.Error z value Pr(>|z|)
sex
0.9028 0.2165
4.170 3.05e-05 ***
as.factor.agegr.54.61
0.1421 0.3165
0.449 0.6534
as.factor.agegr.62.70
0.5355 0.2940
1.822 0.0685 .
as.factor.agegr.71.95
0.6110 0.3142
1.944 0.0519 .
fu [0,1)
-4.2187 0.3859 -10.931 < 2e-16 ***
fu [1,2)
-4.9838 0.4272 -11.666 < 2e-16 ***
fu [2,3)
-5.0188 0.4393 -11.426 < 2e-16 ***
fu [3,4)
-5.4598 0.5623 -9.710 < 2e-16 ***
fu [4,5)
-4.9762 0.4444 -11.197 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
La salida nos muestra las estimaciones de , sus errores estándar y los resultados de la prueba
de Wald para cada covariable. Recordemos que la covariable
tiene cuatro categorías,
el grupo de edad más joven se toma automáticamente como el grupo de referencia. Por tanto,
la salida contiene nueve coeficientes, los últimos cinco en representación de los indicadores
de intervalos de seguimiento.
El hecho de que el coeficiente de la variable
sea positivo ( = 0,9028) implica que la
supervivencia de los hombres es relativamente mejor que la de las mujeres.
La edad, sin embargo no parece ser un factor muy importante, incluso con el coeficiente de
grupo de mayor edad no difieren significativamente de los más jóvenes (
). Esto significa que las diferencias en la supervivencia entre los grupos de edad que
obtendríamos con cualquier método de supervivencia clásico, son casi totalmente atribuibles
a la población riesgo.
Los coeficientes para los años de seguimiento son similares, así, sólo el primer año parece
tener un riesgo mayor (
por año).
Comprobemos la bondad del ajuste:
1
Se multiplica por 365.24 para tener en cuenta que hay un día más en los años bisiestos. El algoritmo sería: un año es bisiesto si se puede
dividir entre 4. Por ejemplo 2004, 2008, etc, pero los años divisibles por 100 no son años bisiestos, es decir 1800, 1900 no lo son. A menos que
sean divisibles por 400. Así que 1600 y 2000 son años bisiestos, siguiendo este algoritmo se llega a que una órbita terrestre dura 365.24 días.
Silvia García Ortega
44
Trabajo Fin de Máster: Supervivencia Relativa
> rs.br(Esteve)
sex
as.factor.agegr.54.61
as.factor.agegr.62.70
as.factor.agegr.71.95
GLOBAL
En todos los casos, para
bien.
max
0.662
1.068
0.839
1.054
1.085
p
0.774
0.204
0.482
0.216
0.190
, el p-valor asociado es mayor, luego el modelo se ajusta
>Hakulinen<rsadd(Surv(time,cens)∼sex+as.factor(agegr)+ratetable(age=age*365.24,sex=sex,year=year
),data=rdata,ratetable=slopop,int=5,method="glm.bin")
> summary(Hakulinen)
Call:rsadd(formula = Surv(time, cens) ~ sex + as.factor(agegr) + ratetable(age = age *
365.24, sex = sex, year = year), data = rdata, ratetable = slopop, int = 5, method = "glm.bin")
Coefficients:
Estimate Std. Error z value Pr(>|z|)
sex
0.8594 0.2172 3.957 7.59e-05 ***
as.factor(agegr)54-61 0.1479 0.3069 0.482 0.6300
as.factor(agegr)62-70 0.5207 0.2900 1.796 0.0726 .
as.factor(agegr)71-95 0.5393 0.3139 1.718 0.0858 .
fu [0,1]
-4.0973 0.3673 -11.154 < 2e-16 ***
fu (1,2]
-4.8852 0.4229 -11.551 < 2e-16 ***
fu (2,3]
-4.9540 0.4381 -11.307 < 2e-16 ***
fu (3,4]
-5.3960 0.5288 -10.205 < 2e-16 ***
fu (4,5]
-4.9394 0.4575 -10.797 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Observed number of deaths is smaller than the expected in 7/40 groups of patients
Con el modelo aditivo de Hakulinen se obtienen resultados muy parecidos:
El coeficiente de la variable
es de nuevo positivo (
de los hombres es relativamente mejor que la de las mujeres.
) así que la supervivencia
La
, no parece ser un factor muy importante, incluso si analizamos el coeficiente de
grupo de mayor edad no difieren significativamente de los más jóvenes (
). Como en el caso anterior, las diferencias en la supervivencia entre los grupos de edad
que obtendríamos con cualquier método de supervivencia clásico, son casi totalmente
atribuibles a la población riesgo.
Silvia García Ortega
45
Trabajo Fin de Máster: Supervivencia Relativa
Los coeficientes para los años de seguimiento son similares, el primer año es el que presenta
un riesgo mayor (exp (fu[0, 1)) = 0,016617482 por año).
Analicemos su bondad de ajuste:
> rs.br(Hakulinen)
sex
as.factor(agegr)54-61
as.factor(agegr)62-70
as.factor(agegr)71-95
GLOBAL
Para
ajusta bien.
max
0.653
1.035
0.819
1.001
1.034
p
0.788
0.235
0.513
0.269
0.236
, el p-valor asociado es mayor en todos los casos es mayor, luego el modelo se
>Poisson <−rsadd(Surv(time,cens)∼sex+as.factor(agegr)+
ratetable(age=age*365.24,sex=sex,year=year),data=rdata,ratetable=slopop,
int=5,method="glm.poi")
> summary(Poisson)
Call:rsadd(formula = Surv(time, cens) ~ sex + as.factor(agegr) + ratetable(age = age *
365.24, sex = sex, year = year), data = rdata, ratetable = slopop, int = 5, method = "glm.poi")
Coefficients:
Estimate Std. Error z value Pr(>|z|)
sex
0.8634 0.2171 3.977 6.97e-05 ***
as.factor(agegr)54-61 0.1463 0.3069 0.477 0.6335
as.factor(agegr)62-70 0.5162 0.2899 1.781 0.0749 .
as.factor(agegr)71-95 0.5408 0.3132 1.727 0.0842 .
fu [0,1]
-4.0886 0.3673 -11.131 < 2e-16 ***
fu (1,2]
-4.8946 0.4234 -11.560 < 2e-16 ***
fu (2,3]
-4.9760 0.4407 -11.292 < 2e-16 ***
fu (3,4]
-5.4177 0.5329 -10.166 < 2e-16 ***
fu (4,5]
-4.9640 0.4606 -10.778 < 2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Observed number of deaths is smaller than the expected in 7/40 groups of patients
Análogamente para el modelo gml de Poisson se obtiene:
La supervivencia de los hombres es relativamente mejor que la de las mujeres, lo vemos en el
coeficiente positivo de la variable
(
).
Silvia García Ortega
46
Trabajo Fin de Máster: Supervivencia Relativa
En este modelo también se aprecia que la
, no parece ser un factor muy importante,
incluso si analizamos el coeficiente de grupo de mayor edad no difieren significativamente de
los más jóvenes (
).
Los coeficientes para los años de seguimiento son similares, el primer año es el que presenta
un riesgo mayor (exp (fu[0, 1)) = 0,016617482 por año).
Veamos la bondad de ajuste:
> rs.br(Poisson)
sex
as.factor(agegr)54-61
as.factor(agegr)62-70
as.factor(agegr)71-95
GLOBAL
max
0.665
1.032
0.820
0.993
1.042
p
0.769
0.237
0.512
0.278
0.228
En todos los casos, para α=0.05, el p-valor asociado es mayor, luego el modelo se ajusta bien.
Si quisiéramos ajustarlo a un modelo multiplicativo la sintaxis sería:
> rsmul(Surv(time,cens)∼sex+as.factor(agegr)+
ratetable(age=age*365.24,sex=sex,year=year), data=rdata, ratetable=slopop, int=5)
Call:rsmul(formula = Surv(time, cens) ~ sex + as.factor(agegr) + ratetable(age = age *
365.24, sex = sex, year = year), data = rdata, ratetable = slopop, int = 5)
sex
as.factor.agegr.54.61
as.factor.agegr.62.70
as.factor.agegr.71.95
β
exp(β)
0.802
2.231
-0.448
0.639
-0.640
0.527
-1.152
0.316
se(β)
0.128
0.205
0.189
0.188
z
p
6.27 3.6e-10
-2.19 2.9e-02
-3.39 6.9e-04
-6.13 8.7e-10
Likelihood ratio test=56.9 on 4 df, p=1.32e-11 n= 4362, number of events= 323
Y para el modelo transformación:
> rstrans(Surv(time,cens)∼sex+as.factor(agegr) +
ratetable(age=age*365.24,sex=sex,year=year), data=rdata, ratetable=slopop, int=5)
Call:
rstrans(formula = Surv(time, cens) ~ sex + as.factor(agegr) +
ratetable(age = age * 365.24, sex = sex, year = year), data = rdata,
ratetable = slopop, int = 5)
Silvia García Ortega
47
Trabajo Fin de Máster: Supervivencia Relativa
β
exp(β) se(β)
z
p
sex
0.681
1.975 0.128 5.32 1.0e-07
as.factor(agegr)54-61 -0.245
0.783 0.208 -1.18 2.4e-01
as.factor(agegr)62-70 -0.303
0.739 0.200 -1.5 1 1.3e-01
as.factor(agegr)71-95 -0.515
0.597 0.213 -2.42 1.6e-02
Likelihood ratio test=28.4 on 4 df, p=1.04e-05 n= 1040, number of events= 323
Silvia García Ortega
48
Trabajo Fin de Máster: Supervivencia Relativa
Silvia García Ortega
49
Trabajo Fin de Máster: Supervivencia Relativa
Capítulo IV. Aplicación Práctica: Supervivencia relativa
de enfermos de SIDA en población infantil
IV.1. Presentación de los datos
Los datos que hemos utilizado en este trabajo provienen del Registro Andaluz de Casos de
Sida. Este registro forma parte de un sistema nacional de vigilancia epidemiológica en el que
participan todas las Comunidades Autónomas de España. El objetivo de la vigilancia del
SIDA es conocer su morbilidad (los efectos de una enfermedad en una población en el
sentido de la proporción de personas que la padecen en un sitio y tiempo), mortalidad y los
factores de riesgo asociados a esta enfermedad.
La información disponible en el Registro Andaluz de casos de Sida comprende:
• Datos sociodemográficos como el género, la edad, el grupo de riesgo, fecha de muerte, el
centro hospitalario, el país y provincia de residencia del paciente.
• Datos clínicos como, la fecha de diagnóstico por VIH (sólo el mes y el año), la fecha de
diagnóstico de SIDA (solo mes y año), la enfermedad indicativa de SIDA (alguna de las
28 enfermedades indicativas del SIDA).
Toda esta información se actualiza con datos de mortalidad mediante un cruce de los datos
registrados en el Registro Andaluz de casos de Sida y de los datos disponibles en el Registro
Andaluz de Mortalidad.
En el presente estudio hemos considerado únicamente información referida a población
infantil, es decir aquellos que a fecha de diagnóstico tenían 15 o menos años de edad. Toda la
información muestral que hemos usado ha sido organizada para su posterior tratamiento en R,
Silvia García Ortega
50
Trabajo Fin de Máster: Supervivencia Relativa
en el archivo que hemos nombrado infantil.txt y que está formado por cinco variables que
describimos a continuación:
Variable
Descripción
sex
age
cens
time
year
1=hombre, 0=mujer
0-15 años
0=censura; 1=fallecido
Tiempo de supervivencia en meses
Fecha de alta en el registro de casos de SIDA
IV.2. Estimación de la supervivencia observada
Comencemos leyendo el fichero de datos donde se encuentra la información:
> infantil<-read.table("infantil.txt",header=T)
> infantil
sex
age cens time
year
13
1
9.0
1
43.87
20
0
0.5
1
23.17
89
1
0.5
1
2.55
129
1
0.5
1
6.91
244
0
1.0
0
120.73
499
0
10.0 0
56.30
512
0
7.0
0
53.26
568
0
12.0 1
0.66
583
0
0.5
0
202.18
613
0
0.5
1
0.76
695
0
6.0
1
63.57
867
1
0.5
0
149.85
875
0
0.5
1
1.52
………………………….
1Dec88
1Jul89
1Jul90
1May93
1Jun95
1Oct00
1Jan01
1Feb87
1Sep88
1Jul89
1May88
1Jan93
1Jun92
donde cada una de las columnas contiene la información definida en el punto anterior.
Para el cálculo de la supervivencia observada vamos a usar la función coxph que se encuentra
en el libro survival, como a lo largo de la práctica también necesitaremos el libro relsurv,
vamos a llamar a este último y así tendremos cargados los dos.
> library(relsurv)
Calculemos en primer lugar el estimador de Kaplan-Meier para un modelo sin variables:
#Cálculo de Kaplan-Meier
> km<-survfit(Surv(time,cens)~1,data=infantil, conf.int=FALSE)
> summary(km)
Call: survfit(formula = Surv(time, cens) ~ 1, data = infantil, conf.int = FALSE)
Silvia García Ortega
51
Trabajo Fin de Máster: Supervivencia Relativa
time n.risk n.event survival std.err
0.03 202
1 0.995 0.00494
0.13 201
1 0.990 0.00697
0.30 200
1 0.985 0.00851
0.33 199
1 0.980 0.00980
0.40 198
1 0.975 0.01093
0.50 197
1 0.970 0.01194
0.66 196
1 0.965 0.01287
0.69 195
1 0.960 0.01372
0.73 194
1 0.955 0.01452
………………………………………………..
Y veamos su representación gráfica:
> #Gráfico de la función de supervivencia
> plot(km,xlab="Tiempo(días)",ylab="Supervivencia", main="Estimador de Kaplan y
Meier")
En los primeros 50 días se observa una caída pronunciada de la curva de supervivencia, es
decir, a medida que se incrementa el tiempo, la supervivencia de los pacientes desciende a un
ritmo mayor que a partir de los 50 meses, donde se aprecia una tendencia casi constante.
Ahora, calculemos KM teniendo considerando la variable sex
> km_sex<-survfit(Surv(time,cens)~sex,data=infantil, conf.int=FALSE)
Silvia García Ortega
52
Trabajo Fin de Máster: Supervivencia Relativa
Su representación gráfica puede obtenerse mediante:
> #Gráfico de la función de supervivencia
> plot(km_sex,xlab="Tiempo(días)",ylab="Supervivencia", main="Estimador de Kaplan y
Meier")
Niño
Niña
La población infantil masculina (sex=1) presenta una mayor supervivencia frente a la
femenina, siendo prácticamente constante esta diferencia durante todo el periodo.
Pero hay que estudiar si estas diferencias en los tiempos medios de supervivencia entre
hombres y mujeres son realmente significativo para ello consideramos el siguiente test:
> prueba<-survdiff(Surv(time, cens) ~ sex,data=infantil)
> prueba
Call:
survdiff(formula = Surv(time, cens) ~ sex, data = infantil)
N Observed Expected (O-E)^2/E (O-E)^2/V
sex=0 77
31
40.7
2.32
4.28
sex=1 102
58
48.3
1.95
4.28
Chisq= 4.3 on 1 degrees of freedom, p= 0.0385
A un nivel de significación
el resultado es significativo, luego la diferencia de
supervivencia de hombres y mujeres es significativa.
El gráfico de la función de supervivencia por sexos sugiere que un modelo de riesgos
proporcionales de Cox podría ser un modelo adecuado para explicar la influencia de la
variable sex.
Silvia García Ortega
53
Trabajo Fin de Máster: Supervivencia Relativa
(NOTA: no tiene sentido plantear un K-M con la variable age al ser cuantitativa tomaría cada
valor como un factor obteniendo una línea para cada edad. Podríamos considerar agrupar los
individuos de la muestra y crear una variable categórica definida por grupos de edad. No
hemos considerado este enfoque aquí.)
Modelos de regresión de Cox
Ahora vamos a comprobar si las variables influyen en el modelo para ello calculemos la
Regresión de Cox para cada variable individualmente y luego realizaremos el modelo
múltiple.
> #Regresión de Cox con la variable sexo
> cox_sex<-coxph(Surv(time, cens) ~sex, data=infantil2)
> summary(cox_sex)
Call:
coxph(formula = Surv(time, cens) ~ sex, data = infantil2)
n= 179, number of events= 89
coef exp(coef) se(coef) z Pr(>|z|)
sex 0.4572 1.5797 0.2228 2.052 0.0402 *
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
exp(coef) exp(-coef) lower .95 upper .95
sex 1.58 0.633 1.021 2.445
Concordance= 0.556 (se = 0.027 )
Rsquare= 0.024 (max possible= 0.992 )
Likelihood ratio test= 4.37 on 1 df, p=0.0365
Wald test
= 4.21 on 1 df, p=0.04018
Score (logrank) test = 4.28 on 1 df, p=0.03849
Fijando el nivel de significación
, por cualquiera de los tres criterios (test de razón
de verosimilitud, test de wald y test de los puntajes (score o logrank)), el modelo es
significativo puesto que los p-valores asociados son todos menores que .
También obtenemos que la variable sexo influye en el modelo ya que su
es menor que .
En cuanto a la estimación del Hazard Ratio, obtenido a partir de
, se puede decir
que un paciente que sea mujer presenta un riesgo de morir aproximadamente 1,58 veces
mayor que un hombre (siendo mujer=0 la categoría de referencia).
Por último, como el IC no contiene al uno, el riesgo es significativo.
De forma que a la vista de los resultados obtenidos se concluye que la variable sexo es
significativa.
Veamos qué ocurre con la variable edad
Silvia García Ortega
54
Trabajo Fin de Máster: Supervivencia Relativa
> #Regresión de Cox con la variable edad
> cox_age<-coxph(Surv(time, cens) ~ age, data=infantil2)
> summary(cox_age)
Call:
coxph(formula = Surv(time, cens) ~ age, data = infantil2)
n= 179, number of events= 89
coef exp(coef) se(coef) z Pr(>|z|)
age 0.008043 1.008075 0.024979 0.322 0.747
exp(coef) exp(-coef) lower .95 upper .95
age 1.008 0.992 0.9599 1.059
Concordance= 0.487 (se = 0.03 )
Rsquare= 0.001 (max possible= 0.992 )
Likelihood ratio test= 0.1 on 1 df, p=0.7495
Wald test
= 0.1 on 1 df, p=0.7475
Score (logrank) test = 0.1 on 1 df, p=0.7474
Realizando un análisis análogo al caso anterior obtenemos que para el mismo nivel de
significación este modelo no es significativo con ningún criterio (los p-valores de los tres
criterios son mayores que 0,05).
En cuanto a la estimación del Hazard Ratio se puede decir que un paciente con una
determinada edad tiene 0,99 veces menos riesgo de morir a medida que cumple cada año.
Esta conclusión puede ser un poco controvertida porque no tiene sentido que a medida que se
cumplen años tengas más posibilidad de vivir, pero al tratarse de pacientes con VIH puede
ocurrir que a medida que cumplan años desarrollen más anticuerpos y crezca por tanto su
posibilidad de vivir. Pero como el IC en este caso contiene al uno, dicho valor de riesgo no es
significativo.
Analizando por separado la influencia de las variables hemos obtenido que el sexo es
influyente pero la edad no, veamos qué pasa si consideramos las dos en el modelo.
> #Regresión de Cox con las variables sexo y edad
> cox_sexoedad<-coxph(Surv(time, cens) ~ age+sex, data=infantil2)
> summary(cox_sexoedad)
Call:
coxph(formula = Surv(time, cens) ~ age + sex, data = infantil2)
n= 179, number of events= 89
coef exp(coef) se(coef) z Pr(>|z|)
age 0.001259 1.001260 0.024569 0.051 0.9591
sex 0.455860 1.577530 0.224454 2.031 0.0423 *
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
exp(coef) exp(-coef) lower .95 upper .95
age 1.001 0.9987 0.9542 1.051
sex 1.578 0.6339 1.0161 2.449
Silvia García Ortega
55
Trabajo Fin de Máster: Supervivencia Relativa
Concordance= 0.549 (se = 0.031 )
Rsquare= 0.024 (max possible= 0.992 )
Likelihood ratio test= 4.38 on 2 df, p=0.1121
Wald test
= 4.21 on 2 df, p=0.1217
Score (logrank) test = 4.29 on 2 df, p=0.1173
El modelo formado por las variables sex y age no es significativo por ningún criterio puesto
que todos los p-valores son superiores al nivel de significación fijado
.
De nuevo la variable sex es influyente (p-valor=0,0423<0,05) y la variable age sigue sin serlo
(p-valor=0,9591<0,05).
Así pues, a un nivel
, existe relación entre el sexo y la supervivencia (p-valor<0,05),
mientras que no existe relación entre la variable edad y la supervivencia (p-valor>0,05).
En resumen, tener una u otra edad no influye en el hecho de morir pero ser niño o niña sí.
Por último, veamos el modelo de Cox con las tres variables: age, sex y year
> #Regresión de Cox con las variables sexo, edad y año
> cox<-coxph(Surv(time,cens)~age+sex+as.numeric(year), data=infantil2)
> summary(cox)
Call:
coxph(formula = Surv(time, cens) ~ age + sex + as.numeric(year),
data = infantil2)
n= 179, number of events= 89
coef exp(coef) se(coef) z Pr(>|z|)
age
0.0004683 1.0004685 0.0246614 0.019 0.9848
sex
0.4597592 1.5836925 0.2246789 2.046 0.0407 *
as.numeric(year) -0.0011855 0.9988152 0.0032955 -0.360 0.7190
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
exp(coef) exp(-coef) lower .95 upper .95
age
1.0005 0.9995 0.9533 1.050
sex
1.5837 0.6314 1.0196 2.460
as.numeric(year) 0.9988 1.0012 0.9924 1.005
Concordance= 0.562 (se = 0.032 )
Rsquare= 0.025 (max possible= 0.992 )
Likelihood ratio test= 4.51 on 3 df, p=0.2118
Wald test
= 4.34 on 3 df, p=0.227
Score (logrank) test = 4.41 on 3 df, p=0.2201
El modelo formado por las variables edad, sexo y año no es significativo a nivel de
significación
por ningún criterio.
Comprobemos si las variables son influyentes:
Silvia García Ortega
56
Trabajo Fin de Máster: Supervivencia Relativa
•
•
•
age: su
sex: su
year: su
, por tanto, no influye en el modelo.
, influye en el modelo.
, tampoco influye en el modelo.
En cuanto a la estimación del Hazard Ratio obtenido a partir de
•
•
•
:
age: al tener valor prácticamente 1 existe prácticamente el mismo riesgo para todas
las edades.
sex: un paciente que sea mujer presenta un riesgo de morir aproximadamente 1,6
veces mayor que un hombre (siendo mujer la categoría de referencia).
year: un paciente diagnosticado en un determinado año tiene 0,99 veces menos riesgo
de morir a medida que pasa cada año, es decir, prácticamente el mismo riesgo.
Si observamos los intervalos de confianza para cada variable comprobamos que tanto en el
caso de la variable edad como de la variable año el IC contiene al 1 luego las interpretaciones
realizadas de los HR no son concluyentes. Sin embargo el IC asociado al sexo no contiene al
1 por tanto sí es concluyente.
Conclusión del Análisis de Cox:
El estudio realizado tanto a nivel individual como múltiple pone de manifiesto que la única
variable influyente es el sexo, así mismo el único modelo significativo es el formado
únicamente por la variable sexo.
Comparemos la función de supervivencia obtenida mediante K-M y la obtenida con el
modelo de Cox compuesto con las tres variables:
> #Gráfico donde se compara la función de supervivencia obtenida mediante
> #el estimado de Kaplan y Meier y la obtenida mediante el modelo de Cox con las dos
variables
> plot(survfit(cox),conf.int=FALSE,main="Comparación del ajuste del modelo de Cox y el
estimador
+ de KM",xlab="Tiempo (meses)", ylab="Supervivencia")
> lines(km,lty=2)
> legend(100,0.99,legend=c("Ajuste por Cox","Estimador de KM"), lty=c(1,2))
Silvia García Ortega
57
Trabajo Fin de Máster: Supervivencia Relativa
Comparando la función de supervivencia obtenida con K-M y la que hemos obtenido con el
modelo de Cox con las tres variables vemos que es prácticamente la misma.
IV.3. Cálculo de la supervivencia esperada
Recordemos que la supervivencia esperada se estima a partir de la mortalidad de la población
residente en el área geográfica de la cual proceden los miembros de la cohorte en estudio.
Vamos a utilizar un objeto especial de survival denominado ratetable mediante el cual
pasaremos la tabla de vida correspondiente a nuestro estudio. Debido a que la tabla debe tener
un formato muy concreto se creó la base de datos de mortalidad humana (HMD,
www.mortality.org), donde se localizan las tablas de vida de 37 países, entre ellos España (la
información la suministra el INE). Para descargar los ficheros hay que registrarse
previamente.
Así obtenemos las tablas de vidas de hombres y mujeres (mltper_1x1.txt, fltper_1x1.txt,
donde 1x1 indica que tanto la edad como el año son anuales) en formato R.
A continuación usamos la función transrate.hmd para unir estos ficheros en uno sólo
formando nuestro ratetable:
> #Mediante hmd transformamos los ficheros de las tablas de vida niños y niñas menores
de 15 años a formato de R
> espop<-transrate.hmd(male='mltper_1x1.txt',female='fltper_1x1.txt')
Comprobemos que nuestro objeto espop tiene el formato de un ratetable
> #Ahora tenemos nuestro fichero en formato ratetable:
> is.ratetable(espop) #es de tipo ratetable
[1] TRUE
Veamos cómo está organizado
Silvia García Ortega
58
Trabajo Fin de Máster: Supervivencia Relativa
> summary(espop)
Rate table with 3 dimensions:
age ranges from 0 to 40176.51; with 111 categories
year ranges from -18993 to 18993; with 105 categories
sex has levels of: male female
El siguiente paso es recodificar nuestra variable sexo, ya que R interpreta 1=hombre y
2=mujer. Para tal finalidad realizamos esta sencilla operación:
> infantil2$sex<-2-infantil2$sex
De modo que 2-0=2 (mujer) y 2-1=1 (hombre)
Una vez que tenemos la información necesaria y en el formato exigido por R, vamos a
calcular la SE mediante los métodos de Ederer y Hakulinen.
Para aplicar las funciones correspondientes la variable edad debe estar expresada en días por
ello hacemos la asignación age*365.24 en el ratetable.
> ederer <- survexp(time ~ ratetable(age=age*365.24, sex=sex, year=as.numeric(year)),
ratetable=espop, method=’ederer’, data=infantil2)
> ederer
Call:
survexp(formula = time ~ ratetable(age = age * 365.24, sex = sex,
year = as.numeric(year)), data = infantil2, method = “ederer”,
ratetable = espop)
age ranges from 0.5 to 15 years
male: 102 female: 77
date of entry from 2Jan60 to 27Apr60
Time n.risk survival
0.03 179 1.000
0.13 178 1.000
0.30 177 1.000
0.33 177 1.000
0.40 176 1.000
0.50 174 1.000
0.66 173 1.000
0.69 172 1.000
0.73 171 1.000
0.76 170 1.000
0.79 169 1.000
0.86 168 1.000
0.93 168 1.000
0.99 166 1.000
1.02 165 1.000
Otra forma para obtener la supervivencia estimada es:
> y<-survexp(time~ratetable(age=age*365.24, sex=sex, year=as.numeric(year)),
ratetable=espop, data=infantil)$surv
Silvia García Ortega
59
Trabajo Fin de Máster: Supervivencia Relativa
Método de Hakulinen:
> #Calculo de la supervivencia esperada mediante Hakulinen
> hakulinen <- survexp(time ~ ratetable(age=age*365.24, sex=sex, year=as.numeric(year)),
ratetable=espop, method=’hakulinen’, data=infantil2)
> hakulinen
Call:
survexp(formula = time ~ ratetable(age = age * 365.24, sex = sex,
year = as.numeric(year)), data = infantil2, method = “hakulinen”,
ratetable = espop)
age ranges from 0.5 to 15 years
male: 102 female: 77
date of entry from 2Jan60 to 27Apr60
Time n.risk survival
0.03 179 1.000
0.13 178 1.000
0.30 177 1.000
0.33 177 1.000
0.40 176 1.000
0.50 174 1.000
0.66 173 1.000
0.69 172 1.000
0.73 171 1.000
0.76 170 1.000
0.79 169 1.000
0.86 168 1.000
0.93 168 1.000
0.99 166 1.000
1.02 165 1.000
1.09 163 1.000
La siguiente figura muestra la supervivencia estimada en la población infantil por sexos:
Silvia García Ortega
60
Trabajo Fin de Máster: Supervivencia Relativa
Como puede verse en la gráfica, para la población infantil, considerada en este trabajo, la
supervivencia esperada aún presenta valores altos, por lo tanto la incidencia en el cálculo de
la supervivencia relativa que vemos en la sección a continuación no será muy relevante.
IV.4. Estudio de la supervivencia relativa
Como ya hemos comentado la Supervivencia Relativa se define como el cociente entre la
Supervivencia Observada (SO) y la Supervivencia Esperada (SE):
•
•
SO: es la supervivencia de la cohorte teniendo en cuenta el tiempo de seguimiento del
individuo (el menor) y si este ha fallecido o no independientemente de la causa de
muerte, para su cálculo hemos hecho uso del método de Kaplan-Meier.
SE: determina la supervivencia que se esperaría en la misma cohorte según la
mortalidad por todas las causas de la población de la cual procede nuestro conjunto de
población infantil (menores de 15 años). La SE la hemos estimado por los métodos
de Ederer y Hakulinen obteniendo resultados muy similares.
Se interpreta SR como la proporción de pacientes que ha sobrevivido en la hipotética
situación de que la enfermedad en estudio, en nuestro caso el SIDA, fuese la única y posible
causa de defunción.
Quizás lo más complicado sea la elección del método para calcular la SE, Ederer y Hakulinen
son los más recomendados puesto que minimizan el sesgo en la estimación de la SE.
Presentamos a continuación los resultados desglosados por sexos
Silvia García Ortega
61
Trabajo Fin de Máster: Supervivencia Relativa
Como puede verse de las figuras anteriores (panel izquierdo: niños, panel derecho: niñas) las
curvas obtenidas mediante el método de K-M subestiman ligeramente las probabilidades de
supervivencia de los individuos de la muestra.
Modelo de regresión para la supervivencia relativa
Dentro del libro relsurv se encuentra la función rstrans, esta función transforma el tiempo de
cada persona a su probabilidad de morir en ese momento de acuerdo con la ratetable, hay que
tener en cuenta que desde 1960 la variable time debe ir expresada en días.
Realicemos este cambio y ajustemos al modelo de Cox con los tiempos transformados como
respuesta:
> infantil2$time<-infantil2$time*30
> sup.rel<-rstrans(Surv(time,
cens)~age+sex+as.numeric(year)+ratetable(age=age*365.24,sex=sex,
year=as.numeric(year)), data=infantil2, ratetable=espop)
> sup.rel
Call:
rstrans(formula = Surv(time, cens) ~ age + sex + as.numeric(year) +
ratetable(age = age * 365.24, sex = sex, year = as.numeric(year)),
data = infantil2, ratetable = espop)
coef exp(coef) se(coef)
z
p
age
0.09998 1.105 0.02441 4.0956 4.2e-05
sex
-0.00465 0.995 0.23653 -0.0197 9.8e-01
as.numeric(year) -0.00110 0.999 0.00327 -0.3358 7.4e-01
Likelihood ratio test=15 on 3 df, p=0.00183 n= 179, number of events= 89
Con summary() obtenemos más información:
> summary(sup.rel)
Call:
rstrans(formula = Surv(time, cens) ~ age + sex + as.numeric(year) +
ratetable(age = age * 365.24, sex = sex, year = as.numeric(year)),
data = infantil2, ratetable = espop)
n= 179, number of events= 89
coef exp(coef) se(coef) z Pr(>|z|)
age
0.099980 1.105149 0.024411 4.096 4.21e-05 ***
sex
-0.004648 0.995363 0.236527 -0.020 0.984
as.numeric(year) -0.001099 0.998902 0.003272 -0.336 0.737
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
age
sex
exp(coef) exp(-coef) lower .95 upper .95
1.1051 0.9049 1.0535 1.159
0.9954 1.0047 0.6261 1.582
Silvia García Ortega
62
Trabajo Fin de Máster: Supervivencia Relativa
as.numeric(year) 0.9989
1.0011 0.9925
1.005
Concordance= 0.667 (se = 0.033 )
Rsquare= 0.08 (max possible= 0.99 )
Likelihood ratio test= 14.98 on 3 df, p=0.001832
Wald test
= 18.35 on 3 df, p=0.0003718
Score (logrank) test = 20.1 on 3 df, p=0.0001618
Fijando el nivel de significación
, por cualquiera de los tres criterios (test de razón
de verosimilitud, test de wald y test de los puntajes (score o logrank)), el modelo es
significativo puesto que los p-valores asociados son todos menores que .
En este caso obtenemos que ni la variable sexo ni el año son significativos (
y
, respectivamente). Sin embargo la variable edad sí que es
significativa.
En cuanto a los Hazard Ratio como todos son prácticamente 1 tienen prácticamente el mismo
riesgo de morir independientemente de la edad, sexo o año. Ahora bien, el único IC que no
contiene al 1 es el correspondiente a la variable sexo, luego el único HR significativo es el de
la variable edad, es decir, todas las edades tienen prácticamente el mismo riesgo.
Silvia García Ortega
63
Trabajo Fin de Máster: Supervivencia Relativa
IV.5. Conclusiones
El problema aquí tratado es un claro ejemplo de la importancia de la supervivencia relativa.
Los datos se refieren a niños con SIDA que fueron infectados durante el embarazo. Cuando
uno de ellos fallece, ¿qué se anotará en el parte de defunción? Es complicado, puesto que
puede fallecer de SIDA o bien de un resfriado que se complique a causa de no tener los
anticuerpos necesarios… entonces, ¿muere de sida? O ¿sólo es un factor que ha provocado
que fallezca de un simple resfriado?
Tanto en el análisis individual de las variables como en el multivariante, la única variable
influyente en la supervivencia es el sexo, llegando a la conclusión que el sexo femenino vive
más a pesar de que el masculino tiene más probabilidad de vivir (existiendo una diferencia
significativa entre ellos). El resto de variables implicadas en el estudio no influyen en la
supervivencia.
En los primeros 50 meses tras detectar la enfermedad es cuando se produce un mayor número
de fallecimientos, permaneciendo casi constante cuando han vivido 100 meses con SIDA.
Sin embrago, como acabamos de ver, cuando determinamos la supervivencia relativa el sexo
deja de ser influyente y se pone de manifiesto que la edad sí que es significativa.
Este resultado es lógico, es cierto que los hábitos y por tanto el sexo de una persona influye
en el hecho de tener SIDA pero nuestros datos son de menores que se contagiaron durante el
embarazo no de sus hábitos. Tiene sentido que la edad sí sea influyente cada día que pasa nos
queda un día menos de vida, por tanto la supervivencia está claramente influenciada por la
edad.
Silvia García Ortega
64
Trabajo Fin de Máster: Supervivencia Relativa
Silvia García Ortega
65
Trabajo Fin de Máster: Supervivencia Relativa
Anexo 1. Análisis de supervivencia mediante R
El libro survival
En el capítulo I se han definido los modelos teóricos más importantes en Análisis de
Supervivencia, en este capítulo describiremos las herramientas necesarias para calcular
dichos modelos y realizar un análisis de supervivencia en R.
En el programa R el análisis de supervivencia se realiza a través de diferentes paquetes o
libros, algunos de ellos son:
•
•
•
•
•
•
•
: Modelos de Regresión Bayesianos.
: Calcula estimadores máximo verosímiles no paramétricos para datos con
doble censura.
: Test de razón de verosimilitudes empíricos para datos censurados y
truncados.
: Calcula estimadores máximo verosímiles no paramétricos para datos
censurdos y truncados.
: Funciones para estimar la función de riesgo.
: Funciones para ajustar modelos de regresión relativos en análisis de
supervivencia. Vemos este libro de forma extensa en el capítulo IV.
: Principal libro para realizar análisis de supervivencia.
Existen más libros orientados a realizar análisis de supervivencia pero vamos a centrar este
anexo al más importante de todos, el libro survival, que permite llevar a cabo análisis de
datos que presentan censura y el truncamiento.
Para ejecutar cualquiera de las funciones de este libro es necesario invocar al libro mediante
la instrucción:
> library(“survival”)
Silvia García Ortega
66
Trabajo Fin de Máster: Supervivencia Relativa
El libro survival trabaja con objetos de la forma Surv, que son estructuras de datos que
contienen información de tiempo y censura.
Función Surv
La función
permite crear objetos tipo survival. Su estructura es:
> Surv(time, time2, event, type=c('right', 'left', 'interval', 'counting', 'interval2'), origin=0)
> is.Surv(x)
dónde:
•
•
•
•
•
•
Corresponde al tiempo de inicio de la observación. Para datos de tipo intervalo, el
primer argumento es el extremo inicial del intervalo.
Es el tiempo de finalización de la observación, se asume que los intervalos de
tiempos son abiertos por la derecha y cerrados por la izquierda, es decir (time, time2].
Variable binaria que indica el estado. Normalmente 0=vivo (censurado), 1=muerto
(no censurado). Para datos con censura de intervalo: 0=censura a la derecha, 1=suceso
ocurrido en
, 2= censura a la izquierda, 3= censura de intervalo. Aunque es inusual
se puede suprimir, en este caso se asume que todos los individuos tienen el mismo
estado.
Es una cadena de caracteres que indica el tipo de censura. Sus posibles valores son
“derecha”, “izquierda”, “conteo”, “intervalo”, “intervalo2”. Por defecto, suele ser censura
por la derecha (time2 está ausente) o conteo (time2 está presente).
Esta opción se usa en un modelo que contiene estratos dependientes del tiempo,
con el fin de enumerar los sujetos correctamente cuando cambian de un estrato a otro. Su
uso no es frecuente.
Cualquier objeto de R.
Función survfit
La función
permite crear curvas de supervivencia utilizando el método de Kaplan y
Meier (por defecto) o de Fleming y Harrington. También permite predecir la función de
supervivencia para modelos de Cox. Su estructura es:
> survfit(formula, data, weights, subset, na.action, newdata, individual=F,
conf.int=.95,se.fit=T,type=c("kaplan-meier","fleming-harrington","fh2"),
error=c("greenwood","tsiatis"), conf.type=c("log","log-log","plain","none"),
conf.lower=c("usual","peto","modified"))
donde:
•
•
Es el objeto para formula que debe ser de tipo Surv.
Conjunto de datos en el que se interpreta las variables llamadas en los argumentos
y
.
•
Son los pesos del caso que deben ser no negativos.
•
Indica un subconjunto de filas de
para ser usado en la estimación. Puede ser
un vector lógico (con igual longitud al número de observaciones), numérico (indicando el
número de observaciones que deben ser incluidas o excluidas) o de caracteres (para incluir
el nombre de las filas). Todas las observaciones son incluidas por defecto.
Silvia García Ortega
67
Trabajo Fin de Máster: Supervivencia Relativa
•
•
•
•
•
•
•
•
•
Para filtrar datos faltantes. Se aplica al marco modelo después de aplicar
. Para suprimir las observaciones que contienen uno o varios valores perdidos la
función
toma el valor
.
El nivel para intervalos de confianza bilaterales. Por defecto es 0.95.
Valor lógico que indica si los errores estándar deben ser calculados. Por defecto
es TRUE.
Vector de tiempos dónde se evalua la curva de supervivencia. Por defecto, el
resultado será evaluado en cada valor diferente del vector de tiempos dado en
.
Cadena de caracteres que indica el tipo de curva de supervivencia.
Cadena de caracteres que especifica el error del estimador.
Adopta los valores "none" (no calcula intervalos de confianza), "plain"
(calcula los intervalos estándar
, donde
se determina
), "log" (por defecto, calcula intervalos basados en la función de riesgo
acumulado o
), y "log-log".
Valor numérico que indica un instante de tiempo donde empezar a calcular la
información sobre la supervivencia. La curva resultante es la curva de supervivencia
condicional a sobrevivir por encima de
.
Cadena de caracteres para especificar el límite inferior modificado.
Con la función survfit puede obtenerse diversa información:
•
•
•
o directamente con
muestra las medidas resumen.
devuelve la función de supervivencia estimada.
muestra el gráfico de la función de supervivencia estimada. En esta
función pueden controlarse una serie de opciones gráficas (ver la ayuda correspondiente
para más detalles).
•
proporciona el nombre de cada uno de los atributos de la función
survfit. Esta función es útil para seleccionar atributos por separados o para realizar
cálculos posteriores cuando sea necesario.
Función survexp
La función
devuelve la supervivencia esperada de una cohorte de sujetos, o la
supervivencia esperada para cada sujeto de forma individual. Su estructura es:
> survexp(formula, data, weights, subset, na.action, rmap, times, cohort=TRUE,
conditional=FALSE, ratetable=survexp.us, scale=1, npoints, se.fit, model=FALSE, x=FALSE,
y=FALSE).
donde:
•
•
•
•
•
. La variable de respuesta es un vector de los períodos de seguimiento y es
opcional.
. Conjunto de datos en el que interpretar las variables indicadas en la fórmula.
. Pesos, ponderaciones de los casos.
. Indica un subconjunto de las filas de datos para ser utilizados en el ajuste.
. Función para filtrar los datos que faltan. Se aplica a la estructura modelo
después de que se ha aplicado
. Un valor posible para
es
, que
borra las observaciones que contienen uno o más valores perdidos.
Silvia García Ortega
68
Trabajo Fin de Máster: Supervivencia Relativa
•
•
•
•
•
•
•
•
. Lista opcional que asigna nombres de conjuntos de datos a los nombres
.
. Vector de los períodos de seguimiento en los que se evalúa la curva de
supervivencia resultante. Si está ausente, se informará el resultado para cada valor único
del vector de los períodos de seguimiento suministrados en la fórmula.
. Valor lógico: si es FALSO , cada sujeto es tratado como un subgrupo de tamaño
1. Su valor predeterminado es TRUE.
. Valor lógico: si es TRUE, los tiempos de seguimiento suministrados en la
fórmula son tiempos de muerte y supervivencia esperada. Si es FALSO, los períodos de
seguimiento son posibles tiempos de censura. Si los tiempos de seguimiento no están
presentes en la fórmula, se omite este argumento.
. Tabla de tasas de eventos, tales como
, o un modelo de Cox
ajustado.
scale. Valor numérico para escalar los resultados.
. Calcula el error estándar de la supervivencia prevista
. Para controlar lo que se devuelve. Si alguno de ellos es TRUE, se devolverán
como componentes de resultado final, con los mismos nombres.
Función survdiff
La función
comprueba si hay diferencia entre dos o más curvas de supervivencia,
es decir, realiza contrastes de hipótesis para verificar la igualdad o diferencia de dos o más
curvas de supervivencias, basadas en las familias de pruebas
propuestas por Fleming
y Harrington (1982), o para una sola curva contra una alternativa conocida. Su estructura es:
>survdiff(formula, data, subset, na.action, rho=0)
donde:
•
. Para el test de una muestra, los predictores deben consistir en un solo término
, con
vector que da la probabilidad de supervivencia de cada sujeto. Para
un test de k-muestas, cada combinación única de predictores definine un subgrupo. Un
término
puede ser usado para producir una prueba estratificada. En el caso de
valores perdidos en las estimaciones deben ser tratados como un grupo separado, usar la
función
con su argumento
.
•
. Conjunto de datos en el que interpretar las variables indicadas en la estimación.
•
Indica el subconjunto de filas de datos que deben ser usadas en la estimación.
Puede ser: un vector lógico (con longitud igual al número de observaciones), un vector
numérico que indica que el número de observaciones incluidas (o excluidas si es negativo
) , o un vector de caracteres de los nombres de fila. Por defecto todas las observaciones
son incluidas.
•
parámetro escalar que controla el tipo de test.
Función survreg
La función
permite ajustar modelos de regresión paramétricos, los casos más
comunes usan una transformación logarítmica. Las distribuciones que se pueden ajustar
Silvia García Ortega
69
Trabajo Fin de Máster: Supervivencia Relativa
directamente a través de la función survreg son: Weibull, exponencial, Normal, lognormal,
logistica y log-logística. Su estructura es:
>survreg(formula, data, weights, subset, na.action, dist="weibull", init=NULL, scale=0,
control, parms=NULL, model=FALSE, x=FALSE, y=TRUE, robust=FALSE, score=FALSE, ...)
donde:
•
•
•
•
•
•
•
•
•
•
•
Expresión análoga a otros modelos de regresión. La respuesta suele ser un
objeto de la supervivencia como el devuelto por la función Surv.
Conjunto de datos en el que interpretar las variables indicadas en la estimación.
Vector opcional con las ponderaciones de los casos.
Usada después de
, filtra los valores perdidos. Por defecto
es
.
Distribución de la variable y. Si el argumento es una cadena de caracteres, entonces
se asume que llama a un elemento de
. Estos incluyen "weibull",
"exponencial", "normal", "logistico", "lognormal" y "loglogistica". De lo contrario, se
supone que es una lista definida por el usuario conforme al formato descrito en
.
Contiene una lista de parámetros fijos de la distribución de la variable. Para la
distribución t, por ejemplo, sería el grado de libertad. La mayoría de las distribuciones no
tienen ningunos parámetros.
Vector opcional para valores iniciales de los parámetros.
Valor fijo opcional para la escala. Si es 0 entonces la escala es estimada.
Contiene una lista de valores de control, en el formato producido por
.
Devuelve el vector resultante.
Usa errores estándar robustos, basados en la independencia de individuos si no
hay ningún termino
en la formula, basada en la independencia de grupos si los
hubiere.
Función coxph
La función
ajusta modelos de regresión de Cox. También permite ajustar modelos con
variables dependientes del tiempo, modelos estratificados, modelos de múltiples eventos por
individuo y otras extensiones derivadas del enfoque basado en los procesos de conteo de
Andersen y Gill. Su estructura es:
>coxph(formula, data=, weights, subset, na.action, init, control,
ties=c("efron","breslow","exact"), singular.ok=TRUE, model=FALSE, x=FALSE, y=TRUE, ...)
donde:
•
. La respuesta debe ser un objeto de la supervivencia como el devuelto por la
función
.
•
Es un data.frame en el que interpretar las variables definidas en la fórmula.
Silvia García Ortega
70
Trabajo Fin de Máster: Supervivencia Relativa
•
•
•
•
•
•
•
Vector de ponderaciones de los casos.
Expresión que indica qué subconjunto de las filas de datos se debe utilizar en el
ajuste. Por defecto, se incluyen todas las observaciones.
. filtra los valores perdidos.
. Vector de valores iniciales de la iteración. Por defecto, el valor inicial es cero para
todas las variables.
El objeto
se emplea específicamente para la iteración de los
límites y otras opciones de control.
Es una cadena de caracteres que especifica el método para tratar los empates. Si no
hay tiempos de muerte iguales, todos los métodos son equivalentes.
. Valor lógico que indica la forma de manejar la matriz del modelo. Si es
TRUE, el programa automáticamente irá a las columnas de la matriz X que son las
combinaciones lineales de las primeras columnas. En cuyo caso, los coeficientes para tales
columnas serán NA (valores perdidos) y la matriz para la varianza contendrá ceros.
La función coxph puede combinarse con otras funciones que permiten obtener la siguiente
información:
•
o directamente con
proporciona los contrastes para
verificar si el modelo Cox ajustado es adecuado.
•
informa un poco más de detalles de los contrastes.
•
proporciona la función de supervivencia ajustada por
el modelo de Cox.
•
muestra el nombre de cada uno de los atributos de la función
.
Función basehaz
Calcula la curva de supervivencia para un modelo de Cox. Su estructura es:
> basehaz(fit, centered = TRUE)
donde:
• fit. El resultado de un ajuste
.
• centered. Si toma el valor TRUE, la curva que se obtiene es para un hipotético sujeto
cuyos valores de la covarianza son los correspondientes a la media de los datos originales.
En otro caso el vector de medias será cero.
Función cox.zph
La función cox.zph permite llevar a cabo el contraste de hipótesis de riesgos proporcionales
después de ajustar un modelo de Cox (coxph). La hipótesis nula es el cumplimiento del
supuesto de riesgos proporcionales, asociado a que los betas son ceros. Su estructura es:
> cox.zph(fit, transform="km", global=TRUE)
Silvia García Ortega
71
Trabajo Fin de Máster: Supervivencia Relativa
donde:
• fit. Representa el resultado para ajustar un modelo de regresión de Cox, usando la función
de coxph.
• transform. Es una cadena de caracteres que especifica como deben transformarse los
tiempos de supervivencia antes de realizar el test. Puede tomar los valores: "km", "rank",
"identity" o una función de un argumento.
• global. Proporciona el test chi-cuadrado de forma global, además de los test por variable.
La función cox.zph puede combinarse con la función plot para obtener la distribución de los
betas. Su estructura sería:
> plot(x, resid=TRUE, se=TRUE, df=4, nsmo=40, var,…)
donde:
• x. Es un objeto de tipo cox.zph.
• var. Permite identificar la covariable que se va a representar de forma gráfica.
Función strata
La función strata es una función especial usada en el contexto del modelo de supervivencia
de Cox. Identifica las variables de estratificación cuando ellas aparecen a la derecha de una
fórmula. Su estructura es:
>strata(..., na.group=FALSE, shortlabel=FALSE, sep=', ')
donde:
• … cualquier número de variables. Todas deben tener la misma longitud.
• na.group. Variable lógica, cuando toma el valor TRUE los valores perdidos son tratadas
con un nivel distinto cada variable.
• shortlabel. Si es TRUE, omite nombres de variables para pasar a etiquetas del factor.
• sep. Sirve para separar grupos al crear etiquetas.
Silvia García Ortega
72
Trabajo Fin de Máster: Supervivencia Relativa
Silvia García Ortega
73
Trabajo Fin de Máster: Supervivencia Relativa
Anexo 2. Tablas de Mortalidad
Actualmente, el proceso de envejecimiento de la población y su trascendencia en la
planificación de los sistemas sanitarios y de seguridad social, así como el creciente interés en
la medición de las condiciones de vida de la misma, han incrementado el aliciente por el
estudio de la mortalidad, como componente demográfico que determina la evolución del
volumen y estructura demográfica de una población.
La herramienta estadística más completa para su análisis es la tabla de mortalidad. Este
instrumento de análisis demográfico, cuyo origen se remonta a 1945, permite llevar a cabo
análisis temporales y comparaciones espaciales sobre la incidencia del fenómeno con
independencia de la estructura por edad de las poblaciones en estudio. Puede decirse, en un
principio que se compone de tres series básicas: Supervivencia, defunciones y Probabilidades
o Riesgos de muerte, por edad. Además, se parte de la hipótesis de que la población es
cerrada, esto es no hay efectos migratorios
Pueden distinguirse dos tipos de tablas de mortalidad atendiendo al periodo de tiempo o de
referencia que comprenden:
•
•
Tabla de momentos, de periodo o de contemporáneos, que proporciona una
herramienta de análisis transversal del fenómeno de la mortalidad, y
Tabla de generaciones, basada en un análisis longitudinal de una generación concreta,
desde su nacimiento hasta su completa extinción, lo que requiere necesariamente de
un tiempo muy largo de observación del fenómeno (aproximadamente 100 años) lo
cual, las hace muy poco operativas. Sólo algunos países como Francia, Suecia o
Inglaterra y Gales disponen de este tipo de tablas.
La tabla de mortalidad de momentos, de periodo o de contemporáneos, describe el
comportamiento coyuntural del fenómeno sobre la población en estudio en un periodo
determinado simulando la incidencia del mismo sobre una cohorte o generación ficticia de
individuos sometidos a un patrón de mortalidad por edad idéntico al observado sobre la
Silvia García Ortega
74
Trabajo Fin de Máster: Supervivencia Relativa
población en estudio durante el periodo de observación. Para ello, la tabla se compone de un
conjunto de funciones definidas sobre la citada cohorte ficticia de individuos:
•
•
•
•
•
Supervivientes a la edad exacta
: representa el número de individuos de la cohorte
ficticia inicial que llegan con vida a la edad .
Defunciones teóricas con edad
: constituye el número de defunciones de la
cohorte ficticia inicial que tienen lugar en individuos de edad cumplida . Es evidente
por tanto que
Promedio de años vividos el último año de vida de los que mueren con edad cumplida
: se trata del tiempo promedio vivido con edad cumplida x por aquellos
individuos de la cohorte ficticia que mueren con dicha edad.
Población estacionaria a la edad
: corresponde al tiempo total vivido (en años)
por los individuos de la generación ficticia con edad cumplida x . Como cada persona
que sobrevive a la edad x contribuye un año a ese tiempo y, por término medio, los
que fallecen con dicha edad contribuyen
años cada uno de ellos, dicha función se
estima tradicionalmente por la expresión
Tasa específica de mortalidad a la edad
: se define como el número individuos
de la cohorte ficticia que fallecen con edad cumplida x por tiempo de exposición al
riesgo de muerte de los individuos de dicha generación. Es decir, se trata del cociente
entre el número de defunciones de individuos con edad cumplida x y el tiempo total
(medido en años) vivido por los individuos de la cohorte con dicha edad, es decir,
. La tasa específica de mortalidad a cada edad nos mide, de esta forma, la
•
incidencia o intensidad relativa del fenómeno en cada edad.
Probabilidad o riesgo de muerte con edad cumplida
: se define como la
probabilidad de que un individuo perteneciente a la cohorte ficticia inicial que
sobrevive hasta cumplir años de edad muera con dicha edad. Es decir, se define
como el cociente entre el número de ocurrencias del fenómeno (las defunciones
teóricas a la edad
), y el total de casos posibles o población sometida al riesgo del
mismo (los supervivientes a la edad
):
Por otro lado, a partir de la relación estimada entre población estacionaria y función
de supervivencia y de la propia definición de tasa específica de mortalidad en cada
edad, se deriva una aproximación clásica entre riesgo de muerte y tasa de mortalidad a
cada edad :
•
Esperanza de vida a la edad
: representa el número medio de años que a un
individuo de edad perteneciente a la cohorte ficticia inicial le queda por vivir. Su
valor resulta del cociente entre el tiempo total (medido en años) que le resta por vivir
Silvia García Ortega
75
Trabajo Fin de Máster: Supervivencia Relativa
a partir de cumplir x años de edad a los individuos de la generación ficticia hasta su
completa extinción y el número de supervivientes de la misma a la edad . Es decir,
Así pues, las tablas de mortalidad de periodo anual mantienen el objetivo de describir el
comportamiento coyuntural de la mortalidad de la población residente, desagregado por sexo
y por ambos sexos, en España, sus comunidades autónomas y provincias. Para ello, se somete
a una cohorte ficticia de 100.000 individuos al patrón de mortalidad por edad definido,
básicamente, por las tasas específicas de mortalidad observadas sobre la población en estudio
en el año de referencia y se derivarán sobre la misma el resto de funciones de la tabla de
mortalidad. Además, las tablas de mortalidad a nivel nacional ofrecen resultados
desagregados por edades simples (tablas completas), mientras que los resultados de las tablas
de mortalidad autonómicas y provinciales se proporcionarán agregados por grupos
quinquenales de edad (tablas abreviadas), excepto para las edades 0 y 1.
En relación a la metodología de cálculo de las tablas de mortalidad en el contexto europeo,
las Oficinas de Estadística de los distintos países de la Unión Europea, publican sus propios
cálculos de las tablas de mortalidad y metodología utilizada. No existe una normativa que
obligue a la armonización de los cálculos correspondientes. Sin embargo, Eurostat, no recoge
directamente la información sobre los indicadores demográficos de los países que forman la
Unión Europea, sino que emplea un procedimiento de cálculo propio, para todos ellos,
utilizando un mínimo de datos necesarios que los mismos facilitan, como son las cifras de
población y de defunciones, para calcular las tasas por edad, en el caso de mortalidad. De esta
forma calcula estos indicadores de una forma rápida, aunque con información menos
detallada.
Tablas de mortalidad de la población española
Las tablas de mortalidad de España, se calculan a partir de los resultados de defunciones
ocurridas en España cada año, datos que son proporcionados por la estadística del
Movimiento Natural de la Población y por las cifras de población residente a 1 de enero de
cada año que el INE emplea como referencia en toda su producción estadística, constituidas
por las Estimaciones Intercensales de Población hasta 2011 y Cifras de Población desde
2012.
Estas tablas, miden la incidencia de la mortalidad sobre la población residente en el país
durante el año de referencia simulando el comportamiento de la misma sobre una cohorte o
generación ficticia de individuos sometidos a un patrón de mortalidad por edad idéntico al
observado sobre la población en estudio durante el periodo de observación. Esta simulación,
consiste en aplicar a una generación ficticia de individuos la incidencia de la mortalidad en
cada edad determinada, básicamente, por las tasas específicas observadas sobre la población
residente en España durante el año de referencia y derivar, a partir de las mismas, las demás
funciones que componen su tabla de mortalidad.
Silvia García Ortega
76
Trabajo Fin de Máster: Supervivencia Relativa
La Tasa Específica de mortalidad a la edad observada sobre la población en estudio,
, se
estima bajo la hipótesis de distribución uniforme tanto en los años “cumplidos” de todos los
individuos de la población que no mueren a lo largo del año con una determinada edad, como
durante el año de observación, en la entrada y salida de los individuos en la población de
estudio. Tiene la siguiente expresión:
donde:
•
•
•
•
•
•
•
•
•
: año o periodo de observación.
: sexo, que toma los atributos varón, mujer o ambos sexos.
: edad o años cumplidos, con x = 0, 1, 2, ..., 99.
: stock de población residente a 1 de enero del año t con edad y sexo .
Nótese que
, dónde 100+ denota a los individuos
con 100 o más edad.
D(t,x,s): número de fallecidos en el año con edad y sexo .
,s): número de fallecidos en el año , con edad y sexo , que cumplen años
a lo largo de
): número de fallecidos en el año t, con edad y sexo , que cumplió años
a lo largo de
.
diferencia (en años) entre la fecha de defunción y la fecha de cumpleaños
(en el año ) de cada individuo de sexo fallecido durante el año con edad y que
cumplió los años a lo largo de . Obsérvese que dicha cantidad coincide con el
tiempo vivido (en años) con edad cumplida por cada individuo fallecido con esa
edad en el año de la generación que cumple años a lo largo de dicho año.
: se define como la diferencia (en años) entre la fecha de defunción y el 1
de enero del año t para cada individuo de sexo fallecido durante el año con edad
y que cumplió los
años a lo largo de
. Obsérvese que dicha cantidad
coincide con el tiempo vivido (en años) durante el año por cada individuo fallecido
durante dicho año con años de la generación que cumplió años a lo largo de
.
Asimilando los valores estimados de las tasas específicas de mortalidad de la población en
estudio con los correspondientes a las tasas específicas de mortalidad en cada edad de una
cohorte ficticia de 100.000 individuos, la probabilidad o riesgo de muerte a la edad , , de
dicha cohorte de individuos, que presenta la misma incidencia de la mortalidad a cada edad
que la población observada en el año de referencia, se estima por la expresión:
, donde
Silvia García Ortega
77
Trabajo Fin de Máster: Supervivencia Relativa
es el promedio de años vividos en el último año de vida por aquellos individuos de la
cohorte ficticia que mueren con edad cumplida x, esto es
donde
es el tiempo vivido por el individuo de la población en estudio, de sexo ,
fallecido con edad en el año de referencia
Para el grupo abierto considerado de 100 ó más años de edad, para el que el suceso muerte es
seguro, se tiene:
Las funciones de supervivencia, , y de defunciones teóricas,
recurrentemente:
,y
, para
, de la tabla se obtienen
.
Además, el total de tiempo vivido (medido en años) por los individuos de la generación
ficticia, de sexo , con edad cumplida o población estacionaria de la tabla, se deriva de la
expresión:
para
La función de esperanza de vida a la edad
para el sexo es:
Tabla de mortalidad en la población de España en el año 2012
En la página web del INE (www.ine.es), se presentan los resultados más recientes para las
tablas de mortalidad anuales, desde 1991 a 2012, de la población residente en España y en
cada una de sus comunidades autónomas y provincias, por sexo.
Como ejemplo, se presentan, en columnas, las funciones de la tabla de mortalidad calculada
por el INE, para la población de ambos sexos en España en el año 2012.
Silvia García Ortega
78
Trabajo Fin de Máster: Supervivencia Relativa
Al pulsar “Consultar selección” obtenemos la siguiente información:
Silvia García Ortega
79
Trabajo Fin de Máster: Supervivencia Relativa
Silvia García Ortega
80
Trabajo Fin de Máster: Supervivencia Relativa
Obsérvese que la variable edad figura en la primera columna.
Atendiendo a la definición de tabla de mortalidad que acaba de darse, la columna de
“supervivientes”, muestra como un efectivo total de 100.000 individuos (nacidos y nacidas)
se van reduciendo al ir pasando por las distintas edades; así, 99.702 superan el primer año de
vida, a los 86 llegan 46.994, y superan los 100 años 2.505 individuos de la generación inicial
de 100.000. Si esta reducción se debe a la mortalidad, la diferencia entre los términos de esa
serie nos dará la serie de defunciones teóricas, resultando 298 defunciones durante el primer
año de vida, y 4.188 entre los 86 y 87 años; si no hay supervivientes más allá de la edad
exacta 100, el número de defunciones a esa edad va a ser igual al de supervivientes, 2.505.
Además, la probabilidad o riesgo de morir entre dos edades, para los individuos que han
alcanzado una cierta edad, se deducirá dividiendo los casos favorables, que son las
defunciones ocurridas, entre los expuestos a morir, que son los supervivientes entre los que se
han producido las defunciones; por ejemplo, a la edad 90 el riesgo se calculará dividiendo
4.244 entre 29.654, resultando un 143,11 por 1000.
Si se emplea la notación estándar para las funciones de las tablas de mortalidad, puede
decirse que las tres series básicas anteriores están relacionadas entre sí. Por tanto si en una
generación inicial se conocen los supervivientes que van alcanzando las distintas edades (o
bien las defunciones que se producen entre las mismas), es posible conocer cuál es el riesgo
de fallecer para los supervivientes que llegan a cada edad y de comparar la mortalidad de esa
tabla con la correspondiente a otra población o a otro periodo de tiempo, siempre que ambas
partan de un mismo colectivo inicial, que se suele tomar igual a 100.000 individuos.
Tablas de mortalidad de comunidades autónomas y provincias
La tabla de mortalidad de una comunidad autónoma o provincia mide la incidencia de la
mortalidad sobre la población residente en la misma durante el año de referencia simulando el
comportamiento de la misma sobre una cohorte o generación ficticia de individuos sometidos
a un patrón de mortalidad por edad idéntico al observado sobre la población en estudio
durante el periodo de observación. Concretamente, tal simulación consiste en aplicar a una
generación ficticia de individuos la incidencia de la mortalidad en cada edad determinada,
básicamente, por las tasas específicas observadas sobre la población residente en la
comunidad autónoma o provincia considerada durante el año de referencia y derivar, a partir
de las mismas, las demás funciones que componen su tabla de mortalidad.
Ahora bien, manteniendo el objetivo de proporcionar una medición de la incidencia
coyuntural del fenómeno durante el año de referencia, se adopta un procedimiento de
agregación de resultados de una tabla de mortalidad completa por edades simples, en grupos
quinquenales de edad, a fin de eludir distorsiones indeseables sobre los resultados
proporcionados que puedan dificultar su interpretación como consecuencia directa de la
aleatoriedad de las informaciones propia de poblaciones de más reducido tamaño.
De esta forma, partiendo de la función de supervivencia, , y de la población estacionaria,
, de una tabla de mortalidad completa calculada con una metodología análoga a la
empleada para el total nacional, se determinan los valores de la función de supervivencia,
defunciones teóricas, y población estacionaria de la tabla de mortalidad autonómica o
Silvia García Ortega
81
Trabajo Fin de Máster: Supervivencia Relativa
provincial
(
con
resultados
):
agregados
por
grupos
quinquenales
de
edad
•
•
•
•
•
donde
son los individuos de la generación o cohorte ficticia fallecidos con edad
cumplida perteneciente al grupo
.
•
•
•
•
•
donde
donde
es el total de tiempo vivido (medido en años) por los individuos de la cohorte
ficticia entre las edades x y x + n.
La población estacionaria en el grupo abierto de 95 y más años toma el valor
completa de partida.
de la tabla
Además, la función de probabilidad de morir a la edad x es:
•
•
•
donde
es la probabilidad o riesgo que los individuos de la generación o cohorte
ficticia que sobreviven a la edad x mueran antes de cumplir x + n años.
•
Con ello, la esperanza de vida a la edad x se calcula como:
Finalmente, se estima consistentemente tanto promedio de años vividos el último año de vida
por aquellos individuos de la cohorte ficticia que mueren con edad cumplida perteneciente al
Silvia García Ortega
82
Trabajo Fin de Máster: Supervivencia Relativa
grupo
como la tasa específica de mortalidad en el grupo de edad
mediante las expresiones:
•
•
•
donde
es el promedio de años vividos el último año de vida por los individuos
de la cohorte ficticia fallecidos con edad cumplida perteneciente al grupo
.
•
donde
es el promedio de años vividos por los supervivientes a los 95 años de la
cohorte ficticia a partir de dicha edad.
•
•
•
donde
es la tasa específica de mortalidad en el grupo de edad
cohorte ficticia.
. de la
•
donde
es la tasa de mortalidad de 95 ó más años de la cohorte ficticia.
Ejemplo tabla de mortalidad en Andalucía para el año 2012
En la página web del INE (www.ine.es), se presentan los resultados más recientes para las
tablas de mortalidad anuales, desde 1991 a 2012, de la población residente en Andalucía por
sexo y edad.
Como ejemplo, se presentan, en columnas, las funciones de la tabla de mortalidad calculada
por el INE, para la población de ambos sexos en Andalucía, para el año 2012.
Silvia García Ortega
83
Trabajo Fin de Máster: Supervivencia Relativa
Al pulsar “Consultar selección” obtenemos la siguiente información:
Silvia García Ortega
84
Trabajo Fin de Máster: Supervivencia Relativa
Como en el caso anterior, la variable edad figura en la primera columna.
Atendiendo a la definición de tabla de mortalidad que acaba de darse, la columna de
“supervivientes”, muestra como un efectivo total de 100.000 individuos (nacidos y nacidas)
se van reduciendo al ir pasando por las distintas edades; así, 99.673 superan el primer año de
vida, a los 85 llegan 45.029, y superan los 95 años 8.449 individuos de la generación inicial
de 100.000. Si esta reducción se debe a la mortalidad, la diferencia entre los términos de esa
serie nos dará la serie de defunciones teóricas, resultando 327 defunciones durante el primer
Silvia García Ortega
85
Trabajo Fin de Máster: Supervivencia Relativa
año de vida, y 21.084 entre los 85 y 90 años; si no hay supervivientes más allá de la edad
exacta 95, el número de defunciones a esa edad va a ser igual al de supervivientes, 8.449.
Además, la probabilidad o riesgo de morir entre dos edades, para los individuos que han
alcanzado una cierta edad, se deducirá dividiendo los casos favorables, que son las
defunciones ocurridas, entre los expuestos a morir, que son los supervivientes entre los que se
han producido las defunciones; por ejemplo, a la edad 90 el riesgo se calculará dividiendo
15.496 entre 23.945, resultando un 647,15 por 1000.
Si se emplea la notación estándar para las funciones de las tablas de mortalidad, puede
decirse que las tres series básicas anteriores están relacionadas entre sí. Por tanto si en una
generación inicial se conocen los supervivientes que van alcanzando las distintas edades (o
bien las defunciones que se producen entre las mismas), es posible conocer cuál es el riesgo
de fallecer para los supervivientes que llegan a cada edad y de comparar la mortalidad de esa
tabla con la correspondiente a otra población o a otro periodo de tiempo, siempre que ambas
partan de un mismo colectivo inicial, que se suele tomar igual a 100.000 individuos.
Silvia García Ortega
86
Trabajo Fin de Máster: Supervivencia Relativa
Silvia García Ortega
87
Trabajo Fin de Máster: Supervivencia Relativa
Anexo 3. Glosario de términos
Análisis de
Supervivencia
Conjunto de técnicas que se utilizan para analizar el tiempo
de seguimiento hasta la ocurrencia de un suceso de interés
(fallo de una pieza, muerte o recaída de un paciente…).
Análisis de tendencia
Estudio de evento atendiendo a una determinada edad.
Análisis longitudinal
Un análisis o indicador demográfico está realizado desde una
perspectiva longitudinal si ha sido realizado fijando la
generación de pertenencia y estudiando alguna de las otras
dimensiones temporales: la edad o el momento de ocurrencia
del suceso. Es decir, es el estudio de evento atendiendo a
una determinada generación.
Análisis transversal o
del momento
Un análisis demográfico de determinado suceso puede ser
realizado fijando temporalmente el momento de ocurrencia o
tiempo calendario y variando alguna de otras dos
dimensiones temporales del fenómeno: la edad o la
generación de pertenencia. En este caso decimos que está
realizado desde una perspectiva transversal. Es decir es el
estudio de un evento atendiendo al año de ocurrencia.
Antigüedad
Tiempo transcurrido entre un evento inicial y otro final.
Censura
Uno de los dos inconvenientes que nos podemos encontrar
que hacen imposible la observación completa de los tiempos
de seguimiento.
Existen dos tipos de censura:
censura tipo I: los individuos son observados hasta un
Silvia García Ortega
88
Trabajo Fin de Máster: Supervivencia Relativa
tiempo determinado.
censura tipo II: los individuos son observados hasta que
ocurran un número determinado de fallos o eventos de
interés.
Censura a la derecha
Se presenta cuando termina la observación y aún no ha
ocurrido el suceso que se desea observar.
Censura a la izquierda
En la primera observación que se realiza sobre el individuo
ya ha ocurrido el evento que se desea observar.
Censura aleatoria
Durante el estudio algunos individuos experimentan otros
sucesos independientes del de interés que provocan la salida
del estudio.
Censura doble
Cuando los datos están censurados tanto por la izquierda
como por la derecha.
Censura multiple
Cuando no existe un único tiempo de censura.
Censura por intervalos
Tiene lugar cuando el tiempo de vida se sabe que ocurre
solamente dentro de un intervalo. Este tipo de censura se
presenta cuando se tiene un estudio longitudinal donde el
seguimiento del estado de los sujetos se realiza
periódicamente y por tanto, el fallo sólo puede conocerse
entre dos periodos de revisión, generando un intervalo de la
forma (
) para cada sujeto en el estudio.
Cohorte
Conjunto de individuos que cumplen una condición por
primera vez, durante el mismo periodo de tiempo.
Distribución
Exponencial
,
dónde
es la tasa de fallo,
constante y positiva.
Distribución Gamma
Distribución Loglogística
Distribución Normal
Distribución Weibull
Edad
Silvia García Ortega
,
Tiempo transcurrido desde el nacimiento del individuo.
89
Trabajo Fin de Máster: Supervivencia Relativa
Estimador de
Nelson-Aalen
Estimador no paramétrico de la tasa de riesgo acumulada. Se
emplea para estimar el número total de eventos esperados.
Estimador
kaplan-meier
Método no para métrico para la estimación, tramo a tramo,
de la supervivencia observada.
Evento inicial
Momento en el que el individuo cumple la condición.
Fallo
Ocurrencia del evento de interés.
Fallo accidental
Ocurre durante el periodo en el que el individuo presenta una
función de riesgo constante, generalmente menor que la que
prevalece durante su periodo inicial.
Fallo de desgaste
Se asocia con un deterioro gradual del individuo.
Fallo inicial
Se manifiesta al principio de la vida del individuo y va
desapareciendo conforme se desarrolla el periodo inicial.
Flujo
Número de eventos que han ocurrido durante un mismo
periodo de tiempo.
Función de Fiabilidad
Empírica
Función de
Supervivencia o
Fiabilidad
Probabilidad de que el individuo sobreviva más allá del
instante t.
Función riesgo o Tasa
de fallo, λ(t)
Cociente entre la función de densidad y la función de
supervivencia.
Generación
Conjunto de individuos que han nacido en el mismo año.
Instituto de Estadística y Organismo público responsable de coordinar el Sistema
Cartografía de
Estadístico y Cartográfico de Andalucía.
Andalucía
Silvia García Ortega
90
Trabajo Fin de Máster: Supervivencia Relativa
Instituto Nacional de
Estadística
El Instituto Nacional de Estadística (INE), creado el 31 de
diciembre de 1945, es un organismo autónomo con
personalidad jurídica propia y adscrito al Ministerio de
Economía y Hacienda a través de la Secretaría de Estado de
Economía.
El INE es responsable de coordinar todos los servicios
estadísticos de la administración, preparar el proyecto del
Plan Estadístico Nacional (PEN), compilar los registros y
directorios necesarios para llevar a cabo las estadísticas y
elaborar y publicar los censos generales y todas las demás
operaciones encomendadas a él en el PEN.
Método Actuarial
Método no para métrico para la estimación de la
supervivencia observada. Similar a KM, sólo que:
Los intervalos (tramos) son de longitud fija
Es menos exacto pero simplifica los cálculos
Método Ederer I
Método para estimar la supervivencia esperada. Consiste en
calcular, en cada momento en el que se produce un evento, la
supervivencia poblacional media de la cohorte. Este método
considera a todos los pacientes en cada intervalo.
Método Ederer II
Método para estimar la supervivencia esperada. Consiste en
calcular, en cada momento en el que se produce un evento, la
supervivencia poblacional media de la cohorte. Este método
considera sólo a los pacientes que están en riesgo en cada
intervalo.
Método Hakulienen
Método para estimar la supervivencia esperada. Utiliza un
estimador parecido a KM. Calcula el número de pacientes de
riesgo en cada intervalo teniendo en cuenta un número de
abandonos esperados en dicho tiempo.
Modelos no
paramétricos
Métodos analíticos y gráficos que permiten interpretar los
datos obtenidos, en los que no se asume ningún tipo concreto
de modelo probabilístico para los tiempos de fallo y las
funciones básicas (fiabilidad, riesgo) se estiman
directamente de los datos.
Modelos paramétricos
Conjunto de ecuaciones matemáticas asociadas en el que
escenarios alternativos son definidos mediante la variación
de los valores asumidos en un grupo de coeficientes fijos.
Modelos
Semiparamétricos
Permiten estudiar la relación entre la función de
supervivencia y el tiempo evaluando el efecto de covariables
sobre la función riesgo.
Silvia García Ortega
91
Trabajo Fin de Máster: Supervivencia Relativa
Observación completa
Cuando se observan los individuos desde un evento inicial
hasta el evento final o de ocurrencia del fenómeno que se
desea estudiar.
Riesgos Proporcionales
de Cox
Este modelo permite calcular la tasa de fallo o mortalidad
como una función del tiempo y de un determinado conjunto
de variables explicativas o covariables.
Stock de Población
De individuos que componen una población en un instante
dado.
Supervivencia Esperada Determina la supervivencia que cabría esperar en una
cohorte según la mortalidad por todas las causas de la
población de la cual proceden los individuos.
Supervivencia Global
Personas que continúan vivas después de un periodo de
tiempo.
Supervivencia
observada
Es la supervivencia dentro de una cohorte teniendo en cuenta
el tiempo de seguimiento del individuo y si ha fallecido o no,
independientemente de la causa de muerte.
Supervivencia Relativa
Técnica estadística que compara la supervivencia de
pacientes con una determinada enfermedad con la
supervivencia de personas pertenecientes a una población
general (o población tipo) de la misma edad, sexo… Es el
porcentaje de pacientes que han sobrevivido a una
enfermedad (después de ser diagnosticados) en relación a
personas que no presentan dicha enfermedad.
Tabla de Mortalidad
Es un análisis trasversal que tiene como fin el estudio de la
longevidad de una población.
Tabla de Supervivencia
o Tabla Actuarial
Tienen como objetivo describir y establecer previsiones
sobre la mortalidad, fiabilidad o supervivencia de una
población de interés, a partir de la consideración de una
cohorte, o conjunto de datos procedentes de un estudio, a los
cuales se les hace un seguimiento en un período de tiempo
determinado, comprobando si se registra en cada uno de sus
miembros o elementos, la presencia o ausencia de una
característica o evento de interés en la población.
Silvia García Ortega
92
Trabajo Fin de Máster: Supervivencia Relativa
Tasa Bruta de
Mortalidad
Es el cociente entre el número total de defunciones en un
periodo concreto y la población media correspondiente al
mismo periodo. Indica el número de defunciones que se
producen en un año por cada mil habitantes.
Tasa bruta de mortalidad Expresa la frecuencia con que ocurren los fallecimientos en
una población durante un determinado período. Se calcula
como el cociente entre el número de defunciones ocurridas y
registradas en un determinado período y la población media
de ese mismo período. El resultado se expresa por mil.
Tasa de mortalidad
específica
Proporción que señala cuántos sujetos fallecen por un
motivo concreto durante un lapso específico de tiempo.
Tasa de mortalidad
poblacional
Tasa de Supervivencia
Porcentaje de pacientes vivos en un determinado periodo de
tiempo después de que se les diagnostique una enfermedad.
(El inverso de la tasa de supervivencia es la tasa de
mortalidad).
Tasa de Supervivencia
Observada
Proporción de individuos con una determinada enfermedad
en un momento concreto que viven al final de un intervalo
de tiempo concreto. En su cálculo se tienen en cuenta todos
los tipos de defunciones.
Tasa de Supervivencia
Relativa
Expresa la probabilidad de supervivencia teniendo en cuenta
la mortalidad poblacional por todas las causas y para su
cálculo basta con conocer la mortalidad de la población de
referencia y no necesita la causa de mortalidad para cada
sujeto del estudio, información que en muchas ocasiones es
desconocida o poco fiable. Es el método más adecuado de
examinar la supervivencia a largo plazo.
Tasa Especifica de
Mortalidad
Representa la incidencia de la mortalidad en cada edad o
grupo de edad. Se obtiene como el cociente entre las
defunciones a una edad en un periodo concreto y la
población media a esa edad en ese periodo.
Tiempo de
Supervivencia
Intervalo entre el diagnóstico de la enfermedad y el evento
de interés.
Truncamiento a la
derecha
Sólo se incluyen los individuos que presentan el suceso. En
este caso la información que se registra también corresponde
a una variable condicionada a que el tiempo de fallo fue
Silvia García Ortega
93
Trabajo Fin de Máster: Supervivencia Relativa
anterior a la finalización del estudio
Truncamiento a la
izquierda
Los sujetos comienzan a ser observados a edades aleatorias,
es decir, el origen del tiempo de vida precede al origen del
estudio.
Tasa de Supervivencia poblacional.
Silvia García Ortega
94
Trabajo Fin de Máster: Supervivencia Relativa
Silvia García Ortega
95
Trabajo Fin de Máster: Supervivencia Relativa
Anexo 4. Código
#=====================================================================
#PREPARACIÓN DE DATOS
#=====================================================================
#Cargamos nuestro fichero de datos
infantil<-read.table("infantil.txt",header=T)
table(infantil$age<=15)#hay 179 casos de niños con 15 años o menos
#Seleccionar del conjunto de datos los <= de 15 años
infantil2<-infantil[infantil$age<=15,]
infantil2
table(infantil2$sex==0)#Hay 77 mujeres
table(infantil2$sex==1)#y 102 hombres
library(relsurv)
#=====================================================================
#CALCULO DE LA SUPERVIVENCIA OBSERVADA
#=====================================================================
#Cálculo de Kaplan-Meier
km<-survfit(Surv(time,cens)~1,data=infantil2, conf.int=FALSE)
summary(km)
#Gráfico de la función de supervivencia
plot(km,xlab="Tiempo(meses)",ylab="Supervivencia", main="Estimador de Kaplan y Meier")
#Cálculo de Kaplan-Meier con la variable sexo
Silvia García Ortega
96
Trabajo Fin de Máster: Supervivencia Relativa
km_sex<-survfit(Surv(time,cens)~sex,data=infantil2, conf.int=FALSE)
summary(km_sex)
#Gráfico de la función de supervivencia
plot(km_sex,xlab="Tiempo(meses)",ylab="Supervivencia", main="Estimador de Kaplan y Meier
(sexo)")
legend(100,0.99,legend=c("Mujeres","hombres"), lty=c(1,2))
#Para comprobar si la diferencia entre las curvas por sexo son significativas
# si el p<0,05 sí lo son.
prueba<-survdiff(Surv(time, cens) ~ sex,data=infantil2)
prueba
#Regresión de Cox con la variable sexo
cox_sex<-coxph(Surv(time, cens) ~sex, data=infantil2)
summary(cox_sex)
#Regresión de Cox con la variable edad
cox_age<-coxph(Surv(time, cens) ~ age, data=infantil2)
summary(cox_age)
#Regresión de Cox con las variables sexo y edad
cox_sexoedad<-coxph(Surv(time, cens) ~ age+sex, data=infantil2)
summary(cox_sexoedad)
#Regresión de Cox con las variables sexo, edad y año
cox<-coxph(Surv(time,cens)~age+sex+as.numeric(year), data=infantil2)
summary(cox)
#Gráfico donde se compara la función de supervivencia obtenida mediante
#el estimado de Kaplan y Meier y la obtenida mediante el modelo de Cox con las tres variables
plot(survfit(cox),conf.int=FALSE,main="Comparación del ajuste del modelo de Cox y el
estimador de KM",xlab="Tiempo (meses)", ylab="Supervivencia")
lines(km,lty=2)
legend(100,0.99,legend=c("Ajuste por Cox","Estimador de KM"), lty=c(1,2))
#=====================================================================
#CALCULO DE LA SUPERVIVENCIA ESPERADA
#=====================================================================
#Mediante hmd transformamos los ficheros de las tablas de vida de hombre y mujeres a
formato de R
espop<-transrate.hmd(male='mltper_1x1.txt',female='fltper_1x1.txt')
espop
#Ahora tenemos nuestro fichero en formato ratetable:
is.ratetable(espop) #es de tipo ratetable
#Vemos la organización de las variables: tiene 3 dimensiones, edad, año y sexo
summary(espop)
#Cálculo de la supervivencia esperada mediante Ederer
#primero hay que recodificar nuestra variable sexo para que 2 corresponda a la categoría
mujer y 1 a la categoría hombre
Silvia García Ortega
97
Trabajo Fin de Máster: Supervivencia Relativa
infantil2$sex<-2-infantil2$sex
infantil2
# Ederer
ederer <- survexp(time ~ ratetable(age=age*365.24, sex=sex, year=as.numeric(year)),
ratetable=espop, method='ederer', data=infantil2)
ederer
#Otro modo
#y<-survexp(time~ratetable(age=age*365.24, sex=sex, year=as.numeric(year)),
ratetable=espop, data=infantil2)$surv
#Cálculo de la supervivencia esperada mediante Hakulinen
hakulinen <- survexp(time ~ ratetable(age=age*365.24, sex=sex, year=as.numeric(year)),
ratetable=espop, method='hakulinen', data=infantil2)
hakulinen
#=====================================================================
#MODELO DE REGRESIÓN PARA LA SUPERVIVENCIA RELATIVA
#=====================================================================
#Pasamos la variable time a días
infantil2$time<-infantil2$time*30
sup.rel<-rstrans(Surv(time, cens)~age+sex+as.numeric(year)+ratetable(age=age*365.24,
sex=sex, year=as.numeric(year)), data=infantil2, ratetable=espop)
sup.rel
summary(sup.rel)
Silvia García Ortega
98
Trabajo Fin de Máster: Supervivencia Relativa
Silvia García Ortega
99
Trabajo Fin de Máster: Supervivencia Relativa
Anexo 5. Bibliografía
[1] A. Arroyo Pérez,
E. Manzanera Díaz,
A. Pascual Acosta
(2005)
[2] A. M. Godoy Aguilar
(2009)
[3] A. M. Hernández
Domínguez
(2010)
[4] Anónimo
(2010)
[5] Escuela Andaluza de
Salud Pública
(2011)
[6] H. Solano Hurtado
(2008)
[7] INE
(2013)
Silvia García Ortega
Experto en Estadística Pública.
Estadísticas Demográficas y Sociales.
Difusión Estadística
Universidad de Jaén
Introducción al Análisis de
Supervivencia con R.
Universidad Nacional
Autónoma de México
Análisis Estadístico de datos de
tiempos de fallo en R
Universidad de
Granada
Facultad de Ciencias
Análisis de Supervivencia. Método
delta
Supervivencia de cáncer en la
provincia de Granada
http://cancergranada.
org/es/estadisticas_su
pervivencia.cfm
Granada
Análisis de supervivencia en
fiabilidad. Predicción en condiciones
de alta censura y truncamiento: el
caso de las redes de suministro de
agua potable.
Universidad
Politécnica de
Valencia
Departamento de
Estadística e IO
Aplicadas y Calidad
Tablas de mortalidad. Metodología
Madrid
100
Trabajo Fin de Máster: Supervivencia Relativa
[8] J. Stare, R.
Henderson, M. Pohar
(2005)
An individual measure of relative
survival
App. Statist, 54,
Part1,
pp. 115-126
[9] M. Camacho Alonso
Estimación no-paramétrica
Universidad de
Murcia
[10] M. Pohar,
J. Stare
(2006)
[11] M. Pohar, J. Stare
(2007)
[12] P. Martínez-Camblor,
N. Larrañaga,
C. Sarasqueta,
M.J. Mitxelena,
M. Basterretxea
(2009)
[13] R. Borges
(2004)
[14] R. Clèries, J. Ribes,
J. Gálvez, A.Melià,
V. Moreno, F.X.
Bosch, J. M. Borràs
(2005)
[15] R. Clèries, J. Ribes,
V. Moreno,
L. Esteban, L. Pareja,
J. Gálvez,
J.M. Martínez,
F.X. Bosch,
J. M. Borràs
(2006)
[16] R. E. Borges Peña
(2005)
Silvia García Ortega
Relative suravival analysis in R
Making relative survival analysis
relatively easy
Esa corporeidad mortal y rosa»:
análisis del tiempo libre de
enfermedad del cáncer de mama en
Gipuzkoa en presencia de riesgos
competitivos
Análisis de supervivencia básico
utilizando el lenguaje R
Cálculo automatizado de la
supervivencia relativa vía web.
Proyecto WAERS del Instituto Catalán
de Oncología
Cálculo de la supervivencia relativa.
Comparación de métodos de
estimación de la supervivencia
esperada
Computers methods
and programs in
biomedicine 81
(2006) 272-278
Computers in biology
and medicine
37 (2007) 1741-1749
Gac Sanit 2009;
23(6):554-557
Universidad Central
de Venezuela
Facultad de Ciencias
Económicas y
Sociales
Gac Sanit.
2005;19(1):71-5
Gac Sanit.
2006;20(4):325-31
Análisis de Sobrevivencia utilizando el Ciudad Universitaria
lenguaje R
de Caracas
101
Trabajo Fin de Máster: Supervivencia Relativa
[17] R. Giorgi, J.Payan,
J. Gouvernet
(2005)
Rsurv: A function to perform relative
survival analysis with S-Plus or R
[18] W. Q. Meeker,
L. A. Escobar
(1998)
Statistical Methods for Reliability
Data. (Vol. 314). John Wiley & Sons
Silvia García Ortega
Computer methods
and programs in
biomedicine (2005)
78, 175-178
102
Trabajo Fin de Máster: Supervivencia Relativa
Silvia García Ortega
103
Descargar