Imputación de datos faltantes en un modelo de tiempo de fallo

Anuncio
IMPUTACIÓN DE DATOS FALTANTES EN UN MODELO DE
TIEMPO DE FALLO ACELERADO
Autor: Moisés Castro Cacabelos
Tutores: Francisco Gude Sampedro y Ana Pérez González
Máster en Técnicas Estadı́sticas
Julio 2014
El presente documento que tiene como tı́tulo “Imputación de datos faltantes en un modelo de
tiempo de fallo acelerado” ha sido realizado por Moisés Castro Cacabelos como Trabajo Fin de Máster
de Técnicas Estadı́sticas bajo la dirección de Francisco Gude Sampedro y Ana Pérez González, que
autorizan la entrega del mismo.
Fdo.: Francisco Gude Sampedro
Fdo.: Ana Pérez González
Índice general
Resumen
7
1. Introducción y objetivo
9
2. Datos faltantes
11
2.1. Modelos de datos faltantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2. Principales métodos para tratar datos faltantes . . . . . . . . . . . . . . . . . . . . . .
11
2.2.1. Análisis de casos completos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.2.2. Análisis de casos disponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2.3. Métodos de imputación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2.4. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.3. Principales paquetes de R que implementan técnicas de datos faltantes . . . . . . . . .
15
2.4. Utilización de la librerı́a MICE para la imputación múltiple . . . . . . . . . . . . . . .
16
3. Análisis de supervivencia
21
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.2. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.3. Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
3.4. Estimadores de la función de supervivencia . . . . . . . . . . . . . . . . . . . . . . . .
23
3.4.1. Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.4.2. Actuarial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
3.4.3. Nelson-Aalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.5. Modelos de supervivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
3.5.1. Modelo de riesgos proporcionales de Cox . . . . . . . . . . . . . . . . . . . . . .
24
3.5.2. Modelo de tiempo de fallo acelerado (AFT) . . . . . . . . . . . . . . . . . . . .
25
5
6
ÍNDICE GENERAL
3.5.3. Comparación del modelo AFT respecto al de Cox . . . . . . . . . . . . . . . . .
26
4. Estudio de simulación
29
5. Aplicación a datos reales
39
5.1. Descripción del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
5.2. Descripción del conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
5.2.1. Descripción de la población y objetivo del estudio . . . . . . . . . . . . . . . .
39
5.2.2. Descripción de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
5.3. Imputación a los datos reales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
5.4. Resultados del análisis de supervivencia . . . . . . . . . . . . . . . . . . . . . . . . . .
47
6. Conclusiones
49
Bibliografı́a
51
A. Abreviaturas
53
Resumen
Es frecuente en estudios de supervivencia, al igual que en otros estudios biomédicos, que nos encontremos con datos faltantes. Este problema ha sido tratado en estudios en los que se han analizado los
datos siguiendo modelos de riesgos proporcionales de Cox. Sin embargo, en modelos de supervivencia
de tiempo de fallo acelerado, existe escasa información en la literatura en cuanto al tratamiento de
este tipo de estudios.
Este trabajo aborda el tratamiento de datos faltantes en modelos de tiempo de fallo acelerado con
distribución lognormal, mediante una revisión de la literatura, para seguir con estudios de simulación
y finalizar con la aplicación a un caso práctico sobre un estudio de supervivencia en pacientes que han
sido sometidos a trasplante hepático.
En el estudio de simulación se realiza una comparativa del comportamiento de diversos métodos
de imputación múltiple. Para ello se utiliza una librerı́a de R denominada “mice”. De los resultados
obtenidos se desprende que el comportamiento de los estimadores de los parámetros varı́a en función
del mecanismo de imputación utilizado.
De la aplicación a datos reales, siguiendo el criterio AIC para valorar los resultados del análisis con
datos imputados, las imputaciones en las que se aplicaron los métodos “pmm” para variables continuas
y “logreg” para variables binarias son las que han mostrado mejores resultados. Los factores de riesgo
que se obtienen tras el análisis de supervivencia pueden cambiar sustancialmente en caso de que se
analicen datos con casos completos o con datos imputados por los métodos anteriormente indicados.
7
Capı́tulo 1
Introducción y objetivo
Los datos faltantes son un problema que surge con mucha frecuencia cuando un estadı́stico afronta
un análisis de datos. Aparecen, por ejemplo, en el campo de la investigación médica, psicologı́a o
estudios sociológicos, entre otros. Crean una dificultad añadida en la investigación cientı́fica debido
a que la mayor parte de los procedimientos de análisis de datos existentes no están diseñados (o
adaptados) para la ausencia de observaciones. Un manejo inadecuado de los datos faltantes puede
conducir a un posterior análisis estadı́stico erróneo.
Para el análisis de datos en estudios de supervivencia, uno de los modelos más utilizados es el
de riesgos proporcionales de Cox. De hecho, podemos encontrar bibliografı́a abundante relativa a la
asignación de datos faltantes en modelos de Cox. Sin embargo, en este trabajo estamos interesados
en aplicar otros modelos de supervivencia, como es el caso del modelo de tiempo de fallo acelerado
(AFT). A diferencia del modelo de Cox, en la literatura son escasas las referencias que nos acercan al
tratamiento de datos faltantes cuando se pretende analizar los datos con modelos AFT.
El objetivo de este trabajo es investigar los métodos de imputación de datos faltantes que mejor se
adecúan al análisis de supervivencia de tiempo de fallo acelerado. Para ello, se realizarán simulaciones
con imputación de datos faltantes en un modelo AFT y además, se aplicarán diferentes métodos de
imputación de datos faltantes a un caso real.
Para ello organizamos la memoria de la siguiente forma: en el capı́tulo 2 se exponen los diferentes
métodos de imputación que se utilizan habitualmente, en el capı́tulo 3 se describe el modelo de supervivencia de tiempo de fallo acelerado (AFT), en el capı́tulo 4 se realiza un estudio de simulación para
un modelo AFT con distribución lognormal, en el capı́tulo 5 se realiza un análisis descriptivo de los
datos e imputación a los datos reales, en el capı́tulo 6 se muestran las principales conclusiones y en el
capı́tulo 7 se referencia la bibliografı́a utilizada.
9
10
CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVO
Capı́tulo 2
Datos faltantes
2.1.
Modelos de datos faltantes
Rubin (1976) clasificó los modelos de pérdida de datos en tres tipos diferentes: MCAR, MAR y
MNAR. Vamos a describir a continuación brevemente cada uno de ellos [1].
MCAR: una variable es MCAR (missing completely at random) si la probabilidad de pérdida
de una observación para todos los individuos es la misma y no depende de las medidas de otras
variables [2]. Por ejemplo, un tubo que contiene una muestra de sangre de un individuo es roto
por accidente o un cuestionario de individuo se pierde accidentalmente [3].
MAR: una variable es MAR (missing at random) si la probabilidad de pérdida de la observación
de un individuo depende de la información observada. Por ejemplo, si se hace un test de aptitud
a unos alumnos y a los que superan una nota de corte establecida se les hace otro más difı́cil
mientras que a los demás no, por tanto éstos tienen datos perdidos para la segunda variable y
se debe a las observaciones de la primera.
MNAR: una variable es MNAR (missing not at random) si la probabilidad de que la observación
de un individuo esté perdida está relacionada con los valores perdidos. Por ejemplo, un caso
MNAR es cuando en un cuestionario le preguntas a alguien por su renta anual y éste no contesta
porque es muy alta.
2.2.
2.2.1.
Principales métodos para tratar datos faltantes
Análisis de casos completos
El análisis de casos completos es una estrategia simple que podemos aplicar a cualquier análisis
estadı́stico con observaciones faltantes. El analista descarta a todos los individuos que tenga valores
faltantes en alguna de las variables seleccionadas inicialmente y luego procede con el análisis utilizando
métodos estándar. La primera cuestión que hay que plantearse con este análisis es si la submuestra
que se analiza es una muestra aleatoria de la muestra original. Si la pérdida es MCAR, entonces
los resultados del análisis resultarán generalmente insesgados pero con la consiguiente pérdida de
eficiencia.
11
12
CAPÍTULO 2. DATOS FALTANTES
Hay que tener en cuenta que es muy raro que ocurra una pérdida MCAR en los datos del mundo
real. Cuando tengamos una pérdida MAR (que la tendremos habitualmente para datos reales) el
análisis de las observaciones completas puede producir estimaciones sesgadas [4].
2.2.2.
Análisis de casos disponibles
El análisis de casos disponibles intenta mitigar la pérdida de datos eliminando casos en una base
análisis por análisis. La aplicación prototipo de este análisis ocurre cuando un investigador utiliza un
diferente subconjunto de casos para calcular cada elemento en análisis. Por ejemplo, para el cálculo
de una matriz de correlaciones, el tamaño muestral para estimar la varianza de una variable no
tiene porqué ser el mismo que el utilizado para otra variable o para alguna de las covarianzas. Sin
embargo, este método no está limitado a correlaciones, y es común encontrar artı́culos de investigación
publicados que informan de diferentes tamaños de muestra a través de análisis de regresión o una
ANOVA. Utilizar tantos datos como sea posible es una buena idea, y es cierto que el análisis de casos
disponibles tiende a ser más poderoso que el análisis de casos completos, particularmente cuando las
variables en un conjunto de datos tienen bajas correlaciones. Sin embargo, las desventajas del análisis
de casos disponibles limitan su utilidad.
Consistente con el análisis de casos completos, el principal problema del análisis de casos disponibles
es que requiere datos MCAR y puede producir estimaciones de parámetro distorsionadas cuando el
supuesto no se sostiene. Sin embargo, el análisis de casos disponibles también tiene un número de
problemas únicos. Por ejemplo, utilizar diferentes subconjuntos de casos plantea problemas sutiles con
medidas de asociación. Para ilustrarlo, consideramos la siguiente fórmula para la covarianza muestral:
bXY =
σ
X (xi − µ
bX )(yi − µ
bY )
N −1
.
El análisis de casos disponibles utiliza el subconjunto de casos con datos completos en ambas variables
X e Y para calcular la covarianza. La mayorı́a de los paquetes software utilizan la misma submuestra
bX de los casos que tienen
para calcular la media de las variables, pero también es posible calcular µ
b
datos en X y calcular µY de los casos que tienen datos en Y. Una cuestión similar surge cuando
calculamos el denominador del coeficiente de correlación.
bXY
σ
r=q
.
2 σ
bX
bY2
σ
Los paquetes software tı́picamente utilizan el subconjunto de casos con datos completos en X e Y para
2 y σ
bX
bY2 de submuestras separadas (por ejemplo,
calcular las varianzas, pero otra opción es calcular σ
2
bX de los casos que tienen datos sólo en X). El último enfoque es problemático porque puede
calcular σ
producir valores de correlación que exceden de ±1 [5].
2.2.3.
Métodos de imputación
Imputación por media incondicional
La imputación por media incondicional es una estrategia que consiste en calcular la media muestral
para cada una de las variables que tiene datos faltantes, y luego utilizar este valor para sustituir todos
los valores faltantes que tiene la variable correspondiente. Esta estrategia no suele funcionar muy bien
2.2. PRINCIPALES MÉTODOS PARA TRATAR DATOS FALTANTES
13
cuando la pérdida de datos depende de otras variables. Sustituyendo estos valores faltantes por la
media se reduce la varianza en la variable y causa estragos en las covarianzas y correlaciones. Además,
no es fácil estimar los errores estándar. También hay que tener en cuenta que este método no es
aplicable a variables cualitativas.
Imputación por media condicional (regresión)
Como su nombre indica, la imputación por regresión reemplaza valores faltantes con respuestas
predichas de un modelo de regresión. En un análisis multivariante, los casos completos son utilizados
para estimar un modelo de regresión donde la variable incompleta es la respuesta y las variables
explicativas son algunas de las variables completas. El modelo de regresión estimado permite estimar
respuestas predichas para los casos incompletos. Aunque la idea de tomar información de las variables
completas es buena, la imputación por regresión también produce estimaciones de parámetro sesgadas.
Sobre todo si utilizamos modelos paramétricos de regresión, por ejemplo regresión lineal. En tal caso,
los valores imputados caerán en una lı́nea recta (en el caso de una sóla covariable) o un hiperplano en
el caso d-dimensional. Esto implica que los casos con valores imputados tienen correlación igual a 1,
y rellenar los datos con un conjunto de casos perfectamente correlacionados pueden sobreestimar la
correlación total.
Por ello en los últimos años se han publicado trabajos que realizan imputaciones a partir de
modelos de regresión no paramétricos.
Imputación por regresión estocástica
La imputación por regresión estocástica también utiliza ecuaciones de regresión para predecir
las variables incompletas a partir de las variables completas, pero requiere un paso adicional que
consiste en aumentar cada predicción con un término residual distribuido mediante la distribución del
error, generalmente una distribución normal. Añadir residuos a los valores imputados reestablece la
pérdida de variabilidad de los datos y efectivamente elimina el sesgo asociado con los esquemas de
imputación de regresión estándar. Con este método de imputación obtenemos estimaciones insesgadas
de los parámetros bajo datos MAR.
Imputación hot-deck
La imputación hot-deck es una técnica que imputa los valores faltantes con puntuaciones de
otros encuestados con caracterı́sticas similares. Originalmente se desarrolló para tratar datos faltantes
de encuestas poblacionales, y el procedimiento tiene una larga historia en aplicaciones de estudio. La
aplicación más tı́pica este método de imputación reemplaza cada valor faltante con un dibujo aleatorio
de una submuestra de los encuestados que tienen puntuaciones similares en un conjunto de variables. El
procedimiento hot-deck clasifica los encuestados en factores basados en caracterı́sticas demográficas
tales como sexo, edad y estado civil. Observar que las variables no necesitan ser categóricas. La
imputación hot-deck generalmente preserva las distribuciones univariantes de los datos y no atenúan
la variabilidad de los datos rellenados al mismo grado que otros métodos de imputación. Sin embargo,
este método de imputación no es muy apropiado para estimar medidas de asociación y puede producir
estimaciones sesgadas de las correlaciones y los coeficientes de regresión.
14
CAPÍTULO 2. DATOS FALTANTES
Last Observation Carried Forward
Last observation carried forward es una técnica que requiere datos longitudinales. Imputa medidas
repetidas con la observación que le precede. Esta estrategia se aplica a los casos que tienen datos
perdidos permanentemente o de forma intermitente. También asume que los valores no cambian significativamente después de la última medida observada o durante el periodo intermitente donde faltan
valores.
Imputación múltiple
El método de imputación múltiple consiste en realizar varias imputaciones de las observaciones
faltantes para luego analizar los conjuntos de datos completados y combinar los resultados obtenidos
para obtener una estimación final. El análisis de imputación múltiple está dividido en tres fases: fase de
imputación, fase de análisis y fase de puesta en común. La fase de imputación crea múltiples copias de
los conjuntos de datos (m), y cada una de ellas contiene diferentes estimaciones de los valores perdidos.
Conceptualmente, este paso es una versión iterativa de la imputación por regresión estocástica, aunque
sus fundamentos matemáticos se basan en muchas ocasiones en los principios de estimación bayesiana.
El objetivo de la fase de análisis, como su nombre indica, es analizar los conjuntos de datos rellenados.
Este paso aplica los mismos procedimientos estadı́sticos que un individuo hubiera utilizado si tuviera
todos los datos. La única diferencia es que realizamos cada análisis m veces, una para cada conjunto de
datos imputados. La fase de análisis nos lleva a m conjuntos de estimaciones de parámetros y errores
estándar, con lo que el propósito de la fase de puesta en común es combinar todo en un conjunto
simple de resultados. Rubin (1987) perfiló fórmulas relativamente sencillas para poner en común las
estimaciones de los parámetros y los errores estándar. Por ejemplo, la estimación del parámetro puesto
en común es simplemente la media aritmética de las m estimaciones de la fase de análisis. Combinar
los errores estándar es ligeramente más complejo pero sigue la misma lógica. El proceso de analizar
conjuntos de datos múltiples y poner en común los resultados parece latoso, pero los paquetes de
software de imputación múltiple automatizan completamente el procedimiento.
Las m estimaciones son combinadas en una estimación en conjunto y una matriz de varianzascovarianzas utilizando las reglas de Rubin, que están basadas en la teorı́a asintótica en un marco
bayesiano [6]. La matriz de varianzas-covarianzas combinada incorpora la variabilidad dentro de la
imputación (incertidumbre sobre los resultados de unos conjuntos de datos imputados) y la variabilidad
entre las imputaciones (reflejando la incertidumbre debido a la información perdida). Supongamos que
θbj es una estimación de una cantidad univariante o multivariante de interés (por ejemplo, un coeficiente
de regresión) obtenida de los j-ésimos conjuntos de datos imputados y que Wj es la varianza estimada
de θbj . La estimación combinada θb es la media de las estimaciones individuales:
θb =
m
1 X
θbj .
m j=1
La varianza total de θb está formada por la suma de la varianza dentro de la imputación W =
1 Pm
1 Pm
b
b2
j=1 Wj y la varianza entre las imputaciones B = m−1
j=1 (θj − θ) :
m
b =W + 1+
var(θ)
1
B.
m
2.3. PRINCIPALES PAQUETES DE R QUE IMPLEMENTAN TÉCNICAS DE DATOS FALTANTES15
2.2.4.
Máxima verosimilitud
La idea de utilizar el método de máxima verosimilitud para tratar datos faltantes viene desde
hace más de 50 años. Las primeras soluciones de máxima verosimilitud fueron de alcance limitado y
tuvieron relativamente pocas aplicaciones prácticas. Muchos de los avances importantes se produjeron
en los años 70 cuando se apuntalan las técnicas modernas de manejo de datos faltantes.
La estimación por máxima verosimilitud extrae continuamente diferentes combinaciones de valores
de los parámetros poblacionales hasta que identifica el particular conjunto de valores que produce
el valor más alto del log-verosimilitud (es decir, el mejor ajuste para los datos). Conceptualmente,
el proceso de estimación es el mismo con o sin datos faltantes. Sin embargo, los datos faltantes
introducen algunos matices adicionales que no son relevantes para los análisis de casos completos. Los
registros de los datos incompletos requieren una ligera alteración para el cálculo del log-verosimilitud
de los individuos para acomodar el hecho de que los individuos ya no tienen el mismo número de
observaciones. Los datos faltantes también necesitan un ajuste de los cálculos de los errores estándar.
Finalmente, el análisis de datos faltantes suele requerir algoritmos de optimización iterativos, incluso
para problemas de estimación muy simples.
El algoritmo EM (Expectation-Maximization) es un algoritmo particularmente importante para
el análisis de datos faltantes. Las primeras aplicaciones del algoritmo se enfocaron principalmente a
la estimación de un vector de medias y una matriz de covarianzas con datos faltantes, pero se ha
extendido el algoritmo para abordar una variedad de complicados problemas de estimación de datos
completos.
El algoritmo EM es un procedimiento iterativo de dos pasos: el paso de esperanza y el paso de
maximización. Una de las aplicaciones más comunes es la estimación del vector de medias y la matriz de
covarianzas. En este caso, el proceso iterativo comienza con una estimación inicial del vector de medias
(µ) y de la matriz de covarianzas (Σ). El primer paso utiliza los elementos del vector de medias y la
matriz de covarianzas para construir un conjunto de ecuaciones de regresión que predicen las variables
incompletas de las variables observadas. El propósito de este paso es rellenar los valores faltantes de
forma que parezca una imputación por regresión estocástica. El segundo paso aplica fórmulas de datos
completos estándar a los datos rellenados para generar estimaciones actualizadas del vector de medias
y la matriz de covarianzas. El algoritmo lleva las estimaciones del parámetro actualizadas hacia el
primer paso de nuevo, donde se construye un nuevo conjunto de ecuaciones de regresión para predecir
los valores faltantes. El segundo paso reestima el vector de medias y la matriz de covarianzas. El
b no cambian, punto en el cual el
b y Σ
algoritmo EM repite los dos pasos hasta que los elementos µ
algoritmo ha convergido en las estimaciones de máxima verosimilitud. Es importante reiterar que el
algoritmo no imputa ni reemplaza los valores faltantes. Más bien, utiliza todos los datos disponibles
para estimar el vector de medias y la matriz de covarianzas.
2.3.
Principales paquetes de R que implementan técnicas de datos
faltantes
MissingDataGUI
Este paquete proporciona resúmenes numéricos y gráficos para los datos faltantes de variables categóricas y cuantitativas. Se aplica una variedad de métodos de imputación, incluyendo
imputaciones univariantes como valores fijos o aleatorios, imputaciones multivariantes como las
vecinanzas más cercanas e imputación múltiple, e imputaciones condicionadas a una variable
categórica [7].
16
CAPÍTULO 2. DATOS FALTANTES
Amelia II
Amelia II imputa de forma múltiple datos faltantes en una sección cruzada única (como un
estudio), de una serie de tiempo (como variables coleccionadas por un año en un paı́s), o de un
conjunto de datos de sección cruzada de series de tiempo (tales como variables coleccionadas
durante años para varios paı́ses). Amelia II implementa un algoritmo basado en bootstrap,
por lo que generalmente es considerablemente más rápido que otros enfoques y puede manejar
muchas más variables. A diferencia de Amelia I y otro software de imputación estadı́sticamente
riguroso, virtualmente nunca se bloquea. Amelia II también incluye diagnósticos útiles del ajuste
de modelos de imputación múltiple [8].
VIM
Este paquete introduce nuevas herramientas para la visualización de valores faltantes y/o
imputados, que pueden ser utilizados para explorar los datos y la estructura de los valores
faltantes y/o imputados. Dependiendo de la estructura de los valores faltantes, los métodos
correspondientes pueden ayudar a identificar el mecanismo generando los valores perdidos y
permite explorar los datos incluyendo los valores faltantes. Además, la calidad de imputación
puede ser visualmente explorada utilizando varios métodos gráficos univariantes, bivariantes y
multivariantes. Un interfaz de usuario gráfico disponible en el paquete VIMGUI permite un fácil
manejo de los métodos gráficos implementados [9].
MICE
Hace imputación múltiple utilizando Fully Conditionally Specification (FCS) implementado
por el algoritmo MICE (Multiple Imputation by Chained Equations). Cada variable tiene su
propio modelo de imputación. Se proporcionan modelos de imputación incorporados para datos
continuos (pmm), datos binarios (regresión logı́stica), datos categóricos no ordenados (regresión
logı́stica politómica) y datos categóricos ordenados (odds proporcional). Se puede utilizar imputación pasiva para mantener consistencia entre las variables. Se dispone de varios gráficos de
diagnóstico para examinar la calidad de las imputaciones [10].
2.4.
Utilización de la librerı́a MICE para la imputación múltiple
Dado que el objetivo de nuestro trabajo es la aplicación de diferentes métodos de imputación
múltiple a un conjunto de datos reales, pasamos a indicar las pautas necesarias para llevar a cabo este
proceso [11]. La especificación del modelo de imputación es el paso más importante en imputación
múltiple. El modelo de imputación deberı́a:
Explicar el proceso que creó los datos faltantes
Preservar las relaciones en los datos
Preservar la incertidumbre sobre estas relaciones
La idea es que la adhesión a estos principios producirá imputaciones adecuadas, y ası́ da lugar a
inferencias estadı́sticas válidas. Necesitamos seguir los siguientes pasos:
1. Debemos decidir si el supuesto MAR es plausible. Las ecuaciones encadenadas [12] pueden manejar tanto datos MAR como MNAR. La imputación múltiple bajo datos MNAR requiere supuestos
de modelado adicionales que influyen en las imputaciones generadas.
2.4. UTILIZACIÓN DE LA LIBRERÍA MICE PARA LA IMPUTACIÓN MÚLTIPLE
17
2. La segunda elección se refiere a la forma de imputación del modelo. La forma abarca la parte
estructural y la distribución de error asumido. En el método de imputación de datos multivariantes Fully Conditional Specification (FCS), la forma necesita ser especificada para cada variable
incompleta en los datos. La elección dependerá de la escala de la variable que se imputa, y
preferiblemente incorpora información sobre la relación entre las variables.
Actualmente se dispone de distintos paquetes del software libre R que pueden disponerse
en la página web cran.r-project.org/ como MissingDataGUI, Amelia II o VIM. El paquete que
nosotros vamos a utilizar para imputar datos faltantes en nuestro conjunto de datos reales es
el MICE (Multiple Imputation by Chained Equations). El paquete MICE en R imputa datos
multivariantes incompletos mediante ecuaciones encadenadas. El software MICE 1.0 apareció en
el año 2000 como una librerı́a S-PLUS, y en 2001 como un paquete de R. MICE 1.0 introdujo
selección de predictores, imputación pasiva y puesta en común automática. El MICE 2.9 extiende la funcionalidad del MICE 1.0 de varias formas. En el MICE 2.9, el análisis de los datos
imputados está hecho de forma general, mientras el rango de modelos bajo el cual la puesta en
común trabaja está sustancialmente extendido. MICE 2.9 añade una nueva funcionalidad para
imputar datos con varios niveles, selección de predictores automática, manejo de datos, valores
de post-procesamiento imputados, rutinas de puesta en común especializadas, herramientas de
selección del modelo y gráficos de diagnóstico. La imputación de datos categóricos está mejorada para problemas derivados causados por la predicción perfecta. Se presta especial atención
a las transformaciones, a la suma de las puntuaciones, a los ı́ndices e interacciones utilizando
imputación pasiva, y a la configuración apropiada de la matriz predictora.
El algoritmo MICE requiere una especificación de un método de imputación univariante
separadamente para cada variable incompleta. El nivel de medida determina en gran parte
la forma del modelo de imputación univariante. La función mice() en R, distingue variables
numéricas, binarias, categóricas ordenadas y categóricas no ordenadas, y establece los valores
por defecto.
Tabla 2.1. Técnicas de imputación univariantes incorporadas.
Método
pmm
norm
norm.nob
norm.predict
mean
logreg
polyreg
polr
lda
cart
sample
Descripción
Predictive mean matching
Regresión lineal bayesiana
Regresión lineal no bayesiana
Regresión lineal
Imputación por media incondicional
Regresión logı́stica
Modelo logı́stico multinomial
Modelo logı́stico ordenado
Análisis lineal discriminante
Árboles de clasificación y regresión
Muestra aleatoria de los datos observados
Tipo de escala
Numérico
Numérico
Numérico
Numérico
Numérico
Factor, 2 niveles
Factor, > 2 niveles
Ordenado
Factor
Cualquiera
Cualquiera
La tabla 2.1 contiene una lista de algunos de los métodos de imputación considerados en la
librerı́a mice. El argumento “method” de mice() especifica el método de imputación. La función mice.impute.pmm() implementa predictive mean matching, un método de imputación semiparamétrico. Sus principales ventajas son que los valores imputados coinciden con alguno de los
valores observados en la misma variable y que puede preservar relaciones no lineales incluso si la
parte estructural del modelo de imputación es incorrecta. Es un buen método de imputación en
general. Las funciones mice.impute.norm() y mice.impute.norm.nob() imputan de acuerdo a un
18
CAPÍTULO 2. DATOS FALTANTES
modelo de imputación lineal, y son rápidas y eficientes si los residuos del modelo son casi normales. La función mice.impute.norm.predict()aplica una regresión lineal entre las variables. El
método mice.impute.mean() simplemente imputa la media de los datos observados. La función
mice.impute.logreg() imputa factores con dos niveles mediante el modelo de regresión logı́stica.
La función mice.impute.polyreg() imputa factores con dos o más niveles por el modelo multinomial. La función mice.impute.polr() implementa el modelo logı́stico ordenado, también conocido
como modelo odds proporcional. La función mice.impute.lda() utiliza el análisis lineal discriminante para calcular la probabilidad posterior de cada caso incompleto, y consecuentemente
muestra imputaciones de estas posteriores. La función mice.impute.cart() imputa mediante un
árbol de clasificación si la variable es categórica, y si la variable es continua aplica un árbol de
regresión. Finalmente, la función mice.impute.sample() coge solamente una muestra aleatoria de
los datos observados, e imputa éstos en lugar de los valores perdidos. Esta función no condiciona
en ninguna otra variable.
A la hora de elegir método de imputación, hay que tener en cuenta que con frecuencia las variables continuas no se distribuyen mediante una normal. El problema de imputar tales variables
suponiendo normalidad es que la distribución de los valores imputados no se corresponde con
los valores observados en el caso de no normalidad de las observaciones. Una forma de tratar la
no normalidad es utilizando el predictive mean matching (nombrado anteriormente). El pmm es
un método de imputación para valores perdidos con la propiedad de que los valores imputados
obtenidos son valores observados de la variable.
3. Una tercera elección se preocupa sobre el conjunto de variables que se incluyen como predictores
en el modelo de imputación. El consejo general es incluir tantas variables relevantes como sea
posible, incluyendo sus interacciones. Esto puede, sin embargo, conducir a especificaciones del
modelo difı́ciles de manejar.
Una caracterı́stica útil del algoritmo MICE es la habilidad para especificar el conjunto de
predictores a ser utilizados para cada variable incompleta. La especificación básica está hecha a
través del argumento predictorMatrix, que es una matriz cuadrada de tamaño ncol(data) conteniendo ceros y unos. Cada fila en predictorMatrix identifica que predictores se van a utilizar
para la variable correspondiente a esa fila. El valor 1 en un elemento de la matriz indica que la
variable de la columna es predictora para imputar la variable objetivo (de la fila), y el 0 significa
que no es utilizada. La configuración por defecto de predictorMatrix especifica que los datos
faltantes de una variable son imputados utilizando el resto de variables del estudio.
Condicionado a todos los demás datos suele ser razonable para pequeños o medianos conjuntos
de datos, contener hasta 20-30 variables aproximadamente, sin variables derivadas, efectos de
interacción y otras complejidades. Como regla general, utilizar toda la información disponible
conduce a imputaciones múltiples que tienen sesgo menor y máxima eficiencia. Para conjuntos
de datos que contienen cientos o miles de variables, utilizar todos los predictores puede no ser
factible (a causa de la multicolinealidad y problemas computacionales). Para la imputación, es
conveniente seleccionar un subconjunto apropiado de datos que no contiene más de 15 a 25
variables. Van Buuren et al (2011) proporciona la siguiente estrategia para seleccionar variables
predictoras de una base de datos grande:
a) Incluir todas las variables que aparecen en el modelo de datos completos, es decir, el modelo
que será aplicado a los datos después de la imputación. De no hacerlo puede sesgar el análisis
de datos completos, especialmente si el modelo de datos completos contiene fuerte relaciones
predictivas. Observar que este paso es algo contrario a la intuición, como puede parecer esa
imputación fortalecerı́a artificialmente las relaciones del modelo de datos completos, que
serı́a claramente indeseable. Si se hace correctamente, sin embargo, este no es el caso.
2.4. UTILIZACIÓN DE LA LIBRERÍA MICE PARA LA IMPUTACIÓN MÚLTIPLE
19
Observar que las interacciones de interés cientı́fico también necesitan ser incluidas en el
modelo de imputación.
b) Además, incluir las variables que están relacionadas con la falta de respuesta. Los factores
que se conoce que van a influir en la ocurrencia de datos faltantes (estratificación, razones
para la falta de respuesta) deben incluirse por razones de fondo. Otras variables de interés
son aquellas en las que las distribuciones difieren entre los grupos de respuesta y de no
respuesta. Estos pueden ser encontrados inspeccionando sus correlaciones con el indicador
de respuesta de la variable a ser imputada. Si la magnitud de esta correlación excede un
cierto nivel, entonces la variable deberı́a ser incluida.
c) Incluir también variables que explican una considerable proporción de la varianza. Tales
predictores ayudan a reducir la incertidumbre de las imputaciones. Son básicamente identificados por sus correlaciones con la variable objetivo.
d ) Quitar de las variables seleccionadas en los pasos b y c aquellas variables que tienen demasiados valores faltantes dentro del subgrupo de casos incompletos. Un simple indicador es el
porcentaje de casos observados dentro de este subgrupo, el porcentaje de casos utilizables.
La mayorı́a de los predictores utilizados para la imputación están incompletos. En principio, uno
podrı́a aplicar los pasos de simulación citados para cada predictor incompleto a su vez, pero esto
puede dar lugar a una cascada de problemas de imputación auxiliares. Al hacerlo, se corre el
riesgo de que cada variable necesite ser incluida después de todo. En la práctica, hay a menudo
un pequeño conjunto de variables clave, para las cuales las imputaciones se necesitan, que sugiere
que todos los pasos anteriores se realicen sólo para las variables clave. Este fue el enfoque cogido
en Van Buuren y Groothuis-Oudshoorn (1999), pero puede perder importantes predictores de los
predictores. Una estrategia más seguras y eficiente, aunque más laboriosa, es realizar los pasos
del modelo también para los predictores de los predictores de las variables clave. Esto está hecho
en Groothuis-Oudshoorn (1999). Es raramente necesario ir más allá de los predictores de los
predictores. En el nodo terminal, podemos aplicar un método simple como imputación por un
valor aleatorio observado de la propia variable que no necesita predictores para ello.
4. La cuarta elección es si deberı́amos imputar variables que son funciones de otras variables (incompletas). Muchos conjuntos de datos contienen variables derivadas, suma de puntuaciones,
variables de interacción, relaciones y ası́ sucesivamente. Puede ser útil incorporar las variables
transformadas en el algoritmo de imputación múltiple.
Con frecuencia hay una necesidad para las versiones transformadas, combinadas o recodificadas de los datos. En el caso de datos incompletos, uno podrı́a imputar el original y después
transformar el original completo, o transformar el original incompleto e imputar la versión transformada. Sin embargo, si ambos (original y transformado) se necesitan dentro del algoritmo de
imputación, ninguno de estos métodos trabaja porque no podemos estar seguros de la transformación que se da entre los valores imputados de las versiones originales y las transformadas.
La librerı́a MICE implementa un mecanismo especial, llamado imputación pasiva, para tratar
con tales situaciones. La imputación pasiva mantiene la consistencia entre diferentes transformaciones de los mismos datos. El método puede ser utilizado para asegurar que la transformación
siempre depende de las imputaciones generadas más recientemente en los datos originales sin
transformar. La imputación pasiva se invoca especificando una tilde (∼) como primer carácter del
método de imputación. Esto proporciona un método simple para especificar una gran variedad
de dependencias entre las variables, tales como las variables transformadas, recodificaciones,
interacciones, suma de puntuaciones, y ası́ sucesivamente, que pueden ser necesarios en otras
partes del algoritmo.
20
CAPÍTULO 2. DATOS FALTANTES
5. La quinta elección se preocupa del orden en que las variables deberı́an ser imputadas. La secuencia
de visita puede afectar a la convergencia del algoritmo.
El algoritmo MICE imputa por defecto columnas incompletas de datos de izquierda a derecha.
Teóricamente, el esquema de visita es irrelevante siempre y cuando cada columna sea visitada
lo suficiente, pero algunos esquemas son más eficientes que otros. En particular, para datos que
faltan monotónicamente, la convergencia es inmediata si las variables están ordenadas de acuerdo
al número de casos faltantes. Más que reordenar los datos, es más conveniente cambiar el esquema
de visita del algoritmo mediante el argumento visitSequence. De forma básica, el argumento
visitSequence es un vector de enteros de longitud igual al número de variables del conjunto
de datos, especificando la secuencia de números de columna para una iteración del algoritmo.
Cualquier columna dada puede ser visitada más de una vez dentro de la misma iteración, que
puede ser útil para asegurar sincronizaciones propias entre variables. Es obligatorio que todas las
columnas con datos faltantes que se utilizan como predictores sean visitadas, o sino el algoritmo
se interrumpirá con un error.
6. La sexta elección se preocupa de la configuración de las imputaciones de partida y el número de
iteraciones.
7. La séptima elección es m, el número de datos de imputación múltiple. Estableciendo un m
demasiado bajo puede dar lugar a grandes errores de simulación e ineficiencia estadı́stica, especialmente si la fracción de información perdida es alta.
Para fracciones de información perdida γ=(0.1, 0.3, 0.5, 0.7, 0.9) necesitamos establecer
m=(20, 20, 40, 100, >100) imputaciones, respectivamente. Otros autores (Schafer (1997)) dicen
que con pocas imputaciones (3-5) para un modelo univariante son suficientes.
Tener en cuenta que estas elecciones siempre se necesitan. La imputación necesita hacer
elecciones por defecto. Estas elecciones están destinadas a ser útiles a través de una amplia
gama de aplicaciones. Sin embargo, las elecciones por defecto no son necesariamente las mejores
para los datos. Simplemente, no hay un ajuste mágico que siempre trabaja, por lo que a menudo
se necesita alguna adaptación.
Capı́tulo 3
Análisis de supervivencia
3.1.
Introducción
En muchos estudios, especialmente los relacionados con la medicina, la variable principal que
queremos valorar es el tiempo que transcurre hasta un suceso. A este tiempo, normalmente se le llama
“supervivencia”, aunque el suceso en cuestión no tiene por qué ser la defunción. Cuando el suceso que
queremos evaluar ocurre en todos los pacientes, entonces disponemos de varias técnicas estadı́sticas
que pueden aplicarse. Sin embargo, lo más habitual es que el suceso en cuestión (la defunción, la
recidiva, la reaparición de los sı́ntomas) no se presente en todos los individuos. Además, comprobar
la distribución deberı́a ser el primer paso antes de aplicar cualquier prueba, y es muy frecuente que
estos datos de supervivencia no sigan la distribución normal, con lo cual la mayorı́a de las pruebas
estadı́sticas no son aplicables. En esta situación, hay una serie de técnicas estadı́sticas (análisis de la
supervivencia) apropiadas para estudios en los que cada paciente es seguido durante un determinado
perı́odo y en los que se recoge el intervalo que transcurre entre el hecho inicial y el hecho final, o
hasta que acaba el seguimiento si no ocurre el hecho final. Además, entre estas técnicas, disponemos
de pruebas para comparar curvas de supervivencia, y modelos más complejos basados en la regresión
que permiten valorar el efecto de un conjunto de valores pronósticos [13].
En ciencias de la salud, el auge de estas técnicas empieza hacia los años setenta. La ventaja
que ofrecen estas técnicas y lo que las ha popularizado es que permiten generalizar el análisis de
respuestas binarias (sı́/no; fallecido/vivo), incluido el tiempo de seguimiento, es decir, el tiempo que
ha transcurrido desde el inicio del seguimiento hasta producirse la respuesta o hasta el final del
seguimiento si la respuesta no se ha producido. Además, este tiempo que se analiza se puede valorar
en condiciones muy flexibles, porque la duración del perı́odo de observación puede ser muy diferente
para cada sujeto. Ası́ pues, el análisis de la supervivencia es una técnica muy apropiada para analizar
respuestas binarias en estudios longitudinales o de seguimiento que se caractericen por:
1. Duración variable del seguimiento: los estudios de seguimiento tienen fechas muy bien definidas
de inicio y de cierre, pero los sujetos se incorporan al estudio en momentos diferentes.
2. Observaciones incompletas: en la fecha de cierre del estudio aún no se ha producido el evento
terminal en ciertos sujetos (sujetos retirados “vivos”). Además, puede haber pérdidas (sujetos
perdidos). Estas observaciones incompletas dan lugar a lo que se llama “datos censurados”, y el
análisis de supervivencia se caracteriza por incluir la información que aportan estos datos.
21
22
3.2.
CAPÍTULO 3. ANÁLISIS DE SUPERVIVENCIA
Conceptos básicos
Función de supervivencia
La función de supervivencia se define como la probabilidad de que una persona sobreviva (no le
ocurra el evento de interés) al menos hasta el tiempo t. Una definición más formal puede darse de la
siguiente manera: sea T una variable aleatoria positiva (o no negativa) con función de distribución
F(t) y función de densidad de probabilidad f(t). La función de supervivencia S(t) es:
S(t) = 1 − F (t) = P [T > t]
Función de riesgo
La función de razón de riesgos o tasa instantánea de fallas λ(t) se define como el cociente entre la
función de densidad y la función de supervivencia:
λ(t) =
f (t)
.
S(t)
Se interpreta como la probabilidad de que a un individuo le ocurra el evento de interés en la siguiente
unidad de tiempo ∆t dado que ha sobrevivido hasta el tiempo t [14].
3.3.
Censura
En estudios longitudinales, sólo se conoce el tiempo exacto de supervivencia para los individuos
que muestran el evento de interés durante el perı́odo de seguimiento. Para los otros (los que están
libres de la enfermedad al final del perı́odo de observación o los que se perdieron) todo lo que podemos
decir es que no mostraron el evento de interés durante el perı́odo de seguimiento. En esta situación
tenemos lo que se llaman observaciones censuradas. Podemos distinguir tres tipos de censura:
Censura por la derecha: un sujeto está censurado por la derecha si lo que se sabe es que le ocurre
el evento de interés algún tiempo después del perı́odo fijado de seguimiento.
Censura por la izquierda: un sujeto está censurado por la izquierda si lo que se sabe es que le
ocurre el evento de interés algún tiempo antes del perı́odo fijado de seguimiento.
Censura por intervalos: un sujeto está censurado por intervalos si lo que se sabe es que le ocurre
el evento de interés entre dos instantes, pero el tiempo de fallo exacto no se conoce.
En la figura 3.1 mostramos gráficamente tiempos de vida censurados de las tres formas. La “X” indica
muerte y la “O” censura. El primer individuo muere el dı́a 7. El segundo individuo no muere durante
el periodo de estudio y hay censura por la derecha el dı́a 12. El tercer individuo no muere durante el
periodo de observación y es censurado el dı́a 10. El cuarto individuo es censurado por intervalos: es
observado de forma intermitente y muere en algún momento entre los dı́as 6 y 7. El quinto individuo
es censurado por la izquierda, porque se ve que en el dı́a 1 ha muerto cuando entra en el estudio [15].
3.4. ESTIMADORES DE LA FUNCIÓN DE SUPERVIVENCIA
23
Figura 3.1: Representación de los distintos tipos de censura.
3.4.
3.4.1.
Estimadores de la función de supervivencia
Kaplan-Meier
El método de Kaplan-Meier se basa en los tiempos de supervivencia individuales y asume que la
censura es independiente del tiempo de supervivencia. El estimador de Kaplan-Meier de supervivencia
en el tiempo t se define mediante la siguiente ecuación:
b
S(t)
=
Y r(ti ) − d(ti )
ti ≤t
r(ti )
.
donde ti , i=1,2,...,n es el conjunto total de tiempos de fallo registrados, r(ti ) es el número de individuos
en riesgo y d(ti ) el número de muertes (o de ocurrencia del evento de interés) en el momento ti .
3.4.2.
Actuarial
El método actuarial (también conocido como tabla de la vida) es una aproximación del estimador
de Kaplan-Meier. Se basa en tiempos de supervivencia agrupados y es adecuado para conjuntos de
datos grandes.
El método actuarial supone que los sujetos se extraen aleatoriamente dentro de cada intervalo, por
tanto, en promedio, se extraen en mitad del intervalo. Esto no es importante cuando los intervalos de
tiempo son cortos, pero puede haber sesgos cuando los intervalos de tiempo son largos. Este método
24
CAPÍTULO 3. ANÁLISIS DE SUPERVIVENCIA
también supone que la tasa de fallo dentro de un intervalo es el mismo para todos los sujetos y es
independiente de la probabilidad de supervivencia en otros perı́odos de tiempo. Las tablas de la vida
se producen de un estudio de la población a grande escala y se utilizan con menos frecuencia en estos
dı́as (se prefiere Kaplan-Meier porque es menos propenso al sesgo).
3.4.3.
Nelson-Aalen
El riesgo instantáneo se define como la proporción de la población presente en el tiempo t que
falla por unidad de tiempo. El riesgo acumulativo en el tiempo t, H(t), es riesgo sumado para todos
los tiempos hasta t. La relación entre el riesgo acumulativo y la supervivencia es la siguiente:
H(t) = −ln[S(t)],
S(t) = e−H(t)
o
El estimador de Nelson-Aalen del riesgo acumulativo en el tiempo t se define como:
b
H(t)
=
X d(ti )
ti ≤t
r(ti )
.
La estimación de Flemington-Harrington de supervivencia se puede calcular utilizando la estimación de Nelson-Aalen del riesgo acumulativo utilizando la relación entre la supervivencia y el riesgo
acumulativo descrita anteriormente.
3.5.
3.5.1.
Modelos de supervivencia
Modelo de riesgos proporcionales de Cox
Este modelo es el más utilizado para datos de supervivencia en la medicina. En este modelo,
definiremos el riesgo para el i-ésimo individuo de la siguiente forma:
0
λ(t; Zi (t)) = λ0 (t)eβ Zi (t)
donde Zi (t) es el vector de covariables para el i-ésimo individuo en el tiempo t, λ0 (t) es la función de
riesgo basal y β es el vector de parámetros.
El cociente entre el riesgo para dos sujetos con el mismo vector de covariables es constante en el
tiempo, es decir:
0
0
λ(t; Zi (t))
λ0 (t)eβ Zi (t)
eβ Zi (t)
0
=
=
= eβ (Zi (t)−Zj (t))
0
0
λ(t; Zj (t))
λ0 (t)eβ Zj (t)
eβ Zj (t)
Suponiendo que haya una muerte en el tiempo t*, la verosimilitud de que la muerte le ocurra al
individuo i-ésimo y no a otro individuo es:
0
∗
0
∗
λ0 (t∗ )eβ Zi (t )
eβ Zi (t )
Li (β) = P
=
.
P
0
∗
∗
∗ β Zj (t )
∗ β 0 Zj (t∗ )
j Yj (t )λ0 (t )e
j Yj (t )e
3.5. MODELOS DE SUPERVIVENCIA
25
Al producto de los términos de la última expresión L(β) =
Q
Li (β) se le llama verosimilitud parcial.
La maximización de log(L(β)) da una estimación para β sin necesidad de estimar el parámetro de
ruido o función de riesgo basal λ0 (t).
Una extensión del modelo de Cox permite obtener la estimación de los modelos para distintos grupos disjuntos o estratos. El modelo obtenido se conoce como modelo de Cox estratificado y está definido
para el estrato j-ésimo como:
0
λ(t; Zi (t)) = λj (t)eβ Zi (t)
Este modelo permite obtener la estimación del modelo en presencia de una variable de estratificación sobre la cual se desean obtener funciones de supervivencia por cada uno de los distintos grupos
y probablemente poder estudiar la existencia o no de las funciones de supervivencia entre los grupos.
El modelo de Cox estratificado también constituye una de las maneras de corregir el modelo de
Cox cuando no se cumple el supuesto de riesgos proporcionales para alguna de las covariables. En este
caso suele correrse el modelo estratificando por la covariable que no cumple con el supuesto de riesgo
proporcional. Este procedimiento permite corregir el sesgo en la estimación del parámetro que se puede
presentar cuando se viola el supuesto de riesgo proporcional. Sin embargo, presenta una desventaja y
es que no existe ningún β que permita estimar el efecto de la covariable de estratificación.
3.5.2.
Modelo de tiempo de fallo acelerado (AFT)
El modelo es el siguiente:
log(Ti ) = β0 + β1 xi1 + β2 xi2 + ... + βp xip + σεi
donde εi es el término de error aleatorio, β0 ,...,βp los parámetros de regresión y σ el parámetro de
escala.
Si no hay datos censurados, podemos fácilmente estimar este modelo mediante mı́nimos cuadrados
ordinarios (OLS). Simplemente generamos una nueva variable, Y = log T, y utilizamos el modelo
de regresión lineal con Y como variable dependiente. Este proceso conduce a mejores estimaciones
insesgadas lineales de los coeficientes, sin suponer ninguna distribución en ε. Si ε es normal, las
estimaciones OLS serán también estimaciones de máxima verosimilitud (MLE) y tendrán mı́nima
varianza entre todos los estimadores, tanto lineales como no lineales.
Pero los datos de supervivencia suelen tener observaciones censuradas, y éstas son difı́ciles de
manejar con OLS. De forma alternativa, podemos utilizar MLE suponiendo diferentes distribuciones
en ε. Para cada una de las distribuciones de ε, hay una distribución correspondiente para T (tabla
3.1).
Observar que todos los modelos AFT se nombran para la distribución de T en lugar de la distribución de ε o log(T). La razón de que se permita suponer diferentes distribuciones es que tienen
diferentes implicaciones para las formas de la función de riesgo [16].
26
CAPÍTULO 3. ANÁLISIS DE SUPERVIVENCIA
Tabla 3.1. Correspondencias de distribuciones entre ε y T.
Distribución de ε
Valor extremo (2 parámetros)
Valor extremo (1 parámetro)
Log-gamma
Logı́stica
Normal
Distribución de T
Weibull
Exponencial
Gamma
Log-Logı́stica
Log-Normal
AFT con datos faltantes
En la práctica, suele haber un gran número de posibles factores pronóstico asociados con los
resultados. Una forma de reducir el número de factores antes de intentar un análisis multivariante,
es examinar la relación entre cada factor individual y la variable dependiente (por ejemplo, tiempo
de supervivencia). Del análisis univariante, los factores que tienen poco o ningún efecto en la variable
dependiente pueden ser excluidos del análisis multivariante. Sin embargo, serı́a deseable incluir factores
que dicen tener valores de pronóstico por otros investigadores y factores que se consideran importantes
desde el punto de vista biomédico. Suele ser útil considerar los métodos de selección del modelo para
escoger estos factores significantes de entre todos los posibles y determinar un modelo adecuado con
tan pocas variables como sea posible. Con frecuencia, una variable con valor de pronóstico significante
en un estudio no es importante en otro. Por tanto, la confirmación en un estudio posterior es muy
importante para identificar factores de pronóstico.
Otro problema frecuente en análisis de regresión es el de datos faltantes. Se puede hacer tres
distinciones sobre los datos faltantes: (1) variables dependientes frente a variables independientes,
(2) muchos datos faltantes frente a pocos datos faltantes, y (3) pérdida de datos aleatoria frente
a la no aleatoria. Si el valor de la variable dependiente (por ejemplo, tiempo de supervivencia) es
desconocido, poco más hay que hacer que quitar a ese individuo del análisis y reducir el tamaño
muestral. El problema de datos faltantes es de diferente magnitud dependiendo de cómo de grande sea
la proporción de datos faltantes, ya sea para variables dependientes o para variables independientes. El
problema, obviamente, es menos crı́tico si falta el 1 % de los datos para una variable independiente que
si falta el 40 % de los datos para varias variables independientes. Cuando una proporción pequeña de
sujetos tiene datos faltantes para una variable, podemos optar simplemente por eliminarlos y realizar
el análisis con los otros individuos de la muestra. Es difı́cil especificar cómo de grande o cómo de
pequeño, pero eliminar 10 o 15 de cientos de casos no plantearı́a una objeción práctica seria. Sin
embargo, si la falta de datos se da en una gran proporción de personas y el tamaño muestral no es
amplio, una cuestión de aleatoriedad puede ser elevada. Si la muestra con datos faltantes no muestra
diferencias significantes en la variable dependiente, el problema no es serio. Si los datos son MNAR, los
resultados obtenidos de los sujetos eliminados serán engañosos. Por lo que eliminar casos no siempre
es una solución adecuada al problema de datos faltantes [17].
3.5.3.
Comparación del modelo AFT respecto al de Cox
El modelo de riesgos proporcionales de Cox se utiliza principalmente en los campos de la medicina
y la bioestadı́stica, mientras que el modelo AFT se utiliza principalmente en fiabilidad y experimentos
industriales [18].
El modelo de riesgos proporcionales de Cox tiene la ventaja de que puede estimar y hacer inferencia
sobre los parámetros de interés sin asumir ninguna forma para la función de riesgo basal, o lo que
3.5. MODELOS DE SUPERVIVENCIA
27
es lo mismo, no es necesario especificar una distribución de supervivencia para modelar el efecto de
las variables explicativas sobre la variable de duración. Sin embargo, este modelo está basado en la
suposición de riesgos proporcionales y esto puede no sostenerse en algunos estudios de supervivencia.
De ser ası́, el modelo de Cox estándar no se deberı́a utilizar y puede producir un sesgo importante al
estimar o hacer inferencia sobre el efecto de un factor de pronóstico dado en la mortalidad.
Por otra parte, si consideramos los modelos AFT, pueden ser de interés debido a que pueden
ser reescritos especificando una relación directa entre el logaritmo del tiempo de supervivencia y las
variables explicativas, al igual que un modelo de regresión lineal múltiple. Sin embargo, su principal desventaja es que habitualmente la estimación de estos modelos se lleva a cabo asumiendo una
distribución para la duración, que en la mayorı́a de los casos es desconocida.
Además, este método tiene varias ventajas respecto al modelo de Cox:
No necesita asumir riesgos proporcionales
Modela directamente el efecto de las variables explicativas en la supervivencia, por lo que la
interpretación de los resultados es más fácil que en los modelos de riesgos proporcionales, donde
modelamos el efecto de las covariables en una probabilidad condicionada. Además, utilizando
esta metodologı́a podrı́amos estimar la media residual del tiempo de vida de un paciente que ya
ha sobrevivido hasta el tiempo t
28
CAPÍTULO 3. ANÁLISIS DE SUPERVIVENCIA
Capı́tulo 4
Estudio de simulación
En este capı́tulo hemos simulado el siguiente modelo de supervivencia de tiempo de fallo acelerado
con observaciones faltantes en alguna de las covariables:
T = exp(β0 + β1 x1 + β2 x2 + β3 x3 + σε)
El objetivo del estudio es comparar el comportamiento de los estimadores sobre la submuestra
completa y sobre las muestras imputadas por diversos métodos. Para ello, hemos optado por diversos
métodos de imputación múltiple utilizando la librerı́a MICE que comentábamos en la sección 2.4. Para
poder realizar la comparación vamos a considerar distintas medidas de error:
Error cuadrático medio βj = sesgo2 (βj ) + var(βj )
Error relativo absoluto βj =
Error global βj =
1
500
P500
1
500
j=1 (βj
P500 β̂j −βj j=1 βj − β̂j )2
Generamos 500 muestras de tamaño 100 para un modelo AFT. Consideramos tres covariables que
provienen de una normal estándar multivariante. Asignamos distintos porcentajes de censura por la
derecha (0 %, 15 % y 25 %) y distintas covarianzas entre la primera y segunda variable predictora (0,
0.25, 0.5 y 0.9). La tercera variable predictora es incorrelada con las dos primeras. En el caso de datos
completos, obtenemos los siguientes errores globales, errores cuadráticos medios y errores relativos
absolutos asignados a cada estimador (tabla 4.1).
Lo que podemos ver aquı́ es que los errores son más altos cuanto mayor sea la censura, como era de
esperar. Los errores cuadráticos medios y relativos absolutos asignados a β1 y β2 aumentan considerablemente cuando la covarianza entre las variables correspondientes es muy alta.
Para simular la pérdida de datos, generaremos dos funciones donde los valores obtenidos serán
la probabilidad de observación de los datos de las covariables. Por simplicidad, hemos supuesto que
la pérdida depende sólo de la primera covariable. Sea δ1 la variable indicadora de si la covariable x1
es observada o no, es decir, δ1 = 1 si x1 es observada y δ1 = 0 en otro caso. Los modelos de datos
faltantes considerados en este estudio de simulación han sido los siguientes:
P1 : P (X1 sea observada) = P (δ1 = 1/x1 , x2 , x3 ) =
29
1
.
1 + exp(−1.5x2 )
30
CAPÍTULO 4. ESTUDIO DE SIMULACIÓN
Tabla 4.1. Errores global, cuadrático medio y relativo absoluto para datos completos.
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.042
0.041
0.041
0.042
0.048
0.052
0.053
0.051
0.059
0.066
0.065
0.066
mseβ0
0.011
0.011
0.011
0.011
0.012
0.013
0.013
0.012
0.015
0.017
0.017
0.017
mseβ1
0.010
0.010
0.013
0.053
0.011
0.012
0.015
0.058
0.012
0.015
0.018
0.067
mseβ2
0.010
0.012
0.015
0.056
0.011
0.014
0.017
0.060
0.014
0.017
0.020
0.071
mseβ3
0.010
0.010
0.010
0.011
0.014
0.015
0.015
0.014
0.019
0.020
0.019
0.019
areβ0
0.041
0.041
0.041
0.041
0.043
0.045
0.046
0.044
0.048
0.053
0.052
0.051
P2 : P (X1 sea observada) = P (δ1 = 1/x1 , x2 , x3 ) =
areβ1
0.081
0.079
0.089
0.181
0.084
0.087
0.097
0.191
0.086
0.094
0.104
0.205
areβ2
0.041
0.043
0.048
0.094
0.043
0.047
0.052
0.098
0.047
0.052
0.057
0.106
areβ3
0.027
0.027
0.027
0.028
0.031
0.031
0.031
0.031
0.037
0.037
0.036
0.036
1
.
1 + exp(−1.5x22 )
Podemos ver en las figuras 4.1 y 4.2 las representaciones gráficas de los modelos anteriores.
1
La primera función será P (δ1 = 1/xi1 , x2 , x3 ) = p1 (x1 , x2 , x3 ) = 1+exp(−1.5x
que aparece repre2)
1
sentada en la figura 4.1, y la segunda es P (δ1 = 1/xi1 , x2 , x3 ) = p2 (x1 , x2 , x3 ) = 1+exp(−1.5x
2 ) que
2
está representada en la figura 4.2.
Vamos a ver en las tablas 4.2 y 4.3 los distintos errores obtenidos para el estimador simplificado,
utilizando sólo la submuestra completa y descartando aquellas observaciones que tienen algún valor
perdido. Los resultados figuran según la función de probabilidad de observación, además de los distintos
porcentajes de censura y covarianzas.
Tabla 4.2. Errores global, cuadrático medio y relativo absoluto para
1
el estimador simplificado con p1 (x1 , x2 , x3 ) = 1+exp(−1.5x
.
2)
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.111
0.121
0.122
0.116
0.136
0.163
0.166
0.158
0.174
0.223
0.222
0.224
mseβ0
0.032
0.032
0.033
0.030
0.034
0.036
0.038
0.034
0.040
0.049
0.048
0.045
mseβ1
0.021
0.023
0.027
0.114
0.024
0.034
0.039
0.150
0.029
0.045
0.053
0.205
mseβ2
0.033
0.036
0.043
0.136
0.040
0.049
0.059
0.177
0.053
0.066
0.077
0.239
mseβ3
0.026
0.023
0.024
0.024
0.038
0.038
0.039
0.039
0.052
0.057
0.054
0.057
areβ0
0.070
0.071
0.070
0.068
0.073
0.076
0.075
0.072
0.080
0.087
0.086
0.083
areβ1
0.114
0.122
0.132
0.261
0.121
0.150
0.159
0.306
0.135
0.166
0.181
0.362
areβ2
0.072
0.075
0.082
0.142
0.081
0.088
0.096
0.164
0.092
0.102
0.111
0.191
areβ3
0.041
0.041
0.041
0.042
0.050
0.051
0.052
0.052
0.059
0.063
0.061
0.063
Al igual que para datos completos, lo que podemos ver aquı́ es que los errores son más altos cuanto
mayor sea la censura. Los errores cuadráticos medios y relativos absolutos asignados a β1 y β2 son
31
1
1+exp(−1.5x2 ) .
Figura 4.1: Función de probabilidad de observación p1 (x1 , x2 , x3 ) =
Tabla 4.3. Errores global, cuadrático medio y relativo absoluto para
1
el estimador simplificado con p2 (x1 , x2 , x3 ) = 1+exp(−1.5x
2) .
2
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.059
0.058
0.056
0.057
0.068
0.074
0.073
0.071
0.084
0.093
0.091
0.092
mseβ0
0.016
0.016
0.016
0.016
0.017
0.019
0.019
0.019
0.022
0.026
0.026
0.026
mseβ1
0.014
0.016
0.019
0.075
0.016
0.020
0.024
0.086
0.018
0.025
0.029
0.107
mseβ2
0.012
0.014
0.018
0.076
0.013
0.017
0.021
0.085
0.016
0.021
0.026
0.106
mseβ3
0.018
0.015
0.014
0.015
0.022
0.021
0.020
0.020
0.029
0.026
0.025
0.025
areβ0
0.050
0.050
0.049
0.050
0.051
0.055
0.055
0.054
0.058
0.065
0.065
0.064
areβ1
0.094
0.100
0.110
0.221
0.102
0.114
0.124
0.236
0.109
0.122
0.133
0.256
areβ2
0.044
0.047
0.053
0.109
0.045
0.052
0.058
0.117
0.050
0.057
0.064
0.129
areβ3
0.034
0.033
0.032
0.032
0.039
0.039
0.038
0.037
0.045
0.044
0.042
0.043
considerablemente más altos cuando la covarianza entre las variables correspondientes es muy alta.
Obtenemos mejores errores con la segunda función de pérdida. En cualquiera de los dos casos, los
errores asignados a cada estimador son superiores si lo comparamos con el caso de datos completos.
En el caso de datos imputados, utilizaremos distintos métodos de imputación en la primera variable
y veremos cuál es el más efectivo. El primero que vamos a probar es el Predictive Mean Matching
(pmm). Bajo los mismos escenarios considerados anteriormente, obtenemos los errores de las tablas
32
CAPÍTULO 4. ESTUDIO DE SIMULACIÓN
Figura 4.2: Función de probabilidad de observación p2 (x1 , x2 , x3 ) =
1
.
1+exp(−1.5x22 )
4.4 y 4.5.
Tabla 4.4. Errores global, cuadrático medio y relativo absoluto para
1
datos imputados por PMM y con p1 (x1 , x2 , x3 ) = 1+exp(−1.5x
.
2)
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.265
0.279
0.238
0.110
0.292
0.319
0.276
0.128
0.322
0.360
0.311
0.153
mseβ0
0.029
0.028
0.022
0.014
0.029
0.030
0.024
0.015
0.032
0.036
0.029
0.020
mseβ1
0.260
0.265
0.275
0.416
0.282
0.299
0.314
0.471
0.305
0.330
0.346
0.528
mseβ2
0.028
0.051
0.114
0.398
0.032
0.061
0.134
0.444
0.036
0.070
0.151
0.496
mseβ3
0.023
0.022
0.019
0.013
0.029
0.031
0.028
0.018
0.039
0.041
0.036
0.024
areβ0
0.055
0.054
0.050
0.045
0.055
0.058
0.054
0.047
0.059
0.065
0.060
0.054
areβ1
0.460
0.468
0.481
0.573
0.479
0.495
0.512
0.606
0.495
0.514
0.533
0.635
areβ2
0.056
0.085
0.145
0.286
0.061
0.093
0.156
0.302
0.064
0.100
0.165
0.318
areβ3
0.035
0.034
0.033
0.029
0.039
0.042
0.039
0.034
0.047
0.048
0.045
0.040
En este caso, parece que los errores son más altos cuanto mayor sea la censura. Los errores cuadráticos
medios y relativos absolutos asignados a β1 y β2 son considerablemente más altos cuando la covarianza
entre las variables correspondientes es muy alta, mientras que los errores restantes en el mismo caso
son más pequeños. Obtenemos mejores errores con la segunda función. Si comparamos este caso con
la versión simplificada en la primera función, veremos que los errores asignados a β1 y β2 son más
33
Tabla 4.5. Errores global, cuadrático medio y relativo absoluto para
1
datos imputados por PMM y con p2 (x1 , x2 , x3 ) = 1+exp(−1.5x
2) .
2
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.123
0.130
0.112
0.058
0.134
0.148
0.131
0.070
0.148
0.167
0.147
0.086
mseβ0
0.019
0.018
0.016
0.012
0.020
0.022
0.019
0.014
0.024
0.028
0.025
0.019
mseβ1
0.108
0.114
0.119
0.175
0.114
0.125
0.132
0.195
0.118
0.131
0.139
0.217
mseβ2
0.014
0.021
0.044
0.153
0.016
0.025
0.050
0.168
0.019
0.029
0.056
0.190
mseβ3
0.019
0.019
0.016
0.012
0.024
0.025
0.022
0.016
0.031
0.034
0.028
0.021
areβ0
0.047
0.046
0.045
0.041
0.048
0.052
0.050
0.045
0.052
0.060
0.057
0.052
areβ1
0.280
0.291
0.296
0.322
0.285
0.302
0.309
0.336
0.286
0.304
0.311
0.350
areβ2
0.044
0.055
0.081
0.150
0.047
0.058
0.085
0.154
0.052
0.063
0.089
0.161
areβ3
0.032
0.032
0.030
0.028
0.036
0.037
0.035
0.032
0.042
0.043
0.040
0.037
altos en el caso de imputación, mientras que en los errores asignados a los otros estimadores y los
globales, solemos obtener mejores resultados en el caso de imputación cuando la covarianza es muy
alta. En la segunda función, los errores globales y los asignados a β1 y β2 obtenidos son mejores en la
versión simplificada, mientras que los relativos asignados a los demás son mejores con la imputación
y los cuadráticos medios asignados también a los otros sólo son mejores con la imputación en el caso
en que la covarianza sea alta.
Análogamente, obtenemos otras tablas de errores con los métodos sample (tablas 4.6 y 4.7), mean
(tablas 4.8 y 4.9), norm.predict (tablas 4.10 y 4.11), cart (tablas 4.12 y 4.13) y norm (tablas 4.14 y
4.15). Estos dos últimos son métodos no paramétricos.
Tabla 4.6. Errores global, cuadrático medio y relativo absoluto para
1
datos imputados por SAMPLE y con p1 (x1 , x2 , x3 ) = 1+exp(−1.5x
.
2)
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.296
0.325
0.343
0.192
0.326
0.370
0.383
0.206
0.360
0.415
0.420
0.224
mseβ0
0.019
0.023
0.031
0.023
0.019
0.024
0.031
0.024
0.023
0.031
0.034
0.028
mseβ1
0.286
0.303
0.373
0.765
0.310
0.342
0.417
0.795
0.336
0.376
0.451
0.821
mseβ2
0.022
0.065
0.205
0.745
0.026
0.075
0.226
0.764
0.030
0.084
0.243
0.787
mseβ3
0.021
0.021
0.019
0.013
0.027
0.030
0.026
0.018
0.036
0.038
0.034
0.023
areβ0
0.051
0.057
0.068
0.055
0.051
0.059
0.068
0.055
0.056
0.066
0.071
0.060
areβ1
0.501
0.518
0.582
0.857
0.522
0.548
0.613
0.872
0.541
0.572
0.635
0.883
areβ2
0.056
0.109
0.215
0.427
0.060
0.115
0.224
0.431
0.064
0.121
0.230
0.436
areβ3
0.035
0.035
0.034
0.030
0.040
0.042
0.040
0.035
0.048
0.048
0.045
0.040
Parece que ocurre algo muy similar con los errores obtenidos por estos últimos cinco métodos de
imputación comparado con el “pmm”, excepto para el error global del método de imputación “mean”
probado con la segunda función de probabilidad de observación, que también son más altos los errores
cuanto mayor es la covarianza entre las dos primeras variables. Lo interesante aquı́ es ver cuáles son
34
CAPÍTULO 4. ESTUDIO DE SIMULACIÓN
Tabla 4.7. Errores global, cuadrático medio y relativo absoluto para
1
datos imputados por SAMPLE y con p2 (x1 , x2 , x3 ) = 1+exp(−1.5x
2) .
2
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.128
0.143
0.162
0.141
0.140
0.163
0.183
0.155
0.154
0.182
0.200
0.170
mseβ0
0.016
0.016
0.015
0.012
0.017
0.020
0.019
0.014
0.021
0.026
0.024
0.019
mseβ1
0.112
0.127
0.186
0.613
0.118
0.139
0.202
0.634
0.122
0.146
0.210
0.646
mseβ2
0.014
0.025
0.074
0.531
0.016
0.029
0.082
0.545
0.020
0.033
0.088
0.560
mseβ3
0.018
0.018
0.017
0.013
0.023
0.025
0.023
0.017
0.030
0.032
0.029
0.023
areβ0
0.045
0.046
0.046
0.043
0.046
0.051
0.051
0.046
0.051
0.060
0.058
0.054
areβ1
0.290
0.314
0.389
0.754
0.296
0.325
0.404
0.765
0.298
0.328
0.406
0.768
areβ2
0.045
0.062
0.115
0.349
0.048
0.065
0.119
0.352
0.053
0.069
0.121
0.354
areβ3
0.032
0.033
0.032
0.030
0.036
0.037
0.036
0.034
0.042
0.043
0.041
0.039
Tabla 4.8. Errores global, cuadrático medio y relativo absoluto para
1
datos imputados por MEAN y con p1 (x1 , x2 , x3 ) = 1+exp(−1.5x
.
2)
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.078
0.128
0.243
0.230
0.089
0.161
0.285
0.260
0.110
0.196
0.325
0.291
mseβ0
0.021
0.036
0.069
0.046
0.021
0.034
0.063
0.045
0.024
0.038
0.061
0.046
mseβ1
0.021
0.026
0.047
0.486
0.025
0.035
0.056
0.509
0.029
0.046
0.071
0.543
mseβ2
0.018
0.046
0.143
0.649
0.022
0.062
0.178
0.690
0.026
0.075
0.205
0.732
mseβ3
0.017
0.017
0.016
0.013
0.022
0.026
0.023
0.017
0.030
0.034
0.030
0.023
areβ0
0.058
0.078
0.116
0.090
0.058
0.076
0.108
0.088
0.063
0.080
0.105
0.088
areβ1
0.115
0.127
0.174
0.666
0.124
0.150
0.188
0.675
0.137
0.168
0.212
0.692
areβ2
0.054
0.091
0.177
0.397
0.059
0.105
0.196
0.409
0.064
0.116
0.210
0.420
areβ3
0.035
0.034
0.033
0.030
0.039
0.042
0.040
0.035
0.046
0.048
0.045
0.040
los métodos de imputación con los que obtenemos mejores errores. En este caso son el “mean” y
el “norm.predict”, pero con el primero en general no obtenemos mejores errores comparado con la
versión simplificada mientras que con el segundo sı́. Con lo cual, el “norm.predict” es el mejor método
de imputación que podremos aplicar a estos datos. Cabe destacar que cuanto mayor es la covarianza
entre las variables, mejores errores obtenemos (como dijimos anteriormente), lo cual es lógico teniendo
en cuenta que lo que hace este método es aplicar una regresión lineal.
Nótese que el método norm.predict funciona bien en este modelo, en parte porque hemos simulado
variables con distribución normal. En muchas ocasiones los datos reales no siguen una distribución
Normal, por lo que métodos no paramétricos ofrecen generalmente un mejor comportamiento en
ausencia de normalidad.
35
Tabla 4.9. Errores global, cuadrático medio y relativo absoluto para
1
datos imputados por MEAN y con p2 (x1 , x2 , x3 ) = 1+exp(−1.5x
2) .
2
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.054
0.056
0.057
0.070
0.062
0.072
0.073
0.083
0.076
0.091
0.090
0.101
mseβ0
0.014
0.014
0.014
0.012
0.015
0.017
0.017
0.013
0.018
0.023
0.022
0.018
mseβ1
0.014
0.016
0.021
0.181
0.016
0.020
0.026
0.195
0.019
0.025
0.031
0.213
mseβ2
0.012
0.014
0.022
0.189
0.013
0.017
0.026
0.202
0.016
0.020
0.031
0.218
mseβ3
0.014
0.014
0.013
0.012
0.018
0.020
0.018
0.016
0.024
0.027
0.024
0.021
areβ0
0.047
0.047
0.046
0.043
0.048
0.053
0.052
0.046
0.053
0.061
0.059
0.054
areβ1
0.095
0.100
0.117
0.369
0.102
0.114
0.130
0.381
0.108
0.122
0.141
0.394
areβ2
0.043
0.047
0.059
0.190
0.045
0.052
0.064
0.196
0.050
0.056
0.069
0.200
areβ3
0.032
0.032
0.031
0.029
0.035
0.037
0.035
0.033
0.042
0.043
0.041
0.039
Tabla 4.10. Errores global, cuadrático medio y relativo absoluto para
1
datos imputados por NORM.PREDICT y con p1 (x1 , x2 , x3 ) = 1+exp(−1.5x
.
2)
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.105
0.107
0.095
0.065
0.118
0.139
0.124
0.083
0.142
0.174
0.156
0.108
mseβ0
0.029
0.027
0.023
0.015
0.029
0.030
0.026
0.016
0.032
0.035
0.030
0.020
mseβ1
0.021
0.023
0.027
0.114
0.024
0.034
0.038
0.147
0.029
0.045
0.052
0.199
mseβ2
0.030
0.032
0.034
0.111
0.035
0.042
0.044
0.139
0.042
0.050
0.053
0.180
mseβ3
0.025
0.023
0.020
0.013
0.030
0.034
0.029
0.018
0.038
0.044
0.037
0.023
areβ0
0.067
0.065
0.060
0.048
0.066
0.069
0.063
0.050
0.070
0.075
0.069
0.056
areβ1
0.114
0.122
0.132
0.261
0.123
0.149
0.158
0.302
0.136
0.166
0.180
0.356
areβ2
0.068
0.070
0.073
0.130
0.072
0.081
0.084
0.147
0.079
0.089
0.093
0.169
areβ3
0.042
0.040
0.037
0.030
0.046
0.048
0.044
0.035
0.052
0.055
0.050
0.040
36
CAPÍTULO 4. ESTUDIO DE SIMULACIÓN
Tabla 4.11. Errores global, cuadrático medio y relativo absoluto para
1
datos imputados por NORM.PREDICT y con p2 (x1 , x2 , x3 ) = 1+exp(−1.5x
2) .
2
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.055
0.057
0.053
0.047
0.063
0.072
0.068
0.058
0.078
0.092
0.085
0.075
mseβ0
0.014
0.014
0.013
0.011
0.015
0.017
0.016
0.013
0.018
0.023
0.021
0.017
mseβ1
0.014
0.016
0.019
0.075
0.016
0.020
0.024
0.086
0.018
0.025
0.029
0.106
mseβ2
0.012
0.013
0.017
0.073
0.013
0.016
0.020
0.081
0.016
0.020
0.024
0.099
mseβ3
0.016
0.015
0.014
0.011
0.020
0.021
0.019
0.015
0.026
0.029
0.025
0.020
areβ0
0.046
0.047
0.045
0.041
0.048
0.053
0.051
0.045
0.053
0.061
0.058
0.052
areβ1
0.094
0.100
0.110
0.221
0.101
0.113
0.123
0.236
0.108
0.122
0.133
0.256
areβ2
0.043
0.047
0.052
0.108
0.045
0.051
0.056
0.114
0.050
0.055
0.063
0.125
areβ3
0.033
0.033
0.031
0.028
0.037
0.038
0.035
0.032
0.043
0.044
0.041
0.037
Tabla 4.12. Errores global, cuadrático medio y relativo absoluto para
1
datos imputados por CART y con p1 (x1 , x2 , x3 ) = 1+exp(−1.5x
.
2)
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.289
0.294
0.251
0.127
0.318
0.336
0.291
0.146
0.351
0.380
0.330
0.170
mseβ0
0.021
0.022
0.019
0.014
0.021
0.024
0.021
0.015
0.024
0.030
0.026
0.020
mseβ1
0.267
0.267
0.283
0.489
0.290
0.301
0.324
0.540
0.314
0.334
0.358
0.591
mseβ2
0.025
0.047
0.118
0.470
0.028
0.056
0.139
0.514
0.033
0.066
0.157
0.564
mseβ3
0.021
0.020
0.018
0.013
0.028
0.029
0.026
0.017
0.037
0.039
0.034
0.023
areβ0
0.054
0.054
0.051
0.045
0.054
0.059
0.055
0.047
0.059
0.066
0.061
0.054
areβ1
0.482
0.480
0.494
0.646
0.501
0.508
0.527
0.677
0.519
0.531
0.550
0.703
areβ2
0.059
0.086
0.151
0.322
0.063
0.094
0.163
0.337
0.067
0.101
0.172
0.352
areβ3
0.036
0.035
0.034
0.030
0.041
0.043
0.040
0.034
0.048
0.049
0.046
0.040
37
Tabla 4.13. Errores global, cuadrático medio y relativo absoluto para
1
datos imputados por CART y con p2 (x1 , x2 , x3 ) = 1+exp(−1.5x
2) .
2
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.127
0.133
0.115
0.059
0.138
0.152
0.135
0.071
0.152
0.170
0.151
0.088
mseβ0
0.016
0.017
0.015
0.012
0.018
0.020
0.018
0.013
0.021
0.026
0.023
0.019
mseβ1
0.103
0.110
0.115
0.172
0.108
0.120
0.128
0.190
0.112
0.125
0.134
0.213
mseβ2
0.014
0.020
0.042
0.150
0.016
0.024
0.049
0.162
0.019
0.028
0.054
0.187
mseβ3
0.017
0.017
0.016
0.012
0.022
0.023
0.022
0.016
0.029
0.030
0.028
0.021
areβ0
0.047
0.047
0.046
0.042
0.049
0.053
0.051
0.045
0.055
0.061
0.059
0.053
areβ1
0.283
0.288
0.293
0.320
0.286
0.299
0.307
0.333
0.287
0.301
0.310
0.350
areβ2
0.045
0.054
0.081
0.148
0.048
0.058
0.085
0.152
0.053
0.062
0.089
0.160
areβ3
0.033
0.032
0.032
0.029
0.036
0.037
0.036
0.032
0.042
0.042
0.041
0.038
Tabla 4.14. Errores global, cuadrático medio y relativo absoluto para
1
datos imputados por NORM y con p1 (x1 , x2 , x3 ) = 1+exp(−1.5x
.
2)
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.316
0.320
0.261
0.093
0.347
0.367
0.305
0.112
0.381
0.413
0.343
0.135
mseβ0
0.027
0.026
0.023
0.014
0.026
0.027
0.024
0.016
0.029
0.033
0.029
0.020
mseβ1
0.314
0.314
0.318
0.393
0.339
0.353
0.362
0.455
0.364
0.386
0.397
0.521
mseβ2
0.029
0.048
0.105
0.334
0.033
0.057
0.122
0.383
0.038
0.065
0.138
0.443
mseβ3
0.023
0.022
0.020
0.014
0.030
0.032
0.028
0.018
0.039
0.042
0.036
0.024
areβ0
0.053
0.051
0.048
0.043
0.053
0.055
0.053
0.046
0.058
0.063
0.060
0.053
areβ1
0.524
0.523
0.524
0.533
0.544
0.553
0.559
0.571
0.562
0.576
0.582
0.606
areβ2
0.054
0.078
0.133
0.239
0.059
0.085
0.142
0.254
0.063
0.093
0.150
0.271
areβ3
0.035
0.034
0.033
0.029
0.039
0.042
0.039
0.033
0.047
0.048
0.045
0.039
38
CAPÍTULO 4. ESTUDIO DE SIMULACIÓN
Tabla 4.15. Errores global, cuadrático medio y relativo absoluto para
1
datos imputados por NORM y con p2 (x1 , x2 , x3 ) = 1+exp(−1.5x
2) .
2
cov
0
0.25
0.5
0.9
0
0.25
0.5
0.9
0
0.25
0.5
0.9
cens
0
0
0
0
0.15
0.15
0.15
0.15
0.25
0.25
0.25
0.25
error
0.134
0.138
0.116
0.057
0.146
0.157
0.136
0.069
0.160
0.176
0.152
0.086
mseβ0
0.017
0.017
0.016
0.012
0.018
0.021
0.019
0.014
0.022
0.028
0.025
0.019
mseβ1
0.123
0.125
0.129
0.186
0.129
0.137
0.144
0.208
0.134
0.144
0.151
0.232
mseβ2
0.014
0.022
0.046
0.162
0.016
0.025
0.052
0.179
0.019
0.030
0.058
0.203
mseβ3
0.019
0.019
0.016
0.012
0.024
0.025
0.022
0.016
0.031
0.033
0.029
0.021
areβ0
0.045
0.046
0.044
0.041
0.046
0.051
0.050
0.044
0.052
0.060
0.057
0.052
areβ1
0.304
0.306
0.308
0.324
0.309
0.317
0.322
0.340
0.311
0.320
0.325
0.355
areβ2
0.045
0.056
0.083
0.150
0.047
0.059
0.087
0.156
0.053
0.064
0.090
0.162
areβ3
0.032
0.032
0.030
0.028
0.035
0.037
0.035
0.032
0.042
0.043
0.040
0.037
Capı́tulo 5
Aplicación a datos reales
5.1.
Descripción del problema
Es frecuente que previo a la realización del análisis estadı́stico en estudios de investigación clı́nica
y epidemiológica, nos encontremos con datos faltantes. El caso que presentamos a continuación no se
escapa a este problema. En concreto, se trata de un estudio de supervivencia en pacientes que han sido
sometidos a trasplante hepático, y cuyo objetivo es conocer aquellas variables que pueden encontrarse
asociadas a un peor pronóstico. Es habitual en estudios de supervivencia, la utilización del modelo de
riesgos proporcionales de Cox en el análisis de los datos, y es por ello que existen una serie de métodos
de imputación de datos faltantes implementados para estos modelos [19]. Sin embargo, en ocasiones
deseamos aplicar otros modelos, como por ejemplo, los modelos de tiempo de fallo acelerado (AFT).
Los modelos AFT nos proporcionan una alternativa elegante al modelo de riesgos proporcionales en
cuanto relacionan el efecto de las variables predictoras con el tiempo de supervivencia en lugar del
valor de riesgo como ocurre en el modelo de Cox. Estas caracterı́sticas permiten una interpretación
más sencilla de los resultados. Sin embargo, los modelos AFT no se utilizan tanto debido a la ausencia
de algoritmos eficientes y fiables que permitan una estimación adecuada de los parámetros y sus
errores estándar [20]. Asimismo, en los modelos AFT son escasas las referencias existentes [21, 22] en
la literatura en relación con las aproximaciones para tratar datos faltantes.
5.2.
5.2.1.
Descripción del conjunto de datos
Descripción de la población y objetivo del estudio
Para ilustrar nuestra aproximación, analizamos los datos referentes a un estudio de supervivencia
en todos los pacientes sometidos a trasplante hepático ortotópico realizado en el Hospital Clı́nico
Universitario de Santiago de Compostela (CHUS), entre Julio de 1994 y Julio de 2011. Se excluyeron
del estudio a los 22 primeros pacientes trasplantados y otros 8 pacientes que no sobrevivieron más de
7 dı́as posttrasplante. Finalmente, se incluyeron en el análisis 629 pacientes.
El estado vital de los pacientes y la fecha de muerte se obtuvieron a través de los registros clı́nicos
y el final del seguimiento data de Junio de 2012. La mediana (rango) de seguimiento fue de 67 meses (1
semana - 17,5 años). Durante este tiempo, 414 (65,8 %) personas permanecieron vivas y 215 (34,2 %)
fallecieron.
39
40
CAPÍTULO 5. APLICACIÓN A DATOS REALES
El objetivo de este estudio es analizar aquellos factores que pueden influir en la supervivencia de
los pacientes que han sido sometidos a trasplante hepático.
5.2.2.
Descripción de las variables
Las variables recogidas para el estudio son aquellas ya descritas en la literatura y que han mostrado
que pueden tener relación con la supervivencia: edad, sexo, diagnóstico previo de diabetes, ı́ndice de
masa corporal, etiologı́a del trasplante (cáncer de hı́gado, abuso de alcohol, virus de la hepatitis C,
enfermedades autoinmunes), tiempo de isquemia frı́a del órgano, transfusión de hematı́es y de plaquetas
durante la cirugı́a, existencia de trombosis portal previa al trasplante, nutrición en el postoperatorio
inmediato, creatinina y/o filtrado glomerular previa al trasplante, y en los pacientes trasplantados a
partir de 2004 el MELD, ya que previamente no se posee el INR, una medida del tiempo de coagulación,
para poder calcular este marcador pronóstico. Además, dado que también formaba parte del objetivo
del estudio, introducimos la glucosa basal y las medidas de glucosa en los dı́as siguientes a la cirugı́a.
Al igual que ocurre en otras bases de datos biomédicas, tenemos datos faltantes en la mayorı́a de
las variables descritas anteriormente. La ausencia de datos oscila desde el 0,16 % como ocurre en el
virus de la hepatitis C o en la trombosis portal, hasta pérdidas del 57,23 % como ocurre con el MELD.
Lo ilustramos en la tabla 5.1.
Tabla 5.1. Número de observaciones faltantes en las variables
del estudio con su correspondiente porcentaje.
Sexo
Edad
Índice de masa corporal
Diabetes mellitus
Meld
Abuso de alcohol
Virus de la hepatitis C
Año del trasplante
Carcinoma
Tiempo de isquemia frı́a
0 (0 %)
0 (0 %)
0 (0 %)
0 (0 %)
360 (57.23 %)
0 (0 %)
1 (0.16 %)
0 (0 %)
0 (0 %)
17 (2.70 %)
Trasfusión de hematı́es
Trasfusión de plaquetas
Trombosis portal
Nutrición parenteral
Glucosa basal
Creatinina basal
Insulina media
Muerte
Tiempo de supervivencia
desde el trasplante
27
24
1
9
22
18
27
(4.29 %)
(3.82 %)
(0.16 %)
(1.43 %)
(3.50 %)
(2.86 %)
(4.29 %)
0 (0 %)
0 (0 %)
También podemos verlo gráficamente en la figura 5.1. Obsérvese en la primera gráfica como el porcentaje de individuos en la muestra con observaciones faltantes es significativamente superior en la
variable meld con respecto a las demás, y en la segunda gráfica se puede apreciar las combinaciones
existentes de las observaciones faltantes y las no faltantes.
Antes de proceder al análisis, una cuestión importante es discernir los mecanismos que conducen
a la pérdida de datos: MCAR, MAR o MNAR. Hemos podido comprobar que la fecha del trasplante
tiene gran influencia en la pérdida de datos. Ası́ por ejemplo, antes de 2004 la falta de datos es mucho
mayor. Esto es debido a la introducción de la historia clı́nica electrónica (IANUS) que empieza a estar
operativa en esta época y, por tanto, a partir de ahı́ no se pierden datos salvo aquellos que no se
introduzcan en la historia clı́nica.
El caso de la variable MELD merece mención aparte. Es el acrónimo de Model for End-stage
Liver Disease, un sistema de puntuación para medir la severidad de la enfermedad hepática crónica.
Fue inicialmente desarrollado para predecir la muerte dentro de 3 meses de cirugı́a en pacientes que
habı́an sido sometidos a TIPS (transjugular intrahepatic portosystemic shunt) y fue subsecuentemente
hallado útil para determinar el pronóstico y para priorizar los pacientes en espera de trasplante. Hemos
5.2. DESCRIPCIÓN DEL CONJUNTO DE DATOS
41
Figura 5.1: Proporción y combinación de datos faltantes en las variables.
recogido el MELD como indicador pronóstico previo al trasplante en 269 pacientes (42,8 %), con un
rango entre 4 y 42 con una media de 14.1, desviación tı́pica de 6,3 y una mediana de 14. No ha sido
posible recoger el MELD en los pacientes trasplantados antes de 2004, ya que en el laboratorio no se
realizaba el INR, sino únicamente el tiempo de Quick, por lo que no ha sido posible el cálculo del
ı́ndice.
En la tabla 5.2 se muestra un análisis descriptivo de las variables. Para describir las variables cuantitativas se utilizará la mediana (primer y tercer cuartil), mientras que para las variables cualitativas
indicaremos el porcentaje correspondiente para cada categorı́a.
En la figura 5.2, se puede apreciar la curva de supervivencia estimada con todos los individuos en
riesgo y su intervalo de confianza al 95 %, obtenida por el estimador de Kaplan-Meier.
En las tres figuras que se muestran posteriormente (5.3, 5.4 y 5.5), se puede observar cómo cambian
los boxplots de las variables edad, tempo y timee en función de los datos faltantes de las otras. En ellas
podemos apreciar diferencias entre los boxplots para casi todas las variables con datos faltantes, sobre
todo para la variable meld. El hecho de que haya tanta diferencia entre los boxplots que incluyen datos
observados y aquellos a cuyos individuos les falta la medida en esa variable, nos indica que la pérdida
de datos no es completamente aleatoria. No podemos suponer MCAR. Por lo tanto la estimación
utilizando sólo la submuestra completa no parece la más adecuada en esta situación. Esto ha motivado
que consideremos la imputación múltiple como alternativa a la estimación con la submuestra completa.
42
CAPÍTULO 5. APLICACIÓN A DATOS REALES
Tabla 5.2. Caracterı́sticas generales de las variables.
Sexo
Hombre
Mujer
Edad (años)
Diabetes mellitus
No
Sı́
Índice de masa corporal (Kg/m2 )
Abuso de alcohol
No
Sı́
Virus de la hepatitis C
No
Sı́
Carcinoma
No
Sı́
Trombosis portal
No
Sı́
Meld
Tiempo de isquemia frı́a (horas)
Trasfusión de hematı́es (unidades)
Trasfusión de plaquetas (unidades)
Nutrición parenteral
Glucosa basal pretrasplante
Creatinina basal pretrasplante
Insulina media en los 7 dı́as posttrasplante
Tiempo de supervivencia desde el trasplante (años)
Muerte
No
Sı́
5.3.
471 (74.9 %)
158 (25.1 %)
54 [45, 60]
504 (80.1 %)
125 (19.9 %)
27 [25, 29]
244 (38.8 %)
385 (61.2 %)
498 (79.3 %)
130 (20.7 %)
456 (72.5 %)
173 (27.5 %)
573 (91.2 %)
55 (8.8 %)
14 [9, 17]
7 [6, 9]
6 [2, 10]
0 [0, 1]
4 [3, 6]
105 [90, 137]
0.9 [0.7, 1.1]
39.57 [13.57, 115.50]
5.63 [2.24, 9.79]
414 (65.8 %)
215 (34.2 %)
Imputación a los datos reales
Después de aplicar imputación a los datos por distintos métodos, se procede a verificar si cumple
la proporcionalidad de riesgos de acuerdo a los supuestos exigidos por el modelo de Cox. Primero
se prueba con los casos completos e imputando por pmm, cart y sample todas las variables con
observaciones faltantes. Luego, se aplica logreg a las variables binarias al mismo tiempo que se aplica
pmm, cart, sample, mean, norm y norm.predict a las variables continuas. Los resultados se muestran
en la tabla 5.3.
Como puede apreciarse en esta tabla, utilizando el método de casos completos se cumple la proporcionalidad de riesgos. Sin embargo, si se utiliza pmm en la imputación de todas las variables o
norm.predict para las variables continuas y logreg para las binarias no se cumplen los supuestos de
proporcionalidad de riesgos, como ocurre en la mayorı́a de los casos. De ahı́ la conveniencia de utilizar
el método AFT para analizar la supervivencia utilizando imputación múltiple.
5.3. IMPUTACIÓN A LOS DATOS REALES
43
Figura 5.2: Curva de Kaplan-Meier.
Tabla 5.3. P-valores obtenidos en las pruebas de proporcionalidad
de riesgos tras los diferentes métodos de imputación aplicados.
Método/s
Casos completos
Pmm
Cart
Sample
Pmm/logreg
Cart/logreg
Sample/logreg
Mean/logreg
Norm/logreg
Norm.predict/logreg
p-valor
2.88e-01
1.66e-02
4.29e-02
7.36e-02
8.61e-03
3.44e-03
4.71e-02
4.24e-02
1.86e-01
1.12e-02
A continuación, interesa saber qué método de imputación es el más adecuado de todos ellos a
nuestros datos. Tras la aplicación del criterio AIC a cada uno de los conjuntos de datos imputados
por los distintos métodos aplicados, obtenemos los siguientes resultados (tabla 5.4).
Puede apreciarse que los métodos pmm para la imputación de variables continuas y logreg para las
binarias, son los que obtienen menores valores de AIC. Cabe recordar que el método pmm es adecuado
para datos que no asumen normalidad como frecuentemente ocurre en datos reales.
Una vez conocido el método a utilizar en la imputación, falta hallar el número óptimo de imputaciones. Para ello se calcula el AIC global para cada caso. Una forma de hacerlo, es hallar el AIC
44
CAPÍTULO 5. APLICACIÓN A DATOS REALES
Figura 5.3: Boxplot de la edad en función de si tenemos los datos observados en las otras variables o
no.
Tabla 5.4. AIC de los diferentes métodos de imputación.
Método/s
Pmm
Cart
Sample
Pmm/logreg
Cart/logreg
Sample/logreg
Mean/logreg
Norm/logreg
Norm.predict/logreg
AIC
1510.50
1517.97
1519.09
1508.17
1511.78
1524.04
1519.04
1515.75
1512.13
para cada conjunto de datos imputados de forma separada y luego calcular la media de esos valores
[23]. Ası́, se obtienen los resultados que aparecen recogidos en la tabla 5.5.
Se obtienen AIC similares para las diferentes imputaciones, encontrándose un menor AIC cuando el
número de imputaciones es m=3. Puede apreciarse que con el aumento del número de imputaciones
no necesariamente se obtendrán mejores resultados.
Tras realizar tres imputaciones (m=3) por el método pmm para variables cuantitativas y por
el método logreg para variables cualitativas se obtienen los siguientes factores de riesgo para cada
imputación (tabla 5.6).
Para hallar las covariables que finalmente entrarán en el modelo de supervivencia, se utilizará pri-
5.3. IMPUTACIÓN A LOS DATOS REALES
45
Figura 5.4: Boxplot del año de trasplante en función de si tenemos los datos observados en las otras
variables o no.
Tabla 5.5. AIC global para cada número de imputaciones.
m
1
2
3
5
10
15
20
25
30
AIC
1508.17
1513.18
1499.80
1508.55
1509.23
1510.24
1510.16
1510.04
1507.96
Tabla 5.6. Factores de riesgo asociados a cada imputación.
m
1
2
3
Factores de riesgo
TH, sexo, imc, actrm, edad, carc, NPTt, meld, tempo, TIF
TH, sexo, imc, actrm, edad, carc, NPTt, meld, tempo
TH, sexo, imc, actrm, edad, carc, NPTt, meld, tempo
mero la técnica de selección de variables majority, que consiste en seleccionar las variables que aparecen
al menos en la mitad de los modelos. En este caso son: TH, sexo, imc, actrm, edad, carc, NPTt,
meld y tempo. Posteriormente procederemos a verificar mediante el test de Wald si son necesarias
todas estas variables o si se puede quitar alguna.
46
CAPÍTULO 5. APLICACIÓN A DATOS REALES
Figura 5.5: Boxplot del tiempo de supervivencia desde el trasplante en función de si tenemos los datos
observados en las otras variables o no.
En la tabla 5.7 se muestra un breve resumen de todas las variables con sus diferentes estimaciones, errores estándar y p-valores finales asociados a cada parámetro, utilizando casos completos y la
imputación por pmm para variables cuantitativas y por logreg para variables cualitativas.
Las variables significativas obtenidas habiendo imputado los datos son: edad, tempo, carc, NPTt
y actrm. Por otra parte, si tenemos en cuenta únicamente los casos completos, obtenemos que las
variables significativas son: carc y TH. De todas formas, nos apoyaremos en el criterio AIC para
obtener los factores de riesgo que más influyen en la supervivencia. Además, puede observarse que las
estimaciones en algunos de los parámetros varı́an sensiblemente de un método a otro. Ası́ por ejemplo,
la variable tempo alcanza significación estadı́stica cuando se realiza la imputación mientras que en el
análisis de casos completos no la alcanza. Debemos tener en cuenta que debido al proceso de pérdida
de datos el análisis de casos completos se restringe a los últimos años del trasplante.
Para averiguar en qué orden debemos chequear las variables para utilizar el test de Wald, introducimos en el modelo todas las variables para ir eliminando “paso a paso” todas aquellas variables
que habı́an sido introducidas siguiendo el criterio AIC. Finalmente, se aplica el test de Wald para esas
variables en el orden en que fueron eliminadas: meld, imc, sexo, edad, TH, carc, actrm, tempo
y NPTt. Dado que las dos primeras variables meld e imc no alcanzan un p-valor<0.05, éstas no se
introducen en el modelo final, mientras que las restantes variables sı́ alcanzan un p-valor<0.05, por lo
que éstas sı́ se introducen en el modelo final.
5.4. RESULTADOS DEL ANÁLISIS DE SUPERVIVENCIA
47
Tabla 5.7. Estimaciones de los coeficientes y errores estándar en las covariables introducidas
en los modelos de supervivencia con casos completos y tras la imputación.
Intercepto
Sexo
Edad
Imc
Dm
Meld
Oh
Vhc
Tempo
Carc
TIF
TH
TP
TVP
NPTt
Glu0
Cr0
Actrm
5.4.
Datos imputados
Estimación Error estándar
-3.12e+02
7.94e+01
-5.59e-01
3.27e-01
-3.88e-02
1.34e-02
6.51e-02
3.67e-02
3.62e-01
3.99e-01
-8.39e-02
5.50e-02
1.05e-02
3.16e-01
-2.80e-01
3.39e-01
1.59e-01
3.97e-02
-1.02e+00
3.44e-01
5.46e-02
7.40e-02
-3.25e-02
1.89e-02
-5.28e-03
5.23e-02
1.06e-01
4.55e-01
-8.12e-02
3.40e-02
3.92e-04
2.21e-03
-4.12e-02
2.90e-01
-5.96e-03
1.81e-03
p-valor
1.86e-04
8.88e-02
4.40e-03
7.64e-02
3.65e-01
2.33e-01
9.74e-01
4.10e-01
1.49e-04
4.06e-03
4.66e-01
1.00e-01
9.20e-01
8.16e-01
3.91e-02
8.60e-01
8.88e-01
1.15e-03
Casos completos
Estimación Error estándar
-8.21e+01
2.15e+02
-6.32e-01
5.33e-01
-2.61e-02
2.47e-02
3.69e-02
5.23e-02
-4.67e-03
5.29e-01
-2.99e-02
4.26e-02
2.97e-01
5.47e-01
-3.22e-01
5.84e-01
4.33e-02
1.07e-01
-1.62e+00
4.86e-01
1.01e-01
1.04e-01
-8.79e-02
4.28e-02
1.08e-01
1.86e-01
2.60e-01
7.98e-01
-5.26e-03
8.54e-02
-2.18e-04
3.52e-03
3.18e-01
6.32e-01
-3.14e-03
2.93e-03
p-valor
7.03e-01
2.36e-01
2.90e-01
4.80e-01
9.93e-01
4.82e-01
5.87e-01
5.82e-01
6.87e-01
8.30e-04
3.32e-01
4.00e-02
5.62e-01
7.44e-01
9.51e-01
9.51e-01
6.16e-01
2.84e-01
Resultados del análisis de supervivencia
A continuación se relatan aquellos factores que afectan a la supervivencia de estos individuos en
relación a si el análisis se basa en los casos disponibles, en los casos completos o en los datos imputados.
Si aplicamos el modelo de supervivencia AFT a los casos disponibles, y utilizamos luego el criterio
de selección de variables AIC obtenemos que las variables que más influyen en la supervivencia de los
individuos son las siguientes: TIF, NPTt, TH, carc y meld.
Sin embargo, si aplicamos el método de imputación de casos completos a estos datos, y luego el
modelo de supervivencia AFT, por el criterio AIC obtenemos que las variables que más influyen en la
supervivencia son: sexo, TH y carc.
Aplicando el método de imputación óptimo a estos datos con el correspondiente número de imputaciones, obtenemos que las variables que más influyen en la supervivencia son: sexo, edad, TH,
carc, actrm, tempo y NPTt.
Tras la selección de éstas últimas variables en el caso datos imputados, obtenemos las siguientes
estimaciones, errores estándar y p-valores para los parámetros (tabla 5.8).
48
CAPÍTULO 5. APLICACIÓN A DATOS REALES
Tabla 5.8. Estimaciones finales de los coeficientes y errores estándar de las covariables
introducidas en los modelos de supervivencia tras los pasos de imputación.
Intercepto
Sexo
Edad
Dm
Oh
Vhc
tempo
carc
TIF
TH
TP
TVP
NPTt
Glu0
Cr0
Actrm
Estimación
-2.86e+02
-6.40e-01
-2.82e-02
3.32e-01
1.70e-01
-2.60e-01
1.46e-01
-8.22e-01
2.97e-02
-3.86e-02
-4.67e-02
1.44e-01
-1.21e-01
3.33e-04
-2.22e-01
-5.30e-03
Error estándar
7.43e+01
3.24e-01
1.25e-02
4.12e-01
3.21e-01
3.46e-01
3.71e-02
3.21e-01
6.55e-02
1.65e-02
4.63e-02
4.70e-01
2.47e-02
2.32e-03
2.71e-01
1.81e-03
p-valor
1.36e-04
4.87e-02
2.51e-02
4.21e-01
5.97e-01
4.53e-01
9.59e-05
1.06e-02
6.51e-01
1.96e-02
3.13e-01
7.60e-01
1.49e-06
8.86e-01
4.14e-01
3.69e-03
Capı́tulo 6
Conclusiones
En este trabajo, hemos tratado de abordar el análisis de los modelos de supervivencia AFT cuando
existen datos faltantes. Los hallazgos más importantes pueden resumirse en dos:
1. En los estudios de simulación realizados el método de imputación que ofrece mejores resultados
es el norm.predict.
2. De la aplicación a datos reales se puede derivar que la selección de las variables predictoras en la
supervivencia de los pacientes cambia sensiblemente, ası́ como los coeficientes y errores estándar
estimados en las mismas.
Entre los métodos de análisis en supervivencia, los más frecuentemente utilizados son el modelo de
riesgos proporcionales de Cox y el modelo AFT. Cada uno de ellos ofrece ventajas y desventajas desde
el punto de vista comparativo. Ası́, el modelo de Cox tiene la ventaja de que no necesitamos especificar
una distribución de supervivencia, mientras que el modelo AFT no necesita asumir proporcionalidad
en los riesgos y modela directamente el efecto de las variables explicativas en la supervivencia.
En este trabajo hemos desarrollado la imputación de datos faltantes en modelos AFT dadas las
escasas referencias en la literatura en relación con la imputación de datos faltantes en modelos AFT.
En el estudio de simulación, de entre los distintos escenarios que hemos considerado (porcentajes
de censura, covarianzas, métodos de imputación), obtuvimos distintos errores dependiendo del método
de imputación utilizado. Los errores siempre aumentan cuanto más grande sea la censura, pero cuanto
mayor sea la correlación entre las dos primeras variables en algunos métodos obtenemos errores más
altos mientras que en otros disminuyen. Con los resultados obtenidos llegamos a la conclusión de que
el mejor método de imputación para esos datos simulados era el norm.predict.
De los resultados obtenidos en el estudio de aplicación a datos reales, destacar las diferencias
obtenidas en relación con los diferentes métodos de imputación que se utilizan. De entre los métodos
de imputación aplicados, se puede extraer, siguiendo el criterio AIC, que los mejores resultados se
obtienen utilizando pmm para variables continuas y logreg para las binarias. Si aplicamos el modelo
AFT a los datos disponibles obtenemos que los factores de riesgo son: TIF, NPTt, TH, carc y meld.
Si lo aplicamos a los casos completos serı́an: sexo, TH y carc. Y si lo aplicamos a los datos imputados
obtenemos que los factores de riesgo más importantes son: TH, sexo, NPTt, edad, carc, actrm y
tempo. Todas las variables predictoras obtenidas por los diferentes métodos son bien conocidas por
ser factores o marcadores de riesgo de supervivencia en pacientes sometidos a trasplante hepático.
49
50
CAPÍTULO 6. CONCLUSIONES
La necesidad de mayor cantidad de transfusión de hematı́es, de nutrición parenteral y de tratamiento con insulina y el meld son marcadores que nos indican que estos individuos se encuentran en
peores condiciones en su estadı́o de la enfermedad. La presencia de un hepatocarcinoma supone un
bien conocido factor riesgo de mayor mortalidad, y resulta evidente que conforme al paso del tiempo,
las técnicas quirúrgicas, y especialmente los tratamientos que se administran para evitar el rechazo
del hı́gado trasplantado, han mejorado de forma notable la supervivencia de estos pacientes.
Bibliografı́a
[1] Baraldi A.N., Enders C.K., 2010, An introduction to modern missing data analyses, Journal
of School Psychology 48, 5–37.
[2] Gelman A., Hill J., 2006, Data Analysis Using Regression and Multilevel/Hierarchical Models.
Analytical Methods for Social Research, Cambridge.
[3] Donders A.R., van der Heijdenc G.J., Stijnend D., Moons K.G., 2006, Review: A gentle
introduction to imputation of missing values, Journal of Clinical Epidemiology 59, 1087-1091.
[4] Graham J.W., 2012, Missing Data: Analysis and Design. Springer, New York.
[5] Enders C.K., 2010, Applied Missing Data Analysis. Guilford Press, New York.
[6] White I. R., Royston P., Wood A.M., 2011, Multiple imputation using chained equations:
Issues and guidance for practice, Statistics in Medicine 30, 377–399.
[7] Cheng X., Cook D., Hofmann H., 2014, A GUI for Missing Data Exploration. http://cran.rproject.org/web/packages/MissingDataGUI/index.html [Última consulta: 25/06/2014]
[8] Honaker J., King G., Blackwell M., 2013, Amelia II: A Program for Missing Data.
http://gking.harvard.edu/amelia [Última consulta: 25/06/2014]
[9] Templ M., Alfons A., Kowarik A., Prantner B., 2013, Visualization and Imputation of
Missing Values. https://github.com/alexkowa/VIM [Última consulta: 25/06/2014]
[10] van Buuren S., Groothuis-Oudshoorn K., Robitzsch A., Vink G., Doove L., Jolani
S., 2014, Multivariate Imputation by Chained Equations. http://www.multiple-imputation.com
[Última consulta: 25/06/2014]
[11] van Buuren S., 2012, Flexible Imputation of Missing Data. Chapman & Hall/CRC, New York.
[12] van Buuren S., Groothuis-Oudshoorn K., 2011, mice: Multivariate Imputation by Chained
Equations in R, Journal of Statistical Software 45.
[13] Rebasa P., 2005, Conceptos básicos del análisis de supervivencia, 78, 222-230.
[14] Borges R., 2004, Análisis de supervivencia básico utilizando el lenguaje R.
[15] Stevenson M., 2009, An Introduction to Survival Analysis.
[16] Allison P.D., 1995, Survival Analysis Using the SAS System: A Practical Guide, SAS Institute.
[17] Lee E.T., Wenyu Wang J., 2003, Statistical Methods for Survival Data Analysis. WileyInterscience, New Jersey.
51
52
BIBLIOGRAFÍA
[18] Orbe J., Ferreira E., Núñez-Antón V., 2002, Comparing proportional hazards and accelerated failure time models for survival analysis, Statistics in Medicine 21, 3493-3510.
[19] Marshall A., Altman D., Holder R., 2010, Comparison of imputation methods for handling
missing covariate data when fitting a Cox proportional hazards model: a resampling study, BMC
Medical Research Methodology 10.
[20] Chiou S. H., 2013, Statistical Methods and Computing for Semiparametric Accelerated Failure
Time Model with Induced Smoothing, Doctoral Dissertations.
[21] Zhang N., Little R.J., 2011, Subsample ignorable likelihood for accelerated failure time models
with missing predictors, 95.
[22] Nan B., Kalbfleisch J.D., Yu M., 2009, Asymptotic theory for the semiparametric accelerated
failure time model with missing data, The Annals of Statistics 37, 2351-2376.
[23] Consentino F., Claeskens G., 2010, Order Selection Tests with Multiply-Imputed Data. Belgium.
Apéndice A
Abreviaturas
imc: Índice de masa corporal
dm: diabetes mellitus
meld: Model for End-stage Liver Disease
oh: abuso de alcohol
vhc: virus de la hepatitis C
tempo: año del trasplante
carc: carcinoma
TIF: tiempo de isquemia frı́a
TH: trasfusión de hematı́es
TP: trasfusión de plaquetas
TVP: trombosis portal
NPTt: nutrición parenteral
glu0: glucosa basal pretrasplante
cr0: creatinina basal pretrasplante
actrm: insulina media administrada en los 7 dı́as posttrasplante
exitus: muerte
timee: tiempo de supervivencia desde el trasplante
INR: International Normalized Ratio
53
Descargar