3. Inferencia no paramétrica

Anuncio
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
3. Inferencia no paramétrica
3.1 Estimadores puntuales y por intervalo de la funciones de supervivencia
y de riesgo acumulado para datos con censura a la derecha
Ø Algunas representaciones gráficas de datos en estadística son: tablas de
frecuencias, histogramas, funciones de distribución empíricas, etc. En
análisis de supervivencia estas representaciones tabulares y gráficas
tienen que ser modificadas debido a la presencia de observaciones
censuradas.
Ø En ausencia de observaciones censuradas, un estimador no paramétrico
de la función de supervivencia, basado en una muestra observada t1,…,tn,
es la función de supervivencia empírica definida como
Ŝ(t ) = P̂( T > t ) =
# ti > t
n
Esta es una función escalonada con decrementos 1/n si todas las
observaciones son distintas y con decrementos d/n si hay d tiempos de
fallo iguales a t.
Ø TABLA DE VIDA.
o Suponga que el eje del tiempo es divido en k+1 intervalos I j = (aj−1 ,a j ] ,
j=1,…,k+1, donde 0 = a0 < a1 < L < ak < ak +1 = ∞ , con ak el límite superior
de las observaciones. Para cada elemento de una muestra aleatoria de
53
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
tamaño n, suponga que uno observa un tiempo de fallo T o un valor
censurado por la derecha C.
o Definimos las siguientes cantidades:
nj = número de individuos en riesgo (vivos o no censurados) al tiempo aj−1.
dj = número de fallas en el intervalo I j.
cj = número de individuos que se censuran en el intervalo I j.
El número de individuos sin falla al inicio de I j es nj, por lo tanto n1 = n, y
n j = n j−1 − d j−1 − c j−1 , j = 2, …, k+1
o Suponga que la función de supervivencia para los tiempos de falla es
S(t ) = P(T > t ) y notemos que
(
S(aj ) = P(T > a j ) = P(T > a0 )P(T > a1 T > a0 )LP T > a j T > a j−1
)
Definimos las siguientes cantidades:
S j = S(a j )
(
)
p j = P T > a j T > a j−1 =
(
Sj
S j−1
) PP(T(T>∈aI ) ) = S S − S
j
q j = 1 − p j = P T ≤ a j T > a j−1 =
j− 1
j−1
j
j−1
para j=1,…,k+1, con S 0=1, Sk+1=0, qk+1=1. Por lo tanto
S j = p1p2 Lp j
o El objetivo de la tabla de vida es estimar S j a través del a estimación de pj.
El razonamiento es el siguiente:
54
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
• Si en I j no hay observaciones censuradas, entonces
q̂ j =
dj
nj
• Si en Ij sí hay observaciones censuradas, podemos suponer que las
censuras se distribuyen uniformes en el intervalo I j y por lo tanto, los
individuos censurados estuvieron expuestos la mitad del intervalo, por
lo tanto
dj
nj − c j 2
q̂ j =
• Finalmente podemos estimar p̂ j = 1 − q̂ j y Ŝ j = p̂1p̂2 Lp̂ j , i.e,
j

di 

Ŝ j = ∏  1 −
n
−
c
2
i=1 
i
i

o La tabla de vida es una tabulación que proporciona estimadores de la
función de supervivencia. Otros resúmenes que se presentan en una tabla
de vida son: nj, dj, cj, q̂j y Ŝ j .
o Estos estimadores están sujetos a variación muestral. Bajo ciertos
supuestos, es posible obtener estimadores de sus varianzas:
V̂ar(q̂j ) = q̂jp̂ j (n j − c j 2)
Usando en hecho de que los q̂j son asintóticamente no correlacionados,
un estimador de la varianza de Ŝ j es
55
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
( )
j
q̂i
.
p̂
(
n
−
c
2
)
i=1 i i
i
V̂ar Ŝ j = Ŝ 2j ∑
La distribución asintótica de Ŝ j es
(
( ))
Ŝ j ∼ N S j , V̂ar Ŝ j
Con esta distribución asintótica es posible obtener intervalos de confianza
para S j y hacer pruebas de hipótesis.
Ø EJEMPLO: A continuación se presenta la tabla de vida de unos datos de
supervivencia de 374 pacientes que recibieron una operación como
tratamiento de una enfermedad maligna.
Ø Observaciones: La tabla de vida es un estimador útil de la función de
supervivencia, sin embargo presenta algunos problemas.
o No es claro el número de intervalos a elegir. Lawless (1982) sugiere de
8 a 10 intervalos.
56
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
o No es claro como escoger las divisiones aj. Lawless (1982) sugiere
tomar intervalos del mismo tamaño, tomando en cuenta que ak
corresponde con el tiempo máximo observado.
o Distintas elecciones de las aj, tanto en valor como en número, da lugar
a estimadores diferentes de la función de supervivencia.
Ø ESTIMADOR PRODUCTO LÍMITE (KAPLAN MEIER).
o El estimador producto límite fue propuesto por Kaplan & Meier (1958)
como el estimador máximo verosímil de la función de supervivencia S(t).
o Para exponer las ideas consideremos un escenario discreto. Sean
(T1 ,K , Tn ) una muestra aleatoria de una población discreta con soporte
en {u1 ,u2 ,K}. Recordemos que
f (u j ) = hj ∏ (1 − hk )
y
{k < j}
S(t ) =
∏ (1 − hk )
{k : uk ≤t}
Son las funciones de densidad y de supervivencia, respectivamente en
función de los riesgos hk.
o Si consideramos a las tasas de riesgo hk como parámetros desconocidos
del modelo, podemos usar técnicas de estimación máximo verosímil para
estimar hk.
o La muestra observada se puede representar como (t i , δ i ) , i=1,…,n,
entonces la función de verosimilitud es de la forma
57
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
n
L = ∏ f (t i )δi S(t i )1−δi
i=1
n
= ∏ {h(uk )S(uk−1 )(I t i = uk )}δi {S(uk )I(k = max(j) : u j ≤ t i )}1−δi
i= 1
la cual se puede re-escribir en términos de las hk’s como
L = ∏ hkdk (1 − hk )nk −dk ,
k
donde
dk = ∑i=1 I(t i = uk , δ i = 1) es el número de tiempos de fallo iguales a uk.
n
nk = ∑i=1I(t i ≥ uk ) es el número de individuos en riesgo. Incluye a todos
n
los tiempos de fallo, o de censura, mayores o iguales a uk.
o Una vez definida la función de verosimilitud procedemos a maximizarla en
función de hk. Obtenemos primero la log-verosimilitud
log L = ∑ dk log(hk ) + (nk − dk )log (1 − hk ) .
k
Luego derivamos con respecto a hk e igualamos a cero,
d
d n −d
log L = k − k k = 0 .
dhk
hk 1 − hk
Al despejar obtenemos que el EMV de hk es
ĥk =
dk
nk
y se puede demostrar que ĥk es un estimador insesgado de hk.
o Finalmente, usando el principio de invarianza de los EMV’s, el EMV de S(t)
es
58
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
Ŝ(t ) =
 dk
 1 −
{k : uk ≤t} nk
∏



o El estimador producto límite es válido también en el caso continuo. Es
decir, el estimador de la función de supervivencia continua S(t) es discreto
con puntos de salto t1,t2,…,tk, los tiempos de fallo observados de manera
exacta, con k≤n. En este caso
Ŝ(t ) =
 dj 
∏  1 − n 
{j : t j ≤t}
j 
donde
d j = ∑i=1 I(t i = t j , δi = 1 ) es el número de tiempos de fallo iguales a tj.
n
n j = ∑i=1 I(t i ≥ t j ) es el número de individuos en riesgo al tiempo tj. Incluye
n
a todos los tiempos de fallo, o de censura, mayores o iguales a tj.
o Nótese que a diferencia de la función de supervivencia empírica, en donde
el denominador es siempre constante (igual
a n), en el estimador
producto límite el denominador va cambiando reconociendo a los
individuos que están en riesgo en cada tiempo.
Ø VARIANZA DEL ESTIMADOR PRODUCTO LÍMITE
o Para poder hacer inferencia más allá de estimación puntual, es necesario
tener una idea de la varianza de los estimadores.
59
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
o Primero notemos que
(
( )
ĥk 1 − ĥk
nj
V̂ar ĥk =
)
Como
(
Ŝ(t ) = ∏ 1 − ĥk
)
Tomando logaritmo de ambos lados,
(
log Ŝ(t ) = ∑log 1 − ĥk
)
Tomando varianza de ambos lados y suponiendo independencia
(asintótica) entre ĥk y ĥ j
(
( (
)
Var log Ŝ(t ) = ∑ Var log 1 − ĥk
))
(
)
Para aproximar la varianza desarrollemos log 1 − ĥk en series de Taylor
( )
alrededor de E ĥk = hk ,
(
)
log 1 − ĥk = log(1 − hk ) −
( )
ĥk − hk
+ O n−1
1 − hk
Despejando y elevando al cuadrado tenemos
{log (1 − ĥ )− log(1 − h )} ≈ (ĥ(
2
k
k
)
2
− hk
1 − hk )2
k
Tomando esperanza de ambos lados nos queda que
{ (
)}
Var log 1 − ĥk ≈
( )
Var ĥk
(1 − hk )2
Por lo tanto, un estimador de la varianza de log Ŝ(t ) es
(
)
Var log Ŝ( t ) = ∑
( )
1
Var ĥk
(1 − hk )2
60
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
Pero no queremos la varianza del logaritmo de S(t), sino varianza de S(t).
Expandiendo nuevamente en series de Taylor log Ŝ(t ) alrededor de su
media log S(t ) tenemos
log Ŝ(t ) = log S(t ) +
Ŝ(t ) − S(t )
+ O n −1
S(t )
( )
Entonces despejando, elevando al cuadrado y calculando esperanza,
{
}
Var log Ŝ(t ) ≈
{ }
Var Ŝ(t )
S2 (t )
Por lo tanto
{ }
{
}
Var Ŝ( t ) ≈ S2 (t )Var log Ŝ(t )
Finalmente,
{ }
( )
Var ĥk
2
k:tk ≤ t (1 − hk )
Var Ŝ( t ) ≈ S2 (t ) ∑
( )
( )
o Al sustituir Ŝ(t ) por S(t) y V̂ar ĥk por Var ĥk tenemos el estimador de la
varianza de S(t), comúnmente llamado estimador de Greenwood
{ }
Var Ŝ(t ) ≈ Ŝ2 (t ) ∑
j:t j ≤ tn j
dj
(n j − d j )
o Finalmente, el error estándar del estimador producto límite es
{ }
Var Ŝ(t ) .
Ø INTERVALOS DE CONFIANZA PARA S(t)
61
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
o El estimador puntual de S(t) junto con su error estándar pueden ser
usados para obtener intervalos de confianza para la función de
supervivencia S(t0) en un punto del tiempo particular t0.
o Se puede demostrar que asintóticamente (i.e, cuando n→∞) Ŝ(t ) tiene
una distribución normal. Es decir,
(
( ))
Ŝ(t ) ∼ N S( t ), V̂ar Ŝ(t )
o Usando este resultado asintótico, un intervalo de confianza para S(t0) al
(1−α)100% de confianza es
Ŝ(t 0 ) ± Z α /2 Ŝ(t 0 )σ s (t 0 ) ,
donde σ 2s (t 0 ) =
dj
∑ n (n
j:t j ≤ t j
j
− dj )
o Al intervalo de confianza anterior se le conoce como intervalo lineal. Ese
intervalo tiene a desventaja de que no hay garantía que los límites de
confianza (superior e inferior) tomen valores dentro del (0,1).
o Intervalos de confianza alternativos se basan en transformar primero a
Ŝ(t 0 ) en una escala real, construir el IC en la escala transformada y luego
re-transformar. Por ejemplo, Borgan & Liestol (1990) propusieron
(Ŝ(t
0
)1 W , Ŝ(t 0 )W )
 Z α 2σ s ( t 0 )
con W = exp
.
 log Ŝ(t 0 ) 
62
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
Ø A continuación se presenta un ejemplo de cómo se construye el estimador
producto límite.
o Ver ejemplos de estimadores producto límite en R usando la librería
“survival”:
• Surv: crea un objeto de supervivencia a partir de dos variables, tiempos
de fallo o censura t e indicador de censura δ.
63
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
• survfit: calcula el estimador Kaplan-Meier
• print, summary & plot: comandos adicionales para presentación de
resultados.
Ø ESTIMADORES DE LA FUNCIÓN DE RIESGO ACUMULADO.
o Existen dos estimadores de la función de riesgo acumulado. Estos
corresponden a las dos definiciones de la función de riesgo acumulado en
el caso discreto.
o La primera estimación se basa en la relación H(t ) = − log S(t ) . Usando el
estimador producto límite para S(t), el estimador resultante para H(t) es
Ĥ1 (t ) = − log Ŝ(t ) .
o La segunda estimación se basa en la relación H(t ) =
∑h j
como en el caso
j:u j ≤ t
discreto. Nelson (1972) y posteriormente Aalen (1978) propusieron el
siguiente estimador llamado estimador Nelson-Aalen
Ĥ2 ( t ) =
d
∑ nj
j:t j ≤ t j
con t1,t2,…,tk, los tiempos de fallo observados, k≤n.
o De manera análoga, el estimador Nelson-Aalen puede ser usado como
estimador de la función de supervivencia mediante la transformación
Ŝ2 ( t) = exp{− Ĥ2 (t )}.
64
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
o En la siguiente gráfica se muestra una comparación de los dos
estimadores de H(t).
o Un estimador de la varianza de Ĥ2 ( t) es
V̂ar{Ĥ2 ( t )} =
d
∑ n2j
j: tj ≤ t j
65
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
o Nuevamente es posible obtener intervalos de confianza para H(t) al usar
la normalidad asintótica del estimador Ĥ2 ( t) y la expresión de la varianza
anterior.
Ø A continuación presentamos gráficas de estimadores producto límite y de
estimadores Nelson-Aalen.
66
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
3.2 Estimación puntual de la media y la mediana del tiempo de
supervivencia
Ø Como vimos anteriormente, algunos parámetros poblacionales de interés
en datos de tiempos de falla, son función de la función de supervivencia.
Por ejemplo la media, la mediana y en general cualquier cuantil o
percentil.
67
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
Ø ESTIMACIÓN
DE LA MEDIA.
El tiempo medio a la ocurrencia del evento de
∞
interés se puede obtener como µ = ∫ S(t )dt . Por lo que si se reemplaza
0
S(t) por su correspondiente estimador producto límite se obtiene
∞
µˆ = ∫ Ŝ(t )dt
0
Ø El estimador anterior sólo es apropiado cuando la observación más
grande de un conjunto de datos es un tiempo de falla y no una
observación censurada, porque en otro caso el estimador producto límite
no está definido más allá de la observación más grande.
Ø Una solución al problema es “corregir” el estimador producto límite al
convertir la observación más grande en una observación exacta. Sin
embargo esta solución sesgaría la estimación de la media.
Ø Otra solución es estimar la media restringida al intervalo [0,τ], donde τ es
un valor pre-especificado que determina el tiempo más grande a la que
una persona puede sobrevivir. En este caso
τ
µˆ τ = ∫ Ŝ(t )dt
0
Ø La varianza de este estimador es
k
V̂ar(µˆ τ ) = ∑
i=1
{∫ Ŝ(t)dt} n (nd− d )
τ
ti
2
i
i
i
i
68
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
Ø Un intervalo de confianza al (1−α)100% para µ τ está dado por
µˆ τ ± Z α 2 V̂ar(µˆ τ )
Ø Nota: La mayoría de los paquetes computacionales obtienen un estimador
puntual de la media. En todo caso es importante verificar si la última
observación es exacta o censurada. Si es censurada tenemos que revisar
el rango en donde la media es obtenida.
Ø ESTIMACIÓN
DE CUANTILES.
Recordemos que el cuantil de orden p, tp , es el
mínimo valor de t tal que S(t ) ≤ 1 − p . Usando el estimador producto
límite, definimos un estimador t̂ p como
{
}
t̂ p = inf t : Ŝ(t ) ≤ 1 − p
Ø Encontrar la varianza de t̂ p es bastante complicado porque requiere de la
estimación de la densidad de T en t̂ p . Es posible obtener un intervalo de
confianza para tp usando el intervalo de confianza para S(t). Un intervalo
al (1−α)100% para tp es
 Ŝ(t ) − (1 − p )

t
:
≤
Z

α2
V̂ar Ŝ(t )


{ }
Ø Usando la misma idea del intervalo, un estimador puntual alternativo
sería el punto medio del intervalo de confianza anterior.
69
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
Ø Ejemplo: Estimación puntual y por intervalo para el tiempo mediano para
un estudio de pacientes con cáncer.
3.3 Gráficas de diagnóstico
Ø Una forma rápida de darnos una idea del comportamiento de un conjunto
de datos de tiempo de falla es mediante las gráficas del estimador
producto límite y del estimador Nelson-Aalen.
70
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
Ø Estas gráficas también pueden ser usadas para verificar el uso apropiado
de ciertos modelos paramétricos.
Ø GRÁFICAS
DE LA FUNCIÓN DE SUPERVIVENCIA.
Suponga que un modelo
paramétrico tiene función de supervivencia S(t θ ) y sea θ̂ un estimador
del parámetro. Si el modelo paramétrico es adecuado para el conjunto de
( )
datos particular, entonces S t θ̂ y Ŝ(t ) (el estimador KM) deben de ser
muy parecidos. La forma más simple de verificar el ajuste del modelo
( )
paramétrico es graficar S t θ̂ y Ŝ(t ) en la misma gráfica. Graficar los
intervalos de confianza para S(t) ayuda a interpretar la gráfica.
Ø GRÁFICA P-P (PROBABILIDAD-PROBABILIDAD). Esta gráfica compara las funciones
de supervivencia estimadas por un modelo paramétrico y es estimador
(( )
)
empírico KM. Consiste esencialmente en graficar los puntos S t j θˆ , Ŝ(t j ) ,
donde t1,t2,…,tk son los distintos tiempos de fallo exactos observados. Si el
71
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
modelo paramétrico es adecuado, los puntos deben de caer cerca de una
( )
línea recta con pendiente uno. Alternativamente, si S t θ̂ es continua en t,
se puede reemplazar Ŝ(t j ) por
S*j = 0.5Ŝ(t j ) + 0.5Ŝ(t j − ).
Esto se puede interpretar como una corrección por continuidad.
Ø GRÁFICA Q-Q (CUANTIL-CUANTIL). Esta gráfica consiste en graficar los cuantiles
del modelo paramétrico ajustado versus los cuantiles empíricos obtenidos
con el estimador KM. Por ejemplo, para el caso Weibull los cuantiles son
1α
 1

t p = − log (1 − p )
 λ

Una gráfica de los puntos
(t
p j , t( j)
),
j=1,…,k, donde p j = S*j y
t (1) < t (2) < L < t (k) son los valores ordenados de los tiempos de fallo
exactos observados, debe de ser aproximadamente lineal para verificar el
supuesto Weibull en los datos.
Ø LINEARIZACIÓN DE LA FUNCIÓN DE SUPERVIVEN CIA. Si S(t θ ) puede ser linearizada
mediante alguna transformación, es decir, si existen funciones g1 y g2 tales
que g 1 {S(t θ)} sea una función lineal de g 2 (t ) . La idea es entonces graficar
g 1 {S(t θ)} vs. g 2 (t ) , si la familia paramétrica es adecuada entonces la
gráfica debe de ser aproximadamente una línea recta. Este procedimiento
tiene la ventaja de que no requiere la estimación de los parámetros θ del
modelo.
72
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
o Caso Exponencial: Supongamos que se está considerando la opción de
que un modelo exponencial puede ser adecuado para un conjunto de
datos. La función de supervivencia exponencial satisface
log S(t ) = − λt
Entonces una gráfica de log Ŝ(t ) vs. t debe de ser cercana a una línea
recta con pendiente negativa que pasa por el origen. Nótese que no es
necesario un estimador de λ.
o Caso Weibull: La función de supervivencia Weibull satisface
log{− log S(t )} = log λ + α log t .
Entonces, una gráfica de log{− log Ŝ(t )} vs. logt debe de ser
aproximadamente lineal si el modelo Weibull es adecuado para los
datos. La pendiente puede ser positiva o negativa dependiendo del
valor de α. La ordenada al origen siempre debe de ser positiva.
o Caso Log-normal: Aunque la función de supervivencia log-normal no es
precisamente linealizable, es posible verificar el ajuste de esta
distribución considerando que si T∼Log-normal entonces logT∼Normal.
Por lo tanto una gráfica de cuantil-cuantil normal para logt que
presente un comportamiento aproximadamente lineal apoya el
supuesto log-normal de los datos.
73
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
Ø Las gráficas de diagnóstico que acabamos de describir son en términos de
la función de supervicencia y por lo tanto en los saltos del estimador KM.
Alternativamente, es posible obtener gráficas de diagnóstico a partir de la
función de riesgo acumulado y usar los satos del estimador Nelson-Aalen.
3.4 Métodos Bayesianos no paramétricos
Ø Una forma alternativa a la estimación no paramétrica frecuentista es usar
los métodos de estimación Bayesianos no paramétricos.
Ø La idea general de los métodos de estimación Bayesianos es incorporara al
proceso de inferencia cualquier tipo de información adicional que junto
con la información muestral producen una estimación que combina
ambas fuentes de información. La combinación de información (o proceso
74
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
de aprendizaje) se hace a través del Teorema de Bayes y las inferencias se
hacen dentro de un contexto de toma de decisión.
Ø El conocimiento inicial del tomador de decisiones debe de representarse a
través de una distribución de probabilidades que refleje la incertidumbre
en sus creencias. Este conocimiento inicial se debe de proporcionar para
todas las cantidades desconocidas del modelo y puede estar basado en la
experiencia previa o en opinión de expertos.
Ø En el problema de inferencia Bayesiano no paramétrico, las cantidades
desconocidas son funciones, las cuales se pueden ver como un conjunto
muy grande, incluso infinito, de parámetros. En este caso, la
representación del conocimiento inicial incierto se hace a través de
procesos estocásticos.
Ø INICIAL PROCESO DE DIRICHLET. Hay varias definiciones y caracterizaciones de
un proceso de Dirichlet. En particular, para una variable aleatoria no
negativa T, sea A1, A2,…,Ak una partición de los reales positivos. La
distribución conjunta de (W1 ,K Wk ) , con Wj = P(T ∈ A j ) , j=1,…,k, es una
distribución Dirichlet con parámetros (cP0 (A1 ),K , cP0 (A k )) , donde c es el
parámetro de precisión del proceso y P0 es una medida de probabilidad y
se le conoce como medida de centralidad. Esta propiedad se debe de
satisfacer para cualquier partición de los reales positivos y para cualquier
valor de k.
75
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
Ø Propiedades: Sea P la medida de probabilidad para la v.a. T con función de
supervivencia S(t). Sea P0 una medida de probabilidad con función de
supervivencia S 0(t).
o Si P∼DP(c,P0) o equivalentemente S∼DP(c,S 0), entonces
E{S(t )} = S0 (t )
Var{S(t )} =
S 0 (t ){1 − S0 ( t )}
c+1
o El procesode Dirichlet es casi seguramente discreto, es decir, asigna
probabilidad uno al espacio de medidas de probabilidad (funciones de
supervivencia) discretas.
76
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
Ø Distribución final. Dada una muestra T1,…,Tn de observaciones exactas tal
que Ti |S∼S, i=1,…,n y S∼DP(c,S0) entonces la distribución final de S, dados
los datos t = (t1 ,K tn ) , es otro proceso de Dirichlet con parámetro de
precisión c1=c+n y medida de centralidad S 1(t) igual a
S1 (t ) =
c
n
S 0 (t ) +
Ŝ(t )
c+n
c +n
con Ŝ(t ) = (# ti > t ) n . En notación, S t ∼ DP(c 1 , S1 ) .
o El estimador Bayesiano, suponiendo una función de pérdida cuadrática
es la media del proceso final, es este caso, S 1(t).
o Si la muestra observada contiene observaciones censuradas por la
derecha, la distribución final de S es un proceso llamado Beta-Stacy,
cuyo valor esperado final es:
 − cdS0 (s ) + dN(s ) 
E{S( t ) t} = ∏ 1 −

cS0 (s − ) + M(s ) 
[ 0 ,t ] 
con N( t ) = ∑i=1 I(t i ≤ t , δ i = 1 ) el proceso de conteo para observaciones
n
exactas y M(t ) = ∑i=1 I(t i ≥ t ) el proceso para los individuos en riesgo.
n
Ø Ejemplo: Datos KM: 0.8, 1.0+, 2.7+, 3.1, 5.4, 7.0+, 9.2, 12.1+. Estimación
de P{T ∈ (0,1)} = S(0 ) − S(1) usando una inicial proceso de Dirichlet vs.
Modelo paramétrico exponencial con inicial gamma para la tasa
constante.
77
Curso: Análisis de Supervivencia
I NSTRUCTOR: LUIS E. NIETO B ARAJAS
78
Curso: Análisis de Supervivencia
Descargar