I NSTRUCTOR: LUIS E. NIETO B ARAJAS 3. Inferencia no paramétrica 3.1 Estimadores puntuales y por intervalo de la funciones de supervivencia y de riesgo acumulado para datos con censura a la derecha Ø Algunas representaciones gráficas de datos en estadística son: tablas de frecuencias, histogramas, funciones de distribución empíricas, etc. En análisis de supervivencia estas representaciones tabulares y gráficas tienen que ser modificadas debido a la presencia de observaciones censuradas. Ø En ausencia de observaciones censuradas, un estimador no paramétrico de la función de supervivencia, basado en una muestra observada t1,…,tn, es la función de supervivencia empírica definida como Ŝ(t ) = P̂( T > t ) = # ti > t n Esta es una función escalonada con decrementos 1/n si todas las observaciones son distintas y con decrementos d/n si hay d tiempos de fallo iguales a t. Ø TABLA DE VIDA. o Suponga que el eje del tiempo es divido en k+1 intervalos I j = (aj−1 ,a j ] , j=1,…,k+1, donde 0 = a0 < a1 < L < ak < ak +1 = ∞ , con ak el límite superior de las observaciones. Para cada elemento de una muestra aleatoria de 53 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS tamaño n, suponga que uno observa un tiempo de fallo T o un valor censurado por la derecha C. o Definimos las siguientes cantidades: nj = número de individuos en riesgo (vivos o no censurados) al tiempo aj−1. dj = número de fallas en el intervalo I j. cj = número de individuos que se censuran en el intervalo I j. El número de individuos sin falla al inicio de I j es nj, por lo tanto n1 = n, y n j = n j−1 − d j−1 − c j−1 , j = 2, …, k+1 o Suponga que la función de supervivencia para los tiempos de falla es S(t ) = P(T > t ) y notemos que ( S(aj ) = P(T > a j ) = P(T > a0 )P(T > a1 T > a0 )LP T > a j T > a j−1 ) Definimos las siguientes cantidades: S j = S(a j ) ( ) p j = P T > a j T > a j−1 = ( Sj S j−1 ) PP(T(T>∈aI ) ) = S S − S j q j = 1 − p j = P T ≤ a j T > a j−1 = j− 1 j−1 j j−1 para j=1,…,k+1, con S 0=1, Sk+1=0, qk+1=1. Por lo tanto S j = p1p2 Lp j o El objetivo de la tabla de vida es estimar S j a través del a estimación de pj. El razonamiento es el siguiente: 54 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS • Si en I j no hay observaciones censuradas, entonces q̂ j = dj nj • Si en Ij sí hay observaciones censuradas, podemos suponer que las censuras se distribuyen uniformes en el intervalo I j y por lo tanto, los individuos censurados estuvieron expuestos la mitad del intervalo, por lo tanto dj nj − c j 2 q̂ j = • Finalmente podemos estimar p̂ j = 1 − q̂ j y Ŝ j = p̂1p̂2 Lp̂ j , i.e, j di Ŝ j = ∏ 1 − n − c 2 i=1 i i o La tabla de vida es una tabulación que proporciona estimadores de la función de supervivencia. Otros resúmenes que se presentan en una tabla de vida son: nj, dj, cj, q̂j y Ŝ j . o Estos estimadores están sujetos a variación muestral. Bajo ciertos supuestos, es posible obtener estimadores de sus varianzas: V̂ar(q̂j ) = q̂jp̂ j (n j − c j 2) Usando en hecho de que los q̂j son asintóticamente no correlacionados, un estimador de la varianza de Ŝ j es 55 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS ( ) j q̂i . p̂ ( n − c 2 ) i=1 i i i V̂ar Ŝ j = Ŝ 2j ∑ La distribución asintótica de Ŝ j es ( ( )) Ŝ j ∼ N S j , V̂ar Ŝ j Con esta distribución asintótica es posible obtener intervalos de confianza para S j y hacer pruebas de hipótesis. Ø EJEMPLO: A continuación se presenta la tabla de vida de unos datos de supervivencia de 374 pacientes que recibieron una operación como tratamiento de una enfermedad maligna. Ø Observaciones: La tabla de vida es un estimador útil de la función de supervivencia, sin embargo presenta algunos problemas. o No es claro el número de intervalos a elegir. Lawless (1982) sugiere de 8 a 10 intervalos. 56 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS o No es claro como escoger las divisiones aj. Lawless (1982) sugiere tomar intervalos del mismo tamaño, tomando en cuenta que ak corresponde con el tiempo máximo observado. o Distintas elecciones de las aj, tanto en valor como en número, da lugar a estimadores diferentes de la función de supervivencia. Ø ESTIMADOR PRODUCTO LÍMITE (KAPLAN MEIER). o El estimador producto límite fue propuesto por Kaplan & Meier (1958) como el estimador máximo verosímil de la función de supervivencia S(t). o Para exponer las ideas consideremos un escenario discreto. Sean (T1 ,K , Tn ) una muestra aleatoria de una población discreta con soporte en {u1 ,u2 ,K}. Recordemos que f (u j ) = hj ∏ (1 − hk ) y {k < j} S(t ) = ∏ (1 − hk ) {k : uk ≤t} Son las funciones de densidad y de supervivencia, respectivamente en función de los riesgos hk. o Si consideramos a las tasas de riesgo hk como parámetros desconocidos del modelo, podemos usar técnicas de estimación máximo verosímil para estimar hk. o La muestra observada se puede representar como (t i , δ i ) , i=1,…,n, entonces la función de verosimilitud es de la forma 57 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS n L = ∏ f (t i )δi S(t i )1−δi i=1 n = ∏ {h(uk )S(uk−1 )(I t i = uk )}δi {S(uk )I(k = max(j) : u j ≤ t i )}1−δi i= 1 la cual se puede re-escribir en términos de las hk’s como L = ∏ hkdk (1 − hk )nk −dk , k donde dk = ∑i=1 I(t i = uk , δ i = 1) es el número de tiempos de fallo iguales a uk. n nk = ∑i=1I(t i ≥ uk ) es el número de individuos en riesgo. Incluye a todos n los tiempos de fallo, o de censura, mayores o iguales a uk. o Una vez definida la función de verosimilitud procedemos a maximizarla en función de hk. Obtenemos primero la log-verosimilitud log L = ∑ dk log(hk ) + (nk − dk )log (1 − hk ) . k Luego derivamos con respecto a hk e igualamos a cero, d d n −d log L = k − k k = 0 . dhk hk 1 − hk Al despejar obtenemos que el EMV de hk es ĥk = dk nk y se puede demostrar que ĥk es un estimador insesgado de hk. o Finalmente, usando el principio de invarianza de los EMV’s, el EMV de S(t) es 58 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS Ŝ(t ) = dk 1 − {k : uk ≤t} nk ∏ o El estimador producto límite es válido también en el caso continuo. Es decir, el estimador de la función de supervivencia continua S(t) es discreto con puntos de salto t1,t2,…,tk, los tiempos de fallo observados de manera exacta, con k≤n. En este caso Ŝ(t ) = dj ∏ 1 − n {j : t j ≤t} j donde d j = ∑i=1 I(t i = t j , δi = 1 ) es el número de tiempos de fallo iguales a tj. n n j = ∑i=1 I(t i ≥ t j ) es el número de individuos en riesgo al tiempo tj. Incluye n a todos los tiempos de fallo, o de censura, mayores o iguales a tj. o Nótese que a diferencia de la función de supervivencia empírica, en donde el denominador es siempre constante (igual a n), en el estimador producto límite el denominador va cambiando reconociendo a los individuos que están en riesgo en cada tiempo. Ø VARIANZA DEL ESTIMADOR PRODUCTO LÍMITE o Para poder hacer inferencia más allá de estimación puntual, es necesario tener una idea de la varianza de los estimadores. 59 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS o Primero notemos que ( ( ) ĥk 1 − ĥk nj V̂ar ĥk = ) Como ( Ŝ(t ) = ∏ 1 − ĥk ) Tomando logaritmo de ambos lados, ( log Ŝ(t ) = ∑log 1 − ĥk ) Tomando varianza de ambos lados y suponiendo independencia (asintótica) entre ĥk y ĥ j ( ( ( ) Var log Ŝ(t ) = ∑ Var log 1 − ĥk )) ( ) Para aproximar la varianza desarrollemos log 1 − ĥk en series de Taylor ( ) alrededor de E ĥk = hk , ( ) log 1 − ĥk = log(1 − hk ) − ( ) ĥk − hk + O n−1 1 − hk Despejando y elevando al cuadrado tenemos {log (1 − ĥ )− log(1 − h )} ≈ (ĥ( 2 k k ) 2 − hk 1 − hk )2 k Tomando esperanza de ambos lados nos queda que { ( )} Var log 1 − ĥk ≈ ( ) Var ĥk (1 − hk )2 Por lo tanto, un estimador de la varianza de log Ŝ(t ) es ( ) Var log Ŝ( t ) = ∑ ( ) 1 Var ĥk (1 − hk )2 60 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS Pero no queremos la varianza del logaritmo de S(t), sino varianza de S(t). Expandiendo nuevamente en series de Taylor log Ŝ(t ) alrededor de su media log S(t ) tenemos log Ŝ(t ) = log S(t ) + Ŝ(t ) − S(t ) + O n −1 S(t ) ( ) Entonces despejando, elevando al cuadrado y calculando esperanza, { } Var log Ŝ(t ) ≈ { } Var Ŝ(t ) S2 (t ) Por lo tanto { } { } Var Ŝ( t ) ≈ S2 (t )Var log Ŝ(t ) Finalmente, { } ( ) Var ĥk 2 k:tk ≤ t (1 − hk ) Var Ŝ( t ) ≈ S2 (t ) ∑ ( ) ( ) o Al sustituir Ŝ(t ) por S(t) y V̂ar ĥk por Var ĥk tenemos el estimador de la varianza de S(t), comúnmente llamado estimador de Greenwood { } Var Ŝ(t ) ≈ Ŝ2 (t ) ∑ j:t j ≤ tn j dj (n j − d j ) o Finalmente, el error estándar del estimador producto límite es { } Var Ŝ(t ) . Ø INTERVALOS DE CONFIANZA PARA S(t) 61 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS o El estimador puntual de S(t) junto con su error estándar pueden ser usados para obtener intervalos de confianza para la función de supervivencia S(t0) en un punto del tiempo particular t0. o Se puede demostrar que asintóticamente (i.e, cuando n→∞) Ŝ(t ) tiene una distribución normal. Es decir, ( ( )) Ŝ(t ) ∼ N S( t ), V̂ar Ŝ(t ) o Usando este resultado asintótico, un intervalo de confianza para S(t0) al (1−α)100% de confianza es Ŝ(t 0 ) ± Z α /2 Ŝ(t 0 )σ s (t 0 ) , donde σ 2s (t 0 ) = dj ∑ n (n j:t j ≤ t j j − dj ) o Al intervalo de confianza anterior se le conoce como intervalo lineal. Ese intervalo tiene a desventaja de que no hay garantía que los límites de confianza (superior e inferior) tomen valores dentro del (0,1). o Intervalos de confianza alternativos se basan en transformar primero a Ŝ(t 0 ) en una escala real, construir el IC en la escala transformada y luego re-transformar. Por ejemplo, Borgan & Liestol (1990) propusieron (Ŝ(t 0 )1 W , Ŝ(t 0 )W ) Z α 2σ s ( t 0 ) con W = exp . log Ŝ(t 0 ) 62 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS Ø A continuación se presenta un ejemplo de cómo se construye el estimador producto límite. o Ver ejemplos de estimadores producto límite en R usando la librería “survival”: • Surv: crea un objeto de supervivencia a partir de dos variables, tiempos de fallo o censura t e indicador de censura δ. 63 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS • survfit: calcula el estimador Kaplan-Meier • print, summary & plot: comandos adicionales para presentación de resultados. Ø ESTIMADORES DE LA FUNCIÓN DE RIESGO ACUMULADO. o Existen dos estimadores de la función de riesgo acumulado. Estos corresponden a las dos definiciones de la función de riesgo acumulado en el caso discreto. o La primera estimación se basa en la relación H(t ) = − log S(t ) . Usando el estimador producto límite para S(t), el estimador resultante para H(t) es Ĥ1 (t ) = − log Ŝ(t ) . o La segunda estimación se basa en la relación H(t ) = ∑h j como en el caso j:u j ≤ t discreto. Nelson (1972) y posteriormente Aalen (1978) propusieron el siguiente estimador llamado estimador Nelson-Aalen Ĥ2 ( t ) = d ∑ nj j:t j ≤ t j con t1,t2,…,tk, los tiempos de fallo observados, k≤n. o De manera análoga, el estimador Nelson-Aalen puede ser usado como estimador de la función de supervivencia mediante la transformación Ŝ2 ( t) = exp{− Ĥ2 (t )}. 64 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS o En la siguiente gráfica se muestra una comparación de los dos estimadores de H(t). o Un estimador de la varianza de Ĥ2 ( t) es V̂ar{Ĥ2 ( t )} = d ∑ n2j j: tj ≤ t j 65 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS o Nuevamente es posible obtener intervalos de confianza para H(t) al usar la normalidad asintótica del estimador Ĥ2 ( t) y la expresión de la varianza anterior. Ø A continuación presentamos gráficas de estimadores producto límite y de estimadores Nelson-Aalen. 66 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS 3.2 Estimación puntual de la media y la mediana del tiempo de supervivencia Ø Como vimos anteriormente, algunos parámetros poblacionales de interés en datos de tiempos de falla, son función de la función de supervivencia. Por ejemplo la media, la mediana y en general cualquier cuantil o percentil. 67 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS Ø ESTIMACIÓN DE LA MEDIA. El tiempo medio a la ocurrencia del evento de ∞ interés se puede obtener como µ = ∫ S(t )dt . Por lo que si se reemplaza 0 S(t) por su correspondiente estimador producto límite se obtiene ∞ µˆ = ∫ Ŝ(t )dt 0 Ø El estimador anterior sólo es apropiado cuando la observación más grande de un conjunto de datos es un tiempo de falla y no una observación censurada, porque en otro caso el estimador producto límite no está definido más allá de la observación más grande. Ø Una solución al problema es “corregir” el estimador producto límite al convertir la observación más grande en una observación exacta. Sin embargo esta solución sesgaría la estimación de la media. Ø Otra solución es estimar la media restringida al intervalo [0,τ], donde τ es un valor pre-especificado que determina el tiempo más grande a la que una persona puede sobrevivir. En este caso τ µˆ τ = ∫ Ŝ(t )dt 0 Ø La varianza de este estimador es k V̂ar(µˆ τ ) = ∑ i=1 {∫ Ŝ(t)dt} n (nd− d ) τ ti 2 i i i i 68 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS Ø Un intervalo de confianza al (1−α)100% para µ τ está dado por µˆ τ ± Z α 2 V̂ar(µˆ τ ) Ø Nota: La mayoría de los paquetes computacionales obtienen un estimador puntual de la media. En todo caso es importante verificar si la última observación es exacta o censurada. Si es censurada tenemos que revisar el rango en donde la media es obtenida. Ø ESTIMACIÓN DE CUANTILES. Recordemos que el cuantil de orden p, tp , es el mínimo valor de t tal que S(t ) ≤ 1 − p . Usando el estimador producto límite, definimos un estimador t̂ p como { } t̂ p = inf t : Ŝ(t ) ≤ 1 − p Ø Encontrar la varianza de t̂ p es bastante complicado porque requiere de la estimación de la densidad de T en t̂ p . Es posible obtener un intervalo de confianza para tp usando el intervalo de confianza para S(t). Un intervalo al (1−α)100% para tp es Ŝ(t ) − (1 − p ) t : ≤ Z α2 V̂ar Ŝ(t ) { } Ø Usando la misma idea del intervalo, un estimador puntual alternativo sería el punto medio del intervalo de confianza anterior. 69 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS Ø Ejemplo: Estimación puntual y por intervalo para el tiempo mediano para un estudio de pacientes con cáncer. 3.3 Gráficas de diagnóstico Ø Una forma rápida de darnos una idea del comportamiento de un conjunto de datos de tiempo de falla es mediante las gráficas del estimador producto límite y del estimador Nelson-Aalen. 70 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS Ø Estas gráficas también pueden ser usadas para verificar el uso apropiado de ciertos modelos paramétricos. Ø GRÁFICAS DE LA FUNCIÓN DE SUPERVIVENCIA. Suponga que un modelo paramétrico tiene función de supervivencia S(t θ ) y sea θ̂ un estimador del parámetro. Si el modelo paramétrico es adecuado para el conjunto de ( ) datos particular, entonces S t θ̂ y Ŝ(t ) (el estimador KM) deben de ser muy parecidos. La forma más simple de verificar el ajuste del modelo ( ) paramétrico es graficar S t θ̂ y Ŝ(t ) en la misma gráfica. Graficar los intervalos de confianza para S(t) ayuda a interpretar la gráfica. Ø GRÁFICA P-P (PROBABILIDAD-PROBABILIDAD). Esta gráfica compara las funciones de supervivencia estimadas por un modelo paramétrico y es estimador (( ) ) empírico KM. Consiste esencialmente en graficar los puntos S t j θˆ , Ŝ(t j ) , donde t1,t2,…,tk son los distintos tiempos de fallo exactos observados. Si el 71 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS modelo paramétrico es adecuado, los puntos deben de caer cerca de una ( ) línea recta con pendiente uno. Alternativamente, si S t θ̂ es continua en t, se puede reemplazar Ŝ(t j ) por S*j = 0.5Ŝ(t j ) + 0.5Ŝ(t j − ). Esto se puede interpretar como una corrección por continuidad. Ø GRÁFICA Q-Q (CUANTIL-CUANTIL). Esta gráfica consiste en graficar los cuantiles del modelo paramétrico ajustado versus los cuantiles empíricos obtenidos con el estimador KM. Por ejemplo, para el caso Weibull los cuantiles son 1α 1 t p = − log (1 − p ) λ Una gráfica de los puntos (t p j , t( j) ), j=1,…,k, donde p j = S*j y t (1) < t (2) < L < t (k) son los valores ordenados de los tiempos de fallo exactos observados, debe de ser aproximadamente lineal para verificar el supuesto Weibull en los datos. Ø LINEARIZACIÓN DE LA FUNCIÓN DE SUPERVIVEN CIA. Si S(t θ ) puede ser linearizada mediante alguna transformación, es decir, si existen funciones g1 y g2 tales que g 1 {S(t θ)} sea una función lineal de g 2 (t ) . La idea es entonces graficar g 1 {S(t θ)} vs. g 2 (t ) , si la familia paramétrica es adecuada entonces la gráfica debe de ser aproximadamente una línea recta. Este procedimiento tiene la ventaja de que no requiere la estimación de los parámetros θ del modelo. 72 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS o Caso Exponencial: Supongamos que se está considerando la opción de que un modelo exponencial puede ser adecuado para un conjunto de datos. La función de supervivencia exponencial satisface log S(t ) = − λt Entonces una gráfica de log Ŝ(t ) vs. t debe de ser cercana a una línea recta con pendiente negativa que pasa por el origen. Nótese que no es necesario un estimador de λ. o Caso Weibull: La función de supervivencia Weibull satisface log{− log S(t )} = log λ + α log t . Entonces, una gráfica de log{− log Ŝ(t )} vs. logt debe de ser aproximadamente lineal si el modelo Weibull es adecuado para los datos. La pendiente puede ser positiva o negativa dependiendo del valor de α. La ordenada al origen siempre debe de ser positiva. o Caso Log-normal: Aunque la función de supervivencia log-normal no es precisamente linealizable, es posible verificar el ajuste de esta distribución considerando que si T∼Log-normal entonces logT∼Normal. Por lo tanto una gráfica de cuantil-cuantil normal para logt que presente un comportamiento aproximadamente lineal apoya el supuesto log-normal de los datos. 73 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS Ø Las gráficas de diagnóstico que acabamos de describir son en términos de la función de supervicencia y por lo tanto en los saltos del estimador KM. Alternativamente, es posible obtener gráficas de diagnóstico a partir de la función de riesgo acumulado y usar los satos del estimador Nelson-Aalen. 3.4 Métodos Bayesianos no paramétricos Ø Una forma alternativa a la estimación no paramétrica frecuentista es usar los métodos de estimación Bayesianos no paramétricos. Ø La idea general de los métodos de estimación Bayesianos es incorporara al proceso de inferencia cualquier tipo de información adicional que junto con la información muestral producen una estimación que combina ambas fuentes de información. La combinación de información (o proceso 74 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS de aprendizaje) se hace a través del Teorema de Bayes y las inferencias se hacen dentro de un contexto de toma de decisión. Ø El conocimiento inicial del tomador de decisiones debe de representarse a través de una distribución de probabilidades que refleje la incertidumbre en sus creencias. Este conocimiento inicial se debe de proporcionar para todas las cantidades desconocidas del modelo y puede estar basado en la experiencia previa o en opinión de expertos. Ø En el problema de inferencia Bayesiano no paramétrico, las cantidades desconocidas son funciones, las cuales se pueden ver como un conjunto muy grande, incluso infinito, de parámetros. En este caso, la representación del conocimiento inicial incierto se hace a través de procesos estocásticos. Ø INICIAL PROCESO DE DIRICHLET. Hay varias definiciones y caracterizaciones de un proceso de Dirichlet. En particular, para una variable aleatoria no negativa T, sea A1, A2,…,Ak una partición de los reales positivos. La distribución conjunta de (W1 ,K Wk ) , con Wj = P(T ∈ A j ) , j=1,…,k, es una distribución Dirichlet con parámetros (cP0 (A1 ),K , cP0 (A k )) , donde c es el parámetro de precisión del proceso y P0 es una medida de probabilidad y se le conoce como medida de centralidad. Esta propiedad se debe de satisfacer para cualquier partición de los reales positivos y para cualquier valor de k. 75 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS Ø Propiedades: Sea P la medida de probabilidad para la v.a. T con función de supervivencia S(t). Sea P0 una medida de probabilidad con función de supervivencia S 0(t). o Si P∼DP(c,P0) o equivalentemente S∼DP(c,S 0), entonces E{S(t )} = S0 (t ) Var{S(t )} = S 0 (t ){1 − S0 ( t )} c+1 o El procesode Dirichlet es casi seguramente discreto, es decir, asigna probabilidad uno al espacio de medidas de probabilidad (funciones de supervivencia) discretas. 76 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS Ø Distribución final. Dada una muestra T1,…,Tn de observaciones exactas tal que Ti |S∼S, i=1,…,n y S∼DP(c,S0) entonces la distribución final de S, dados los datos t = (t1 ,K tn ) , es otro proceso de Dirichlet con parámetro de precisión c1=c+n y medida de centralidad S 1(t) igual a S1 (t ) = c n S 0 (t ) + Ŝ(t ) c+n c +n con Ŝ(t ) = (# ti > t ) n . En notación, S t ∼ DP(c 1 , S1 ) . o El estimador Bayesiano, suponiendo una función de pérdida cuadrática es la media del proceso final, es este caso, S 1(t). o Si la muestra observada contiene observaciones censuradas por la derecha, la distribución final de S es un proceso llamado Beta-Stacy, cuyo valor esperado final es: − cdS0 (s ) + dN(s ) E{S( t ) t} = ∏ 1 − cS0 (s − ) + M(s ) [ 0 ,t ] con N( t ) = ∑i=1 I(t i ≤ t , δ i = 1 ) el proceso de conteo para observaciones n exactas y M(t ) = ∑i=1 I(t i ≥ t ) el proceso para los individuos en riesgo. n Ø Ejemplo: Datos KM: 0.8, 1.0+, 2.7+, 3.1, 5.4, 7.0+, 9.2, 12.1+. Estimación de P{T ∈ (0,1)} = S(0 ) − S(1) usando una inicial proceso de Dirichlet vs. Modelo paramétrico exponencial con inicial gamma para la tasa constante. 77 Curso: Análisis de Supervivencia I NSTRUCTOR: LUIS E. NIETO B ARAJAS 78 Curso: Análisis de Supervivencia