Selección de Variables en el modelo de azar proporcional. Una

Anuncio
ESTADÍSTICA ESPAÑOLA
Vol. 44, Núm. 150, 2002, págs. 175 a 200
Selección de Variables en el modelo de
azar proporcional. Una aplicación al
Mercado Laboral
por
LAURA MUÑOZ
PILAR OLAVE(*)
MANUEL SALVADOR
Facultad de Ciencias Económicas y Empresariales
Universidad de Zaragoza
RESUMEN
Este artículo presenta un procedimiento semiparamétrico de naturaleza bayesiana en el contexto de selección de variables para el modelo de Cox (1972). El método está basado en el procedimiento estocástico de selección de variables propuesto por George y McCulloch
(1993 a, b, 1997). La metodología presentada se aplica al análisis del
mercado laboral en Aragón.
Palabras clave: Selección de Variables; Modelo de Azar Proporcional;
Inferencia Bayesiana; MCMC
Clasificación AMS: 62N01, 62N02, 62F15, 62P25
(*) Este trabajo ha sido financiado parcialmente por el proyecto P141-2001 del Departamento de Educación de la Diputación General de Aragón titulado "Mercado de Trabajo y
Formación Laboral. Estudio de la Calidad de los Programas de Formación" administrado por
la Universidad de Zaragoza.
176
ESTADÍSTICA ESPAÑOLA
1. INTRODUCCIÓN
Desde la aparición del trabajo de Cox (1972) el modelo de azar proporcional ha
sido uno de los más utilizados en el análisis de supervivencia aplicado, a la hora de
modelizar la influencia que un conjunto de covariables independientes ejercen
sobre el tiempo de supervivencia de un individuo. Ello es debido a su flexibilidad
para modelizar un gran número de situaciones diferentes y la clara interpretabilidad
de sus resultados.
Un problema de interés al utilizar dicho modelo es la modelización y estimación
de la función de azar vaselina la cual permite, en particular, la posibilidad de proporcionar estimaciones de las funciones de supervivencia de distintas clases de
individuos. La forma habitual de abordar este problema es estimarla no paramétricamente. Recientemente, sin embargo, han adquirido una gran relevancia los
métodos bayesianos semiparamétricos, en buena medida debido a la aparición de
los métodos MCMC (Monte Carlo Markov Chain) (Sinha y Dey (1997), Dey et al.
(1998)) que han facilitado, enormemente, el cálculo de la distribución a posteriori de
los parámetros y funciones de supervivencia objeto de interés. Este tipo de métodos han posibilitado, además, la adopción de procesos a priori más generales y
realistas que los procedimientos tipo Dirichlet (ver, por ejemplo, Doss (1994))
tradicionalmente utilizados en la literatura bayesiana no paramétrica debido a su
mejor tratabilidad analítica, abriendo la posibilidad de imponer restricciones de
forma sobre la función de azar (Arjas y Gasbarra (1994), Gray (1994) o Gelfand y
Mallick (1995)) problema que desde el punto de vista clásico es muy dificil de
abordar.
En este trabajo se aborda el problema de la selección de las covariables del
modelo de Cox desde una óptica bayesiana mediante métodos MCMC. Este tipo de
métodos han sido utilizados en problemas de selección de variables en modelos de
regresión lineal (ver, por ejemplo, George y McCulloch (1993 a y b, 1997), Clyde et
al. (1996), Geweke (1996), Raftery et al. (1997) y Clyde (1998)) y permiten resolver
dos de los problemas más importantes a los que se enfrenta el paradigma bayesiano a la hora de ser implementado en este contexto: por un lado el de la integración requerida para calcular la distribución marginal del modelo, necesaria para el
cálculo del factor Bayes; por otro lado el de la exploración eficiente del espacio de
modelos que puede llegar a ser muy grande si el número de potenciales covariables explicativas es elevado.
En el contexto del análisis de supervivencia, Raftery et al. (1996) y Volinsky et
al. (1997) analizan dicho problema utilizando el algoritmo propuesto por Madigan y
Raftery (1994) que permite calcular el conjunto de modelos más compatibles con
SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL
177
los datos (al que estos autores denominan ventana de Occam). Sin embargo, estos
métodos no permiten la estimación de la función de azar vaselina de un modelo y,
por lo tanto, la de la función de supervivencia de un individuo, al estar basados en
la función de verosimilitud parcial de Cox.
En este trabajo se propone una metodología alternativa para llevar a cabo el
proceso de selección de variables en el modelo de Cox que permite, además, la
estimación de la función de azar vaselina. Para ello tomamos como punto de
partida el modelo analizado en Gray (1994) y utilizamos el método de selección
estocástica de variables SSVS propuesto por George y McCulloch (1993 a, b y
1997). Utilizando dicho procedimiento es posible identificar los modelos más compatibles con los datos y estimar funciones de supervivencia individuales las cuales
permiten, en particular, analizar el comportamiento predictivo del modelo.
La metodología propuesta se aplica al análisis del mercado laboral. Más concretamente, se analizan los datos disponibles en las oficinas del INEM de Zaragoza para una muestra de desempleados en el periodo comprendido entre el 1 de
Enero de 1990 y el 30 de Abril de 1998. Utilizando nuestra metodología se determinan cuáles son los factores que determinan la permanencia en el desempleo de un
trabajador y se analiza el comportamiento predictivo del modelo a partir de la
estimación de las curvas de desempleo individuales. Se observa que son los trabajadores con una edad comprendida entre 25 y 40 años, nivel de estudios elemental y nivel profesional bajo, los que tienen una probabilidad significativamente
mayor de encontrar un trabajo.
El plan del trabajo es como sigue: en la sección 2 se plantea el modelo a analizar y las distribuciones a priori sobre la función de azar vaselina y los coeficientes
del modelo de Cox; en la sección 3 se describe el algoritmo utilizado para la selección de las covariables del modelo y cómo utilizar dichos resultados para llevar a
cabo el proceso de selección de variables; en las secciones 4 y 5 se describe cómo
utilizar los resultados anteriores para comparar los modelos pre-seleccionados y
para estimar los parámetros del modelo de Cox y las funciones de supervivencia;
en la sección 6 se aplica la metodología descrita para analizar las covariables más
influyentes en el paro en Aragón; finalmente, se exponen las conclusiones del
trabajo y las direcciones de investigación futuras. Se incluye, además, un apéndice
matemático en el que se calculan las distribuciones completamente condicionales
necesarias para implementar el algoritmo SSVS.
178
ESTADÍSTICA ESPAÑOLA
2. PLANTEAMIENTO DEL PROBLEMA
2.1
Los datos
Sea T el tiempo de supervivencia de un individuo
’
Se dispone de una muestra de N individuos {(xi ,ti,δi); i = 1,...,N} donde:
’
xi = (xi1,...,xip) es el vector de covariables del i-ésimo individuo
ti = tiempo de supervivencia del indivíduo i-ésimo
δi = I{T > t } indica si existe censura o no por la derecha en el individuo i-ésimo
donde IA es la función indicador del conjunto A.
i
2.2
El modelo
Sea h(t) la función de azar de la variable T.
El modelo de regresión de Cox (1972) supone que:
h(t) = ho(t)exp[β’x]
siendo ho(t) la función de azar vaselina, x’ = (x1,....,xp) el vector de covariables y β’ =
(β1,...,βp) el vector de parámetros.
Supondremos, al igual que hace Gray(1994), que la función de azar vaselina es
constante a trozos y que viene dada por:
ho(t) = λj si t∈Ij = (aj-1,aj] j=1,...,g+1
(1)
siendo ao = 0 < a1 < ... < ag+1 = ∞ fijos.
2.3
Distribución a priori
Para construir la distribución a priori definimos, en primer lugar, los indicadores
γ1,...,γp dados por:
γi = 1 si la covariable Xi entra en el modelo y 0 si no entra; i=1,...,p.
( (( − γ1) + γ1 1 )
Sea γ = (γ1,...,γp)’ y Dγ = diag σ1
son constantes i = 1,...,p.
Supondremos que:
1
c
,...,
σp
(( − γp )+ γp p )) donde σi, ci
1
c
SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL
179
βγ ∼ Np(0, DγRDγ)
(2)
γi∈{0,1} de forma que P[γi = 0] = 1-pi; P[γi = 1] = pi ∈[0,1], i=1,…,p
(3)
donde R es la matriz de correlación a priori de los coeficientes β1,...,βp.
La distribución a priori de los valores de la función de azar vaselina (1) se construye sobre los valores {αj = log λj; j=2,...,g+1} y viene dada por:
αj = αj-1 + εj
j = 2,...,g+1 con
2
α1 ∼ log E(a1); εj ~ N(0,σ ) ,j=2,...,g+1 ;
τ=
1
σ
2
m a
,
 independientes
 2 2
~ G
(4)
siendo log E(a1) la distribución logarítmico exponencial y a,m∈R+ constantes.
Observación 2.1
De (2) se sigue que:
βi Gγi ∼ (1-γi)N(0, σ i ) + γiN(0, c i
2
2
σ 2i )
i=1,...,p
que es la mixtura utilizada por George y McCulloch (1993 a) en el problema de
selección de variables en regresión lineal. ■
Observación 2.2
1) Los indicadores {γi, i=1,...,p} señalan los coeficientes βi que son significativamente diferentes de 0 y los que no de forma que, si un coeficiente no es significativamente distinto de cero, entenderemos que la covariable correspondiente no debe
forma parte del mismo.
2) Las constantes { σi2 i=1,...,p} nos indican cuándo los coeficientes {βi; i=1,...,p} son
significativamente distintos de cero de forma que si el cociente
βi
σi
es grande
entenderemos que el efecto de la covariable Xi sobre la variable T es significativo.
180
ESTADÍSTICA ESPAÑOLA
3) Las constantes { c i2  L ,p} se eligen de forma que las distribuciones
2
{N(0, c i2 σ i —;i=1,...,p} sean difusas. Dichas distribuciones se toman como distribuciones a priori de los coeficientes {βi ; i=1,...,p} si el efecto de la covariable correspondiente es significativo, y permiten a los datos dar información acerca del signo y
valor de dicho efecto.
4) Las constantes {pi; i=1,...,p} son las probabilidades a priori de que cada una de
las covariables analizadas forme parte del modelo. Si no se dispone de información
previa acerca de ellas tomaremos pi = 0.5; i=1,...,p.
En George y McCulloch (1993 a) se dan criterios para elegir estas constantes
así como la matriz R, algunos de los cuales se aplican más adelante (ver sección 6)
Observación 2.3
El proceso a priori sobre la función de azar vaselina coincide con el propuesto
por Gray (1994) para realizar un análisis bayesiano semiparamétrico del modelo de
Cox. Dicho proceso tiene una estructura de paseo aleatorio sobre los valores de
αj, j=1,..,g+1 con el fin de exigir un cierto grado de suavidad a la función de azar
2
vaselina. El parámetro σ controla dicha suavidad de forma que, cuanto más grande sea su valor, menor será el grado de suavidad de la función de azar vaselina. La
elección de las constantes g, {a1,...,ag}, a y m es discutida en Gray (1994) (ver
sección 5 para su aplicación en este contexto).
La distribución a priori sobre α1 se ha elegido de forma que la distribución a
priori sobre S(a1|X=0) = P(T>a1|X=0) = exp(Ÿλ1a1) es U(0,1).
2.4 Función de verosimilitud
’
Sean t’ = (t1,...,tN), α’ = (α1,....,αg+1), δ = (δ1 ,..., δN) y X’ = (x1,...,xN)
Sea f(t |α}β) la f.d.d. del tiempo de permanencia en el paro
Sea S(t |α}β) = P[T>t |α}β) la función de supervivencia de T
La función de verosimilitud del modelo viene dada por:
N
L(α}β |t,δ,X) =
∏(
i =1
f ti
N
=
δ
∏ ( i α β i)
ht
i=1
,
,x
i
α, β, xi )
δi
−

exp
t
(
S ti
1− δ
α , β, xi )

∫0 ( α β i ) t 
i
ht
,
,x d
i
=
=
181
SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL
=
δi
N
∏ ( α)
h0 t i
i=1

t

0

[δ iβ x i ]exp− exp[β x i ]∫ h0 (t α )dt
exp
i
(5)

Sea Sj = {i∈{1,...,N} tales que ti∈Ij } j =1,...,g+1. Se tiene que:
L(α}β |t,δ,X) =
=
g+1 

∏ ∏ λδj
j=1
i∈Sj
i


(6)
 j−1
[δ iβx i ]∏ exp− exp[βx i ] ∑ λ k (ak
exp
i∈Sj

 k =1
− ak −1 ) + λ j
(i−
t

a j−1
) 
 
3. CÁLCULO DE LA DISTRIBUCIÓN A POSTERIORI
En lo que sigue denotaremos por [X] la densidad de la variable X y por [X|Y| la
densidad condicionada de X por la variable Y.
3.1 Distribución a posteriori
La distribución a posteriori de los parámetros α\ ⏠YLHQH GDGD SRU
g +1
[αβ}γ}τ|t,δ,X] ∝ L(α}β |t,δ,X) [β|γ] [γ][α1]
∏ [α j α j−1 , τ] [τ|a,m] ∝
j= 2
∝
=
g+1 

δi
 λj
j=1 
i∈Sj
∏ ∏


 j−1
[δ iβx i ]∏ exp− exp[βx i ] ∑ λ k (ak
exp
i∈Sj

 k =1
− ak −1 ) + λ j
(i−
t
a j−1
 
) 
 
x
x
1
Dγ
 β' D−γ 1R−1D−γ 1β  g −1
exp −
 τ 2 exp α1 − a1eα1
2


[
m
−1
2 exp −
xτ



τ
2 
a
g+1
]∏
j=2
(

α j − α j−1
− τ
2

exp
)2 

(7)
Esta distribución no tiene una forma analítica tratable por lo que, de cara a realizar inferencias acerca de los parámetros del modelo, tenemos que recurrir a méto-
x
182
ESTADÍSTICA ESPAÑOLA
dos aproximados. Dado que el número de parámetros puede ser bastante elevado
utilizaremos los métodos MCMC y, más concretamente, el Gibbs sampling (ver, por
ejemplo, Tanner (1996) o Robert y Casella (1999)) como se detalla a continuación.
3.2 Los métodos MCMC
La idea básica subyacente a los métodos MCMC consiste en construir una cadena de Markov cuya única distribución estacionaria sea la distribución a posteriori
y de forma que, bajo ciertas condiciones (ver, por ejemplo, Tierney (1994)), la
cadena converja a dicha distribución. De esta forma, si se simula el funcionamiento
de la cadena durante un número de iteraciones lo suficientemente grande para que
la cadena haya convergido, se obtendrá una muestra aproximada de la distribución
a posterior objeto de interés. Existen diversos métodos para construir dicha cadena
(ver Tierney (1994) para algunas posibilidades) de entre los cuales el más utilizado
es el Gibbs sampling que es el que usaremos en este trabajo.
3.3 Selección estocástica de variables mediante el Gibbs sampling
Para aplicar el Gibbs sampling necesitamos calcular las distribuciones completamente condicionadas de cada uno de los parámetros del modelo. La forma de
dichas distribuciones viene deducida en el apéndice. Utilizando dichas distribuciones el algoritmo para calcular una muestra aproximada de la distribución a posteriori (7) es el siguiente:
3.3.1 Algoritmo
Paso 0) Inicialización del algoritmo
Comenzamos la ejecución de la cadena obteniendo un conjunto de valores ini(",0) (",0) (",0)
,β
,γ
); "=1,...,k} para comenzar la ejecución de la cadena donde
ciales {(α
k es el número de cadenas en paralelo que se van a ejecutar.
Los valores iniciales de βse han tomado extrayendo k muestras de la distribución Np(b,Cov(b)) donde b es el estimador máximo-verosimil de β y Cov(b) su
matriz de varianzas y covarianzas estimada.
Los valores iniciales de α se han tomado iguales a los valores de la estimación
no paramétrica de Breslow de la función de azar vaselina, calculados en los puntos
{a1,...,ag}.
Los valores iniciales de γ se han calculado extrayendo k muestras de la distribución a priori de los parámetros γi , i=1,...,k.
183
SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL
Fijar nitermax número máximo de iteraciones y poner n=1.
Paso 1) Ejecución de un paso del Gibbs sampling
Repetir para " = 1,...,k, los pasos 1.a), 1.b), 1.c) y 1.d) siguientes.
1.a) Extraer
τ (" ,n)


a+
g+m
(",n-1) (",n-1) (",n-1)
}β
}γ
,
de τ | α
,t,X,δ∼ * 
 2


+
∑ (α
g 1
j
( " ,n
−1)
j
−α
( " ,n
−
−1)
j 1
=2
)
2
2







donde G(α}β) denota la distribución gamma con parámetro de forma α y parámetro
de escala β.
1.b) Extraer
β
(",n)
(",n-1) (",n)
de β | α
,τ
,γ
(",n)
,t,X,δ 
Para ello utilizamos un paso de Hastings-Metropolis y seguimos los siguientes
pasos:
1.b.1) Calcular
c
(",n-1)
(",n-1)
=π
(b)
donde:

(β) = exp [β ′ Ε] exp −

(",n)
π
(",n)
(",n-1)
∑
( " ,n
ui
−1)
 β D−1"

γ

 exp −
2


[β ]
exp
=
'
xi
i 1
'
( ,n-1)
β
 con E =


de una Np(b,Cov(b)) y v1 de una U(0,1)
1.b.2) Extraer b
Si v1 < π
N
(",n)
(b
) ir a 1.b.3). En caso contrario ir a 1.b.1)
1.b.3) Se distinguen los siguientes casos:
1.b.3.a) π(",n-1)(β(",n-1))≤F(",n-1)q(",n-1)(β(",n-1)). En este caso β(",n) = b(",n)
(",n-1)
1.b.3.b) π
(b
(",n-1)
)≤c
(",n-1) (",n-1)
q
(b
(",n-1)
).
N
∑δ
=
i 1
i
xi
.
184
ESTADÍSTICA ESPAÑOLA
En este caso extraer v2 de una U(0,1) y calcular π",n =
(",n-1)
donde q
(β) es la función de densidad de una Np(β
si v2 ≤ π",n; en caso contrario poner β(",n) = β(",n-1).
(",n-1)
,S
c
(" ,n−1)
(" ,n−1)
q
(" ,n−1)
π
(",n-1)
(β
). Poner β
(β
(" ,n−1)
(" ,n−1)
(",n)
)
)
= b(",n)
1.b.3.c) Si no se verifican los casos anteriores extraer v2 de una U(0,1) y calcular
(
(
)
(
 π(" ,n−1) β(" ,n−1) q(" ,n−1) b(" ,n)
(" ,n−1)
(" ,n)
(" ,n−1)
b
q
β(" ,n−1)
 π
π",n = min 
contrario poner β
(",n)
)
=β
(
)
)

,1

. Poner β
(",n)
=b
(",n)
si v2 ≤ π",n; en caso
(",n-1)
(",n)
.
(",n) (",n) (",n-1)
de α | τ
,β
,t,X,δ. 3DUD HOOR VH DGRSWD
1.c) Extraer α
,γ
Hastings-Metropolis realizando, para j =1,...,g+1, los siguientes pasos:
1.c.1) Calcular
m (j" ,n ) y ν (j" ,n )
(" ,n)
Extraer
vj
como se detalla en el apéndice.
h (j",n )
1.c.2) Extraer un candidato
XQ SDVR GH
de la distribución N( m(j" ,n) , ν (j" ,n) ).
de una U(0,1).
Si
 (",n−1) B "

 Bj

 T(" ,n−1) 
j



( ,n − 1)
j
(" ,n)
vj
(" ,n−1)
donde
Bj
= Ej +
ν(j" ,n)
2
(" ,n)
(µ j

e−B "


( ,n −1)
j
≤ exp
h(" ,n)B(" ,n−1) − T(",n−1)eh " 
j
j

 j
− m(j",n) ) entonces poner
( ,n)
j
α(j",n) = h(j" ,n). En caso
contrario poner α(j",n) = α(j",n−1) .
1.d) Extraer γ(",n) de α | τ(",n), β(",n), α(",n),t,X,δ  DUD HOOR H[WUDHU SDUD L S γ i(" ,n) de una distribución discreta con soporte {0,1} y
3
con probabilidades dadas por las expresiones (A.8) del apéndice evaluadas en
β
(",n)
(
)
y γ1(" ,n) ,..., γi(−"1,n) , γi(+" ,1n−1) ,..., γp(" ,n−1) .
Paso 2)
Colocar n = n+1 . Si n ≤ nitermax ir al Paso 1). En caso contrario parar.
SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL
185
Como resultado de la aplicación del algoritmo se obtiene una muestra aleatoria
simple aproximada de la distribución a posteriori (7) dada por:
(",n) (",n) (",n) (",n)
{(α
,β
,γ
,τ
); "=1,...,k; n = no,no+2s,...,nitermax}(8)
donde no es el número de iteraciones requeridas para que la cadena converja y s
se elige de forma que la autocorrelación muestral de las series obtenidas sea
despreciable de forma que la muestra (8) sea aproximadamente simple.
La determinación de no es un problema abierto y no hay una forma aceptada
universalmente para su determinación. Una buena revisión de los métodos propuestos puede verse en Cowles y Carlin (1997) y en Robert y Casella (1999). En
nuestro caso hemos determinado no mediante la inspección visual de las series de
los parámetros βi i = 1,...,p y utilizando el procedimiento de Gelman y Rubin (1992).
3.3.2 Selección de las covariables
La selección de las covariables que deben entrar en el modelo se haría a partir
de las probabilidades a posteriori P[γ|(t,δ},X—] que nos permiten identificar cuales son
los modelos más compatibles con los datos observados. En particular se podrían
calcular las probabilidades marginales {P[γi_Wδ,}X—], i=1,...,p} las cuales nos darían
una idea de cuáles son las variables más influyentes sobre T, aunque esta estrategia no tiene en cuenta los efectos interacción entre las variables analizadas. Otra
posibilidad sería hallar la llamada ventana de Occam propuesta en Madigan y
Raftery (1994) y utilizada en Raftery et al. (1996) y Volinsky et al. (1997). Posteriormente se podrían comparar los modelos seleccionados analizando el comportamiento predictivo de los mismos como se muestra en la sección siguiente.
4. COMPARACIÓN DE LOS MODELOS SELECCIONADOS
Una vez determinada la clase de los modelos más compatibles con los datos se
podría refinar el proceso de selección evaluando el comportamiento predictivo de la
clase de modelos preseleccionada. Esto se podría realizar utilizando el factor
pseudo-bayes (Geisser and Eddy, 1979; Gelfand y Dey, 1994) que compara los
modelos seleccionados utilizando las densidades predictivas dadas por la expresión:
∏(
N
CVP(M) =
N
f ti t(i) ,
i=1
)δ (
δ(i) , X, M
i
S ti t(i) ,
) −δ
δ(i) , X, M
1
i
(9)
186
ESTADÍSTICA ESPAÑOLA
donde M es el modelo comparado, t(i) = t – {ti},
f(ti|t(i),δ(i)}X,M) =
S(ti|t(i),•(i),X,M) =
∫(
∫ (
f ti
S ti
[
)[α, β δ
α, β, x , M) α, β δ
i
α, β, x
i
,M
(i)
]α
]α
β
, t(i) , X(i) , M d
d
, t (i) , X (i) , M d
d
(i)
β.
Para calcular esta puntuación predictiva no haría falta ejecutar de nuevo el algoritmo de la sección 3 para cada uno de los modelos comparados y cada una de las
observaciones. Bastaría utilizar el muestreo de importancia (Geweke (1998)) asig(",n) (",n) (",n)
nando a cada uno de los elementos de la muestra {(α
,β
,τ
); "=1,...,k; n =
no,no+2s,...,nitermax} obtenida en (8), los pesos de importancia dados por:
[α
( " ,n)
[α
,β "
( ,n)
(" ,n)
,β
,
τ"
( ,n)
(" ,n)
,
δ
(i)
(" ,n)
τ
] [α
] [α
( " ,n)
, t(i) , X(i) , M
δ, t, X, M
,β "
( ,n)
( " ,n)
,
τ"
( ,n)
( " ,n)
,β
,
τ
]∝w
(",n )
i
−1
−1
δ, t, X, M
( " ,n)
δ, t, X
]
=
=
 β"
−

 β
exp −

( ,n)'
1
(α
f ti
1
( " ,n)
,
β"
( ,n)
) (α
, xi , M
δi
S ti
( " ,n)
,
β"
( ,n)
)
Dγ
− δi
exp
M
1
, xi , M
∑
1
Dγ
γ
Dγ
MR
-1
Dγ
Mβ
(" ,n)
2
(" ,n)'
−1
-1
−1
Dγ R Dγ
2
β
(" ,n)



(10)



Utilizando estos pesos de importancia el valor estimado de (9) vendría dado por:

1
exp
N

N
∑
=
i 1


log


1
∑
( " ,n)
w
(" ,n)
i




 
(11)
Otra posibilidad de evaluar el comportamiento predictivo de los modelos, similar
a la utilizada en Volinsky et al. (1997), sería dividir el tiempo de supervivencia en s
subintervalos (0,T1], (T1,T2],...,(Ts-1,∞) con 0 < T1 < ... < Ts-1 < ∞ fijados por el
analista y calcular, para cada individuo, sus probabilidades de fallecimiento:
{qij = P{T∈(Τj-1,Tj] |M, t(i) , δ(i), X}; j=1,...,s; i=1,...,N con To = 0, Ts = ∞}
(12)
y asignarle, como fecha más probable de fallecimiento, aquél subintervalo con
mayor probabilidad. Para calcular las probabilidades {qij; j=1,...,s; i=1,...,N} se
utilizaría el muestreo de importancia anterior teniendo en cuenta que:
SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL
187
qij = E[S(Tj-1 |xi,α,β)- S(Tj |xi,α,β)| t(i) , δ(i), X(i) ]
El valor estimado de estas probabilidades vendrá dado por la expresión:
∑  S(T −
j 1
xi , α
(" ,n)
(" ,n)
, β (" ,n) ) − S(Tj x i , α (" ,n) , β (",n) ) w i(",n)

∑w
(" ,n)
13)
i
(" ,n)
Posteriormente se calcularía, para cada modelo, el porcentaje de aciertos obtenidos.
5. ESTIMACIÓN DEL MODELO DE COX Y DE LA FUNCIÓN DE SUPERVIVENCIA
5.1
Estimación de los coeficientes β
Con el fin de tener en cuenta la incertidumbre asociada al proceso de selección
del modelo, la estimación de los coeficientes {β1,..., βp} podría realizarse mediante
la media o la mediana a posteriori utilizando para ello la muestra obtenida al aplicar
el algoritmo 3.3.1 a todos los datos. Utilizando, además, los cuantiles estimados de
sus distribuciones a posteriori se podrían construir intervalos bayesianos con una
probabilidad a posteriori fijada por el analista.
5.2
Estimación de la función de supervivencia de un individuo
La función de supervivencia de un individuo cuyas covariables valen
x0 = (x01,...,x0p)’ vendría dada por:
S(u|x0,(t,δ,}X)) = P[T > u | x0 ,(t,δ,}X)] = =
∫ P[T > u α, β, γ, x , t, δ, X]dπ(α, β, γ t, δ, X)
0
y se estimaría mediante la expresión:
1
∑
[
PT
M (" ,n)
> u α (" ,n) , β(" ,n) , γ (",n) , x0 , t, δ, X
]
También podrían darse bandas de confianza para esta función con una probabilidad dada sin más que utilizar, para un valor u dado, los cuantiles de la distribución
a posteriori de S(u|x0,(t,δ}X)). Conviene hacer notar que todas estas estimaciones
188
ESTADÍSTICA ESPAÑOLA
tienen en cuenta la incertidumbre asociada al proceso de selección y estimación del
modelo cuya ignorancia puede dar lugar a estimaciones excesivamente precisas de
esta función.
6. ANÁLISIS DEL MERCADO LABORAL DE ZARAGOZA
En esta sección ilustramos la metodología propuesta en las secciones anteriores mediante el análisis de un caso práctico: el tiempo de permanencia en el desempleo de los solicitantes de empleo del Instituto Nacional de Empleo (INEM) de
Zaragoza.
6.1
Los datos
Se dispone de una muestra de 1696 demandantes de empleo del INEM de Zaragoza observada en el periodo de tiempo comprendido entre el 1 de Enero de
1990 y el 30 de Abril de 1998 . Para cada demandante se conoce su tiempo de
permanencia en el desempleo, medido en meses, además de los valores de las
covariables listadas en la tabla I. Un 62.26% de los casos analizados están censurados por la derecha debido a que no encontraron trabajo en el periodo analizado.
El análisis que se describe a continuación se ha realizado con las variables estandarizadas.
Tabla I
COVARIABLES UTILIZADAS EN EL ANÁLISIS
Variable
SEXO
EDAD1
Codificación
0 = Mujer, 1 = Hombre
Menor de 20 años (0 = No, 1 = Sí)
P[γi = 1| (t,δX)]
0.3231
0.1944
EDAD2
Entre 20 y 25 años (0 = No, 1 = Sí)
0.1350
EDAD3
Entre 25 y 30 años (0 = No, 1 = Sí)
0.9916
EDAD4
Entre 30 y 40 años (0 = No, 1 = Sí)
0.9765
EDAD5
Entre 40 y 55 años (0 = No, 1 = Sí)
0.4798
NIV1
Sin estudios (0 = No, 1 = Sí)
0.1672
NIV2
Estudios elementales (0 = No, 1 = Sí)
0.9131
NIV3
Estudios intermedios (0 = No, 1 = Sí)
0.1623
NIVPRO0
Técnicos (0 = No, 1 = Sí)
0.5971
NIVPRO1
Directores y Jefes de Equipo (0 = No, 1 = Sí)
0.5896
NIVPRO2
Oficial 1ª, 2ª y 3ª (0 = No, 1 = Sí)
0.5385
NIVPRO3
Ayudantes y auxiliares (0 = No, 1 = Sí)
0.1146
IDIOMA
Conocimiento de idiomas (0 = No, 1 = Sí)
0.1426
SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL
6.2
6.2.1
189
Selección de los modelos más compatibles con los datos
Selección de los parámetros de la distribución a priori
Hemos tomado las constantes {σi; i=1,...,14} iguales a los errores estándar de
los estimadores máximo-verosimiles de los coeficientes {βi; i=1,...,14} y las constantes c1 = ... = c14 = 10. Los valores de {ci ; i=1,...,14} se han elegido de forma que
el punto de corte entre las distribuciones a priori N(0, σ i2 ) y N(0, c i2σ i2 ), verifica que
su valor estandarizado en la distribución N(0, σ i2 ) es, aproximadamente, igual a 2.
Dicho punto marca, en la distribución a priori, cuando un coeficiente βi tiene una
probabilidad a priori de ser significativamente distinto de cero mayor que 0.5. Por lo
tanto, entendemos que si el valor estandarizado de un coeficiente es mayor o igual
que 2, dicho coeficiente es significativamente distinto de 0. En general, a mayor
valor de ci mayor es la probabilidad a priori de que la variable Xi tenga un coeficiente igual a 0 y más fuerte tiene que ser el efecto de dicha variable sobre T para
que entre a formar parte del modelo. Las constantes a = 0.1 , m = 6 se han elegido siguiendo las indicaciones dadas en Gray (1994). Así mismo hemos tomado g =
30 y {a1,...,a30} elegidos de forma que el número de fallos en cada subintervalo (ai1,ai]; i=1,...,31 es el mismo. Otros valores de g superiores a 30 no afectaron esencialmente a los resultados del proceso de selección
6.2.2 Resultados obtenidos
Ejecutamos el algoritmo 3.3.1 tomando como punto de partida los estimadores
máximo-verosimiles de los parámetros β como valores iniciales de β, {γi = 1;
i=1,...,14}, los valores de los logaritmos de estimación de Breslow de la función de
azar vaselina en los puntos {ai; i=1,...,g+1} como valores iniciales de α y la precisión de estos valores como valor inicial de τ. El algoritmo se ejecutó 11000 iteraciones de las cuales fueron descartadas las 1000 primeras para evitar el efecto de los
valores iniciales.
En la tabla 2 se muestran los modelos pertenecientes a la ventana de Occam de
Madigan y Raftery (1994) con C = 20, es decir, aquellos modelos más probables y
más parsimoniosos para los cuales no hay evidencia fuerte de rechazo. En la tabla
1 figuran las probabilidades a posteriori de que cada una de las variables analizadas tenga un efecto significativo sobre el tiempo de permanencia en el desempleo.
190
ESTADÍSTICA ESPAÑOLA
Tabla 2
MODELOS SELECCIONADOS Y SU COMPORTAMIENTO PREDICTIVO
Modelo
Frecuen-
CVP(M)
% aciertos
cia
Niv2,Nivpro0,Nivpro1,Nivpro2,Edad3,Edad4
314
0.1705
46.40 (30.16)*
Niv2,Nivpro0,Nivpro2,Edad3,Edad4,Edad5
189
0.1708
46.88 (31.72)
Niv2,Nivpro0,Nivpro1,Edad3,Edad4,Edad5
187
0.1707
46.70 (30.63)
Niv2,Nivpro0,Nivpro1,Edad3,Edad4
171
0.1707
46.70 (30.63)
Niv2,Nivpro0,Nivpro2,Edad3,Edad4
154
0.1708
46.88 (32.03)
Niv2,Nivpro1,Nivpro2,Edad3,Edad4
131
0.1707
46.05 (29.84)
Niv2,Nivpro1,Edad3,Edad4
123
0.1709
46.82 (30.31)
Niv2 ,Edad3,Edad4
120
0.1712
46.76 (30.16)
Nivpro0,Nivpro1,Nivpro2,Edad3,Edad4,Edad5
31
0.1708
46.58 (30.78)
Nivpro0,Nivpro1,Nivpro2,Edad3,Edad4
31
0.1707
46.46 (31.09)
Nivpro0,Nivpro2,Edad3,Edad4,Edad5
26
0.1710
46.99 (32.66)
Nivpro0,Nivpro1,Edad3,Edad4,Edad5
26
0.1710
46.17 (30.00)
Nivpro0,Edad3,Edad4
16
0.1712
47.17 (32.19)
* entre paréntesis está el porcentaje de acierto en todos los elementos de la muestra no censurados
Se observan 3 grupos de variables: el primer grupo, al que pertenecen NIV2,
EDAD3 y EDAD4, incluye a variables con probabilidades a posteriori de ser incluidas en el modelo altas y que figuran en todos los modelos seleccionados. El segundo grupo incluye a NIVPRO0, NIVPRO1, NIVPRO2 y EDAD5, variables todas
ellas con probabilidades a posteriori de ser incluidas en el modelo en torno a 0.5 y
que figuran en algunos de los modelos seleccionados en la tabla 2. El tercer grupo
incluye al resto de las variables que son claramente rechazadas por los datos al
tener probabilidades a posteriori de ser incluidas en el modelo mucho menores que
0.5. Otros valores de los parámetros de la distribución a priori no cambiaron sustancialmente esta clasificación.
SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL
191
6.2.3 Comportamiento predictivo de los modelos seleccionados
En la tabla 2 se presentan los valores estimados de las densidades predictivas a
posteriori (9) para cada uno de los modelos seleccionados, utilizando el estimador
(11). No se observan grandes diferencias entre dichos modelos siendo los modelos
más parsimoniosos los que mejor comportamiento tienen respecto a este criterio.
En dicha tabla también se detallan los resultados del análisis del comportamiento
de dichos modelos en la predicción del tiempo de desempleo de cada individuo de
la muestra y de los individuos de la misma cuyo tiempo no está censurado, distinguiendo entre parados de corta (menos de 18 meses), media (de 18 a 30 meses) y
larga duración que corresponden a tomar s=3, T1 = 18 y T2 = 30 en (12). Se observa que todos los modelos muestran un comportamiento similar oscilando los porcentajes de acierto entre un 46.05% y un 47.17% en todos los individuos de la
muestra y entre un 30% y un 32.66% en los individuos con tiempo no censurado.
Los porcentajes de acierto del modelo ajustado por máxima verosimilitud son
46.29% y 30.47%, respectivamente. Estos porcentajes son bajos debido, muy
probablemente, a que el efecto de las covariables no es muy grande (ver tabla III) y
al elevado porcentaje de censura observado con un 11.20% de los trabajadores
que no han encontrado empleo en todo el periodo de observación.
En la tabla 3 se muestran las estimaciones máximo-verosimiles con sus errores
estándar y las medias y desviaciones típicas a posteriori de los coeficientes
estimadas utilizando las medias de la muestra (8). Los errores estándar de Monte
Carlo para las medias a posteriori oscilaron entre 0.0011 y 0.002. Se observa que
ambas estimaciones son muy similares dada el elevado número de observaciones
disponibles. Los efectos más fuertes y significativos corresponden a las variables
seleccionadas por el algoritmo. La influencia de las covariables analizadas es, en
general, débil dado que el coeficiente beta más elevado en valor absoluto es 0.4 y
de ahí las escasas diferencias en el comportamiento predictivo observadas anteriormente. Se puede concluir que los trabajadores con una edad comprendida entre
25 y 40 años y, en menor medida, los de edades comprendidas entre 40 y 55 años,
con un nivel de estudios elemental y con un nivel profesional bajo (ayudantes,
auxiliares, peones y aprendices) tienen una probabilidad significativamente superior
de encontrar trabajo que el resto de los trabajadores.
192
ESTADÍSTICA ESPAÑOLA
Tabla 3
ESTIMACIONES DE LOS COEFICIENTES β
Variable
MLE (Error estándar)
Media a posteriori (Desv. Típica)
SEXO
0.074 (0.043)
0.064 (0.042)
EDAD1
-0.103 (0.073)
-0.059 (0.060)
EDAD2
0.004 (0.083)
0.031 (0.064)
EDAD3
0.400 (0.097)
0.410 (0.052)
EDAD4
0.380 (0.105)
0.384 (0.035)
EDAD5
0.198 (0.093)
0.194 (0.036)
NIV1
0.059 (0.077)
0.052 (0.063)
NIV2
0.291 (0.077)
0.264 (0.046)
NIV3
0.072 (0.062)
0.052 (0.038)
NIVPRO0
-0.184 (0.064)
-0.146 (0.058)
NIVPRO1
-0.155 (0.054)
-0.127 (0.046)
NIVPRO2
-0.142 (0.052)
-0.114 (0.040)
NIVPRO3
0.009 (0.058)
0.010 (0.036)
IDIOMA
0.009 (0.048)
-0.001 (0.043)
En el gráfico 1 se muestran las curvas de supervivencia estimadas utilizando la
estimación MLE y la estimación bayesiana correspondientes a un individuo medio
de la base de datos analizada cuyas características son las de una mujer sin conocimiento de idiomas, con un nivel de estudios elemental, con una edad comprendida entre 30 y 40 años y con un nivel profesional de ayudante o auxiliar. Se observa
que ambas estimaciones son muy similares y ponen de manifiesto que es en los
primeros meses de desempleo cuando un trabajador tiene más probabilidades de
encontrar un empleo. Si no lo ha encontrado en estos primeros días es difícil que
salga del desempleo.
SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL
193
Gráfico 1
CURVAS DE SUPERVIVENCIA ESTIMADAS
7. CONCLUSIONES
Se ha propuesto un método para llevar a cabo el proceso de selección de variables en el modelo de azar proporcional de Cox basado en algoritmo SSVS propuesto por George y McCulloch (1993 a y b, 1997). El método permite, además,
estimar la función de azar vaselina y las funciones de supervivencia individuales
teniendo en cuenta la incertidumbre asociada al proceso de selección del modelo y
estimación de los parámetros del mismo. El proceso de selección se refina evaluando el comportamiento predictivo de los modelos más compatibles con los datos
utilizando el factor pseudo-bayes y el porcentaje de aciertos en la predicción cualitativa del tiempo de desempleo de un trabajador conociendo las características del
mismo. Por último se ha aplicado la metodología al análisis del Mercado Laboral en
Aragón poniéndose de manifiesto que son los trabajadores con una edad comprendida entre 25 y 40 años, con un nivel de estudios elemental y un nivel profesional
194
ESTADÍSTICA ESPAÑOLA
bajo los que tienen una probabilidad significativamente superior de encontrar un
trabajo que el resto de los trabajadores.
En el modelo propuesto se supone que los intervalos en los que la vaselina es
constante es conocido. Una hipótesis más realista, en la que estamos trabajando
actualmente, sería permitir que el número y la localización de estos intervalos fuera
un parámetro a determinar por el método.
APÉNDICE: DISTRIBUCIONES COMPLETAMENTE CONDICIONADAS DE (7)
Las distribuciones completamente condicionadas de la distribución a posteriori
vienen dadas por las siguientes expresiones.
g+1


α j − α j−1
a+
g+m
j=2
−τ | α,β,γ,t,X,δ ∼ * 
,
2
 2


∑(

)2 




(A.1)
De (7) se deduce que:
g+1
[τ | α,β,γ,t,X,δ ] ∝
∏ [α j α j−1 τ] [τ|a,m] ∝ τ
,
g+ m
−1
2
j=2
g+1

α j − j−1
 a+

j=2
exp − τ
2



∑(

)2 





de donde se sigue (A.1)
- β | α,τ,γ,t,X,δ
De (7) se deduce que:
[β|α,τ,γ,t,X,δ] ∝ L(α,β|γ,t,δ ,X) [β|γ] ∝
g+1 
x


j=1 
i∈S
∏∏
j


 β' Dγ−1R−1D−γ 1β 
x
2


exp −
 j−1
[δ iβx i ]∏ exp− exp[β ′x i ] ∑ λ k (ak
exp
i∈S
j

 k =1
− ak −1 ) + λ j
(i−
t

a j−1
) 
 
SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL
j−1
N
Si definimos E =
∑ δi
i=1
xi ,
ui =
∑ λk (
k =1
ak
− ak −1 ) + λ j
(i−
t
a j−1
)
195
si i∈Sj se tiene
que:

N


i=1

 β' Dγ−1R−1D−γ 1β 

2


[β| α,τ,γ,t,X,δ ] ∝ exp [β ′Ε] exp − ∑ ui exp[β ′x i ] exp −
(A.2)
Esta distribución no tiene una forma estándar por lo que no es posible extraer
una muestra de esta distribución de forma directa. Gray (1994) utiliza el método de
aceptación y rechazo utilizando una distribución normal propuesto por Zeger y
Karim (1991) y muestrea cada componente del vector β por separado. Esta forma
de muestreo puede ser muy ineficiente si el número de covariables analizadas es
grande o si dichas covariables están muy relacionadas entre si, pudiendo provocar,
además, una ralentización en la convergencia en el Gibbs sampling. Por otro lado,
Gray (1994) no demuestra que dicha distribución domine en todas partes a las
distribuciones completamente condicionadas de (A.2) limitándose a decir que en los
ejemplos analizados con este método no se ha econtrado ningún punto donde se
encuentre que esto no ocurre así. Una solución a este problema es la propuesta
por Tierney (1994) (sección 2.3.4) que utiliza el algoritmo de Hastings-Metropolis
para refinar las muestras producidas por el método de aceptación y rechazo cuando
la distribución utilizada para extraer las muestras no domina en todas partes a la
distribución analizada. Este es el método utilizado en el paso 3.b) de nuestro algoritmo en el que hemos tomado como distribución aproximante una Np(b,Cov(b))
donde b es el estimador máximo-verosimil de β y Cov(b) es la matriz de varianzas y
covarianzas de dicho estimador. La constante c del algoritmo propuesto por Tierney
(1994) se ha elegido de forma que el valor de la distribución normal utilizada y de la
expresión (A.2) coincidan en β= b. En el ejemplo analizado el porcentaje de rechazos osciló entre un 40 y un 60%. Probablemente otras formas de construir la distribución aproximante y la constante c pueden mejorar la eficiencia del método y esto
queda como tema de investigaciones futuras.
- α | τ,β,γ ,t,X,δ
De (7) se deduce que:
g+1
[α |τ,β,γ,t,X,δ] ∝ L(α,β |γ,t,δ,X) [α1]
∏ [α j α j−1 τ] ∝
,
j=2
196
ESTADÍSTICA ESPAÑOLA
∝
g+1 


j=1 
i∈S
∏ ∏
j


 j−1

λδji exp[δ iβ ′ x i ] exp− exp[β ′x i ] λ k (ak − ak −1 ) + λ j t i − a j−1


i∈S
 k =1
(
∑
∏
j
[
x exp α1 − a1eα1
] ∏ exp− τ (α j − 2α j 1 )

j 2

g+1
−
2

=



 
)  x
 
(A.3)
En este caso, dada la dificultad de obtener una muestra conjunta de α, la obtenemos de cada uno de los parámetros αj. Para ello seguimos el método de aceptación y rechazo de Gray (1994). De (A.3) se sigue que, si α-j = α - {αj}, entonces:
[αj| α-j,τ,β,γ,t,X,δ] ∝
∝
exp[ E jα j -Tj e
αj

] exp− ν j

(α j − µ j )2 
2

donde:
Ej =
=
∑ δ i +1
si j =1
i∈Sj
∑ δi
si j>1
i∈Sj
∑ exp[β′x i ]+ ∑ t i exp[β′x i ] + a1 si j=1
Tj = a1
= (aj - aj-1)
ti >a1
i∈S1
∑ exp[β′x i ] + ∑ (t i − a j−1 )exp[β′x i ] si 1 < j < g+1
ti >a1
=
i∈Si
∑ (t i − ag )exp[β′x i ] si j = g+1
i∈Sg+1
µ1 = α2, ν1 = τ
µj =
α j−1 + α j+1
2
, νj = 2τ si 1 < j < g+1
(A.4)
SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL
197
µg+1 = αg, νg+1 = τ
Se sigue de (A.4.) que esta distribución es un producto de una densidad normal
y una densidad log-gamma. Esta fórmula es proporcional a:
exp[αj(Ej + νj(µj-mj) -Tj e
αj

] exp− ν j

(α j − j )2 
m

2
(A.5)
para cualquier número real mj. La moda de la densidad normal es mj y la de la
 Ej + ν j (µ j − mj ) 
 . Elegimos ml de forma que ambas


Tj


modas son iguales y se toma como función dominante el valor de la expresión (A.5)
en ml, aplicando el método de aceptación y rechazo tomando como distribución de
densidad log-gamma es log 
muestreo una N(mj,
1
νj
).
γi| α,τ,β,γ-i,t,X,δ donde γ-i = γ - {γi}
De (7) se sigue que:
[γ|t,α,β,δ ,X] ∝ [β|γ] [γ] ∝
1
 β' Dγ−1R−1D−γ 1β 

2


exp −
Dγ
(A.6)
de donde se sigue que:
[γi| α,τ,β,γ-i,t,X,δ] = [γi| β,γ-i] ∝
1
di

 β i2
β
exp −
− i
2
di
 2di

p
βj
j=1
j≠i
dj
∑


Rij  = ri(γi)


(A.7)
-1
donde di = σi((1-γi) + γici) y R = (Rij). Esta distribución es discreta con soporte {0,1}
y con una función de probabilidad dada por:
P[γi = 0 | β,γ-i ] =
P[γi= 1 | β,γ-i] =
ri (0)
ri (0)
ri (1)
ri (0)
+ ri (1)
+ ri (1)
(A.8)
198
ESTADÍSTICA ESPAÑOLA
REFERENCIAS
ARJAS, E. and GASBARRA, D. (1994). «Nonparametric Bayesian Inference From
Right Censored Survival Data Using the Gibbs Sampler». Statistica Sinica, 4,
505-524.
CLYDE, M. (1998). «Bayesian model averaging and model search strategies». In
Bayesian Statistics 6, ed. J.M. Bernardo, J.O. Berger, A.P. Dawid and A.F.M.
Smith. Oxford University Press.
CLYDE, M.; DESIMONE-SASINOWSKA, H. and PARMIGIANI, G. (1996). «Prediction via
orthogonalized model mixing». Journal of the American Statistical Association,
91, 1197-1208.
COX, D.R. (1972). «Regression Models and Life Tables», Journal of the Royal
Statistical Society Ser. B, 39, 86-94.
COWLES, M.K. and CARLIN, B.P. (1997) «Markov Chain Monte Carlo Convergence
Diagnostics: A Comparative Review». Journal of the American Statistical Association, 91, 883-904.
DEY, P.; MÜLLER, P. y SINHA, D. (1998). «Practical Nonparametric and Semiparametric Bayesian Statistics» New-York. Springer-Verlag.
DOSS, H. (1994) «Bayesian Nonparametric Estimation for Incomplete Data via
Successive Substitution Sampling» The Annals of Statistics, 22, 1763-1786.
GEISSER, S. and EDDY, W. (1979) «A predictive approach to model selection».
Journal of the American Statistical Association, 74, 153-160.
GELFAND, A. and DEY, D.K. (1994) «Bayesian Model Choice: Asymptotics and Exact
Calculations», Journal of the Royal Statistical Society, Ser. B, 56, 501-514.
GELFAND, A. and MALLICK, B. (1995). «Bayesian Analysis of Proportional Hazards
Model Built From Monotone Functions», Biometrics, 51, 843-852.
GELMAN, A. and RUBIN, D.B. (1992) «Inference From Iterative Simulation Using
Multiple Sequences» (with discussion), Statistical Science, 7, 457-511.
GEORGE, E.I. and MCCULLOCH, R.E. (1993 a) «Variable Selection via Gibbs Sampling». Journal of the American Statistical Association, 88, 881-889.
GEORGE, E.I. and MCCULLOCH, R.E. (1993 b) «Stochastic search variable selection»
in Practical Markov Chain Monte Carlo in Practice (Edited by W.R. Gilks, S. Richardson and D.J. Spiegelhalter), 203-214. Chapman & Hall. London.
GEORGE, E.I.. and MCCULLOCH, R.E. (1997) «Approaches for Bayesian Variable
Selection», Statistica Sinica, 7, 339-374.
SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL
199
GEWEKE, J. (1996). «Variable Selection and Model Comparison in Regression». In
Bayesian Statistics 5, ed J.M.Bernardo, J.O. Berger, A.P.Dawid and A.F.M.
Smith. Oxford Press. pp. 609-620.
GEWEKE, J. (1998). «Using Simulation Methods for Bayesian Econometric Models:
Inference, Development and Communication», Econometric Reviews, forthcoming (with discussion and rejoinder).
GRAY, R.J. (1994) «A Bayesian Analysis of Institutional Effects in Multicenter Cancer Clinical Trial», Biometrics, 50, 244-253.
MADIGAN, D.M. and RAFTERY, A.E. (1994). «Model selection and accounting for
model uncertainty in graphical models using Occam’s window». Journal of the
American Statistical Association, 89, 1535-1546.
RAFTERY, A.E.; MADIGAN, D.M. and HOETING, J. (1997). «Bayesian Model Averaging
for Linear Regression Models». Journal of the American Statistical Association
92, 179-191.
RAFTERY, A.E.; MADIGAN, D.M. and VOLINSKY, C.T. (1996). «Accounting for Model
Uncertainty in Survival Analysis improves Predictive Performance (with discussion)». In Bayesian Statistics 5, ed. J.M. Bernardo, J.O. Berger, A.P. Dawid
and A.F.M. Smith. Oxford Press, 323-350.
ROBERT, C.P. and CASELLA, G. (1999). «Monte Carlo Statistical Methods». New
York: Springer-Verlag.
Sinha, D. and DEY, D. (1997) «Semiparametric Bayesian Analysis of Survival Data».
Journal of the American Statistical Association, 92, 1195-1212.
TANNER, M.A. (1996) «Tools for Statistical Inference: Methods for the Exploration of
Posterior Distributions and Likelihood Functions (3rd de.)» New-York. SpringerVerlag.
TIERNEY, L. (1994) «Markov Chains for Exploring Posterior Densities», The Annals
of Statistics, 82, 528-550.
VOLINKSY, C.; MADIGAN, D; RAFTERY, A.E. and KRONMAL, R. (1997). «Bayesian
model averaging in proportional hazard models: assessing stroke risk». Applied
Statistics, 46, 433-448.
200
ESTADÍSTICA ESPAÑOLA
VARIABLE SELECTION IN THE PROPORTIONAL HAZARD
MODEL. AN APPLICATION TO THE LABOUR MARKET
SUMMARY
In this paper a variable selection semiparametric bayesian procedure is proposed in the Cox (1972) model. The method is based on
the stochastic variable selection (SSVS) procedure of George and
McCulloch (1993 a, b, 1997) and takes into account the uncertainty
associated with the selection process. Furthermore, it allows to forecast the survival function of an individual. The method is applied to the
analyisis of the labour market in Aragon.
AMS Classification: 62N01, 62N02, 62F15, 62P25
Descargar