ESTADÍSTICA ESPAÑOLA Vol. 44, Núm. 150, 2002, págs. 175 a 200 Selección de Variables en el modelo de azar proporcional. Una aplicación al Mercado Laboral por LAURA MUÑOZ PILAR OLAVE(*) MANUEL SALVADOR Facultad de Ciencias Económicas y Empresariales Universidad de Zaragoza RESUMEN Este artículo presenta un procedimiento semiparamétrico de naturaleza bayesiana en el contexto de selección de variables para el modelo de Cox (1972). El método está basado en el procedimiento estocástico de selección de variables propuesto por George y McCulloch (1993 a, b, 1997). La metodología presentada se aplica al análisis del mercado laboral en Aragón. Palabras clave: Selección de Variables; Modelo de Azar Proporcional; Inferencia Bayesiana; MCMC Clasificación AMS: 62N01, 62N02, 62F15, 62P25 (*) Este trabajo ha sido financiado parcialmente por el proyecto P141-2001 del Departamento de Educación de la Diputación General de Aragón titulado "Mercado de Trabajo y Formación Laboral. Estudio de la Calidad de los Programas de Formación" administrado por la Universidad de Zaragoza. 176 ESTADÍSTICA ESPAÑOLA 1. INTRODUCCIÓN Desde la aparición del trabajo de Cox (1972) el modelo de azar proporcional ha sido uno de los más utilizados en el análisis de supervivencia aplicado, a la hora de modelizar la influencia que un conjunto de covariables independientes ejercen sobre el tiempo de supervivencia de un individuo. Ello es debido a su flexibilidad para modelizar un gran número de situaciones diferentes y la clara interpretabilidad de sus resultados. Un problema de interés al utilizar dicho modelo es la modelización y estimación de la función de azar vaselina la cual permite, en particular, la posibilidad de proporcionar estimaciones de las funciones de supervivencia de distintas clases de individuos. La forma habitual de abordar este problema es estimarla no paramétricamente. Recientemente, sin embargo, han adquirido una gran relevancia los métodos bayesianos semiparamétricos, en buena medida debido a la aparición de los métodos MCMC (Monte Carlo Markov Chain) (Sinha y Dey (1997), Dey et al. (1998)) que han facilitado, enormemente, el cálculo de la distribución a posteriori de los parámetros y funciones de supervivencia objeto de interés. Este tipo de métodos han posibilitado, además, la adopción de procesos a priori más generales y realistas que los procedimientos tipo Dirichlet (ver, por ejemplo, Doss (1994)) tradicionalmente utilizados en la literatura bayesiana no paramétrica debido a su mejor tratabilidad analítica, abriendo la posibilidad de imponer restricciones de forma sobre la función de azar (Arjas y Gasbarra (1994), Gray (1994) o Gelfand y Mallick (1995)) problema que desde el punto de vista clásico es muy dificil de abordar. En este trabajo se aborda el problema de la selección de las covariables del modelo de Cox desde una óptica bayesiana mediante métodos MCMC. Este tipo de métodos han sido utilizados en problemas de selección de variables en modelos de regresión lineal (ver, por ejemplo, George y McCulloch (1993 a y b, 1997), Clyde et al. (1996), Geweke (1996), Raftery et al. (1997) y Clyde (1998)) y permiten resolver dos de los problemas más importantes a los que se enfrenta el paradigma bayesiano a la hora de ser implementado en este contexto: por un lado el de la integración requerida para calcular la distribución marginal del modelo, necesaria para el cálculo del factor Bayes; por otro lado el de la exploración eficiente del espacio de modelos que puede llegar a ser muy grande si el número de potenciales covariables explicativas es elevado. En el contexto del análisis de supervivencia, Raftery et al. (1996) y Volinsky et al. (1997) analizan dicho problema utilizando el algoritmo propuesto por Madigan y Raftery (1994) que permite calcular el conjunto de modelos más compatibles con SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL 177 los datos (al que estos autores denominan ventana de Occam). Sin embargo, estos métodos no permiten la estimación de la función de azar vaselina de un modelo y, por lo tanto, la de la función de supervivencia de un individuo, al estar basados en la función de verosimilitud parcial de Cox. En este trabajo se propone una metodología alternativa para llevar a cabo el proceso de selección de variables en el modelo de Cox que permite, además, la estimación de la función de azar vaselina. Para ello tomamos como punto de partida el modelo analizado en Gray (1994) y utilizamos el método de selección estocástica de variables SSVS propuesto por George y McCulloch (1993 a, b y 1997). Utilizando dicho procedimiento es posible identificar los modelos más compatibles con los datos y estimar funciones de supervivencia individuales las cuales permiten, en particular, analizar el comportamiento predictivo del modelo. La metodología propuesta se aplica al análisis del mercado laboral. Más concretamente, se analizan los datos disponibles en las oficinas del INEM de Zaragoza para una muestra de desempleados en el periodo comprendido entre el 1 de Enero de 1990 y el 30 de Abril de 1998. Utilizando nuestra metodología se determinan cuáles son los factores que determinan la permanencia en el desempleo de un trabajador y se analiza el comportamiento predictivo del modelo a partir de la estimación de las curvas de desempleo individuales. Se observa que son los trabajadores con una edad comprendida entre 25 y 40 años, nivel de estudios elemental y nivel profesional bajo, los que tienen una probabilidad significativamente mayor de encontrar un trabajo. El plan del trabajo es como sigue: en la sección 2 se plantea el modelo a analizar y las distribuciones a priori sobre la función de azar vaselina y los coeficientes del modelo de Cox; en la sección 3 se describe el algoritmo utilizado para la selección de las covariables del modelo y cómo utilizar dichos resultados para llevar a cabo el proceso de selección de variables; en las secciones 4 y 5 se describe cómo utilizar los resultados anteriores para comparar los modelos pre-seleccionados y para estimar los parámetros del modelo de Cox y las funciones de supervivencia; en la sección 6 se aplica la metodología descrita para analizar las covariables más influyentes en el paro en Aragón; finalmente, se exponen las conclusiones del trabajo y las direcciones de investigación futuras. Se incluye, además, un apéndice matemático en el que se calculan las distribuciones completamente condicionales necesarias para implementar el algoritmo SSVS. 178 ESTADÍSTICA ESPAÑOLA 2. PLANTEAMIENTO DEL PROBLEMA 2.1 Los datos Sea T el tiempo de supervivencia de un individuo ’ Se dispone de una muestra de N individuos {(xi ,ti,δi); i = 1,...,N} donde: ’ xi = (xi1,...,xip) es el vector de covariables del i-ésimo individuo ti = tiempo de supervivencia del indivíduo i-ésimo δi = I{T > t } indica si existe censura o no por la derecha en el individuo i-ésimo donde IA es la función indicador del conjunto A. i 2.2 El modelo Sea h(t) la función de azar de la variable T. El modelo de regresión de Cox (1972) supone que: h(t) = ho(t)exp[β’x] siendo ho(t) la función de azar vaselina, x’ = (x1,....,xp) el vector de covariables y β’ = (β1,...,βp) el vector de parámetros. Supondremos, al igual que hace Gray(1994), que la función de azar vaselina es constante a trozos y que viene dada por: ho(t) = λj si t∈Ij = (aj-1,aj] j=1,...,g+1 (1) siendo ao = 0 < a1 < ... < ag+1 = ∞ fijos. 2.3 Distribución a priori Para construir la distribución a priori definimos, en primer lugar, los indicadores γ1,...,γp dados por: γi = 1 si la covariable Xi entra en el modelo y 0 si no entra; i=1,...,p. ( (( − γ1) + γ1 1 ) Sea γ = (γ1,...,γp)’ y Dγ = diag σ1 son constantes i = 1,...,p. Supondremos que: 1 c ,..., σp (( − γp )+ γp p )) donde σi, ci 1 c SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL 179 βγ ∼ Np(0, DγRDγ) (2) γi∈{0,1} de forma que P[γi = 0] = 1-pi; P[γi = 1] = pi ∈[0,1], i=1,…,p (3) donde R es la matriz de correlación a priori de los coeficientes β1,...,βp. La distribución a priori de los valores de la función de azar vaselina (1) se construye sobre los valores {αj = log λj; j=2,...,g+1} y viene dada por: αj = αj-1 + εj j = 2,...,g+1 con 2 α1 ∼ log E(a1); εj ~ N(0,σ ) ,j=2,...,g+1 ; τ= 1 σ 2 m a , independientes 2 2 ~ G (4) siendo log E(a1) la distribución logarítmico exponencial y a,m∈R+ constantes. Observación 2.1 De (2) se sigue que: βi Gγi ∼ (1-γi)N(0, σ i ) + γiN(0, c i 2 2 σ 2i ) i=1,...,p que es la mixtura utilizada por George y McCulloch (1993 a) en el problema de selección de variables en regresión lineal. ■ Observación 2.2 1) Los indicadores {γi, i=1,...,p} señalan los coeficientes βi que son significativamente diferentes de 0 y los que no de forma que, si un coeficiente no es significativamente distinto de cero, entenderemos que la covariable correspondiente no debe forma parte del mismo. 2) Las constantes { σi2 i=1,...,p} nos indican cuándo los coeficientes {βi; i=1,...,p} son significativamente distintos de cero de forma que si el cociente βi σi es grande entenderemos que el efecto de la covariable Xi sobre la variable T es significativo. 180 ESTADÍSTICA ESPAÑOLA 3) Las constantes { c i2 L ,p} se eligen de forma que las distribuciones 2 {N(0, c i2 σ i ;i=1,...,p} sean difusas. Dichas distribuciones se toman como distribuciones a priori de los coeficientes {βi ; i=1,...,p} si el efecto de la covariable correspondiente es significativo, y permiten a los datos dar información acerca del signo y valor de dicho efecto. 4) Las constantes {pi; i=1,...,p} son las probabilidades a priori de que cada una de las covariables analizadas forme parte del modelo. Si no se dispone de información previa acerca de ellas tomaremos pi = 0.5; i=1,...,p. En George y McCulloch (1993 a) se dan criterios para elegir estas constantes así como la matriz R, algunos de los cuales se aplican más adelante (ver sección 6) Observación 2.3 El proceso a priori sobre la función de azar vaselina coincide con el propuesto por Gray (1994) para realizar un análisis bayesiano semiparamétrico del modelo de Cox. Dicho proceso tiene una estructura de paseo aleatorio sobre los valores de αj, j=1,..,g+1 con el fin de exigir un cierto grado de suavidad a la función de azar 2 vaselina. El parámetro σ controla dicha suavidad de forma que, cuanto más grande sea su valor, menor será el grado de suavidad de la función de azar vaselina. La elección de las constantes g, {a1,...,ag}, a y m es discutida en Gray (1994) (ver sección 5 para su aplicación en este contexto). La distribución a priori sobre α1 se ha elegido de forma que la distribución a priori sobre S(a1|X=0) = P(T>a1|X=0) = exp(λ1a1) es U(0,1). 2.4 Función de verosimilitud ’ Sean t’ = (t1,...,tN), α’ = (α1,....,αg+1), δ = (δ1 ,..., δN) y X’ = (x1,...,xN) Sea f(t |α}β) la f.d.d. del tiempo de permanencia en el paro Sea S(t |α}β) = P[T>t |α}β) la función de supervivencia de T La función de verosimilitud del modelo viene dada por: N L(α}β |t,δ,X) = ∏( i =1 f ti N = δ ∏ ( i α β i) ht i=1 , ,x i α, β, xi ) δi − exp t ( S ti 1− δ α , β, xi ) ∫0 ( α β i ) t i ht , ,x d i = = 181 SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL = δi N ∏ ( α) h0 t i i=1 t 0 [δ iβ x i ]exp− exp[β x i ]∫ h0 (t α )dt exp i (5) Sea Sj = {i∈{1,...,N} tales que ti∈Ij } j =1,...,g+1. Se tiene que: L(α}β |t,δ,X) = = g+1 ∏ ∏ λδj j=1 i∈Sj i (6) j−1 [δ iβx i ]∏ exp− exp[βx i ] ∑ λ k (ak exp i∈Sj k =1 − ak −1 ) + λ j (i− t a j−1 ) 3. CÁLCULO DE LA DISTRIBUCIÓN A POSTERIORI En lo que sigue denotaremos por [X] la densidad de la variable X y por [X|Y| la densidad condicionada de X por la variable Y. 3.1 Distribución a posteriori La distribución a posteriori de los parámetros α\ β YLHQH GDGD SRU g +1 [αβ}γ}τ|t,δ,X] ∝ L(α}β |t,δ,X) [β|γ] [γ][α1] ∏ [α j α j−1 , τ] [τ|a,m] ∝ j= 2 ∝ = g+1 δi λj j=1 i∈Sj ∏ ∏ j−1 [δ iβx i ]∏ exp− exp[βx i ] ∑ λ k (ak exp i∈Sj k =1 − ak −1 ) + λ j (i− t a j−1 ) x x 1 Dγ β' D−γ 1R−1D−γ 1β g −1 exp − τ 2 exp α1 − a1eα1 2 [ m −1 2 exp − xτ τ 2 a g+1 ]∏ j=2 ( α j − α j−1 − τ 2 exp )2 (7) Esta distribución no tiene una forma analítica tratable por lo que, de cara a realizar inferencias acerca de los parámetros del modelo, tenemos que recurrir a méto- x 182 ESTADÍSTICA ESPAÑOLA dos aproximados. Dado que el número de parámetros puede ser bastante elevado utilizaremos los métodos MCMC y, más concretamente, el Gibbs sampling (ver, por ejemplo, Tanner (1996) o Robert y Casella (1999)) como se detalla a continuación. 3.2 Los métodos MCMC La idea básica subyacente a los métodos MCMC consiste en construir una cadena de Markov cuya única distribución estacionaria sea la distribución a posteriori y de forma que, bajo ciertas condiciones (ver, por ejemplo, Tierney (1994)), la cadena converja a dicha distribución. De esta forma, si se simula el funcionamiento de la cadena durante un número de iteraciones lo suficientemente grande para que la cadena haya convergido, se obtendrá una muestra aproximada de la distribución a posterior objeto de interés. Existen diversos métodos para construir dicha cadena (ver Tierney (1994) para algunas posibilidades) de entre los cuales el más utilizado es el Gibbs sampling que es el que usaremos en este trabajo. 3.3 Selección estocástica de variables mediante el Gibbs sampling Para aplicar el Gibbs sampling necesitamos calcular las distribuciones completamente condicionadas de cada uno de los parámetros del modelo. La forma de dichas distribuciones viene deducida en el apéndice. Utilizando dichas distribuciones el algoritmo para calcular una muestra aproximada de la distribución a posteriori (7) es el siguiente: 3.3.1 Algoritmo Paso 0) Inicialización del algoritmo Comenzamos la ejecución de la cadena obteniendo un conjunto de valores ini(",0) (",0) (",0) ,β ,γ ); "=1,...,k} para comenzar la ejecución de la cadena donde ciales {(α k es el número de cadenas en paralelo que se van a ejecutar. Los valores iniciales de βse han tomado extrayendo k muestras de la distribución Np(b,Cov(b)) donde b es el estimador máximo-verosimil de β y Cov(b) su matriz de varianzas y covarianzas estimada. Los valores iniciales de α se han tomado iguales a los valores de la estimación no paramétrica de Breslow de la función de azar vaselina, calculados en los puntos {a1,...,ag}. Los valores iniciales de γ se han calculado extrayendo k muestras de la distribución a priori de los parámetros γi , i=1,...,k. 183 SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL Fijar nitermax número máximo de iteraciones y poner n=1. Paso 1) Ejecución de un paso del Gibbs sampling Repetir para " = 1,...,k, los pasos 1.a), 1.b), 1.c) y 1.d) siguientes. 1.a) Extraer τ (" ,n) a+ g+m (",n-1) (",n-1) (",n-1) }β }γ , de τ | α ,t,X,δ∼ * 2 + ∑ (α g 1 j ( " ,n −1) j −α ( " ,n − −1) j 1 =2 ) 2 2 donde G(α}β) denota la distribución gamma con parámetro de forma α y parámetro de escala β. 1.b) Extraer β (",n) (",n-1) (",n) de β | α ,τ ,γ (",n) ,t,X,δ Para ello utilizamos un paso de Hastings-Metropolis y seguimos los siguientes pasos: 1.b.1) Calcular c (",n-1) (",n-1) =π (b) donde: (β) = exp [β ′ Ε] exp − (",n) π (",n) (",n-1) ∑ ( " ,n ui −1) β D−1" γ exp − 2 [β ] exp = ' xi i 1 ' ( ,n-1) β con E = de una Np(b,Cov(b)) y v1 de una U(0,1) 1.b.2) Extraer b Si v1 < π N (",n) (b ) ir a 1.b.3). En caso contrario ir a 1.b.1) 1.b.3) Se distinguen los siguientes casos: 1.b.3.a) π(",n-1)(β(",n-1))≤F(",n-1)q(",n-1)(β(",n-1)). En este caso β(",n) = b(",n) (",n-1) 1.b.3.b) π (b (",n-1) )≤c (",n-1) (",n-1) q (b (",n-1) ). N ∑δ = i 1 i xi . 184 ESTADÍSTICA ESPAÑOLA En este caso extraer v2 de una U(0,1) y calcular π",n = (",n-1) donde q (β) es la función de densidad de una Np(β si v2 ≤ π",n; en caso contrario poner β(",n) = β(",n-1). (",n-1) ,S c (" ,n−1) (" ,n−1) q (" ,n−1) π (",n-1) (β ). Poner β (β (" ,n−1) (" ,n−1) (",n) ) ) = b(",n) 1.b.3.c) Si no se verifican los casos anteriores extraer v2 de una U(0,1) y calcular ( ( ) ( π(" ,n−1) β(" ,n−1) q(" ,n−1) b(" ,n) (" ,n−1) (" ,n) (" ,n−1) b q β(" ,n−1) π π",n = min contrario poner β (",n) ) =β ( ) ) ,1 . Poner β (",n) =b (",n) si v2 ≤ π",n; en caso (",n-1) (",n) . (",n) (",n) (",n-1) de α | τ ,β ,t,X,δ. 3DUD HOOR VH DGRSWD 1.c) Extraer α ,γ Hastings-Metropolis realizando, para j =1,...,g+1, los siguientes pasos: 1.c.1) Calcular m (j" ,n ) y ν (j" ,n ) (" ,n) Extraer vj como se detalla en el apéndice. h (j",n ) 1.c.2) Extraer un candidato XQ SDVR GH de la distribución N( m(j" ,n) , ν (j" ,n) ). de una U(0,1). Si (",n−1) B " Bj T(" ,n−1) j ( ,n − 1) j (" ,n) vj (" ,n−1) donde Bj = Ej + ν(j" ,n) 2 (" ,n) (µ j e−B " ( ,n −1) j ≤ exp h(" ,n)B(" ,n−1) − T(",n−1)eh " j j j − m(j",n) ) entonces poner ( ,n) j α(j",n) = h(j" ,n). En caso contrario poner α(j",n) = α(j",n−1) . 1.d) Extraer γ(",n) de α | τ(",n), β(",n), α(",n),t,X,δ DUD HOOR H[WUDHU SDUD L S γ i(" ,n) de una distribución discreta con soporte {0,1} y 3 con probabilidades dadas por las expresiones (A.8) del apéndice evaluadas en β (",n) ( ) y γ1(" ,n) ,..., γi(−"1,n) , γi(+" ,1n−1) ,..., γp(" ,n−1) . Paso 2) Colocar n = n+1 . Si n ≤ nitermax ir al Paso 1). En caso contrario parar. SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL 185 Como resultado de la aplicación del algoritmo se obtiene una muestra aleatoria simple aproximada de la distribución a posteriori (7) dada por: (",n) (",n) (",n) (",n) {(α ,β ,γ ,τ ); "=1,...,k; n = no,no+2s,...,nitermax}(8) donde no es el número de iteraciones requeridas para que la cadena converja y s se elige de forma que la autocorrelación muestral de las series obtenidas sea despreciable de forma que la muestra (8) sea aproximadamente simple. La determinación de no es un problema abierto y no hay una forma aceptada universalmente para su determinación. Una buena revisión de los métodos propuestos puede verse en Cowles y Carlin (1997) y en Robert y Casella (1999). En nuestro caso hemos determinado no mediante la inspección visual de las series de los parámetros βi i = 1,...,p y utilizando el procedimiento de Gelman y Rubin (1992). 3.3.2 Selección de las covariables La selección de las covariables que deben entrar en el modelo se haría a partir de las probabilidades a posteriori P[γ|(t,δ},X] que nos permiten identificar cuales son los modelos más compatibles con los datos observados. En particular se podrían calcular las probabilidades marginales {P[γi_Wδ,}X], i=1,...,p} las cuales nos darían una idea de cuáles son las variables más influyentes sobre T, aunque esta estrategia no tiene en cuenta los efectos interacción entre las variables analizadas. Otra posibilidad sería hallar la llamada ventana de Occam propuesta en Madigan y Raftery (1994) y utilizada en Raftery et al. (1996) y Volinsky et al. (1997). Posteriormente se podrían comparar los modelos seleccionados analizando el comportamiento predictivo de los mismos como se muestra en la sección siguiente. 4. COMPARACIÓN DE LOS MODELOS SELECCIONADOS Una vez determinada la clase de los modelos más compatibles con los datos se podría refinar el proceso de selección evaluando el comportamiento predictivo de la clase de modelos preseleccionada. Esto se podría realizar utilizando el factor pseudo-bayes (Geisser and Eddy, 1979; Gelfand y Dey, 1994) que compara los modelos seleccionados utilizando las densidades predictivas dadas por la expresión: ∏( N CVP(M) = N f ti t(i) , i=1 )δ ( δ(i) , X, M i S ti t(i) , ) −δ δ(i) , X, M 1 i (9) 186 ESTADÍSTICA ESPAÑOLA donde M es el modelo comparado, t(i) = t – {ti}, f(ti|t(i),δ(i)}X,M) = S(ti|t(i),•(i),X,M) = ∫( ∫ ( f ti S ti [ )[α, β δ α, β, x , M) α, β δ i α, β, x i ,M (i) ]α ]α β , t(i) , X(i) , M d d , t (i) , X (i) , M d d (i) β. Para calcular esta puntuación predictiva no haría falta ejecutar de nuevo el algoritmo de la sección 3 para cada uno de los modelos comparados y cada una de las observaciones. Bastaría utilizar el muestreo de importancia (Geweke (1998)) asig(",n) (",n) (",n) nando a cada uno de los elementos de la muestra {(α ,β ,τ ); "=1,...,k; n = no,no+2s,...,nitermax} obtenida en (8), los pesos de importancia dados por: [α ( " ,n) [α ,β " ( ,n) (" ,n) ,β , τ" ( ,n) (" ,n) , δ (i) (" ,n) τ ] [α ] [α ( " ,n) , t(i) , X(i) , M δ, t, X, M ,β " ( ,n) ( " ,n) , τ" ( ,n) ( " ,n) ,β , τ ]∝w (",n ) i −1 −1 δ, t, X, M ( " ,n) δ, t, X ] = = β" − β exp − ( ,n)' 1 (α f ti 1 ( " ,n) , β" ( ,n) ) (α , xi , M δi S ti ( " ,n) , β" ( ,n) ) Dγ − δi exp M 1 , xi , M ∑ 1 Dγ γ Dγ MR -1 Dγ Mβ (" ,n) 2 (" ,n)' −1 -1 −1 Dγ R Dγ 2 β (" ,n) (10) Utilizando estos pesos de importancia el valor estimado de (9) vendría dado por: 1 exp N N ∑ = i 1 log 1 ∑ ( " ,n) w (" ,n) i (11) Otra posibilidad de evaluar el comportamiento predictivo de los modelos, similar a la utilizada en Volinsky et al. (1997), sería dividir el tiempo de supervivencia en s subintervalos (0,T1], (T1,T2],...,(Ts-1,∞) con 0 < T1 < ... < Ts-1 < ∞ fijados por el analista y calcular, para cada individuo, sus probabilidades de fallecimiento: {qij = P{T∈(Τj-1,Tj] |M, t(i) , δ(i), X}; j=1,...,s; i=1,...,N con To = 0, Ts = ∞} (12) y asignarle, como fecha más probable de fallecimiento, aquél subintervalo con mayor probabilidad. Para calcular las probabilidades {qij; j=1,...,s; i=1,...,N} se utilizaría el muestreo de importancia anterior teniendo en cuenta que: SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL 187 qij = E[S(Tj-1 |xi,α,β)- S(Tj |xi,α,β)| t(i) , δ(i), X(i) ] El valor estimado de estas probabilidades vendrá dado por la expresión: ∑ S(T − j 1 xi , α (" ,n) (" ,n) , β (" ,n) ) − S(Tj x i , α (" ,n) , β (",n) ) w i(",n) ∑w (" ,n) 13) i (" ,n) Posteriormente se calcularía, para cada modelo, el porcentaje de aciertos obtenidos. 5. ESTIMACIÓN DEL MODELO DE COX Y DE LA FUNCIÓN DE SUPERVIVENCIA 5.1 Estimación de los coeficientes β Con el fin de tener en cuenta la incertidumbre asociada al proceso de selección del modelo, la estimación de los coeficientes {β1,..., βp} podría realizarse mediante la media o la mediana a posteriori utilizando para ello la muestra obtenida al aplicar el algoritmo 3.3.1 a todos los datos. Utilizando, además, los cuantiles estimados de sus distribuciones a posteriori se podrían construir intervalos bayesianos con una probabilidad a posteriori fijada por el analista. 5.2 Estimación de la función de supervivencia de un individuo La función de supervivencia de un individuo cuyas covariables valen x0 = (x01,...,x0p)’ vendría dada por: S(u|x0,(t,δ,}X)) = P[T > u | x0 ,(t,δ,}X)] = = ∫ P[T > u α, β, γ, x , t, δ, X]dπ(α, β, γ t, δ, X) 0 y se estimaría mediante la expresión: 1 ∑ [ PT M (" ,n) > u α (" ,n) , β(" ,n) , γ (",n) , x0 , t, δ, X ] También podrían darse bandas de confianza para esta función con una probabilidad dada sin más que utilizar, para un valor u dado, los cuantiles de la distribución a posteriori de S(u|x0,(t,δ}X)). Conviene hacer notar que todas estas estimaciones 188 ESTADÍSTICA ESPAÑOLA tienen en cuenta la incertidumbre asociada al proceso de selección y estimación del modelo cuya ignorancia puede dar lugar a estimaciones excesivamente precisas de esta función. 6. ANÁLISIS DEL MERCADO LABORAL DE ZARAGOZA En esta sección ilustramos la metodología propuesta en las secciones anteriores mediante el análisis de un caso práctico: el tiempo de permanencia en el desempleo de los solicitantes de empleo del Instituto Nacional de Empleo (INEM) de Zaragoza. 6.1 Los datos Se dispone de una muestra de 1696 demandantes de empleo del INEM de Zaragoza observada en el periodo de tiempo comprendido entre el 1 de Enero de 1990 y el 30 de Abril de 1998 . Para cada demandante se conoce su tiempo de permanencia en el desempleo, medido en meses, además de los valores de las covariables listadas en la tabla I. Un 62.26% de los casos analizados están censurados por la derecha debido a que no encontraron trabajo en el periodo analizado. El análisis que se describe a continuación se ha realizado con las variables estandarizadas. Tabla I COVARIABLES UTILIZADAS EN EL ANÁLISIS Variable SEXO EDAD1 Codificación 0 = Mujer, 1 = Hombre Menor de 20 años (0 = No, 1 = Sí) P[γi = 1| (t,δX)] 0.3231 0.1944 EDAD2 Entre 20 y 25 años (0 = No, 1 = Sí) 0.1350 EDAD3 Entre 25 y 30 años (0 = No, 1 = Sí) 0.9916 EDAD4 Entre 30 y 40 años (0 = No, 1 = Sí) 0.9765 EDAD5 Entre 40 y 55 años (0 = No, 1 = Sí) 0.4798 NIV1 Sin estudios (0 = No, 1 = Sí) 0.1672 NIV2 Estudios elementales (0 = No, 1 = Sí) 0.9131 NIV3 Estudios intermedios (0 = No, 1 = Sí) 0.1623 NIVPRO0 Técnicos (0 = No, 1 = Sí) 0.5971 NIVPRO1 Directores y Jefes de Equipo (0 = No, 1 = Sí) 0.5896 NIVPRO2 Oficial 1ª, 2ª y 3ª (0 = No, 1 = Sí) 0.5385 NIVPRO3 Ayudantes y auxiliares (0 = No, 1 = Sí) 0.1146 IDIOMA Conocimiento de idiomas (0 = No, 1 = Sí) 0.1426 SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL 6.2 6.2.1 189 Selección de los modelos más compatibles con los datos Selección de los parámetros de la distribución a priori Hemos tomado las constantes {σi; i=1,...,14} iguales a los errores estándar de los estimadores máximo-verosimiles de los coeficientes {βi; i=1,...,14} y las constantes c1 = ... = c14 = 10. Los valores de {ci ; i=1,...,14} se han elegido de forma que el punto de corte entre las distribuciones a priori N(0, σ i2 ) y N(0, c i2σ i2 ), verifica que su valor estandarizado en la distribución N(0, σ i2 ) es, aproximadamente, igual a 2. Dicho punto marca, en la distribución a priori, cuando un coeficiente βi tiene una probabilidad a priori de ser significativamente distinto de cero mayor que 0.5. Por lo tanto, entendemos que si el valor estandarizado de un coeficiente es mayor o igual que 2, dicho coeficiente es significativamente distinto de 0. En general, a mayor valor de ci mayor es la probabilidad a priori de que la variable Xi tenga un coeficiente igual a 0 y más fuerte tiene que ser el efecto de dicha variable sobre T para que entre a formar parte del modelo. Las constantes a = 0.1 , m = 6 se han elegido siguiendo las indicaciones dadas en Gray (1994). Así mismo hemos tomado g = 30 y {a1,...,a30} elegidos de forma que el número de fallos en cada subintervalo (ai1,ai]; i=1,...,31 es el mismo. Otros valores de g superiores a 30 no afectaron esencialmente a los resultados del proceso de selección 6.2.2 Resultados obtenidos Ejecutamos el algoritmo 3.3.1 tomando como punto de partida los estimadores máximo-verosimiles de los parámetros β como valores iniciales de β, {γi = 1; i=1,...,14}, los valores de los logaritmos de estimación de Breslow de la función de azar vaselina en los puntos {ai; i=1,...,g+1} como valores iniciales de α y la precisión de estos valores como valor inicial de τ. El algoritmo se ejecutó 11000 iteraciones de las cuales fueron descartadas las 1000 primeras para evitar el efecto de los valores iniciales. En la tabla 2 se muestran los modelos pertenecientes a la ventana de Occam de Madigan y Raftery (1994) con C = 20, es decir, aquellos modelos más probables y más parsimoniosos para los cuales no hay evidencia fuerte de rechazo. En la tabla 1 figuran las probabilidades a posteriori de que cada una de las variables analizadas tenga un efecto significativo sobre el tiempo de permanencia en el desempleo. 190 ESTADÍSTICA ESPAÑOLA Tabla 2 MODELOS SELECCIONADOS Y SU COMPORTAMIENTO PREDICTIVO Modelo Frecuen- CVP(M) % aciertos cia Niv2,Nivpro0,Nivpro1,Nivpro2,Edad3,Edad4 314 0.1705 46.40 (30.16)* Niv2,Nivpro0,Nivpro2,Edad3,Edad4,Edad5 189 0.1708 46.88 (31.72) Niv2,Nivpro0,Nivpro1,Edad3,Edad4,Edad5 187 0.1707 46.70 (30.63) Niv2,Nivpro0,Nivpro1,Edad3,Edad4 171 0.1707 46.70 (30.63) Niv2,Nivpro0,Nivpro2,Edad3,Edad4 154 0.1708 46.88 (32.03) Niv2,Nivpro1,Nivpro2,Edad3,Edad4 131 0.1707 46.05 (29.84) Niv2,Nivpro1,Edad3,Edad4 123 0.1709 46.82 (30.31) Niv2 ,Edad3,Edad4 120 0.1712 46.76 (30.16) Nivpro0,Nivpro1,Nivpro2,Edad3,Edad4,Edad5 31 0.1708 46.58 (30.78) Nivpro0,Nivpro1,Nivpro2,Edad3,Edad4 31 0.1707 46.46 (31.09) Nivpro0,Nivpro2,Edad3,Edad4,Edad5 26 0.1710 46.99 (32.66) Nivpro0,Nivpro1,Edad3,Edad4,Edad5 26 0.1710 46.17 (30.00) Nivpro0,Edad3,Edad4 16 0.1712 47.17 (32.19) * entre paréntesis está el porcentaje de acierto en todos los elementos de la muestra no censurados Se observan 3 grupos de variables: el primer grupo, al que pertenecen NIV2, EDAD3 y EDAD4, incluye a variables con probabilidades a posteriori de ser incluidas en el modelo altas y que figuran en todos los modelos seleccionados. El segundo grupo incluye a NIVPRO0, NIVPRO1, NIVPRO2 y EDAD5, variables todas ellas con probabilidades a posteriori de ser incluidas en el modelo en torno a 0.5 y que figuran en algunos de los modelos seleccionados en la tabla 2. El tercer grupo incluye al resto de las variables que son claramente rechazadas por los datos al tener probabilidades a posteriori de ser incluidas en el modelo mucho menores que 0.5. Otros valores de los parámetros de la distribución a priori no cambiaron sustancialmente esta clasificación. SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL 191 6.2.3 Comportamiento predictivo de los modelos seleccionados En la tabla 2 se presentan los valores estimados de las densidades predictivas a posteriori (9) para cada uno de los modelos seleccionados, utilizando el estimador (11). No se observan grandes diferencias entre dichos modelos siendo los modelos más parsimoniosos los que mejor comportamiento tienen respecto a este criterio. En dicha tabla también se detallan los resultados del análisis del comportamiento de dichos modelos en la predicción del tiempo de desempleo de cada individuo de la muestra y de los individuos de la misma cuyo tiempo no está censurado, distinguiendo entre parados de corta (menos de 18 meses), media (de 18 a 30 meses) y larga duración que corresponden a tomar s=3, T1 = 18 y T2 = 30 en (12). Se observa que todos los modelos muestran un comportamiento similar oscilando los porcentajes de acierto entre un 46.05% y un 47.17% en todos los individuos de la muestra y entre un 30% y un 32.66% en los individuos con tiempo no censurado. Los porcentajes de acierto del modelo ajustado por máxima verosimilitud son 46.29% y 30.47%, respectivamente. Estos porcentajes son bajos debido, muy probablemente, a que el efecto de las covariables no es muy grande (ver tabla III) y al elevado porcentaje de censura observado con un 11.20% de los trabajadores que no han encontrado empleo en todo el periodo de observación. En la tabla 3 se muestran las estimaciones máximo-verosimiles con sus errores estándar y las medias y desviaciones típicas a posteriori de los coeficientes estimadas utilizando las medias de la muestra (8). Los errores estándar de Monte Carlo para las medias a posteriori oscilaron entre 0.0011 y 0.002. Se observa que ambas estimaciones son muy similares dada el elevado número de observaciones disponibles. Los efectos más fuertes y significativos corresponden a las variables seleccionadas por el algoritmo. La influencia de las covariables analizadas es, en general, débil dado que el coeficiente beta más elevado en valor absoluto es 0.4 y de ahí las escasas diferencias en el comportamiento predictivo observadas anteriormente. Se puede concluir que los trabajadores con una edad comprendida entre 25 y 40 años y, en menor medida, los de edades comprendidas entre 40 y 55 años, con un nivel de estudios elemental y con un nivel profesional bajo (ayudantes, auxiliares, peones y aprendices) tienen una probabilidad significativamente superior de encontrar trabajo que el resto de los trabajadores. 192 ESTADÍSTICA ESPAÑOLA Tabla 3 ESTIMACIONES DE LOS COEFICIENTES β Variable MLE (Error estándar) Media a posteriori (Desv. Típica) SEXO 0.074 (0.043) 0.064 (0.042) EDAD1 -0.103 (0.073) -0.059 (0.060) EDAD2 0.004 (0.083) 0.031 (0.064) EDAD3 0.400 (0.097) 0.410 (0.052) EDAD4 0.380 (0.105) 0.384 (0.035) EDAD5 0.198 (0.093) 0.194 (0.036) NIV1 0.059 (0.077) 0.052 (0.063) NIV2 0.291 (0.077) 0.264 (0.046) NIV3 0.072 (0.062) 0.052 (0.038) NIVPRO0 -0.184 (0.064) -0.146 (0.058) NIVPRO1 -0.155 (0.054) -0.127 (0.046) NIVPRO2 -0.142 (0.052) -0.114 (0.040) NIVPRO3 0.009 (0.058) 0.010 (0.036) IDIOMA 0.009 (0.048) -0.001 (0.043) En el gráfico 1 se muestran las curvas de supervivencia estimadas utilizando la estimación MLE y la estimación bayesiana correspondientes a un individuo medio de la base de datos analizada cuyas características son las de una mujer sin conocimiento de idiomas, con un nivel de estudios elemental, con una edad comprendida entre 30 y 40 años y con un nivel profesional de ayudante o auxiliar. Se observa que ambas estimaciones son muy similares y ponen de manifiesto que es en los primeros meses de desempleo cuando un trabajador tiene más probabilidades de encontrar un empleo. Si no lo ha encontrado en estos primeros días es difícil que salga del desempleo. SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL 193 Gráfico 1 CURVAS DE SUPERVIVENCIA ESTIMADAS 7. CONCLUSIONES Se ha propuesto un método para llevar a cabo el proceso de selección de variables en el modelo de azar proporcional de Cox basado en algoritmo SSVS propuesto por George y McCulloch (1993 a y b, 1997). El método permite, además, estimar la función de azar vaselina y las funciones de supervivencia individuales teniendo en cuenta la incertidumbre asociada al proceso de selección del modelo y estimación de los parámetros del mismo. El proceso de selección se refina evaluando el comportamiento predictivo de los modelos más compatibles con los datos utilizando el factor pseudo-bayes y el porcentaje de aciertos en la predicción cualitativa del tiempo de desempleo de un trabajador conociendo las características del mismo. Por último se ha aplicado la metodología al análisis del Mercado Laboral en Aragón poniéndose de manifiesto que son los trabajadores con una edad comprendida entre 25 y 40 años, con un nivel de estudios elemental y un nivel profesional 194 ESTADÍSTICA ESPAÑOLA bajo los que tienen una probabilidad significativamente superior de encontrar un trabajo que el resto de los trabajadores. En el modelo propuesto se supone que los intervalos en los que la vaselina es constante es conocido. Una hipótesis más realista, en la que estamos trabajando actualmente, sería permitir que el número y la localización de estos intervalos fuera un parámetro a determinar por el método. APÉNDICE: DISTRIBUCIONES COMPLETAMENTE CONDICIONADAS DE (7) Las distribuciones completamente condicionadas de la distribución a posteriori vienen dadas por las siguientes expresiones. g+1 α j − α j−1 a+ g+m j=2 −τ | α,β,γ,t,X,δ ∼ * , 2 2 ∑( )2 (A.1) De (7) se deduce que: g+1 [τ | α,β,γ,t,X,δ ] ∝ ∏ [α j α j−1 τ] [τ|a,m] ∝ τ , g+ m −1 2 j=2 g+1 α j − j−1 a+ j=2 exp − τ 2 ∑( )2 de donde se sigue (A.1) - β | α,τ,γ,t,X,δ De (7) se deduce que: [β|α,τ,γ,t,X,δ] ∝ L(α,β|γ,t,δ ,X) [β|γ] ∝ g+1 x j=1 i∈S ∏∏ j β' Dγ−1R−1D−γ 1β x 2 exp − j−1 [δ iβx i ]∏ exp− exp[β ′x i ] ∑ λ k (ak exp i∈S j k =1 − ak −1 ) + λ j (i− t a j−1 ) SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL j−1 N Si definimos E = ∑ δi i=1 xi , ui = ∑ λk ( k =1 ak − ak −1 ) + λ j (i− t a j−1 ) 195 si i∈Sj se tiene que: N i=1 β' Dγ−1R−1D−γ 1β 2 [β| α,τ,γ,t,X,δ ] ∝ exp [β ′Ε] exp − ∑ ui exp[β ′x i ] exp − (A.2) Esta distribución no tiene una forma estándar por lo que no es posible extraer una muestra de esta distribución de forma directa. Gray (1994) utiliza el método de aceptación y rechazo utilizando una distribución normal propuesto por Zeger y Karim (1991) y muestrea cada componente del vector β por separado. Esta forma de muestreo puede ser muy ineficiente si el número de covariables analizadas es grande o si dichas covariables están muy relacionadas entre si, pudiendo provocar, además, una ralentización en la convergencia en el Gibbs sampling. Por otro lado, Gray (1994) no demuestra que dicha distribución domine en todas partes a las distribuciones completamente condicionadas de (A.2) limitándose a decir que en los ejemplos analizados con este método no se ha econtrado ningún punto donde se encuentre que esto no ocurre así. Una solución a este problema es la propuesta por Tierney (1994) (sección 2.3.4) que utiliza el algoritmo de Hastings-Metropolis para refinar las muestras producidas por el método de aceptación y rechazo cuando la distribución utilizada para extraer las muestras no domina en todas partes a la distribución analizada. Este es el método utilizado en el paso 3.b) de nuestro algoritmo en el que hemos tomado como distribución aproximante una Np(b,Cov(b)) donde b es el estimador máximo-verosimil de β y Cov(b) es la matriz de varianzas y covarianzas de dicho estimador. La constante c del algoritmo propuesto por Tierney (1994) se ha elegido de forma que el valor de la distribución normal utilizada y de la expresión (A.2) coincidan en β= b. En el ejemplo analizado el porcentaje de rechazos osciló entre un 40 y un 60%. Probablemente otras formas de construir la distribución aproximante y la constante c pueden mejorar la eficiencia del método y esto queda como tema de investigaciones futuras. - α | τ,β,γ ,t,X,δ De (7) se deduce que: g+1 [α |τ,β,γ,t,X,δ] ∝ L(α,β |γ,t,δ,X) [α1] ∏ [α j α j−1 τ] ∝ , j=2 196 ESTADÍSTICA ESPAÑOLA ∝ g+1 j=1 i∈S ∏ ∏ j j−1 λδji exp[δ iβ ′ x i ] exp− exp[β ′x i ] λ k (ak − ak −1 ) + λ j t i − a j−1 i∈S k =1 ( ∑ ∏ j [ x exp α1 − a1eα1 ] ∏ exp− τ (α j − 2α j 1 ) j 2 g+1 − 2 = ) x (A.3) En este caso, dada la dificultad de obtener una muestra conjunta de α, la obtenemos de cada uno de los parámetros αj. Para ello seguimos el método de aceptación y rechazo de Gray (1994). De (A.3) se sigue que, si α-j = α - {αj}, entonces: [αj| α-j,τ,β,γ,t,X,δ] ∝ ∝ exp[ E jα j -Tj e αj ] exp− ν j (α j − µ j )2 2 donde: Ej = = ∑ δ i +1 si j =1 i∈Sj ∑ δi si j>1 i∈Sj ∑ exp[β′x i ]+ ∑ t i exp[β′x i ] + a1 si j=1 Tj = a1 = (aj - aj-1) ti >a1 i∈S1 ∑ exp[β′x i ] + ∑ (t i − a j−1 )exp[β′x i ] si 1 < j < g+1 ti >a1 = i∈Si ∑ (t i − ag )exp[β′x i ] si j = g+1 i∈Sg+1 µ1 = α2, ν1 = τ µj = α j−1 + α j+1 2 , νj = 2τ si 1 < j < g+1 (A.4) SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL 197 µg+1 = αg, νg+1 = τ Se sigue de (A.4.) que esta distribución es un producto de una densidad normal y una densidad log-gamma. Esta fórmula es proporcional a: exp[αj(Ej + νj(µj-mj) -Tj e αj ] exp− ν j (α j − j )2 m 2 (A.5) para cualquier número real mj. La moda de la densidad normal es mj y la de la Ej + ν j (µ j − mj ) . Elegimos ml de forma que ambas Tj modas son iguales y se toma como función dominante el valor de la expresión (A.5) en ml, aplicando el método de aceptación y rechazo tomando como distribución de densidad log-gamma es log muestreo una N(mj, 1 νj ). γi| α,τ,β,γ-i,t,X,δ donde γ-i = γ - {γi} De (7) se sigue que: [γ|t,α,β,δ ,X] ∝ [β|γ] [γ] ∝ 1 β' Dγ−1R−1D−γ 1β 2 exp − Dγ (A.6) de donde se sigue que: [γi| α,τ,β,γ-i,t,X,δ] = [γi| β,γ-i] ∝ 1 di β i2 β exp − − i 2 di 2di p βj j=1 j≠i dj ∑ Rij = ri(γi) (A.7) -1 donde di = σi((1-γi) + γici) y R = (Rij). Esta distribución es discreta con soporte {0,1} y con una función de probabilidad dada por: P[γi = 0 | β,γ-i ] = P[γi= 1 | β,γ-i] = ri (0) ri (0) ri (1) ri (0) + ri (1) + ri (1) (A.8) 198 ESTADÍSTICA ESPAÑOLA REFERENCIAS ARJAS, E. and GASBARRA, D. (1994). «Nonparametric Bayesian Inference From Right Censored Survival Data Using the Gibbs Sampler». Statistica Sinica, 4, 505-524. CLYDE, M. (1998). «Bayesian model averaging and model search strategies». In Bayesian Statistics 6, ed. J.M. Bernardo, J.O. Berger, A.P. Dawid and A.F.M. Smith. Oxford University Press. CLYDE, M.; DESIMONE-SASINOWSKA, H. and PARMIGIANI, G. (1996). «Prediction via orthogonalized model mixing». Journal of the American Statistical Association, 91, 1197-1208. COX, D.R. (1972). «Regression Models and Life Tables», Journal of the Royal Statistical Society Ser. B, 39, 86-94. COWLES, M.K. and CARLIN, B.P. (1997) «Markov Chain Monte Carlo Convergence Diagnostics: A Comparative Review». Journal of the American Statistical Association, 91, 883-904. DEY, P.; MÜLLER, P. y SINHA, D. (1998). «Practical Nonparametric and Semiparametric Bayesian Statistics» New-York. Springer-Verlag. DOSS, H. (1994) «Bayesian Nonparametric Estimation for Incomplete Data via Successive Substitution Sampling» The Annals of Statistics, 22, 1763-1786. GEISSER, S. and EDDY, W. (1979) «A predictive approach to model selection». Journal of the American Statistical Association, 74, 153-160. GELFAND, A. and DEY, D.K. (1994) «Bayesian Model Choice: Asymptotics and Exact Calculations», Journal of the Royal Statistical Society, Ser. B, 56, 501-514. GELFAND, A. and MALLICK, B. (1995). «Bayesian Analysis of Proportional Hazards Model Built From Monotone Functions», Biometrics, 51, 843-852. GELMAN, A. and RUBIN, D.B. (1992) «Inference From Iterative Simulation Using Multiple Sequences» (with discussion), Statistical Science, 7, 457-511. GEORGE, E.I. and MCCULLOCH, R.E. (1993 a) «Variable Selection via Gibbs Sampling». Journal of the American Statistical Association, 88, 881-889. GEORGE, E.I. and MCCULLOCH, R.E. (1993 b) «Stochastic search variable selection» in Practical Markov Chain Monte Carlo in Practice (Edited by W.R. Gilks, S. Richardson and D.J. Spiegelhalter), 203-214. Chapman & Hall. London. GEORGE, E.I.. and MCCULLOCH, R.E. (1997) «Approaches for Bayesian Variable Selection», Statistica Sinica, 7, 339-374. SELECCIÓN DE VARIABLES EN EL MODELO DE AZAR PROPORCIONAL. UNA PALICACIÓN AL MERCADO LABORAL 199 GEWEKE, J. (1996). «Variable Selection and Model Comparison in Regression». In Bayesian Statistics 5, ed J.M.Bernardo, J.O. Berger, A.P.Dawid and A.F.M. Smith. Oxford Press. pp. 609-620. GEWEKE, J. (1998). «Using Simulation Methods for Bayesian Econometric Models: Inference, Development and Communication», Econometric Reviews, forthcoming (with discussion and rejoinder). GRAY, R.J. (1994) «A Bayesian Analysis of Institutional Effects in Multicenter Cancer Clinical Trial», Biometrics, 50, 244-253. MADIGAN, D.M. and RAFTERY, A.E. (1994). «Model selection and accounting for model uncertainty in graphical models using Occam’s window». Journal of the American Statistical Association, 89, 1535-1546. RAFTERY, A.E.; MADIGAN, D.M. and HOETING, J. (1997). «Bayesian Model Averaging for Linear Regression Models». Journal of the American Statistical Association 92, 179-191. RAFTERY, A.E.; MADIGAN, D.M. and VOLINSKY, C.T. (1996). «Accounting for Model Uncertainty in Survival Analysis improves Predictive Performance (with discussion)». In Bayesian Statistics 5, ed. J.M. Bernardo, J.O. Berger, A.P. Dawid and A.F.M. Smith. Oxford Press, 323-350. ROBERT, C.P. and CASELLA, G. (1999). «Monte Carlo Statistical Methods». New York: Springer-Verlag. Sinha, D. and DEY, D. (1997) «Semiparametric Bayesian Analysis of Survival Data». Journal of the American Statistical Association, 92, 1195-1212. TANNER, M.A. (1996) «Tools for Statistical Inference: Methods for the Exploration of Posterior Distributions and Likelihood Functions (3rd de.)» New-York. SpringerVerlag. TIERNEY, L. (1994) «Markov Chains for Exploring Posterior Densities», The Annals of Statistics, 82, 528-550. VOLINKSY, C.; MADIGAN, D; RAFTERY, A.E. and KRONMAL, R. (1997). «Bayesian model averaging in proportional hazard models: assessing stroke risk». Applied Statistics, 46, 433-448. 200 ESTADÍSTICA ESPAÑOLA VARIABLE SELECTION IN THE PROPORTIONAL HAZARD MODEL. AN APPLICATION TO THE LABOUR MARKET SUMMARY In this paper a variable selection semiparametric bayesian procedure is proposed in the Cox (1972) model. The method is based on the stochastic variable selection (SSVS) procedure of George and McCulloch (1993 a, b, 1997) and takes into account the uncertainty associated with the selection process. Furthermore, it allows to forecast the survival function of an individual. The method is applied to the analyisis of the labour market in Aragon. AMS Classification: 62N01, 62N02, 62F15, 62P25