? Un estudio estadístico es cuantificar la información de forma

Anuncio
ESTUDIO DE RACHAS DE DESEMPLEO EN EL MERCADO LABORAL ESPAÑOL.
UNA APROXIMACIÓN SEMIPARAMÉTRICA.1
Andrés Esteban, Eva María ([email protected])
Olave Rubio, Pilar ([email protected])
Alcalá Nalvaiz, José Tomás ([email protected])
Dpto. Métodos Estadísticos. Universidad de Zaragoza.
Resumen:
Esta investigación pretende describir la duración de múltiples rachas de desempleo y plantear modelos
semiparamétricos que incorporen sesgos usuales en datos de panel. La muestra de datos utilizada en el
estudio son individuos entre 16 y 65 años que han participado en los siete ciclos de la base de datos
PHOGUE (1994-2000). Un análisis inicial de los datos pone de manifiesto la existencia de un fuerte
efecto de concentración de frecuencias en meses y duraciones muy concretas. Además, se observa una
dependencia entre las duraciones de rachas consecutivas, no siempre lineal. Debido a ello, se plantean
modelos de duración que nos permiten decidir los factores determinantes en el tiempo de desempleo; que
además sean flexibles frente a las limitaciones de los modelos habituales en estos estudios. Para este
objetivo se incorporan técnicas basadas en estimadores no-paramétricos tales como verosimilitud
empírica y similares.
Palabras clave: Rachas de desempleo, modelos de duración, métodos semiparamétricos
Clasificación JEL: J23, J64.
1
Trabajo financiado por la Diputación General de Aragón como grupo consolidado de investigación
(2004-2007) “Métodos Estadísticos no paramétricos sobre datos sesgados en el mercado laboral”
INTRODUCCIÓN
Uno de los problemas que preocupan a las instituciones es el análisis de los episodios de desempleo según
sectores de actividad y variables influyentes. Es indudable, que determinados periodos de desempleo son
los que afectan de forma especial a la vida laboral de los individuos, y por consiguiente son los episodios
que más atención han recibido por parte de los investigadores (Dolado et al. (2000)). Concretamente, el
primer periodo de desempleo que se produce nada más abandonar el sistema educativo, ha sido
recientemente estudiado, utilizando datos autonómicos, por González-Betancor et al. (2004), y en el
ámbito de España por Corrales y Rodríguez (2003), entre otros. La duración del desempleo, en episodios
concretos de la vida laboral de los individuos ha sido poco estudiado, aunque es destacable el trabajo de
Alba-Ramírez y Alvarez-Llorente (2004) que lo analizan en el entorno del instante de nacimiento de un
hijo y el trabajo de Olave y Salvador (2005) que estudia la inserción laboral de universitarios tras realizar
programas de formación. Sin embargo, el estudio de las diferentes rachas de desempleo en la vida laboral
de un individuo, ha recibido poca atención por parte de los investigadores y este trabajo aporta nuevas
ilustraciones en este contexto, ya que pretendemos analizar la situación del desempleo, según su
ubicación en la historia laboral de un individuo, su longitud en el tiempo y las posibles interacciones
con el perfil de los individuos.
La muestra utilizada será el panel de hogares de la Unión Europea (PHOGUE) , versión nacional
elaborada por el INE, en todos sus ciclos (1994-2000), y más concretamente las 8533 personas, mayores
de 16 años , que cumplimentaron la encuesta en todas las olas consideradas.
En el estudio de este panel, las preguntas se realizan una vez al año (entre los meses de Octubre y
Diciembre) y la mayor parte de la información que recoge la encuesta es retrospectiva; es decir, hace
referencia al año anterior. Debido a ello, se ha observado una concentración de cambios de situación en el
desempleo que, fundamentalmente afectan a los meses de Enero y cuya duración es cíclica. Las
explicaciones a este tipo de concentraciones (denominadas efecto de concentración o efecto
preferencia) han sido varias en la literatura (Han y Hausman (1990), Poterba y Summers (1986), Magnac
y Visser (1999), Arranz y Muro (2000)). Para todos ellos, la concentración se produce, o bien debido a
comportamientos estacionales, o errores en las respuestas de los individuos. Por lo tanto, las transiciones
de estados en el mercado laboral pueden ser erróneas y el comportamiento de dicho mercado, tener una
dinámica diferente a la que se pudiera pensar a priori. Todo ello nos lleva a pensar los inconvenientes que
tienen la mayoría de estudios basados en paneles de datos, que añaden a las características de las
encuestas por muestreo, todos los inconvenientes de los estudios longitudinales.
Teniendo en cuenta todo lo anterior, la versión preliminar de este trabajo se ha estructurado de la
siguiente forma, en el apartado 2 se realiza el estudio descriptivo de la duración de las primeras rachas,
así como un primer análisis de supervivencia para la duración y variables influyentes. En el apartado
siguiente se estudian diferentes estimaciones de los parámetros de mayor interés en los modelos para la
duración de las rachas que recogerán los posibles sesgos debidos a “efectos de concentración” detectados
en el apartado previo. Finalmente introduciremos el concepto de verosimilitud empírica y presentaremos
el estudio de las primeras rachas de desempleo para este panel mediante este método, analizando sus
ventajas e inconvenientes.
El objetivo último que se desarrollará en la fase final de este trabajo será presentar modelos
semiparamétricos similares a los propuestos por Torelli y Trivellato (1993) y Ryu et al (2000) que
incorporen las censuras que presentan los datos y así desarrollar nuevas funciones de verosimilitud que
puedan hacer estimaciones de parámetros de interés más consistentes que las realizadas sobre una
verosimilitud muestral que no hayan tenido en cuenta las inconsistencias de los datos.
ANÁLISIS EMPÍRICO DE LAS PRIMERAS RACHAS DE DESEMPLEO.
Una primera aproximación al problema de estudio lo realizamos con un análisis descriptivo de las
duraciones de la primera y segunda racha de desempleo entre los individuos que al menos han estado
desempleados en algún momento del periodo registrado. Es decir, en este apartado se van a estudiar las
consecutivas duraciones desde el inicio del desempleo de un individuo hasta la finalización de dicho
estado (rachas de desempleo). Hay que tener en cuenta que el análisis de la duración del suceso
inactividad (o de cualquier otro suceso) es dinámico, de lo que se deriva la existencia de pocos datos en
los cuales la duración del suceso coincida exactamente con el inicio/final de los periodos de los sucesos
de interés en la encuesta. Por lo tanto, en el estudio de estas variables (rachas) habría que tener presente
que los datos pueden presentar censura y en muchos casos, también truncamiento.
Además de los sesgos habituales, comentados anteriormente, existe otro tipo de sesgo en el estudio de
datos de panel llamado “efecto de concentración”. Así pues, como se puede observar, los gráficos 1 y 2,
presentan el “efecto de concentración”, aunque es mucho más acusado en el primer gráfico, el cual
corresponde a la primera racha de desempleo registrada. Además de causas debidas a la memoria de los
encuestados, estos efectos pueden ser explicado de diferentes formas. Téngase en cuenta, que la primera
racha de desempleo afecta de forma especial a licenciados y graduados al acabar sus estudios
universitarios (para más detalles, Olave y Salvador (2005)), y consecuentemente la distorsión en el
tiempo de ese primer estado de desempleo puede ser mayor.
Gráfico 1
Gráfico 2
200
600
500
400
300
100
Frecuencia
Frecuencia
200
100
0
1
9
5
17
13
25
21
33
29
41
37
49
45
58
53
72
65
80
duración de la primera racha de desempleo
0
1
10
19
28
37
46
55
64
73
82
duración de la segunda racha de desempleo
En este gráfico se observa la densidad de la duración de la primera y segunda racha
de desempleo para las oleadas 1994-2000 del PHOGUE. Lo que destaca en esta
densidad es su comportamiento estacional en las duraciones 12, 24, 36, 48...
Al analizar los histogramas de la primera racha según sexo (gráficos 3 y 4), se puede ver un diferente
comportamiento en las duraciones del desempleo y sobre todo un “efecto concentración” aún más
acusado en las mujeres, lo que conduce a investigar dos cuestiones: ¿el por qué del efecto? y ¿podría
haber estimaciones no paramétricas que solventaran el problema de acumulación de sesgos en las
respuestas?.
Gráfico 3
Gráfico 4
(varones).
(mujeres).
200
400
300
200
Frecuencia
Frecuencia
100
0
1
9
5
17
13
25
21
33
29
42
38
50
46
60
54
100
0
80
1
72
7
4
duración de la primera racha de desempleo
13
10
19
16
25
22
31
28
37
34
44
40
53
47
66
57
78
duración de la primera racha de desempleo
En este contexto descriptivo, una primera aproximación a la duración del desempleo nos la dan los
modelos de azar proporcional, ya que nuestra finalidad será evaluar la duración de la racha teniendo en
cuenta determinadas características del individuo y/o duración de rachas anteriores. Estos modelos son
muy utilizados en el análisis de supervivencia empírico, a la hora de estudiar la influencia que un
conjunto de variables ejerce sobre el tiempo de supervivencia de un determinado individuo. En nuestro
caso, será de interés modelizar el tiempo de permanencia en la racha para cada individuo.
Consideremos h(t ) la función de azar de la variable que recoge la duración de la racha de desempleo. El
modelo considerado para el análisis de supervivencia es el propuesto por Cox en 1972 donde
[ ]
h(t x ) = h0 (t ) exp β ' x
donde h0 (t ) es la función de azar vaselina que, al igual que suele ser usual en la literatura (Gray, 1994 y
(
Muñoz et al., 2002), es constante a trozos, x = x1 ,..., x p
'
β ' = (β 1 ,..., β p ) el vector de parámetros.
) es el vector que recoge las p covariables y
Los datos serán las historias de cada individuo con al menos dos rachas de desempleo. Así pues, los casos
analizados son 1500 individuos con una proporción de datos censurados pequeña. En la tabla 1 se puede
ver las frecuencias absolutas de los individuos con al menos una racha de desempleo para las respectivas
categorías codificadas en el panel. Dado que se estudia el panel completo, las categorías presentan una
cuantificación notable y puede entenderse como una buena representación de la población española en la
década de los 90 con al menos una racha de desempleo en su historia laboral. Ello nos va a permitir
analizar las rachas desde un punto de vista dinámico para valorar si la situación de la racha, en la vida
laboral del individuo, tiene un efecto significativo en la salida del desempleo.
Tabla 1
Variable
Sexo (1=Varón, 2=Mujer)
Frecuencia
Personas con al menos
una racha de desempleo
1342/1253
Edad1=Hasta 20 años (0=No, 1=Si)
424
Edad2=Entre 21 y 25 años (0=No, 1=Si)
494
Edad3=Entre 26 y 30 años (0=No, 1=Si)
418
Edad4=Entre 31 y 40 años (0=No, 1=Si)
559
Edad5=Entre 41 y 55 años (0=No, 1=Si)
494
Edad6= Mayor de 55 años (0=No, 1=Si)
206
Nivelest1= Analfabeto sin estudios (0=No, 1=Si)
275
Nivelest2= Estudios primarios (0=No, 1=Si)
593
Nivelest3= Primer nivel de enseñanza secundaria (0=No, 1=Si)
702
Nivelest4= Formación profesional de primer grado (0=No, 1=Si)
213
Nivelest5= Formación profesional de segundo grado (0=No, 1=Si)
255
Nivelest6= Bachillerato (0=No, 1=Si)
201
Nivelest7= Diplomatura (0=No, 1=Si)
158
Nivelest8=Licenciatura (0=No, 1=Si)
198
Realizado el ajuste del modelo de Cox para la duración de la segunda racha en los individuos con al
menos dos rachas de desempleo, se obtienen las estimaciones dadas en la tabla 2. Así pues, cabe señalar
que la duración de la primera racha de desempleo registrada tienen una influencia significativa en la
siguiente racha con respecto a la edad del individuo, nivel de estudios y género.
Todo ello induce a sospechar la necesidad de modelos que incorporen efectos lineales/ no lineales entre
duraciones de rachas consecutivas para finalmente evaluar de forma precisa la duración de una racha
conocido sus duraciones precedentes, así como el perfil del individuo.
Tabla 2
Regresión de Cox para la duración de la segunda racha de desempleo.
VARIABLES
SEXO
NIVELEST
NIVELEST2
NIVELEST3
NIVELEST4
NIVELEST5
NIVELEST6
NIVELEST7
NIVELEST8
EDAD*SEXO
EDAD2*SEXO
EDAD3*SEXO
EDAD4*SEXO
EDAD5*SEXO
EDAD6*SEXO
EDAD*DURACION(racha1)
EDAD2*DURACION(racha1)
EDAD3*DURACION(racha1)
EDAD4*DURACION(racha1)
EDAD5*DURACION(racha1)
EDAD6*DURACION(racha1)
DURACION(racha1)*NIVELEST
DURACION(racha1)*NIVELEST2
DURACION(racha1)*NIVELEST3
DURACION(racha1)*NIVELEST4
DURACION(racha1)*NIVELEST5
DURACION(racha1)*NIVELEST6
DURACION(racha1)*NIVELEST7
DURACION(racha1)*NIVELEST8
beta p-valor Riesgo
-0,480
0,265
-0,451
0,456
0,454
0,311
0,456
0,888
-0,022
-0,024
-0,025
-0,018
0,000
0,003
0,050
0,929
0,425
0,755
0,020
0,051
0,643
0,002
0,490
0,004
0,040
0,005
0,002
0,003
0,572
0,176
0,709
0,001
0,023
0,001
0,001
0,003
0,765
0,698
0,283
0,087
0,765
0,619
1,304
0,637
1,577
1,574
1,365
1,578
2,430
0,979
0,976
0,975
0,982
ANÁLISIS SEMIPARAMÉTRICO DE LAS RACHAS.
Las técnicas no paramétricas de suavizado representan una metodología estadística especialmente
atractiva en las fases de exploración de datos y están adquiriendo una importancia creciente en el ámbito
de los contrastes de especificación y de bondad de ajuste en modelos complejos.
En términos generales, la estimación no paramétrica de la densidad es importante a la hora de capturar y
reflejar los aspectos más relevantes de las variables bajo estudio, y que deberían ser imitados por los
modelos paramétricos que se adopten para un posterior análisis. También extiende el resumen estadístico
dado por los primeros momentos de la distribución o por un contraste de normalidad. Finalmente, la
varianza u otros momentos de ciertos estadísticos necesitan evaluar la función de densidad en algún valor
concreto, p.ej. en f (0) . Estas razones, entre otras, hacen conveniente el uso de estimadores de la
densidad con un mayor grado de suavidad que el clásico histograma, especialmente en el caso
multivariante. El estimador no paramétrico de la densidad más popular es el estimador kernel o núcleo;
sus propiedades asintóticas y sus diversas alternativas pueden consultarse en Pagan y Ullah (1999) y
Wand and Jones (1995). Sea X_1,...,X_n una muestra aleatoria simple de una variable d-dimensional con
función de densidad f (x ) , el estimador núcleo en x viene definido por
fˆ ( x) =
(
n
1
K H −1 ( X i − x)
∑
n det( H ) i =1
)
donde K (.) es la denominada función núcleo, generalmente una función de densidad simétrica de
soporte compacto y H es una matriz regular de parámetros de suavizado o ventana, generalmente
proporcional a la matriz identidad. Intuitivamente, se estima la densidad en un punto x como la frecuencia
relativa, ponderada por el núcleo K, de los puntos de la muestra que caen en un entorno del punto x
determinado por el parámetro ventana.
En el gráfico 5, podemos ver la distribución conjunta de la duración de la primera y segunda racha. Los
estimadores no paramétricos de tipo núcleo nos permiten ver las curvas de nivel de la función de densidad
conjunta y poder sugerir posibles hipótesis de trabajo sin depender de suposiciones paramétricas sobre la
distribución de las duraciones, siempre cuestionables; particularmente, en aquellos conjuntos de datos en
los que puede haber errores agrupados, bien debidos al proceso de muestreo o a una mala especificación
del modelo. El gráfico de la densidad que vemos está calculado tomando como función núcleo la
densidad normal estándar bivariante y como parámetro de suavizado común a las dos componentes el
seleccionado por validación cruzada (ver Wand and Jones 1995, capítulo 3).
Gráfico 5
De forma análoga, la estimación no paramétrica de la función de regresión (Fan y Gijbels (1996), Härdle
(1991)) nos permite obtener estimadores consistentes de la duración media de la segunda racha de
desempleo condicionado a la duración de la primera racha. Téngase en cuenta que éste es el punto en el
que este trabajo pretende ser un valor añadido sobre otras investigaciones en este entorno, en los que, o
bien se estudiaba el desempleo de forma global, o bien alguna de las rachas sin tener en cuenta la
situación del desempleo en periodos precedentes.
La regresión no paramétrica relaja las usuales hipótesis de linealidad y permite explorar los datos de una
forma más flexible descubriendo estructuras en los datos que, de otra forma, no podrían observarse. En un
modelo no paramétrico, la relación entre una variable dependiente {Yi }i =1 y su predictor {X i }i =1 , podría
n
especificarse de la siguiente forma,
Yi = m( X i ) + ε i
i=1,..,n
n
donde m ( x ) es la función regresora que se obtiene mediante la estimación de la esperanza
condicionada. En estas técnicas, la estimación de una media condicional se obtiene mediante un promedio
local de las observaciones más próximas al valor donde se quiere estimar. Es decir, dado un punto x,
aplicamos una regresión lineal a un conjunto de puntos alrededor del fijado. El modelo de regresión en
cada subconjunto vendría dado por
Yi = a( x) + b( x )( X i − x) + εrrori
para X i ∈ x ± h
donde h es el parámetro ventana que determina el grado de suavidad que se quiere dar a la curva
estimada.
Además, podemos introducir unos pesos de forma que, sean “más/menos importantes” los puntos
conforme su proximidad al punto x donde estimamos. De esta forma, si K (.) es una función no negativa
unimodal (función núcleo/Kernel), podemos escribir el problema de mínimos cuadrados locales
ponderados de la siguiente forma,
n
∑ {Y
i =1
i
2
 X − x
− a( x) − b( x )( X i − x)} K  i

 h 
En el gráfico 6, podemos ver la función de regresión obtenida para la duración media de la segunda racha
en función de la primera mediante regresión local lineal, así como los intervalos de confianza
correspondientes. Analizado con detalle, la duración de la segunda racha se incrementa de forma lineal
con la duración de la primera hasta un determinado umbral. Es decir, la longitud de la primera racha sólo
es significativa en términos de salir/entrar en el desempleo cuando dicha racha registrada no es
excesivamente elevada. En el estudio de regresión de rachas, no necesariamente consecutivas, podrían ser
considerablemente diferentes bien por género o por sectores de actividad. Todos estos análisis pueden ser
llevados a cabo posteriormente utilizando estas técnicas.
Gráfico 6
El gráfico 7, pretende intensificar los avances anteriores, añadiendo una zona coloreada que corresponde
a la banda de confianza para una duración media de la segunda racha no relacionada con la primera, de
forma que si la función de regresión estimada está dentro de la zona coloreada podemos aceptar que la
primera duración no afecta a la duración media de la segunda. En el gráfico se aprecia que para valores
pequeños de la primera duración sí existe un efecto, además este efecto es creciente hasta una cierta
duración para luego pasar a ser estable y finalmente dejar de ser significativo. Esto quiere decir, que
rachas largas en el primer desempleo no son determinantes en la duración de la segunda racha.
Gráfico 7
En el gráfico se puede ver en azul, la banda de confianza para la media.
Como la frecuencia de observaciones en valores pequeños de la primera
racha de desempleo es muy grande, los intervalos de confianza
obtenidos, son mucho más pequeños que en valores grandes.
Concluyendo, este apartado muestra el interés añadido que puede tener en el estudio de la vida laboral de
un individuo, la duración de esa primera racha como proxy en otras posibles rachas. Las cuestiones que
quedan por responder se centran en determinar la duración del primer desempleo que fuese influyente en
disminuir/aumentar posteriores desempleos en su vida laboral. Así pues, nuestra investigación pretende
confirmar si la duración media del primer desempleo (muy diferente según sectores de actividad y
situación geográfica) está infra/sobre-valorando la importancia de dicha duración con respecto al impacto
en futuros desempleos.
En esta primera aproximación no paramétrica, no hemos tenido en cuenta el “efecto de concentración”
que nos ha aparecido en el análisis empírico de los datos. Esto nos lleva a plantearnos las correcciones en
los modelos para introducir los efectos de los sesgos y, como se verá a continuación, a introducir nuevas
técnicas no paramétricas. En la tabla 3, se muestran los resultados de la estimación realizada para
diferentes parámetros intentando corregir el “efecto de concentración” mediante modelos habituales
propuestos en la literatura (Torrelli y Trivelato (1993), Ryu y Slottje (2000)). En el apéndice se detallan
los modelos.
En la construcción del modelo propuesto por Torelli y Trivellato, hemos seguido dos planteamientos
diferentes. En la distribución de los datos, suponemos, en ambos casos, un efecto de concentración
Exponencial, y para el resto, en un primer modelo utilizaremos la misma distribución y un segundo
modelo usaremos una distribución Weibull.
Observando los resultados de la tabla 3, se infiere que obtenemos resultados muy similares en ambos
casos. Esto es debido, principalmente, porque al estimar los parámetros de las distribuciones mediante la
maximización del modelo de verosimilitud propuesto, el primer parámetro obtenido para la distribución
Weibull es prácticamente la unidad, lo que nos indica que no difiere significativamente de la distribución
Exponencial. Esto nos hace pensar que no obtendremos mejores resultados ampliando la familia
paramétrica de distribuciones a considerar.
Otra conclusión que se puede deducir del análisis de la tabla es la similitud entre los resultados de aplicar
los diversos métodos de estimación “corregida” previamente introducidos. Sin embargo, aunque esto era
un resultado previsible (Wolf y Augustin (2000)), creemos que el “efecto de concentración” en el caso de
utilizar los datos para modelos de regresión o de duración causaría sesgos más importantes tanto en la
estimación puntual de los parámetros como en la precisión de las estimaciones, tal y como también
sugieren estos autores.
Tabla 3
media
mediana
S.D
Q10
Q90
Datos sin tratamiento de concentración
13,7156
11,0000
13,8103
2,0000
31,0000
Torelli: f(x) y G(x) exponenciales
13,3372
9,2446
13,3372
1,4052
30,7100
Torelli: f(x) Weibull y G(x) exponencial
13,0000
9,0109
13,0000
1,3696
29,9336
Ryu
15,2418
12,7826
Resumiendo, una posibilidad para obtener estimaciones de los parámetros de interés puede ser considerar
otra familia de distribuciones, o bien plantear estimaciones en las cuales el efecto de la distribución
planteada no sea tan influyente.
¿Es la VEROSIMILITUD EMPÍRICA una alternativa cuando el efecto de concentración es muy
elevado?
La metodología de verosimilitud empírica ha sido introducida por Owen (1988, 1990 y 2001). Se ha
revelado como una alternativa muy interesante frente a otros métodos de estimación y de construcción de
intervalos de confianza. Presenta ventajas frente al método de los momentos en muestras finitas
obteniendo resultados asintóticos de un mayor orden de eficiencia.
Básicamente se trata de calcular el perfil de verosimilitud de una distribución general multinomial cuyos
átomos de probabilidad se dan en los datos muestrales.
Las ventajas principales frente a otros métodos de inferencia son:
i) La forma de la región de confianza mediante verosimilitud empírica (VE) refleja
automáticamente la densidad del conjunto de datos observados.
ii) La regiones de confianza por VE admiten corrección de Bartlett, reduciendo usualmente el
orden del error de cobertura de n-1 a n-2, siendo n el tamaño de la muestra.
iii) Las regiones de confianza por VE no requieren un cálculo explícito de los parámetros de
escala o de asimetría de los estimadores.
iv) Las regiones de confianza por VE preservan rango y respetan transformaciones, de forma
análoga a las regiones de confianza de MV paramétrica.
Si X1,X2,…,Xn denotan los datos observados, p=(p1,p2,…,pn) un conjunto de pesos positivos y tal que
suman 1. Supongamos que estamos interesados en hacer inferencia respecto a una parámetro θ de la
distribución, por ejemplo la media. Observemos que podemos expresar θ en función de los parámetros
del problema:
n
θ = ∑ pi xi
i =1
La verosimilitud empírica para el valor θ se define de la siguiente forma,
n
n

 n
L(θ ) = max p  ∏ pi pi ≥ 0, ∑ pi = 1,∑ p i X i = θ , 
i =1
i =1

 i =1
La función de distribución empírica es la distribución de probabilidad sobre los datos que maximiza el
anterior producto de probabilidades en ausencia de restricciones sobre el parámetro. Esto nos permite
plantear el cociente de verosimilitud empírica R (θ ) ,como el cociente de la VE para
(estimador de
θ
θ
y para θˆ
haciendo pi = 1 ). Este cociente, bajo ciertas hipótesis de regularidad, verifica que
n
− 2 log(R(θ )) asintóticamente sigue una distribución χ d2,1−α con d grados de libertad (d=dim( θ )).
Este resultado bastante general permite la construcción de regiones de confianza para el parámetro de
interés, θ :
{
}
RC = θ − 2 log(R(θ )) ≤ χ 12−α .
Podemos ilustrar esta metodología con la construcción de la región de confianza para el vector de medias
de la duración de la primera y segunda racha simultáneamente.
En el gráfico 8, podemos ver el cociente de verosimilitud empírica R (θ ) , para la duración media de la
primera racha y de la segunda racha por separado. Se ha superpuesto un segmento en el valor máximo
verosímil de cada una de las duraciones medias, así como un trazo horizontal a la altura del valor que
determinaría la región de confianza al 95% de cada una de las duraciones medias.
Gráfico 8
En el gráfico 9, podemos apreciar la región de confianza conjunta al 95% de ambas duraciones medias,
para un subconjunto aleatorio de los datos observados.
Gráfico 9
En el gráfico 10, podemos apreciar simultáneamente la región de confianza al 95% y al 99% para ambas
duraciones medias por máxima verosimilitud empírica, se ha señalado con un punto el estimador máximo
verosímil.
Gráfico 10
De todos estos gráficos podemos deducir que en términos generales, la dependencia entre la duración de
la primera y segunda racha no es muy acusada, lo que conduce inevitablemente a plantear un estudio
similar según subgrupos (p.ej. sectores de actividad, zona geográfica, nivel de formación, género,
duración específica de la primera racha, etc...)
APÉNDICE: Modelos de duración con corrección del efecto de concentración.
Al analizar los efectos debido a las inconsistencias en las respuestas, nos hemos planteado posibles
alternativas a los modelos clásicos de duración. El primer modelo considerado para solventar estos
problemas fue propuesto por Torrelli y Trivellato. En este trabajo se desarrollo una función de
verosimilitud dividida en dos partes: la primera parte hacía referencia a los parámetros del modelo de
duración y la segunda hacía referencia únicamente al modelo que afecta al proceso de concentración de
respuestas.
Supongamos que f es la función de densidad de la duración para los individuos que no corresponden al
periodo donde aparece el efecto concentración y que G es la función de distribución para la duración de
los individuos con dicho efecto, entonces la verosimilitud del modelo de duración en este caso tendría la
forma
J
I
ut j
∏ [ f (t ,ϑ )(1 − G(t , γ ))]∏ ∫ f ( z,ϑ )G ( z, γ )dz
i
i
i =1
j =1 l t j
donde I es el número de observaciones que no corresponden al periodo de concentración y J es el número
de observaciones que pertenecen a un periodo de concentración, de forma que I+J=N.
Si definimos h(m) como los valores de la duración en donde se produce el efecto de concentración, los
límites de la integral fueron definidos como puntos medios entre valores de concentración; es decir,
l t j = 0 para la primera integral y l t j = h( m ) + h( m −1) / 2 para el resto. Para los límites superiores,
[
]
[
]
tenemos u t j = h(m ) + h(m +1) / 2 para todas las integrales, a excepción de la última, cuyo límite superior
de integración se define como u t j = ∞ .
En el trabajo de Ryu, se obtiene una pseudo función de densidad basado en maximizar la entropía que
descompone cada una de las observaciones que tenemos en dos partes, el valor verdadero de la duración y
el valor distorsionado por el “efecto de concentración”. Concretamente, partiendo de una serie
exponencial polinómica, consigue demostrar que, asumiendo que conocemos los momentos con respecto
al origen de orden m, se puede estimar los parámetros que maximizan la entropía resolviendo la siguiente
ecuación,
cˆ = Bˆ −1 dˆ
donde la matriz B̂ (JxJ) y el vector d̂ (Jx1) son definidos de la siguiente forma. Para un dominio
compacto x ∈[0,1],
Bˆ mn = − mn[µˆ m + n − µˆ m + n −1 ] para m, n = 1,...,J
[
dˆ m = m(m + 1) µˆ m − m 2 µˆ m −1
donde
µ̂ m =
1 n m
∑ xi
n i =1
]
para m=1,...,J
BIBLIOGRAFÍA.1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
Alba-Ramírez, A. y Alvarez-Llorente, G. (2001) “La actividad laboral de la mujer en el entorno
del nacimiento de un hijo”. Documento de Trabajo de la Universidad Carlos III de Madrid nº 0104.
Arranz, J. y Muro, J. (preliminar-2000), “¿Qué se puede hacer con una información que se
obtiene de encuestas para analizar la duración de un suceso?”.
Corrales, H. y Rodriguez, B. (2003) “Factores determinantes de la duración del primer
desempleo tras la salido del sistema educativo”. V Jornadas de Economía Laboral, Reus.
Dolado, J.J., Felgueroso, F. Y Jimeno, J.F. (2000) “Youth labour markets in Spain: Eduaction,
training and crowding-out”. European Economic Review, 44, 943-956
Fan, J. and Gijbels, I. (1996) “Local polynomial modelling and its applications”. Chapman and
Hall, London.
Gonzalez-Betancor et al. (2004) “El primer periodo de desempleo de técnicos y técnicos
superiores”. Revista de Economía Laboral 1, 1-37.
Gray, R.J (1994) “A bayesian analysis of institutional effects in multicenter cancer clinical
trial”. Biometrics, 50, 244-253 .
Han, A. and Hausman, J.A. (1990) “Flexible parametric estimation of duration and competing
risk models”. Journal of Applied Econometrics, 5, 1-28.
Härdle, W. (1991) “Smoothing Techniques, with implementations in S”. Springer, New York.
Magnac, T. y Visser, M. (1999) “Transition models with measurement errors”. The Review
Economic and Statistics Vol. 81, nº 3 (pag. 466-474)
Muñoz, L., Olave, P. y Salvador, M. (2002) “Selección de variables en el modelo de azar
proporcional. Una aplicación al mercado laboral”. Estadística Española Vol 44, nº 150 (pag.
175-200).
Olave, P. y Salvador, M. (2005) “Measuring the effect of training programmes on graduate
unemployment in Aragon (Spain)”. Pre-print
Owen, B. (1988) “Empirical Likelihood ratio confidence intervals for a single functional”.
Biometrika, 75, 237-249.
Owen, B. (1990) “Empirical Likelihood ratio confidence regions”. The Annals of Statistics 18,
90-120.
Owen, B. (2001) “Empirical Likelihood”. Chapman & Hall.
Pagan, A. and Ullah, A. (1999) “Nonparametric Econometrics”. Cambridge University Press,
Cambridge, U.K.
Poterba, J.M. y Summers, L.H. (1986) “Reporting errors and labor market dynamics”.
Econometrica, 54 (6), 1319-1338.
Ryu, H. and Slottje, D. (2000) “Estimating the density of unemployment duration based on
contaminated samples or small samples”. Journal of Econometrics, 95, 131-156.
Torelli, N., Trivellato, U. (1993) “Modelling inaccuracies in job-search duration data”. Journal
of Econometric, 59, 187-211.
Wand, M.P. and Jones, M.C. (1995) “Kernel Smoothing”, Chapman and Hall, Londres.
Wolf, J. and Augustin, T. (2000) “Heaping and its consequences for duration analysis”. Preprint
Descargar