Tema 6 INTRODUCCIÓN A LOS MODELOS CON DATOS DE PANEL

Anuncio
ECONOMETRÍA II
Prof.: Begoña Álvarez
2007-2008
Tema 6
INTRODUCCIÓN A LOS MODELOS CON DATOS
DE PANEL
1. INTRODUCCIÓN
‰ Un conjunto de datos de panel es aquél en el que disponemos de
varias observaciones para cada una de las unidades.
‰ Las unidades pueden ser individuos, hogares, empresas, países
o cualquier otro tipo de entidades que permanezcan estables a lo
largo del tiempo.
‰ Ejemplo: La Encuesta Continua de Presupuestos Familiares
‰Un “balanced panel” (panel equilibrado) es aquél en el que
tenemos observaciones de todos los individuos (o empresas, países,
etc.) en cada periodo de tiempo.
Un “unbalanced panel” es aquél en el que algunos individuos no han
sido observadas (entrevistadas) en alguno de los periodos
considerados. Las razones pueden ser el cambio de domicilio,
negarse a responder a la entrevista, muerte…
1
1. INTRODUCCIÓN
Los paneles tienen varias ventajas respecto a los datos de corte
transversal (cross-section)
¾
Nos permiten superar los problemas causados por la
heterogeneidad inobservable.
¾
Nos permiten investigar dinámicas en el comportamiento sin tener
que recurrir a preguntas retrospectivas que siempre pueden estar
sujetas a errores de medida.
¾
Nos permiten disponer de muchas observaciones. Si observamos
n unidades durante T periodos de tiempo, disponemos de nT
observaciones.
¾
Debido a que son encuestas muy caras, suelen diseñarse con
bastante rigurosidad y tienen tasas de respuesta muy altas.
8
1. INTRODUCCIÓN
NLSY 1988 data
Dependent variable LGEARN
MARRIED
SOONMARR
0.129
(0.024)
–
0.163
(0.028)
0.096
(0.037)
EJEMPLO:
Vamos a comenzar con un ejemplo
para ilustrar cómo se puede estudiar
la dinámica del comportamiento a
–
partir de datos de panel.
Utilizamos datos del National
Longitudinal Survey of Youth. Este
–0.066
es un panel con datos de 1977 a 1994.
(0.034)
Estimamos un modelo de salarios con
datos de 1538 hombres que trabajan a
–0.163
tiempo completo.
(0.028)
SINGLE
–
–
R2
0.271
0.274
LGEARN (log salario).
0.274
n
1538
1538
1538
MARRIED, años de
• La variable dependiente es
• Las variables explicativas son
escolarización, ASVABC score,
años en el puesto que ocupa,
años de experiencia laboral, etc.
… Pero sólo mostramos el
coeficiente estimado de
MARRIED.
9
1. INTRODUCCIÓN
NLSY 1988 data
Dependent variable LGEARN
MARRIED
0.129
(0.024)
0.163
(0.028)
SOONMARR
–
0.096
(0.037)
SINGLE
–
–
R2
0.271
0.274
n
1538
1538
Los resultados muestran que los
hombres casados ganan un 12,9 %
más que los solteros…y el efecto
–es significativo!
Este efecto se ha mostrado
repetidamente en la literatura. Una
posible explicación es que el
–0.066
matrimonio conlleva
(0.034)
responsabilidades financieras, lo cual
conduce a los hombres a esforzarse
–0.163
más para conseguir trabajos mejor
(0.028)
remunerados.
Otra explicación es que algunas
cualidades inobservadas del
trabajador que son valoradas por los
1538
empleadores,
son también valoradas
por potenciales “esposas” y, por tanto,
favorecerían el matrimonio.
0.274
De acuerdo con esta explicación, la
variable MARRIED, actuaría como
variable proxy de esas cualidades
inobservables.
11
1. INTRODUCCIÓN
NLSY 1988 data
Dependent variable LGEARN
Con datos de corte transversal, es
muy difícil discriminar entre estas
dos explicaciones.
MARRIED
–
0.129
(0.024)
0.163
(0.028)
SOONMARR
–
0.096
(0.037)
SINGLE
–
–
R2
0.271
0.274
n
1538
1538
Sin embargo, si disponemos de
datos de panel, podemos analizar
–0.066
si el salario aumenta en el
(0.034)
momento de casarse o justo
después. Esto nos permitiría
–0.163
corroborar la hipótesis basada en
(0.028)
el aumento de la productividad al
casarse.
0.274
1538
También podemos analizar si los
hombres casados ganaban más que
los solteros antes de casarse, esto
nos permitiría corroborar la
hipótesis basada en la
heterogeneidad inobservable.
11
1. INTRODUCCIÓN
NLSY 1988 data
Dependent variable LGEARN
MARRIED
0.129
(0.024)
SOONMARR
–
SINGLE
–
0.163
(0.028)
–
0.096
(0.037)
Definimos una segunda
variable SOONMARR=1 si el
encuestado estaba soltero en
1988 pero se casó en los 4
años siguientes, =0 si estaba
soltero en 1988 y sigue soltero
4 años después.
–0.066 Si estar casado aumentase la
(0.034) productividad de los
hombres, el coeficiente de
–
–0.163 SOONMARR debería ser,
(0.028) estadísticamente, igual a 0
R2
0.271
0.274
porque los hombres en esta
0.274 categoría estaban todavía
solteros en 1988.
n
1538
1538
1538 Pero, el t-statistic=3.10, por
tanto SOONMARR es
significativa al 1%
Pero si la hipótesis basada en heterogeneidad inobservable fuese cierta (es
decir, si estar casado no aumentase la productividad) el coeficiente de
SOONMARR debería ser igual al de MARRIED.
17
1. INTRODUCCIÓN
NLSY 1988 data
Dependent variable LGEARN
MARRIED
0.129
(0.024)
0.163
(0.028)
0.096
(0.037)
–0.066
(0.034)
Para contrastar si el
coeficiente de SOONMARR
es significativamente distinto
al de MARRIED, la forma
más fácil es sacar MARRIED
y meter SINGLE=1 si sigue
soltero 4 años más tarde, =0 si
no.
–0.163
(0.028)
De este modo, la categoría de
referencia es estar casado en
1988.
–
SOONMARR
–
SINGLE
–
–
R2
0.271
0.274
0.274
n
1538
1538
1538
Si contrastamos la
significatividad de
SOONMARR, el
t-statististic=-1.93, por tanto
no rechazamos la hipótesis
nula al 5%.
Por tanto no encontramos diferencias significativas al 5% en el salario de los
hombres que en 1988 están solteros y se casan en los siguientes 4 años, y los
casados en 1988….Aunque las diferencias sí son significativas al 10%
21
1. INTRODUCCIÓN
¿Cómo podemos aprovechar la estructura de panel de los datos para
plantear un análisis de regresión?
k
s
j=2
p =1
Yit = β 1 + ∑ β j X jit + ∑ γ p Z pi + δt + ε it
Y= Variable dependiente
X= Variables explicativas observables que, para cada i, pueden tomar distinto
valor en cada momento del tiempo (tenemos K variables)
Z= Variables explicativas inobservables que afectan a Y pero no cambian a lo
largo del tiempo (tenemos S variables).
ε = Término de error del modelo que recoge aquellos factores inobservables que,
para cada i, pueden tomar distinto valor en cada periodo. Este término de error
suponemos que cumple los supuestos habituales del modelo de regresión. En las
aplicaciones se le suele denominar error idiosincrásico.
t= variable que recoge el periodo del tiempo al que se refiere la observación
24
1. INTRODUCCIÓN
¿Cómo podemos aprovechar la estructura de panel de los datos para
plantear un análisis de regresión?
k
s
j=2
p =1
Yit = β 1 + ∑ β j X jit + ∑ γ p Z pi + δt + ε it
ƒ Las variables X son, generalmente, las variables de interés, es decir, las
variables cuyo impacto en Y estamos interesados en conocer.
ƒ Las variables Z se interpretan como las responsables de la heterogeneidad
inobservable.
ƒ Como las Z’s no son observables y, por tanto,
no hay forma de obtener
información sobre ΣγpZp , lo habitual es definir un término αi conocido como el
efecto no observado o efecto fijo, que representa el impacto conjunto de las Z’s
sobre la Y.
24
1. INTRODUCCIÓN
¿Cómo podemos aprovechar la estructura de panel de los datos para
plantear un análisis de regresión?
k
s
j=2
p =1
Yit = β 1 + ∑ β j X jit + ∑ γ p Z pi + δt + ε it
El modelo quedaría entonces expresado:
s
α i = ∑ γ p Z pi
p =1
k
Yit = β 1 + ∑ β j X jit + α i + δt + ε it
j =2
24
1. INTRODUCCIÓN
k
Yit = β 1 + ∑ β j X jit + α i + δt + ε it
j =2
IMPORTANTE:
Si las X consiguiesen recoger todos los factores relevantes que explican la Y,
entonces el término α desaparecería. En ese caso, podríamos estimar el modelo
por MCO tomando la muestra formada por todas las observaciones de todos los
periodos. Las estimaciones de MCO serían insesgadas y consistentes siempre que
las X’s y el error idiosincrásico fuesen independientes.
Pero si los α importan, como no los observamos, en realidad estaríamos
estimando:
k
Yit = β1 + ∑ β j X jit + δt + v it
v it = α i + ε it
j =2
En este caso, incluso si suponemos que el término idiosincrásico está
incorrelacionado con las X’s. MCO puede ser sesgado e inconsistente si ai está
correlacionado con las X’s. Este sesgo se denomina sesgo de heterogeneidad.
24
1. INTRODUCCIÓN
EJEMPLO: Estudio sobre la delincuencia en las ciudades
delinc it = β1 + β 2 desemit + α i + δ . year 04 i + ε it
Queremos estudiar el efecto del desempleo en la delincuencia de las ciudades.
Tenemos datos correspondientes a 50 ciudades para los años 2000 y del 2004.
delinc= índice de delincuencia
desem= tasa de desempleo
year04=1 si la observación es de 2004, =0 si es de 2000
™ ¿Qué factores pueden estar en el término no observado αi ? Piensa en
variables que, para una misma ciudad, no cambian entre el año 2000 y el 2004.
™ ¿Podría ser que alguno de esos factores tuviese relación con la tasa de
desempleo de la ciudad?
2. MODELO DE EFECTOS FIJOS
En la mayoría de aplicaciones, la principal razón por la que
utilizamos datos de panel es porque queremos permitir que los
efectos fijos estén correlacionados con las variables explicativas.
En el modelo de efectos fijos, la idea es manipular el modelo para
que el efecto fijo (término no observado) desaparezca y podamos
estimar los parámetros de interés.
2. MODELO DE EFECTOS FIJOS
2.1. ESTIMADOR DE PRIMERAS DIFERENCIAS
El método de “primeras diferencias” consiste en eliminar el efecto no observado
restando, para cada individuo, la observación correspondiente a t menos la
observación t-1
k
Yit = β 1 + ∑ β j X jit + α i + δt + ε it
j =2
k
Yit −1 = β 1 + ∑ β j X jit −1 + α i + δ ( t − 1) + ε it −1
j=2
k
Yit − Yit −1 = ∑ β j ( X jit − X jit −1 ) + δ + ε it − ε it −1
j =2
k
∆Yit = ∑ β j ∆X jit + δ + ε it − ε it −1
j =2
2. MODELO DE EFECTOS FIJOS
2.1. ESTIMADOR DE PRIMERAS DIFERENCIAS
k
Yit = β 1 + ∑ β j X jit + α i + δt + ε it
j =2
k
ε it β= j ρε
Yit −1 = β 1 + ∑
X jitit −−11 ++vδit ( t − 1) + α i + ε it −1
ε it − ε itj =−21 = v it − (1 − ρ )ε it −1
k
está
próximo a 1
Yit − Yit −1 = ∑ β ≅j (vXit jitsi −ρ X
jit −1 ) + δ + ε it − ε it −1
j =2
k
∆Yit = ∑ β j ∆X jit + δ + ε it − ε it −1
j =2
Nótese que ahora el término de error es (εit – εit–1). Su valor en el periodo anterior será (εit-1
– εit–2). De modo que las primeras diferencias dan lugar a una correlación de medias
móviles si εit satisface los supuestos del modelo de regresión.
Pero si εit muestra autocorrelación AR(1) y ρ está próximo a 1, tomar primeras diferencias
resuelve este problema de autocorrelación.
2. MODELO DE EFECTOS FIJOS
2.2. WITHIN-GROUPS ESTIMATOR / ESTIMADOR INTRAGRUPOS
Este segundo método de estimación sigue un procedimiento diferente para eliminar los
efectos fijos. Este método también se conoce como “transformación de efectos fijos”.
k
Yit = β 1 + ∑ β j X jit + α i + δt + ε it
j =2
En primer lugar, se calcula la media muestral de cada una de las variables para
cada individuo. El efecto no observado no se ve alterado porque es el mismo para
todas las observaciones un mismo individuo.
k
Yi = β 1 + ∑ β j X ji + α i + δt + ε i
j =2
En segundo lugar, restamos la segunda ecuación de la primera. De esta manera, el
efecto no observado desaparece.
k
Yit − Yi = ∑ β j ( X jit − X ji ) + δ ( t − t ) + ε it − ε i
j =2
Este método se conococe como estimador “within-groups” porque el modelo
explica las variaciones de la variable dependiente alrededor de la media en
función de variaciones en las variables explicativas en torno a sus medias.
2
2. MODELO DE EFECTOS FIJOS
2.2. WITHIN-GROUPS ESTIMATOR / ESTIMADOR INTRAGRUPOS
k
Yit − Yi = ∑ β j ( X jit − X ji ) + δ ( t − t ) + ε it − ε i
j =2
‰ Aunque con este método resolvemos el problema de sesgo por
heterogeneidad inobservable, pagamos un precio. En primer lugar, el término
constante β1 y cualquiera de las X’s que permanezcan constantes para cada
individuo a lo largo del tiempo, desaparecen.
‰ La eliminación del término constante puede no ser relevante, pero la
imposibilidad de medir el efecto de variables que no cambian sí. Por ejemplo, si
estamos estimando una ecuación de salarios con una muestra de individuos que
ya han finalizado su escolarización, el efecto de la variable “schooling”
desaparecería.
‰ Esto ocurre incluso si los individuos de la muestra tienen diferentes años de
escolarización poque, para cada individuo, la desviación de “schooling” en el año
respecto a la media de “schooling” para ese individuo sería 0. Por tanto, si el
objetivo del estudio fuese medir el impacto de “schooling” una vez que hemos
controlado por heterogeneidad inobservable, no podríamos.
2
2. MODELO DE EFECTOS FIJOS
2.2. WITHIN-GROUPS ESTIMATOR / ESTIMADOR INTRAGRUPOS
k
Yit − Yi = ∑ β j ( X jit − X ji ) + δ ( t − t ) + ε it − ε i
j =2
‰ Un segundo problema que surge con este método es que la variable
dependiente en el modelo transformado puede tener varianzas mucho más
pequeñas que en el original. Esto puede tener efectos adversos sobre la precisión
de las estimaciones de los coeficientes.
2
2. MODELO DE EFECTOS FIJOS
2.3. ESTIMACIÓN CON VARIABLES FICTICIAS O ARTIFICIALES
Este método estima explícitamente los efectos fijos del modelo. Para ello tenemos
que definir un conjunto de variables ficticias Ai, donde Ai =1 si una observación
corresponde al individuo i y es =0 en otro caso. El modelo queda expresado de la
siguiente forma:
k
Yit = β 1 + ∑ β j X jit + δt + α i + ε it
j =2
k
n
j=2
i =1
Yit = ∑ β j X jit + δt + ∑ α i Ai + ε it
Ahora, podríamos estimar los parámetros por MCO.
2. MODELO DE EFECTOS FIJOS
2.3. ESTIMACIÓN CON VARIABLES FICTICIAS O ARTIFICIALES
k
n
j=2
i =1
Yit = ∑ β j X jit + δt + ∑ α i Ai + ε it
‰ Recordad que no podemos incluir tantas variables artificiales como
individuos hay en la muestra ya que, en ese caso, caeríamos en la “trampa
de las variables artificiales”.
‰ Por ese motivo, borramos el término constante del modelo.
‰ Si tenemos muchos individuos en la muestra, este método no es muy
práctico, ya que tendríamos que estimar muchos parámetros.
‰ Cuando T=2 se puede demostrar matemáticamente que este método es
equivalente al estimador “within-groups”, es decir, nos permite obtener
las mismas estimaciones.
3. MODELO DE EFECTOS ALEATORIOS
Como hemos visto, cuando las variables observadas X se mantienen
constantes a lo largo del tiempo para cada individuo, la regresión de
efectos fijos no es una herramienta atractiva porque no nos permite medir
el efecto de esas variables.
En esta sección, consideraremos un enfoque alternativo denominado
MODELO DE EFECTOS ALEATORIOS que, sujeto a un par de
condiciones, nos permite resolver este problema.
3. MODELO DE EFECTOS ALEATORIOS
k
s
j=2
p =1
Yit = β 1 + ∑ β j X jit + ∑ γ p Z pi + δt + ε it
k
Yit = β 1 + ∑ β j X jit + α i + δt + ε it
j =2
k
= β 1 + ∑ β j X jit + δt + uit
j =2
uit = α i + ε it
PRIMERA CONDICIÓN: Podemos tratar cada una de las variables Z como si
hubiesen sido extraidas de una distribución aleatoria.
Bajo este supuesto, ai puede ser considerada como un efecto aleatorio (de ahí el
nombre de este enfoque). De modo que el modelo se puede reescribir con un
nuevo término de error uit.
3. MODELO DE EFECTOS ALEATORIOS
k
s
j=2
p =1
Yit = β 1 + ∑ β j X jit + ∑ γ p Z pi + δt + ε it
k
Yit = β 1 + ∑ β j X jit + α i + δt + ε it
j =2
k
= β 1 + ∑ β j X jit + δt + uit
j =2
uit = α i + ε it
SEGUNDA CONDICIÓN: Las variables Zp se distribuyen de forma
independiente a las variables Xj.
Si este supuesto no se cumple, la estimación del modelo sería sesgada e
inconsistente (¿Por qué?). En ese caso, deberíamos utilizar el “modelo de efectos
fijos”.
Si las dos condiciones se cumplen, deberíamos utilizar el “modelo de efectos
aleatorios”. Pero existe otro problema: el término uit puede mostrar cierta forma
de autocorrelación, de modo que el método de estimación debe tenerlo en cuenta.
3. MODELO DE EFECTOS ALEATORIOS
k
s
j=2
p =1
Yit = β 1 + ∑ β j X jit + ∑ γ p Z pi + δt + ε it
k
Yit = β 1 + ∑ β j X jit + α i + δt + ε it
j =2
k
= β 1 + ∑ β j X jit + δt + uit
uit = α i + ε it
j =2
E ( uit ) = E (α i + ε it ) = E (α i ) + E (ε it ) = 0
Primero, vamos a comprobar si se cumplen los otros supuestos del modelo de regresión.
1. Suponemos sin pérdida de generalidad que E(αi) = 0, entonces E(u)=0
9
3. MODELO DE EFECTOS ALEATORIOS
k
s
j=2
p =1
Yit = β 1 + ∑ β j X jit + ∑ γ p Z pi + δt + ε it
k
Yit = β 1 + ∑ β j X jit + α i + δt + ε it
j =2
k
= β 1 + ∑ β j X jit + δt + uit
uit = α i + ε it
j =2
E ( uit ) = E (α i + ε it ) = E (α i ) + E (ε it ) = 0
σ u2 = σ α2 +ε = σ α2 + σ ε2 + 2σ α ,ε = σ α2 + σ ε2
it
i
it
i
it
i
it
2. La varianza de uit es constante. (La convarianza entre αi y εit es 0 bajo el supuesto
de que αi es independiente de εit.)
3. Además, uit también es independiente de los valores Xj, porque tanto αi como εit
satisfacen esta condición.
11
3. MODELO DE EFECTOS ALEATORIOS
k
Yit = β 1 + ∑ β j X jit + δt + uit
j =2
Individual
Time
1
1
1
2
1
3
2
1
2
2
2
3
uit = α i + ε it
u
α1 + ε11
α1 + ε12
α1 + ε13
α2 + ε21
α2 + ε22
α2 + ε23
PERO…. Existe un problema de autocorrelación porque las observaciones
para un mismo individuo tiene un componente común ai que recoge las
características no observadas del individuo.
No obstante, las observaciones de diferentes individuos sí son independientes
entre sí.
13
3. MODELO DE EFECTOS ALEATORIOS
k
Yit = β 1 + ∑ β j X jit + δt + uit
j =2
Individual
Time
1
1
1
2
1
3
2
1
2
2
2
3
uit = α i + ε it
u
α1 + ε11
α1 + ε12
α1 + ε13
α2 + ε21
α2 + ε22
α2 + ε23
No vamos a analizar con detalle cómo se afronta este problema.
El software econométrico estima estos modelos por MÍNIMOS CUADRADOS
GENERALIZADOS FACTIBLES, cuyos detalles no vamos a abordar en este
curso.
13
3. MODELO DE EFECTOS ALEATORIOS
EJEMPLO
NLSY 1980–1996
Dependent variable logarithm of hourly earnings
OLS
Fixed effects
Married
0.184
(0.007)
0.106
(0.012)
Soon-to-bemarried
0.096
(0.009)
0.045
(0.010)
–
–0.061
(0.008)
–0.106
(0.012)
Random effects
0.134
(0.010)
0.060
(0.009)
–
–
–0.075
(0.007)
Single
–
–
–0.134
(0.010)
R2
0.358
0.268
0.268
0.346
0.346
n
20,343
20,343
20,343
20,343
20,343
3. ¿EFECTOS FIJOS O EFECTOS ALEATORIOS?
¿Podemos describir las observaciones como procedentes
de una muestra aleatoria de la población?
Sí
No
Estima ambos
modelos: efectos fijos y
efectos aleatorios
¿El contraste Durbin-WuHausman indica diferencias
entre los coeficientes?
Sí
Utiliza el modelo
de efectos fijos
Estima el modelo de
efectos fijos
No
Elige provisionalmente el
modelo de efectos aleatorios.
¿Los tests indican presencia de
efectos aleatorios?
Sí
Utiliza el
modelo de
efectos
aleatorios
No
Utiliza MCO
haciendo
un pool con
los datos
Descargar