Econometría Grado en Finanzas y Contabilidad

Anuncio
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Econometrı́a
Grado en Finanzas y Contabilidad
Helena Veiga
Apuntes de clase basados en el libro ”Introduction to Econometrics: A modern
Approach” de Wooldridge
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
2.1
2.2
2.3
2.4
2.5
La información cualitativa
Una única variable ficticia independiente
Uso de variables ficticias cuando hay varias categorias
Interrelaciones entre las variables ficticias
Variable dependiente binaria: El modelo lineal de probabilidad
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
A menudo la información cualitativa se presenta en forma de
variables binarias:
• una persona es o mujer o varón;
• una persona o tiene o no ordenador personal;
• una empresa o ofrece un tipo de plan de pensiones a sus
empleados o no lo ofrece;
• un paı́s o admite la condena a cadena perpetua o no lo hace.
En todos estos ejemplos, la información importante se puede
almacenar en una variable binaria (o ficticia) o variable cero-uno.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Al definir una variable ficticia, debemos decidir a cual suceso le
asignamos el valor uno y a cual le asignamos el valor cero.
Por ejemplo, en un estudio sobre los salarios de los individuos,
podrı́amos definir mujer como una variable binaria que tomara el
valor uno para las mujeres y cero para los varones.
O al contrario, también podrı́amos definir varon como una variable
binaria que tomara el valor uno para los varones y el valor cero
para las mujeres.
La ventaja de almacenar la información cualitativa en variables
cero-uno es que nos lleva a modelos de regresión en los cuales los
parámetros tienen interpretaciones muy naturales.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Por ejemplo, podrı́amos tener:
Figure :
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
¿Como incluimos la información binaria en los modelos de
regresión?
En el caso más sencillo de que solo haya una variable ficticia
explicativa, simplemente la añadimos a las demás variables
independientes de la ecuación. Sea el siguiente modelo en que se
intenta explicar el salario por hora:
wagei = β0 + δ0 femalei + β1 educi + ui ,
δ0 se utiliza como parámetro para female, la variable ficticia.
En el modelo, femalei = 1 cuando la persona es una mujer, y
female = 0 cuando la persona es un varón, el parámetro δ0 tiene la
siguiente interpretación:
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
δ0 es la diferencia de salario por hora entre mujeres y varones,
suponiendo que el nivel de educación es el mismo.
El coeficiente δ0 nos dice si hay discriminación en contra de las
mujeres: si δ0 < 0, entonces, a igual nivel en los demás factores,
las mujeres ganan menos que los varones en promedio.
Si suponemos que la media condicional es cero, es decir, que
E (ui |femalei , educi ) = 0, entonces
δ0 = E (wagei |femalei = 1, educi ) − E (wagei |femalei = 0, educi ).
Como femalei = 1 corresponde a las mujeres y femalei = 0 a los
varones, podemos escribir la ecuación anterior:
δ0 = E (wagei |femalei , educi ) − E (wagei |malei , educi ).
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Figure :
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
• Los varones son el grupo base o grupo de referencia, es decir,
el grupo con el que se hacen las comparaciones;
• β0 es la constante para varones;
• δ0 es la diferencia de constantes entre mujeres y varones.
Si mujeres fuera el grupo base, entonces el modelo serı́a:
wagei = α0 + γ0 malei + β1 educi + ui ,
donde la constante para mujeres es α0 y la constante para varones
es α0 + γ0 . Esto implica que α0 = β0 + δ0 y β0 = α0 + γ0 .
En la práctica, no importa cual sea el grupo que tomemos como
base, pero sı́ es importante que recordemos cual es el que hemos
escogido como base.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Cuando hay mas variables explicativas:
wagei = β0 + δ0 femalei + β1 educi + β2 experi + β3 tenurei + ui .
Si educ, exper y tenure son todas variables importantes en la
productividad, la hipótesis nula de que no hay diferencia entre
varones y mujeres es H0 : δ0 = 0. La alternativa de que hay
discriminación en contra de las mujeres es Ha : δ < 0.
Ejemplo
La estimación del modelo anterior es:
wage
ˆ i
= −1.57 + −1.81femalei + 0.572educi
0.72
0.049
0.26
+0.25experi + 0.141tenurei
0.012
0.021
n = 526 R 2 = 0.364
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
• La constante negativa (la constante para varones), en este
caso no tiene mucho sentido, porque nadie tiene en la muestra
valores próximos a cero en años de educ, exper , y tenure.
• El coeficiente de female mide la diferencia esperada en salario
por hora entre una mujer y un varón, para los mismos niveles
de educ, exper , y tenure.
Es informativo el comparar el coeficiende de female en la ecuación
anterior con la estimación cuando se quitan las demás variables de
la ecuación:
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
wage
ˆ i = 7.10 − 2.51femalei
0.21
0.3
n = 526 R 2 = 0.116
• La constante es el salario medio para varones en la muestra
(con female = 0), por tanto, los varones ganan $7.10 por hora
en media;
• El coeficiente de female es la diferencia de salario medio por
hora entre varones y mujeres. Por tanto, el salario medio de
las mujeres de la muestra es de $4.59 por hora;
• Podemos hacer un contraste de comparación de las medias
entre los dos grupos. La diferencia estimada, −2.51, tiene un
estadı́stico t de −8.37, el cual es estadı́sticamente muy
significativo;
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
• Para que el contraste de la t sea válido, debemos suponer que
la hipótesis de homoscedasticidad se cumple, lo cual implica
que la varianza poblacional de wages es la misma para
varones que para mujeres.
El ejemplo anterior podrı́a tener importancia en planificación de la
polı́tica de igualdad. Otros ejemplos podrı́an ser la evaluación de
medidas, donde medirı́amos el efecto de las medidas económicas o
sociales sobre los individuos, empresas, barrios, ciudades, etc.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
En el caso mas sencillo hay dos grupos de individuos.
• El grupo de control no participa en el experimento;
• El grupo experimental o grupo de tratamiento sı́ participa.
Con pocas excepciones, la elección de los grupos de control y de
tratamiento no es aleatoria.
Ejemplo
Utilizando los datos JTRAIN.RAW de las empresas manufactureras
de Michigan en 1988, se obtuvo la siguiente ecuación estimada:
ˆ i
hrsemp
= 46.67 + 26.25granti − 0.98 ln sales i
43.41
5.59
3.54
−6.07 ln employ i ,
3.88
n = 105 R 2 = 0.237
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
La variable dependiente son las horas de formación por empleado
en cada empresa. La variable grant es una variable ficticia que
vale uno si la empresa recibió una subvención para formación
laboral en 1988 y 0 en otro caso. Las variables sales y employ son
las ventas anuales y el número de empleados respectivamente.
• La variable grant es estadı́sticamente muy significativa, con
tgrant = 4.70. Controlando las ventas y el empleo, las
empresas que recibieron una subvención formaron a cada
trabajador, en media, 26.25 horas más;
• Puesto que el número medio de horas de formación por
trabajador en la muestra es, aproximadamente, 17, con un
máximo de 164, grant tiene un efecto grande sobre la
formación, como cabrı́a esperar.
• El coeficiente de ln sales es pequeño y no significativo.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
• El coeficiente de ln employ se interpreta como que, si una
empresa es un 10% mayor, forma a sus trabajadores unas .61
horas menos. Su estadı́stico t es 1.56, que está cerca del
lı́mite de ser estadı́sticamente significativo.
Interpretación de los Coeficientes de las Variables Ficticias
Explicativas Cuando la Variable Dependiente es ln(y)
En la práctica, a menudo, la variable dependiente aparece en forma
de logaritmo, con una o mas variables ficticias como variables
independientes. ¿Como interpretamos los coeficientes de las
variables ficticias en este caso?
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
ˆ i
ln price
= 5.56 + 0.168 ln lotsize i + 0.707 ln sqrft i
0.65
0.038
0.093
0.027bdrmsi + 0.054coloniali ,
0.029
0.045
n = 88 R 2 = 0.649
donde colonial , que es una variable binaria, vale 1 si la casa es de
estilo colonial.
Fijados los valores de lotsize, sqrft, y bdrms, la diferencia en
ˆ
ln price
entre una casa de estilo colonial y otra de otro estilo es de
.054. Es decir, una casa de estilo colonial se espera que se venda
aproximadamente por un 5.4% más, si los demás factores son
iguales.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Podemos usar varias variables ficticias independientes en la misma
ecuación. Veamos el siguiente ejemplo:
ˆ i
ln wage
= 0.321 + 0.213marrmalei + −0.198marrfemi
0.100
0.055
0.058
−0.110singfemi + 0.079educi + 0.027experi
0.056
0.007
0.005
−0.00054experi2 + 0.029tenurei − 0.00053tenurei2
0.007
0.00011
n = 526 R 2 = 0.461
0.00023
El modelo estimado permite diferencias en salario entre cuatro
grupos, hombres casados, mujeres casadas, hombres solteros y
mujeres solteras.
• El grupo base es hombres solteros;
• Las variables ficticias son: marrmale, marrfem y singfem;
• No ponemos female, porque ahora es redundante.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
• Todas las variables, excepto singfem, son estadı́sticamente
significativas.
• Las estimaciones entre las tres variables ficticias miden la
diferencia en proporción en salario en relación a los hombres
solteros. Por ejemplo, se estima que los hombres casados
ganan un 21.3% mas que los solteros, a iguales niveles de
educación, experiencia y antigüedad.
• Aunque los hombres solteros son el grupo base, podemos usar
las estimaciones para calcular la diferencia estimada entre dos
grupos cualesquiera.
• Por ejemplo, la diferencia en proporción entre mujeres solteras
y casadas es −.110 − (−.198) = .088, es decir, las mujeres
solteras ganan aproximadamente un 8.8% mas que las mujeres
casadas.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
• Sin embargo, no podemos usar las estimaciones anteriores
para contrastar si la diferencia estimada entre mujeres solteras
y casadas es estadı́sticamente significativa. Las desviaciones
tı́picas de marrfem y singfem no bastan para hacer ese
contraste.
• Lo mas sencillo es escoger uno de esos grupos como base y
reestimar la ecuación:
ln wage i
= β0 + δ0 marrmalei + δ3 singmalei + δ2 singfemi
+β1 educi + β2 experi + β3 experi2
+β4 tenurei + β5 tenurei2 + ui
ahora la hipótesis nula es, simplemente, H0 : δ2 = 0
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
• La regla general para incluir variables ficticias que nos definan
los distintos grupos es: si necesitamos en el modelo de
regresión constantes para g grupos o categorı́as, debemos
incluir g − 1 variables ficticias en el modelo, además de la
constante.
Utilización de las Variables Ficticias para Información Ordinal
Supongamos que queremos estimar el efecto de las calificaciones
de solvencia de las distintas ciudades sobre el tipo de interés de la
deuda municipal (MBR). Las agencias financieras, como Moody‘s y
Standard and Poor‘s, califican la calidad de la deuda de los
gobiernos municipales de tal forma que las calificaciones dependen
de factores tales como la probabiilidad de impago.
Por ejemplo, las calificaciones podrı́an varı́ar desde cero hasta
cuatro, donde cero fuera la peor calificación y cuatro la mejor.
Este es un ejemplo de una variable ordinal (CR).
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
¿Como incluimos la variable CR en un modelo para explicar
MBR?
Una manera es:
MBRi = β0 + β1 CRi + otros factores,
• Entonces β1 es el cambio en MBR cuando CR se incrementa
en una unidad, dejando fijos los demás factores.
• Por desgracia, no es tan sencillo interpretar un incremento de
una unidad en CR.
• Sabemos que un CR de cuatro es mejor que un CR de tres,
pero ¿es la diferencia entre cuatro y tres la misma que la
diferencia entre uno y cero?
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Un enfoque mejor es definir variables ficticias para cada valor de
CR, por ejemplo:
• CR1 = 1 si CR = 1 y CR1 = 0 en otro caso;
• CR2 = 1 si CR = 2 y CR2 = 0 en otro caso.
• etc.
De esta forma transformamos las calificaciones en cinco categorias.
Entonces, podemos estimar el modelo
MBRi = β0 + δ1 CR1i + δ2 CR2i + δ3 CR3i + δ4 CR4i + otros factores.
Incluimos cuatro variables ficticias porque tenemos cinco
categorı́as.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
La categorı́a que hemos omitido es la calificación crediticia de cero,
por tanto, este es el grupo base.
Interpretación de los coeficientes:
• δ1 es la diferencia en MBR (fijos los otros factores) entre un
municipio con calificación de 1 y otro con calificación de cero;
• δ2 es la diferencia en MBR entre un municipio con calificación
de 2 y otro con calificación de cero;
• etc.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
En el ejemplo del salario, podemos añadir un término de
interacción entre female y married al modelo en que female y
married aparecı́an por separado:
ˆ i
ln wage
= 0.321 − 0.110femalei + 0.213marriedi
0.10
0.056
0.055
−0.301femalei ∗ marriedi + .....,
0.072
Estas estimaciones nos dicen que hay una interacción
estadı́sticamente significativa entre sexo y estado civil. Este
modelo también nos permite obtener la diferencia estimada en
salario entre los cuatro grupos, pero debemos tener cuidado de
asignar correctamente la combinación de ceros y unos.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Los valores female = 0 y married = 0 corresponden al grupo de
hombres solteros, que es el grupo base, porque ası́ se eliminan
female, married , y female · married . Podemos calcular la constante
para hombres casados poniendo female = 0 y married = 1, lo cual
nos da una constante de .321 + .213 = .534.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Pendientes distintas
Podemos introducir interacciones entre las variables ficticias y
otras variables explicativas para que haya diferencias en las
pendientes. En el ejemplo:
ln wage i = (β0 + δ0 femalei ) + (β1 + δ1 femalei )educi + ui
• Si hacemos female = 0, entonces la constante para los
varones es β0 , y la pendiente de educación para varones es β1 .
• Para las mujeres, ponemos female = 1; por tanto, la constante
para las mujeres es β0 + δ0 , y la pendiente es β1 + δ1 .
• δ0 mide la diferencia en constantes entre mujeres y varones, y
δ1 mide la diferencia en la pendiente de education entre
mujeres y varones.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Figure :
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
¿Como estimamos este modelo?
Para poder aplicar OLS, tenemos que meter en el modelo una
interacción entre female y educ:
ln wage i = β0 + δ0 femalei + β1 educi + δ1 femalei · educi + ui
Una hipótesis de interés es que la pendiente de educación es la
misma para mujeres y varones. Por tanto, la hipótesis a contrastar
es:
H0 : δ1 = 0,
lo cual significa que la pendiente de ln wage con respecto a educ es
la misma para varones y mujeres.
Esta hipótesis no restringe la diferencia de constantes, δ0 . Esta
hipótesis nula permite que haya una diferencia en salario entre
varones y mujeres, pero debe ser la misma para todos los niveles de
educación.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
• También nos interesa la hipótesis de que los salarios medios
son idénticos para varones y mujeres con un mismo nivel de
educación. Bajo esta hipótesis ambos δ0 y δ1 deben ser nulos.
• Para contrastar H0 : δ0 = 0, δ1 = 0 se usa un test de la F.
• En el modelo en que hay solo una diferencia de constantes
esta hipótesis se rechaza, es decir, H0 : δ0 = 0 se rechaza
frente a H1 : δ0 < 0.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Contraste de la igualdad de regresiones para distintos grupos
Queremos ahora contrastar la hipótesis de que dos grupos tienen la
misma función de regresión, frente a la alternativa de que al menos
un parámetro es distinto en los dos grupos.
Veamos el siguiente ejemplo:Queremos contrastar que el modelo de
regresión que explica la nota media en la universidad es la misma
para deportistas universitarios varones y mujeres. La ecuación es:
cumgpai = β0 + β1 sati + β2 hsperci + β3 tothrsi + ui i = 1, ..., n,
donde sat es la puntuación en un examen de ingreso, hsperc es el
ranking en la nota del instituto y tothrs es el número total de
horas de enseñanaza en la universidad.
Si queremos que cualquiera de las pendientes dependa de sexo,
simplemente incluimos las interacciones entre la variable (por
ejemplo) female y las otras variables de la ecuación.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Si queremos contrastar que hay alguna diferencia entre varones y
mujeres, entonces debemos especificar un modelo en el cual la
constante y todas las pendientes sean distintas en uno y otro
grupo:
cumgpai
= β0 + δ0 femalei + β1 sati + δ1 femalei ∗ sati
+β2 hsperci + δ2 femalei ∗ hsperci + β3 tothrsi
+δ3 femalei ∗ tothrsi + ui
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
El parámetro δ0 mide la diferencia entre las constantes de varones
y mujeres, δ1 mide la diferencia de pendientes con respecto a sat
entre varones y mujeres, etc. La hipótesis nula de que cumgpa
sigue el mismo modelo para varones y mujeres se expresa ası́:
H0 : δ0 = 0 , δ1 = 0 , δ2 = 0 , δ3 = 0
Si una de las δj es no nula, entonces el modelo es distinto para
varones y mujeres. Podemos contrastar esta hipótesis nula con el
test de la F basado en los modelos restringido y no restringido.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
En todos los modelos que hemos visto hasta ahora, la variable
dependiente y era cuantitativa (por ejemplo, y se media en Euros,
o era una puntuación de un examen, o un porcentaje, o los
logaritmos de ellas). ¿ Que sucede si queremos utilizar regresión
múltiple para explicar un hecho cualitativo?
Por ejemplo, y puede indicarnos si una persona tiene bachillerato o
no, o puede decirnos si un estudiante ha tomado drogas durante
un curso académico, o si una empresa pasó a ser controlada por
otra durante un año. En todos estos ejemplos, podemos hacer que
y = 1 denote una de las situaciones y y = 0 la otra.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
¿ Que sentido tiene un modelo de regresión múltiple si y es
binaria?
yi = β0 + β1 x1i + ... + βk xki + ui i = 1, ..., n.
Como y solo puede tomar dos valores, βj no se puede interpretar
como el cambio en y dado un incremento unitario en xj , ceteris
paribus, puesto que y solo puede cambiar de uno a cero o de cero
a uno.
Si suponemos que E (ui |x1i , x2i , ..., xki ) = 0, tenemos
E (yi |xi ) = β0 + β1 x1i + ... + βk xki ,
donde xi = x1i , x2i , ..., xki .
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
La clave está en que cuando y es una variable binaria que toma los
valores cero y uno, siempre se cumple que P(y = 1|x) = E (y |x): la
probabilidad de éxito, (o sea, la probabilidad de que y = 1),
coincide con el valor esperado de y :
P(y = 1|x) = β0 + β1 x1 + ... + βk xk .
El modelo de regresión múltiple con variable dependiente binaria se
llama modelo de probabilidad lineal (LPM) porque la
probabilidad de la respuesta es lineal en los parámetros βj .
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
En el LPM, βj mide el cambio en la probabilidad de éxito si xj
cambia y los demás factores se mantienen fijos:
∆P(y = 1|x) = βj ∆xj .
Si escribimos el modelo estimado como:
yˆi = β̂0 + β̂1 x1i + ... + β̂k xki
• yˆi es la probabilidad predicha de éxito para el individuo i ;
• βˆ0 es la probabilidad predicha de éxito si todos los xj valen
cero, esta cantidad puede o no ser de interés;
• La pendiente βˆ1 mide el cambio predicho de probabilidad de
éxito si x1 se incrementa en una unidad.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Inconvenientes del LPM
• Para ciertas combinaciones de los parámetros podemos
obtener probabilidades negativas o mayores que uno;
• El LPM suele funcionar bien para valores de las variables
independientes que estén cerca de los valores muestrales
medios;
• Debido a que y es binaria, el LPM incumple una de las
hipótesis de Gauss-Markov. Si y es binaria, su varianza
condicional en x, es
Var (y |x) = p(x) (1 − p(x)) ,
donde p(x) = β0 + β1 x1 + ... + βk xk . Esto implica, excepto en
el caso de que esta probabilidad no dependa de ninguna
variable independiente, que debe haber heteroscedasticidad en
el LPM.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Esquema
2.1 La información cualitativa
2.2 Una única variable ficticia independiente
2.3 Uso de variables ficticias cuando hay varias categorias
2.4 Interrelaciones entre las variables ficticias
2.5 Variable dependiente binaria: El modelo de probabilidad lineal
Ejemplo
Sea arr 86 una variable binaria que vale 1 si un hombre fue
detenido durante 1986 y cero en otro caso. La población son un
grupo de jóvenes de California nacidos en 1960 o 1961 que ya
habı́an sido detenidos antes de 1986. Un modelo lineal de
probabilidad para explicar arr86 es:
arr 86 = β0 +β1 pcnv +β2 avgsen+β3 tottime+β4 ptime86+β5 qemp86+u,
donde pcnv es la proporción de detenciones anteriores que llevaron
a una condena, avgsen es la condena media cumplida
anteriormente (en mesess), tottime son los meses que ha pasado
en la cárcel desde que tenı́a 18 años y antes de 1986, ptime86 son
los meses que pasó en la cárcel en 1986, y qemp86 es el número de
trimestres (de 0 a 4) en que el hombre tuvo un empleo legal en
1986.
Helena Veiga
Capı́tulo 2: Regresión con Variables Cualitativas
Descargar