Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Econometrı́a Grado en Finanzas y Contabilidad Helena Veiga Apuntes de clase basados en el libro ”Introduction to Econometrics: A modern Approach” de Wooldridge Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal 2.1 2.2 2.3 2.4 2.5 La información cualitativa Una única variable ficticia independiente Uso de variables ficticias cuando hay varias categorias Interrelaciones entre las variables ficticias Variable dependiente binaria: El modelo lineal de probabilidad Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal A menudo la información cualitativa se presenta en forma de variables binarias: • una persona es o mujer o varón; • una persona o tiene o no ordenador personal; • una empresa o ofrece un tipo de plan de pensiones a sus empleados o no lo ofrece; • un paı́s o admite la condena a cadena perpetua o no lo hace. En todos estos ejemplos, la información importante se puede almacenar en una variable binaria (o ficticia) o variable cero-uno. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Al definir una variable ficticia, debemos decidir a cual suceso le asignamos el valor uno y a cual le asignamos el valor cero. Por ejemplo, en un estudio sobre los salarios de los individuos, podrı́amos definir mujer como una variable binaria que tomara el valor uno para las mujeres y cero para los varones. O al contrario, también podrı́amos definir varon como una variable binaria que tomara el valor uno para los varones y el valor cero para las mujeres. La ventaja de almacenar la información cualitativa en variables cero-uno es que nos lleva a modelos de regresión en los cuales los parámetros tienen interpretaciones muy naturales. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Por ejemplo, podrı́amos tener: Figure : Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal ¿Como incluimos la información binaria en los modelos de regresión? En el caso más sencillo de que solo haya una variable ficticia explicativa, simplemente la añadimos a las demás variables independientes de la ecuación. Sea el siguiente modelo en que se intenta explicar el salario por hora: wagei = β0 + δ0 femalei + β1 educi + ui , δ0 se utiliza como parámetro para female, la variable ficticia. En el modelo, femalei = 1 cuando la persona es una mujer, y female = 0 cuando la persona es un varón, el parámetro δ0 tiene la siguiente interpretación: Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal δ0 es la diferencia de salario por hora entre mujeres y varones, suponiendo que el nivel de educación es el mismo. El coeficiente δ0 nos dice si hay discriminación en contra de las mujeres: si δ0 < 0, entonces, a igual nivel en los demás factores, las mujeres ganan menos que los varones en promedio. Si suponemos que la media condicional es cero, es decir, que E (ui |femalei , educi ) = 0, entonces δ0 = E (wagei |femalei = 1, educi ) − E (wagei |femalei = 0, educi ). Como femalei = 1 corresponde a las mujeres y femalei = 0 a los varones, podemos escribir la ecuación anterior: δ0 = E (wagei |femalei , educi ) − E (wagei |malei , educi ). Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Figure : Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal • Los varones son el grupo base o grupo de referencia, es decir, el grupo con el que se hacen las comparaciones; • β0 es la constante para varones; • δ0 es la diferencia de constantes entre mujeres y varones. Si mujeres fuera el grupo base, entonces el modelo serı́a: wagei = α0 + γ0 malei + β1 educi + ui , donde la constante para mujeres es α0 y la constante para varones es α0 + γ0 . Esto implica que α0 = β0 + δ0 y β0 = α0 + γ0 . En la práctica, no importa cual sea el grupo que tomemos como base, pero sı́ es importante que recordemos cual es el que hemos escogido como base. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Cuando hay mas variables explicativas: wagei = β0 + δ0 femalei + β1 educi + β2 experi + β3 tenurei + ui . Si educ, exper y tenure son todas variables importantes en la productividad, la hipótesis nula de que no hay diferencia entre varones y mujeres es H0 : δ0 = 0. La alternativa de que hay discriminación en contra de las mujeres es Ha : δ < 0. Ejemplo La estimación del modelo anterior es: wage ˆ i = −1.57 + −1.81femalei + 0.572educi 0.72 0.049 0.26 +0.25experi + 0.141tenurei 0.012 0.021 n = 526 R 2 = 0.364 Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal • La constante negativa (la constante para varones), en este caso no tiene mucho sentido, porque nadie tiene en la muestra valores próximos a cero en años de educ, exper , y tenure. • El coeficiente de female mide la diferencia esperada en salario por hora entre una mujer y un varón, para los mismos niveles de educ, exper , y tenure. Es informativo el comparar el coeficiende de female en la ecuación anterior con la estimación cuando se quitan las demás variables de la ecuación: Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal wage ˆ i = 7.10 − 2.51femalei 0.21 0.3 n = 526 R 2 = 0.116 • La constante es el salario medio para varones en la muestra (con female = 0), por tanto, los varones ganan $7.10 por hora en media; • El coeficiente de female es la diferencia de salario medio por hora entre varones y mujeres. Por tanto, el salario medio de las mujeres de la muestra es de $4.59 por hora; • Podemos hacer un contraste de comparación de las medias entre los dos grupos. La diferencia estimada, −2.51, tiene un estadı́stico t de −8.37, el cual es estadı́sticamente muy significativo; Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal • Para que el contraste de la t sea válido, debemos suponer que la hipótesis de homoscedasticidad se cumple, lo cual implica que la varianza poblacional de wages es la misma para varones que para mujeres. El ejemplo anterior podrı́a tener importancia en planificación de la polı́tica de igualdad. Otros ejemplos podrı́an ser la evaluación de medidas, donde medirı́amos el efecto de las medidas económicas o sociales sobre los individuos, empresas, barrios, ciudades, etc. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal En el caso mas sencillo hay dos grupos de individuos. • El grupo de control no participa en el experimento; • El grupo experimental o grupo de tratamiento sı́ participa. Con pocas excepciones, la elección de los grupos de control y de tratamiento no es aleatoria. Ejemplo Utilizando los datos JTRAIN.RAW de las empresas manufactureras de Michigan en 1988, se obtuvo la siguiente ecuación estimada: ˆ i hrsemp = 46.67 + 26.25granti − 0.98 ln sales i 43.41 5.59 3.54 −6.07 ln employ i , 3.88 n = 105 R 2 = 0.237 Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal La variable dependiente son las horas de formación por empleado en cada empresa. La variable grant es una variable ficticia que vale uno si la empresa recibió una subvención para formación laboral en 1988 y 0 en otro caso. Las variables sales y employ son las ventas anuales y el número de empleados respectivamente. • La variable grant es estadı́sticamente muy significativa, con tgrant = 4.70. Controlando las ventas y el empleo, las empresas que recibieron una subvención formaron a cada trabajador, en media, 26.25 horas más; • Puesto que el número medio de horas de formación por trabajador en la muestra es, aproximadamente, 17, con un máximo de 164, grant tiene un efecto grande sobre la formación, como cabrı́a esperar. • El coeficiente de ln sales es pequeño y no significativo. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal • El coeficiente de ln employ se interpreta como que, si una empresa es un 10% mayor, forma a sus trabajadores unas .61 horas menos. Su estadı́stico t es 1.56, que está cerca del lı́mite de ser estadı́sticamente significativo. Interpretación de los Coeficientes de las Variables Ficticias Explicativas Cuando la Variable Dependiente es ln(y) En la práctica, a menudo, la variable dependiente aparece en forma de logaritmo, con una o mas variables ficticias como variables independientes. ¿Como interpretamos los coeficientes de las variables ficticias en este caso? Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal ˆ i ln price = 5.56 + 0.168 ln lotsize i + 0.707 ln sqrft i 0.65 0.038 0.093 0.027bdrmsi + 0.054coloniali , 0.029 0.045 n = 88 R 2 = 0.649 donde colonial , que es una variable binaria, vale 1 si la casa es de estilo colonial. Fijados los valores de lotsize, sqrft, y bdrms, la diferencia en ˆ ln price entre una casa de estilo colonial y otra de otro estilo es de .054. Es decir, una casa de estilo colonial se espera que se venda aproximadamente por un 5.4% más, si los demás factores son iguales. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Podemos usar varias variables ficticias independientes en la misma ecuación. Veamos el siguiente ejemplo: ˆ i ln wage = 0.321 + 0.213marrmalei + −0.198marrfemi 0.100 0.055 0.058 −0.110singfemi + 0.079educi + 0.027experi 0.056 0.007 0.005 −0.00054experi2 + 0.029tenurei − 0.00053tenurei2 0.007 0.00011 n = 526 R 2 = 0.461 0.00023 El modelo estimado permite diferencias en salario entre cuatro grupos, hombres casados, mujeres casadas, hombres solteros y mujeres solteras. • El grupo base es hombres solteros; • Las variables ficticias son: marrmale, marrfem y singfem; • No ponemos female, porque ahora es redundante. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal • Todas las variables, excepto singfem, son estadı́sticamente significativas. • Las estimaciones entre las tres variables ficticias miden la diferencia en proporción en salario en relación a los hombres solteros. Por ejemplo, se estima que los hombres casados ganan un 21.3% mas que los solteros, a iguales niveles de educación, experiencia y antigüedad. • Aunque los hombres solteros son el grupo base, podemos usar las estimaciones para calcular la diferencia estimada entre dos grupos cualesquiera. • Por ejemplo, la diferencia en proporción entre mujeres solteras y casadas es −.110 − (−.198) = .088, es decir, las mujeres solteras ganan aproximadamente un 8.8% mas que las mujeres casadas. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal • Sin embargo, no podemos usar las estimaciones anteriores para contrastar si la diferencia estimada entre mujeres solteras y casadas es estadı́sticamente significativa. Las desviaciones tı́picas de marrfem y singfem no bastan para hacer ese contraste. • Lo mas sencillo es escoger uno de esos grupos como base y reestimar la ecuación: ln wage i = β0 + δ0 marrmalei + δ3 singmalei + δ2 singfemi +β1 educi + β2 experi + β3 experi2 +β4 tenurei + β5 tenurei2 + ui ahora la hipótesis nula es, simplemente, H0 : δ2 = 0 Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal • La regla general para incluir variables ficticias que nos definan los distintos grupos es: si necesitamos en el modelo de regresión constantes para g grupos o categorı́as, debemos incluir g − 1 variables ficticias en el modelo, además de la constante. Utilización de las Variables Ficticias para Información Ordinal Supongamos que queremos estimar el efecto de las calificaciones de solvencia de las distintas ciudades sobre el tipo de interés de la deuda municipal (MBR). Las agencias financieras, como Moody‘s y Standard and Poor‘s, califican la calidad de la deuda de los gobiernos municipales de tal forma que las calificaciones dependen de factores tales como la probabiilidad de impago. Por ejemplo, las calificaciones podrı́an varı́ar desde cero hasta cuatro, donde cero fuera la peor calificación y cuatro la mejor. Este es un ejemplo de una variable ordinal (CR). Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal ¿Como incluimos la variable CR en un modelo para explicar MBR? Una manera es: MBRi = β0 + β1 CRi + otros factores, • Entonces β1 es el cambio en MBR cuando CR se incrementa en una unidad, dejando fijos los demás factores. • Por desgracia, no es tan sencillo interpretar un incremento de una unidad en CR. • Sabemos que un CR de cuatro es mejor que un CR de tres, pero ¿es la diferencia entre cuatro y tres la misma que la diferencia entre uno y cero? Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Un enfoque mejor es definir variables ficticias para cada valor de CR, por ejemplo: • CR1 = 1 si CR = 1 y CR1 = 0 en otro caso; • CR2 = 1 si CR = 2 y CR2 = 0 en otro caso. • etc. De esta forma transformamos las calificaciones en cinco categorias. Entonces, podemos estimar el modelo MBRi = β0 + δ1 CR1i + δ2 CR2i + δ3 CR3i + δ4 CR4i + otros factores. Incluimos cuatro variables ficticias porque tenemos cinco categorı́as. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal La categorı́a que hemos omitido es la calificación crediticia de cero, por tanto, este es el grupo base. Interpretación de los coeficientes: • δ1 es la diferencia en MBR (fijos los otros factores) entre un municipio con calificación de 1 y otro con calificación de cero; • δ2 es la diferencia en MBR entre un municipio con calificación de 2 y otro con calificación de cero; • etc. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal En el ejemplo del salario, podemos añadir un término de interacción entre female y married al modelo en que female y married aparecı́an por separado: ˆ i ln wage = 0.321 − 0.110femalei + 0.213marriedi 0.10 0.056 0.055 −0.301femalei ∗ marriedi + ....., 0.072 Estas estimaciones nos dicen que hay una interacción estadı́sticamente significativa entre sexo y estado civil. Este modelo también nos permite obtener la diferencia estimada en salario entre los cuatro grupos, pero debemos tener cuidado de asignar correctamente la combinación de ceros y unos. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Los valores female = 0 y married = 0 corresponden al grupo de hombres solteros, que es el grupo base, porque ası́ se eliminan female, married , y female · married . Podemos calcular la constante para hombres casados poniendo female = 0 y married = 1, lo cual nos da una constante de .321 + .213 = .534. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Pendientes distintas Podemos introducir interacciones entre las variables ficticias y otras variables explicativas para que haya diferencias en las pendientes. En el ejemplo: ln wage i = (β0 + δ0 femalei ) + (β1 + δ1 femalei )educi + ui • Si hacemos female = 0, entonces la constante para los varones es β0 , y la pendiente de educación para varones es β1 . • Para las mujeres, ponemos female = 1; por tanto, la constante para las mujeres es β0 + δ0 , y la pendiente es β1 + δ1 . • δ0 mide la diferencia en constantes entre mujeres y varones, y δ1 mide la diferencia en la pendiente de education entre mujeres y varones. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Figure : Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal ¿Como estimamos este modelo? Para poder aplicar OLS, tenemos que meter en el modelo una interacción entre female y educ: ln wage i = β0 + δ0 femalei + β1 educi + δ1 femalei · educi + ui Una hipótesis de interés es que la pendiente de educación es la misma para mujeres y varones. Por tanto, la hipótesis a contrastar es: H0 : δ1 = 0, lo cual significa que la pendiente de ln wage con respecto a educ es la misma para varones y mujeres. Esta hipótesis no restringe la diferencia de constantes, δ0 . Esta hipótesis nula permite que haya una diferencia en salario entre varones y mujeres, pero debe ser la misma para todos los niveles de educación. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal • También nos interesa la hipótesis de que los salarios medios son idénticos para varones y mujeres con un mismo nivel de educación. Bajo esta hipótesis ambos δ0 y δ1 deben ser nulos. • Para contrastar H0 : δ0 = 0, δ1 = 0 se usa un test de la F. • En el modelo en que hay solo una diferencia de constantes esta hipótesis se rechaza, es decir, H0 : δ0 = 0 se rechaza frente a H1 : δ0 < 0. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Contraste de la igualdad de regresiones para distintos grupos Queremos ahora contrastar la hipótesis de que dos grupos tienen la misma función de regresión, frente a la alternativa de que al menos un parámetro es distinto en los dos grupos. Veamos el siguiente ejemplo:Queremos contrastar que el modelo de regresión que explica la nota media en la universidad es la misma para deportistas universitarios varones y mujeres. La ecuación es: cumgpai = β0 + β1 sati + β2 hsperci + β3 tothrsi + ui i = 1, ..., n, donde sat es la puntuación en un examen de ingreso, hsperc es el ranking en la nota del instituto y tothrs es el número total de horas de enseñanaza en la universidad. Si queremos que cualquiera de las pendientes dependa de sexo, simplemente incluimos las interacciones entre la variable (por ejemplo) female y las otras variables de la ecuación. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Si queremos contrastar que hay alguna diferencia entre varones y mujeres, entonces debemos especificar un modelo en el cual la constante y todas las pendientes sean distintas en uno y otro grupo: cumgpai = β0 + δ0 femalei + β1 sati + δ1 femalei ∗ sati +β2 hsperci + δ2 femalei ∗ hsperci + β3 tothrsi +δ3 femalei ∗ tothrsi + ui Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal El parámetro δ0 mide la diferencia entre las constantes de varones y mujeres, δ1 mide la diferencia de pendientes con respecto a sat entre varones y mujeres, etc. La hipótesis nula de que cumgpa sigue el mismo modelo para varones y mujeres se expresa ası́: H0 : δ0 = 0 , δ1 = 0 , δ2 = 0 , δ3 = 0 Si una de las δj es no nula, entonces el modelo es distinto para varones y mujeres. Podemos contrastar esta hipótesis nula con el test de la F basado en los modelos restringido y no restringido. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal En todos los modelos que hemos visto hasta ahora, la variable dependiente y era cuantitativa (por ejemplo, y se media en Euros, o era una puntuación de un examen, o un porcentaje, o los logaritmos de ellas). ¿ Que sucede si queremos utilizar regresión múltiple para explicar un hecho cualitativo? Por ejemplo, y puede indicarnos si una persona tiene bachillerato o no, o puede decirnos si un estudiante ha tomado drogas durante un curso académico, o si una empresa pasó a ser controlada por otra durante un año. En todos estos ejemplos, podemos hacer que y = 1 denote una de las situaciones y y = 0 la otra. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal ¿ Que sentido tiene un modelo de regresión múltiple si y es binaria? yi = β0 + β1 x1i + ... + βk xki + ui i = 1, ..., n. Como y solo puede tomar dos valores, βj no se puede interpretar como el cambio en y dado un incremento unitario en xj , ceteris paribus, puesto que y solo puede cambiar de uno a cero o de cero a uno. Si suponemos que E (ui |x1i , x2i , ..., xki ) = 0, tenemos E (yi |xi ) = β0 + β1 x1i + ... + βk xki , donde xi = x1i , x2i , ..., xki . Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal La clave está en que cuando y es una variable binaria que toma los valores cero y uno, siempre se cumple que P(y = 1|x) = E (y |x): la probabilidad de éxito, (o sea, la probabilidad de que y = 1), coincide con el valor esperado de y : P(y = 1|x) = β0 + β1 x1 + ... + βk xk . El modelo de regresión múltiple con variable dependiente binaria se llama modelo de probabilidad lineal (LPM) porque la probabilidad de la respuesta es lineal en los parámetros βj . Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal En el LPM, βj mide el cambio en la probabilidad de éxito si xj cambia y los demás factores se mantienen fijos: ∆P(y = 1|x) = βj ∆xj . Si escribimos el modelo estimado como: yˆi = β̂0 + β̂1 x1i + ... + β̂k xki • yˆi es la probabilidad predicha de éxito para el individuo i ; • βˆ0 es la probabilidad predicha de éxito si todos los xj valen cero, esta cantidad puede o no ser de interés; • La pendiente βˆ1 mide el cambio predicho de probabilidad de éxito si x1 se incrementa en una unidad. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Inconvenientes del LPM • Para ciertas combinaciones de los parámetros podemos obtener probabilidades negativas o mayores que uno; • El LPM suele funcionar bien para valores de las variables independientes que estén cerca de los valores muestrales medios; • Debido a que y es binaria, el LPM incumple una de las hipótesis de Gauss-Markov. Si y es binaria, su varianza condicional en x, es Var (y |x) = p(x) (1 − p(x)) , donde p(x) = β0 + β1 x1 + ... + βk xk . Esto implica, excepto en el caso de que esta probabilidad no dependa de ninguna variable independiente, que debe haber heteroscedasticidad en el LPM. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas Esquema 2.1 La información cualitativa 2.2 Una única variable ficticia independiente 2.3 Uso de variables ficticias cuando hay varias categorias 2.4 Interrelaciones entre las variables ficticias 2.5 Variable dependiente binaria: El modelo de probabilidad lineal Ejemplo Sea arr 86 una variable binaria que vale 1 si un hombre fue detenido durante 1986 y cero en otro caso. La población son un grupo de jóvenes de California nacidos en 1960 o 1961 que ya habı́an sido detenidos antes de 1986. Un modelo lineal de probabilidad para explicar arr86 es: arr 86 = β0 +β1 pcnv +β2 avgsen+β3 tottime+β4 ptime86+β5 qemp86+u, donde pcnv es la proporción de detenciones anteriores que llevaron a una condena, avgsen es la condena media cumplida anteriormente (en mesess), tottime son los meses que ha pasado en la cárcel desde que tenı́a 18 años y antes de 1986, ptime86 son los meses que pasó en la cárcel en 1986, y qemp86 es el número de trimestres (de 0 a 4) en que el hombre tuvo un empleo legal en 1986. Helena Veiga Capı́tulo 2: Regresión con Variables Cualitativas