VARIABLES DUMMY [Modo de compatibilidad]

Anuncio
Variables Dummy
(parte I)
Fortino Vela Peón
Universidad Autónoma Metropolitana
[email protected]
19/10/2010
Octubre, 2010
México, D. F.
1
Introducción
Algunas de las variables son por su naturaleza propia
cualitativas.
Ejemplos de este tipo son: Hombre/Mujer; Unido/ No
Unido, Rural/Urbano; Jefe/ No jefe.
Su participación en un modelo de regresión puede
considerarse:
única
Yi = β1 + β 2Urbanoi + ui
Yi = β1 + β 2Urbanoi + β 3 X 3i + ui
cómo variable
mixta
independiente
Variable Yi = β1 + β 2Urbanoi + ui interacción
Yi = β1 + β 2Urbanoi + β3 X 3iUrbanoi + ui
cualitativa
cómo variable dependiente
Urbanoi = β1 + β 2 X i + ui
19/10/2010
2
Estas variables reciben el denominativo de variables
dummy, artificiales o indicadoras.
Recordemos que dentro de las variables cualitativas se
encuentran:
− Nominales
− Ordinales
En cualquiera de los casos, cuando la variable solo
presenta dos categorías, se trata de una variable
dicotómica.
Una forma de volver numérica a una variable cualitativa,
por ejemplo, el género, es:
D1 =
19/10/2010
1
, si es mujer
0
, cualquier otra cosa (coc)
3
No obstante, una variable cualitativa puede presentar
más de dos categorías,
multicategórica, por ejemplo:
1.
2.
3.
4.
5.
es
Soltero
Casado (civil, iglesia o ambos)
Unión
Separado o divorciado
Viudo
decir,
puede
No Unido
Alguna vez unido
En este caso se puede considerar
1 , soltero
1, unión
1 , viudo
D1 =
D3 =
D5 =
0 , coc
0, coc
0 , coc
1 , casado
1 , separado o divorciado
D2 =
D4 =
0 , coc
0, coc
19/10/2010
ser
4
i) Modelos ANOVA
Técnica estadística que se utiliza para comparar dos o
más valores medios o promedios.
En el contexto de regresión lineal corresponde a
Yi = β1 + β 2 D1 + ui
donde
1 , presencia atributo
D1 =
0 , ausencia atributo
Pudiera coexistir más de una variable dummy.
Su interpretación indica el diferencial en el valor
promedio de Y.
Interesa saber si es estadísticamente significativo ese
diferencial.
19/10/2010
5
Ejemplo: ¿Son los autos importados más “caros”?
Se desea conocer si el precio de los autos difiere según
su procedencia (local / extranjera).
Considere el archivo autos.dta que ofrece Stata.
Es posible obtener el precio promedio simple según el
lugar de fabricación, esto es:
sum price if foreign==1
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------price |
22
6384.682
2621.915
3748
12990
. sum price if foreign==0
Observe que 6384.682-6072.423= 312.259
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------price |
52
6072.423
3097.104
3291
15906
¿Es estadísticamente
19/10/2010
significativa esta diferencia?
6
¿Son los autos importados más “caros”?
Sea el modelo de regresión lineal siguiente:
pricei = β1 + β 2 foreign i + ui
donde
regress
1 , local
foreign = D1 =
0 , importado
price foreign
Source |
SS
df
MS
-------------+-----------------------------Model | 1507382.66
1 1507382.66
Residual |
633558013
72 8799416.85
-------------+-----------------------------Total |
635065396
73 8699525.97
Number of obs
F( 1,
72)
Prob > F
R-squared
Adj R-squared
Root MSE
=
74
=
0.17
= 0.6802
= 0.0024
= -0.0115
= 2966.4
-----------------------------------------------------------------------------price |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------foreign |
312.2587
754.4488
0.41
0.680
-1191.708
1816.225
_cons |
6072.423
411.363
14.76
0.000
5252.386
6892.46
19/10/2010
7
------------------------------------------------------------------------------
La forma de asimilar este resultado es
E ( pricei \ D1 ) = β1 + β 2 D1 + ui
Si D1 = 1 entonces E ( pricei \ D1 = 1) = βˆ1 + βˆ2 D1
pero si D1 = 0 entonces E ( pricei \ D1 = 0) = βˆ1
Gráficamente
19/10/2010
8
0
5,000
Price
10,000
15,000
Diagrama de dispersión
0
.2
.4
.6
.8
C ar type
19/10/2010
9
1
0
5,000
10,000
15,000
Diagrama de dispersión y recta de ajuste (yhat)
0
.2
.4
.6
.8
C ar type
Price
19/10/2010
Fitted values
10
1
Diagrama de dispersión y diferencial
0
5,000
Price
10,000
15,000
sc price foreign, yline(6072.423 ) yline( 6384.682)
0
19/10/2010
.2
.4
.6
C ar type
.8
11
1
Variables Dummy en Stata
Suponga un archivo con 5 observaciones como el
siguiente:
id
1
2
3
4
5
Salario
4500
12000
8000
5210
6804
género
Mujer
Hombre
Hombre
Mujer
Mujer
La idea es crear una nueva variable numérica
asociada a la variable género.
encode genero, generate(genero2)
list genero genero2, nolab
19/10/2010
id
1
2
3
4
5
Salario
4500
12000
8000
5210
6804
género
Mujer
Hombre
Hombre
Mujer
Mujer
genero2
2
1
1
2
2
12
Ahora se crea en Stata a la variable D11 donde
1 , hombre
D11 =
0 , mujer
siguiendo la siguiente sintaxis:
tab genero2, gen(D1)
list genero genero2 D11 D12
+------------------------------+
1.
2.
3.
4.
5.
| genero
genero2
D11
D12 |
|------------------------------|
| Mujer
Mujer
0
1 |
| Hombre
Hombre
1
0 |
| Hombre
Hombre
1
0 |
| Mujer
Mujer
0
1 |
| Mujer
Mujer
0
1 |
+------------------------------+
Podemos eliminar a la variable genero2 mediante
drop genero2
19/10/2010
13
Ejercicio 1: Salarios de maestros de escuelas por
región. Gujarati y Porter (2010:278)
Retome los datos de la tabla 9.1 y replique los
resultados encontrados por Gujarati y Porter (2010:
278-280) .
www.mhhe.com/gujarati5e
eliminar las comas de los datos).
Datos
(no
olvide
El modelo a considerar esta dado por:
salary i = β1 + β 2 D2i + β 3 D3i + ui
donde
19/10/2010
1 región noreste o norte-centro
D2 i =
0 coc
1 región sur
D3i =
0 coc
14
Los resultados que se obtienen son:
regress salary d2 d3
Source |
SS
df
MS
-------------+-----------------------------Model | 98985177.3
2 49492588.6
Residual | 2.1523e+09
48 44839670.6
-------------+-----------------------------Total | 2.2513e+09
50 45025787.3
Number of obs
F( 2,
48)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
51
1.10
0.3399
0.0440
0.0041
6696.2
-----------------------------------------------------------------------------salary |
Coef. Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------d2 | 1524.099 2363.139
0.64 0.522
-3227.311
6275.509
d3 | -1721.027 2467.151
-0.70 0.489
-6681.566
3239.512
_cons | 48014.62 1857.204
25.85 0.000
44280.46
51748.77
------------------------------------------------------------------------------
¿Cómo se interpretan?
19/10/2010
15
Gráficamente se tiene
salary d2) (sc salary
d3)
30000
40000
Salary
50000
60000
70000
twoway (sc
0
.2
.4
Salary
19/10/2010
.6
.8
Salary
16
1
70000
dis 48014.52 - 1524.099 = 46490.421
dis 48014.52 - -1721.027 = 49735.547
twoway (sc
salary d2) (sc salary
d3), yline (48014.62)
yline(46490.421) yline(49735.547
Salary
50000
60000
Comparación de medias: los resultados indican
que “no son significativas las diferencias, es
decir, los profesores de las distintas regiones
ganan en promedio lo mismo”.
49735.55 = Noreste y norte
48014.52= Oeste
30000
40000
46490.42= Sur
0
.2
.4
S a lar y
19/10/2010
.6
.8
Sa la ry
17
1
Ejercicio 2: Salarios por género. Fox (2008)
Retome los datos correspondientes a la Encuesta de la
Dinámica Laboral y de Ingreso de Ontario, Canada (Survey of
Labour and Income Dynamics).
http://socserv.socsci.mcmaster.ca/jfox/Books/Applied-
Regression-2E/datasets/index.html (SLID en formato txt).
Seleccione el “Data Set“ Canadian Survey of Labour and
Income Dynamics (SLID) y el “Data File” SLID-Ontario.txt.
Las variables incluidas en ese archivo son:
age: edad en años.
sex: Hombre (Male) o Mujer (Female).
compositeHourlyWages: Tasa salarial por hora,
en dólares.
yearsEducation: años completos de educación.
Se busca establecer si existe “discriminación salarial” por
género y si
19/10/2010
existen rendimientos a la educación.
18
Una vez que tenga los datos en formato Stata, se le
pide estimar los siguientes modelos.
wages i = β1 + β 2 D2 i + ui
Modelo 1
donde
1 mujer
D2 i =
0 hombre
wages i = β1 + β 2 D2 i + ui
Modelo 2
1 secundaria o más
D3i =
0 coc
wages i = β1 + β1 D1i + β 2 D2i + ui
Modelo 3
Interprete sus resultados. ¿Qué concluye acerca del
objetivo
inicial
de
análisis?
19/10/2010
19
Construcción del archivo
A continuación se presenta la sintaxis para la estimación de
los modelos.
encode sex, generate (genero)
list sex genero, nolab
tab genero, gen(D)
tab2 sex D1 D2
list genero D1 D2
Para construir a D3 se considera que la primaria es
equivalentes a 6 años completos de estudio. Por lo tanto, un
nivel educativo mayor a la primaria es una cantidad de años
mayor a 6 años.
sum education
recode education (1/6=0) (7/20=1), gen(D3)
tab education
tab D3
19/10/2010
20
Modelos
Modelo 1: reg wages D1
Source |
SS
df
MS
-------------+-----------------------------Model | 11697.7866
1 11697.7866
Residual | 235000.144 3995 58.8235655
-------------+-----------------------------Total | 246697.931 3996 61.7362189
Number of obs
F( 1, 3995)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
3997
198.86
0.0000
0.0474
0.0472
7.6697
-----------------------------------------------------------------------------wages |
Coef. Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------D1 | -3.421517 .2426289 -14.10 0.000
-3.897205 -2.945829
_cons | 17.26262
.171929 100.41 0.000
16.92555
17.5997
------------------------------------------------------------------------------
Modelo 2: reg wages D3
Source |
SS
df
MS
-------------+-----------------------------Model | 436.573061
1 436.573061
Residual | 246261.358 3995 61.6423924
-------------+-----------------------------Total | 246697.931 3996 61.7362189
Number of obs
F( 1, 3995)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
3997
7.08
0.0078
0.0018
0.0015
7.8513
-----------------------------------------------------------------------------wages |
Coef. Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------D3 | 2.695896 1.013011
2.66 0.008
.709828
4.681963
12.82 0.000
10.91898
14.86069
_cons | 12.88984 1.005252
19/10/2010
21
------------------------------------------------------------------------------
Modelo 3: reg wages D1 D3
Source |
SS
df
MS
-------------+-----------------------------Model | 12203.9999
2 6101.99996
Residual | 234493.931 3994
58.71155
-------------+-----------------------------Total | 246697.931 3996 61.7362189
Number of obs
F( 2, 3994)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
3997
103.93
0.0000
0.0495
0.0490
7.6623
-----------------------------------------------------------------------------wages |
Coef. Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------D1 | -3.432063 .2424244 -14.16 0.000
-3.90735 -2.956776
D3 | 2.903281 .9887444
2.94 0.003
.96479
4.841772
14.60 0.000
12.47404
16.34385
_cons | 14.40895 .9869135
----------------------------------------------------------------------------- Conclusiones
− Si hay discriminación por género (las mujeres ganan en
promedio menos que los hombres) controlando por educación.
− En promedio los más educados ganan más que los menos
educados (el diferencial de ingresos por nivel educativo es
19/10/2010
22
significativo) controlando por género.
Descargar