e P 1 1 + =

Anuncio
BREVE NOTA Y EJEMPLO SOBRE LOS MODELOS LOGIT
Econometría de la Empresa
Rafael de Arce
-
Función acotada entre cero y uno y, frecuentemente “soluciones de esquina”.
Función no lineal en las variables
No imponer normalidad
La interpretación de los parámetros es algo más compleja
1
0.8
Pi 
0.6
0.4
1
1  e 1   2 X i
0.2
0
Ejemplos de utilización:
-
-
Estimación del porcentaje de usuarios de un producto (por ejemplo, internet) a
lo largo del tiempo (Logit agrupado para datos anuales).
Estimación de actitud favorable (1) no favorable (0) respecto a mi marca (por
ejemplo, comprará el usuario un coche: sí (1) o no (0)). Logit para variable
dicotómica.
Proporción de hogares con acceso a red de gas natural a lo largo del tiempo
(Logit agrupado).
¿será una empresa absorbida por otra? Logit para variable dicotómica.
Condicionantes para que una mujer trabaje fuera de casa (1) o no (0). Logit
para variable dicotómica.
LINEALIZACIÓN:
Para simplificar, rescribimos
z  1   2 X i
Pi 
1
eZ

1  e Z 1  e Z
Y la probabilidad del suceso contrario como:
(1  Pi )  1 
eZ
1  eZ  eZ
1


Z
Z
1 e
1 e
1  eZ
Usando estas expresiones, se llega a que la “razón de probabilidades” (u “Odds ratio”
o “función de riesgo”) es:
eZ
Z
Pi
 1  e  eZ
1
(1  Pi )
1  eZ
Lo anterior (la razón de probabilidades) se puede convertir en una función lineal
simplemente tomando logaritmos:
 Pi 
  Ln(e Z )  1   2 X i
Ln
 (1  Pi ) 
ESTIMACIÓN:
A) Endógena es una proporción o, directamente, una probabilidad: LOGIT
AGRUPADO
a. Se puede estimar directamente (es una función lineal),
b. pero heterocedástica: estimar por MCG
B) Éndogena es una variable dicotómica (solo toma valores cero o uno), al definir
el odds ratio:LOGIT PARA RESPUESTAS DICOTÓMICAS

1 
1
  Ln 
0
 (1  1) 
a. Si Y=1, Ln

0 
0
  Ln 
1
 (1  0) 
b. Si Y=0, Ln
c. Luego la función no está definida de este modo. Hay que recurrir a
maximizar la función de verosimilitud
La probabilidad sigue definida como:
Pi 
1
1 e
1  2 X i
, donde es fácil calcular que, entonces, (1  Pi ) 
Pero, cada valor de Y es un suceso de Bernoulli del tipo:
Pr(Y  1 | X )  Pi
Pr(Y  0 | X )  1  Pi
Luego su función de densidad conjunta se puede escribir como:
n
f (Y1 , Y2 , Y3 ,...Yn )   ( pi i (1  pi ) (1Yi ) )
i 1
Y
1
1  e 11X i
De forma equivalente, más simple, se pueden tomar logaritmos de esta función de
densidad conjunta y tendríamos:
n
ln( f (Y1 , Y2 , Y3 ,...Yn ))   Yi Ln( pi )  (1  Yi ) Ln(1  pi )
i 1
n
  Yi Ln( pi )  Ln(1  pi )  Yi Ln(1  pi )
i 1
n 

 pi 
  Ln(1  pi )
  Yi Ln
i 1 
 (1  pi ) 

De las expresiones halladas anteriormente para la función de probabilidad de una
función LOGIT:
 Pi 
  1   2 X i
Ln
 (1  Pi ) 
Ln((1  Pi )) 
1
1  e 11X i
Luego, sustituyendo en el logaritmo de la función de densidad conjunta de la binomial
tenemos:
ln( f (Y1 , Y2 , Y3 ,...Yn )) 
n

1

  Yi ( 1   2 X i )  Ln
  X
1 e 1 2 i
i 1 
n

  Yi ( 1   2 X i )  Ln(1  e 1  2 X i )

 n
  X
   Yi ( 1   2 X i )  Ln(1)  Ln(1  e 1 2 i )
 i1


i 1
Ahora, solo habría que buscar los parámetros que maximizan esta función de
densidad conjunta:


n

Max Yi ( 1   2 X i )  Ln(1  e 1  2 X i ) 
 i1

L
0
1
L
0
 2
Esta derivación implica el empleo de métodos no lineales que pueden consultarse en
el capítulo 15 del libro de Damodar Gujarati, “Econometría”, Ed. Mac Graw Hill, año
2003. Puede consultarse también J. Wooldridge (2006) “Introducción a la econometría:
un enfoque moderno”. Ed. Paraninfo
EJEMPLO DE ESTIMACIÓN EN EVIEWS
Datos tomados de Wooldrige (2006) para Logit
Para estimar el modelo Logit en E-views, basta con pulsar en el workfile
correspondiente “quick”, “estimate equation” y, en esa pantalla, seleccionar el método
de estimación de regresión binaria. Con ello, se abrirá la ventana habitual de
especificación en la que, además de escribir la ecuación, habrá que seleccionar “Logit”
entre las tres posibilidades que aparecen en el centro (también está disponible la
estimación con un “probit” o con un modelo de valores extremos).
La primera salida obtenida (la endógena es una variable dicotómica con valor cero si la
mujer no trabaja fuera de casa y uno si sí lo hace) es la siguiente:
Dependent Variable: INLF
Method: ML - Binary Logit (Quadratic hill climbing)
Date: 05/08/12 Time: 08:58
Sample: 1 753
Included observations: 753
Convergence achieved after 5 iterations
Covariance matrix computed using second derivatives
C
NWIFEINC
EDUC
EXPER
EXPER^2
AGE
KIDSLT6
KIDSGE6
Coefficient
Std. Error
z-Statistic
Prob.
0.425453
-0.021345
0.221170
0.205870
-0.003154
-0.088024
-1.443354
0.060112
0.860370
0.008421
0.043440
0.032057
0.001016
0.014573
0.203585
0.074790
0.494500
-2.534620
5.091442
6.422001
-3.104093
-6.040232
-7.089692
0.803749
0.6210
0.0113
0.0000
0.0000
0.0019
0.0000
0.0000
0.4215
McFadden R-squared
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
LR statistic
Prob(LR statistic)
0.219681
0.495630
1.088354
1.137481
1.107280
226.2161
0.000000
Obs with Dep=0
Obs with Dep=1
325
428
Mean dependent var
S.E. of regression
Sum squared resid
Log likelihood
Restr. log likelihood
Avg. log likelihood
0.568393
0.425963
135.1762
-401.7652
-514.8732
-0.533553
Total obs
753
Dependent Variable Frequencies
Date: 05/08/12 Time: 09:25
Dep. Value
Count
Percent
Cumulative
Count
Percent
0
1
325
428
43.00
56.00
325
753
43.16
100.00
A partir de los parámetros estimados (coefficients) se puede comprobar la coherencia
del modelo obtenido en cuanto al efecto que un incremento/reducción en cada variable
explicativa produce sobre la endógena del modelo. Es decir, se puede realizar un
“análisis de signos”.
Recuérdese que la variable endógena empleada en la estimación es el “logaritmo del
ratio de probabilidades”. Como información adicional, podemos calcular cual es este
ratio para el total de la muestra. Dado que hay un 56,6% de mujeres trabajadoras y un
43,4% amas de casa, el ratio medio tendría un valor de 1,27 (56,3/43,4), para la
muestra empleada en este ejercicio. Es decir, es 1,27 veces más probable encontrar a
una mujer que trabaja fuera de casa que a una que no lo hace.
Observando los signos de los coeficientes obtenidos, su carácter positivo en el caso
de EDUC (años de educación recibida), EXPER (años de experiencia laboral) y
KIDSGE6 (hijos mayores de 6 años) querrá decir que un aumento en el valor de estas
variables producirá un incremento en el ratio (será mayor que 1,27). Para las otras
variables, el signo negativo de NWIFEINC (renta familiar), EXPER^2 (valor de la
experiencia al cuadrado), AGE (edad de la mujer) y KIDSLT6 (hijos menores de 6
años), habría que interpretar que un aumento en valor de estas variables llevaría a una
reducción en el ratio de probabilidades.
Como es habitual, la variable EXPER en niveles y al cuadrado, recoge la influencia de
una circunstancia que va reduciendo su impacto según va creciendo. Se está
escribiendo una forma de parábola, donde, al comienzo, el impacto de tener
experiencia genera un cambio alto respecto a no tenerla, pero, su efecto diferencial
entre valores altos de la misma es pequeño.
Para poder interpretar en qué cuantía se incrementa o se reduce el ratio de
probabilidades a aumentar el valor de la explicativa, habitualmente se deshace el valor
del logaritmo en la endógena escribiendo el exponencial del parámetro (2):
Coefficient Exp(coeff.)
(1)
(2)
NWIFEINC -0.021345 0.978881
EDUC
0.221170 1.247535
EXPER
0.205870 1.228593
EXPER^2 -0.003154 0.996851
AGE
-0.088024 0.915739
KIDSLT6 -1.443354 0.236134
KIDSGE6 0.060112 1.061955
Mod Ratio
(2)*1,27
1.24317911
1.58437008
1.56031372
1.26600073
1.1629884
0.29989073
1.34868346
(eviews no genera esta tabla, hay que hacerla en Excel)
Dicho valor será menor que uno cuando la variable supone una reducción del ratio y
mayor que uno cuando supone un aumento. Por ejemplo, un incremento unitario en el
número de años de educación medio, produce un incremento en el ratio de
probabilidades de 1,24 veces; es decir, este ratio pasaría de 1,27 a 1,58. A sensu
contrario, un incremento de un año en la edad media de una mujer produciría una
reducción del ratio de 0,91; es decir, pasaría de 1,27 a 1,16.
En el párrafo anterior se ha repetido la palabra “media”, porque es importante recordar
aquí nuevamente que una de las bondades del modelo logit es que la incidencia de los
incrementos en las exógenas no son iguales en todo el recorrido de su muestra (es un
modelo no lineal). Quiero decir con ello que tanto para los primeros como para los
últimos valores de cambio relativo, el efecto sobre la endógena serían inferiores a este
valor medio estimado; mientras que en los extremos el cambio sería más abrupto
(observar nuevamente la forma de la curva en ese al comienzo de este documento).
En cuanto a la valoración conjunta del modelo, hay que decir que el carácter
dicotómico de las variables no hace recomendable el cálculo de la varianza de la
endógena, por lo que tampoco se puede calcular una R cuadrado habitual en el MBRL.
Mac Fadden propuso un cálculo conocido como la pseudo-R cuadrado comparando la
mejora en la maximización del logaritmo de verosimilitud al explicar la variable con las
exógenas elegidas frente a la opción de explicarlo sólo en función de una constante.
Esta pseudo-R teóricamente puede variar entre 0 y 1, pero es raro que alcance valores
elevados (suele estar en torno a 0,35 para modelos aceptables).
Para valorar el modelo de un modo más aplicado y atendiendo a su utilidad real (un
buen modelo nos debería servir para saber si la mujer trabaja o no conociendo el valor
de las variables explicativas para su caso) habitualmente se realiza un análisis de la
capacidad de asignación al caso cero o uno que se produce con el modelo.
La variable endógena que realmente se está modelizando es una probabilidad y, el
usuario, debe elegir a partir de que valor de probabilidad obtenida con el modelo
asignará que la mujer trabaja y para qué valor no. A este valor se le conoce con el
nombre de “punto de corte” (cutoff). Se puede demostrar que el modelo tendrá un
mejor ratio global de acierto (asignación correcta) cuando dicho punto de corte se
establece en el porcentaje de unos en la muestra (en nuestro ejemplo, 0,56).
El e-views nos ofrece la siguiente información (en la ventana de la regresión, “views” y
“expectation-prediction evaluation”):
Expectation-Prediction Evaluation for Binary Specification
Equation: UNTITLED
Date: 05/08/12 Time: 09:25
Success cutoff: C = 0.56
Estimated Equation
Dep=0
Dep=1
P(Dep=1)<=C
P(Dep=1)>C
Total
Correct
% Correct
% Incorrect
Total Gain*
Percent Gain**
232
93
325
232
71.38
28.62
71.38
71.38
100
328
428
328
76.64
23.36
-23.36
NA
1
Total
332
421
753
560
74.37
25.63
17.53
40.62
Constant Probability
Dep=0
Dep=1
Total
0
325
325
0
0.00
100.00
0
428
428
428
100.00
0.00
0
753
753
428
56.84
43.16
*Change in "% Correct" from default (constant probability) specification
1
En esta subtabla de la derecha, estamos asignado el valor 1 a todos los casos si el punto de corte es menor que la
media real, por lo que “acertamos siempre cuando efectivamente el caso real es uno y fallamos siempre cuando el
caso real es cero”).
**Percent of incorrect (default) prediction corrected by equation
En el marco superior izquierdo, se puede observar una tabla de contingencia en la
que, en filas, se sitúa los valores estimados del modelo y, en columnas, los valores
reales. Por ejemplo, el primer valor (232) significa que para ese número de casos, en
la realidad la mujer no trabaja y el modelo ha estimado que efectivamente no lo hacía.
En el segundo valor abajo, para 93 mujeres que NO trabajan el modelo ha dicho que sí
lo hacen. Para 100 mujeres que SÍ trabajan, el modelo dijo que no lo hacían y,
finalmente, para 328 mujeres que SÍ trabajan, el modelo estimó que efectivamente
trabajan.
A continuación, se presentan una serie de cálculos porcentuales sencillos:
-
-
-
Porcentaje de valores cero (no trabaja) correctos en la asignación:
232/325=71,38% (“cuando el modelo afirma que la mujer no trabaja, en qué
porcentaje acierta”).
Porcentaje de valores uno (trabaja) correctos en la asignación:
328/428=76,64% (“cuando el modelo afirma que la mujer trabaja, en qué
porcentaje acierta”).
Porcentaje global de aciertos: (232+328)/753=74,37%.
En último apartado de la tabla nos muestra cuál es la “ganancia” de emplear un
modelo con estas variables explicativas sobre el haber realizado una asignación
simplemente con una constante (que sería la media de la endógena, es decir 0,56 y,
como es ligeramente más probable en la muestra encontrar mujeres trabajando que no
trabajando, todos los casos habrían sido asignados a mujer trabajadora). En este
caso, el modelo habría asignado correctamente a las trabajadoras (de hecho, diría que
todas las mujeres trabajan), pero fallaría en las que no trabajan. Nuestro modelo con
variables explicativas acertaría un 71,38% de casos de no trabajadoras frente al 0%
del caso del modelo sólo con la constante (la media), siendo esta la ganancia.
Evidentemente, si se va reduciendo el punto de corte se obtendrá un mayor número de
aciertos en la asignación de mujeres que sí trabajan; a costa de tener un mayor
porcentaje de errores en la asignación de las que no trabajan. En algunas ocasiones
tiene interés modificar este punto de corte porque se requiere tener una mayor
seguridad del modelo en alguna de las dos alternativas. Cuando se busca tener un
mayor acierto en la asignación de unos se habla de mejorar la “sensibilidad” del
modelo, mientras que cuando se busca tener un mejor número de aciertos en la
asignación de ceros se habla de “precisión” del modelo. El modelizador ha de decidir
que coste está dispuesto a correr modificando el valor del punto de corte.
E-views ofrece una tabla adicional en la parte inferior de la anterior que sería de
utilidad para comprobar en qué medida estoy distorsionando los valores iniciales al
elegir un punto de corte u otro y, así, poder realizar un análisis coste/beneficio a la
hora de tomar mis decisiones. La tabla inferior presentaría los resultados del modelo
“funcionando por sí solo”, o asignando los casos en función de las probabilidades
estimadas (sumadas) sin establecer el usuario un punto de corte más o menos
arbitrario.
Estimated Equation
Dep=0
Dep=1
E(# of Dep=0)
E(# of Dep=1)
Total
Correct
% Correct
% Incorrect
Total Gain*
Percent Gain**
190.18
134.82
325.00
190.18
58.52
41.48
15.36
27.02
134.82
293.18
428.00
293.18
68.50
31.50
11.66
27.02
Total
325.00
428.00
753.00
483.35
64.19
35.81
13.25
27.02
Constant Probability
Dep=0
Dep=1
Total
140.27
184.73
325.00
140.27
43.16
56.84
184.73
243.27
428.00
243.27
56.84
43.16
325.00
428.00
753.00
383.54
50.94
49.06
*Change in "% Correct" from default (constant probability) specification
**Percent of incorrect (default) prediction corrected by equation
La utilidad de esta segunda tabla podría ser la de comparar entre distintos modelos
para endógenas diferentes (con distinto número de “unos”).
Descargar