BREVE NOTA Y EJEMPLO SOBRE LOS MODELOS LOGIT Econometría de la Empresa Rafael de Arce - Función acotada entre cero y uno y, frecuentemente “soluciones de esquina”. Función no lineal en las variables No imponer normalidad La interpretación de los parámetros es algo más compleja 1 0.8 Pi 0.6 0.4 1 1 e 1 2 X i 0.2 0 Ejemplos de utilización: - - Estimación del porcentaje de usuarios de un producto (por ejemplo, internet) a lo largo del tiempo (Logit agrupado para datos anuales). Estimación de actitud favorable (1) no favorable (0) respecto a mi marca (por ejemplo, comprará el usuario un coche: sí (1) o no (0)). Logit para variable dicotómica. Proporción de hogares con acceso a red de gas natural a lo largo del tiempo (Logit agrupado). ¿será una empresa absorbida por otra? Logit para variable dicotómica. Condicionantes para que una mujer trabaje fuera de casa (1) o no (0). Logit para variable dicotómica. LINEALIZACIÓN: Para simplificar, rescribimos z 1 2 X i Pi 1 eZ 1 e Z 1 e Z Y la probabilidad del suceso contrario como: (1 Pi ) 1 eZ 1 eZ eZ 1 Z Z 1 e 1 e 1 eZ Usando estas expresiones, se llega a que la “razón de probabilidades” (u “Odds ratio” o “función de riesgo”) es: eZ Z Pi 1 e eZ 1 (1 Pi ) 1 eZ Lo anterior (la razón de probabilidades) se puede convertir en una función lineal simplemente tomando logaritmos: Pi Ln(e Z ) 1 2 X i Ln (1 Pi ) ESTIMACIÓN: A) Endógena es una proporción o, directamente, una probabilidad: LOGIT AGRUPADO a. Se puede estimar directamente (es una función lineal), b. pero heterocedástica: estimar por MCG B) Éndogena es una variable dicotómica (solo toma valores cero o uno), al definir el odds ratio:LOGIT PARA RESPUESTAS DICOTÓMICAS 1 1 Ln 0 (1 1) a. Si Y=1, Ln 0 0 Ln 1 (1 0) b. Si Y=0, Ln c. Luego la función no está definida de este modo. Hay que recurrir a maximizar la función de verosimilitud La probabilidad sigue definida como: Pi 1 1 e 1 2 X i , donde es fácil calcular que, entonces, (1 Pi ) Pero, cada valor de Y es un suceso de Bernoulli del tipo: Pr(Y 1 | X ) Pi Pr(Y 0 | X ) 1 Pi Luego su función de densidad conjunta se puede escribir como: n f (Y1 , Y2 , Y3 ,...Yn ) ( pi i (1 pi ) (1Yi ) ) i 1 Y 1 1 e 11X i De forma equivalente, más simple, se pueden tomar logaritmos de esta función de densidad conjunta y tendríamos: n ln( f (Y1 , Y2 , Y3 ,...Yn )) Yi Ln( pi ) (1 Yi ) Ln(1 pi ) i 1 n Yi Ln( pi ) Ln(1 pi ) Yi Ln(1 pi ) i 1 n pi Ln(1 pi ) Yi Ln i 1 (1 pi ) De las expresiones halladas anteriormente para la función de probabilidad de una función LOGIT: Pi 1 2 X i Ln (1 Pi ) Ln((1 Pi )) 1 1 e 11X i Luego, sustituyendo en el logaritmo de la función de densidad conjunta de la binomial tenemos: ln( f (Y1 , Y2 , Y3 ,...Yn )) n 1 Yi ( 1 2 X i ) Ln X 1 e 1 2 i i 1 n Yi ( 1 2 X i ) Ln(1 e 1 2 X i ) n X Yi ( 1 2 X i ) Ln(1) Ln(1 e 1 2 i ) i1 i 1 Ahora, solo habría que buscar los parámetros que maximizan esta función de densidad conjunta: n Max Yi ( 1 2 X i ) Ln(1 e 1 2 X i ) i1 L 0 1 L 0 2 Esta derivación implica el empleo de métodos no lineales que pueden consultarse en el capítulo 15 del libro de Damodar Gujarati, “Econometría”, Ed. Mac Graw Hill, año 2003. Puede consultarse también J. Wooldridge (2006) “Introducción a la econometría: un enfoque moderno”. Ed. Paraninfo EJEMPLO DE ESTIMACIÓN EN EVIEWS Datos tomados de Wooldrige (2006) para Logit Para estimar el modelo Logit en E-views, basta con pulsar en el workfile correspondiente “quick”, “estimate equation” y, en esa pantalla, seleccionar el método de estimación de regresión binaria. Con ello, se abrirá la ventana habitual de especificación en la que, además de escribir la ecuación, habrá que seleccionar “Logit” entre las tres posibilidades que aparecen en el centro (también está disponible la estimación con un “probit” o con un modelo de valores extremos). La primera salida obtenida (la endógena es una variable dicotómica con valor cero si la mujer no trabaja fuera de casa y uno si sí lo hace) es la siguiente: Dependent Variable: INLF Method: ML - Binary Logit (Quadratic hill climbing) Date: 05/08/12 Time: 08:58 Sample: 1 753 Included observations: 753 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives C NWIFEINC EDUC EXPER EXPER^2 AGE KIDSLT6 KIDSGE6 Coefficient Std. Error z-Statistic Prob. 0.425453 -0.021345 0.221170 0.205870 -0.003154 -0.088024 -1.443354 0.060112 0.860370 0.008421 0.043440 0.032057 0.001016 0.014573 0.203585 0.074790 0.494500 -2.534620 5.091442 6.422001 -3.104093 -6.040232 -7.089692 0.803749 0.6210 0.0113 0.0000 0.0000 0.0019 0.0000 0.0000 0.4215 McFadden R-squared S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. LR statistic Prob(LR statistic) 0.219681 0.495630 1.088354 1.137481 1.107280 226.2161 0.000000 Obs with Dep=0 Obs with Dep=1 325 428 Mean dependent var S.E. of regression Sum squared resid Log likelihood Restr. log likelihood Avg. log likelihood 0.568393 0.425963 135.1762 -401.7652 -514.8732 -0.533553 Total obs 753 Dependent Variable Frequencies Date: 05/08/12 Time: 09:25 Dep. Value Count Percent Cumulative Count Percent 0 1 325 428 43.00 56.00 325 753 43.16 100.00 A partir de los parámetros estimados (coefficients) se puede comprobar la coherencia del modelo obtenido en cuanto al efecto que un incremento/reducción en cada variable explicativa produce sobre la endógena del modelo. Es decir, se puede realizar un “análisis de signos”. Recuérdese que la variable endógena empleada en la estimación es el “logaritmo del ratio de probabilidades”. Como información adicional, podemos calcular cual es este ratio para el total de la muestra. Dado que hay un 56,6% de mujeres trabajadoras y un 43,4% amas de casa, el ratio medio tendría un valor de 1,27 (56,3/43,4), para la muestra empleada en este ejercicio. Es decir, es 1,27 veces más probable encontrar a una mujer que trabaja fuera de casa que a una que no lo hace. Observando los signos de los coeficientes obtenidos, su carácter positivo en el caso de EDUC (años de educación recibida), EXPER (años de experiencia laboral) y KIDSGE6 (hijos mayores de 6 años) querrá decir que un aumento en el valor de estas variables producirá un incremento en el ratio (será mayor que 1,27). Para las otras variables, el signo negativo de NWIFEINC (renta familiar), EXPER^2 (valor de la experiencia al cuadrado), AGE (edad de la mujer) y KIDSLT6 (hijos menores de 6 años), habría que interpretar que un aumento en valor de estas variables llevaría a una reducción en el ratio de probabilidades. Como es habitual, la variable EXPER en niveles y al cuadrado, recoge la influencia de una circunstancia que va reduciendo su impacto según va creciendo. Se está escribiendo una forma de parábola, donde, al comienzo, el impacto de tener experiencia genera un cambio alto respecto a no tenerla, pero, su efecto diferencial entre valores altos de la misma es pequeño. Para poder interpretar en qué cuantía se incrementa o se reduce el ratio de probabilidades a aumentar el valor de la explicativa, habitualmente se deshace el valor del logaritmo en la endógena escribiendo el exponencial del parámetro (2): Coefficient Exp(coeff.) (1) (2) NWIFEINC -0.021345 0.978881 EDUC 0.221170 1.247535 EXPER 0.205870 1.228593 EXPER^2 -0.003154 0.996851 AGE -0.088024 0.915739 KIDSLT6 -1.443354 0.236134 KIDSGE6 0.060112 1.061955 Mod Ratio (2)*1,27 1.24317911 1.58437008 1.56031372 1.26600073 1.1629884 0.29989073 1.34868346 (eviews no genera esta tabla, hay que hacerla en Excel) Dicho valor será menor que uno cuando la variable supone una reducción del ratio y mayor que uno cuando supone un aumento. Por ejemplo, un incremento unitario en el número de años de educación medio, produce un incremento en el ratio de probabilidades de 1,24 veces; es decir, este ratio pasaría de 1,27 a 1,58. A sensu contrario, un incremento de un año en la edad media de una mujer produciría una reducción del ratio de 0,91; es decir, pasaría de 1,27 a 1,16. En el párrafo anterior se ha repetido la palabra “media”, porque es importante recordar aquí nuevamente que una de las bondades del modelo logit es que la incidencia de los incrementos en las exógenas no son iguales en todo el recorrido de su muestra (es un modelo no lineal). Quiero decir con ello que tanto para los primeros como para los últimos valores de cambio relativo, el efecto sobre la endógena serían inferiores a este valor medio estimado; mientras que en los extremos el cambio sería más abrupto (observar nuevamente la forma de la curva en ese al comienzo de este documento). En cuanto a la valoración conjunta del modelo, hay que decir que el carácter dicotómico de las variables no hace recomendable el cálculo de la varianza de la endógena, por lo que tampoco se puede calcular una R cuadrado habitual en el MBRL. Mac Fadden propuso un cálculo conocido como la pseudo-R cuadrado comparando la mejora en la maximización del logaritmo de verosimilitud al explicar la variable con las exógenas elegidas frente a la opción de explicarlo sólo en función de una constante. Esta pseudo-R teóricamente puede variar entre 0 y 1, pero es raro que alcance valores elevados (suele estar en torno a 0,35 para modelos aceptables). Para valorar el modelo de un modo más aplicado y atendiendo a su utilidad real (un buen modelo nos debería servir para saber si la mujer trabaja o no conociendo el valor de las variables explicativas para su caso) habitualmente se realiza un análisis de la capacidad de asignación al caso cero o uno que se produce con el modelo. La variable endógena que realmente se está modelizando es una probabilidad y, el usuario, debe elegir a partir de que valor de probabilidad obtenida con el modelo asignará que la mujer trabaja y para qué valor no. A este valor se le conoce con el nombre de “punto de corte” (cutoff). Se puede demostrar que el modelo tendrá un mejor ratio global de acierto (asignación correcta) cuando dicho punto de corte se establece en el porcentaje de unos en la muestra (en nuestro ejemplo, 0,56). El e-views nos ofrece la siguiente información (en la ventana de la regresión, “views” y “expectation-prediction evaluation”): Expectation-Prediction Evaluation for Binary Specification Equation: UNTITLED Date: 05/08/12 Time: 09:25 Success cutoff: C = 0.56 Estimated Equation Dep=0 Dep=1 P(Dep=1)<=C P(Dep=1)>C Total Correct % Correct % Incorrect Total Gain* Percent Gain** 232 93 325 232 71.38 28.62 71.38 71.38 100 328 428 328 76.64 23.36 -23.36 NA 1 Total 332 421 753 560 74.37 25.63 17.53 40.62 Constant Probability Dep=0 Dep=1 Total 0 325 325 0 0.00 100.00 0 428 428 428 100.00 0.00 0 753 753 428 56.84 43.16 *Change in "% Correct" from default (constant probability) specification 1 En esta subtabla de la derecha, estamos asignado el valor 1 a todos los casos si el punto de corte es menor que la media real, por lo que “acertamos siempre cuando efectivamente el caso real es uno y fallamos siempre cuando el caso real es cero”). **Percent of incorrect (default) prediction corrected by equation En el marco superior izquierdo, se puede observar una tabla de contingencia en la que, en filas, se sitúa los valores estimados del modelo y, en columnas, los valores reales. Por ejemplo, el primer valor (232) significa que para ese número de casos, en la realidad la mujer no trabaja y el modelo ha estimado que efectivamente no lo hacía. En el segundo valor abajo, para 93 mujeres que NO trabajan el modelo ha dicho que sí lo hacen. Para 100 mujeres que SÍ trabajan, el modelo dijo que no lo hacían y, finalmente, para 328 mujeres que SÍ trabajan, el modelo estimó que efectivamente trabajan. A continuación, se presentan una serie de cálculos porcentuales sencillos: - - - Porcentaje de valores cero (no trabaja) correctos en la asignación: 232/325=71,38% (“cuando el modelo afirma que la mujer no trabaja, en qué porcentaje acierta”). Porcentaje de valores uno (trabaja) correctos en la asignación: 328/428=76,64% (“cuando el modelo afirma que la mujer trabaja, en qué porcentaje acierta”). Porcentaje global de aciertos: (232+328)/753=74,37%. En último apartado de la tabla nos muestra cuál es la “ganancia” de emplear un modelo con estas variables explicativas sobre el haber realizado una asignación simplemente con una constante (que sería la media de la endógena, es decir 0,56 y, como es ligeramente más probable en la muestra encontrar mujeres trabajando que no trabajando, todos los casos habrían sido asignados a mujer trabajadora). En este caso, el modelo habría asignado correctamente a las trabajadoras (de hecho, diría que todas las mujeres trabajan), pero fallaría en las que no trabajan. Nuestro modelo con variables explicativas acertaría un 71,38% de casos de no trabajadoras frente al 0% del caso del modelo sólo con la constante (la media), siendo esta la ganancia. Evidentemente, si se va reduciendo el punto de corte se obtendrá un mayor número de aciertos en la asignación de mujeres que sí trabajan; a costa de tener un mayor porcentaje de errores en la asignación de las que no trabajan. En algunas ocasiones tiene interés modificar este punto de corte porque se requiere tener una mayor seguridad del modelo en alguna de las dos alternativas. Cuando se busca tener un mayor acierto en la asignación de unos se habla de mejorar la “sensibilidad” del modelo, mientras que cuando se busca tener un mejor número de aciertos en la asignación de ceros se habla de “precisión” del modelo. El modelizador ha de decidir que coste está dispuesto a correr modificando el valor del punto de corte. E-views ofrece una tabla adicional en la parte inferior de la anterior que sería de utilidad para comprobar en qué medida estoy distorsionando los valores iniciales al elegir un punto de corte u otro y, así, poder realizar un análisis coste/beneficio a la hora de tomar mis decisiones. La tabla inferior presentaría los resultados del modelo “funcionando por sí solo”, o asignando los casos en función de las probabilidades estimadas (sumadas) sin establecer el usuario un punto de corte más o menos arbitrario. Estimated Equation Dep=0 Dep=1 E(# of Dep=0) E(# of Dep=1) Total Correct % Correct % Incorrect Total Gain* Percent Gain** 190.18 134.82 325.00 190.18 58.52 41.48 15.36 27.02 134.82 293.18 428.00 293.18 68.50 31.50 11.66 27.02 Total 325.00 428.00 753.00 483.35 64.19 35.81 13.25 27.02 Constant Probability Dep=0 Dep=1 Total 140.27 184.73 325.00 140.27 43.16 56.84 184.73 243.27 428.00 243.27 56.84 43.16 325.00 428.00 753.00 383.54 50.94 49.06 *Change in "% Correct" from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation La utilidad de esta segunda tabla podría ser la de comparar entre distintos modelos para endógenas diferentes (con distinto número de “unos”).