CAPITULO III VARIABLE DEPENDIENTE CUALITATIVA Y LIMITADA 1. MODELOS DE ELECCION DISCRETA Los modelos de elección discreta consideran una variable indicadora dependiente. Esta variable indicadora podrá tomar dos o más valores, si toma sólo dos valores (cero o uno) se trata de una variable dicotómica. Existen numerosos ejemplos de variables explicadas, a saber: o Existen también muchos métodos de analizar los modelos de regresión en lo que el valor de la variable dependiente es cero o uno. Por ejemplo: el modelo de probabilidad lineal, la función discriminante, modelo probit y modelo logit. 1.1. MODELO DE PROBABILIDAD LINEAL Se utiliza para denotar un modelo de regresión en el que la variable dependiente Y es dicotómica, y toma el valor de uno o cero. Por simplicidad, asumiremos una sola variable explicativa (X). La variable Y es una variable indicadora que denota la ocurrencia o no ocurrencia de un evento. El modelo se describe como: con . La esperanza condicional probabilidad de que ocurre el evento, dado , se interpreta como la . El valor calculado de Y a partir de la ecuación de regresión ( ) nos da la probabilidad estimada de que ocurre el evento, dado un valor específico para X. En la práctica, estas probabilidades estimadas pueden encontrarse fuera del rango admisible (0, 1). 78 Las razones por las cuales no se puede aplicar mínimos cuadrados ordinarios son: 1º La no normalidad de las perturbaciones.Dado que toma los valores de 1 o 0 entonces los errores en la regresión tomará los valores siguientes: En realidad los siguen una distribución binomial. Aunque el método de mínimos cuadrados ordinarios no requiere esto, se asumen con fines de inferencia estadística. Por lo tanto, existe un problema con la aplicación de las pruebas usuales de significancia. El supuesto de normalidad no es tan crítico, porque las estimaciones puntuales de mínimos cuadrados ordinarios siguen siendo insesgados; además, a medida que aumenta indefinidamente el tamaño de la muestra los estimadores de mínimos cuadrados ordinarios tienden por lo general a tener una distribución normal. Por lo tanto, para muestras grandes, la inferencia estadística de los modelos de probabilidad lineal seguirá el procedimiento usual de mínimos cuadrados ordinarios bajo el supuesto de normalidad. 2º La varianza de la perturbación es heterocedástica.Las probabilidades respectivas de los eventos son: se tiene que: sacando factor común ( ) y simplificando nos da: también se puede expresar de la siguiente forma: 79 La varianza de condicional de es heterocedástica porque depende de la esperanza , que depende del valor que tome . Los estimados de mínimos cuadrados ordinarios de no serán eficientes. Es posible utilizar el procedimiento siguiente para estimar el modelo: I.- Se estima el modelo (ecuación 1) por mínimos cuadrados ordinarios y a continuación se calcula . II.- Se estima por mínimos cuadrados ponderados el modelo transformado siguiente: se soluciona el problema heterocedástico, pero subsiste los otros. 3º La predicción cae fuera de los limites ( 0 , 1 ).La crítica más importante se refiere a la propia formulación, que la esperanza condicional puede estar fuera de los límites (0,1). El gráfico de la siguiente página revela la acumulación de puntos sobre y . Es fácil que los valores predichos se encuentren fuera del intervalo (0,1) y que los errores de predicción sean muy grandes. Existen dos métodos para saber si los estimadores entre 0 y 1; son: están efectivamente 80 1.- Estimar el modelo de probabilidad lineal por mínimos cuadrados ordinarios y ver si los se encuentran entre 0 y 1, si alguno de ellos es menor a cero entonces se supone que para estos casos es cero; si son mayores a 1, se suponen iguales a uno. 2.- Diseñar una técnica de estimación que garantice que las probabilidades condicionales estimadas de estén entre 0 y 1. Los modelos Logit y Probit garantizarán que todas las probabilidades estimadas se encuentren entre los límites lógicos 0 y 1. 4º La medida de bondad de ajuste.El coeficiente de determinación considerado tiene un valor limitado en los modelos de respuesta dicotómica. El coeficiente de determinación será alto, únicamente cuando la dispersión específica esté muy cercana a los puntos A y B del gráfico anterior, puesto que en este caso es fácil fijar la línea recta uniendo los dos puntos. En este caso el predicho está muy cerca de 0 o 1. John Aldrich y Forrest Nelson plantean que el uso del coeficiente de determinación como un estadístico resumen debe evitarse en aquellos modelos que contengan variables dependientes cualitativas. 1.2. EJEMPLO El modelo especificado es: Las variables se definen: NOMBRE DEFINICIÓN UNIDAD DE MEDIDA CAPAGO CAPACIDAD DE PAGO NUEVOS SOLES CLIENTE CONDICIÓN DEL CLIENTE PUNTUAL = 1 MOROSO = 0 EDAD EDAD DEL CLIENTE AÑOS GARANTÍA MONTO DE LA GARANTÍA NUEVOS SOLES INTERÉS TASA DE INTERÉS EFECTIVA MENSUAL PORCENTAJE 81 NOMBRE DEFINICIÓN UNIDAD DE MEDIDA NUMCUOTA NÚMERO DE CUOTAS PERÍODO DURACIÓN DEL PRÉSTAMO MESES PRÉSTAMO MONTO DEL PRÉSTAMO NUEVOS SOLES SEXO SEXO MASCULINO = 1 FEMENINO = 0 VALCUOTA VALOR DE LA CUOTA NUEVOS SOLES Para estimarlo se dispone de información estadística recopilada de una institución financiera del Departamento de Piura. El método de estimación es mínimos cuadrados ponderados y el procedimiento a seguir es el siguiente: 1º Estimar el modelo por mínimos cuadrados ordinarios Se escribe en el Eviews: LS CLIENTE C EDAD PRESTAMO SEXO PERIODO a continuación se oprime ENTER y nos da el resultado siguiente: Dependent Variable: CLIENTE Method: Least Squares Sample: 1 60 Included observations: 60 =========================================================== Variable Coefficient Std. Error z-Statistic Prob. =========================================================== C -0.815473 0.306770 -2.658258 0.0103 EDAD 0.014550 0.005161 2.819315 0.0067 PRESTAMO 1.89E-05 9.95E-06 1.895651 0.0633 SEXO 0.159441 0.110854 1.438297 0.1560 PERIODO 0.064383 0.022997 2.799581 0.0070 =========================================================== R-squared 0.332861 Mean dependent var 0.516667 Adjusted R-squared 0.284341 S.D. dependent var 0.503939 S.E. of regression 0.426316 Akaike info criteri 1.212381 Sum squared resid 9.995971 Schwarz criterion 1.386910 Log likelihood -31.37144 F-statistic 6.860387 Durbin-Watson stat 1.511575 Prob(F- statistic) 0.000149 =========================================================== 82 2º Se realiza la estimación de la probabilidad de la siguiente forma: Abrir la ecuación ⇒ Procs ⇒ Forecast ⇒ OK y se muestra un gráfico y el software crea un icono con el nombre que se le colocó a la estimación (CLIENTEF). Para observar los resultados de la variable CLIENTEF se da dos clic y paquete nos muestra lo siguiente: CLIENTEF ========================================================== Modified: 1 60 // fit(f=actual) clientef 1 0.417364 1.104751 0.155492 0.803627 0.554091 6 0.814965 0.515421 0.486014 0.909758 0.899076 11 0.475652 0.765374 0.770710 1.321578 0.987106 16 0.536256 0.575847 1.014905 0.341672 0.405989 21 0.230938 0.643846 0.488985 0.437800 0.606510 26 0.259805 0.262450 0.206271 0.085420 0.620479 31 0.717948 -0.136817 0.397171 0.315820 0.243069 36 0.389929 0.804237 0.755200 0.045541 0.188897 41 0.618349 0.155769 0.417060 0.830059 0.278586 46 1.075758 0.486799 0.248942 0.408926 0.518848 51 0.317095 0.186445 0.067943 0.465541 0.483412 56 0.673622 0.643638 0.507839 0.651220 0.545000 ========================================================== 3º Estimamos la varianza generándola de la siguiente forma: GENR W = CLIENTEF * ( 1 - CLIENTEF ) y el Eviews nos da el siguiente resultado: W ===================================================== Modified: 1 60 // w=clientef*(1-clientef) 1 0.243171 -0.115724 0.131314 0.157811 0.247074 6 0.150797 0.249762 0.249804 0.082099 0.090738 11 0.249407 0.179577 0.176716 -0.424990 0.012728 16 0.248686 0.244247 -0.015127 0.224932 0.241162 21 0.177606 0.229308 0.249879 0.246131 0.238656 26 0.192306 0.193570 0.163723 0.078124 0.235485 31 0.202498 -0.155536 0.239426 0.216078 0.183987 36 0.237884 0.157440 0.184873 0.043467 0.153215 41 0.235993 0.131505 0.243121 0.141061 0.200976 46 -0.081498 0.249826 0.186970 0.241706 0.249645 51 0.216546 0.151683 0.063327 0.248813 0.249725 56 0.219855 0.229368 0.249939 0.227132 0.247975 ===================================================== 83 4º Por último, se estima el modelo transformado por mínimos cuadrados ordinarios, es decir, se aplica mínimos cuadrados ponderados. El comando que se aplica es el siguiente: Quick ⇒ Estimate Equation ⇒ escribir en la pantalla en blanco lo siguiente: CLIENTE C EDAD PRESTAMO SEXO PERIODO, luego clic en OPTIONS ⇒ se marca WEIGHTED LS / TSLS y en Weight se escribe: 1 / SQR( W ) ⇒ OK ⇒ OK y se muestra el siguiente resultado: Dependent Variable: CLIENTE Method: Least Squares Sample: 1 60 Included observations: 55 Excluded observations: 5 Weighting series: 1/SQR(W) ========================================================== Variable Coefficient Std. Error z-Statistic Prob. ========================================================== C -0.861520 0.236827 -3.637769 0.0007 EDAD 0.014138 0.005080 2.782852 0.0076 PRESTAMO 2.84E-05 1.09E-05 2.597112 0.0123 SEXO 0.187273 0.106147 1.764279 0.0838 PERIODO 0.064795 0.019214 3.372355 0.0014 ========================================================== Weighted Statistics ========================================================== R-squared 0.639966 Mean dependent var 0.496512 Adjusted R-squared 0.611163 S.D. dependent var 0.632757 S.E. of regression 0.394567 Akaike info criteri 1.064452 Sum squared resid 7.784153 Schwarz criterion 1.246937 Log likelihood -24.27243 F-statistic 13.15823 Durbin-Watson stat 1.394854 Prob(F- statistic) 0.000000 ========================================================== Unweighted Statistics ========================================================== R-squared 0.290121 Mean dependent var 0.490909 Adjusted R-squared 0.233330 S.D. dependent var 0.504525 S.E. of regression 0.441760 Sum squared resid 9.757613 Durbin-Watson stat 1.391563 ========================================================== Las variables edad, préstamo y periodo son significativas al 5% (Prob < 0.05) y la variable sexo es significativa al 10 % (Prob < 0.10) y el modelo es estadísticamente significativo al 5 % (Prob < 0.05). 84 Se predice dentro de la muestra con la instrucción siguiente: Abrir la ecuación ⇒ Procs ⇒ Forecast ⇒ OK y se muestra un gráfico y el software crea un icono con el nombre que se le colocó a la estimación (CLIENTEF1). Para observar los resultados de la variable CLIENTEF1 se da dos clic y paquete nos muestra lo siguiente: CLIENTEF1 ========================================================= Modified: 1 60 // modproblin.fit(f=actual) clientef1 1 0.453183 1.264643 0.135592 0.836835 0.598836 6 0.850146 0.519971 0.488047 1.081373 0.993891 11 0.530495 0.822073 0.907713 1.590984 0.994447 16 0.531559 0.572147 0.991846 0.311970 0.395700 21 0.185995 0.640793 0.466289 0.421358 0.568752 26 0.200522 0.216839 0.177498 0.057164 0.580712 31 0.705757 -0.186881 0.349757 0.259422 0.188732 36 0.333220 0.805080 0.713630 0.020425 0.178108 41 0.585508 0.103903 0.390143 0.822291 0.239000 46 1.073549 0.468637 0.223544 0.397997 0.464635 51 0.294014 0.161586 0.019346 0.446526 0.426291 56 0.618380 0.623329 0.494666 0.619459 0.525189 ========================================================= y los resultados se comparan con los valores observados de la variable endógena, obteniendose 42 predicciones correctas ( 20 para CLIENTE = 1 y 22 PARA CLIENTE = 0) y nos da un Coeficiente de Bondad de Conteo de 70 %. 1.3. MODELO LOGIT Y PROBIT Un enfoque alternativo es suponer un modelo de regresión: no se observa ( se conoce como variable " latente " ). Lo que se observa es una variable indicadora definida por: La diferencia entre la especificación (2) y el modelo de probabilidad lineal es que en este último se analizan las variables dicotómicas tal como son, en tanto que en (2) se supone la existencia de una variable latente subyacente para la que se observa una 85 evidencia dicotómica. Ejemplo: 1º la persona tiene o no empleo. la propensión o capacidad de encontrar empleo. 2º si la persona compra o no un automóvil. el deseo o capacidad de adquirir un automóvil. por lo tanto, las variables explicativas de (2) contendrán variables que expliquen ambos elementos. Supongamos que , esto nos permite fijar la escala de . Combinando (2) y (3) obtenemos: donde F es la función de distribución acumulada de u. Si la distribución de u es simétrica, entonces anterior se puede escribir: Los , la expresión Observados son sólo realizaciones de un proceso binomial cuyas probabilidades están dadas por (4) y que varían de un ensayo a otro (de pendiendo de ), entonces la función de verosimilitud se puede escribir: La forma funcional para F en (4) dependerá de la suposición en torno al término de error u. Se ha creado un problema de estimación porque sino también en los es no lineal no solamente en ; entonces, no se puede estimar mediante mínimos cuadrados ordinarios. En esta situación, es preciso recurrir al método de máxima verosimilitud para estimar los parámetros. El método de máxima verosimilitud consiste en la maximización de la función de verosimilitud (ecuación 5) para el modelo LOGIT y PROBIT y ésto se logra por medio de métodos no lineales de estimación. La función de verosimilitud es cóncava (no tiene 86 múltiples máximos) y, por lo tanto, cualquier valor inicial de los parámetros será útil. Es costumbre comenzar las iteraciones para el modelo logit y probit con los estimados del modelo de probabilidad lineal. Si la información disponible es sobre familias individuales, donde familia posee una casa y si una si no la posee; entonces el modelo a estimar es (5) por el método de máxima verosimilitud. 1.3.1. CONSTRUCCIÓN DE UN MODELO LOGIT O PROBIT Los requisitos para la construcción de un modelo logit o probit son: 1º Contar con una muestra representativa de clientes cumplidos e incumplidos, cuyo tamaño mínimo se establece vía criterios estadísticos. 2º Contar con suficiente información de los clientes contenida en sus solicitudes de crédito o expedientes. 3º Seleccionar las posibles variables explicativas de la probabilidad de default de los clientes, en base al conocimiento o experiencia previa y a procedimientos estadísticos (test de significancia individual). 4º Escoger el modelo más apropiado en base a tests estadísticos sobre la "bondad de ajuste" o "calidad predictiva" del modelo. El procedimiento a seguir es: 1º El significado de las variables aparece en el ítem 1.2. 2º Buscar el mejor modelo explicativo de la probabilidad de default (cumplimiento) de los clientes, en base al siguiente procedimiento general: 2.1. Realización de regresiones bivariables y selección de variables explicativas según signo y significancia estadística individual (escogemos las de probabilidad menor del 10 por ciento). Se estiman varias regresiones de la siguiente forma: Clientei = α + β X i + ui para seleccionar la variable se requiere analizar: el signo correcto, la significancia de β (si es altamente significativo, significativo o relativamente significativo) y el 2.2. R 2 (debe estar entre 0.2 y 0.6). Comparación de correlaciones entre variables a fin de eliminar el problema de 87 multicolinealidad. Entre las variables correlacionadas optamos por la de mayor R2 de Mc Fadden. Una vez identificadas las variables más relevantes a partir de modelos bivariables, podemos descartar algunas de ellas en base a su correlaciones. Variables altamente correlacionadas (con coeficientes de correlación mayores a 0.5) resultan redundantes, es decir, basta con que me quede con una de ellas en el modelo, ya que si las incluyo todas sus significancias estadísticas individuales tienden a ser bajas (no se puede distinguir el impacto de cada una de ellas sobre la variable dependiente). El criterio práctico es eliminar las variables correlacionadas con menor significancia estadística individual en las regresiones bivariables, con menor R2 (Mc Fadden). Para obtener la Matriz de Correlaciones entre variables, aplico: Quick/Group Statistics/Correlations y se escribe el nombres de las variables seleccionadas en el ítem anterior. 2.3. Construcción de modelos multivariables en sus versiones logit, probit y lineal incorporando las variables escogidas luego de los pasos 1 y 2. Los modelos se van perfilando para dejar sólo las variables estadísticamente significativas (probabilidad menor del 10 por ciento). Con las variables explicativas escogidas, luego de los pasos 2.1. y 2.2. se estima el modelo en su versión logit, probit o lineal. El modelo se perfila para dejar sólo las variables con signos adecuados y estadísticamente significativas (prob < 0.10). 2.4. Evaluación de los modelos alternativos en base a siguientes criterios arrojados por el programa E-views: 1.2.3.4.- Signo correcto de los coeficientes. Significancia estadística individual de los parámetros de acuerdo al z-statistic y su probabilidad correspondiente. Significancia conjunta del modelo. Bondad de ajuste en base a R2 de Mc Fadden, Expectation-Prediction Table, Goodness-of-Fit Test (Hosmer-Lemeshow). A) Bondad de ajuste: La regla práctica nos dice que este valor debe encontrarse entre 0.2 y 0.6 para considerarse aceptable en el contexto de la modelación de probabilidades. Se han sugerido varias medidas de bondad de ajuste para este tipo de modelos, por ejemplo: 1.- La correlación entre CALF y CALFF al cuadrado: 88 2.- Basada en la suma de cuadrados residual: 3.- Amemiya: 4.- Mc - Fadden: = Función de Máxima Verosimilitud con = respecto a todos los parámetros. Función de Máxima Verosimilitud cuando se hace con la restricción 5.- Cragg - Uhler: 6.- R2 de conteo: B) Expecation-Prediction Table: Esta prueba nos permite averiguar cuál es el porcentaje de acierto en las predicciones que obtiene el modelo. 89 C) Goodness-of-Fit Test: 5.- (test de Hosmer-Lemeshow). Esta prueba parte de agrupar las observaciones en quantiles y evalúa el desempeño del modelo en cada uno de ellos en términos del número de observaciones que predice el modelo que deben ubicarse en cada quantil vs el número de observaciones real. Por defecto, me indica que la información se va a agrupar en 10 quantiles o grupos según niveles. Lo ideal es que el número total de observaciones por quantil sea el más grande posible (prueba para muestras grandes). Se recomienda hacer esta prueba con el mayor número posible de observaciones posible en cada quantil. Criterio de Hannan Quinn (por ser una "función de pérdida", conviene minimizarlo frente a los modelos alternativos). Este es un criterio para comparar modelos alternativos. La regla es escoger el modelo con menor H-Q (no se aplica al MLP). 6.- Curva de Respuesta de Probabilidad de cada variable explicativa del modelo. Esta prueba es ratificatoria del test de significancia estadística individual de las variables explicativas. Nos permite evidenciar mediante un gráfico ad hoc si cada una de estas variables tiene poder para discriminar entre buenos y malos pagadores, partiendo de un valor "c" como parámetro de corte entre quienes se consideran dentro de ambas categorías; usualmente este valor se sitúa en 0.5, es decir, quienes tienen una probabilidad de cumplir menor o igual que 0.5 (50 por ciento), se asumen como malos clientes y los que tienen una mayor, buenos clientes. 2.5. Selección del modelo final en base a la perfomance relativa de éste al comparar, entre modelos alternativos, los resultados de los test sugeridos en el ítem anterior. Lo primero que cabe destacar es que, en el caso del MLP, los efectos marginales de las variables explicativas son constantes para todos los individuos, mientras que en los casos del logit y el probit, estos efectos son diferentes para cada individuo, dependiendo de los valores de las variables explicativas que lo caracterizan. Usualmente, en los modelos logit y probit se calculan los efectos 90 marginales de una variable o regresor para cada individuo, a fin de tener una idea del rango de variación de dichos efectos y se asume que el promedio de estos efectos individuales es una buena aproximación al "efecto marginal global" de la variable (si se quiere tener un número - resumen), lo cual, desde luego, parte de la premisa de que se cuenta con una muestra suficientemente representativa. Pese a que los parámetros j de cada regresor, en los modelos logit y probit, no nos miden, por sí solos el, efecto marginal de dicho regresor, si nos indican la dirección (signo) del cambio inducido en la probabilidad por la variable explicativa. 2.6. Una vez elegido el modelo final, cálculo de los efectos marginales respectivos Los efectos de los cambios en las variables explicativas sobre las probabilidades de que cualquier observación pertenezca a uno de los dos grupos, son proporcionados por: donde: y es la función de densidad normal estándar. 1.3.2. MODELO LOGIT PARA DATOS AGRUPADOS Si la distribución acumulada de LOGIT, es decir: donde Las probabilidades son: es logística, se tiene el llamado modelo 91 El cociente entre ambas probabilidades es: aplicando logaritmo neperiano, nos da: En el modelo de probabilidad lineal se supone como función lineal de las variables explicativas; aquí, la razón logarítmica de momios o logit es una función lineal de las variables explicativas. Tiene las siguientes características: 1.- Dado que P va de 0 a 1, es decir, a medida que Z varía entre y el logit está entre y . En otras palabras, aunque las probabilidades se encuentran entre 0 y 1, los logit no tienen estos límites. 2.- Aunque el logit es lineal en X, las probabilidades mismas no lo son, en contraste con el modelo de probabilidad lineal, donde las probabilidades aumentan linealmente con X. 3.- La interpretación del modelo logit es: mide el cambio en logit por un cambio unitario en X, es decir, nos muestra cómo varía la factibilidad del logit en favor de poseer una casa a medida que X cambia en una unidad. Si es relativamente grande y si cada observación en una clase de , está distribuida en forma independiente como una variable binomial, entonces: por lo tanto, el término de perturbación en el modelo logit es heterocedástico y el método de estimación adecuado es mínimos cuadrados ponderados. El procedimiento para estimar una regresión logit (7) es: 92 (1) Para cada nivel de como , se calcula la probabilidad estimada de poseer una casa . (2) Para cada valor de , obténgase el logit como: (3) Para solucionar el problema de heterocedasticidad, se transforma así: donde las ponderaciones con varianza igual a , porque si se distribuye normal es suficientemente grande. (4) Estimar el modelo transformado utilizando mínimos cuadrados ordinarios (es un modelo sin intercepto). (5) Establecer los intervalos de confianza y/o las pruebas de hipótesis en el marco usual de mínimos cuadrados ordinarios, pero manteniendo en mente que todas las conclusiones serán validas, si la muestra es razonablemente grande. Para pequeñas muestras los resultados estimados deben interpretarse cuidadosamente. 1.3.3. MODELO PROBIT PARA DATOS AGRUPADOS Si los errores siguen una distribución normal, se tiene un modelo PROBIT (o NORMIT), es decir: donde es un índice de conveniencia no observable que está determinado por una o varias variables explicativas, así: y t es la variable normal estandarizada, es decir, t se distribuye . Es razonable suponer que para cada familia hay un nivel crítico o umbral del índice, , tal que si excede a , ocurre el evento, de lo contrario no sucederá. El 93 umbral al igual que no es observable, pero si se supone que esta distribuido normalmente con la misma media y varianza. Por lo tanto, es posible estimar los parámetros y los valores del índice no observable. Es decir, la probabilidad sería: Como representa la probabilidad de que un evento ocurra, P se mide por el área de la curva normal estándar desde , como también de y hasta . Para obtener la información de , tomamos el inverso de la función de distribución probabilística acumulada normal. Se ha creado un problema de estimación porque sino también en los es no lineal no solamente en ; entonces, no se puede estimar mediante mínimos cuadrados ordinarios. Si es relativamente grande y si cada observación en una clase de , está distribuida en forma independiente como una variable binomial, entonces: por lo tanto, el término de perturbación en el modelo probit es heterocedástico y el método de estimación adecuado es mínimos cuadrados ponderados. El procedimiento para estimar una regresión probit es: (1) Para cada nivel de como , se calcula la probabilidad estimada de poseer una casa . (2) Dado , obténgase el índice de utilidad como: (3) Para solucionar el problema de heterocedasticidad, se transforma así: 94 donde las ponderaciones con varianza igual a , porque si se distribuye normal es suficientemente grande. (4) Estimar el modelo transformado utilizando mínimos cuadrados ordinarios (es un modelo sin intercepto). (5) Establecer los intervalos de confianza y/o las pruebas de hipótesis en el marco usual de mínimos cuadrados ordinarios, pero manteniendo en mente que todas las conclusiones serán validas, si la muestra es razonablemente grande. Para pequeñas muestras los resultados estimados deben interpretarse cuidadosamente. Si la información esta agrupada o replicada (observaciones repetidas), entonces se puede obtener información sobre la variable dependiente y el índice de utilidad; por lo tanto, el modelo a estimar se aplica mínimos cuadrados ponderados. 1.3.4. MODELO LOGIT VERSUS MODELO PROBIT Desde el punto de vista teórico, la diferencia entre ambos modelos es la distribución de probabilidades (normal para el modelo probit y logística para el modelo logit); ambas distribuciones están muy próximas entre sí, excepto en los extremos, la logística tiene colas ligeramente más planas, es decir, la curva normal o probit se acerca a los ejes más rápidamente que la curva logística. Por esta razón, no es probable obtener resultados muy diferentes, a menos que las muestras sean grandes. Sin embargo, los estimados de los parámetros de ambos métodos no son directamente comparables; porque la distribución logística tiene una varianza y la distribución normal tiene una varianza de 1. Entonces ambos coeficientes se relacionan de la siguiente forma: Amemiya sugiere multiplicar los estimados LOGIT por 1/1.6 = 0.625 porque esta transformación produce una aproximación más cercana entre la distribución logística y la función de distribución normal estándar. Es decir, la relación sería: También sugiere que los coeficientes del modelo de probabilidad lineal 95 y los coeficientes del modelo logit se relacionan así: Aplicando regla de tres simple logramos encontrar la relación entre los coeficientes del modelo probit y el modelo de probabilidad lineal, que nos da: Si se tiene muestras de tamaños desiguales, no se afectan la estimación de los coeficientes de la variables explicativas del modelo logit, pero si se afecta el término constante. Este resultado no es valido para el modelo probit ni para el modelo de probabilidad lineal. Si el modelo estimado se utiliza para propósitos de predicción, es necesario ajustar el término constante. Desde el punto de vista práctico, es generalmente utilizado con preferencia el modelo logit sobre el modelo probit. 2. MODELOS DE ELECCIÓN MÚLTIPLE Existen varias formas en que se pueden analizar este problema: 1º Con datos no ordenados: 1.1. Multinomial, se utiliza cuando los regresores del modelo hacen referencia a las observaciones muestrales, por lo que varían entre observaciones pero no entre alternativas. 1.2. Condicional, se utiliza cuando los regresores del modelo hacen referencia a las alternativas, por lo que sus valores varían entre alternativas pudiendo hacerlo o no entre observaciones. 2º Con datos ordenados: se utiliza cuando las alternativas que presenta la variable endógena no indican ningún orden. Pueden ser: se utiliza cuando las alternativas de la variable endógena representan un orden entre ellas. Generalizaremos los resultados anteriores a casos en los que los individuos hacen elecciones entre tres o más alternativas mutuamente excluyentes. Un modelo multinomial de respuesta cualitativa se define de la siguiente forma: 96 Asume que la variable dependiente Yi toma el modelo multinomial vendrá dado: ( ) P(Yi = j ) = FY X * ,θ ; mi + 1 valores {0, 1, 2, ..., mi }, entonces i = 1,2,..., n y j = 1,2,..., mi . * donde X y θ son vectores de variables independientes y parámetros respectivamente. De esta forma, mi depende de un i en particular cuando los individuos tienen diferentes conjuntos de elección. Para definir el estimador de θ en el modelo usualmente se definen Σ in = 1 (mi + 1) ⎧= 1 Yij ⎨ ⎩= 0 variables binarias, de la forma: Yi = j Yi ≠ j; i = 1,2..., n y j = 1,2,..., mi . si si La función de verosimilitud viene definida como: ln L = n mi ∑ ∑ Yij ln i =1 j = 0 donde el estimador insesgado θ$ Fij de θ se define como una solución a la ecuación: ∂ ln L = 0. ∂θ Los modelos multinomiales de respuestas cualitativas se pueden clasificar en modelos ordenados y no ordenados. 2.1. MODELOS ORDENADOS Un modelo ordenado se define como: ( ) P(Y = j X ,θ ) = p S j para alguna medida de probabilidad p, sobre X y θ , y una secuencia finita de intervalos sucesivos {S } que depende sobre X yθ tal queU j jS j =ℜ . En los modelos ordenados, los valores que Y toma, corresponden a una partición sobre la línea real. A diferencia de modelo no ordenado, donde la partición correspondería a particiones no sucesivas sobre la línea real o a particiones de dimensiones mayores sobre el espacio euclidiano. En la mayoría de las aplicaciones, el modelo ordenado toma la forma: 97 ( ) ( ) P(Y = j X ,α , β ) = F α j +1 − X ′β − F α j − X ′β ; j = 0,1,..., m;α 0 = −∞ ;α j ≤ α j +1 ;α m+1 = ∞ Para alguna distribución F, se puede definir un modelo Logit ordenado o Probit ordenado. 2.1.1. MODELO LOGIT El modelo logit multinomial se define como: −1 ⎡ mi ⎤ P(Yi = j ) = ⎢ ∑ exp X ij′ β ⎥ exp X ij′ β ; i = 1,2,..., n y j = 0,1,..., mi ⎣ k =0 ⎦ ( ) ( ) Mc Fadden (1974) considera el siguiente modelo multiecuacional derivado del problema del consumidor. Considere a un individuo i cuyas utilidades están asociadas con tres alternativas, de la forma siguiente: U ij = µ ij + ε ij , con j = 0,1,2 donde U ij no es una función estocástica sino deterministica. Por otro lado, ε ij es el usual término aleatorio de error. De esta forma, el individuo elige aquella alternativa en la que obtiene la mayor utilidad. El multinomial logit se puede derivar del problema de maximizar la utilidad sí y sólo sí los ε ij son independientes y la función de distribución [exp( ε ) ]. De esta manera, la probabilidad de que el i de ε ij viene dada por exp ij individuo elija una alternativa j, será: P(Yi = 2) = P(U i 2 > U i1 ,U i 2 > U i 0 ) P(Yi = 2) = P(ε 2 + µ 2 − µ1 > ε 1 , ε 2 + µ 2 − µ 0 > ε 0 ) P(Yi = 2) = exp( µ i 2 ) exp( µ i 0 ) + exp( µ i1 ) + exp( µ i 2 ) y tomará una forma parecida a la definición del modelo logit multinomial sí hacemos µ i 2 − µ i 0 = X i′2 β y µ i1 − µ i 0 = X i′1β . 2.2. MODELOS NO ORDENADOS Se enfocara el caso en que las alternativas no están ordenadas. 98 2.2.1. MODELO LINEAL DE PROBABILIDAD Si asumimos que hay tres opciones j = 1, 2, 3, escribimos el modelo: P1i = α 1 + β1 X i Pji P2i = α 2 + β 2 X i P3i = α 3 + β 3 X i es la probabilidad de que el individuo i elegirá la j ésima opción, mientras que Xi es el valor de X para el j ésimo individuo. Para estimar cada una de las tres ecuaciones en el modelo por mínimos cuadrados ordinarios, no es necesario ejecutar las tres regresiones lineales de probabilidad. Dado que las probabilidades estimadas están restringidas para sumar 1, los interceptos estimados para sumar 1 y los parámetros de pendiente para sumar 0. Entonces, sólo se necesita ejecutar dos de las tres regresiones de mínimos cuadrados. La solución para los parámetros de la tercera ecuación se deriva de las primeras dos. 2.2.2. MODELO LOGIT En este tipo de modelos las alternativas de la variable respuesta indican la pertenencia de las observaciones a un determinado grupo sin incorporar información ordinal. La formulación de un Logit Multinomial queda recogida a través de la siguiente ecuación: Pr ob(Yi = j ) = Pij = e j −1 β ′j X i ∑e β ′j X i j =0 Donde para el caso sencillo de un modelo en el que la variable endógena presenta tres posibles alternativas de elección y sólo existe una variable explicativa en la modelización, la probabilidad asociada a cada una de las alternativas posibles de elección tomarían las siguientes expresiones: P0 = 1 1 + eα1 + β1 Xi + eα2 + β2 Xi eα1 + β1 Xi P0 = 1 + eα1 + β1 Xi + eα2 + β2 Xi con P0 + P1 + P2 = 1 . eα1 + β1 Xi P0 = 1 + eα1 + β1 Xi + eα2 + β2 Xi 99 3. MODELO CON VARIABLE DEPENDIENTE LIMITADA Existen un gran número de datos cuya observación nos muestra que están limitados o acotados de alguna forma. Este fenómeno lleva a dos tipos de efectos: el truncamiento y la censura. El efecto de truncamiento ocurre cuando la muestra de datos es extraída aleatoriamente de una población de interés, por ejemplo, cuando se estudia el ingreso y la pobreza se establece un valor sobre el cual el ingreso se encuentra por encima o por debajo del mismo.. De esta forma, algunos individuos podrán no ser tenidos en cuenta. Por otro lado, censurar es un procedimiento en el cual los rangos de una variable son limitados a priori por el investigador; este procedimiento produce una distorsión estadística similar al proceso de truncamiento. 3.1. MODELO TRUNCADO Una distribución truncada es la parte de una distribución no truncada antes o después de un valor específico; imagínese por ejemplo que nosotros deseamos conocer la distribución de los ingresos anteriores a 100,000 o el número de viajes a una zona mayores de 2, ésta será tan sólo una parte de la distribución total. Si una variable continua aleatoria X, tiene una función de densidad de probabilidades, y a es una constante, entonces: f ( X X > a) = f (X) Pr ob( X > a ) si X tiene una distribución normal con media µ y desviación estándar σ , entonces: ⎛a − µ⎞ Pr ob( X > a ) = 1 − Φ ⎜ ⎟ = 1 − Φ(α ) ⎝ σ ⎠ donde α= a−µ σ y Φ(α ) es función de densidad acumulativa, entonces la distribución normal truncada será: f ( X X > a) = ( −1 − ( − X − µ ) 2 2 2 e 2σ ) 2πσ f (X) = 1 − Φ (α ) 1 − Φ (α ) 2 ⎛ 1⎞ ⎛ X − µ⎞ ⎜ ⎟ φ⎜ ⎟ ⎝σ⎠ ⎝ σ ⎠ = 1 − Φ (α ) donde φ será la función de densidad de probabilidades normal estándar. La distribución normal estándar truncada con µ = 0 y σ = 1 para a igual a -0.5, 0 y 0.5, será: 100 Si [ X ≈ N µ ,σ 2 ] con µ constante, entonces la media vendrá dada por: E [ X truncamiento] = µ + σλ (α ) y la varianza por: var[ X truncamiento] = σ 2 (1 − δ (α )) donde α = (a − µ ) / σ λ (α ) = λ (α ) = . Por otro lado, nosotros observamos que: φ (α ) 1 − Φ(α ) si el truncamiento ocurre en X > a − φ (α ) 1 − Φ(α ) si el truncamiento ocurre en X < a Tomando el logaritmo de la distribución normal truncada, y al realizar la suma de los logaritmos de estas densidades, se obtiene: 1 −n ln L = ln( 2π ) + ln σ 2 − 2 2σ 2 ( ) ∑ (Yi − β ′X i ) i 2 − n ⎡ i =1 ⎣ ⎛ a − β ′X i ⎞ ⎤ ⎟⎥ ⎠⎦ σ ∑ ln⎢1 − Φ ⎜⎝ Las condiciones necesarias para maximizar ln L serán: 101 donde α i 3.2. = ∂ ln L = ∂β ⎡ Yi − β ′X i λi ⎤ ∑ ⎢⎣ σ 2 − σ ⎥⎦ X i = 0 i =1 ∂ ln L = ∂σ 2 ⎡ − 1 (Yi − β ′X i ) 2 α X ⎤ ∑ ⎢ 2σ 2 + 2σ 4 − 2iσ 2i ⎥ = 0 ⎥⎦ i =1 ⎢⎣ a − βi X i σ y n n λi = φ (α i ) . 1 − Φ(α i ) MODELO CENSURADO Un procedimiento normal con datos microeconómicos, consiste en censurar la variable dependiente. Cuando la variable dependiente es censurada, los valores en un determinado rango son todos transformados a un valor singular. De esta forma, si definimos una variable aleatoria y transformada de la variable original como: Y = 0 si Y * ≤ 0 Y = Y * si Y * > 0 El gráfico de la distribución censurada es: ⎛ − µ⎞ ⎛ − µ⎞ Pr ob(Y = 0) = Pr ob Y * ≤ 0 = Φ⎜ ⎟ = 1 − Φ⎜ ⎟ ⎝ σ ⎠ ⎝ σ ⎠ ( La distribución correspondiente a Y si ) * ( ≈ N µ ,σ 2 ) será: Y * > 0 y tiene la densidad de Y * , entonces la distribución tiene partes discretas y 102 continuas, donde la probabilidad total será de 1como se requiere. Para lograr esto, se asigna la probabilidad total en la región censurada al punto de censuramiento. La media de una variable censurada vendrá dada por: E (Y ) = Φ a + (1 − Φ )( µ + σλ ) y la varianza: [ Var (Y ) = σ 2 (1 − Φ ) (1 − δ ) + (α − λ ) Φ d o n d e : 2 ] ⎡a − µ ⎤ * = α = ob Y ≤ a = Φ; Φ⎢ Φ Pr ( ) ⎣ σ ⎥⎦ ( ) λ= φ ; 1− Φ δ = λ 2 − λα . 3.3. MODELO TOBIT El modelo Tobit se originó en el estudio de consumo de bienes no perecederos por parte de las economías domésticas; el importe dedicado al consumo de estos bienes se anula en el caso de familias que no pueden dedicar un mínimo de renta a la adquisición de este tipo de productos. Así, el modelo Tobit es de la forma: ⎧β + β1 xi + ui yi = ⎨ 0 mi ⎩ si y*i ≥ mi si y *i < mi en el que el valor mi es el límite mínimo por debajo del cual la variable endógena no puede caer. Este modelo puede considerarse como uno de elección binaria, en el que la variable endógena toma valores dependientes de las exógenas o bien un mínimo que no depende de éstas. Supongamos que se observa si definirá como: asume que . , y no si . Entonces, se 103 Se le llama modelo Tobit o probit de Tobin o modelo censurado de regresión normal, debido a que se censura (no se permite observar) algunas observaciones de (aquellas que ). El objetivo es estimar los parámetros y . Ejemplo 1.- Se especifica la demanda de automóviles de la siguiente forma: donde Son los gastos en automóviles y x el ingreso. En la muestra habría un gran número de observaciones para las cuales los gastos en automóviles son cero. El modelo censurado de regresión se puede especificar como: 2.- Si existen observaciones sobre varias personas, de las cuales sólo algunas tienen empleo, podemos especificar el modelo: • Caso horas trabajadas, • Caso salarios, Método de estimación La estimación de β y σ mediante mínimos cuadrados ordinarios no se puede utilizar con observaciones positivas , pues cuando se escribe el modelo: el término de error no tiene media cero. Dado que las observaciones con se omiten, esto supone que sólo se incluyen en la muestra las observaciones para las 104 cuales . Por lo tanto, la distribución de es normal truncada y su media no es cero. La Distribución normal truncada es: donde la función de densidad estándar normal es: y la función de distribución acumulada estándar normal es: Un método de estimación que se sugiere comúnmente es el de máxima verosimilitud, que es el siguiente: si maximizamos la función de verosimilitud con respecto a estimados de máxima verosimilitud de estos parámetros. β y σ , obtendremos los Los modelos Tobit se refiere a modelos censurados o truncados donde el rango de la variable dependiente se restringe de alguna forma. Dado el creciente uso de los modelos tipo Tobit, Amemiya realizó la laboriosa tarea de clasificar, los modelos Tobit de acuerdo con similitudes en la función de verosimilitud. La caracterización de los tipos de modelos Tobit es la siguiente: 105 TIPO VARIABLE DEPENDIENTE Y1 Y2 Y3 1 CENSURADO - - 2 BINARIO CENSURADO - 3 CENSURADO CENSURADO - 4 CENSURADO CENSURADO CENSURADO 5 BINARIO CENSURADO CENSURADO