Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Introducción a los modelos de elección discreta Santiago A. Gallón Departamento de Matemáticas y Estadística − Departamento de Economía Grupo de Econometría Aplicada Universidad de Antioquia, Medellín II Escuela de Verano Centro de Estadística Aplicada a Estudios Socioeconómicos −CEAES− Agosto 4−6 de 2009 logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Contenido 1 Motivación 2 Definiciones 3 Probabilidades de elección Modelo de probabilidad lineal Modelo Logit Modelo Probit 4 Estimación e inferencia 5 Modelos de múltiple respuesta Modelo logit multinomial -MNLModelo logit condicional -CLModelo probit multinomial -MNPModelo logit anidado -NLOGITModelos multinomiales ordenados -OMM- 6 Estimación en Stata y R 7 Tópicos logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Contenido 1 Motivación 2 Definiciones 3 Probabilidades de elección Modelo de probabilidad lineal Modelo Logit Modelo Probit 4 Estimación e inferencia 5 Modelos de múltiple respuesta Modelo logit multinomial -MNLModelo logit condicional -CLModelo probit multinomial -MNPModelo logit anidado -NLOGITModelos multinomiales ordenados -OMM- 6 Estimación en Stata y R 7 Tópicos logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Motivación I En la práctica se requiere explicar y predecir el comportamiento de las decisiones que realizan los individuos. En muchas situaciones las elecciones de los individuos son hechas sobre un continuo de posibilidades, por ejemplo: ¿Cuánto gastar en la compra de un bien? ¿Cuánto trabajar? En otras situaciones las elecciones son hechas sobre un número limitado de posibilidades o alternativas ⇒ elecciones discretas. Trabajar o no trabajar Estudiar o no estudiar ¿Dónde vivir? ¿Cuál marca comprar? ¿Cuál modo de transporte utilizar?, ¿Por cuál candidato votar?, etcétera. El conocimiento de los determinantes de este tipo de decisiones es importante en el diseño de políticas socioeconómicas. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Motivación II ¿Qué es un modelo discreto? Son modelos en los cuales la variable dependiente toma valores discretos (Maddala, 1983). Modelos de elección discreta Modelos discretos que buscan describir el proceso de comportamiento de las elecciones de un agente (unidad) tomador(a) de decisiones entre un conjunto de alternativas. También se conocen como: Modelos categóricos Modelos cuantáles Modelos de elección discreta Modelos de elección cualitativa Modelos de respuesta cualitativa logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Aplicaciones: Participación laboral Agremaciones laborales Localización de firmas y lugares de trabajo Prestamos bancarios Finanzas Energía Migración Elección de modos de transporte Compra de bienes durables Decisiones de inversión Investigación de mercados Localización de hogares Matrimonios Decisiones de nacimientos Educación Legislación y votaciones Criminología logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Contenido 1 Motivación 2 Definiciones 3 Probabilidades de elección Modelo de probabilidad lineal Modelo Logit Modelo Probit 4 Estimación e inferencia 5 Modelos de múltiple respuesta Modelo logit multinomial -MNLModelo logit condicional -CLModelo probit multinomial -MNPModelo logit anidado -NLOGITModelos multinomiales ordenados -OMM- 6 Estimación en Stata y R 7 Tópicos logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Definiciones, notación y propiedades I Unidad (individuo, familia, firma, banco,...) tomadora de decisiones, indexada por i = 1, . . . , n. Ci , conjunto de elección de la unidad conformado por Ji alternativas u opciones, indexadas por j = 1, . . . , Ji donde las alternativas deben ser: Mutuamente exclusivas (elegir una alternativa implica no elegir ninguna de las demás alternativas). Exahutivas (todas las posibles alternativas son incluídas). Finitas (el conjunto de elección es un conjunto contable finitamente). xij , vector de variables observadas relacionadas con la j-ésima alternativa, conocidas como atributos, a las que se enfrenta la i-ésima unidad. si , vector de variables observadas relacionadas con la unidad tomadora de decisiones (constantes para las alternativas). logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Definiciones, notación y propiedades II Uij , nivel de utilidad (“bienestar”, “felicidad”) de la i-ésima unidad obtenido a partir de la elección de la j-ésima alternativa. Dicha utilidad no es conocida por el investigador. Bajo el supuesto de que la unidad se comporta como un agente maximizador de su utilidad, entonces éste elige la alternativa j sí y sólo sí Uij > Uik , ∀j 6= k. Vij = V (xij , si , β), función observada por el investigador que relaciona los factores observables xij y si con la utilidad de la unidad tomadora de decisiones. Dado que existen factores no observados por el investigador, ésto es Uij 6= Vij , entonces Uij = Vij + ij = V (xij , si , β) + ij (1) donde ij es una secuencia de variables aleatorias i.i.d. con función de densidad, f (ij ). logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Definiciones, notación y propiedades III Probabilidad de elección de la j-ésima alternativa, ∀j 6= k Pr j = Pr ij = Pr(Uij > Uik ) = Pr(Vij + ij > Vik + ik ) = Pr(ik − ij < Vij − Vik ) = Pr(˜ ikj < Vij − Vik ) Z Vij −Vi1 Z Vij −Vi2 Z = ··· −∞ −∞ (2) Vij −ViJ g(˜ij )d˜ij −∞ donde ˜ij = (˜ i1j , . . . , ˜iJj )0 es un vector de dimensión (J − 1), con “. . .” sobre todas las alternativas excepto la j-ésima alternativa; y g(˜ij ) su función de densidad. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Definiciones, notación y propiedades IV Otra manera de derivar los modelos de elección discreta ∗ yij = h(xij , β, ij ) (3) donde h(·) usualmente se define como h(xij , β, ij ) = x0ij β + ij donde x0ij β es conocida como función índice. ∗ El individuo i elige la alternativa j, sí máx(y ∗i ) = yij > 0 y no sí ∗ ∗ ∗ ∗ 0 máx(y i ) ≤ 0, donde y i = (yi1 , . . . , yiJ ) . ∗ En la práctica yij es no observable (latente), para lo cual se define una variable dummy, yij , dada por ( ∗ j, sí máx(y ∗i ) = yij >0 yi = ∗ 0, sí máx(y i ) ≤ 0 logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Definiciones, notación y propiedades V Las probabilidades de elección para j = 1, . . . , J ∗ Pr ij = Pr(yi = j|xij ) = Pr(yij > 0|xij ) = Pr(h(xij , β, ij ) > 0|xij ) = Pr(x0ij β + ij > 0|xij ) = Pr(ij > −x0ij β|xij ) = = (4) 1 − F (−x0ij β|xij ) F (x0ij β) = Fij donde F es la función de distribución acumulada de (simétrica). 0 < Fij < 1, XJ j=1 Fij = 1. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelos de elección binaria I Objetivo Modelar el comportamiento de elección de los individuos cuando solamente existen dos (J = 2) alternativas. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelos de elección binaria II Maximización de la utilidad aleatoria Utilidades derivadas de las elecciones (j = 1, 2) Ui1 = Vi1 + i1 = V (xi1 , s1 , β) + i1 Ui2 = Vi2 + i2 = V (xi2 , s2 , β) + i2 Probabilidades de elección Pr 1 = Pr i1 = Pr(Ui1 > Ui2 ) = Pr(Vi1 + i1 > Vi2 + i2 ) = Pr(i2 − i1 < Vi1 − Vi2 ) = F (Vi1 − Vi2 ) Pr 2 = Pr i2 = 1 − Pr 1 = 1 − F (Vi1 − Vi2 ) logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelos de elección binaria III Función índice yi∗ = h(xi , β, i ) = x0i β + i con yi = 1 sí yi∗ > 0 y yi = 0 sí yi∗ ≤ 0. Probabilidades de elección Pr(yi = 1|xi ) = Pr(yi∗ > 0|xi ) = Pr(x0i β + i > 0|xi ) = Pr(i > −x0i β|xi ) = 1 − F (−x0i β|xi ) = F (x0i β) Pr(yi = 0|xi ) = Pr(yi∗ ≤ 0|xi ) = 1 − F (x0i β) logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Contenido 1 Motivación 2 Definiciones 3 Probabilidades de elección Modelo de probabilidad lineal Modelo Logit Modelo Probit 4 Estimación e inferencia 5 Modelos de múltiple respuesta Modelo logit multinomial -MNLModelo logit condicional -CLModelo probit multinomial -MNPModelo logit anidado -NLOGITModelos multinomiales ordenados -OMM- 6 Estimación en Stata y R 7 Tópicos logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Para calcular las probabilidades de elección se deben evaluar las integrales que las definen. Existen tres posibilidades: Expresión de forma cerrada completa: Para ciertas especificaciones de f (x0i β) la integral puede calcularse de manera exacta (expresada a partir de una fórmula de “forma cerrada”). Simulación completa: Cuando la integral no puede resolverse analíticamente, entonces ésta puede aproximarse por medio de técnicas de simulación Simulación y expresión de forma cerrada parcial: combinación de las anteriores. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo de probabilidad lineal Modelo de probabilidad lineal Pr(yi = 1) = F (xi , β) + i yi = x0i β + i con E(i ) = 0 y yi es una variable binaria que toma el valor de 1 si el evento ocurre y 0 en otro caso. El valor ajustado, ŷi = x0i β̂, puede tener valores fuera del rango (0, 1). El modelo es heterocedástico: V ar(i |xi ) = x0i β(1 − x0i β)2 + (1 − x0i β)(x0i β)2 = x0i β(1 − x0i β) = E(yi )[1 − E(yi )] El modelo supone que la probabilidad de ocurrencia del evento siempre es la misma ante cambios en xi . logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo de probabilidad lineal logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo de probabilidad lineal logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo Logit Función logística Sabemos que Pr j = Pr ij = Pr(ik − ij < Vij − Vik ) = Pr(˜ ikj < Vij − Vik ) Asumiendo que ij distribuye independiente e identicamente como una Gumbel (o de valor extremo tipo I) con f.d.p. y función de distribución dadas por: f (ij ) = exp(−ij ) exp(− exp(−ij )) F (ij ) = exp(− exp(−ij ) entonces ˜ikj = ik − ij sigue una distribución logistica: F (˜ ikj ) = Λ(˜ ikj ) = exp(˜ ikj ) 1 + exp(˜ ikj ) logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo Logit Probabilidades de elección logit Después de algunas manipulaciones algebráicas (véase, Train (2003), Maddala (1983), y Cameron y Trivedi (2005)) se tiene que: exp(x0i β) 1 + exp(x0i β) 1 = 1 + exp(−x0i β) Pr ij = F (x0i β) = Λ(x0i β) = donde la f.d.p está dada por f (x0i β) = Λ(x0i β)[1 − Λ(x0i β)] = exp(x0i β) 2 [1 + exp(x0i β)] logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo Probit Modelo Probit Asumiendo que ij distribuye i.i.d. como una normal estándar y dado que la diferencia entre variables aleatorias normales es normal, entonces: Z Vij −Vik φ(˜ ikj )d˜ ikj F (Vij − Vik ) = Φ(Vij − Vik ) = −∞ donde 1 f (˜ ikj ) = φ(˜ ikj ) = √ exp(−˜ 2ikj /2) 2π Probabilidades de elección probit (asumiendo Vij − Vik = x0i β) Pr ij = F (x0i β) = Φ(x0i β) = Z x0i β φ(z)dz −∞ donde φ(z) = √1 2π exp(−z 2 /2) logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo Probit logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Efectos marginales Uno de los objetivos de los modelos de elección discreta consiste en determinar los efectos marginales de los cambios de las variables regresoras sobre la probabilidad condicional: dF (x0i β) ∂E(yi |xi ) = β = f (x0i β)β ∂xi d(x0i β) Los efectos marginales difieren en el punto de evaluación xi y con la forma funcional F (·) Modelo Probabilidad F (·) Lineal x0i β Logit Λ(x0i β) Probit Φ(x0i β) Efecto marginal β exp(x0i β) = 1+exp(x 0 β) i R x0i β = −∞ φ(z)dz Efectos marginales promedio: Xn n−1 f (x0i β)β i=1 Λ(x0i β)[1 − Λ(x0i β)]β φ(x0i β)β ó f (x̄0i β)β logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Contenido 1 Motivación 2 Definiciones 3 Probabilidades de elección Modelo de probabilidad lineal Modelo Logit Modelo Probit 4 Estimación e inferencia 5 Modelos de múltiple respuesta Modelo logit multinomial -MNLModelo logit condicional -CLModelo probit multinomial -MNPModelo logit anidado -NLOGITModelos multinomiales ordenados -OMM- 6 Estimación en Stata y R 7 Tópicos logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos El resultado del modelo de elección binaria distribuye Bernoulli: f (yi |x) = Pr i yi (1 − Pr i )1−yi , = [F (x0i β)]yi [1 − yi = 0, 1 F (x0i β)]1−yi Función de verosimilitud L(β) = Pr(Y1 = y1 , · · · , Yn = yn ) = = Y yi =1 n Y F (x0i β) Y [1 − F (x0i β)] yi =0 [F (x0i β)]yi [1 − F (x0i β)]1−yi i=1 Función log verosimil ln L(β) = n X {yi ln F (x0i β) + (1 − yi ) ln[1 − F (x0i β)]} i=1 logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos β̂ ML tal que sea solución de la ecuación (no lineal) n ∂ ln L(β) X yi − F (x0i β) 0 = 0 β)[1 − F (x0 β)] f (xi β)xi = 0 ∂β F (x i i i=1 donde f (x0i β) = dF (x0i β) dx0i β Matriz de segundas derivadas del ln L(β) (Hessiana) n X ∂ 2 ln L(β) yi 1 − yi 2 0 0 =− + 0 β)]2 f (xi β)xi xi 2 (x0 β) F [1 − F (x ∂β∂β 0 i i i=1 n X yi − F (x0i β) 0 0 + 0 β)[1 − F (x0 β)] f (xi β)xi xi F (x i i i=1 con esperanza E ∂ 2 ln L(β) ∂β∂β 0 =− n X i=1 f 2 (x0i β) xi x0i F (x0i β)[1 − F (x0i β)] logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Matriz de varianzas y covarianzas asintótica de β̂ ML V (β̂ ML ) = −E = n X i=1 ∂ 2 ln L(β) ∂β∂β 0 −1 f 2 (x0i β) xi x0i 0 F (xi β)[1 − F (x0i β)] −1 a β̂ ML es consistente y β̂ ML ∼ N (β, V (β̂ ML )). logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Relación entre los modelos LP, logit y probit I Relación entre los modelos Logit y probit β̂logit ≈ 1.6β̂probit Relación entre los modelos LP y probit β̂LP ≈ 0.4β̂probit excepto para la constante β̂LP ≈ 0.4β̂probit + 0.5 para la constante Relación entre los modelos LP y logit β̂LP ≈ 0.25β̂logit excepto para la constante β̂LP ≈ 0.25β̂logit + 0.5 para la constante logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Métodos iterativos para la estimación ML Método de Newton-Raphson " β̂ t+1 = β̂ t − ∂ 2 ln L(β) ∂β∂β 0 β=β̂ t #−1 ∂ ln L(β) ∂β β=β̂ t Método Scoring β̂ t+1 #−1 " ∂ ln L(β) ∂ 2 ln L(β) = β̂ t − E ∂β ∂β∂β 0 β=β̂ t β=β̂ t Otros métodos: Algorítmo de Berndt-Hall-Hall-Hausman (BHHH). Algorítmo de Davidon-Fletcher-Powell (DFP). Algorítmo de Broyden-Fletcher-Goldfarb-Shanno (BFGS). logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Medidas de bondad de ajuste e inferencia R2 = 1 − =1− donde ȳ = n−1 ln L(β̂) ln L(ȳ) o Pn n 0 0 β̂)] β̂) + (1 − y ) ln[1 − F (x y ln F (x i i i i i=1 n[ȳ ln ȳ + (1 − ȳ) ln(1 − ȳ)] Pn i=1 yi . Pn − ȳ)(Fi (x0i β̂) − F̄ ) Pn 0 2 2 i=1 (yi − ȳ) i=1 (Fi (xi β̂) − F̄ ) ρyi ,F̂i = Pn i=1 (yi Inferencia H0 : Qβ = c donde Q y c son una matriz y vector de constantes conocidas de dimensiones q × K y q, respectivamente. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Para q = 1 Qβ̂ − c q QV̂ (β̂ ML )Q0 a ∼ tn−K Para q > 1 a W ald = (Qβ̂ − c)0 [QV̂ (β̂ ML )Q0 ]−1 (Qβ̂ − c) ∼ χ2q a LR = 2[ln L(β̂ ML ) − ln L(β̂ CML )] ∼ χ2q donde β̂ CML denota el estimador de máxima verosimilitud restringido obtenido de maximizar la función ln L sujeto a la restricción Qβ = c. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Contenido 1 Motivación 2 Definiciones 3 Probabilidades de elección Modelo de probabilidad lineal Modelo Logit Modelo Probit 4 Estimación e inferencia 5 Modelos de múltiple respuesta Modelo logit multinomial -MNLModelo logit condicional -CLModelo probit multinomial -MNPModelo logit anidado -NLOGITModelos multinomiales ordenados -OMM- 6 Estimación en Stata y R 7 Tópicos logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelos multinomiales Modelos donde existen más de dos elecciones, (J > 2). Existen diferentes modelos de múltiple respuesta dependiendo de la especificación de la forma funcional de las probabilidades de elección y del tipo de variables regresoras que determinan la elección: 1 Regresores que varían entre las alternativas para un individuo (tiempo, color, tamaño y costos,...), xij . 2 Regresores invariantes entre las alternativas (edad, género, ingreso, nivel educativo,...), xi . logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit multinomial -MNL- Modelo logit multinomial -MNLProbabilidades de elección Pr ij = Pr(yi = j) = exp(x0i β j ) , J P 0 exp(xi β k ) j = 1, . . . , J k=1 PJ Como j=1 Pr ij = 1 se requiere de la restricción β 1 = 0 para garantizar la identificación del modelo. Función de verosimilitud L= n Y J Y yij (Pr ij ) i=1 j=1 logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit multinomial -MNL- Función log-verosímil ln L = n X J X yij ln Pr ij i=1 j=1 = n X J X i=1 j=1 yij ln exp(x0i β j ) PJ k=1 ! exp(x0i β k ) β̂ l,MNL tal que sea solución de la ecuación (no lineal) n J ∂ ln L X X yij ∂ Pr ij = ∂β l Pr ij ∂β l i=1 j=1 = n X (yil − Pr il )xi = 0, l = 1, . . . , J i=1 logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit multinomial -MNL- Matriz de segundas derivadas n X J X ∂ Pr ij ∂ 2 ln L = − xi 0 ∂β j ∂β l ∂β 0l i=1 j=1 =− n X Pr ij (δijl − Pr il )xi x0i , j, l = 1, . . . , J. i=1 donde δijl = 1 sí j = l y δijl = 0 sí j 6= l. β̂ MNL es consistente y a β̂ MNL ∼ N 2 −1 ! ∂ ln L β, E ∂β∂β 0 logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit multinomial -MNL- Efectos marginales J X exp(x0i β j ) exp(x0i β j ) ∂ Pr ij = J exp(x0i β k )β k βj − 2 P J ∂xi P exp(x0i β k ) exp(x0i β k ) k=1 k=1 k=1 J X = Pr ij β j − Pr ij Pr ik β k k=1 = Pr ij β j − β̄ i donde β̄ i = PJ k=1 Pr ik β k logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit condicional -CL- Modelo logit condicional -CLPr ij = Pr(yi = j) = exp(x0ij β) , J P exp(x0ik β) j = 1, . . . , J k=1 logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit condicional -CL- Función de verosimilitud L= n Y J Y yij (Pr ij ) i=1 j=1 Función log-verosímil ln L = n X J X yij ln Pr ij i=1 j=1 = n X J X i=1 j=1 yij ln exp(x0ij β) PJ k=1 ! exp(x0ik β) logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit condicional -CL- β̂ CL tal que sea solución de la ecuación (no lineal) n J ∂ ln L X X yij ∂ Pr ij = ∂β Pr ij ∂β i=1 j=1 = = n X J X yij Pr ij (xij − x̄i ) Pr ij i=1 j=1 n X J X yij (xij − x̄i ) = 0 i=1 j=1 donde x̄i = PJ k=1 Pr ik xik logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit condicional -CL- Matriz de segundas derivadas n X J X ∂ x̄i ∂ 2 ln L = − yij 0 0 ∂β∂β ∂β i=1 j=1 =− n X J X Pr ij (xij − x̄i )(xij − x̄i )0 i=1 j=1 β̂ CL es consistente y a β̂ CL ∼ N 2 −1 ! ∂ ln L β, E ∂β∂β 0 logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit condicional -CL- Efectos marginales exp(x0ij β) exp(x0ij β) ∂ Pr ij 0 = J β− 2 exp(xij β)β P J ∂xij P exp(x0ik β) exp(x0ik β) k=1 k=1 = Pr ij (1 − Pr ij )β exp(x0ij β) ∂ Pr ij 0 = − 2 exp(xil β)β J ∂xil P exp(x0ik β) k=1 = − Pr ij Pr il β logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit condicional -CL- Independencia de las alternativas irrelevantes -IIARazones (cocientes) de disparidad (Odds ratio) PJ exp(x0ij β)/ j=1 exp(x0ij β) Pr ij = PJ Pr ik exp(x0ik β)/ j=1 exp(x0ij β) = exp(x0ij β) exp(x0ik β) = exp(x0ij − x0ik )β Interpretación: cuántas veces es más probable de que ocurra el evento yi = j relativo al evento yi = k. Los cocientes de disparidad tiene la propiedad de no afectarse en presencia de alternativas adicionales o del cambio en los atributos de las demás alternativas =⇒ Propiedad de independencia de las alternativas irrelevantes -IIAEsto se debe al supuesto de independencia de ij . logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit condicional -CL- Ejemplo Supóngase que un individuo es indiferente entre las opciones de viajar en auto o en bus (de color azul): Pc = Pba = 1/2 ⇒ Pc /Pba = 1. Ahora supóngase que hay una nuevo bus (de color rojo) y que el individuo considera ambos buses iguales tal que: Pba /Pbr = 1. En el modelo logit los cocientes entre las probabilidades son iguales independientemente de la presencia o no de otra alternativa, así las únicas probabilidades para las cuales Pc /Pba = 1 y Pbr /Pba = 1 son Pc = Pba = Pbr = 1/3. En la vida real se esperaría que el cociente Pba /Pc cambie con la introducción de una nueva alternativa (bus de color rojo). Supóngase que el individuo es indiferente de viajar en carro o bus Pc = Pb = 1/2 y que es indiferente de entre el bus azul o rojo Pba = Pbr = 1/4. Esto implica que Pba /Pbr = 1 y Pba /Pc = (1/4)/(1/2) = 1/2, violando el supuesto IIA. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo probit multinomial -MNP- Modelo probit multinomial -MNPFunción de densidad multivariada de i = (i1 , . . . , iJ )0 con media cero y matriz de varianzas y covarianzas Σ, i ∼ N (0, Σ): −1/2 f (i ) = φ(i ) = (2π)−J/2 |Σ| exp − 12 0i Σ−1 i donde |Σ| es el determinante de Σ. Probabilidad de elección de la j-ésima alternativa, ∀j 6= k Pr ij = Pr(Uij > Uik ) = Pr(Vij + ij > Vik + ik ) = Pr(ik − ij < Vij − Vik ) = Pr(˜ ikj < Vij − Vik ) Z Vij −Vi1 Z Vij −Vi2 Z = ··· −∞ −∞ Vij −ViJ g(˜ij )d˜ij −∞ con ˜ij = (˜ i1j , . . . , ˜iJj )0 vector de dimensión (J − 1) y función de densidad g(˜ij ). logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo probit multinomial -MNP- Modelo probit multinomial -MNPComo la diferencia de normales es normal, entonces −1/2 Pr ij = (2π)−(J−1)/2 |Ωj | Z Ṽij1 Z ṼijJ ··· −∞ −∞ exp − 21 z 0i Ω−1 j z i dz donde Ṽijk = Vij − Vik , ∀k = 1, . . . , J (k 6= j), y Ωj es la matriz de varianzas y covarianzas de ˜ij de dimensión (J − 1). Con el fin de facilitar el cálculo de las probabilidades y asegurar la identificación de los parámetros se requiere de la imposición de restricciones sobre Ωj (“estructuras de varianza”). Train (2003) propone un procedimiento de normalización fijando la varianza de una de las diferencias de los errores con respecto a la alternativa j, ˜ikj = ik − ij . Usualmente se asumen las diferencias con respecto a la primera alternativa, ˜ik1 = ik − i1 . La reducción del número de parámetros es una normalización que elimina aspectos irrelevantes de la matriz Σ. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo probit multinomial -MNP- Ejemplo J = 3 con errores i = (i1 , i2 , i3 )0 y matriz de varianzas y covarianzas σ11 σ12 σ13 Σ = σ12 σ22 σ23 σ13 σ23 σ33 Considérese la probabilidad de elegir la alternativa j = 1: Pr(i2 − i1 < Vi1 − Vi2 y i3 − i1 < Vi1 − Vi3 ), entonces σ11 + σ22 − 2σ12 · Ω1 = σ11 − σ13 − σ12 + σ23 σ11 + σ33 − 2σ13 Normalización " Ω∗1 = 1 · (σ11 −σ13 −σ12 +σ23 ) (σ11 +σ22 −2σ12 ) σ11 +σ33 −2σ13 (σ11 +σ22 −2σ12 ) # logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit anidado -NLOGIT- Modelo propuesto por McFadden (1978) para relajar el supuesto de independencia de las alternativas irrelevantes -IIA- de los modelos multinomiales logísticos (logit multinomial y logit condicional). Modelo apropiado cuando el conjunto de alternativas puede particionarse en subconjuntos, llamados nidos (nests). Es decir, cuando existe una clara estructura de anidación que consiste en: 1 2 3 En un primera etapa, el individuo elige entre un conjunto de elección conformado por L alternativas indexadas por l = 1, · · · , L. Luego, condicionado a la elección de la l-ésima alternativa, el individuo elige entre un conjunto de elección conformado por Jl alternativas indexadas por j = 1, · · · , Jl (conjunto de alternativas anidadas en la l-ésima alternativa). Y así sucesivamente... La estructura de anidación se acostumbra ilustrarla por medio de un “diagrama de árbol de decisiones”. Diagrama de árbol de decisión con dos niveles de anidación logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit anidado -NLOGIT- Elección z }| { 1··· ···l··· ···L z }| { z }| { z }| { 1 · · · J1 · · · · · · 1 · · · Jl · · · · · · 1 · · · JL Propiedades: 1 2 Para cualquier par de alternativas que pertenecen al mismo nido, el cociente de las propabilidades es independiente de los atributos o existencia de todas las otras alternativas. Es decir, el supuesto de IIA se cumple dentro de cada nido. Para cualquier par de alternativas en diferentes nidos, el cociente de las propabilidades puede depender de los atributos de las otras alternativas en los dos nidos. Es decir, en general el supuesto de IIA no se cumple para alternativas en diferentes nidos. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit anidado -NLOGIT- Modelo logit anidado -NLOGITUtilidad de la i-ésima unidad obtenida a partir de la elección de la j-ésima alternativa perteneciente a la l-ésima elección (nido). Uijl = Vijl + ijl = (x0ij|l β l + z 0il γ) + ijl , j = 1, . . . , Jl , l = 1, . . . , L. donde i sigue una f.d. conjunta de valor extremo generalizada (GEV): τl Jl L X X F (i ) = exp − exp {−ij /τl } l=1 j=1 τl mide el grado de independencia entre los componentes no observados de la utilidad para alternativas dentro del l-ésimo nido. 1 − τl puede emplearse como una medida de correlación. Cuando τl = 1, ∀l implica completa independencia entre todas las alternativas en todos los nidos. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit anidado -NLOGIT- Modelo logit anidado -NLOGITProbabilidad conjunta de que la i-ésima unidad elija la j-ésima alternativa perteneciente a la l-ésima elección Pr ijl = Pr ij|l Pr il , j = 1, . . . , Jl , l = 1, . . . , L Probabilidad de elección de la alternativa j condicionada a la elección l Pr ij|l = Pr(yi = j|l) = exp(x0ij|l β l /τl ) Jl P k=1 , j = 1, . . . , Jl , l = 1, . . . , L exp(x0ik|l β l /τl ) Probabilidad (marginal) de elección de la alternativa l Pr il = Pr(yi = l) = exp(z 0il γ + τl Iil ) L P m=1 exp(z 0im γ + τm Iim ) , l = 1, . . . , L logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelo logit anidado -NLOGIT- Modelo logit anidado -NLOGITnP o Jl 0 Iil = ln exp(x β /τ ) son los valores inclusivos para la l ik l k=1 categoría l. Iil relaciona las probabilidades marginal y condicional trayendo información desde la probabilidad condicional hacia la probabilidad marginal. τl Iil tiene la interpretación de la utilidad esperada que el i-ésimo individuo recibe de la elección entre las alternativas en el nido l. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelos multinomiales ordenados -OMM- Modelo multinomial ordenado Modelos en los cuales existe un ordenamiento de la variable dependiente (discreta). Aplicaciones: Clasificación del riesgo de activos financieros (“bajo”, “medio” y “alto” riesgo). Calificación de instituciones financieras (“AAA”, “AAB”, “AA2, “A”, “BBB”, “B”,...) Test de gustos. Encuestas de opinión (niveles de satisfacción). Nivel de habilidades laborales. Nivel de cubrimiento de programas sociales. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelos multinomiales ordenados -OMM- Modelo multinomial ordenado El punto de partida de los modelos multinomiales ordenados es el modelo de variable latente: yi∗ = x0i β + i Para J alternativas se define la variable yi = j sí αj−1 < yi∗ ≤ αj , j = 1, . . . , J. donde αj son parámetros de umbral con α0 = −∞ y αJ = ∞. Probabilidades de elección Pr(yi = j) = Pr(αj−1 < yi∗ ≤ αj ) = Pr(αj−1 < x0i β + i ≤ αj ) = Pr(αj−1 − x0i β < i ≤ αj − x0i β) = F (αj − x0i β) − F (αj−1 − x0i β) logo donde F (·) es la función de distribución acumulada de i . Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelos multinomiales ordenados -OMM- Modelo logit ordenado Probabilidades de elección Pr(yi = j) = F (αj − x0i β) − F (αj−1 − x0i β) = Λ(αj − x0i β) − Λ(αj−1 − x0i β) = exp(αj − x0i β) exp(αj−1 − x0i β) − 1 + exp(αj − x0i β) 1 + exp(αj−1 − x0i β) donde Λ(·) es la función de distribución acumulada logística. Modelo probit ordenado Probabilidades de elección Pr(yi = j) = F (αj − x0i β) − F (αj−1 − x0i β) = Φ(αj − x0i β) − Φ(αj−1 − x0i β) donde Φ(·) es la función de distribución acumulada normal estándar. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelos multinomiales ordenados -OMM- logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Modelos multinomiales ordenados -OMM- La función ln L(β, α1 , . . . , αJ−1 ) es ln L(β, α) = n X J X Ij (yi ) ln Pr ij i=1 j=1 = n X J X Ij (yi ) ln [F (αj − x0i β) − F (αj−1 − x0i β)] i=1 j=1 donde ( 1, Ij (yi ) = 0, sí yi = j; en otro caso Efectos marginales ∂ Pr(yi = j) = [f (αj−1 − x0i β) − f (αj − x0i β)] β ∂xi donde f (z) = dF (z)/dz logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Contenido 1 Motivación 2 Definiciones 3 Probabilidades de elección Modelo de probabilidad lineal Modelo Logit Modelo Probit 4 Estimación e inferencia 5 Modelos de múltiple respuesta Modelo logit multinomial -MNLModelo logit condicional -CLModelo probit multinomial -MNPModelo logit anidado -NLOGITModelos multinomiales ordenados -OMM- 6 Estimación en Stata y R 7 Tópicos logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Comandos de Stata: logit, logistic: Modelo logit probit: Modelo probit clogit: Modelo logit condicional mlogit: Modelo logit multinomial asmprobit, amprobit: Modelo probit multinomial nlogit: modelo logit anidado ologit: modelo logit ordenados oprobit: modelo probit ordenados Paquetes de R: stats: incluye los modelos logit y probit mlogit: Modelo logit multinomial y logit condicional MNP: Modelo probit multinomial y probit ordenado Otros software: Limdep, SAS, DCM bajo Ox, Eviews, etc. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Factores de riesgo asociados con el bajo peso al nacer 189 observaciones, n = 189. Variables: 1 2 3 4 5 6 7 8 Peso al nacer (low): peso < 2500 gramos (low =1) y peso ≥ 2500 gramos (low = 0) Raza (race): blanca (race = 1), negra (race = 2), u otra (race = 3) Edad de la madre (age) Peso último perido mestrual (lwt) Fumó durante el embarazo (smoke) Historia laboral prematura (ptl) Historia de hipertensión (ht): sí (ht = 1) y no (ht = 0) Irritabilidad uterina (ui): sí (ui = 1) y no (ui = 0) Modelo especificado Pr ij =F (βage agei + βlwt lwti + βsmoke smokei + βptl ptli + βht hti + βui uii + βrace2 di,race=2 + βrace3 di,race=3 ) logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Determinantes de tener carro propio 437 observaciones, n = 437. Variables: 1 2 3 4 Carro propio (owncar): 1 sí el estudiante tiene carro propio Edad del estudiante (age) Ingreso mensual (income) Género (male): masculino (male = 1) y femenino (male = 0) Modelo especificado Pr ij =F (βincome incomei + βage agei + βmale malei ) logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Elección de modos de transporte Análisis de elección de modos de transporte para viajar entre Sydney y Melbourne, Australia (Hensher y Greene, 1995). 210 observaciones, n = 210. Modos de transporte (J = 4 alternativas): aire, tren, bus o carro. Variables: 1 2 3 4 5 6 Elección de transporte (Mode) Medida de costo generalizado del viaje (GC). Costo en el vehículo (INVC). Tiempo de espera en el terminal de transporte, 0 para el carro (TTME). Tiempo de viaje (INVT). Ingreso familiar (HINC). logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Elección de modos de transporte Árbol de decisión de dos niveles Modelo especificado Uij =αavión di,avión + αtren di,tren + αbus di,bus + βGC GCij + βTTME TTMEij + γHINC di,aire HINCi + ij donde di,j son constantes correspondientes a las elecciones. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Elección de restaurantes Análisis de elección de tipos de restaurantes. Tipos de restaurantes (L = 3 alternativas): restaurantes de comida rápida, restaurantes familiares y restaurantes lujosos. 300 familias, n = 210 para 3100 observaciones (n × L). Variables: 1 2 3 4 5 6 7 8 Variable identificadora de la familia (id) Elección (chosen): sí (chosen = 1) y no (chosen = 0) Elecciones de restaurantes (restaurant) Ingreso familiar (income). Costo promedio de la comida por persona (cost). Número de niños en la familia (kids). Calificación en la guiá de restaurantes locales (rating). Distancia entre el hogar y el restaurante (distance). logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Elección de restaurantes Árbol de decisión de dos niveles Modelo especificado Pr(restaurant|type) = Pr(βcost cost + βrating rating + βdistance distance) Pr(type) = Pr(αiFast incFast + αiFancy incFancy + αkFast kidFast + αkFancy kidFancy + τfast Ifast + τfamily Ifamily + τfancy Ifancy ) logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Registro de reparación de autos 66 observaciones, n = 66. Variables: 1 2 3 4 Registro de reparación en 1977 (rep77): “poor”, “fair”, “average”, “good” y “excellent”. Nacionalidad del auto (foreign): doméstico (foreign = 0) y extranjero (foreign = 1) Variable proxy del tamaño del vehículo (length) Millas por galón (mpg) Modelo especificado Pr(yi = j) = Pr(αj−1 < yi∗ ≤ αj ) = Pr(αj−1 < βfore foreign + βlength length + βmpg mpg + i ≤ αj ) logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Contenido 1 Motivación 2 Definiciones 3 Probabilidades de elección Modelo de probabilidad lineal Modelo Logit Modelo Probit 4 Estimación e inferencia 5 Modelos de múltiple respuesta Modelo logit multinomial -MNLModelo logit condicional -CLModelo probit multinomial -MNPModelo logit anidado -NLOGITModelos multinomiales ordenados -OMM- 6 Estimación en Stata y R 7 Tópicos logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Tópicos I Modelos multivariados Panel de datos Modelos de función índice no lineal Modelos de coeficientes aleatorios Modelos discretos-continuos Modelos de autoselección Modelos truncados y censurados Modelos de supervivencia (modelos de duración) Modelos semi y no paramétricos Modelos de conteo logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Bibliografia I Amemiya, T., 1985. Advanced Econometrics Harvard University Press. Cameron, C. and P. Trivedi, 2005. Microeconometrics: Methods and Applications Cambridge University Press. Gourieroux, C. and P. Klassen, 2000. Econometrics of Qualitative Dependent Variables Cambridge University Press. Hensher, D., J. Rose and W. Greene, 2005. Applied Choice Analysis: A Primer Cambridge University Press. Maddala, G.S. 1983. Limited-Dependent and Qualitative Variables in Econometrics Cambridge University Press, Cambridge McFadden, D. and Manski, C. (Editors), 1981. Structural Analysis of Discrete Data and Econometric Applications Cambridge: The MIT Press. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Bibliografia II Train, K., 1986. Qualitative Choice Analysis: Theory, Econometrics, and an Application to Automobile Demand Cambridge: The MIT Press. Train, K., 2003. Discrete Choice Methods with Simulation Cambridge University Press. Amemiya, T., 1981. Qualitative Response Models: A Survey Journal of Economic Literature, 19, 1483-1536. McFadden, D., 1974. Conditional Logit Analysis of Qualitative Choice Behaviour in P. Zarembka (ed.), Frontiers in Econometrics, 105-142, Academic Press: New York. McFadden, D., 1978. Modeling the Choice of Residencial Location in A. Karlqvist, L. Lundqvist, F. Snickars, and J. Weibull (eds.), Spacial Interaction Theory and Planning Models, 75-96, North-Holland: Amsterdam. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos Bibliografia III McFadden, D., 1984. Econometric Analysis of Qualitative Response Models in: Z. Griliches and M. Intriligator. (eds.), Handbook of Econometrics, Vol. 2, Amsterdam: North-Holland McFadden, D., 2001. Economic Choices American Economic Review, 91, 351-378. logo Motivación Definiciones Probabilidades de elección Estimación e inferencia Modelos de múltiple respuesta Estimación en Stata y R Tópicos GRACIAS!!! logo