MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES

MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MASTER D’ESTADÍSTICA I INVESTIGACIÓ OPERATIVA APUNTS DE CLASSE PROF. LÍDIA MONTERO: TEMA 4 – PART 1: MODELS DE RESPOSTA BINÀRIA AUTORA: Lídia Montero Mercadé Departament d’Estadística i Investigació Operativa Versió 1.5 Novembre del 2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: TABLA DE CONTENIDOS 4-1-1. INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL __________________________________________________________ 3 4-1-2. TEMA 4-1: VARIABLES DE RESPUESTA BINOMIALES ___________________________________________________________________ 10 4-1-2.1 FUNCIONES DE LINK ___________________________________________________________________________________________________ 11 4-1-3. TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS ___________________________________________________________________ 19 4-1-3.1 4-1-3.2 MEDIDAS DE BONDAD DEL MODELO ______________________________________________________________________________________ 23 DIAGNÓSTICO DEL MODELO ____________________________________________________________________________________________ 34 4-1-4. TEMA 4-1: EJEMPLOS _________________________________________________________________________________________________ 38 4-1-4.1 4-1-4.2 4-1-4.3 EJEMPLO 1 (DOBSON) _________________________________________________________________________________________________ 38 EJEMPLO 2 (FOX) _____________________________________________________________________________________________________ 52 EJEMPLO 3: ACCIDENTES MORTALES SEGÚN USO DEL CINTURÓN – AGRESTI (2002) ______________________________________________ 64 Prof. Lídia Montero © Pàg. 4-1-2 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID 4-1-1. INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL Clasificación de los métodos estadísticos de análisis: Variables Explicativas Binaria Politómicas Continuas Factores y covariables Efectos Aleatorios Prof. Lídia Montero © Binaria Variable de respuesta Politómica Tablas de Tablas de contingencia contingencia Regresión logística * Modelos log-lineales Modelos log-lineales Tablas de Tablas de contingencia contingencia Regresión logística Modelos log-lineales Modelos log-lineales Regresión logística * Regresión logística * Modelos mixtos Modelos mixtos Pàg. 4-1-3 Cuantitativa Discreta Cuantitativa Continua Normal Tiempo entre eventos Modelos Tests en medias Análisis de la log-lineales de 2 grupos: Supervivencia t.test Modelos log-lineales ONEWAY, ANOVA Análisis de la Supervivencia Modelos log-lineales Modelos log-lineales Modelos mixtos Regresión Múltiple ANCOVA Análisis de la Supervivencia Análisis de la Supervivencia Modelos mixtos Modelos mixtos Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL Estas variables de respuesta suelen aparecer cuando se investiga si un individuo ostenta una característica (Y=1) o no (Y=0). Por ejemplo, en la selección de modos de transporte, dentro de un colectivo de ciudadanos de un ámbito de estudio, se puede investigar si emplean en sus desplazamientos de movilidad obligada a primera hora de la mañana un modo de transporte privado (moto, coche, etc.) o público (metro, autobús, etc.), de manera que arbitrariamente se puede suponer que el empleo por parte de un individuo de transporte público facilita el valor de la variable de respuesta Y=1 (éxito, genéricamente), y el transporte privado Y=0 (fracaso, genéricamente).  Más adelante, se verá la extensión a más de 2 categorías en la variable de respuesta.  Las probabilidades genéricas de éxito y fracaso se van a notar por la letra griega  , de manera que, P Yk  1   k : Probabilidad de respuesta satisfactoria en el individuo k-ésimo. PYk  0  1   k : Probabilidad de respuesta NO satisfactoria en el individuo k-ésimo. Cada individuo de un determinado colectivo, tiene asociado un conjunto de variables explicativas, factores y covariables: Prof. Lídia Montero © x Tk  x1  x p  . Pàg. 4-1-4 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL   Las variables explicativas x k  x1 T  x p  pueden ser:  Variables cuantitativas.  Transformaciones de variables cuantitativas.  Regresores polinómicos formados a partir de variables cuantitativas.  Variables mudas (dummies) que representan variables cualitativas.  Variables mudas que representan interacciones entre variables cualitativas o cuantitativas. Por ejemplo, en el problema del reparto modal público-privado, cada individuo tiene asociadas variables explicativas como: la zona de transporte donde reside, la disponibilidad de vehículo, el nivel de ingresos, el valor del tiempo, su nivel de estudios, etc.  El objetivo que se persigue en el presente tema consiste en investigar la relación entre la probabilidad de la respuesta y las variables explicativas:    x  .  En diseño de experimentos suelen definirse grupos de individuos, cada uno sometido a la misma combinación de condiciones experimentales, en general, en este tipo de problemas se suelen considerar factores como variables explicativas, de manera que la combinación experimental k-ésima viene representada por idénticos valores del vector de variables explicativas a mk x Tk  x1  x p  aplicadas individuos. Prof. Lídia Montero © Pàg. 4-1-5 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL  En total, el número de individuos en el estudio es la suma de los individuos en cada una de las n combinaciones de condiciones o grupos N  m1    mn . combinaciones de condiciones experimentales, si se definen de individuos, entonces el número total de individuos es Cada combinación define una covariate class o clase de las covariables y todos los individuos pertenecientes a ella comparten los mismos valores de las covariables. La anterior diferenciación entre individuos y clases de la covariable (grupos de individuos) es crucial a la hora de especificar los datos a un paquete estadístico, en general, ambas representaciones, por individuos o por clases de covariable, suelen ser posibles: 1. Algunos métodos de análisis son apropiados para datos agrupados en clases de covariables, pero no para datos individualizados, por ejemplo las aproximaciones normales. 2. Las aproximaciones asintóticas aplicadas a datos agrupados se pueden basar en dos tipos distintos de evolución asintótica, sobre el número de individuos en cada clase de covariables o grupo ( m   ) o sobre el número total de individuos ( N  aproximaciones asintóticas del segundo tipo. Prof. Lídia Montero © Pàg.  ). 4-1-6 Los datos individualizados únicamente permiten Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL  … Diferenciación entre datos por individuos y por clases de la covariable (grupos de individuos) … Datos por individuo Datos por clase de covariable Individuo Variables explicativas Respuesta Clase de Covariable Tamaño de la clase Respuestas satisfactorias 1 (1,1) 0 (1,1) 2 1 2 (1,2) 1 (1,2) 3 2 3 (1,2) 0 (2,1) 1 0 4 (2,1) 0 (2,2) 1 1 5 (2,2) 1 6 (1,2) 1 7 (1,1) 1 La tabla anterior ilustra un experimento no balanceado con 2 factores A y C, cada uno de ellos con dos categorías, por tanto n=4=2x2 y un total de individuos N=7 . Por ejemplo, el factor A puede ser una categorización de la edad de un individuo: categoría 1 si es menor de 21 años, categoría 2 el resto. El factor C puede ser la disponibilidad de coche en el hogar: categoría 1 disponible y categoría 2 no disponible.  La simple observación de los datos parece indicar que a más edad y ante disponibilidad de coche en el hogar menor incidencia de la selección modal del transporte público. Prof. Lídia Montero © Pàg. 4-1-7 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL … Representación individual o por clases de covariables …  La representación de los datos en clases de la covariable es más eficiente en cuestión de espacio y facilita la detección de los efectos significativos por inspección visual.  La representación en clases de la covariable implica la pérdida de la información sobre el orden serial de los individuos, es más agregada y no permite reconstruir la información por individuos original, aspecto que en la mayoría de los estudios no resulta relevante.  La representación en clases de la covariable implica que la respuesta tiene la forma y1 m 1 , , y n m n , donde 0  y k  mk la clase de la covariable k-ésima entre los es el número de resultados satisfactorios (éxitos) en mk individuos que la constituyen.  El vector de tamaño de las clases de las covariables se denomina vector índice binomial o vector denominador binomial y se nota por m  m1  mn  . Los datos en formato individuos constituyen un caso particular de vector de índice binomial constante a unos: m  1  1 . Prof. Lídia Montero © Pàg. 4-1-8 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL  La información agrupada puede representarse mediante una tabla de contingencia tridimensional, donde los factores que la definen, continuando con el ejemplo anterior, son la respuesta Y (en columnas), el factor A (subtabla) y el factor C (filas): x1=1 Y=0 Y=1 x2=1 1 1 x2=2 1 2 x1=2 Y=0 Y=1 x2=1 1 0 x2=2 0 1  O bien de manera alternativa, la respuesta Y (en columnas), el factor C (subtabla) y el factor A (filas): FACTOR C C1 =1 FACTOR A CK=2 =2 FACTOR B – Respuesta Y FACTOR B – Respuesta Y TOTAL B1 Y=0 BJ=2 Y=1 SUBTOTAL B1 Y=0 BJ=2 Y=1 SUBTOTAL A1 = 1 1 1 2 1 2 3 5 AI=2 =2 1 0 1 0 1 1 2 SUBTOTAL 2 1 1 3 TOTAL Prof. Lídia Montero © 3 4 Pàg. 4-1-9 7 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID 4-1-2. TEMA 4-1: VARIABLES DE RESPUESTA BINOMIALES m y pY  y   P Y  y        m  y  y  0   y  m  i m i FY  y      1     i 0  i     Y   m   y    y  m ym  El contexto y justificación de los procesos binomiales se ha estudiado detalladamente en cursos de Estadística de primer ciclo de las titulaciones:   Si Y  B m , entonces la variable aleatoria modeliza el número de respuestas satisfactorias (éxitos) en m repeticiones de experiencias base de Bernoulli mútuamente independientes y de probabilidad individual de éxito común igual a  . V Y   m    1    Prof. Lídia Montero © Pàg. 4-1-10 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK 4-1-2.1 Funciones de link  El objetivo que se persigue es establecer una relación funcional entre la probabilidad de la respuesta  y el vector de variables explicativas o covariables x T  x1  x p  :    x  . Se va a detallar la construcción de un modelo capaz de describir como los cambios en los valores de las covariables afectan a la probabilidad de la respuesta.  El modelo formal a detallar consiste en las tres componentes habituales en los Modelos Lineales Generalizados: Y T  Y1 , , Yn  pertenencia a la distribución binomial (miembro de la familia exponencial), con  Y    .  La componente aleatoria asume independencia de las observaciones de y  La componente sistemática del modelo consiste en la especificación de un vector  , el predictor lineal a partir de un número reducido de parámetros a estimar y regresores; parámetros  T  1 ,,  p  y regresores X  X 1 ,, X p  . En notación matricial,   X donde  es nx1, X es nxp y  es px1.  La función de link resulta imprescindible para garantizar la correspondencia entre tomar valores entre más/menos infinito y el intervalo cerrado 0,1. Prof. Lídia Montero © Pàg. 4-1-11  , que puede Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK  El vector  está funcionalmente relacionado con el predictor lineal notada como g(.), de manera     logit   .   g   ,   , a través de la función de link, es nx1. El link canónico es la función logit:  El link canónico es el más empleado en la práctica rutinaria, por ser el más sencillo de interpretar como el logaritmo de los odds, sin embargo no tiene porqué adaptarse bien a los datos: es importante entender bien el rol de la función de link y no actuar automáticamente.  Las funciones de link más habitualmente empleadas para respuestas binarias son: 1. La función logit o O bien,  1    g11    g '    1 1   1  logística:   g1    logit    log  exp   1  exp 2 exp  1  exp  . La ley logística da lugar a esta transformación, la derivada de es la función densidad de probabilidad de la ley logística estándar de media 0 (parámetro de posición) y varianza Prof. Lídia Montero ©  .  2 3 (parámetro de escala 1), simétrica alrededor de 0. Pàg. 4-1-12 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK  … Las funciones de link más habitualmente empleadas para respuestas binarias son: 2. La función probit o  2    g 21       . función normal estándar   g 2     1   inversa: Y La ley normal estándar (media 0 y varianza 1) es la que da lugar a la definición de esta función de link. 3. La función log-log complementaria   g 3    loglog1     .  3    g 31    1  exp exp  Donde la función respuesta es, . La función de link es la inversa de la distribución del valor extremo mínimo (ley de Gompertz), con parámetro de posición 0 y parámetro de escala 1, lo que facilita una esperanza de e=-0.577216 (derivada primera de la función gamma evaluada en 1) y una varianza de 4. La función log-log   g 4     log log 1   , donde la 2 6. función respuesta  4    g 41    1  exp exp   . La f. link es la inversa de la distribución es del valor extremo máximo (ley de Gumbel), con parámetro de posición 0 y parámetro de escala 1, lo que facilita una esperanza de - e y una varianza de 2 6.  Las funciones de link anteriores pueden obtenerse como las inversas de las probabilidades acumuladas de leyes conocidas. Prof. Lídia Montero © Pàg. 4-1-13 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK  Por ejemplo, si el predictor lineal se limita a tomar valores en el intervalo cerrado a, b , entonces se podría considerar un link que fuera la inversa de la función de distribución de una variable uniforme en el intervalo a, b :   g 5    a  b  a  y  5    g 51    a ba a  b. Link Uniforme Si a, b   2, 2 Probabilidad 1.2 1 0.8 0.6 0.4 0.2 PI_5(ETA) entonces se puede visualizar en los D_PI_5(ETA) gráficos  '5   .  5   3.4 2.66 1.92 1.18 0.44 -0.3 -1.04 -1.78 -2.52 -3.26 -4 0 ETA-Predictor lineal Prof. Lídia Montero © Pàg. 4-1-14 Curs 2.012-2.013 y MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK  La función de link logit se puede analizar a partir de la función densidad de probabilidad y la función distribución de la ley logística:  1    g11    exp  1  exp  g '    1 1 y 1  exp  donde P(.) indica la función de distribución de alguna variable aleatoria continua que tome valores reales serviría para la transformación del predictor lineal   al intervalo 0,1 ; por supuesto, las hay algunas con mejores propiedades que otras, ya sean estadísticas o de cálculo, no todas ellas se adaptan del mismo modo a los datos sujetos a estudio. 3.74 2.88 2.02 1.16 0.3 -0.56 -1.42 D_PI_1(ETA) -2.28   1  1   1    i  i   x Ti   , PI_1(ETA) -3.14 2 En general, 1.2 1 0.8 0.6 0.4 0.2 0 -4 Probabilidad Link Logístico Predictor Lineal Prof. Lídia Montero © exp  Pàg. 4-1-15 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK  El cambio de escala que suponen las funciones de link logit y probit numéricamente es: Probabilidad  0,01 0,05 0,10 0,15 0,20 0,25 0,30 0,50 0,70 0,75 0,80 0,85 0,90 0,95 0,99 Prof. Lídia Montero © Probit 1  Log-odds    log   x 1    1    x C_log-log        x log log  1      Log-log      log log    x        0,0101 0,0526 0,1111 0,1765 0,2500 0,3333 0,4286 1,0000 2,3333 3,0000 4,0000 5,6667 9,0000 19,0000 99,0000 -4,5951 -2,9444 -2,1972 -1,7346 -1,3863 -1,0986 -0,8473 0,0000 0,8473 1,0986 1,3863 1,7346 2,1972 2,9444 4,5951 -2,3263 -1,6449 -1,2816 -1,0364 -0,8416 -0,6745 -0,5244 0,0000 0,5244 0,6745 0,8416 1,0364 1,2816 1,6449 2,3263 -4,60015 -2,97020 -2,25037 -1,81696 -1,49994 -1,24590 -1,03093 -0,36651 0,18563 0,32663 0,47588 0,64034 0,83403 1,09719 1,52718 -1,52718 -1,09719 -0,83403 -0,64034 -0,47588 -0,32663 -0,18563 0,36651 1,03093 1,24590 1,49994 1,81696 2,25037 2,97020 4,60015 Odds  Pàg. 4-1-16 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK  Las funciones log-log y c-log-log están relacionadas mediante la siguiente igualdad:    g 3    log log               log log               g 4       Todas las funciones de link anteriormente indicadas son continuas y crecientes en el intervalo abierto (0,1).  Las funciones logit y probit están prácticamente relacionadas linealmente en el intervalo entre 0.1 y 0.9.  Para probabilidades pequeñas, la función logit y la función log-log complementaria son muy parecidas.  Para probabilidades que tienden a 1, la función log-log complementaria tiende a infinito más lentamente que la función logit.  Para probabilidades cercanas a 1 la función logit y la función log-log son muy parecidas. Prof. Lídia Montero © Pàg. 4-1-17 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK 1.2 1 PI_1(ETA) 0.8 PI_2(ETA) 0.6 PI_3(ETA) 0.4 PI_4(ETA) 0.2 Prof. Lídia Montero © Pàg. 4-1-18 3.64 3.19 2.74 2.29 1.84 1.39 0.94 0.49 0.04 -0.41 -0.86 -1.31 -1.76 -2.21 -2.66 -3.11 -3.56 ETA 0 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID 4-1-3. TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS Para resumir las conclusiones de un estudio es conveniente expresar las magnitudes de los efectos estimados en una escala de fácil interpretación, que no tiene porqué coincidir con la escala representada por la función de link.  Si se empleado el link canónico y continuando con el ejemplo de la selección modal público-privado, con 2 factores A y C, el modelo para los log-odds de una respuesta satisfactoria (transporte público):      log   1 x1     0  x 2      x T       O bien, en función de los odds de una respuesta positiva (satisfactoria):       exp   exp x T   exp 0   1 x1   2 x 2   Lo que permite encontrar la expresión de la probabilidad de una respuesta positiva (inversa de la función de link) como,     g11   exp 0   1 x1   2 x 2  exp  exp x T     1  exp  1  exp x T  1  exp 0   1 x1   2 x 2  Prof. Lídia Montero ©  Pàg.  4-1-19 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS  … y por tanto la probabilidad de respuesta negativa es,    1 1 1   1  exp  1  expX  1  exp 0  1 x1   2 x2   La interpretación del modelo en la escala de los log-odds seria: 1. Si se supone que los factores representados por los regresores x1 y x2 son no correlacionados, entonces el efecto de un cambio en una unidad de x2 es incrementar el log-odd de una respuesta positiva en una cantidad igual a su parámetro 2 . 2. Equivalentemente en la escala de los odds, el efecto de un cambio en una unidad de x2 es incrementar el odd de una respuesta positiva en una cantidad igual a la exponencial de su parámetro exp 2  . 3. La interpretación en la escala de las probabilidades de respuesta positiva son más complicadas, ya que el efecto sobre la probabilidad de una unidad de cambio en x2 depende de los valores de x1 y x2. La derivada parcial de la probabilidad de respuesta positiva  respecto es        2 , x 2 lo que ilustra que el efecto de un pequeño cambio x2 en la probabilidad de respuesta positiva tiene mayor efecto si Prof. Lídia Montero ©  está cerca de 0.5 que si está cerca de 0 o de 1. Pàg. 4-1-20 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS El gráfico de la derivada  '      1     de para la probabilidad       de respuesta positiva expresado en función de ayuda a visualizar las conclusiones, ya que se detecta un máximo en    , respecto  '       , : 0.3 0.25 0.2 0.15 0.1 0.97… 0.96… 0.94… 0.90… 0.84… 0.76… 4-1-21 0.66… Pàg. 0.53… 0.41… 0.19… 0.12… 0.08… 0.04… 0.29… Prof. Lídia Montero © 0.02… 0.01… 0.05 0 , Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS  El procedimiento iterativo método de los scores no suele presentar problemas de convergencia, excepto cuando uno o más estimadores de los parámetros toman valor infinito, en cuyo caso no converge, lo que implica que las probabilidades ajustadas son cero o uno, debido a que hay observaciones yi  0 o y i  mi . A pesar de que el proceso de estimación de los parámetros  converge, los valores ajustados si que convergen hacia un valor límite. ˆ no y la devianza también hacia un valor La implicación es que la función de log-verosimilitud es muy plana o tiene una asíntota y por tanto ni los estimadores de los parámetros ni las estimaciones de su error estándar deben ser creídos.  Se han demostrado resultados de existencia y unicidad de los estimadores de los parámetros si la función de link empleada es cualquiera de las 4 indicadas en el apartado 4-1-2.1 y si 0  y i  mi para todas las clases definidas por las covariables.  La calidad del punto inicial no es muy determinante puesto que reduce en pocas iteraciones la convergencia del algoritmo, sin embargo, un valor inicial muy extremo, respecto al óptimo desconocido, puede llevar a la divergencia del algoritmo. Prof. Lídia Montero © Pàg. 4-1-22 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO 4-1-3.1 Medidas de bondad del modelo Sean ̂ los estimadores resultantes del proceso iterativo, estos estimadores determinan un valor del predictor lineal ̂ y a través de la función de link unas probabilidades ajustadas (valores medios ajustados 1 ˆ ˆi  .   g por clase de covariable): i  La función devianza escalada tiene por expresión, D' y, ˆ   2 (y, y)  2 ˆ , y  .  La devianza se define como la devianza escalada por el parámetro de dispersión y son idénticas en este caso: Dy, ˆ   D' y, ˆ   D' y, ˆ  El modelo maximal Yi  B mi ,  i  (y, y) implica unas probabilidades ajustadas modelo maximal como Prof. Lídia Montero © si (~ , y) . Pàg. 4-1-23 ~i  yi mi , lo que permite notar el Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO  Quedándonos con el resultado final, la expresión de la devianza resulta:   yi   mi  yi      mi  yi  log   Dy, ˆ   Dy, ˆ   2  yi log i 1   miˆ i   mi  miˆ i    n  En muchos textos específicos de regresión logística, el estadístico D, devianza, suele expresarse como, D2 n  oi log  postiva , negativa i 1 1. El sumatorio interno indica por oi  y i 2. El sumatorio interno indica por o i  mi  y i oi ei donde, los valores observados en el grupo con respuesta positiva. los valores observados en el grupo con respuesta negativa. 3. El sumatorio interno indica por ei  mi̂ i 4. El sumatorio interno indica por ei  mi  mi̂ i los valores esperados en el grupo con respuesta positiva. los valores observados en el grupo con respuesta negativa. Prof. Lídia Montero © Pàg. 4-1-24 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO  El uso de la devianza como estadístico de bondad del ajuste requiere de resultados asintóticos sobre su distribución y se le suele atribuir a menudo, a la ligera, que como una 2  n p (no confundir con D Y , ˆ  se distribuye asintóticamente  N2  p ).  Recordar que el p valor de la Devianza (Escalada y siempre entendida como residual) es la probabilidad que la distribución de referencia tome un valor superior a la devianza. Si el p valor supera el límite del 5% habitual, entonces no hay evidencia para rechazar la hipótesis nula y por tanto la discrepancia entre valores observados y predichos es ‘pequeña’ y se acepta la bondad del modelo.  Semejante al Cp Mallows se emplea para valorar la calidad de modelos, el AIC, definido por Akaike (1974). Sea MB el modelo con p parámetros AIC. AICB 2  ˆ B , y  p  . Se busca el mínimo  Dentro de la misma línea y con idea de penalizar la log-V a medida que aumenta p, se calcula el estadístico BIC (Bayesian Information Criteria) (en SAS©), también denominado criterio de Schwartz BICB  2 ˆ B , y  p log n . Se da preferencia a modelos con mínimo BIC.  Tanto el AIC, como el BIC pueden emplearse para comparar modelos no forzosamente jerárquicos. Prof. Lídia Montero © Pàg. 4-1-25 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO  La distribución asintótica sólo es cierta ante condiciones muy restrictivas y que difícilmente se van a dar en estudios prácticos (McCullagh, para detalles técnicos); por tanto, la devianza no es directamente utilizable como medida de la bondad del ajuste, pero sí para comparar dos modelos jerárquicos: por ejemplo, Sea MA el modelo actual con q parámetros y sea MB el modelo con p > q parámetros, sean ˆ B , A las respectivas probabilidades estimadas, es decir     1T ,  2T Y    1T  ˆ A y con dim( )=q<p, La reducción en la devianza D AB se expresa: D AB  Dy , ˆ A   Dy , ˆ B   2 (~, y)  2 ˆ A , y   2 (~, y)  2 ˆ B , y   2 ˆ B , y   2 ˆ A , y  D AB  D y , ˆ A   D y , ˆ B  tiene una distribución aproximada de número de observaciones en cada clase de covariable Prof. Lídia Montero © Pàg. 4-1-26 mi 2  p q si n es grande o bien el es grande. Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO  El test de la devianza es equivalente al test de Fisher del modelo lineal general clásico.  El test equivalente al test t de Student para los coeficientes del modelo es el test de Wald. El ˆ   j j ˆ  Z asint . N 0,1    0 j j estadístico de Wald para el contraste de H0: seria: , si ˆ ˆ j H0 es cierta.  El intervalo de confianza asintótico bilateral a un nivel z / 2  viene dado por ˆ j  z / 2ˆ ˆ es el valor de la ley normal estándar que deja una probabilidad por la derecha de j , donde  2.  El contraste de hipótesis múltiples en algunos textos se propone a través del estadístico de Wald, sin embargo tiene poca potencia y el procedimiento sugerido en este curso es a través de la reducción de la devianza.  El estadístico de Wald surge de manera natural en el contexto de estimación de los parámetros por maximización de verosimilitud, ya que asintóticamente (ver el Tema 1) : donde  ˆ    N p 0,  1  ,    UU T  es la matriz de información esperada de Fisher (varianza de los scores), que se aproxima por XTWX Prof. Lídia Montero © correspondiente a la convergencia del método de los scores. Pàg. 4-1-27 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO  O equivalentemente, en términos de la ley    .  2p , ˆ    T T ˆ     ˆ   Recordar que: V ˆ donde el estadístico de 1 T        IE   IEˆ   IOˆ  .  :    puede contrastarse por W  ˆ    V ˆ  ˆ      . ˆ ˆ ˆ   Si    ,   con dim(  )=q<p y  :   0 entonces W   V    Wald es W=    ˆ     2p , 0 0 0 T T 1 1 T 2 2 0 2 p 0 T 2 2 1 2 2 2 q .  Si dim(  2 )=1 entonces  0 :  2  0 se toma la raíz cuadrada del estadístico de Wald y se trata ˆ2 habitualmente el cociente como una normal estándar: z    V ˆ2  N 0, 1 .  La devianza tiene un papel análogo a la suma de cuadrados residual de los modelos lineales generales clásicos, lo que permite definir el análogo al coeficiente de determinación que se define como, R2  1 R2 de los modelos lineales, Dy ,  A  G y ,  A   donde G y,  A   Dy ,  0   Dy,  A  , Dy ,  0  G y,  A   Dy,  A  0  R2  1 Prof. Lídia Montero © Pàg. 4-1-28 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO …. Dy ,  A  donde es la devianza del modelo A a contrastar (debe contener término Dy ,  0  es la devianza del modelo . independiente),  La esparsidad en los modelos de respuesta binaria se da cuando el número de observaciones por clase de covariable es pequeño, en el caso extremo mi  1 , no habrán problemas en la estimación ni en los estadísticos de goodness of fit si n (número de clases de covariables) es grande.  Otra medida de bondad del ajuste empleada en muchos textos sobre regresión logística es el estadístico de Pearson 2 X , asintóticamente distribuido como una 2  n p , al igual que el estadístico D, devianza. El estadístico de Pearson generalizado coincide en respuesta binaria con el clásico y es:  yi  miˆ i 2  i 1 mi ˆ i 1  ˆ i  n X 2 2 n  n mi  y i  ˆ i 2    oi  ei        i 1 ˆ m  ˆ       ei  ,  i 1 i i i     Entre paréntesis aparece la expresión habitual en muchos textos, en función de términos de valores observados y esperados de respuestas positivas en cada grupo (clase definida por las covariables).  Ante esparsidad la reducción de la devianza se puede todavía aproximar por una distribución de 2 .  La extrapolación o predicción fuera del rango de las observaciones de las covariables es delicada, ya que es altamente dependiente de la calidad de la adaptación de la función de link empleada a los datos. Prof. Lídia Montero © Pàg. 4-1-29 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO  Hosmer y Lemeshow (1980,1989) han propuesto un estadístico alternativo que no requiere de agrupaciones en clases de la covariable, la idea consiste en usar las probabilidades predichas por el modelo para crear 10 grupos 0–0.1, 0.1–0.2, hasta el último grupo de 0.9–1. Para cada grupo se cuentan las respuestas positivas y negativas observadas y predichas por el modelo, mediante el estadístico de Pearson tradicional (valores observados menos predichos al cuadrado dividido por valor predicho), que mediante simulaciones se ha comprobado tiende a una ley de grados de libertad.  2 con el número de grupos menos 2  Otra manera de establecer una valoración de un modelo se base en sus errores de predicción. Supongamos que se usa el modelo para predecir las respuestas positivas si la probabilidad estimada excede el valor 0.5 y las respuestas negativas si está por debajo. Posteriormente se puede construir una tabla de contingencia con las respuestas observadas y predichas y calcular la proporción de casos correctamente predichos. Como se puede intuir, un modelo que ajusta bien los datos, no necesariamente puede resultar un buen modelo predictor, ya que este hecho depende de cuan predecible es la respuesta. Si la predicción fuera el único objetivo de un MLGz, la proporción de clasificaciones correctas debería ser el criterio ideal para la comparación de modelos y no la devianza. Prof. Lídia Montero © Pàg. 4-1-30 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO Se va a definir en general una tabla de clasificación donde se contabilicen para todas las clases de la covariable n, el número de efectivos en las categorías cruzadas de valor observado (1 o 0) y valor predicho (1 o 0), donde se considera yˆ i  1 si ~i  s , donde s es un umbral entre 0 y 1. Para cada valor del umbral s que se desee tantear se puede escribir una tabla:  La sensibilidad es la proporción de verdaderos Y=1 Y=0 Total yˆ i  1 a b a+b yˆ i  0 c d c+d a+c b+d n valores 1 que son estimados 1 : Sn =a/(a+c).  La especificidad es la proporción de verdaderos valores 0 que son estimados 0: Sp = d/(b+d).  Los valores predictivos positivos y negativos del modelo se definen como: P+=a/(a+b) y P- =d/(c+d).  La curva ROC (Receiver Operating Characteristic) permite representar las repercusiones de la selección del umbral s respecto la sensibilidad y la especificidad. En abcisas se pone para cada valor s, 1-Sp y en ordenadas Sn. Si para todo s, la proporción de yˆ i  1 es la misma para las observaciones 1 o 0, entonces Sn=1-Sp, la curva ROC es la diagonal y el modelo no es informativo (área bajo la curva ½). Un umbral s es ideal si permite separar totalmente las observaciones 1 y 0, es decir, si c=b=0 y por tanto Sn=1 y 1-Sp=0. Una buena referencia electrónica para trabajar el tema se encuentra en http://gim.unmc.edu/dxtests/ROC1.htm. Prof. Lídia Montero © Pàg. 4-1-31 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO y 1 y 0 yˆ  1 yˆ  0 Parte de Especificidad Sp Parte de Sensibilidad Sn El gráfico de la izquierda indica el proceso de construcción de una curva ROC para s fijado y la gráfica de la derecha muestra 3 curvas ROC que representan modelos con capacidades predictivas respectivas excelente, buena y muy mala. La capacidad predictiva depende de cuan bien separe el modelo de grupo de verdaderos positivos y es el área bajo la curva ROC. A título de guía para clasificar la capacidad predictiva del modelo en Prof. Lídia Montero © Pàg. cuestión se da el siguiente criterio en función del área bajo la curva ROC: .90-1 = excelente(A) .80-.90 = buena (B) .70-.80 = media (C) .60-.70 = mala (D) .50-.60 = muy mala (F) 4-1-32 Curs 2.012-2.013 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO  Se definen cuatro índices de asociación entre las probabilidades observadas y las probabilidades predichas. Para definirlas se consideran todos los pares de observaciones con valores de Y distintos, son H= (a+c)(b+d). o … para cada par se calcula la probabilidad predicha y si es superior para la observación y=1 que para y=0 se dice que el par es concordante. o … si la probabilidad predicha es inferior para la observación y=1 que para y=0 se dice que el par es discordante. o Y si tiene la misma probabilidad se dice que hay empate (tie). o Sea C el número de pares concordantes, D el número de pares discordantes y T el número de empates.  Los índices de asociación relativos a la capacidad predictiva del modelo son: Tau de Kendall = (C-D)/H Gamma = (C-D)/(C+D) D de Sommer = (C-D)/(C+D+T) C=0.5(1+D de Sommer)  La capacidad predictiva mejora en la medida que los índices se aproximan a 1 y el índice c corresponde al área bajo la curva ROC. Estos índices aparecen en MINITAB. Prof. Lídia Montero © Pàg. 4-1-33 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO 4-1-3.2 Diagnóstico del modelo Los procedimientos de análisis de los residuos y detección de valores influyentes para la diagnosis de la calidad del modelo de regresión lineal normal clásico, han sido extendidos, con mayor o menor fortuna, a los modelos lineales generalizados.  En la presente sección, se presentan los procedimientos de diagnosis del modelo de respuesta binaria (génesis debida a Pregibon (1981), exposición según Fox (1991)): residuos estudentizados, leverages, estadístico de Cook, plots de los residuos, etc.  El residuo se define como la diferencia entre el valor observado y el valor ajustado, para cada observación: ei  yi  yˆ i  y i  mi̂ i .  El residuo de Pearson o el residuo de la devianza, definidos en el Tema 1, facilitan la noción de contraste entre los valores observados y los valores ajustados por el modelo. Sin embargo, ninguno de los dos tipos de residuos anteriores tiene una distribución normal y son difíciles de analizar, dadas las características discretas de las observaciones y los residuos por grupos (algo parecido a la dificultad del análisis de los residuos en el análisis de la varianza). De todos modos, combiene examinar cualquier residuo que en valor absoluto supere la magnitud de 2. Prof. Lídia Montero © Pàg. 4-1-34 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO  La analogía con los mínimos cuadrados ponderados permite a algunos autores definir el valor ajustado T ˆ x   en la escala logit i i ̂ y el residuo logit ei*  ei miˆ i 1  ˆ i  .  El diagrama bivariante de los valores ajustados en la escala logit (abcisas) frente a los residuos logit (ordenadas), permiten una interpretación similar, pero en la escala logit, a sus homónimos en la regresión lineal normal clásica.  Los problemas de no linealidad en la escala logit pueden detectarse a veces mediante diagramas bivariantes, tantos como regresores, de los residuos logit (en ordenadas) frente a cada regresor.  La matriz sombrero (matriz de proyección, Ŷ  PY ) empleada para la detección de valores influyentes a priori en la regresión lineal normal clásica a través de cotas a sus valores diagonales, se redefine en los MLGz según Pregibon como,  P  W X X WX 12  T  1 X T W1 2 P es simétrica e idempotente, con valores diagonal entre 0 y 1 y cuyo valor medio es p/n. Los influyentes a priori pueden detectarse mediante observaciones cuyo valor de la diagonal de P, La matriz valores esté a más de 2 veces la media. Tiene por tanto una interpretación análoga, sin embargo depende de las observaciones y los valores estimados, a través de Prof. Lídia Montero © Pàg. W. 4-1-35 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO  La matriz W debe corresponder a la iteración en que ha detectado la convergencia del método de los scores en la estimación de los parámetros.  El empleo de la matriz de pseudo- proyección P permite definir los residuos estudentizados, aunque formalmente interesantes a pesar de su compleja justificación, en la práctica como ya se indicó en el Tema 2 no resultan imprescindibles.  Los valores influyentes a posteriori se detectan mediante el análogo al estadístico de Cook de los modelos clásicos que se justifica a partir del estadístico de Wald para el contraste de significación H0:   0 ,    ˆ     ˆ    X  T Z 02  ˆ   0 Vˆ ˆ Z 2i  Sea el estadístico de Wald 1 T 0 0 T  WX ˆ   0 calculado para la prueba de hipótesis H0:    ˆi  , es decir, si puede aceptarse la hipótesis que los parámetros son iguales a los estimadores de los parámetros del modelo MLGz donde se ha suprimido la observación i-ésima; en definitiva, es una medida de la “distancia” entre Es decir, Z Prof. Lídia Montero © 2  i  ˆ  y ˆ i  ( d i  ˆ  ˆi  ).  T    ˆ  ˆi  X WX ˆ  ˆi   T Pàg. 4-1-36 ei2 1  pii  2  x Ti X T WX  1 xi Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO  La influencia de una observación es directamente proporcional a su residuo y su leverage (diagonal correspondiente en la matriz de pseudo-proyección P). Se realiza: 1. Un diagrama bivariante con el leverage en ordenadas y el número de observación i en abcisas. Se buscan observaciones con valores superiores a 2p/n. 2. Un diagrama bivariante con la “distancia” de Cook en ordenadas y el número de observación i en abcisas. 3. Un diagrama bivariante con los residuos (Pearson o devianza o logit, según gusto y talento interpretativo del estadístico) en ordenadas y el número de observación i en abcisas. 4. Si el paquete estadístico lo permite fácilmente, los 3 gráficos se pueden fusionar en 2: primero, diagrama bivariante de residuos en ordenadas y leverages en abcisas con identificador del número de observación en cada punto del diagrama; segundo, diagrama bivariante de residuos en ordenadas y “distancia” de Cook en abcisas con identificador del número de observación en cada punto del diagrama  Se aconseja detectar valores atípicos por criterios de estadística descriptiva, más que emplear directamente la referencia de la distribución asintótica del estadístico de Wald correspondiente. Prof. Lídia Montero © Pàg. 4-1-37 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID 4-1-4. TEMA 4-1: EJEMPLOS 4-1-4.1 Ejemplo 1 (Dobson) Se desea estudiar la germinación de cultivos de algas en base a un factor de almacenamiento que tiene dos categorías, 1 (base-line, sin almacenamiento posterior al cultivo) y 2 (con almacenamiento posterior durante 48 horas a 3ºC); y una covariable X que indica la fuerza centrífuga aplicada durante la preparación del cultivo, de hecho X sólo puede tomar 3 valores, 40, 150 y 300. Los resultados de germinación se ilustran en la siguiente tabla. Se desea determinar el modelo logístico más adecuado. X’: Fuerza centrífuga Factor Nada Nevera Prof. Lídia Montero © 40 150 350 yi  y1k 55 52 57 mi  m1k 102 99 108 yi  y 2 k 55 50 50 mi  m 2 k 76 81 90 Pàg. 4-1-38 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)  O bien de manera alternativa, la respuesta Y (en columnas), el factor C (subtabla) y el factor A (filas): FACTOR C C1 =log 40 FACTOR A C2 =log 150 FACTOR B – Respuesta FACTOR B – Respuesta Y Y B1 Y=0 BJ=2 Y=1 SUBTOT AL A1 = 1 Nada 47 55 AI=2 =2 Nevera 21 SUBTOTAL 68 TOTAL Prof. Lídia Montero © CK=3 =log 350 FACTOR B – Respuesta Y TOTAL SUBTO TAL B1 BJ=2 Y=0 BJ=2 Y=1 Y=0 Y=1 SUBTO TAL 102 47 52 99 51 57 108 309 55 76 31 50 81 40 50 90 247 110 178 78 102 180 91 107 198 B1 178 180 Pàg. 4-1-39 198 556 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON) El número de grupos o clases de las covariables es n=6=2x3. Para recuperar la notación habitual en el análisis de la covarianza clásico, la clases i se identificaran por la categoría del factor (j=1- nada, j=2 nevera) y por valor ascendente de la covariable X’ (k=1 para 40, k=2 para 150 y k=3 para 350) que va a recibir un tratamiento continuo. Sea X=log(X’). Modelo 3: Interacciones entre factor y covariable, rectas  jk 1  1 xk   j   j xk   log 1   jk 1   2   1   2 xk Modelo completo con p=4 parámetros: con distintos intercept y pendiente j 1 j 2, i  1 I 2i log 1 i xi  1     2   x2 i     1.    2 ¿Sabrías escribir la matriz de diseño? Prof. Lídia Montero © Pàg. 4-1-40 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON) Modelo 2: Sin interacciones entre factor y covariable, rectas paralelas, Modelo con p=3 parámetros: i log  1 I 2i 1i Modelo 1: Sin efecto del factor, recta única, Modelo con p=2 parámetros: Modelo 0: Constante, Prof. Lídia Montero © log  jk log   j   xk , 1   jk  1    xi   2    .    jk log     xk , 1   jk   i  1 xi   1 i   . i  jk  1 log   . Modelo con p=1 parámetros: log 1 i 1   jk    . Pàg. 4-1-41 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON) MTB > Name c6 = 'PRES1' c7 = 'DRES1' c8 = 'HI1' MTB > BLogistic 'Yjk' 'm_i' = c1 c5 c1*c5; SUBC> ST; SUBC> Factors c1; SUBC> Logit; SUBC> Reference Factor 1; SUBC> Presiduals 'PRES1'; SUBC> Dresiduals 'DRES1'; SUBC> Hi 'HI1'; SUBC> Gpdchisquare; SUBC> Gpddeviance; SUBC> Ghdchisquare; SUBC> Ghddeviance; SUBC> Brief 2. Binary Logistic Regression: Yjk; m_i versus Factor; X Link Function: Logit Response Variable Yjk m_i Information Value Success Failure Total Count 319 237 556 Logistic Regression Table Predictor Constant Factor 2 X Factor*X MODELO 3 Coef 0,2339 SE Coef 0,6284 Z P 0,37 0,710 1,9771 -0,0227 0,9980 0,1268 1,98 0,048 -0,18 0,858 Prof. Lídia Montero © Pàg. Odds Ratio 7,22 0,98 4-1-42 95% CI Lower Upper 1,02 0,76 51,07 1,25 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT 2 -0,3186 0,1989 -1,60 0,109 0,73 0,49 Log-Likelihood = -374,109 Test that all slopes are zero: G = 10,424; DF = 3; P-Value = 0,015 Goodness-of-Fit Tests Method Chi-Square Pearson 0,028 Deviance 0,028 Hosmer-Lemeshow 0,028 DF 2 2 4 1,07 P 0,986 0,986 1,000 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Value Success Obs Exp Failure Obs Exp Total Group 3 4 1 2 57 56,7 52 52,5 55 54,8 51 51,3 47 46,5 47 47,2 108 99 102 5 6 Total 50 49,7 50 50,4 55 54,8 319 40 40,3 31 30,6 21 21,2 237 90 81 76 556 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Concordant Discordant Ties Total Number 36422 26540 12641 75603 Percent 48,2% 35,1% 16,7% 100,0% Summary Measures Somers' D Goodman-Kruskal Gamma Kendall's Tau-a 0,13 0,16 0,06 MTB > Name c9 = 'PRES2' c10 = 'DRES2' c11 = 'HI2' MTB > Name c12 = 'PRES3' c13 = 'DRES3' c14 = 'HI3' MTB > BLogistic 'Yjk' 'm_i' = c1 c5 ; Prof. Lídia Montero © Pàg. 4-1-43 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT SUBC> SUBC> SUBC> SUBC> SUBC> SUBC> SUBC> SUBC> SUBC> SUBC> SUBC> SUBC> ST; Factors c1; Logit; Reference Factor 1; Presiduals 'PRES3'; Dresiduals 'DRES3'; Hi 'HI3'; Gpdchisquare; Gpddeviance; Ghdchisquare; Ghddeviance; Brief 2. Binary Logistic Regression: Yjk; m_i versus Factor; X Link Function: Logit Response Information Variable Yjk Value Success Failure Total m_i Count 319 237 556 Logistic Regression Table MODELO 2 Predictor Constant Factor 2 X Coef 0,8767 SE Coef 0,4870 Z P 1,80 0,072 0,4068 -0,15459 0,1746 0,09702 2,33 0,020 -1,59 0,111 Odds Ratio 1,50 0,86 95% CI Lower Upper 1,07 0,71 2,12 1,04 Log-Likelihood = -375,404 Test that all slopes are zero: G = 7,833; DF = 2; P-Value = 0,020 Goodness-of-Fit Tests Prof. Lídia Montero © Pàg. 4-1-44 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT Method Pearson Deviance Hosmer-Lemeshow Chi-Square 2,598 2,619 2,598 DF 3 3 4 P 0,458 0,454 0,627 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Group Value 1 2 3 4 5 6 Total Success Obs 57 52 55 50 50 55 319 Exp 53,2 52,0 58,8 53,4 50,6 51,0 Failure Obs 51 47 47 40 31 21 237 Exp 54,8 47,0 43,2 36,6 30,4 25,0 Total 108 99 102 90 81 76 556 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures Concordant 36422 48,2% Somers' D 0,13 Discordant 26540 35,1% Goodman-Kruskal Gamma 0,16 Ties 12641 16,7% Kendall's Tau-a 0,06 Total 75603 100,0% MTB > Name c15 = 'PRES4' c16 = 'DRES4' c17 = 'HI4' MTB > BLogistic 'Yjk' 'm_i' = c5 ; SUBC> ST; SUBC> Logit; SUBC> Presiduals 'PRES4'; SUBC> Dresiduals 'DRES4'; SUBC> Hi 'HI4'; SUBC> Brief 2. Binary Logistic Regression: Yjk; m_i versus X Link Function: Logit Prof. Lídia Montero © Pàg. 4-1-45 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT Response Variable Yjk Information Value Count Success 319 Failure 237 m_i Total 556 Logistic Regression Table MODELO 1 Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant 1,0213 0,4813 2,12 0,034 X -0,14784 0,09650 -1,53 0,125 0,86 0,71 1,04 Log-Likelihood = -378,141 Test that all slopes are zero: G = 2,360; DF = 1; P-Value = 0,124 Goodness-of-Fit Tests Method Chi-Square Pearson 0,010 Deviance 0,010 Hosmer-Lemeshow 0,010 DF 1 1 1 P 0,921 0,921 0,921 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Group Value 1 2 3 Total Success Obs 107 102 110 319 Exp 106,7 102,5 109,8 Failure Obs 91 78 68 237 Exp 91,3 77,5 68,2 Total 198 180 178 556 Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Prof. Lídia Montero © Number Percent Summary Measures Pàg. 4-1-46 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT Concordant Discordant Ties Total MTB > Save MTB > 27872 22558 25173 75603 36,9% 29,8% 33,3% 100,0% Somers' D Goodman-Kruskal Gamma Kendall's Tau-a 0,07 0,11 0,03 "G:\LIDIA\MLGz2000\MLGZ_00_1\Binari_ex1.mpj"; Prof. Lídia Montero © Pàg. 4-1-47 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)  Interpretación de los parámetros: Modelo 3 Modelo 2 Modelo 1 a1= 0.238 a1 = 0.877 a = 1.021 a2= 1.977 a2 = 0.407 b1= - 0.023 b= - 0.155 b= - 0.148 LogL= -374.109 LogL= -375.404 LogL= -378.141 D3= 0.0277 D2= 2.619 D1= 8.092 b2= - 0.319 D23  2.591 y D12  5.473 deben contrastarse con una  12 .  En el primer caso se aceptaría la hipótesis nula (pendientes idénticas) aunque la potencia del test es muy baja y en el segundo caso se rechazaría la hipótesis nula y se concluiría que el efecto del almacenamiento es relevante.  En base únicamente al análisis de la devianza, el mejor modelo es el Modelo 2 de pendientes paralelas.  Obsérvese que se ha definido la categoría 1 (Nada) del Factor como la categoría de referencia. La categoría de referencia en la respuesta es la positiva (1). Prof. Lídia Montero © Pàg. 4-1-48 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)  Organización de los contrastes en forma de tabla de análisis de la devianza: La descripción de los modelos se indica de manera sintética, si la salida de Minitab no facilitara la devianza, sinó únicamente el valor de la función de log-verosimilitud en el óptimo, a partir de éste pueden calcularse los incrementos de devianza entre modelos jerárquicos: D pq  2y, y   ˆ p , y   2y, y   ˆ q , y   2 ˆ p , y   ˆ q , y  Análisis de la Devianza Modelo n-p Devianza o Devianza g.l. Modelo Log-Verosimilitud 0 1 5 ¿? ¿? 1 Constante 1 X 4 -378.141 5.473 1 Recta simple 2 F+X 3 -375.404 2.591 1 Rectas Paralelas 3 F*X 2 -374.109 R2  Interacción Factor-Cov. G y ,  2  7.833   0.749 2.619  7.833 G y ,  2   D y ,  2  ¿Sabrías cual es el valor de D0? Prof. Lídia Montero © Pàg. 4-1-49 Curs 2.011-2.012 pq MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON) La capacidad predictiva del modelo depende del valor c=0.5(1+D Sommer)=0.5*(1+0.13)=0.575, por tanto es muy mala. Scatterplot of SENSIB; 1-ESPECIF vs 1-ESPECIF 0,250000 0,492784 1,0 Veamos el proceso de construcción de la curva ROC. 0,525508 0,525508 0,8 Y-Data 0,576020 0,576020 0,6 0,593385 0,593385 0,4 0,624563 0,671129 0,2 0,624563 0,671129 0,0 0,700000 0,0 Y 55 52 57 55 50 50 M 102 99 108 76 81 90 X 40 150 350 40 150 350 Prof. Lídia Montero © LOG_X 3,68888 5,01064 5,85793 3,68888 5,01064 5,85793 FactorA Res Res Res Nevera Nevera Nevera EPRO3 0,576020 0,525508 0,492784 0,671129 0,624563 0,593385 SENSIB 1,00000 1,00000 0,82132 0,65831 0,48589 0,32915 0,17241 0,00000 Pàg. 4-1-50 0,2 0,4 0,6 1-ESPECIF 0,8 1,0 1-ESPECIF S FITY=1/Y=1 FITY=1/Y=0 1,00000 0,250000 319 237 1,00000 0,492784 319 237 0,78481 0,525508 262 186 0,58650 0,576020 210 139 0,38819 0,593385 155 92 0,21941 0,624563 105 52 0,08861 0,671129 55 21 0,00000 0,700000 0 0 Curs 2.011-2.012 Variable SENSIB 1-ESPEC IF MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON) En R, calcular l’estadístic de X2 de Pearson: suma els quadrats dels residus de Pearson: sum( resid( model, ‘pearson’) ^2 ) Es pot comprovar que sumant els quadrats dels residus de la deviança, surt l’estadístic deviança residual del model (per defecte, facilitat): sum( resid( model, ‘deviance’) ^2 ) == model$deviance Para calcular curvas ROC: Instalar paquete ROCR.       library("ROCR") dadesroc<-prediction(predict(lm2_logit,type="response"),ars$resposta) par(mfrow=c(1,2)) plot(performance(dadesroc,"err")) plot(performance(dadesroc,"tpr","fpr")) abline(0,1,lty=2) Prof. Lídia Montero © Pàg. 4-1-51 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX) 4-1-4.2 Ejemplo 2 (Fox) En 1977 se realizó una encuesta sociodemográfica a la población de Canadá. El modelo lineal generalizado que se plantea investiga el análisis de la relación entre las mujeres jóvenes casadas que trabajan en función de la existencia de hijos en el hogar, los ingresos de sus maridos y la región del país donde residen.  La variable de respuesta es dicotómica: trabaja frente a no trabaja (para cada mujer joven casada que interviene en el modelo). Originariamente en los datos la variable tiene 3 categorías, lo que será aprovechado en un ejemplo del Tema 5.  La presencia de hijos en el hogar es el factor A, que tiene 2 categorías (SI, NO). Categoría base: NO (la constante corresponde al valor medio de la categoría NO).  La región del Canadá es un factor politómico B, con 5 categorías. Los ingresos del marido (en miles de dólares) es la covariable X.  La intuición indica una interacción entre los ingresos de los maridos (X) y la presencia de hijos (A). Prof. Lídia Montero © Pàg. 4-1-52 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX) WOMEN'S LABOUR-FORCE PARTICIPATION DATASET, CANADA 1977 [1] OBSERVATION [2] LABOUR-FORCE PARTICIPATION fulltime = WORKING FULL-TIME parttime = WORKING PART-TIME not_work = NOT WORKING OUTSIDE THE HOME [3] HUSBAND'S IINCOME, $1000'S [4] PRESENCE OF CHILDREN absent present [5] REGION Atlantic = ATLANTIC CANADA Quebec Ontario Prairie = PRAIRIE PROVINCES BC = BRITISH COLUMBIA Source: Social Change in Canada Project, York Institute for Social Research. DATA: 1 2 … 253 254 255 256 257 … 263 ENDDATA not_work not_work 15 13 present present Ontario Ontario not_work parttime fulltime not_work fulltime 13 23 11 9 2 present present absent absent absent Quebec Quebec Quebec Quebec Quebec not_work 15 present Quebec Prof. Lídia Montero © Pàg. 4-1-53 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX) La tabla contiene el análisis de la devianza para diversos modelos. El modelo más adecuado contiene X y A, cuyo coeficiente negativo indican que ante la presencia de niños y mayores ingresos masculinos es menor la incidencia del trabajo femenino. Análisis de la Devianza Modelo p Devianza o Devianza g.l. LogVerosimilitud Comentarios Contraste H 0 Accept. 0 1 1 ¿? 39.609 7 0 vs 8 No 1 A 2 -162.279 4.826 1 1 vs 3 No 2 X 2 -175.528 31.324 1 2 vs 3 No 3 A+X 3 -159.866 2.43 4 3 vs 7 Si 4 A+B 6 -161.213 5.124 1 4 vs 7 No 5 B+X 6 -171.322 25.342 1 5 vs 7 No 6 A+A*X 4 -159.562 2.582 4 6 vs 8 Si 7 A+B+X 7 -158.651 0.76 1 7 vs 8 Si 8 A+B+A*X 8 -158.271 Prof. Lídia Montero ©  12, 0.05  3.84 Pàg. 4-1-54 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)  El contraste de M7 vs M8 indica que las interacciones entre los ingresos masculinos y la presencia de niños no es estadísticamente significativa (Factor A).  El contraste de M3 vs M7 indica que la región (Factor B) tampoco es estadísticamente significativa.  Sin embargo, los efectos principales del Factor A (M1 vs M3) y de la covariable (M2 vs M3) son estadísticamente significativos (se rechazan las correspondientes hipótesis nulas). log donde Prof. Lídia Montero © i  1.336  1.576 Factor Ai  0.04231xi 1 i Factor Ai  1 si hay presencia de niños y 0 de otro modo. Pàg. 4-1-55 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)  El análisis de los residuos de la devianza frente a las probabilidades estimadas es: 3 absent present DRES1 2 1 0 -1 -2 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 EPRO1 Prof. Lídia Montero © Pàg. 4-1-56 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)  Los residuos de la devianza frente al leverage: 3 absent present DRES1 2 1 0 El valor medio del leverage p/n es 0,06522 y el extremo superior del intervalo a 2 y 3 veces la distancia es 0.16704 y 0.21795, respectivamente. -1 -2 0,0 0,1 0,2 HI1 Prof. Lídia Montero © Pàg. 4-1-57 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX) 1,0 absent present 4 absent present 3 0,5 rlogit6 Ei 2 0,0 1 0 -0,5 -1 -2 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 -2 EPRO1 -1 0 eta_6  Los residuos son difíciles de interpretar en los modelos lineales generalizados!!! Prof. Lídia Montero © Pàg. 4-1-58 Curs 2.011-2.012 1 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)  El modelo propuesto no parece demasiado adecuado a los datos: el logit no es lineal a los ingresos!!! 2 absent present 4 OLOGIT6 1 absent present 0 -1 3 -2 0 1 10 20 30 40 50 Income-X 0 2 absent present -1 1 -2 0 10 20 30 40 OLOGIT6 rlogit6 2 50 Income-X 0 -1 -2 0 10 20 30 40 Income-X Prof. Lídia Montero © Pàg. 4-1-59 Curs 2.011-2.012 50 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)  Los 2 gráficos muestran en la escala logit, la comparación entre valores empíricos (considerando una categorización de INCOME-X cada 10 unidades y con etiquetas el número total de observaciones en la clase de la covariable correspondiente) y ajustados con el modelo INCOME-X sin categorizar: hay un problema serio de observaciones influyentes y no linealidad. 3 2 1 43 OLOGIT7 1 ELOGIT6 absent present absent present 0 21 0 12 44 109 -1 -1 26 2 3 -2 -2 0 5 10 15 20 25 30 35 C_INCOMEX 0 10 20 30 40 50 Income-X Prof. Lídia Montero © Pàg. 4-1-60 Curs 2.011-2.012 40 45 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX) Welcome to Minitab, press F1 for help. MTB > Name c7 = 'PRES1' c8 = 'DRES1' c9 = 'DDEV1' c10 = 'HI1' & CONT> c11 = 'EPRO1' m1 = 'XPWX1' MTB > BLogistic 'Ybin_i' = 'Factor A' 'Income-X'; SUBC> Factors 'Factor A'; SUBC> Logit; SUBC> Presiduals 'PRES1'; SUBC> Dresiduals 'DRES1'; SUBC> Ddeviance 'DDEV1'; SUBC> Hi 'HI1'; SUBC> Eprobability 'EPRO1'; SUBC> XPWXinverse 'XPWX1'; SUBC> Gpdchisquare; SUBC> Gpddeviance; SUBC> Ghdchisquare; SUBC> Ghddeviance; SUBC> Brief 2; SUBC> Step. Binary Logistic Regression: Ybin_i versus Factor A; Income-X Response Information Variable Ybin_i Value work not_work Prof. Lídia Montero © Count 108 155 (Event) Pàg. 4-1-61 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT Total 263 Logistic Regression Table Predictor Constant Factor A present Income-X Coef 1,3358 SE Coef 0,3838 Z P 3,48 0,000 -1,5756 -0,04231 0,2923 0,01978 -5,39 0,000 -2,14 0,032 Odds Ratio 0,21 0,96 95% CI Lower Upper 0,12 0,92 0,37 1,00 Log-Likelihood = -159,866 Test that all slopes are zero: G = 36,418; DF = 2; P-Value = 0,000 Goodness-of-Fit Tests Method Pearson Deviance Hosmer-Lemeshow Chi-Square 73,229 78,469 5,824 DF 43 43 7 P 0,003 0,001 0,560 Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Value work Obs Exp not_work Obs Exp Total 1 2 3 4 Group 5 6 7 8 9 Total 8 6,2 10 10,2 4 7,9 7 9,0 14 11,3 12 10,4 21 20,7 23 23,9 9 8,4 108 22 23,8 28 27,8 23 19,1 22 20,0 19 21,7 15 16,6 13 13,3 11 10,1 2 2,6 155 30 38 27 29 33 27 34 34 Prof. Lídia Montero © Pàg. 4-1-62 11 263 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX) Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Concordant Discordant Ties Total Prof. Lídia Montero © Number 11516 4637 587 16740 Percent 68,8% 27,7% 3,5% 100,0% Summary Measures Somers' D Goodman-Kruskal Gamma Kendall's Tau-a Pàg. 4-1-63 0,41 0,43 0,20 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3 4-1-4.3 Ejemplo 3: Accidentes con heridos según Uso del Cinturón – Agresti (2002) Datos de 68694 accidentes sucedidos en el estado de Main. Se recoge la gravedad y las variables explicativas de género, entorno y uso del cinturón. Se estudiará la incidencia en la presencia de heridos de los factores, por tanto se crea un factor dicotómico: Sin – Con Heridos (ref. Sin) genero Mujer Mujer Mujer Mujer Hombre Hombre Hombre Hombre Mujer Mujer Mujer Mujer Hombre Hombre Hombre Hombre Mujer Mujer Mujer Mujer entorno Urbano Urbano NoUrbano NoUrbano Urbano Urbano NoUrbano NoUrbano Urbano Urbano NoUrbano NoUrbano Urbano Urbano NoUrbano NoUrbano Urbano Urbano NoUrbano NoUrbano Prof. Lídia Montero © cinturon No Si No Si No Si No Si No Si No Si No Si No Si No Si No Si gravedad y SinHeridos SinHeridos SinHeridos SinHeridos SinHeridos SinHeridos SinHeridos SinHeridos LeveSinHospital LeveSinHospital LeveSinHospital LeveSinHospital LeveSinHospital LeveSinHospital LeveSinHospital LeveSinHospital LeveConHospital LeveConHospital LeveConHospital LeveConHospital 7287 11587 3246 6134 10381 10969 6123 6693 175 126 73 94 136 83 141 74 720 577 710 564 Pàg. genero Hombre Hombre Hombre Hombre Mujer Mujer Mujer Mujer Hombre Hombre Hombre Hombre Mujer Mujer Mujer Mujer Hombre Hombre Hombre Hombre 4-1-64 entorno Urbano Urbano NoUrbano NoUrbano Urbano Urbano NoUrbano NoUrbano Urbano Urbano NoUrbano NoUrbano Urbano Urbano NoUrbano NoUrbano Urbano Urbano NoUrbano NoUrbano cinturon No Si No Si No Si No Si No Si No Si No Si No Si No Si No Si gravedad y LeveConHospital LeveConHospital LeveConHospital LeveConHospital Hospitalización Hospitalización Hospitalización Hospitalización Hospitalización Hospitalización Hospitalización Hospitalización Mortal Mortal Mortal Mortal Mortal Mortal Mortal Mortal Curs 2.011-2.012 566 259 710 353 91 48 159 82 96 37 188 74 10 8 31 17 14 1 45 12 TEMA 4-1: EJEMPLOS. EJEMPLO 3 > summary(acc) genero entorno Hombre:20 NoUrbano:20 Mujer :20 Urbano :20 cinturon gravedad Si:20 Hospitalización:8 No:20 LeveConHospital:8 LeveSinHospital:8 Mortal :8 SinHeridos :8 y Min. : 1.00 1st Qu.: 66.75 Median : 138.50 Mean : 1717.35 3rd Qu.: 710.00 Max. :11587.00 f.heridos Sin: 8 Con:32 > tapply(acc$y,acc$f.heridos,sum);sum(acc$y) Sin Con 62420 6274 [1] 68694  Tomando como variable de respuesta la presencia de heridos (f.heridos), globalmente se observa 6274 accidentes de un total de 68694, con una probabilidad de 0,0913. El odds es 6274/62420 o 0,1005 a 1 i el log-odds es log(0,1005) = -2.297472.  Se propone comparar inicialmente la presencia de heridos (respuesta) según el Factor Uso del Cinturón (2 niveles, base-line Si). Cinturón Con Heridos Sin Heridos m (respuesta positiva) Si (ref) 2409 35383 37792 No 3865 27037 30902 6274 62420 68694 P(‘Accidente CON Heridos’)=0.0913=6274/68694 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3 Sólo hay 2 posibles modelos: el modelo nulo que asume homogeneidad en el Uso en los dos grupos definidos por el Factor (M1) y el modelo completo (M2) que propone proporciones diferentes en el Uso entre los dos grupos: (M1)    log i    1  i  (M2)   log i 1i       i  1, 2   0  > dfc cinturon m ypos yneg Si Si 37792 2409 35383 No No 30902 3865 27037 > > acc.m1 <-glm(cbind(ypos,yneg)~1, family=binomial(link=logit), data=dfc) > summary(acc.m1) Call: glm(formula = cbind(ypos, yneg) ~ 1, family = binomial(link = logit), data = dfc) Deviance Residuals: Si No -19.59 19.60 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.29747 0.01324 -173.5 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Prof. Lídia Montero © Pàg. 4-1-66 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT (Dispersion parameter for binomial family taken to be 1) Null deviance: 768.03 on 1 degrees of freedom Residual deviance: 768.03 on 1 degrees of freedom AIC: 789.55 > > acc.m2 <-glm(cbind(ypos,yneg)~cinturon, family=binomial(link=logit), data=dfc) > summary(acc.m2) Call: glm(formula = cbind(ypos, yneg) ~ cinturon, family = binomial(link = logit), data = dfc) Deviance Residuals: [1] 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.68702 0.02106 -127.61 <2e-16 *** cinturonNo 0.74178 0.02719 27.29 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 7.6803e+02 on 1 degrees of freedom Residual deviance: -4.3099e-13 on 0 degrees of freedom AIC: 23.523 > residuals(acc.m1,'pearson') Si No -18.61742 20.58856 > xpea<-sum(residuals(acc.m1,'pearson')^2);xpea [1] 770.4972 Prof. Lídia Montero © Pàg. 4-1-67 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3 El estadístico de Pearson de (M2) es 0 y de (M1) toma por expresión: m  y  ˆ i   770.4972   n2 p  2 11 X  i 1, 2 i i ˆ i mi  ˆ i  2 2 P La devianza de (M2) es 0 y de (M1) toma por expresión:  y   m  yi    768.3   n2 p  2 11 . D  2i 1, 2  yi log i   mi  yi log i  ˆ i   mi  ˆ i   Ambos estadísticos son altamente significativos, implicando que el modelo no se ajusta bien a los datos. En (M1) el estimador ˆ   , el logit de la proporción muestral. En (M2), el estimador ̂ , es el logit del nivel de referencia (Si) (logit de la proporción de heridos en grupo que Usa cinturón, logit(2409/37792)=-2.687) y el efecto del nivel No sobre el logit de la proporción de heridos (diferencia de logits entre el nivel No y el nivel de referencia Si: logit(3865/30902)logit(2409/37792)=0.742.  e i  1   i e e 2   Yes   2 No odds  ratio NovsYes  e 2  2.1 Los odds de tener heridos entre los accidentes que No usan cinturón es más del doble que el odds de tener heridos entre los que Si usan cinturón. Prof. Lídia Montero © Pàg. 4-1-68 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3  Ahora procedamos a analizar la incidencia de accidentes con heridos según el género del conductor accidentado (referencia género hombre). Genero Con yi Sin mi  yi mi Hombre 2789 34166 36955 Mujer 3485 28254 31739 6274 62420 68694 > acc.m2g <-glm(cbind(ypos,yneg)~genero, family=binomial(link=logit), data=dfg) > summary(acc.m2g) Call: glm(formula = cbind(ypos, yneg) ~ genero, family = binomial(link = logit), data = dfg) Deviance Residuals: [1] 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.50555 0.01969 -127.23 <2e-16 *** generoMujer 0.41278 0.02665 15.49 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2.4172e+02 Residual deviance: -7.0122e-13 Prof. Lídia Montero © on 1 on 0 degrees of freedom degrees of freedom Pàg. 4-1-69 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3 AIC: 23.571 Number of Fisher Scoring iterations: 2 >> xpea<-sum(residuals(acc.m1g,'pearson')^2);xpea [1] 242.4970 > log(2789 /34166);log(3485 /28254);log(3485 /28254)-log(2789 /34166) [1] -2.505548 [1] -2.092767 [1] 0.4127809 > exp(0.41278) [1] 1.511013 >  Sólo hay 2 posibles modelos: el modelo nulo que asume homogeneidad en la presencia de heridos en accidentes en los 2 grupos definidos por el Factor (M1) y el modelo completo (M2) que propone proporciones diferentes en los accidentes con heridos entre los 2 grupos: (M1)    log i    1  i  (M2)      i  1 H log i     1   i      i  2  M El estadístico de Pearson de (M2) es 0 y de (M1) toma por expresión: m  y  ˆ i   242.497   n21 2 11 X  i 1 2 i i ˆ i mi  ˆ i  2 2 P La devianza de (M2) es 0 y de (M1) toma por expresión: Prof. Lídia Montero © Pàg. 4-1-70 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3   m  yi  y    241.72   n2 p  2 11 D  2i 1 2  yi log i   mi  yi log i .  mi  ˆ i   ˆ i   Ambos estadísticos son altamente significativos, implicando que el modelo no se ajusta bien a los datos.  En (M1) el estimador ˆ   , el logit de la proporción muestral.  En (M2), el estimador ̂ , es el logit del nivel de referencia (Hombres) (logit de la proporción de heridos en accidentes en hombres a la vista de la tabla, logit(2789/34166)= -2.51) y el efecto del nivel 2 (mujeres) sobre el logit de “H” (diferencia de logits en los grupos: log(3485 /28254)-log(2789 /34166)=0.413.  e i    1   i e e i    H  2H Los odds de accidentes con heridos hombres. odds  ratio Grupo i vs H  e i  1.51 se incrementan en un 51% en las mujeres respecto los Queda por probar el último modelo univariante según Entorno urbano o no urbano: los odds de accidentes con heridos se decrementan en un (1-exp(-0.7158))x100%=51% si sucede en entorno urbano. Los odds de urbano son 0.4887= exp(-0.7158) veces los odds de no urbano. Prof. Lídia Montero © Pàg. 4-1-71 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3 > summary(acc.m2e) Call: glm(formula = cbind(ypos, yneg) ~ entorno, family = binomial(link = logit), data = dfe) Deviance Residuals: [1] 0 0 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.89784 0.01859 -102.08 <2e-16 *** entornoUrbano -0.71584 0.02664 -26.87 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 7.1961e+02 Residual deviance: 3.9262e-12 AIC: 23.564 on 1 on 0 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 2 > xpea<-sum(residuals(acc.m1e,'pearson')^2);xpea [1] 745.0957 > Prof. Lídia Montero © Pàg. 4-1-72 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3 Modelos con 2 Predictores: Cinturón y Entorno Hay 4 grupos o clases de las covariables, sea y ij el número de accidentes con heridos en el grupo de Cinturón i-ésimo y grupo de Entorno j-ésimo, donde los niveles de referencia son ‘Si’ para Cinturón (Factor A) y ‘NoUrbano’ para el Factor C. > df2 cinturon entorno m ypos yneg 1 Si NoUrbano 14097 1270 12827 2 No NoUrbano 11426 2057 9369 3 Si Urbano 23695 1139 22556 4 No Urbano 19476 1808 17668 Hay 5 modelos de interés aplicables a la estructura sistemática de los datos anteriores (M1) a (M5), cuyas devianzas y detalles de la estimación con MINITAB se detallan a continuación. Modelo n-p Devianza 1 1 3 1504.1 2 A 2 736.11 767.99 (M2) vs (M1) 1 3 C 2 784.53 719.57 (M3) vs (M1) 1 4 A+C 1 2.7116 733.4 (M4) vs (M2) 1 781.8 (M4) vs (M3) 1 2.7116 (M5) vs (M4) 1 5 A*C 0 Prof. Lídia Montero © 0 D Contraste g.l. Constante: Todos significativos Pàg. 4-1-73 Modelo   i Entorno:    j Cinturón: Aditivo:  i   j Interacción Factores:    i   j   ij Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3 > sum(df2[,3]);sum(df2[,4]);sum(df2[,5]) [1] 68694 [1] 6274 [1] 62420 > acc.m20 <-glm(cbind(ypos,yneg)~1, family=binomial(link=logit), data=df2) > summary(acc.m20) Call: glm(formula = cbind(ypos, yneg) ~ 1, family = binomial(link = logit), data = df2) Deviance Residuals: 1 2 3 -0.5131 29.4486 -25.2217 4 0.7247 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.29747 0.01324 -173.5 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1504.1 Residual deviance: 1504.1 AIC: 1542.4 on 3 on 3 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 4 > acc.m21 <-glm(cbind(ypos,yneg)~entorno, family=binomial(link=logit), data=df2) > summary(acc.m21) Prof. Lídia Montero © Pàg. 4-1-74 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3 Call: glm(formula = cbind(ypos, yneg) ~ entorno, family = binomial(link = logit), data = df2) Deviance Residuals: 1 2 3 -14.92 15.04 -12.97 4 12.94 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.89784 0.01859 -102.08 <2e-16 *** entornoUrbano -0.71584 0.02664 -26.87 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1504.14 Residual deviance: 784.53 AIC: 824.76 on 3 on 2 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 4 > acc.m22 <-glm(cbind(ypos,yneg)~cinturon, family=binomial(link=logit), data=df2) > summary(acc.m22) Call: glm(formula = cbind(ypos, yneg) ~ cinturon, family = binomial(link = logit), data = df2) Prof. Lídia Montero © Pàg. 4-1-75 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3 Deviance Residuals: 1 2 3 12.10 16.82 -10.30 4 -14.17 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.68702 0.02106 -127.61 <2e-16 *** cinturonNo 0.74178 0.02719 27.29 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1504.14 Residual deviance: 736.11 AIC: 776.34 on 3 on 2 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 4 > acc.m23 <-glm(cbind(ypos,yneg)~cinturon+entorno, family=binomial(link=logit), data=df2) > summary(acc.m23) Call: glm(formula = cbind(ypos, yneg) ~ cinturon + entorno, family = binomial(link = logit), data = df2) Deviance Residuals: 1 2 3 -0.8793 0.7358 0.9220 Prof. Lídia Montero © 4 -0.7396 Pàg. 4-1-76 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.28676 0.02465 -92.78 <2e-16 *** cinturonNo 0.75265 0.02734 27.53 <2e-16 *** entornoUrbano -0.72721 0.02682 -27.12 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1504.1407 Residual deviance: 2.7116 AIC: 44.938 on 3 on 1 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 3 > xpea<-sum(residuals(acc.m21,'pearson')^2);xpea [1] 787.0698 > xpea<-sum(residuals(acc.m22,'pearson')^2);xpea [1] 761.8445 > xpea<-sum(residuals(acc.m20,'pearson')^2);xpea [1] 1618.284 > xpea<-sum(residuals(acc.m23,'pearson')^2);xpea [1] 2.712893 > 1-pchisq(xpea,1) [1] 0.09954032 > Prof. Lídia Montero © Pàg. 4-1-77 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3 El modelo aditivo ajusta bien los datos, vamos a interpretar sus parámetros: 1.    es el logit de la probabilidad base: accidentes cuando se usa cinturón en entorno rural. 2. 2 3. 2 muestra un efecto decreciente de la incidencia de accidentados cuando el accidente ocurre en Entorno urbano. 4. 2 muestra un efecto creciente de la incidencia de accidentados cuando No se usa el cinturón. es positivo y el odds de padecer heridos cuando no se usa cinturón es más del doble que entre los accidentes cuando se usa cinturón dentro del mismo grupo de Entorno (all else being equal o ceteris paribus).  La tentativa final consiste en considerar todos las variables explicativas disponibles, es decir, considerar tres factores A, C y D (Cinturón, Entorno y Género). Los posibles modelos son 12 ¡!! Se va a cambiar el orden de los niveles del Factor C – Entorno para facilitar la interpretación. Prof. Lídia Montero © Pàg. 4-1-78 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3  El modelo aditivo ajusta bien los datos, pero todavía queda devianza por explicar: > summary(acc) genero entorno Hombre:20 Urbano :20 Mujer :20 NoUrbano:20 cinturon gravedad Si:20 Hospitalización:8 No:20 LeveConHospital:8 LeveSinHospital:8 Mortal :8 SinHeridos :8 y Min. : 1.00 1st Qu.: 66.75 Median : 138.50 Mean : 1717.35 3rd Qu.: 710.00 Max. :11587.00 f.heridos heridos Sin: 8 Min. : 0.0 Con:32 1st Qu.: 9.5 Median : 74.0 Mean :156.8 3rd Qu.:163.0 Max. :720.0 > > df3 cinturon 1 Si 2 No 3 Si 4 No 5 Si 6 No 7 Si 8 No entorno Urbano Urbano NoUrbano NoUrbano Urbano Urbano NoUrbano NoUrbano Prof. Lídia Montero © genero m ypos yneg Hombre 11349 380 10969 Hombre 11193 812 10381 Hombre 7206 513 6693 Hombre 7207 1084 6123 Mujer 12346 759 11587 Mujer 8283 996 7287 Mujer 6891 757 6134 Mujer 4219 973 3246 Pàg. 4-1-79 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3 > summary(acc.m331) Call: glm(formula = cbind(ypos, yneg) ~ cinturon + entorno + genero, family = binomial(link = logit), data = df3) Deviance Residuals: 1 2 3 -0.5055 -0.7976 0.2133 4 0.9023 5 1.7426 6 -0.4639 7 -1.5365 8 0.3172 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.33639 0.03114 -107.14 <2e-16 *** cinturonNo 0.81710 0.02765 29.55 <2e-16 *** entornoNoUrbano 0.75806 0.02697 28.11 <2e-16 *** generoMujer 0.54483 0.02727 19.98 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1912.4532 Residual deviance: 7.4645 AIC: 82.167 on 7 on 4 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 3 Prof. Lídia Montero © Pàg. 4-1-80 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3  El siguiente paso podría ser añadir una interacción entre 2 de los factores: A*C o A*D o C*D. Modelo n-p Devianza D Contraste g.l. 1 A+C+D 4 7.4645 2 A*C+D 3 3 A*D+B 4 C*D+A Modelo Aditivo:    i   j   k 3.5914 3.8730 (M2) vs (M1) 1 Interacción Cinturón-Entorno : 3 7.3826 0.0818 (M3) vs (M1) 1 Interacción Cinturón-Género: 3 4.4909 2.9736 (M4) vs (M1) 1 Interacción Entorno-Género:    i   j   k   ij    i   j   k   ik    i   j   k   jk Estrictamente sólo la interacción entre Cinturón y Entorno es estadísticamente significativa, aunque la interacción entre Entorno y Género tiene un pvalor del 8% según el contraste de devianza con el modelo aditivo. Se interpreta el mejor modelo obtenido hasta el momento donde intervienen los 3 factores y una interacción doble entre el Uso de Cinturón y el Entorno donde sucede el accidente. glm(formula = cbind(ypos, yneg) ~ cinturon * entorno + genero, Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.30342 0.03509 -94.149 <2e-16 cinturonNo 0.76173 0.03933 19.366 <2e-16 entornoNoUrbano 0.69360 0.04239 16.362 <2e-16 generoMujer 0.54594 0.02729 20.007 <2e-16 cinturonNo:entornoNoUrbano 0.10800 0.05486 1.968 0.049 Prof. Lídia Montero © Pàg. 4-1-81 family = binomial, data = df3) *** *** *** *** * Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3 La interpretación en la escala lineal de:  Si el conductor es mujer los log odds se incrementan en 0.55 unidades respecto al grupo de referencia hombres dentro del mismo grupo del resto de factores.  No usar el cinturón incrementa la escala lineal en 0.76 unidades en Entorno urbano y 0.76+0.11 en entorno NoUrbano; dentro del mismo grupo de género.  Conducir en entorno No Urbano incrementa la escala lineal en 0.69 unidades si se usa cinturón y 0.69+0.11 si no se uso cinturón.  Tanto el uso del cinturón como el entorno no pueden interpretarse independientemente, ya que hay un término de interacción. La interpretación en la escala de los odds seria:  Si el conductor es mujer los odds de darse heridos en el accidente se incrementan en un 73% (exp(0.55)=1.73) respecto al grupo de referencia hombres, dentro del mismo grupo del resto de factores.  No usar el cinturón incrementa los odds de darse heridos en el accidente en un 113% (exp(0.76)=2.13) en Entorno urbano y en un 140% (exp(0.76+0.11)=2.387) en entorno NoUrbano; dentro del mismo grupo de género.  Conducir en entorno No Urbano incrementa los odds de darse heridos en el accidente en un 100% (exp(0.69)=1.994) si se usa cinturón y en casi un 125% (exp(0.69+0.11)=2.226) si no se usa cinturón; dentro del mismo grupo de género. Prof. Lídia Montero © Pàg. 4-1-82 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3 La interpretación en la escala de las probabilidades son aproximadas y seria en términos absolutos según una probabilidad marginal de darse heridos en un accidente de P(‘Accidente CON Heridos’)=0.0913=6274/68694: Y de aquí 0.0913x(1-0.0913)=0.083.  Si el conductor es mujer la probabilidad de darse heridos en el accidente sube en 0.046 (0.083x0.55=0.046) respecto al grupo de referencia hombres, dentro del mismo grupo del resto de factores.  No usar el cinturón incrementa la probabilidad de darse heridos en el accidente en 0.063 (0.083x0.76=0.063) en Entorno urbano y en un 0.072 (0.083(0.76+0.11)=0.072) en entorno NoUrbano; dentro del mismo grupo de género.  Conducir en entorno No Urbano incrementa la probabilidad de darse heridos en el accidente en 0.057 (0.083x0.69=0.057) si se usa cinturón y en 0.066 (0.083(0.696+0.11)=0.066) si no se usa cinturón; dentro del mismo grupo de género. Prof. Lídia Montero © Pàg. 4-1-83 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3 > summary(acc.m331) Call: glm(formula = cbind(ypos, yneg) ~ cinturon + entorno + genero, family = binomial(link = logit), data = df3) Deviance Residuals: 1 2 3 -0.5055 -0.7976 0.2133 4 0.9023 5 1.7426 6 -0.4639 7 -1.5365 8 0.3172 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.33639 0.03114 -107.14 <2e-16 *** cinturonNo 0.81710 0.02765 29.55 <2e-16 *** entornoNoUrbano 0.75806 0.02697 28.11 <2e-16 *** generoMujer 0.54483 0.02727 19.98 <2e-16 *** --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Null deviance: 1912.4532 Residual deviance: 7.4645 AIC: 82.167 on 7 on 4 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 3 > summary(acc.m332) Call: glm(formula = cbind(ypos, yneg) ~ cinturon + entorno * genero, family = binomial(link = logit), data = df3) Prof. Lídia Montero © Pàg. 4-1-84 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3 … Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.36383 0.03519 -95.592 <2e-16 cinturonNo 0.81618 0.02765 29.521 <2e-16 entornoNoUrbano 0.80907 0.04010 20.177 <2e-16 generoMujer 0.59306 0.03914 15.152 <2e-16 entornoNoUrbano:generoMujer -0.09345 0.05422 -1.724 0.0848 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Null deviance: 1912.4532 Residual deviance: 4.4909 AIC: 81.193 on 7 on 3 *** *** *** *** . degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 3 > summary(acc.m333) Call: glm(formula = cbind(ypos, yneg) ~ cinturon * entorno + genero, family = binomial(link = logit), data = df3) … Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.30342 0.03509 -94.149 <2e-16 *** cinturonNo 0.76173 0.03933 19.366 <2e-16 *** entornoNoUrbano 0.69360 0.04239 16.362 <2e-16 *** generoMujer 0.54594 0.02729 20.007 <2e-16 *** cinturonNo:entornoNoUrbano 0.10800 0.05486 1.968 0.049 * Prof. Lídia Montero © Pàg. 4-1-85 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3 Null deviance: 1912.4532 Residual deviance: 3.5914 AIC: 80.294 on 7 on 3 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 3 > summary(acc.m334) Call: glm(formula = cbind(ypos, yneg) ~ cinturon * genero + entorno, family = binomial(link = logit), data = df3) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.34236 0.03755 -89.014 <2e-16 *** cinturonNo 0.82621 0.04220 19.579 <2e-16 *** generoMujer 0.55459 0.04370 12.691 <2e-16 *** entornoNoUrbano 0.75792 0.02698 28.096 <2e-16 *** cinturonNo:generoMujer -0.01598 0.05586 -0.286 0.775 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Null deviance: 1912.4532 Residual deviance: 7.3826 AIC: 84.085 on 7 on 3 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 3 Prof. Lídia Montero © Pàg. 4-1-86 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3 > anova(acc.m331,acc.m332,test="Chisq") Analysis of Deviance Table Model 1: cbind(ypos, yneg) ~ cinturon + entorno + genero Model 2: cbind(ypos, yneg) ~ cinturon + entorno * genero Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 4 7.4645 2 3 4.4909 1 2.9736 0.0846 > anova(acc.m331,acc.m333,test="Chisq") Analysis of Deviance Table Model 1: cbind(ypos, yneg) ~ cinturon + entorno + genero Model 2: cbind(ypos, yneg) ~ cinturon * entorno + genero Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 4 7.4645 2 3 3.5914 1 3.8730 0.0491 > anova(acc.m331,acc.m334,test="Chisq") Analysis of Deviance Table Model 1: cbind(ypos, yneg) ~ cinturon + entorno + genero Model 2: cbind(ypos, yneg) ~ cinturon * genero + entorno Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 4 7.4645 2 3 7.3826 1 0.0818 0.7748 > xpea<-sum(residuals(acc.m332,'pearson')^2);xpea [1] 4.496567 > 1-pchisq(xpea,3) [1] 0.2125967 > xpea<-sum(residuals(acc.m333,'pearson')^2);xpea [1] 3.580126 > 1-pchisq(xpea,3) [1] 0.3105178 Prof. Lídia Montero © Pàg. 4-1-87 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3 El siguiente paso consistiría en analizar los modelos con 2 interacciones entre los factores, ya que el modelo A*C+D ajusta bien los datos, pero todavía deja una devianza de 3.5914 por explicar en 3 grados de libertad, se podría dar por bueno el modelo. Modelo n-p Devianza 1 A*C+A*D 2 3.562410 D Contraste g.l. 2.2371 (M1) vs (M4) 1 Modelo Interacción Cinturón-Entorno Y Cinturón-Género :    i   j   k   ij   2 A*D+C*D 2 4.371979 3.0467 (M2) vs (M4) 1 Interacción Cinturón-Género Y Entorno-Género :    i   j   k   ik   3 A*C+C*D 4 A*C+C*D+ A*D 2 1 1.367022 0.04171 (M3) vs (M4) 1.325317 1 jk jk Interacción Cinturón-Entorno Y Entorno-Género :    i   j   k   ij   jk    i   j   k   ij   ik   jk  El modelo no requiere de más análisis, no hay diferencias significativas entre el modelo con las 3 interacciones dobles y ninguno de los modelos con 2 pares de factores en interacciones. Prof. Lídia Montero © Pàg. 4-1-88 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3 El siguiente paso consistiría en analizar los modelos con 2 interacciones entre los factores y compararlos con el modelo aditivo, para ver si son significativas 2 interacciones dobles simultáneamente. Modelo n-p Devianza 1 A*C+A*D 2 3.562410 D Contraste g.l. 3.9021 (M1) vs (M4) 1 Modelo Interacción Cinturón-Entorno Y Cinturón-Género :    i   j   k   ij   2 A*D+C*D 2 4.371979 3.0925 (M2) vs (M4) 1 Interacción Cinturón-Género Y Entorno-Género :    i   j   k   ik   3 A*C+C*D 2 1.367022 6.0975 (M3) vs (M4) 1 4 jk Interacción Cinturón-Entorno Y Entorno-Género :    i   j   k   ij   4 A+C+D jk jk   i   j   k 7.4645  El modelo no requiere de más análisis, ya que simultáneamente son significativas 2 interacciones dobles Cinturón-Entorno Y Entorno-Género. Prof. Lídia Montero © Pàg. 4-1-89 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT MCAID TEMA 4-1: EJEMPLOS. EJEMPLO 3 Comparando el mejor modelo con 1 interacción doble (Cinturón-Entorno) con el modelo que tiene 2 interacciones dobles (Cinturón-Entorno y Entorno-Genero) se cuantifica el p valor del contraste de la devianza de la interacción Entorno-Género con un 0.14, por tanto, no significativa una vez que CinturónEntorno está en el modelo, pero con un valor incómodo. > anova(acc.m333,acc.m43,test="Chisq") Analysis of Deviance Table Model 1: cbind(ypos, yneg) ~ cinturon * entorno + genero Model 2: cbind(ypos, yneg) ~ cinturon * entorno + entorno * genero Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 3 3.5914 2 2 1.3670 1 2.2244 0.1358 > Se propone para finalizar el análisis valorar el modelo con 2 interacciones dobles y el mejor modelo con 1 interacción doble según el criterio de información de Akaike y el método step() en R. Se prefiere mantener las 2 interacciones dobles. Al final se da una tabla resumen con la devianza residual y el AIC para todos los modelos que se han calculado. Prof. Lídia Montero © Pàg. 4-1-90 Curs 2.011-2.012 MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3 > acc.res<-step(acc.m34) Start: AIC=82.7 cbind(ypos, yneg) ~ cinturon * genero * entorno Df Deviance AIC - cinturon:genero:entorno 1 1.325 82.028 <none> 2.411e-12 82.702 Step: AIC=82.03 cbind(ypos, yneg) ~ cinturon + genero + entorno + cinturon:genero + cinturon:entorno + genero:entorno Df Deviance AIC - cinturon:genero 1 1.367 80.069 <none> 1.325 82.028 - genero:entorno 1 3.562 82.265 - cinturon:entorno 1 4.372 83.074 Step: AIC=80.07 cbind(ypos, yneg) ~ cinturon + genero + entorno + cinturon:entorno + genero:entorno Df Deviance AIC <none> 1.367 80.069 - genero:entorno 1 3.591 80.294 - cinturon:entorno 1 4.491 81.193 > Prof. Lídia Montero © Pàg. 4-1-91 Curs 2.011-2.012 MCAID MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT TEMA 4-1: EJEMPLOS. EJEMPLO 3 Modelos logit(ijk) Devianza n-p AIC 1  1912.5 7 1981.2 Cinturón - A + i 1144.4 6 1215.1 Entorno - C + j 1192.8 6 1263.5 Género -D + k 1670.7 6 1741.4 A+D + i+ j 795.82 5 868.52 A+C + i+ k 411.02 5 483.73 D+C + j+ k 911.01 5 983.71 AD + i+ j+ ()ij 795.32 4 870.03 AC + i+ k+ ()ik 408.31 4 483.01 A+D+C + i+ j+ k 7.4645 4 82.167 AD+C + i+ j+ k+ ()ij 7.3826 3 84.085 AC+D + i+ j+ k+ ()ik 3.5914 3 80.294 A+DC + i+ j+ k+ ()jk 4.4909 3 81.193 AD+AC + i+ j+ k+ ()ij+ ()ik 3.5624 2 82.265 AD+DC + i+ j+ k+ ()ij+ ()jk 4.372 2 83.074 AC+DC + i+ j+ k+ ()ik+ ()jk 1.3670 2 80.07 AD+AC+DC + i+ j+ k+ ()ij+ ()ik+ ()jk 1.3253 1 82.028 Prof. Lídia Montero © Pàg. 4-1-92 Curs 2.011-2.012 MCAID

MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES

Documentos relacionados

Productos

Apoyo

MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib