MODELS DE CAPTACIÓ, ANÀLISI I INTERPRETACIÓ DE DADES

Anuncio
MODELS DE CAPTACIÓ,
ANÀLISI I INTERPRETACIÓ DE
DADES
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MASTER D’ESTADÍSTICA I INVESTIGACIÓ OPERATIVA
APUNTS DE CLASSE PROF. LÍDIA MONTERO:
TEMA 4 – PART 1: MODELS DE RESPOSTA BINÀRIA
AUTORA:
Lídia Montero Mercadé
Departament d’Estadística i Investigació Operativa
Versió 1.5
Novembre del 2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: TABLA DE CONTENIDOS
4-1-1. INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL __________________________________________________________ 3
4-1-2. TEMA 4-1: VARIABLES DE RESPUESTA BINOMIALES ___________________________________________________________________ 10
4-1-2.1
FUNCIONES DE LINK ___________________________________________________________________________________________________ 11
4-1-3. TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS ___________________________________________________________________ 19
4-1-3.1
4-1-3.2
MEDIDAS DE BONDAD DEL MODELO ______________________________________________________________________________________ 23
DIAGNÓSTICO DEL MODELO ____________________________________________________________________________________________ 34
4-1-4. TEMA 4-1: EJEMPLOS _________________________________________________________________________________________________ 38
4-1-4.1
4-1-4.2
4-1-4.3
EJEMPLO 1 (DOBSON) _________________________________________________________________________________________________ 38
EJEMPLO 2 (FOX) _____________________________________________________________________________________________________ 52
EJEMPLO 3: ACCIDENTES MORTALES SEGÚN USO DEL CINTURÓN – AGRESTI (2002) ______________________________________________ 64
Prof. Lídia Montero ©
Pàg.
4-1-2
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
4-1-1. INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL
Clasificación de los métodos estadísticos de análisis:
Variables
Explicativas
Binaria
Politómicas
Continuas
Factores y
covariables
Efectos
Aleatorios
Prof. Lídia Montero ©
Binaria
Variable de respuesta
Politómica
Tablas de
Tablas de
contingencia
contingencia
Regresión logística
*
Modelos log-lineales Modelos log-lineales
Tablas de
Tablas de
contingencia
contingencia
Regresión logística Modelos log-lineales
Modelos log-lineales
Regresión logística
*
Regresión logística
*
Modelos mixtos
Modelos mixtos
Pàg.
4-1-3
Cuantitativa
Discreta
Cuantitativa Continua
Normal
Tiempo entre
eventos
Modelos
Tests en medias Análisis de la
log-lineales
de 2 grupos:
Supervivencia
t.test
Modelos
log-lineales
ONEWAY,
ANOVA
Análisis de la
Supervivencia
Modelos
log-lineales
Modelos
log-lineales
Modelos
mixtos
Regresión
Múltiple
ANCOVA
Análisis de la
Supervivencia
Análisis de la
Supervivencia
Modelos
mixtos
Modelos mixtos
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL
Estas variables de respuesta suelen aparecer cuando se investiga si un individuo ostenta una característica
(Y=1) o no (Y=0).
Por ejemplo, en la selección de modos de transporte, dentro de un colectivo de ciudadanos de un
ámbito de estudio, se puede investigar si emplean en sus desplazamientos de movilidad obligada a
primera hora de la mañana un modo de transporte privado (moto, coche, etc.) o público (metro,
autobús, etc.), de manera que arbitrariamente se puede suponer que el empleo por parte de un
individuo de transporte público facilita el valor de la variable de respuesta Y=1 (éxito, genéricamente),
y el transporte privado Y=0 (fracaso, genéricamente).
 Más adelante, se verá la extensión a más de 2 categorías en la variable de respuesta.
 Las probabilidades genéricas de éxito y fracaso se van a notar por la letra griega

, de manera que,
P Yk  1   k :
Probabilidad de respuesta satisfactoria en el individuo k-ésimo.
PYk  0  1   k :
Probabilidad de respuesta NO satisfactoria en el individuo k-ésimo.
Cada individuo de un determinado colectivo, tiene asociado un conjunto de variables explicativas,
factores y covariables:
Prof. Lídia Montero ©
x Tk  x1  x p  .
Pàg.
4-1-4
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL

 Las variables explicativas x k  x1
T
 x p  pueden ser:
 Variables cuantitativas.
 Transformaciones de variables cuantitativas.
 Regresores polinómicos formados a partir de variables cuantitativas.
 Variables mudas (dummies) que representan variables cualitativas.
 Variables mudas que representan interacciones entre variables cualitativas o cuantitativas.
Por ejemplo, en el problema del reparto modal público-privado, cada individuo tiene asociadas variables
explicativas como: la zona de transporte donde reside, la disponibilidad de vehículo, el nivel de ingresos,
el valor del tiempo, su nivel de estudios, etc.
 El objetivo que se persigue en el presente tema consiste en investigar la relación entre la probabilidad
de la respuesta y las variables explicativas:
   x  .
 En diseño de experimentos suelen definirse grupos de individuos, cada uno sometido a la misma
combinación de condiciones experimentales, en general, en este tipo de problemas se suelen considerar
factores como variables explicativas, de manera que la combinación experimental k-ésima viene
representada por idénticos valores del vector de variables explicativas
a
mk
x Tk  x1  x p  aplicadas
individuos.
Prof. Lídia Montero ©
Pàg.
4-1-5
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL
 En total, el número de individuos en el estudio es la suma de los individuos en cada una de las
n combinaciones de condiciones o grupos
N  m1    mn .
combinaciones de condiciones experimentales, si se definen
de individuos, entonces el número total de individuos es
Cada combinación define una covariate class o clase de las covariables y todos los individuos
pertenecientes a ella comparten los mismos valores de las covariables.
La anterior diferenciación entre individuos y clases de la covariable (grupos de individuos) es crucial a la
hora de especificar los datos a un paquete estadístico, en general, ambas representaciones, por individuos o
por clases de covariable, suelen ser posibles:
1. Algunos métodos de análisis son apropiados para datos agrupados en clases de covariables, pero no
para datos individualizados, por ejemplo las aproximaciones normales.
2. Las aproximaciones asintóticas aplicadas a datos agrupados se pueden basar en dos tipos distintos de
evolución asintótica, sobre el número de individuos en cada clase de covariables o grupo ( m   ) o
sobre el número total de individuos ( N 
aproximaciones asintóticas del segundo tipo.
Prof. Lídia Montero ©
Pàg.
 ).
4-1-6
Los datos individualizados únicamente permiten
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL
 … Diferenciación entre datos por individuos y por clases de la covariable (grupos de individuos) …
Datos por individuo
Datos por clase de covariable
Individuo
Variables
explicativas
Respuesta
Clase de
Covariable
Tamaño de la
clase
Respuestas
satisfactorias
1
(1,1)
0
(1,1)
2
1
2
(1,2)
1
(1,2)
3
2
3
(1,2)
0
(2,1)
1
0
4
(2,1)
0
(2,2)
1
1
5
(2,2)
1
6
(1,2)
1
7
(1,1)
1
La tabla anterior ilustra un experimento no balanceado con 2 factores A y C, cada uno de ellos con dos
categorías, por tanto n=4=2x2 y un total de individuos N=7 . Por ejemplo, el factor A puede ser una
categorización de la edad de un individuo: categoría 1 si es menor de 21 años, categoría 2 el resto. El factor
C puede ser la disponibilidad de coche en el hogar: categoría 1 disponible y categoría 2 no disponible.
 La simple observación de los datos parece indicar que a más edad y ante disponibilidad de coche en el
hogar menor incidencia de la selección modal del transporte público.
Prof. Lídia Montero ©
Pàg.
4-1-7
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL
… Representación individual o por clases de covariables …
 La representación de los datos en clases de la covariable es más eficiente en cuestión de espacio y
facilita la detección de los efectos significativos por inspección visual.
 La representación en clases de la covariable implica la pérdida de la información sobre el orden serial
de los individuos, es más agregada y no permite reconstruir la información por individuos original,
aspecto que en la mayoría de los estudios no resulta relevante.
 La representación en clases de la covariable implica que la respuesta tiene la forma
y1 m 1 , , y n m n , donde 0  y k  mk
la clase de la covariable k-ésima entre los
es el número de resultados satisfactorios (éxitos) en
mk individuos que la constituyen.
 El vector de tamaño de las clases de las covariables se denomina vector índice binomial o vector
denominador binomial y se nota por
m  m1  mn  .
Los datos en formato individuos constituyen un caso particular de vector de índice binomial constante
a unos:
m  1  1 .
Prof. Lídia Montero ©
Pàg.
4-1-8
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NO NORMAL
 La información agrupada puede representarse mediante una tabla de contingencia tridimensional, donde
los factores que la definen, continuando con el ejemplo anterior, son la respuesta Y (en columnas), el
factor A (subtabla) y el factor C (filas):
x1=1
Y=0
Y=1
x2=1
1
1
x2=2
1
2
x1=2
Y=0
Y=1
x2=1
1
0
x2=2
0
1
 O bien de manera alternativa, la respuesta Y (en columnas), el factor C (subtabla) y el factor A
(filas):
FACTOR C
C1 =1
FACTOR A
CK=2 =2
FACTOR B – Respuesta Y
FACTOR B – Respuesta Y TOTAL
B1 Y=0
BJ=2 Y=1
SUBTOTAL
B1 Y=0
BJ=2 Y=1
SUBTOTAL
A1 = 1
1
1
2
1
2
3
5
AI=2 =2
1
0
1
0
1
1
2
SUBTOTAL
2
1
1
3
TOTAL
Prof. Lídia Montero ©
3
4
Pàg.
4-1-9
7
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
4-1-2. TEMA 4-1: VARIABLES DE RESPUESTA BINOMIALES
m y
pY  y   P Y  y        m  y
 y

0

 y  m  i
m i
FY  y      1   
 i 0  i 



Y   m  
y 
  y  m
ym
 El contexto y justificación de los
procesos binomiales se ha estudiado
detalladamente
en
cursos
de
Estadística de primer ciclo de las
titulaciones:


Si Y  B m ,
entonces la
variable aleatoria modeliza el número
de respuestas satisfactorias (éxitos)
en m repeticiones de experiencias
base
de
Bernoulli
mútuamente
independientes y de probabilidad
individual de éxito común igual a  .
V Y   m    1   
Prof. Lídia Montero ©
Pàg.
4-1-10
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK
4-1-2.1 Funciones de link
 El objetivo que se persigue es establecer una relación funcional entre la probabilidad de la respuesta

y el vector de variables explicativas o covariables
x T  x1  x p  :
   x  .
Se va a detallar la construcción de un modelo capaz de describir como los cambios en los valores de las
covariables afectan a la probabilidad de la respuesta.
 El modelo formal a detallar consiste en las tres componentes habituales en los Modelos Lineales
Generalizados:
Y T  Y1 , , Yn 
pertenencia a la distribución binomial (miembro de la familia exponencial), con  Y    .
 La componente aleatoria asume independencia de las observaciones de
y
 La componente sistemática del modelo consiste en la especificación de un vector  , el predictor
lineal a partir de un número reducido de parámetros a estimar y regresores; parámetros
 T  1 ,,  p  y regresores X  X 1 ,, X p  .
En notación matricial,
  X
donde

es nx1,
X es nxp
y
 es px1.
 La función de link resulta imprescindible para garantizar la correspondencia entre
tomar valores entre más/menos infinito y el intervalo cerrado 0,1.
Prof. Lídia Montero ©
Pàg.
4-1-11
 , que puede
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK
 El vector

está funcionalmente relacionado con el predictor lineal
notada como g(.), de manera
    logit   .
  g   , 
 , a través de la función de link,
es nx1. El link canónico es la función logit:
 El link canónico es el más empleado en la práctica rutinaria, por ser el más sencillo de interpretar como
el logaritmo de los odds, sin embargo no tiene porqué adaptarse bien a los datos: es importante
entender bien el rol de la función de link y no actuar automáticamente.
 Las funciones de link más habitualmente empleadas para respuestas binarias son:
1. La función logit o
O bien,
 1    g11   
g '   
1
1
 
1 
logística:   g1    logit    log 
exp  
1  exp 2
exp 
1  exp  . La ley logística da lugar a esta transformación, la derivada de
es la función densidad de probabilidad de la ley logística estándar de media
0 (parámetro de posición) y varianza
Prof. Lídia Montero ©

.

2 3
(parámetro de escala 1), simétrica alrededor de 0.
Pàg.
4-1-12
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK
 … Las funciones de link más habitualmente empleadas para respuestas binarias son:
2. La
función
probit
o
 2    g 21       .
función
normal
estándar
  g 2     1  
inversa:
Y
La ley normal estándar (media 0 y varianza 1) es la que da lugar a la
definición de esta función de link.
3. La función log-log complementaria
  g 3    loglog1     .
 3    g 31    1  exp exp 
Donde la función respuesta es,
.
La función de link es la inversa de la distribución del valor extremo mínimo (ley de Gompertz), con
parámetro de posición 0 y parámetro de escala 1, lo que facilita una esperanza de e=-0.577216
(derivada primera de la función gamma evaluada en 1) y una varianza de
4. La
función
log-log
  g 4     log log 1   ,
donde
la
2 6.
función
respuesta
 4    g 41    1  exp exp   . La f. link es la inversa de la distribución
es
del valor
extremo máximo (ley de Gumbel), con parámetro de posición 0 y parámetro de escala 1, lo que
facilita una esperanza de - e y una varianza de
2 6.
 Las funciones de link anteriores pueden obtenerse como las inversas de las probabilidades acumuladas
de leyes conocidas.
Prof. Lídia Montero ©
Pàg.
4-1-13
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK
 Por ejemplo, si el predictor lineal se limita a tomar valores en el intervalo cerrado
a, b , entonces se
podría considerar un link que fuera la inversa de la función de distribución de una variable uniforme en
el intervalo
a, b :   g 5    a  b  a  y  5    g 51   
a
ba
a  b.
Link Uniforme
Si
a, b   2, 2
Probabilidad
1.2
1
0.8
0.6
0.4
0.2
PI_5(ETA)
entonces se puede
visualizar en los
D_PI_5(ETA)
gráficos
 '5   .
 5  
3.4
2.66
1.92
1.18
0.44
-0.3
-1.04
-1.78
-2.52
-3.26
-4
0
ETA-Predictor lineal
Prof. Lídia Montero ©
Pàg.
4-1-14
Curs 2.012-2.013
y
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK
 La función de link logit se puede analizar a partir de la función densidad de probabilidad y la función
distribución de la ley logística:
 1    g11   
exp 
1  exp 
g '   
1
1
y
1  exp 
donde P(.) indica la función de
distribución de alguna variable
aleatoria continua que tome valores
reales
serviría
para
la
transformación del predictor lineal
 
al intervalo 0,1 ; por supuesto, las
hay
algunas
con
mejores
propiedades que otras, ya sean
estadísticas o de cálculo, no todas
ellas se adaptan del mismo modo a
los datos sujetos a estudio.
3.74
2.88
2.02
1.16
0.3
-0.56
-1.42
D_PI_1(ETA)
-2.28
  1  1   1  
 i  i   x Ti   ,
PI_1(ETA)
-3.14
2
En general,
1.2
1
0.8
0.6
0.4
0.2
0
-4
Probabilidad
Link Logístico
Predictor Lineal
Prof. Lídia Montero ©
exp 
Pàg.
4-1-15
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK
 El cambio de escala que suponen las funciones de link logit y probit numéricamente es:
Probabilidad

0,01
0,05
0,10
0,15
0,20
0,25
0,30
0,50
0,70
0,75
0,80
0,85
0,90
0,95
0,99
Prof. Lídia Montero ©
Probit
1 
Log-odds
  
log
  x
1  
 1    x
C_log-log
   
   x
log log
 1  

 
Log-log
   
 log log    x
   
  
0,0101
0,0526
0,1111
0,1765
0,2500
0,3333
0,4286
1,0000
2,3333
3,0000
4,0000
5,6667
9,0000
19,0000
99,0000
-4,5951
-2,9444
-2,1972
-1,7346
-1,3863
-1,0986
-0,8473
0,0000
0,8473
1,0986
1,3863
1,7346
2,1972
2,9444
4,5951
-2,3263
-1,6449
-1,2816
-1,0364
-0,8416
-0,6745
-0,5244
0,0000
0,5244
0,6745
0,8416
1,0364
1,2816
1,6449
2,3263
-4,60015
-2,97020
-2,25037
-1,81696
-1,49994
-1,24590
-1,03093
-0,36651
0,18563
0,32663
0,47588
0,64034
0,83403
1,09719
1,52718
-1,52718
-1,09719
-0,83403
-0,64034
-0,47588
-0,32663
-0,18563
0,36651
1,03093
1,24590
1,49994
1,81696
2,25037
2,97020
4,60015
Odds

Pàg.
4-1-16
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK
 Las funciones log-log y c-log-log están relacionadas mediante la siguiente igualdad:
  
g 3    log log
   
   

     log log

    
  
     g 4    

 Todas las funciones de link anteriormente indicadas son continuas y crecientes en el intervalo abierto
(0,1).
 Las funciones logit y probit están prácticamente relacionadas linealmente en el intervalo entre 0.1 y
0.9.
 Para probabilidades pequeñas, la función logit y la función log-log complementaria son muy parecidas.
 Para probabilidades
que tienden a 1, la función log-log complementaria tiende a infinito más
lentamente que la función logit.
 Para probabilidades cercanas a 1 la función logit y la función log-log son muy parecidas.
Prof. Lídia Montero ©
Pàg.
4-1-17
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: RESPUESTAS BINOMIALES. FUNCIONES DE LINK
1.2
1
PI_1(ETA)
0.8
PI_2(ETA)
0.6
PI_3(ETA)
0.4
PI_4(ETA)
0.2
Prof. Lídia Montero ©
Pàg.
4-1-18
3.64
3.19
2.74
2.29
1.84
1.39
0.94
0.49
0.04
-0.41
-0.86
-1.31
-1.76
-2.21
-2.66
-3.11
-3.56
ETA
0
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
4-1-3. TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS
Para resumir las conclusiones de un estudio es conveniente expresar las magnitudes de los efectos
estimados en una escala de fácil interpretación, que no tiene porqué coincidir con la escala representada
por la función de link.
 Si se empleado el link canónico y continuando con el ejemplo de la selección modal público-privado, con
2 factores A y C, el modelo para los log-odds de una respuesta satisfactoria (transporte público):
  
  log
  1 x1
   
0 
x 2      x T 
   
 O bien, en función de los odds de una respuesta positiva (satisfactoria):

 


 exp   exp x T   exp 0   1 x1   2 x 2 
 Lo que permite encontrar la expresión de la probabilidad de una respuesta positiva
(inversa de la función de link) como,


  g11  
exp 0   1 x1   2 x 2 
exp 
exp x T 



1  exp  1  exp x T  1  exp 0   1 x1   2 x 2 
Prof. Lídia Montero ©

Pàg.

4-1-19
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS
 … y por tanto la probabilidad de respuesta negativa es,
  
1
1
1


1  exp  1  expX  1  exp 0  1 x1   2 x2 
 La interpretación del modelo en la escala de los log-odds seria:
1. Si se supone que los factores representados por los regresores x1 y x2 son no correlacionados,
entonces el efecto de un cambio en una unidad de x2 es incrementar el log-odd de una respuesta
positiva en una cantidad igual a su parámetro
2
.
2. Equivalentemente en la escala de los odds, el efecto de un cambio en una unidad de x2 es
incrementar el odd de una respuesta positiva en una cantidad igual a la exponencial de su parámetro
exp 2  .
3. La interpretación en la escala de las probabilidades de respuesta positiva son más complicadas, ya
que el efecto sobre la probabilidad de una unidad de cambio en x2 depende de los valores de x1 y x2.
La derivada parcial de la probabilidad de respuesta positiva

respecto es

      2
,
x 2
lo que ilustra que el efecto de un pequeño cambio x2 en la probabilidad de respuesta positiva tiene
mayor efecto si
Prof. Lídia Montero ©

está cerca de 0.5 que si está cerca de 0 o de 1.
Pàg.
4-1-20
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: INTERPRETACIÓN DE LOS PARÁMETROS
El
gráfico
de
la
derivada
 '      1    
de
para
la
probabilidad
     
de
respuesta
positiva
expresado en función de
ayuda a visualizar las conclusiones, ya que se detecta un máximo en
  
,
respecto
 '       ,
:
0.3
0.25
0.2
0.15
0.1
0.97…
0.96…
0.94…
0.90…
0.84…
0.76…
4-1-21
0.66…
Pàg.
0.53…
0.41…
0.19…
0.12…
0.08…
0.04…
0.29…
Prof. Lídia Montero ©
0.02…
0.01…
0.05
0
,
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS
 El procedimiento iterativo método de los scores no suele presentar problemas de convergencia,
excepto cuando uno o más estimadores de los parámetros toman valor infinito, en cuyo caso no
converge, lo que implica que las probabilidades ajustadas son cero o uno, debido a que hay
observaciones
yi  0
o
y i  mi . A pesar de que el proceso de estimación de los parámetros 
converge, los valores ajustados si que convergen hacia un valor
límite.
ˆ
no
y la devianza también hacia un valor
La implicación es que la función de log-verosimilitud es muy plana o tiene una asíntota y por tanto ni los
estimadores de los parámetros ni las estimaciones de su error estándar deben ser creídos.
 Se han demostrado resultados de existencia y unicidad de los estimadores de los parámetros si la
función de link empleada es cualquiera de las 4 indicadas en el apartado 4-1-2.1 y si
0  y i  mi para
todas las clases definidas por las covariables.
 La calidad del punto inicial no es muy determinante puesto que reduce en pocas iteraciones la
convergencia del algoritmo, sin embargo, un valor inicial muy extremo, respecto al óptimo desconocido,
puede llevar a la divergencia del algoritmo.
Prof. Lídia Montero ©
Pàg.
4-1-22
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO
4-1-3.1 Medidas de bondad del modelo
Sean
̂
los estimadores resultantes del proceso iterativo, estos estimadores determinan un valor del
predictor lineal
̂
y a través de la función de link unas probabilidades ajustadas (valores medios ajustados
1
ˆ
ˆi  .


g
por clase de covariable):
i
 La función devianza escalada tiene por expresión,
D' y, ˆ   2 (y, y)  2 ˆ , y  .
 La devianza se define como la devianza escalada por el parámetro de dispersión y son idénticas en este
caso:
Dy, ˆ   D' y, ˆ   D' y, ˆ 
El modelo maximal
Yi  B mi ,  i 
(y, y) implica unas probabilidades ajustadas
modelo maximal como
Prof. Lídia Montero ©
si
(~ , y) .
Pàg.
4-1-23
~i 
yi
mi , lo que permite notar el
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO
 Quedándonos con el resultado final, la expresión de la devianza resulta:

 yi 
 mi  yi   
  mi  yi  log
 
Dy, ˆ   Dy, ˆ   2  yi log
i 1 
 miˆ i 
 mi  miˆ i   
n
 En muchos textos específicos de regresión logística, el estadístico D, devianza, suele expresarse como,
D2
n
 oi log

postiva , negativa i 1
1. El sumatorio interno indica por
oi  y i
2. El sumatorio interno indica por
o i  mi  y i
oi
ei
donde,
los valores observados en el grupo con respuesta positiva.
los valores observados en el grupo con respuesta
negativa.
3. El sumatorio interno indica por
ei  mi̂ i
4. El sumatorio interno indica por
ei  mi  mi̂ i
los valores esperados en el grupo con respuesta positiva.
los valores observados en el grupo con respuesta
negativa.
Prof. Lídia Montero ©
Pàg.
4-1-24
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO
 El uso de la devianza como estadístico de bondad del ajuste requiere de resultados asintóticos sobre
su distribución y se le suele atribuir a menudo, a la ligera, que
como una
2
 n
p
(no confundir con
D Y , ˆ 
se distribuye asintóticamente
 N2  p ).
 Recordar que el p valor de la Devianza (Escalada y siempre entendida como residual) es la probabilidad
que la distribución de referencia tome un valor superior a la devianza. Si el p valor supera el límite del
5% habitual, entonces no hay evidencia para rechazar la hipótesis nula y por tanto la discrepancia
entre valores observados y predichos es ‘pequeña’ y se acepta la bondad del modelo.
 Semejante al Cp Mallows se emplea para valorar la calidad de modelos, el AIC, definido por Akaike
(1974). Sea MB el modelo con p parámetros
AIC.
AICB 2  ˆ B , y  p  . Se busca el mínimo
 Dentro de la misma línea y con idea de penalizar la log-V a medida que aumenta p, se calcula el
estadístico BIC (Bayesian Information Criteria) (en SAS©), también denominado criterio de Schwartz
BICB  2 ˆ B , y  p log n . Se da preferencia a modelos con mínimo BIC.
 Tanto el AIC, como el BIC pueden emplearse para comparar modelos no forzosamente
jerárquicos.
Prof. Lídia Montero ©
Pàg.
4-1-25
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO
 La distribución asintótica sólo es cierta ante condiciones muy restrictivas y que difícilmente se van a
dar en estudios prácticos (McCullagh, para detalles técnicos); por tanto, la devianza no es
directamente utilizable como medida de la bondad del ajuste, pero sí para comparar dos modelos
jerárquicos: por ejemplo,
Sea MA el modelo actual con q parámetros y sea MB el modelo con p > q parámetros, sean
ˆ B ,
A
las respectivas probabilidades estimadas, es decir
    1T ,  2T
Y
   1T

ˆ A
y
con dim(
)=q<p,
La reducción en la devianza
D AB
se expresa:
D AB  Dy , ˆ A   Dy , ˆ B   2 (~, y)  2 ˆ A , y   2 (~, y)  2 ˆ B , y   2 ˆ B , y   2 ˆ A , y 
D AB  D y , ˆ A   D y , ˆ B 
tiene una distribución aproximada de
número de observaciones en cada clase de covariable
Prof. Lídia Montero ©
Pàg.
4-1-26
mi
2
 p
q
si
n es grande o bien el
es grande.
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO
 El test de la devianza es equivalente al test de Fisher del modelo lineal general clásico.
 El test equivalente al test t de Student para los coeficientes del modelo es el test de Wald. El
ˆ 

j
j
ˆ

Z
asint . N 0,1



0
j
j
estadístico de Wald para el contraste de H0:
seria:
, si
ˆ ˆ
j
H0 es cierta.
 El intervalo de confianza asintótico bilateral a un nivel
z / 2
 viene dado por
ˆ j  z / 2ˆ ˆ
es el valor de la ley normal estándar que deja una probabilidad por la derecha de
j
, donde
 2.
 El contraste de hipótesis múltiples en algunos textos se propone a través del estadístico de Wald, sin
embargo tiene poca potencia y el procedimiento sugerido en este curso es a través de la reducción de
la devianza.
 El estadístico de Wald surge de manera natural en el contexto de estimación de los parámetros por
maximización de verosimilitud, ya que asintóticamente (ver el Tema 1) :
donde

ˆ    N p 0,  1  ,
   UU T
 es la matriz de información esperada de Fisher (varianza de los scores), que se
aproxima por
XTWX
Prof. Lídia Montero ©
correspondiente a la convergencia del método de los scores.
Pàg.
4-1-27
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO
 O equivalentemente, en términos de la ley

 
.
 2p , ˆ   
T
T
ˆ
    ˆ  
Recordar que: V ˆ
donde el estadístico de
1
T


     IE   IEˆ   IOˆ  .
 :    puede contrastarse por W  ˆ    V ˆ  ˆ      .
ˆ
ˆ
ˆ
 
Si    ,   con dim(  )=q<p y  :   0 entonces W   V   
Wald es W=


 ˆ     2p ,
0
0
0
T
T
1
1
T
2
2
0
2
p
0
T
2
2
1
2
2
2
q .
 Si dim(  2 )=1 entonces  0 :  2  0 se toma la raíz cuadrada del estadístico de Wald y se trata
ˆ2
habitualmente el cociente como una normal estándar: z 
 
V ˆ2
 N 0, 1 .
 La devianza tiene un papel análogo a la suma de cuadrados residual de los modelos lineales generales
clásicos, lo que permite definir el análogo al coeficiente de determinación
que se define como,
R2  1
R2
de los modelos lineales,
Dy ,  A 
G y ,  A 

donde G y,  A   Dy ,  0   Dy,  A  ,
Dy ,  0  G y,  A   Dy,  A 
0  R2  1
Prof. Lídia Montero ©
Pàg.
4-1-28
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO
….
Dy ,  A 
donde
es la devianza del modelo A a contrastar (debe contener término
Dy ,  0  es la devianza del modelo .
independiente),
 La esparsidad en los modelos de respuesta binaria se da cuando el número de observaciones por clase
de covariable es pequeño, en el caso extremo
mi  1 , no habrán problemas en la estimación ni en los
estadísticos de goodness of fit si n (número de clases de covariables) es grande.
 Otra medida de bondad del ajuste empleada en muchos textos sobre regresión logística es el
estadístico de Pearson
2
X
, asintóticamente distribuido como una
2
 n
p , al igual que el estadístico D,
devianza. El estadístico de Pearson generalizado coincide en respuesta binaria con el clásico y es:
 yi  miˆ i 2

i 1 mi ˆ i 1  ˆ i 
n
X
2
2
n
 n mi  y i  ˆ i 2  

oi  ei  
 


 i 1 ˆ m  ˆ     

ei
 ,  i 1
i
i
i  


Entre paréntesis aparece la expresión habitual en muchos textos, en función de términos de valores
observados y esperados de respuestas positivas en cada grupo (clase definida por las covariables).
 Ante esparsidad la reducción de la devianza se puede todavía aproximar por una distribución de
2
.
 La extrapolación o predicción fuera del rango de las observaciones de las covariables es delicada, ya
que es altamente dependiente de la calidad de la adaptación de la función de link empleada a los datos.
Prof. Lídia Montero ©
Pàg.
4-1-29
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE LOS PARÁMETROS: BONDAD DEL MODELO
 Hosmer y Lemeshow (1980,1989) han propuesto un estadístico alternativo que no requiere de
agrupaciones en clases de la covariable, la idea consiste en usar las probabilidades predichas por el
modelo para crear 10 grupos 0–0.1, 0.1–0.2, hasta el último grupo de 0.9–1. Para cada grupo se cuentan
las respuestas positivas y negativas observadas y predichas por el modelo, mediante el estadístico de
Pearson tradicional (valores observados menos predichos al cuadrado dividido por valor predicho), que
mediante simulaciones se ha comprobado tiende a una ley de
grados de libertad.
 2 con el número de grupos menos 2
 Otra manera de establecer una valoración de un modelo se base en sus errores de predicción.
Supongamos que se usa el modelo para predecir las respuestas positivas si la probabilidad estimada
excede el valor 0.5 y las respuestas negativas si está por debajo. Posteriormente se puede construir
una tabla de contingencia con las respuestas observadas y predichas y calcular la proporción de casos
correctamente predichos. Como se puede intuir, un modelo que ajusta bien los datos, no
necesariamente puede resultar un buen modelo predictor, ya que este hecho depende de cuan
predecible es la respuesta. Si la predicción fuera el único objetivo de un MLGz, la proporción de
clasificaciones correctas debería ser el criterio ideal para la comparación de modelos y no la
devianza.
Prof. Lídia Montero ©
Pàg.
4-1-30
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO
Se va a definir en general una tabla de clasificación donde se contabilicen para todas las clases de la
covariable n, el número de efectivos en las categorías cruzadas de valor observado (1 o 0) y valor predicho
(1 o 0), donde se considera
yˆ i  1 si ~i  s , donde
s es un umbral entre 0 y 1. Para cada valor del
umbral s que se desee tantear se puede escribir una tabla:
 La sensibilidad es la proporción de verdaderos
Y=1
Y=0
Total
yˆ i  1
a
b
a+b
yˆ i  0
c
d
c+d
a+c
b+d
n
valores 1 que son estimados 1 : Sn =a/(a+c).
 La especificidad es la proporción de verdaderos
valores 0 que son estimados 0: Sp = d/(b+d).
 Los valores predictivos positivos y negativos del
modelo se definen como: P+=a/(a+b) y P- =d/(c+d).
 La curva ROC (Receiver Operating Characteristic) permite representar las repercusiones de la selección
del umbral s respecto la sensibilidad y la especificidad. En abcisas se pone para cada valor s, 1-Sp y en
ordenadas Sn. Si para todo s, la proporción de yˆ i  1 es la misma para las observaciones 1 o 0, entonces
Sn=1-Sp, la curva ROC es la diagonal y el modelo no es informativo (área bajo la curva ½). Un umbral s es
ideal si permite separar totalmente las observaciones 1 y 0, es decir, si c=b=0 y por tanto Sn=1 y 1-Sp=0.
Una
buena
referencia
electrónica
para
trabajar
el
tema
se
encuentra
en
http://gim.unmc.edu/dxtests/ROC1.htm.
Prof. Lídia Montero ©
Pàg.
4-1-31
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO
y 1
y 0
yˆ  1
yˆ  0
Parte de
Especificidad Sp
Parte de
Sensibilidad Sn
El gráfico de la izquierda indica el proceso de
construcción de una curva ROC para s fijado y la
gráfica de la derecha muestra 3 curvas ROC que
representan modelos con capacidades predictivas
respectivas excelente, buena y muy mala. La
capacidad predictiva depende de cuan bien separe
el modelo de grupo de verdaderos positivos y es el
área bajo la curva ROC. A título de guía para
clasificar la capacidad predictiva del modelo en
Prof. Lídia Montero ©
Pàg.
cuestión se da el siguiente criterio en función del
área bajo la curva ROC:
.90-1 = excelente(A)
.80-.90 = buena (B)
.70-.80 = media (C)
.60-.70 = mala (D)
.50-.60 = muy mala (F)
4-1-32
Curs 2.012-2.013
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: BONDAD DEL AJUSTE – CAPACIDAD PREDICTIVA DEL MODELO
 Se definen cuatro índices de asociación entre las probabilidades observadas y las probabilidades
predichas. Para definirlas se consideran todos los pares de observaciones con valores de Y distintos,
son H= (a+c)(b+d).
o … para cada par se calcula la probabilidad predicha y si es superior para la observación y=1 que
para y=0 se dice que el par es concordante.
o … si la probabilidad predicha es inferior para la observación y=1 que para y=0 se dice que el par
es discordante.
o Y si tiene la misma probabilidad se dice que hay empate (tie).
o Sea C el número de pares concordantes, D el número de pares discordantes y T el número de
empates.
 Los índices de asociación relativos a la capacidad predictiva del modelo son:
Tau de Kendall = (C-D)/H
Gamma = (C-D)/(C+D)
D de Sommer = (C-D)/(C+D+T)
C=0.5(1+D de Sommer)
 La capacidad predictiva mejora en la medida que los índices se aproximan a 1 y el índice c
corresponde al área bajo la curva ROC. Estos índices aparecen en MINITAB.
Prof. Lídia Montero ©
Pàg.
4-1-33
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO
4-1-3.2 Diagnóstico del modelo
Los procedimientos de análisis de los residuos y detección de valores influyentes para la diagnosis de la
calidad del modelo de regresión lineal normal clásico, han sido extendidos, con mayor o menor fortuna, a los
modelos lineales generalizados.
 En la presente sección, se presentan los procedimientos de diagnosis del modelo de respuesta binaria
(génesis debida a Pregibon (1981), exposición según Fox (1991)): residuos estudentizados, leverages,
estadístico de Cook, plots de los residuos, etc.
 El residuo se define como la diferencia entre el valor observado y el valor ajustado, para cada
observación:
ei  yi  yˆ i  y i  mi̂ i .
 El residuo de Pearson o el residuo de la devianza, definidos en el Tema 1, facilitan la noción de
contraste entre los valores observados y los valores ajustados por el modelo.
Sin embargo, ninguno de los dos tipos de residuos anteriores tiene una distribución normal y son
difíciles de analizar, dadas las características discretas de las observaciones y los residuos por grupos
(algo parecido a la dificultad del análisis de los residuos en el análisis de la varianza). De todos modos,
combiene examinar cualquier residuo que en valor absoluto supere la magnitud de 2.
Prof. Lídia Montero ©
Pàg.
4-1-34
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO
 La analogía con los mínimos cuadrados ponderados permite a algunos autores definir el valor ajustado
T
ˆ
x


en la escala logit i
i ̂
y el residuo logit
ei* 
ei
miˆ i 1  ˆ i  .
 El diagrama bivariante de los valores ajustados en la escala logit (abcisas) frente a los residuos logit
(ordenadas), permiten una interpretación similar, pero en la escala logit, a sus homónimos en la
regresión lineal normal clásica.
 Los problemas de no linealidad en la escala logit pueden detectarse a veces mediante diagramas
bivariantes, tantos como regresores, de los residuos logit (en ordenadas) frente a cada regresor.
 La matriz sombrero (matriz de proyección,
Ŷ  PY )
empleada para la detección de valores
influyentes a priori en la regresión lineal normal clásica a través de cotas a sus valores diagonales, se
redefine en los MLGz según Pregibon como,

P  W X X WX
12

T

1
X T W1 2
P es simétrica e idempotente, con valores diagonal entre 0 y 1 y cuyo valor medio es p/n. Los
influyentes a priori pueden detectarse mediante observaciones cuyo valor de la diagonal de P,
La matriz
valores
esté a más de 2 veces la media. Tiene por tanto una interpretación análoga, sin embargo depende de las
observaciones y los valores estimados, a través de
Prof. Lídia Montero ©
Pàg.
W.
4-1-35
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO
 La matriz W debe corresponder a la iteración en que ha detectado la convergencia del método de los
scores en la estimación de los parámetros.
 El empleo de la matriz de pseudo- proyección P permite definir los residuos estudentizados, aunque
formalmente interesantes a pesar de su compleja justificación, en la práctica como ya se indicó en el
Tema 2 no resultan imprescindibles.
 Los valores influyentes a posteriori se detectan mediante el análogo al estadístico de Cook de los
modelos clásicos que se justifica a partir del estadístico de Wald para el contraste de significación H0:
  0 ,
   ˆ     ˆ    X

T
Z 02  ˆ   0 Vˆ ˆ
Z 2i 
Sea el estadístico de Wald
1
T
0
0
T

WX ˆ   0
calculado para la prueba de hipótesis H0:

  ˆi  , es decir, si
puede aceptarse la hipótesis que los parámetros son iguales a los estimadores de los parámetros del
modelo MLGz donde se ha suprimido la observación i-ésima; en definitiva, es una medida de la
“distancia” entre
Es decir,
Z
Prof. Lídia Montero ©
2
 i 
ˆ

y
ˆ i  ( d i  ˆ  ˆi  ).

T


 ˆ  ˆi  X WX ˆ  ˆi  
T
Pàg.
4-1-36
ei2
1  pii 
2

x Ti X T WX

1
xi
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: ESTIMACIÓN DE PARÁMETROS Y DIAGNOSIS DEL MODELO
 La influencia de una observación es directamente proporcional a su residuo y su leverage (diagonal
correspondiente en la matriz de pseudo-proyección P). Se realiza:
1. Un diagrama bivariante con el leverage en ordenadas y el número de observación i en abcisas. Se
buscan observaciones con valores superiores a 2p/n.
2. Un diagrama bivariante con la “distancia” de Cook en ordenadas y el número de observación i en
abcisas.
3. Un diagrama bivariante con los residuos (Pearson o devianza o logit, según gusto y talento
interpretativo del estadístico) en ordenadas y el número de observación i en abcisas.
4. Si el paquete estadístico lo permite fácilmente, los 3 gráficos se pueden fusionar en 2: primero,
diagrama bivariante de residuos en ordenadas y leverages en abcisas con identificador del número
de observación en cada punto del diagrama; segundo, diagrama bivariante de residuos en ordenadas
y “distancia” de Cook en abcisas con identificador del número de observación en cada punto del
diagrama
 Se aconseja detectar valores atípicos por criterios de estadística descriptiva, más que emplear
directamente la referencia de la distribución asintótica del estadístico de Wald correspondiente.
Prof. Lídia Montero ©
Pàg.
4-1-37
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
4-1-4. TEMA 4-1: EJEMPLOS
4-1-4.1 Ejemplo 1 (Dobson)
Se desea estudiar la germinación de cultivos de algas en base a un factor de almacenamiento que tiene dos
categorías, 1 (base-line, sin almacenamiento posterior al cultivo) y 2 (con almacenamiento posterior durante
48 horas a 3ºC); y una covariable X que indica la fuerza centrífuga aplicada durante la preparación del
cultivo, de hecho X sólo puede tomar 3 valores, 40, 150 y 300. Los resultados de germinación se ilustran en
la siguiente tabla. Se desea determinar el modelo logístico más adecuado.
X’: Fuerza centrífuga
Factor
Nada
Nevera
Prof. Lídia Montero ©
40
150
350
yi  y1k
55
52
57
mi  m1k
102
99
108
yi  y 2 k
55
50
50
mi  m 2 k
76
81
90
Pàg.
4-1-38
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)
 O bien de manera alternativa, la respuesta Y (en columnas), el factor C (subtabla) y el factor A
(filas):
FACTOR C
C1 =log 40
FACTOR A
C2 =log 150
FACTOR B – Respuesta FACTOR B – Respuesta Y
Y
B1
Y=0
BJ=2
Y=1
SUBTOT
AL
A1 = 1 Nada
47
55
AI=2 =2 Nevera
21
SUBTOTAL
68
TOTAL
Prof. Lídia Montero ©
CK=3 =log 350
FACTOR B – Respuesta Y
TOTAL
SUBTO
TAL
B1
BJ=2
Y=0
BJ=2
Y=1
Y=0
Y=1
SUBTO
TAL
102
47
52
99
51
57
108
309
55
76
31
50
81
40
50
90
247
110
178
78
102
180
91
107
198
B1
178
180
Pàg.
4-1-39
198
556
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)
El número de grupos o clases de las covariables es n=6=2x3. Para recuperar la notación habitual en el
análisis de la covarianza clásico, la clases i se identificaran por la categoría del factor (j=1- nada, j=2 nevera) y por valor ascendente de la covariable X’ (k=1 para 40, k=2 para 150 y k=3 para 350) que va a
recibir un tratamiento continuo. Sea
X=log(X’).
Modelo 3: Interacciones entre factor y covariable, rectas
 jk
1  1 xk
  j   j xk  
log
1   jk
1   2   1   2 xk
Modelo completo con p=4 parámetros:
con distintos intercept y pendiente
j 1
j 2,
i
 1 I 2i
log
1 i
xi
 1 
 
 2 

x2 i  

 1.
 
 2
¿Sabrías escribir la matriz de diseño?
Prof. Lídia Montero ©
Pàg.
4-1-40
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)
Modelo 2: Sin interacciones entre factor y covariable, rectas paralelas,
Modelo con p=3 parámetros:
i
log
 1 I 2i
1i
Modelo 1: Sin efecto del factor, recta única,
Modelo con p=2 parámetros:
Modelo 0: Constante,
Prof. Lídia Montero ©
log
 jk
log
  j   xk
,
1   jk
 1 
 
xi   2 
  .
 
 jk
log
    xk
,
1   jk
 
i
 1 xi  
1 i
  .
i
 jk
 1
log
  . Modelo con p=1 parámetros: log
1 i
1   jk
   .
Pàg.
4-1-41
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)
MTB > Name c6 = 'PRES1' c7 = 'DRES1' c8 = 'HI1'
MTB > BLogistic 'Yjk' 'm_i' = c1 c5 c1*c5;
SUBC>
ST;
SUBC>
Factors c1;
SUBC>
Logit;
SUBC>
Reference Factor 1;
SUBC>
Presiduals 'PRES1';
SUBC>
Dresiduals 'DRES1';
SUBC>
Hi 'HI1';
SUBC>
Gpdchisquare;
SUBC>
Gpddeviance;
SUBC>
Ghdchisquare;
SUBC>
Ghddeviance;
SUBC>
Brief 2.
Binary Logistic Regression: Yjk; m_i versus Factor; X
Link Function: Logit
Response
Variable
Yjk
m_i
Information
Value
Success
Failure
Total
Count
319
237
556
Logistic Regression Table
Predictor
Constant
Factor
2
X
Factor*X
MODELO 3
Coef
0,2339
SE Coef
0,6284
Z
P
0,37 0,710
1,9771
-0,0227
0,9980
0,1268
1,98 0,048
-0,18 0,858
Prof. Lídia Montero ©
Pàg.
Odds
Ratio
7,22
0,98
4-1-42
95% CI
Lower
Upper
1,02
0,76
51,07
1,25
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
2
-0,3186
0,1989
-1,60 0,109
0,73
0,49
Log-Likelihood = -374,109
Test that all slopes are zero: G = 10,424; DF = 3; P-Value = 0,015
Goodness-of-Fit Tests
Method
Chi-Square
Pearson
0,028
Deviance
0,028
Hosmer-Lemeshow
0,028
DF
2
2
4
1,07
P
0,986
0,986
1,000
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Value
Success
Obs
Exp
Failure
Obs
Exp
Total
Group
3
4
1
2
57
56,7
52
52,5
55
54,8
51
51,3
47
46,5
47
47,2
108
99
102
5
6
Total
50
49,7
50
50,4
55
54,8
319
40
40,3
31
30,6
21
21,2
237
90
81
76
556
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total
Number
36422
26540
12641
75603
Percent
48,2%
35,1%
16,7%
100,0%
Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
0,13
0,16
0,06
MTB > Name c9 = 'PRES2' c10 = 'DRES2' c11 = 'HI2'
MTB > Name c12 = 'PRES3' c13 = 'DRES3' c14 = 'HI3'
MTB > BLogistic 'Yjk' 'm_i' = c1 c5 ;
Prof. Lídia Montero ©
Pàg.
4-1-43
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
SUBC>
SUBC>
SUBC>
SUBC>
SUBC>
SUBC>
SUBC>
SUBC>
SUBC>
SUBC>
SUBC>
SUBC>
ST;
Factors c1;
Logit;
Reference Factor 1;
Presiduals 'PRES3';
Dresiduals 'DRES3';
Hi 'HI3';
Gpdchisquare;
Gpddeviance;
Ghdchisquare;
Ghddeviance;
Brief 2.
Binary Logistic Regression: Yjk; m_i versus Factor; X
Link Function:
Logit
Response
Information
Variable
Yjk
Value
Success
Failure
Total
m_i
Count
319
237
556
Logistic Regression Table MODELO 2
Predictor
Constant
Factor
2
X
Coef
0,8767
SE Coef
0,4870
Z
P
1,80 0,072
0,4068
-0,15459
0,1746
0,09702
2,33 0,020
-1,59 0,111
Odds
Ratio
1,50
0,86
95% CI
Lower
Upper
1,07
0,71
2,12
1,04
Log-Likelihood = -375,404
Test that all slopes are zero: G = 7,833; DF = 2; P-Value = 0,020
Goodness-of-Fit Tests
Prof. Lídia Montero ©
Pàg.
4-1-44
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
Method
Pearson
Deviance
Hosmer-Lemeshow
Chi-Square
2,598
2,619
2,598
DF
3
3
4
P
0,458
0,454
0,627
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Group
Value
1
2
3
4
5
6
Total
Success
Obs
57
52
55
50
50
55
319
Exp
53,2 52,0 58,8 53,4 50,6 51,0
Failure
Obs
51
47
47
40
31
21
237
Exp
54,8 47,0 43,2 36,6 30,4 25,0
Total 108
99
102
90
81
76
556
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Number Percent
Summary Measures
Concordant
36422
48,2%
Somers' D
0,13
Discordant
26540
35,1%
Goodman-Kruskal Gamma
0,16
Ties
12641
16,7%
Kendall's Tau-a
0,06
Total
75603
100,0%
MTB > Name c15 = 'PRES4' c16 = 'DRES4' c17 = 'HI4'
MTB > BLogistic 'Yjk' 'm_i' = c5 ;
SUBC>
ST;
SUBC>
Logit;
SUBC>
Presiduals 'PRES4';
SUBC>
Dresiduals 'DRES4';
SUBC>
Hi 'HI4';
SUBC>
Brief 2.
Binary Logistic Regression: Yjk; m_i versus X
Link Function: Logit
Prof. Lídia Montero ©
Pàg.
4-1-45
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
Response
Variable
Yjk
Information
Value
Count
Success
319
Failure
237
m_i
Total
556
Logistic Regression Table MODELO 1
Odds
95% CI
Predictor
Coef
SE Coef
Z
P
Ratio
Lower
Upper
Constant
1,0213
0,4813
2,12 0,034
X
-0,14784
0,09650
-1,53 0,125
0,86
0,71
1,04
Log-Likelihood = -378,141
Test that all slopes are zero: G = 2,360; DF = 1; P-Value = 0,124
Goodness-of-Fit Tests
Method
Chi-Square
Pearson
0,010
Deviance
0,010
Hosmer-Lemeshow
0,010
DF
1
1
1
P
0,921
0,921
0,921
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Group
Value
1
2
3
Total
Success
Obs
107
102
110
319
Exp
106,7 102,5 109,8
Failure
Obs
91
78
68
237
Exp
91,3 77,5 68,2
Total
198
180
178
556
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Prof. Lídia Montero ©
Number
Percent
Summary Measures
Pàg.
4-1-46
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
Concordant
Discordant
Ties
Total
MTB > Save
MTB >
27872
22558
25173
75603
36,9%
29,8%
33,3%
100,0%
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
0,07
0,11
0,03
"G:\LIDIA\MLGz2000\MLGZ_00_1\Binari_ex1.mpj";
Prof. Lídia Montero ©
Pàg.
4-1-47
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)
 Interpretación de los parámetros:
Modelo 3
Modelo 2
Modelo 1
a1= 0.238
a1 = 0.877
a = 1.021
a2= 1.977
a2 = 0.407
b1= - 0.023
b= - 0.155
b= - 0.148
LogL= -374.109
LogL= -375.404
LogL= -378.141
D3= 0.0277
D2= 2.619
D1= 8.092
b2= - 0.319
D23  2.591
y
D12  5.473
deben contrastarse con una
 12 .
 En el primer caso se aceptaría la hipótesis nula (pendientes idénticas) aunque la potencia del test es
muy baja y en el segundo caso se rechazaría la hipótesis nula y se concluiría que el efecto del
almacenamiento es relevante.
 En base únicamente al análisis de la devianza, el mejor modelo es el Modelo 2 de pendientes paralelas.
 Obsérvese que se ha definido la categoría 1 (Nada) del Factor como la categoría de referencia.
La categoría de referencia en la respuesta es la positiva (1).
Prof. Lídia Montero ©
Pàg.
4-1-48
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)
 Organización de los contrastes en forma de tabla de análisis de la devianza: La descripción de los
modelos se indica de manera sintética, si la salida de Minitab no facilitara la devianza, sinó únicamente
el valor de la función de log-verosimilitud en el óptimo, a partir de éste pueden calcularse los
incrementos de devianza entre modelos jerárquicos:
D pq  2y, y   ˆ p , y   2y, y   ˆ q , y   2 ˆ p , y   ˆ q , y 
Análisis de la Devianza
Modelo
n-p
Devianza o
Devianza
g.l.
Modelo
Log-Verosimilitud
0 1
5
¿?
¿?
1
Constante
1 X
4
-378.141
5.473
1
Recta simple
2 F+X
3
-375.404
2.591
1
Rectas Paralelas
3 F*X
2
-374.109
R2 
Interacción Factor-Cov.
G y ,  2 
7.833

 0.749
2.619  7.833
G y ,  2   D y ,  2 
¿Sabrías cual es el valor de D0?
Prof. Lídia Montero ©
Pàg.
4-1-49
Curs 2.011-2.012
pq
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)
La capacidad predictiva del modelo depende del valor
c=0.5(1+D Sommer)=0.5*(1+0.13)=0.575, por tanto es muy
mala.
Scatterplot of SENSIB; 1-ESPECIF vs 1-ESPECIF
0,250000
0,492784
1,0
Veamos el proceso de construcción de la curva ROC.
0,525508
0,525508
0,8
Y-Data
0,576020
0,576020
0,6
0,593385
0,593385
0,4
0,624563
0,671129
0,2
0,624563
0,671129
0,0
0,700000
0,0
Y
55
52
57
55
50
50
M
102
99
108
76
81
90
X
40
150
350
40
150
350
Prof. Lídia Montero ©
LOG_X
3,68888
5,01064
5,85793
3,68888
5,01064
5,85793
FactorA
Res
Res
Res
Nevera
Nevera
Nevera
EPRO3
0,576020
0,525508
0,492784
0,671129
0,624563
0,593385
SENSIB
1,00000
1,00000
0,82132
0,65831
0,48589
0,32915
0,17241
0,00000
Pàg.
4-1-50
0,2
0,4
0,6
1-ESPECIF
0,8
1,0
1-ESPECIF S
FITY=1/Y=1 FITY=1/Y=0
1,00000 0,250000
319
237
1,00000 0,492784
319
237
0,78481 0,525508
262
186
0,58650 0,576020
210
139
0,38819 0,593385
155
92
0,21941 0,624563
105
52
0,08861 0,671129
55
21
0,00000 0,700000
0
0
Curs 2.011-2.012
Variable
SENSIB
1-ESPEC IF
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 1 (DOBSON)
En R, calcular l’estadístic de X2 de Pearson: suma els quadrats dels residus de Pearson:
sum( resid( model, ‘pearson’) ^2 )
Es pot comprovar que sumant els quadrats dels residus de la deviança, surt l’estadístic deviança residual
del model (per defecte, facilitat):
sum( resid( model, ‘deviance’) ^2 )
==
model$deviance
Para calcular curvas ROC: Instalar paquete ROCR.






library("ROCR")
dadesroc<-prediction(predict(lm2_logit,type="response"),ars$resposta)
par(mfrow=c(1,2))
plot(performance(dadesroc,"err"))
plot(performance(dadesroc,"tpr","fpr"))
abline(0,1,lty=2)
Prof. Lídia Montero ©
Pàg.
4-1-51
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)
4-1-4.2 Ejemplo 2 (Fox)
En 1977 se realizó una encuesta sociodemográfica a la población de Canadá. El modelo lineal generalizado
que se plantea investiga el análisis de la relación entre las mujeres jóvenes casadas que trabajan en función
de la existencia de hijos en el hogar, los ingresos de sus maridos y la región del país donde residen.
 La variable de respuesta es dicotómica: trabaja frente a no trabaja (para cada mujer joven casada que
interviene en el modelo). Originariamente en los datos la variable tiene 3 categorías, lo que será
aprovechado en un ejemplo del Tema 5.
 La presencia de hijos en el hogar es el factor A, que tiene 2 categorías (SI, NO). Categoría base: NO (la
constante corresponde al valor medio de la categoría NO).
 La región del Canadá es un factor politómico B, con 5 categorías. Los ingresos del marido (en miles de
dólares) es la covariable X.
 La intuición indica una interacción entre los ingresos de los maridos (X) y la presencia de hijos (A).
Prof. Lídia Montero ©
Pàg.
4-1-52
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)
WOMEN'S LABOUR-FORCE PARTICIPATION DATASET, CANADA 1977
[1] OBSERVATION
[2] LABOUR-FORCE PARTICIPATION
fulltime = WORKING FULL-TIME
parttime = WORKING PART-TIME
not_work = NOT WORKING
OUTSIDE THE HOME
[3] HUSBAND'S IINCOME, $1000'S
[4] PRESENCE OF CHILDREN
absent
present
[5] REGION
Atlantic = ATLANTIC CANADA
Quebec
Ontario
Prairie = PRAIRIE PROVINCES
BC
= BRITISH COLUMBIA
Source: Social Change in Canada Project, York Institute for Social Research.
DATA:
1
2
…
253
254
255
256
257
…
263
ENDDATA
not_work
not_work
15
13
present
present
Ontario
Ontario
not_work
parttime
fulltime
not_work
fulltime
13
23
11
9
2
present
present
absent
absent
absent
Quebec
Quebec
Quebec
Quebec
Quebec
not_work
15
present
Quebec
Prof. Lídia Montero ©
Pàg.
4-1-53
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)
La tabla contiene el análisis de la devianza para diversos modelos. El modelo más adecuado contiene X y A,
cuyo coeficiente negativo indican que ante la presencia de niños y mayores ingresos masculinos es menor la
incidencia del trabajo femenino.
Análisis de la Devianza
Modelo
p
Devianza o
Devianza
g.l.
LogVerosimilitud
Comentarios
Contraste
H 0 Accept.
0 1
1
¿?
39.609
7
0 vs 8
No
1 A
2
-162.279
4.826
1
1 vs 3
No
2 X
2
-175.528
31.324
1
2 vs 3
No
3 A+X
3
-159.866
2.43
4
3 vs 7
Si
4 A+B
6
-161.213
5.124
1
4 vs 7
No
5 B+X
6
-171.322
25.342
1
5 vs 7
No
6 A+A*X
4
-159.562
2.582
4
6 vs 8
Si
7 A+B+X
7
-158.651
0.76
1
7 vs 8
Si
8 A+B+A*X
8
-158.271
Prof. Lídia Montero ©
 12, 0.05  3.84
Pàg.
4-1-54
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)
 El contraste de M7 vs M8 indica que las interacciones entre los ingresos masculinos y la presencia de
niños no es estadísticamente significativa (Factor A).
 El contraste de M3 vs M7 indica que la región (Factor B) tampoco es estadísticamente significativa.
 Sin embargo, los efectos principales del Factor A (M1 vs M3) y de la covariable (M2 vs M3) son
estadísticamente significativos (se rechazan las correspondientes hipótesis nulas).
log
donde
Prof. Lídia Montero ©
i
 1.336  1.576 Factor Ai  0.04231xi
1 i
Factor Ai  1 si hay presencia de niños y 0 de otro modo.
Pàg.
4-1-55
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)
 El análisis de los residuos de la devianza frente a las probabilidades estimadas es:
3
absent
present
DRES1
2
1
0
-1
-2
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
EPRO1
Prof. Lídia Montero ©
Pàg.
4-1-56
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)
 Los residuos de la devianza frente al leverage:
3
absent
present
DRES1
2
1
0
El valor medio del
leverage p/n es
0,06522 y el extremo
superior del intervalo a 2
y 3 veces la distancia es
0.16704 y 0.21795,
respectivamente.
-1
-2
0,0
0,1
0,2
HI1
Prof. Lídia Montero ©
Pàg.
4-1-57
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)
1,0
absent
present
4
absent
present
3
0,5
rlogit6
Ei
2
0,0
1
0
-0,5
-1
-2
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
-2
EPRO1
-1
0
eta_6
 Los residuos son difíciles de interpretar en los modelos lineales generalizados!!!
Prof. Lídia Montero ©
Pàg.
4-1-58
Curs 2.011-2.012
1
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)
 El modelo propuesto no parece demasiado adecuado a los datos: el logit no es lineal a los ingresos!!!
2
absent
present
4
OLOGIT6
1
absent
present
0
-1
3
-2
0
1
10
20
30
40
50
Income-X
0
2
absent
present
-1
1
-2
0
10
20
30
40
OLOGIT6
rlogit6
2
50
Income-X
0
-1
-2
0
10
20
30
40
Income-X
Prof. Lídia Montero ©
Pàg.
4-1-59
Curs 2.011-2.012
50
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)
 Los 2 gráficos muestran en la escala logit, la comparación entre valores empíricos (considerando una
categorización de INCOME-X cada 10 unidades y con etiquetas el número total de observaciones en la
clase de la covariable correspondiente) y ajustados con el modelo INCOME-X sin categorizar: hay un
problema serio de observaciones influyentes y no linealidad.
3
2
1
43
OLOGIT7
1
ELOGIT6
absent
present
absent
present
0
21
0
12
44
109
-1
-1
26
2
3
-2
-2
0
5
10
15
20
25
30
35
C_INCOMEX
0
10
20
30
40
50
Income-X
Prof. Lídia Montero ©
Pàg.
4-1-60
Curs 2.011-2.012
40
45
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)
Welcome to Minitab, press F1 for help.
MTB > Name c7 = 'PRES1' c8 = 'DRES1' c9 = 'DDEV1' c10 = 'HI1' &
CONT>
c11 = 'EPRO1' m1 = 'XPWX1'
MTB > BLogistic 'Ybin_i' = 'Factor A' 'Income-X';
SUBC>
Factors 'Factor A';
SUBC>
Logit;
SUBC>
Presiduals 'PRES1';
SUBC>
Dresiduals 'DRES1';
SUBC>
Ddeviance 'DDEV1';
SUBC>
Hi 'HI1';
SUBC>
Eprobability 'EPRO1';
SUBC>
XPWXinverse 'XPWX1';
SUBC>
Gpdchisquare;
SUBC>
Gpddeviance;
SUBC>
Ghdchisquare;
SUBC>
Ghddeviance;
SUBC>
Brief 2;
SUBC>
Step.
Binary Logistic Regression: Ybin_i versus Factor A; Income-X
Response Information
Variable
Ybin_i
Value
work
not_work
Prof. Lídia Montero ©
Count
108
155
(Event)
Pàg.
4-1-61
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
Total
263
Logistic Regression Table
Predictor
Constant
Factor A
present
Income-X
Coef
1,3358
SE Coef
0,3838
Z
P
3,48 0,000
-1,5756
-0,04231
0,2923
0,01978
-5,39 0,000
-2,14 0,032
Odds
Ratio
0,21
0,96
95% CI
Lower
Upper
0,12
0,92
0,37
1,00
Log-Likelihood = -159,866
Test that all slopes are zero: G = 36,418; DF = 2; P-Value = 0,000
Goodness-of-Fit Tests
Method
Pearson
Deviance
Hosmer-Lemeshow
Chi-Square
73,229
78,469
5,824
DF
43
43
7
P
0,003
0,001
0,560
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Value
work
Obs
Exp
not_work
Obs
Exp
Total
1
2
3
4
Group
5
6
7
8
9
Total
8
6,2
10
10,2
4
7,9
7
9,0
14
11,3
12
10,4
21
20,7
23
23,9
9
8,4
108
22
23,8
28
27,8
23
19,1
22
20,0
19
21,7
15
16,6
13
13,3
11
10,1
2
2,6
155
30
38
27
29
33
27
34
34
Prof. Lídia Montero ©
Pàg.
4-1-62
11
263
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 2 (FOX)
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs
Concordant
Discordant
Ties
Total
Prof. Lídia Montero ©
Number
11516
4637
587
16740
Percent
68,8%
27,7%
3,5%
100,0%
Summary Measures
Somers' D
Goodman-Kruskal Gamma
Kendall's Tau-a
Pàg.
4-1-63
0,41
0,43
0,20
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
4-1-4.3 Ejemplo 3: Accidentes con heridos según Uso del Cinturón – Agresti (2002)
Datos de 68694 accidentes sucedidos en el estado de Main. Se recoge la gravedad y las variables
explicativas de género, entorno y uso del cinturón. Se estudiará la incidencia en la presencia de heridos de
los factores, por tanto se crea un factor dicotómico: Sin – Con Heridos (ref. Sin)
genero
Mujer
Mujer
Mujer
Mujer
Hombre
Hombre
Hombre
Hombre
Mujer
Mujer
Mujer
Mujer
Hombre
Hombre
Hombre
Hombre
Mujer
Mujer
Mujer
Mujer
entorno
Urbano
Urbano
NoUrbano
NoUrbano
Urbano
Urbano
NoUrbano
NoUrbano
Urbano
Urbano
NoUrbano
NoUrbano
Urbano
Urbano
NoUrbano
NoUrbano
Urbano
Urbano
NoUrbano
NoUrbano
Prof. Lídia Montero ©
cinturon
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
gravedad
y
SinHeridos
SinHeridos
SinHeridos
SinHeridos
SinHeridos
SinHeridos
SinHeridos
SinHeridos
LeveSinHospital
LeveSinHospital
LeveSinHospital
LeveSinHospital
LeveSinHospital
LeveSinHospital
LeveSinHospital
LeveSinHospital
LeveConHospital
LeveConHospital
LeveConHospital
LeveConHospital
7287
11587
3246
6134
10381
10969
6123
6693
175
126
73
94
136
83
141
74
720
577
710
564
Pàg.
genero
Hombre
Hombre
Hombre
Hombre
Mujer
Mujer
Mujer
Mujer
Hombre
Hombre
Hombre
Hombre
Mujer
Mujer
Mujer
Mujer
Hombre
Hombre
Hombre
Hombre
4-1-64
entorno
Urbano
Urbano
NoUrbano
NoUrbano
Urbano
Urbano
NoUrbano
NoUrbano
Urbano
Urbano
NoUrbano
NoUrbano
Urbano
Urbano
NoUrbano
NoUrbano
Urbano
Urbano
NoUrbano
NoUrbano
cinturon
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
Si
gravedad
y
LeveConHospital
LeveConHospital
LeveConHospital
LeveConHospital
Hospitalización
Hospitalización
Hospitalización
Hospitalización
Hospitalización
Hospitalización
Hospitalización
Hospitalización
Mortal
Mortal
Mortal
Mortal
Mortal
Mortal
Mortal
Mortal
Curs 2.011-2.012
566
259
710
353
91
48
159
82
96
37
188
74
10
8
31
17
14
1
45
12
TEMA 4-1: EJEMPLOS. EJEMPLO 3
> summary(acc)
genero
entorno
Hombre:20
NoUrbano:20
Mujer :20
Urbano :20
cinturon
gravedad
Si:20
Hospitalización:8
No:20
LeveConHospital:8
LeveSinHospital:8
Mortal
:8
SinHeridos
:8
y
Min.
:
1.00
1st Qu.:
66.75
Median : 138.50
Mean
: 1717.35
3rd Qu.: 710.00
Max.
:11587.00
f.heridos
Sin: 8
Con:32
> tapply(acc$y,acc$f.heridos,sum);sum(acc$y)
Sin
Con
62420 6274
[1] 68694
 Tomando como variable de respuesta la presencia de heridos (f.heridos), globalmente se observa 6274
accidentes de un total de 68694, con una probabilidad de 0,0913. El odds es 6274/62420 o 0,1005 a 1 i
el log-odds es log(0,1005) = -2.297472.
 Se propone comparar inicialmente la presencia de heridos (respuesta) según el Factor Uso del Cinturón
(2 niveles, base-line Si).
Cinturón
Con Heridos
Sin Heridos
m
(respuesta positiva)
Si (ref)
2409
35383
37792
No
3865
27037
30902
6274
62420
68694
P(‘Accidente CON Heridos’)=0.0913=6274/68694
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
Sólo hay 2 posibles modelos: el modelo nulo que asume homogeneidad en el Uso en los dos grupos definidos
por el Factor (M1) y el modelo completo (M2) que propone proporciones diferentes en el Uso entre los dos
grupos:
(M1)
  
log i   
1  i 
(M2)
 
log i
1i

     i  1, 2   0

> dfc
cinturon
m ypos yneg
Si
Si 37792 2409 35383
No
No 30902 3865 27037
>
> acc.m1 <-glm(cbind(ypos,yneg)~1, family=binomial(link=logit), data=dfc)
> summary(acc.m1)
Call:
glm(formula = cbind(ypos, yneg) ~ 1, family = binomial(link = logit),
data = dfc)
Deviance Residuals:
Si
No
-19.59
19.60
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.29747
0.01324 -173.5
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Prof. Lídia Montero ©
Pàg.
4-1-66
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 768.03 on 1 degrees of freedom
Residual deviance: 768.03 on 1 degrees of freedom
AIC: 789.55
>
> acc.m2 <-glm(cbind(ypos,yneg)~cinturon, family=binomial(link=logit), data=dfc)
> summary(acc.m2)
Call:
glm(formula = cbind(ypos, yneg) ~ cinturon, family = binomial(link = logit),
data = dfc)
Deviance Residuals:
[1] 0 0
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.68702
0.02106 -127.61
<2e-16 ***
cinturonNo
0.74178
0.02719
27.29
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 7.6803e+02 on 1 degrees of freedom
Residual deviance: -4.3099e-13 on 0 degrees of freedom
AIC: 23.523
> residuals(acc.m1,'pearson')
Si
No
-18.61742 20.58856
> xpea<-sum(residuals(acc.m1,'pearson')^2);xpea
[1] 770.4972
Prof. Lídia Montero ©
Pàg.
4-1-67
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
El estadístico de Pearson de (M2) es 0 y de (M1) toma por expresión:
m  y  ˆ i 
 770.4972   n2 p  2 11
X  i 1, 2 i i
ˆ i mi  ˆ i 
2
2
P
La devianza de (M2) es 0 y de (M1) toma por expresión:

y 
 m  yi 
  768.3   n2 p  2 11 .
D  2i 1, 2  yi log i   mi  yi log i
 ˆ i 
 mi  ˆ i 

Ambos estadísticos son altamente significativos, implicando que el modelo no se ajusta bien a los datos.
En (M1) el estimador
ˆ  
, el logit de la proporción muestral.
En (M2), el estimador ̂ , es el logit del nivel de referencia (Si) (logit de la proporción de heridos en grupo
que Usa cinturón, logit(2409/37792)=-2.687) y el efecto del nivel No sobre el logit de la proporción de
heridos (diferencia de logits entre el nivel No y el nivel de referencia Si: logit(3865/30902)logit(2409/37792)=0.742.
 e
i

1   i e e
2
  Yes
  2 No
odds  ratio NovsYes  e 2  2.1
Los odds de tener heridos entre los accidentes que No usan cinturón es más del doble que el odds de tener
heridos entre los que Si usan cinturón.
Prof. Lídia Montero ©
Pàg.
4-1-68
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
 Ahora procedamos a analizar la incidencia de accidentes con heridos según el género del conductor
accidentado (referencia género hombre).
Genero
Con
yi
Sin
mi  yi
mi
Hombre
2789
34166
36955
Mujer
3485
28254
31739
6274
62420
68694
> acc.m2g <-glm(cbind(ypos,yneg)~genero, family=binomial(link=logit), data=dfg)
> summary(acc.m2g)
Call:
glm(formula = cbind(ypos, yneg) ~ genero, family = binomial(link = logit),
data = dfg)
Deviance Residuals:
[1] 0 0
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.50555
0.01969 -127.23
<2e-16 ***
generoMujer 0.41278
0.02665
15.49
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2.4172e+02
Residual deviance: -7.0122e-13
Prof. Lídia Montero ©
on 1
on 0
degrees of freedom
degrees of freedom
Pàg.
4-1-69
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
AIC: 23.571
Number of Fisher Scoring iterations: 2
>> xpea<-sum(residuals(acc.m1g,'pearson')^2);xpea
[1] 242.4970
> log(2789 /34166);log(3485 /28254);log(3485 /28254)-log(2789 /34166)
[1] -2.505548
[1] -2.092767
[1] 0.4127809
> exp(0.41278)
[1] 1.511013
>
 Sólo hay 2 posibles modelos: el modelo nulo que asume homogeneidad en la presencia de heridos en
accidentes en los 2 grupos definidos por el Factor (M1) y el modelo completo (M2) que propone
proporciones diferentes en los accidentes con heridos entre los 2 grupos:
(M1)
  
log i   
1  i 
(M2)
     i  1 H
log i   
 1   i      i  2  M
El estadístico de Pearson de (M2) es 0 y de (M1) toma por expresión:
m  y  ˆ i 
 242.497   n21 2 11
X  i 1 2 i i
ˆ i mi  ˆ i 
2
2
P
La devianza de (M2) es 0 y de (M1) toma por expresión:
Prof. Lídia Montero ©
Pàg.
4-1-70
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3

 m  yi 
y 
  241.72   n2 p  2 11
D  2i 1 2  yi log i   mi  yi log i
.
 mi  ˆ i 
 ˆ i 

Ambos
estadísticos
son altamente significativos, implicando que el modelo no se ajusta bien a los datos.
 En (M1) el estimador ˆ   , el logit de la proporción muestral.
 En (M2), el estimador ̂ , es el logit del nivel de referencia (Hombres) (logit de la proporción de heridos
en accidentes en hombres a la vista de la tabla, logit(2789/34166)= -2.51) y el efecto del nivel 2
(mujeres) sobre el logit de “H” (diferencia de logits en los grupos: log(3485 /28254)-log(2789
/34166)=0.413.
 e
i
  
1   i e e
i
   H
 2H
Los odds de accidentes con heridos
hombres.
odds  ratio Grupo i vs H  e i  1.51
se incrementan en un 51% en las mujeres respecto los
Queda por probar el último modelo univariante según Entorno urbano o no urbano: los odds de accidentes con
heridos se decrementan en un (1-exp(-0.7158))x100%=51% si sucede en entorno urbano. Los odds de urbano
son 0.4887= exp(-0.7158) veces los odds de no urbano.
Prof. Lídia Montero ©
Pàg.
4-1-71
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
> summary(acc.m2e)
Call:
glm(formula = cbind(ypos, yneg) ~ entorno, family = binomial(link = logit),
data = dfe)
Deviance Residuals:
[1] 0 0
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-1.89784
0.01859 -102.08
<2e-16 ***
entornoUrbano -0.71584
0.02664 -26.87
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 7.1961e+02
Residual deviance: 3.9262e-12
AIC: 23.564
on 1
on 0
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 2
> xpea<-sum(residuals(acc.m1e,'pearson')^2);xpea
[1] 745.0957
>
Prof. Lídia Montero ©
Pàg.
4-1-72
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
Modelos con 2 Predictores: Cinturón y Entorno
Hay 4 grupos o clases de las covariables, sea y ij el número de accidentes con heridos en el grupo de
Cinturón i-ésimo y grupo de Entorno j-ésimo, donde los niveles de referencia son ‘Si’ para Cinturón (Factor
A) y ‘NoUrbano’ para el Factor C.
> df2
cinturon entorno
m ypos yneg
1
Si NoUrbano 14097 1270 12827
2
No NoUrbano 11426 2057 9369
3
Si
Urbano 23695 1139 22556
4
No
Urbano 19476 1808 17668
Hay 5 modelos de interés aplicables a la estructura sistemática de los datos anteriores (M1) a (M5), cuyas
devianzas y detalles de la estimación con MINITAB se detallan a continuación.
Modelo
n-p
Devianza
1 1
3
1504.1
2 A
2
736.11
767.99
(M2) vs (M1)
1
3 C
2
784.53
719.57
(M3) vs (M1)
1
4 A+C
1
2.7116
733.4
(M4) vs (M2)
1
781.8
(M4) vs (M3)
1
2.7116
(M5) vs (M4)
1
5 A*C
0
Prof. Lídia Montero ©
0
D
Contraste
g.l.
Constante:
Todos significativos
Pàg.
4-1-73
Modelo

 i
Entorno:    j
Cinturón:
Aditivo:
 i   j
Interacción Factores:
   i   j   ij
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
> sum(df2[,3]);sum(df2[,4]);sum(df2[,5])
[1] 68694
[1] 6274
[1] 62420
> acc.m20 <-glm(cbind(ypos,yneg)~1, family=binomial(link=logit), data=df2)
> summary(acc.m20)
Call:
glm(formula = cbind(ypos, yneg) ~ 1, family = binomial(link = logit),
data = df2)
Deviance Residuals:
1
2
3
-0.5131
29.4486 -25.2217
4
0.7247
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.29747
0.01324 -173.5
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1504.1
Residual deviance: 1504.1
AIC: 1542.4
on 3
on 3
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 4
> acc.m21 <-glm(cbind(ypos,yneg)~entorno, family=binomial(link=logit), data=df2)
> summary(acc.m21)
Prof. Lídia Montero ©
Pàg.
4-1-74
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
Call:
glm(formula = cbind(ypos, yneg) ~ entorno, family = binomial(link = logit),
data = df2)
Deviance Residuals:
1
2
3
-14.92
15.04 -12.97
4
12.94
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-1.89784
0.01859 -102.08
<2e-16 ***
entornoUrbano -0.71584
0.02664 -26.87
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1504.14
Residual deviance: 784.53
AIC: 824.76
on 3
on 2
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 4
> acc.m22 <-glm(cbind(ypos,yneg)~cinturon, family=binomial(link=logit), data=df2)
> summary(acc.m22)
Call:
glm(formula = cbind(ypos, yneg) ~ cinturon, family = binomial(link = logit),
data = df2)
Prof. Lídia Montero ©
Pàg.
4-1-75
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
Deviance Residuals:
1
2
3
12.10
16.82 -10.30
4
-14.17
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.68702
0.02106 -127.61
<2e-16 ***
cinturonNo
0.74178
0.02719
27.29
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1504.14
Residual deviance: 736.11
AIC: 776.34
on 3
on 2
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 4
> acc.m23 <-glm(cbind(ypos,yneg)~cinturon+entorno, family=binomial(link=logit), data=df2)
> summary(acc.m23)
Call:
glm(formula = cbind(ypos, yneg) ~ cinturon + entorno, family = binomial(link = logit),
data = df2)
Deviance Residuals:
1
2
3
-0.8793
0.7358
0.9220
Prof. Lídia Montero ©
4
-0.7396
Pàg.
4-1-76
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-2.28676
0.02465 -92.78
<2e-16 ***
cinturonNo
0.75265
0.02734
27.53
<2e-16 ***
entornoUrbano -0.72721
0.02682 -27.12
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1504.1407
Residual deviance:
2.7116
AIC: 44.938
on 3
on 1
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 3
> xpea<-sum(residuals(acc.m21,'pearson')^2);xpea
[1] 787.0698
> xpea<-sum(residuals(acc.m22,'pearson')^2);xpea
[1] 761.8445
> xpea<-sum(residuals(acc.m20,'pearson')^2);xpea
[1] 1618.284
> xpea<-sum(residuals(acc.m23,'pearson')^2);xpea
[1] 2.712893
> 1-pchisq(xpea,1)
[1] 0.09954032
>
Prof. Lídia Montero ©
Pàg.
4-1-77
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
El modelo aditivo ajusta bien los datos, vamos a interpretar sus parámetros:
1.
  
es el logit de la probabilidad base: accidentes cuando se usa cinturón en entorno
rural.
2.
2
3.
2
muestra un efecto decreciente de la incidencia de accidentados cuando el accidente ocurre en
Entorno urbano.
4.
2
muestra un efecto creciente de la incidencia de accidentados cuando No se usa el cinturón.
es positivo y el odds de padecer heridos cuando no se usa cinturón es más del doble que entre los
accidentes cuando se usa cinturón dentro del mismo grupo de Entorno (all else being equal o ceteris
paribus).
 La tentativa final consiste en considerar todos las variables explicativas disponibles, es decir, considerar
tres factores A, C y D (Cinturón, Entorno y Género). Los posibles modelos son 12 ¡!! Se va a cambiar el
orden de los niveles del Factor C – Entorno para facilitar la interpretación.
Prof. Lídia Montero ©
Pàg.
4-1-78
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
 El modelo aditivo ajusta bien los datos, pero todavía queda devianza por explicar:
> summary(acc)
genero
entorno
Hombre:20
Urbano :20
Mujer :20
NoUrbano:20
cinturon
gravedad
Si:20
Hospitalización:8
No:20
LeveConHospital:8
LeveSinHospital:8
Mortal
:8
SinHeridos
:8
y
Min.
:
1.00
1st Qu.:
66.75
Median : 138.50
Mean
: 1717.35
3rd Qu.: 710.00
Max.
:11587.00
f.heridos
heridos
Sin: 8
Min.
: 0.0
Con:32
1st Qu.: 9.5
Median : 74.0
Mean
:156.8
3rd Qu.:163.0
Max.
:720.0
>
> df3
cinturon
1
Si
2
No
3
Si
4
No
5
Si
6
No
7
Si
8
No
entorno
Urbano
Urbano
NoUrbano
NoUrbano
Urbano
Urbano
NoUrbano
NoUrbano
Prof. Lídia Montero ©
genero
m ypos yneg
Hombre 11349 380 10969
Hombre 11193 812 10381
Hombre 7206 513 6693
Hombre 7207 1084 6123
Mujer 12346 759 11587
Mujer 8283 996 7287
Mujer 6891 757 6134
Mujer 4219 973 3246
Pàg.
4-1-79
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
> summary(acc.m331)
Call:
glm(formula = cbind(ypos, yneg) ~ cinturon + entorno + genero,
family = binomial(link = logit), data = df3)
Deviance Residuals:
1
2
3
-0.5055 -0.7976
0.2133
4
0.9023
5
1.7426
6
-0.4639
7
-1.5365
8
0.3172
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-3.33639
0.03114 -107.14
<2e-16 ***
cinturonNo
0.81710
0.02765
29.55
<2e-16 ***
entornoNoUrbano 0.75806
0.02697
28.11
<2e-16 ***
generoMujer
0.54483
0.02727
19.98
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1912.4532
Residual deviance:
7.4645
AIC: 82.167
on 7
on 4
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 3
Prof. Lídia Montero ©
Pàg.
4-1-80
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
 El siguiente paso podría ser añadir una interacción entre 2 de los factores: A*C o A*D o C*D.
Modelo
n-p
Devianza
D
Contraste
g.l.
1 A+C+D
4
7.4645
2 A*C+D
3
3 A*D+B
4 C*D+A
Modelo
Aditivo:    i   j   k
3.5914
3.8730
(M2) vs (M1)
1
Interacción Cinturón-Entorno :
3
7.3826
0.0818
(M3) vs (M1)
1
Interacción Cinturón-Género:
3
4.4909
2.9736
(M4) vs (M1)
1
Interacción Entorno-Género:
   i   j   k   ij
   i   j   k   ik
   i   j   k  
jk
Estrictamente sólo la interacción entre Cinturón y Entorno es estadísticamente significativa, aunque la
interacción entre Entorno y Género tiene un pvalor del 8% según el contraste de devianza con el modelo
aditivo. Se interpreta el mejor modelo obtenido hasta el momento donde intervienen los 3 factores y una
interacción doble entre el Uso de Cinturón y el Entorno donde sucede el accidente.
glm(formula = cbind(ypos, yneg) ~ cinturon * entorno + genero,
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-3.30342
0.03509 -94.149
<2e-16
cinturonNo
0.76173
0.03933 19.366
<2e-16
entornoNoUrbano
0.69360
0.04239 16.362
<2e-16
generoMujer
0.54594
0.02729 20.007
<2e-16
cinturonNo:entornoNoUrbano 0.10800
0.05486
1.968
0.049
Prof. Lídia Montero ©
Pàg.
4-1-81
family = binomial, data = df3)
***
***
***
***
*
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
La interpretación en la escala lineal de:
 Si el conductor es mujer los log odds se incrementan en 0.55 unidades respecto al grupo de referencia
hombres dentro del mismo grupo del resto de factores.
 No usar el cinturón incrementa la escala lineal en 0.76 unidades en Entorno urbano y 0.76+0.11 en entorno
NoUrbano; dentro del mismo grupo de género.
 Conducir en entorno No Urbano incrementa la escala lineal en 0.69 unidades si se usa cinturón y 0.69+0.11
si no se uso cinturón.
 Tanto el uso del cinturón como el entorno no pueden interpretarse independientemente, ya que hay un
término de interacción.
La interpretación en la escala de los odds seria:
 Si el conductor es mujer los odds de darse heridos en el accidente se incrementan en un 73%
(exp(0.55)=1.73) respecto al grupo de referencia hombres, dentro del mismo grupo del resto de factores.
 No usar el cinturón incrementa los odds de darse heridos en el accidente en un 113% (exp(0.76)=2.13) en
Entorno urbano y en un 140% (exp(0.76+0.11)=2.387) en entorno NoUrbano; dentro del mismo grupo de
género.
 Conducir en entorno No Urbano incrementa los odds de darse heridos en el accidente en un 100%
(exp(0.69)=1.994) si se usa cinturón y en casi un 125% (exp(0.69+0.11)=2.226) si no se usa cinturón;
dentro del mismo grupo de género.
Prof. Lídia Montero ©
Pàg.
4-1-82
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
La interpretación en la escala de las probabilidades son aproximadas y seria en términos absolutos según
una probabilidad marginal de darse heridos en un accidente de P(‘Accidente
CON
Heridos’)=0.0913=6274/68694: Y de aquí 0.0913x(1-0.0913)=0.083.
 Si el conductor es mujer la probabilidad de darse heridos en el accidente sube en 0.046
(0.083x0.55=0.046) respecto al grupo de referencia hombres, dentro del mismo grupo del resto de
factores.
 No usar el cinturón incrementa la probabilidad de darse heridos en el accidente en 0.063
(0.083x0.76=0.063) en Entorno urbano y en un 0.072 (0.083(0.76+0.11)=0.072) en entorno NoUrbano;
dentro del mismo grupo de género.
 Conducir en entorno No Urbano incrementa la probabilidad de darse heridos en el accidente en 0.057
(0.083x0.69=0.057) si se usa cinturón y en 0.066 (0.083(0.696+0.11)=0.066) si no se usa cinturón; dentro
del mismo grupo de género.
Prof. Lídia Montero ©
Pàg.
4-1-83
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
> summary(acc.m331)
Call:
glm(formula = cbind(ypos, yneg) ~ cinturon + entorno + genero,
family = binomial(link = logit), data = df3)
Deviance Residuals:
1
2
3
-0.5055 -0.7976
0.2133
4
0.9023
5
1.7426
6
-0.4639
7
-1.5365
8
0.3172
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-3.33639
0.03114 -107.14
<2e-16 ***
cinturonNo
0.81710
0.02765
29.55
<2e-16 ***
entornoNoUrbano 0.75806
0.02697
28.11
<2e-16 ***
generoMujer
0.54483
0.02727
19.98
<2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Null deviance: 1912.4532
Residual deviance:
7.4645
AIC: 82.167
on 7
on 4
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 3
> summary(acc.m332)
Call:
glm(formula = cbind(ypos, yneg) ~ cinturon + entorno * genero,
family = binomial(link = logit), data = df3)
Prof. Lídia Montero ©
Pàg.
4-1-84
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
…
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-3.36383
0.03519 -95.592
<2e-16
cinturonNo
0.81618
0.02765 29.521
<2e-16
entornoNoUrbano
0.80907
0.04010 20.177
<2e-16
generoMujer
0.59306
0.03914 15.152
<2e-16
entornoNoUrbano:generoMujer -0.09345
0.05422 -1.724
0.0848
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Null deviance: 1912.4532
Residual deviance:
4.4909
AIC: 81.193
on 7
on 3
***
***
***
***
.
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 3
> summary(acc.m333)
Call:
glm(formula = cbind(ypos, yneg) ~ cinturon * entorno + genero,
family = binomial(link = logit), data = df3)
…
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-3.30342
0.03509 -94.149
<2e-16 ***
cinturonNo
0.76173
0.03933 19.366
<2e-16 ***
entornoNoUrbano
0.69360
0.04239 16.362
<2e-16 ***
generoMujer
0.54594
0.02729 20.007
<2e-16 ***
cinturonNo:entornoNoUrbano 0.10800
0.05486
1.968
0.049 *
Prof. Lídia Montero ©
Pàg.
4-1-85
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
Null deviance: 1912.4532
Residual deviance:
3.5914
AIC: 80.294
on 7
on 3
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 3
> summary(acc.m334)
Call:
glm(formula = cbind(ypos, yneg) ~ cinturon * genero + entorno,
family = binomial(link = logit), data = df3)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-3.34236
0.03755 -89.014
<2e-16 ***
cinturonNo
0.82621
0.04220 19.579
<2e-16 ***
generoMujer
0.55459
0.04370 12.691
<2e-16 ***
entornoNoUrbano
0.75792
0.02698 28.096
<2e-16 ***
cinturonNo:generoMujer -0.01598
0.05586 -0.286
0.775
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Null deviance: 1912.4532
Residual deviance:
7.3826
AIC: 84.085
on 7
on 3
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 3
Prof. Lídia Montero ©
Pàg.
4-1-86
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
> anova(acc.m331,acc.m332,test="Chisq")
Analysis of Deviance Table
Model 1: cbind(ypos, yneg) ~ cinturon + entorno + genero
Model 2: cbind(ypos, yneg) ~ cinturon + entorno * genero
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
4
7.4645
2
3
4.4909 1
2.9736
0.0846
> anova(acc.m331,acc.m333,test="Chisq")
Analysis of Deviance Table
Model 1: cbind(ypos, yneg) ~ cinturon + entorno + genero
Model 2: cbind(ypos, yneg) ~ cinturon * entorno + genero
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
4
7.4645
2
3
3.5914 1
3.8730
0.0491
> anova(acc.m331,acc.m334,test="Chisq")
Analysis of Deviance Table
Model 1: cbind(ypos, yneg) ~ cinturon + entorno + genero
Model 2: cbind(ypos, yneg) ~ cinturon * genero + entorno
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
4
7.4645
2
3
7.3826 1
0.0818
0.7748
> xpea<-sum(residuals(acc.m332,'pearson')^2);xpea
[1] 4.496567
> 1-pchisq(xpea,3)
[1] 0.2125967
> xpea<-sum(residuals(acc.m333,'pearson')^2);xpea
[1] 3.580126
> 1-pchisq(xpea,3)
[1] 0.3105178
Prof. Lídia Montero ©
Pàg.
4-1-87
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
El siguiente paso consistiría en analizar los modelos con 2 interacciones entre los factores, ya que el modelo
A*C+D ajusta bien los datos, pero todavía deja una devianza de 3.5914 por explicar en 3 grados de libertad,
se podría dar por bueno el modelo.
Modelo
n-p Devianza
1 A*C+A*D
2
3.562410
D
Contraste
g.l.
2.2371
(M1) vs (M4)
1
Modelo
Interacción Cinturón-Entorno Y
Cinturón-Género :
   i   j   k   ij  
2 A*D+C*D
2
4.371979
3.0467
(M2) vs (M4)
1
Interacción Cinturón-Género Y
Entorno-Género :
   i   j   k   ik  
3 A*C+C*D
4 A*C+C*D+
A*D
2
1
1.367022
0.04171
(M3) vs (M4)
1.325317
1
jk
jk
Interacción Cinturón-Entorno Y
Entorno-Género :
   i   j   k   ij  
jk
   i   j   k   ij   ik  
jk
 El modelo no requiere de más análisis, no hay diferencias significativas entre el modelo con las 3
interacciones dobles y ninguno de los modelos con 2 pares de factores en interacciones.
Prof. Lídia Montero ©
Pàg.
4-1-88
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
El siguiente paso consistiría en analizar los modelos con 2 interacciones entre los factores y compararlos con
el modelo aditivo, para ver si son significativas 2 interacciones dobles simultáneamente.
Modelo
n-p Devianza
1 A*C+A*D
2
3.562410
D
Contraste
g.l.
3.9021
(M1) vs (M4)
1
Modelo
Interacción Cinturón-Entorno Y
Cinturón-Género :
   i   j   k   ij  
2 A*D+C*D
2
4.371979
3.0925
(M2) vs (M4)
1
Interacción Cinturón-Género Y
Entorno-Género :
   i   j   k   ik  
3 A*C+C*D
2
1.367022
6.0975
(M3) vs (M4)
1
4
jk
Interacción Cinturón-Entorno Y
Entorno-Género :
   i   j   k   ij  
4 A+C+D
jk
jk
  i   j   k
7.4645
 El modelo no requiere de más análisis, ya que simultáneamente son significativas 2 interacciones dobles
Cinturón-Entorno Y Entorno-Género.
Prof. Lídia Montero ©
Pàg.
4-1-89
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
MCAID
TEMA 4-1: EJEMPLOS. EJEMPLO 3
Comparando el mejor modelo con 1 interacción doble (Cinturón-Entorno) con el modelo que tiene 2
interacciones dobles (Cinturón-Entorno y Entorno-Genero) se cuantifica el p valor del contraste de la
devianza de la interacción Entorno-Género con un 0.14, por tanto, no significativa una vez que CinturónEntorno está en el modelo, pero con un valor incómodo.
> anova(acc.m333,acc.m43,test="Chisq")
Analysis of Deviance Table
Model 1: cbind(ypos, yneg) ~ cinturon * entorno + genero
Model 2: cbind(ypos, yneg) ~ cinturon * entorno + entorno * genero
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
3
3.5914
2
2
1.3670 1
2.2244
0.1358
>
Se propone para finalizar el análisis valorar el modelo con 2 interacciones dobles y el mejor modelo con 1
interacción doble según el criterio de información de Akaike y el método step() en R. Se prefiere mantener
las 2 interacciones dobles.
Al final se da una tabla resumen con la devianza residual y el AIC para todos los modelos que se han
calculado.
Prof. Lídia Montero ©
Pàg.
4-1-90
Curs 2.011-2.012
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
> acc.res<-step(acc.m34)
Start: AIC=82.7
cbind(ypos, yneg) ~ cinturon * genero * entorno
Df Deviance
AIC
- cinturon:genero:entorno 1
1.325 82.028
<none>
2.411e-12 82.702
Step: AIC=82.03
cbind(ypos, yneg) ~ cinturon + genero + entorno + cinturon:genero +
cinturon:entorno + genero:entorno
Df Deviance
AIC
- cinturon:genero
1
1.367 80.069
<none>
1.325 82.028
- genero:entorno
1
3.562 82.265
- cinturon:entorno 1
4.372 83.074
Step: AIC=80.07
cbind(ypos, yneg) ~ cinturon + genero + entorno + cinturon:entorno +
genero:entorno
Df Deviance
AIC
<none>
1.367 80.069
- genero:entorno
1
3.591 80.294
- cinturon:entorno 1
4.491 81.193
>
Prof. Lídia Montero ©
Pàg.
4-1-91
Curs 2.011-2.012
MCAID
MASTER DE LOGÍSTICA, TRANSPORT I MOBILITAT
TEMA 4-1: EJEMPLOS. EJEMPLO 3
Modelos
logit(ijk)
Devianza
n-p
AIC
1

1912.5
7
1981.2
Cinturón - A
+ i
1144.4
6
1215.1
Entorno - C
+ j
1192.8
6
1263.5
Género -D
+ k
1670.7
6
1741.4
A+D
+ i+ j
795.82
5
868.52
A+C
+ i+ k
411.02
5
483.73
D+C
+ j+ k
911.01
5
983.71
AD
+ i+ j+ ()ij
795.32
4
870.03
AC
+ i+ k+ ()ik
408.31
4
483.01
A+D+C
+ i+ j+ k
7.4645
4
82.167
AD+C
+ i+ j+ k+ ()ij
7.3826
3
84.085
AC+D
+ i+ j+ k+ ()ik
3.5914
3
80.294
A+DC
+ i+ j+ k+ ()jk
4.4909
3
81.193
AD+AC
+ i+ j+ k+ ()ij+ ()ik
3.5624
2
82.265
AD+DC
+ i+ j+ k+ ()ij+ ()jk
4.372
2
83.074
AC+DC
+ i+ j+ k+ ()ik+ ()jk
1.3670
2
80.07
AD+AC+DC
+ i+ j+ k+ ()ij+ ()ik+ ()jk
1.3253
1
82.028
Prof. Lídia Montero ©
Pàg.
4-1-92
Curs 2.011-2.012
MCAID
Descargar