Análisis de datos Categóricos - Universidad Nacional Agraria La

Anuncio
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Análisis de datos Categóricos
Introducción a los Modelos Lineales Generalizados
Ms Carlos López de Castilla Vásquez
Universidad Nacional Agraria La Molina
2016-1
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Introducción
Componentes
Estimación
Introducción
En los capítulos anteriores se discutieron métodos para analizar
tablas de dos vías.
Sin embargo, muchos estudios incluyen más de dos variables
explicativas algunas continuas y otras categóricas.
En este capítulo se introduce la familia de Modelos Lineales
Generalizados que incluye los modelos más importantes para
una variable respuesta categórica y continua.
Nelder y Wedderburn (1972) introducen la familia de GLM's
(Generalized Linear Models).
Otra buena referencia es Annette J. Dobson (2002) An
introduction to Generalized Linear Models.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Introducción
Componentes
Estimación
Componentes
Un Modelo Lineal Generalizado (GLM) se especica a partir de
tres componentes.
Un componente aleatorio que identica la variable respuesta Y
y su distribución de probabilidad.
Un componente sistemático que identica las variables
explicativas usadas en una función predictor lineal.
Una función de enlace que conecta µ = E (Y ) con el
componente sistemático.
El componente aleatorio consiste de una variable respuesta Y
con observaciones independientes (y1 , · · · , yn ) a partir de una
distribución que pertenece a una familia exponencial natural.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Introducción
Componentes
Estimación
Componentes
Esta familia tiene distribución de probabilidad o densidad:
f (yi ; θi ) = a(θi )b(yi ) exp{yi Q(θi )}
El término Q(θ) es llamado el parámetro natural.
Sea xij el valor del predictor j para el sujeto i , entonces:
ηi =
p
X
βj xij =
j=0
x
T
i β
i = 1, · · · , n
Esta combinación lineal de variables explicativas es llamada el
predictor lineal.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Introducción
Componentes
Estimación
Componentes
La función de enlace g es monótona, diferenciable y conecta
los componentes sistemático y aleatorio a través de:
g (µi ) =
x
T
i β
La función de enlace que transforma la media hacia el
parámetro natural es llamado enlace canónico, es decir:
g (µi ) = Q(µi ) =
x
T
i β
En resumen, un GLM es un modelo lineal para el valor
esperado de una variable respuesta que tiene una distribución
que pertenece a una familia exponencial natural.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Introducción
Componentes
Estimación
Modelo logit binomial
La función de probabilidad de la distribución de Bernoulli es:
f (y ; π) = π y (1 − π)1−y
y pertenece a una familia exponencial natural.
π
La función de enlace canónica es g (π) = log 1−π
.
El modelo usando el enlace anterior:
log
y es llamado
πi
=
1 − πi
x
T
i β
i = 1, · · · , n
modelo logit binomial.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Introducción
Componentes
Estimación
Modelo loglineal de Poisson
La función de probabilidad para Y ∼ P (µ) es:
f (y ; µ) =
e −µ µy
y!
que pertenece a una familia exponencial natural.
La función de enlace canónica es g (µ) = log µ.
El modelo usando el enlace anterior:
log µi =
y es llamado
x
T
i β
i = 1, · · · , n
modelo loglineal de Poisson.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Introducción
Componentes
Estimación
Modelo lineal normal
La clase de GLM tambien incluye modelos para una variable
respuesta continua.
La distribución normal pertenece a una familia exponencial
natural que incluye un parámetro de dispersión.
El modelo más conocido es:
µi =
x
T
i β
i = 1, · · · , n
donde se considera la función de enlace identidad.
Este modelo es llamado modelo de regresión lineal
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
normal.
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Introducción
Componentes
Estimación
Tipo de análisis según el GLM
Tabla 1: Tipo de análisis según GLM
Componente
aleatorio
Normal
Normal
Binomial
Poisson
Multinomial
Enlace
Identidad
Identidad
logit
log
logit
Componente
sistemático
Mixto
Categórico
Mixto
Mixto
Mixto
Ms Carlos López de Castilla Vásquez
Modelo
Regresión
ANVA
Logístico
Loglineal
Respuesta multinomial
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Introducción
Componentes
Estimación
Devianza
La
devianza de un GLM se dene por:
D = −2
[L(û; y) − L(y; y)] ∼ χ
2
N−(p+1)
y corresponde a la estadística de razón de verosimilitud para
comparar un modelo propuesto con el modelo saturado.
Los grados de libertad corresponden a la diferencia entre el
número de parámetros en el modelo saturado y en el modelo
propuesto
La devianza es usada para analizar el grado de ajuste del
modelo y también para poder establecer comparaciones con
otros modelos.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Introducción
Componentes
Estimación
Mínimos cuadrados reponderados iterativos
Los estimadores se obtienen por un procedimiento llamado
mínimos cuadrados ponderados iterativos:
b = (X W X) X W z
La matriz W es diagonal cuyos elementos son:
(m)
T
(m−1)
−1
1
wii =
Var(Yi )
Los elementos de
z son:
∂µi
∂ηi
zi = ηi + (yi − µi )
Ms Carlos López de Castilla Vásquez
(m−1) (m−1)
T
2
∂ηi
∂µi
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo de regresión logística
Modelo de regresión probit
Tablas 2×2
Modelo de regresión logística
Sea Y una variable respuesta
son 0 y 1 tal que:
binaria cuyos posibles resultados
E (Y ) = Pr (Y = 1) = π (x)
Normalmente existe una relación no lineal monótona entre
π (x) y x .
Las curvas en forma de S son típicas. La más importante
corresponde al modelo de regresión logística:
π (x) =
exp {β0 + β1 x}
1 + exp {β0 + β1 x}
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo de regresión logística
Modelo de regresión probit
Tablas 2×2
Modelo de regresión logística
Si x → ∞, entonces π(x) tiende a cero cuando β1 < 0 y π(x)
tiende a uno cuando β1 > 0.
A partir del modelo anterior el odds es:
π(x)
= exp{β0 + β1 x}
1 − π(x)
Luego, el
logaritmo del odds tiene relacion lineal:
log
π(x)
= β0 + β1 x
1 − π(x)
El modelo anterior es también llamado
Ms Carlos López de Castilla Vásquez
modelo logit.
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo de regresión logística
Modelo de regresión probit
Tablas 2×2
Modelo de regresión probit
Una curva de regresión monótona por lo general tiene la forma
de una función de distribución acumulada de una variable
aleatoria continua.
Lo anterior sugiere un modelo para una variable respuesta
binaria de la forma:
π (x) = F (x)
para alguna función de distribución acumulada F .
Sea Φ la función de distribución acumulada estándar de una
familia de distribuciones.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo de regresión logística
Modelo de regresión probit
Tablas 2×2
Modelo de regresión probit
Se propone el modelo:
π (x) = Φ(β0 + β1 x)
Si Φ es estrictamente creciente entonces:
Φ−1 (π (x)) = β0 + β1 x
es decir, la función de enlace para el GLM es Φ−1 .
Si Φ es la función de distribución acumulada de la distribución
normal estándar el model anterior es llamado modelo probit.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo de regresión logística
Modelo de regresión probit
Tablas 2×2
Ejemplo
Ejemplo: Pulso
Suponga que se desea determinar el efecto del peso (en libras)
de un grupo de pacientes sobre su tasa de pulso en reposo.
La variable respuesta es Y = 1 si la tasa de pulso es alta y
Y = 0 si la tasa de pulso es baja.
Se desea establecer dos modelos que permitan estimar la tasa
de pulso alta en función al peso del paciente.
Usar ambos modelos para estimar la probabilidad que tiene un
paciente de 140 libras de tener una tasa de pulso alta.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo de regresión logística
Modelo de regresión probit
Tablas 2×2
Tablas 2×2
Suponga que para alguna función de enlace:
g (π (x)) = β0 + β1 x
Se describe el efecto de X por:
β1 = g (π (2)) − g (π (1))
Para el enlace identidad:
β1 = π (2) − π (1)
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo de regresión logística
Modelo de regresión probit
Tablas 2×2
Tablas 2×2
Para el enlace log:
β1 = log π (2) − log π (1) = log
π (2)
= log r
π (1)
Para el enlace logit:
β1 = logit π (2) − logit π (1) = log
Ms Carlos López de Castilla Vásquez
π(2)
1−π(2)
π(1)
1−π(1)
= log θ
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo de regresión logística
Modelo de regresión probit
Tablas 2×2
Ejemplo:
Ejemplo: Osteoporosis
En un estudio para conocer la prevalencia de la osteoporosis se
incluyó a 1360 mujeres con edades entre 50 y 54 años.
A cada una se le realizó una densitometría de columna y se
completó un cuestionario de antecedentes. Los resultados
obtenidos se muestran a continuación:
Resultado
densiometría
Expuesto
No expuesto
Total
Osteoporosis
Si
No
28
656
18
658
46
1314
Ms Carlos López de Castilla Vásquez
Total
684
676
1360
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo loglineal de Poisson
Sobredispersión
Distribución binomial negativa
Modelo loglineal de Poisson
En muchos casos la variable respuesta a modelar es el
resultado de un proceso de conteo.
La distribución de Poisson tiene media µ > 0.
El logaritmo de la media es el parámetro natural de la
distribución y corresponde al enlace canónico para su GLM.
El modelo loglineal de Poisson con variable explicativa x es:
log µ = β0 + β1 x
La media satisface la siguiente relación exponencial:
µ = exp{β0 + β1 x}
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo loglineal de Poisson
Sobredispersión
Distribución binomial negativa
Ejemplo
Ejemplo: Apareamiento del cangrejo
Se presenta un estudio sobre el apareamiento del cangrejo de
herradura.
Cada cangrejo hembra tiene un cangrejo macho residente en
su nido.
El estudio investigó los factores que hacen que un cangrejo
hembra tenga otros machos no residentes llamados satélites.
Se busca un modelo que permita estimar el número de satélites
en función al ancho del caparazón del cangrejo hembra.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo loglineal de Poisson
Sobredispersión
Distribución binomial negativa
Sobredispersión
Cuando la varianza es mayor que la media se tiene el problema
de la sobredispesión.
Una causa para la sobredispersión es la heterogeneidad en los
sujetos.
La sobredispersión no representa un problema en una regresión
ordinaria con distribución normal para Y debido a que la
varianza es un parámetro separado.
Para la distribución binomial y Poisson, sin embargo, la
varianza es función de la media.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo loglineal de Poisson
Sobredispersión
Distribución binomial negativa
Distribución binomial negativa
La distribución binomial negativa tiene función de probabilidad:
Γ (y + k)
f (y ; k; µ) =
Γ (k) Γ (y + 1)
k
µ+k
k k
1−
µ+k
y
para y = 0, 1, 2, · · · tal que E(Y ) = µ y Var(Y ) = µ + µ2 /k .
El término k −1 es llamado parámetro de dispersión.
Cuando k −1 → 0 entonces Var(Y ) → µ y la distribución
binomial negativa converge a la distribución de Poisson.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo loglineal de Poisson
Sobredispersión
Distribución binomial negativa
Distribución binomial negativa
Usualmente k −1 es desconocido y su estimación ayuda a
estudiar el grado de sobredispersión.
Para k jo la función de probabilidad anterior puede expresarse
en la forma de una familia exponencial natural.
Un modelo con componente aleatorio con distribución
binomial negativa es un GLM.
Por simplicidad, estos modelos consideran que el parámetro k
es el mismo para todas las observaciones.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Modelos Lineales Generalizados
Modelo de regresión logística
Modelo loglineal de Poisson
Modelo loglineal de Poisson
Sobredispersión
Distribución binomial negativa
Regresión de Poisson para tasas
Cuando los eventos de un determinado tipo se producen en
una unidad de tiempo o espacio es preferible modelar la tasa
en las que éstos ocurren.
Por ejemplo, en un estudio de los homicidios ocurridos en un
año para una muestra de ciudades se podria modelar el número
de homicidios por año divididos por el tamaño de la población.
El modelo podría describir como la tasa de homicidios depende
de variables como la tasa de desempleo, la mediana del ingreso,
el porcentaje de residentes que completan secundaria, etc.
Ms Carlos López de Castilla Vásquez
Análisis de datos Categóricos
Descargar