Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Análisis de datos Categóricos Introducción a los Modelos Lineales Generalizados Ms Carlos López de Castilla Vásquez Universidad Nacional Agraria La Molina 2016-1 Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Introducción Componentes Estimación Introducción En los capítulos anteriores se discutieron métodos para analizar tablas de dos vías. Sin embargo, muchos estudios incluyen más de dos variables explicativas algunas continuas y otras categóricas. En este capítulo se introduce la familia de Modelos Lineales Generalizados que incluye los modelos más importantes para una variable respuesta categórica y continua. Nelder y Wedderburn (1972) introducen la familia de GLM's (Generalized Linear Models). Otra buena referencia es Annette J. Dobson (2002) An introduction to Generalized Linear Models. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Introducción Componentes Estimación Componentes Un Modelo Lineal Generalizado (GLM) se especica a partir de tres componentes. Un componente aleatorio que identica la variable respuesta Y y su distribución de probabilidad. Un componente sistemático que identica las variables explicativas usadas en una función predictor lineal. Una función de enlace que conecta µ = E (Y ) con el componente sistemático. El componente aleatorio consiste de una variable respuesta Y con observaciones independientes (y1 , · · · , yn ) a partir de una distribución que pertenece a una familia exponencial natural. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Introducción Componentes Estimación Componentes Esta familia tiene distribución de probabilidad o densidad: f (yi ; θi ) = a(θi )b(yi ) exp{yi Q(θi )} El término Q(θ) es llamado el parámetro natural. Sea xij el valor del predictor j para el sujeto i , entonces: ηi = p X βj xij = j=0 x T i β i = 1, · · · , n Esta combinación lineal de variables explicativas es llamada el predictor lineal. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Introducción Componentes Estimación Componentes La función de enlace g es monótona, diferenciable y conecta los componentes sistemático y aleatorio a través de: g (µi ) = x T i β La función de enlace que transforma la media hacia el parámetro natural es llamado enlace canónico, es decir: g (µi ) = Q(µi ) = x T i β En resumen, un GLM es un modelo lineal para el valor esperado de una variable respuesta que tiene una distribución que pertenece a una familia exponencial natural. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Introducción Componentes Estimación Modelo logit binomial La función de probabilidad de la distribución de Bernoulli es: f (y ; π) = π y (1 − π)1−y y pertenece a una familia exponencial natural. π La función de enlace canónica es g (π) = log 1−π . El modelo usando el enlace anterior: log y es llamado πi = 1 − πi x T i β i = 1, · · · , n modelo logit binomial. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Introducción Componentes Estimación Modelo loglineal de Poisson La función de probabilidad para Y ∼ P (µ) es: f (y ; µ) = e −µ µy y! que pertenece a una familia exponencial natural. La función de enlace canónica es g (µ) = log µ. El modelo usando el enlace anterior: log µi = y es llamado x T i β i = 1, · · · , n modelo loglineal de Poisson. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Introducción Componentes Estimación Modelo lineal normal La clase de GLM tambien incluye modelos para una variable respuesta continua. La distribución normal pertenece a una familia exponencial natural que incluye un parámetro de dispersión. El modelo más conocido es: µi = x T i β i = 1, · · · , n donde se considera la función de enlace identidad. Este modelo es llamado modelo de regresión lineal Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos normal. Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Introducción Componentes Estimación Tipo de análisis según el GLM Tabla 1: Tipo de análisis según GLM Componente aleatorio Normal Normal Binomial Poisson Multinomial Enlace Identidad Identidad logit log logit Componente sistemático Mixto Categórico Mixto Mixto Mixto Ms Carlos López de Castilla Vásquez Modelo Regresión ANVA Logístico Loglineal Respuesta multinomial Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Introducción Componentes Estimación Devianza La devianza de un GLM se dene por: D = −2 [L(û; y) − L(y; y)] ∼ χ 2 N−(p+1) y corresponde a la estadística de razón de verosimilitud para comparar un modelo propuesto con el modelo saturado. Los grados de libertad corresponden a la diferencia entre el número de parámetros en el modelo saturado y en el modelo propuesto La devianza es usada para analizar el grado de ajuste del modelo y también para poder establecer comparaciones con otros modelos. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Introducción Componentes Estimación Mínimos cuadrados reponderados iterativos Los estimadores se obtienen por un procedimiento llamado mínimos cuadrados ponderados iterativos: b = (X W X) X W z La matriz W es diagonal cuyos elementos son: (m) T (m−1) −1 1 wii = Var(Yi ) Los elementos de z son: ∂µi ∂ηi zi = ηi + (yi − µi ) Ms Carlos López de Castilla Vásquez (m−1) (m−1) T 2 ∂ηi ∂µi Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo de regresión logística Modelo de regresión probit Tablas 2×2 Modelo de regresión logística Sea Y una variable respuesta son 0 y 1 tal que: binaria cuyos posibles resultados E (Y ) = Pr (Y = 1) = π (x) Normalmente existe una relación no lineal monótona entre π (x) y x . Las curvas en forma de S son típicas. La más importante corresponde al modelo de regresión logística: π (x) = exp {β0 + β1 x} 1 + exp {β0 + β1 x} Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo de regresión logística Modelo de regresión probit Tablas 2×2 Modelo de regresión logística Si x → ∞, entonces π(x) tiende a cero cuando β1 < 0 y π(x) tiende a uno cuando β1 > 0. A partir del modelo anterior el odds es: π(x) = exp{β0 + β1 x} 1 − π(x) Luego, el logaritmo del odds tiene relacion lineal: log π(x) = β0 + β1 x 1 − π(x) El modelo anterior es también llamado Ms Carlos López de Castilla Vásquez modelo logit. Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo de regresión logística Modelo de regresión probit Tablas 2×2 Modelo de regresión probit Una curva de regresión monótona por lo general tiene la forma de una función de distribución acumulada de una variable aleatoria continua. Lo anterior sugiere un modelo para una variable respuesta binaria de la forma: π (x) = F (x) para alguna función de distribución acumulada F . Sea Φ la función de distribución acumulada estándar de una familia de distribuciones. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo de regresión logística Modelo de regresión probit Tablas 2×2 Modelo de regresión probit Se propone el modelo: π (x) = Φ(β0 + β1 x) Si Φ es estrictamente creciente entonces: Φ−1 (π (x)) = β0 + β1 x es decir, la función de enlace para el GLM es Φ−1 . Si Φ es la función de distribución acumulada de la distribución normal estándar el model anterior es llamado modelo probit. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo de regresión logística Modelo de regresión probit Tablas 2×2 Ejemplo Ejemplo: Pulso Suponga que se desea determinar el efecto del peso (en libras) de un grupo de pacientes sobre su tasa de pulso en reposo. La variable respuesta es Y = 1 si la tasa de pulso es alta y Y = 0 si la tasa de pulso es baja. Se desea establecer dos modelos que permitan estimar la tasa de pulso alta en función al peso del paciente. Usar ambos modelos para estimar la probabilidad que tiene un paciente de 140 libras de tener una tasa de pulso alta. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo de regresión logística Modelo de regresión probit Tablas 2×2 Tablas 2×2 Suponga que para alguna función de enlace: g (π (x)) = β0 + β1 x Se describe el efecto de X por: β1 = g (π (2)) − g (π (1)) Para el enlace identidad: β1 = π (2) − π (1) Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo de regresión logística Modelo de regresión probit Tablas 2×2 Tablas 2×2 Para el enlace log: β1 = log π (2) − log π (1) = log π (2) = log r π (1) Para el enlace logit: β1 = logit π (2) − logit π (1) = log Ms Carlos López de Castilla Vásquez π(2) 1−π(2) π(1) 1−π(1) = log θ Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo de regresión logística Modelo de regresión probit Tablas 2×2 Ejemplo: Ejemplo: Osteoporosis En un estudio para conocer la prevalencia de la osteoporosis se incluyó a 1360 mujeres con edades entre 50 y 54 años. A cada una se le realizó una densitometría de columna y se completó un cuestionario de antecedentes. Los resultados obtenidos se muestran a continuación: Resultado densiometría Expuesto No expuesto Total Osteoporosis Si No 28 656 18 658 46 1314 Ms Carlos López de Castilla Vásquez Total 684 676 1360 Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo loglineal de Poisson Sobredispersión Distribución binomial negativa Modelo loglineal de Poisson En muchos casos la variable respuesta a modelar es el resultado de un proceso de conteo. La distribución de Poisson tiene media µ > 0. El logaritmo de la media es el parámetro natural de la distribución y corresponde al enlace canónico para su GLM. El modelo loglineal de Poisson con variable explicativa x es: log µ = β0 + β1 x La media satisface la siguiente relación exponencial: µ = exp{β0 + β1 x} Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo loglineal de Poisson Sobredispersión Distribución binomial negativa Ejemplo Ejemplo: Apareamiento del cangrejo Se presenta un estudio sobre el apareamiento del cangrejo de herradura. Cada cangrejo hembra tiene un cangrejo macho residente en su nido. El estudio investigó los factores que hacen que un cangrejo hembra tenga otros machos no residentes llamados satélites. Se busca un modelo que permita estimar el número de satélites en función al ancho del caparazón del cangrejo hembra. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo loglineal de Poisson Sobredispersión Distribución binomial negativa Sobredispersión Cuando la varianza es mayor que la media se tiene el problema de la sobredispesión. Una causa para la sobredispersión es la heterogeneidad en los sujetos. La sobredispersión no representa un problema en una regresión ordinaria con distribución normal para Y debido a que la varianza es un parámetro separado. Para la distribución binomial y Poisson, sin embargo, la varianza es función de la media. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo loglineal de Poisson Sobredispersión Distribución binomial negativa Distribución binomial negativa La distribución binomial negativa tiene función de probabilidad: Γ (y + k) f (y ; k; µ) = Γ (k) Γ (y + 1) k µ+k k k 1− µ+k y para y = 0, 1, 2, · · · tal que E(Y ) = µ y Var(Y ) = µ + µ2 /k . El término k −1 es llamado parámetro de dispersión. Cuando k −1 → 0 entonces Var(Y ) → µ y la distribución binomial negativa converge a la distribución de Poisson. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo loglineal de Poisson Sobredispersión Distribución binomial negativa Distribución binomial negativa Usualmente k −1 es desconocido y su estimación ayuda a estudiar el grado de sobredispersión. Para k jo la función de probabilidad anterior puede expresarse en la forma de una familia exponencial natural. Un modelo con componente aleatorio con distribución binomial negativa es un GLM. Por simplicidad, estos modelos consideran que el parámetro k es el mismo para todas las observaciones. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos Modelos Lineales Generalizados Modelo de regresión logística Modelo loglineal de Poisson Modelo loglineal de Poisson Sobredispersión Distribución binomial negativa Regresión de Poisson para tasas Cuando los eventos de un determinado tipo se producen en una unidad de tiempo o espacio es preferible modelar la tasa en las que éstos ocurren. Por ejemplo, en un estudio de los homicidios ocurridos en un año para una muestra de ciudades se podria modelar el número de homicidios por año divididos por el tamaño de la población. El modelo podría describir como la tasa de homicidios depende de variables como la tasa de desempleo, la mediana del ingreso, el porcentaje de residentes que completan secundaria, etc. Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos