METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Regresión Polinomial y Regresión Logística M.L. Gámiz Pérez Departamento Estadística e Inv. Operativa Universidad de Granada 30 de octubre de 2013 MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 1 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Contenido Regresión Polinomial Introducción y ejemplos Aproximaciones alternativas Regresión Logística Introducción Estimación de los parámetros del modelo Evaluación del modelo Contraste de regresión Estudio de la bondad del ajuste Tests de significación de los coeficientes Capacidad predictiva del modelo Regresión Logística Múltiple Análisis de residuos Regresión Logística Multinomial MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 2 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Introducción I Polinomio de segundo orden: Y = β0 + β1 X + β2 X 2 + (1) Y = β0 + β1 X1 + β2 X2 + β11 X12 + β22 X22 + β12 X1 X2 + (2) I Se usan cuando la respuesta es curvilínea I Y = f (X ) para f compleja → desarrollo en serie de Taylor MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 3 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Introducción I Polinomio de segundo orden: Y = β0 + β1 X + β2 X 2 + (1) Y = β0 + β1 X1 + β2 X2 + β11 X12 + β22 X22 + β12 X1 X2 + (2) I Se usan cuando la respuesta es curvilínea I Y = f (X ) para f compleja → desarrollo en serie de Taylor I Modelo de orden k en 1 variable Y = β0 + β1 X + . . . + βk X k + I Si Xj = X j , para j = 1, . . . , k: Modelo de regresión lineal múltiple MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 4 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Introducción I Polinomio de segundo orden: Y = β0 + β1 X + β2 X 2 + (1) Y = β0 + β1 X1 + β2 X2 + β11 X12 + β22 X22 + β12 X1 X2 + (2) I Se usan cuando la respuesta es curvilínea I Y = f (X ) para f compleja → desarrollo en serie de Taylor I Modelo de orden k en 1 variable Y = β0 + β1 X + . . . + βk X k + I Si Xj = X j , para j = 1, . . . , k: Modelo de regresión lineal múltiple I Orden del modelo: Principio de PARSIMONIA MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 5 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Principios básicos I Interpretación: I I I β0 : Promedio de Y cuando X = 0 β1 : Parámetro de efecto lineal β2 : Parámetro de efecto cuadrático, etc... MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 6 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Principios básicos I Interpretación: I I I I β0 : Promedio de Y cuando X = 0 β1 : Parámetro de efecto lineal β2 : Parámetro de efecto cuadrático, etc... Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 7 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Principios básicos I Interpretación: I I I I I β0 : Promedio de Y cuando X = 0 β1 : Parámetro de efecto lineal β2 : Parámetro de efecto cuadrático, etc... Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2. Extrapolación !! MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 8 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Principios básicos I Interpretación: I I I I I I β0 : Promedio de Y cuando X = 0 β1 : Parámetro de efecto lineal β2 : Parámetro de efecto cuadrático, etc... Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2. Extrapolación !! Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0 X se vuelve mal acondicionada. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 9 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Principios básicos I Interpretación: I I I I I I I β0 : Promedio de Y cuando X = 0 β1 : Parámetro de efecto lineal β2 : Parámetro de efecto cuadrático, etc... Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2. Extrapolación !! Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0 X se vuelve mal acondicionada. Multicolinealidad !! MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 10 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Principios básicos I Interpretación: I I I I I I I I β0 : Promedio de Y cuando X = 0 β1 : Parámetro de efecto lineal β2 : Parámetro de efecto cuadrático, etc... Estrategia para la construcción del modelo: Métodos de selección de variables (adelante/atrás). Se debe restringir a polinomios de orden 1 o 2. Extrapolación !! Mal acondicionamiento: A medida que aumenta el orden del polinomio la matriz X0 X se vuelve mal acondicionada. Multicolinealidad !! Jerarquía: Y = β0 + β1 X + β2 X 2 + β3 X 3 + SI Y = β0 + β1 X + β3 X 3 + NO MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 11 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Extensiones Análisis de regresión usando funciones base... I Regresion trigonométrica Y = d X j=0 βj X j + λ X [γk cos(kX ) + δk sin(kX )] + k=1 con d = 2 y λ a determinar. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 12 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Extensiones Análisis de regresión usando funciones base... I Regresion trigonométrica Y = d X j=0 I βj X j + λ X [γk cos(kX ) + δk sin(kX )] + k=1 con d = 2 y λ a determinar. Regresión por splines Modelo lineal con un nodo (x0 ) Y = β0 + β1a X + β1b (X − x0 )+ + con (X − x0 )+ = MÁSTER EN ESTADÍSTICA PÚBLICA 1 si X > x0 0 en otro caso Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 13 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El modelo de regresión con respuesta binaria I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1 , X2 , . . . , Xp Y = f (X1 , X2 , . . . , Xp ) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 14 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El modelo de regresión con respuesta binaria I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1 , X2 , . . . , Xp Y = f (X1 , X2 , . . . , Xp ) I Hipótesis del modelo de regresión lineal: Normalidad y varianza constante MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 15 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El modelo de regresión con respuesta binaria I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1 , X2 , . . . , Xp Y = f (X1 , X2 , . . . , Xp ) I I Hipótesis del modelo de regresión lineal: Normalidad y varianza constante Estrategias: I I mínimos cuadrados ponderados transformación de los datos MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 16 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El modelo de regresión con respuesta binaria I Se pretende caracterizar la relación entre una variable respuesta Y y un conjunto de variables independientes X1 , X2 , . . . , Xp Y = f (X1 , X2 , . . . , Xp ) I I Hipótesis del modelo de regresión lineal: Normalidad y varianza constante Estrategias: I I I mínimos cuadrados ponderados transformación de los datos Modelo Lineal Generalizado: La variable respuesta pertenece a la familia exponencial : Normal, Poisson, Binomial, Exponencial, Gamma, etc. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 17 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El modelo de regresión con respuesta binaria simple I La variable respuesta representa la ocurrencia o no de un suceso, por ejemplo: I I I I I que que que que den que un estudiante apruebe o no un examen; un transplante de corazón sea aceptado o no; una empresa llegue a estar en problemas financieros o no; un paciente de un hospital sobreviva o no antes de que le de alta; un cliente devuelva un crédito bancario o no. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 18 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El modelo de regresión con respuesta binaria simple I La variable respuesta representa la ocurrencia o no de un suceso, por ejemplo: I I I I I I que que que que den que un estudiante apruebe o no un examen; un transplante de corazón sea aceptado o no; una empresa llegue a estar en problemas financieros o no; un paciente de un hospital sobreviva o no antes de que le de alta; un cliente devuelva un crédito bancario o no. Se considera la siguiente codificación de Y : 1, el suceso tiene lugar Y = 0, el suceso no tiene lugar MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 19 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El modelo de regresión con respuesta binaria simple I La variable respuesta representa la ocurrencia o no de un suceso, por ejemplo: I I I I I que que que que den que un estudiante apruebe o no un examen; un transplante de corazón sea aceptado o no; una empresa llegue a estar en problemas financieros o no; un paciente de un hospital sobreviva o no antes de que le de alta; un cliente devuelva un crédito bancario o no. I Se considera la siguiente codificación de Y : 1, el suceso tiene lugar Y = 0, el suceso no tiene lugar I Se considera un solo regresor o variable explicativa X Hipótesis: P(Y = 1|X = x) es monótona (creciente o decreciente) en x. I MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 20 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El modelo lineal no es aplicable I Supongamos el siguiente modelo Y = β0 + β1 X + , donde representa el error, con → N(0, σ): E (Y |X = x) = β0 + β1 x MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 21 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El modelo lineal no es aplicable I Supongamos el siguiente modelo Y = β0 + β1 X + , donde representa el error, con → N(0, σ): E (Y |X = x) = β0 + β1 x I Si Y es binaria, entonces para un individuo i: Yi = 1 ó Yi = 0 y... 1 − β0 − β1 Xi , si Yi = 1 i = , −β0 − β1 Xi , si Yi = 0 I Además... Var (i ) = Var (Yi ) = E (Yi − E (Yi ))2 = (1 − E (Yi ))E (Yi ). MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 22 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Ejemplo Notación: E (Yi |Xi ) = π(Xi ) = πi I Queremos evaluar la probabilidad de desarrollar una enfermedad cardiaca en un determinado intervalo de tiempo πi , para un sujeto con un determinado nivel de colesterol Xi . Es lógico esperar I I I πi → 1 a medida que Xi % ∞, y πi → 0 a medida que Xi & 0. Con datos binarios, E (Y |X = x) ∈ [0, 1]. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 23 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Ejemplo Notación: E (Yi |Xi ) = π(Xi ) = πi I Queremos evaluar la probabilidad de desarrollar una enfermedad cardiaca en un determinado intervalo de tiempo πi , para un sujeto con un determinado nivel de colesterol Xi . Es lógico esperar I I I I πi → 1 a medida que Xi % ∞, y πi → 0 a medida que Xi & 0. Con datos binarios, E (Y |X = x) ∈ [0, 1]. El cambio en E (Y |x) por unidad de cambio en x se va haciendo progresivamente menor a medida que la media condicional se aproxima a 0 y 1. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 24 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Ejemplo Notación: E (Yi |Xi ) = π(Xi ) = πi I Queremos evaluar la probabilidad de desarrollar una enfermedad cardiaca en un determinado intervalo de tiempo πi , para un sujeto con un determinado nivel de colesterol Xi . Es lógico esperar I I I πi → 1 a medida que Xi % ∞, y πi → 0 a medida que Xi & 0. Con datos binarios, E (Y |X = x) ∈ [0, 1]. I El cambio en E (Y |x) por unidad de cambio en x se va haciendo progresivamente menor a medida que la media condicional se aproxima a 0 y 1. I Se podría esperar una curva como en la figura siguiente... MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 25 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Función Logística MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 26 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Función de distribución logística π(x) = I exp(β0 + β1 x) 1 + exp(β0 + β1 x) Propiedades: I I I Flexibilidad; Interpretación práctica; π(x) Transformación logit: g (x) = ln 1−π(x) = β0 + β1 x MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 27 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Función de distribución logística π(x) = I Propiedades: I I I I exp(β0 + β1 x) 1 + exp(β0 + β1 x) Flexibilidad; Interpretación práctica; π(x) Transformación logit: g (x) = ln 1−π(x) = β0 + β1 x Otras funciones: Modelo Probit MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 28 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Modelo de regresión logística binario I Y{X =x} → Binomial (1, π(x)) π(x) = MÁSTER EN ESTADÍSTICA PÚBLICA exp(β0 + β1 x) 1 + exp(β0 + β1 x) Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 29 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Modelo de regresión logística binario I Y{X =x} → Binomial (1, π(x)) π(x) = I I exp(β0 + β1 x) 1 + exp(β0 + β1 x) Es un método predictivo y explicativo: Finalidades: MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 30 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Modelo de regresión logística binario I Y{X =x} → Binomial (1, π(x)) π(x) = I I exp(β0 + β1 x) 1 + exp(β0 + β1 x) Es un método predictivo y explicativo: Finalidades: 1. Cuantificar la importancia de la relación existente entre la variable X y la variable Y . MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 31 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Modelo de regresión logística binario I Y{X =x} → Binomial (1, π(x)) π(x) = I I exp(β0 + β1 x) 1 + exp(β0 + β1 x) Es un método predictivo y explicativo: Finalidades: 1. Cuantificar la importancia de la relación existente entre la variable X y la variable Y . 2. Clasificar individuos dentro de las categorías (presente/ausente) de la variable Y en función de la probabilidad que tengan de pertenecer a cada una de ellas en presencia de determinada información (X ). MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 32 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Interpretación de los coeficientes: odds (ventaja) I Definición: O(x) = MÁSTER EN ESTADÍSTICA PÚBLICA π(x) 1 − π(x) Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 33 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Interpretación de los coeficientes: odds (ventaja) I Definición: O(x) = π(x) 1 − π(x) I Interpretación: “Cuánto más probable es que ocurra un suceso frente a que no ocurra” I Ejemplo: Si π(x) = 0,75 se tiene un odds de 3 : 1. I Modelo log-lineal... g (x) = ln MÁSTER EN ESTADÍSTICA PÚBLICA π(x) = β0 + β1 x 1 − π(x) Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 34 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Interpretación de los coeficientes: odds ratio (OR) I I I Sean X1 y X2 dos perfiles de la variable X y sean πj = π(Xj ), j = 1, 2; El logaritmo de la razón de los odds " π # 1 π1 (1 − π2 ) 1−π1 = ln = β1 (X1 − X2 ). ln π2 π2 (1 − π1 ) 1−π2 Es decir... ln(OR) = β1 (X1 − X2 ). MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 35 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Interpretación de los coeficientes: odds ratio (OR) I I I Sean X1 y X2 dos perfiles de la variable X y sean πj = π(Xj ), j = 1, 2; El logaritmo de la razón de los odds " π # 1 π1 (1 − π2 ) 1−π1 = ln = β1 (X1 − X2 ). ln π2 π2 (1 − π1 ) 1−π2 Es decir... ln(OR) = β1 (X1 − X2 ). I I Caso particular: X1 = X2 + 1 se tiene que ln(OR) = β1 y equivalentemente OR = e β1 . Interpretación del signo: OR > 1 OR < 1 I OR = 1 MÁSTER EN ESTADÍSTICA PÚBLICA I I Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 36 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El método de máxima-verosimilitud I I Datos: {(Xi , Yi ); i = 1, . . . , n} Contribución del dato (Xi , Yi ): Li = π(Xi )Yi [1 − π(Xi )]1−Yi MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 37 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El método de máxima-verosimilitud I I I I Datos: {(Xi , Yi ); i = 1, . . . , n} Yi 1−Yi Contribución del dato (Xi , Yi ): Li = π(X Qni ) [1 − π(Xi )] Función de verosimilitud: L(β0 , β1 ) = i=1 Li Log-verosimilitud: P `(β0 , β1 ) = ni=1 {Yi ln(π(Xi )) + (1 − Yi ) ln(1 − π(Xi ))} MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 38 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El método de máxima-verosimilitud I I I I I Datos: {(Xi , Yi ); i = 1, . . . , n} Yi 1−Yi Contribución del dato (Xi , Yi ): Li = π(X Qni ) [1 − π(Xi )] Función de verosimilitud: L(β0 , β1 ) = i=1 Li Log-verosimilitud: P `(β0 , β1 ) = ni=1 {Yi ln(π(Xi )) + (1 − Yi ) ln(1 − π(Xi ))} Diferenciando con respecto a β0 y β1 Pn [Yi − π(Xi )] = 0 Pi=1 n i=1 Xi [Yi − π(Xi )] = 0 MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 39 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El método de máxima-verosimilitud I I I I I I I I Datos: {(Xi , Yi ); i = 1, . . . , n} Yi 1−Yi Contribución del dato (Xi , Yi ): Li = π(X Qni ) [1 − π(Xi )] Función de verosimilitud: L(β0 , β1 ) = i=1 Li Log-verosimilitud: P `(β0 , β1 ) = ni=1 {Yi ln(π(Xi )) + (1 − Yi ) ln(1 − π(Xi ))} Diferenciando con respecto a β0 y β1 Pn [Yi − π(Xi )] = 0 Pi=1 n i=1 Xi [Yi − π(Xi )] = 0 Si no hay una separación completa existe solución. Métodos numéricos: Newton-Raphson (veremos en el caso múltiple). Solución inicial: Análisis Discriminante (Normalidad de las variables explicativas) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 40 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Ejemplo: Hosmer y Lemeshow (1989), pg. 2 Se pretende estudiar la influencia de la edad (X = Edad ) en la presencia/ausencia de evidencia de enfermedad coronaria (Y = CHD). Se seleccionaron 100 sujetos para participar en el estudio. La tabla siguiente representa la información referente a los primeros individuos ID 1 2 3 4 5 6 7 8 MÁSTER EN ESTADÍSTICA PÚBLICA GrupoEdad 1 1 1 1 1 1 1 1 Edad 20 23 24 25 25 26 26 28 CHD 0 0 0 0 1 0 0 0 Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 41 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Diagrama de dispersión Y = MÁSTER EN ESTADÍSTICA PÚBLICA 1, enfermedad está presente 0, otro caso Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 42 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES E (Y |x) por grupos de edad MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 43 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Resultado del ajuste I I P(CHD=1|Edad) = β0 + β1 Edad Modelo: ln P(CHD=0|Edad) Coeficientes estimados (SPSS): Coeficiente estimado Edad βb1 = 0,111 Constante βb0 = −5,309 Error estándar 0,024 1,134 Log -verosimilitud = −53,6765 MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 44 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Resultado del ajuste I I P(CHD=1|Edad) = β0 + β1 Edad Modelo: ln P(CHD=0|Edad) Coeficientes estimados (SPSS): Coeficiente estimado Edad βb1 = 0,111 Constante βb0 = −5,309 Error estándar 0,024 1,134 Log -verosimilitud = −53,6765 I Probabilidad estimada de presentar la enfermedad en función de la Edad: π b(Edad ) = I exp(−5,309 + 0,111Edad ) 1 + exp(−5,309 + 0,111Edad ) Interpretación... MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 45 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Contraste de regresión I I I Después de ajustar el modelo evaluamos la significación de la(s) variable(s) involucrada(s). No estudiamos aún la bondad de ajuste (términos absolutos): ¿representan los valores ajustados a los valores observados? Comparamos un modelo sin la covariable (modelo nulo) frente a modelo con la covariable (términos relativos) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 46 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Contraste de regresión I I I I I Después de ajustar el modelo evaluamos la significación de la(s) variable(s) involucrada(s). No estudiamos aún la bondad de ajuste (términos absolutos): ¿representan los valores ajustados a los valores observados? Comparamos un modelo sin la covariable (modelo nulo) frente a modelo con la covariable (términos relativos) Regresion lineal: Coeficientes Estadístico Modelo nulo β0 = Y ; β1 = 0 Var (Y ) P bi )2 Modelo lineal βb0 ; βb1 6= 0 (Yi − Y Medida de diferencia V .E . Regresión logística: la medida se basa en el log de la función de verosimilitud MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 47 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El test de razón de verosimilitudes I Contraste de regresión: ¿Es mejor el modelo nulo? H0 : β 1 = 0 H1 : β1 6= 0 I Se basa en el estadístico (Hosmer y Lemeshow, 1989) función de verosimilitud del modelo sin X G = −2 ln función de verosimilitud del modelo con X MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 48 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El test de razón de verosimilitudes I Contraste de regresión: ¿Es mejor el modelo nulo? H0 : β 1 = 0 H1 : β1 6= 0 I Se basa en el estadístico (Hosmer y Lemeshow, 1989) función de verosimilitud del modelo sin X G = −2 ln función de verosimilitud del modelo con X I En el modelo univariante comparamos con el modelo nulo # " n n1 n n0 1 n biYi (1 i=1 π G = −2 ln Qn I I 0 n −π bi )(1−Yi ) Bajo H0 , G → χ2 (1). Ejemplo... MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 49 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El coeficiente R 2 en regresión logística Alternativas al coeficiente de determinación usado en regresión lineal (Maddala-Magee) R 2 = 1 − {L(0)/L(βb0 , βb1 )}2/n I I I I No es una verdadera medida de la bondad de ajuste: sólo compara 2 modelos L(0) = p1n1 (1 − p1 )n−n1 , F. de P verosimilitud del modelo nulo (sólo β0 ); con p1 = n1 /n = Yi /n. L(βb0 , βb1 ), F. de verosimilitud evaluada en el estimador. L ≤ 1, entonces R 2 ≤ 1 − (p1p1 (1 − p1 )1−p1 )2 I I R2 ≥ 0 2 Coeficiente corregido:R = R 2 /max(R 2 ) (Nagelkerke) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 50 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES El test de Hosmer-Lemeshow Pasos: 1. Calcular π b1 = π b(X1 ), . . . , π bn = π b(Xn ), a partir del modelo ajustado (suponemos que no hay valores repetidos de la variable X ). 2. Ordenar los n valores de menor a mayor. 3. Agrupar los valores calculados siguiendo uno de los dos criterios siguientes: (a) Dividir la secuencia ordenada en cuartiles, deciles u otra clasificación similar. (b) Formar el primer grupo con todos los individuos para los que π bi es menor que 0.1; en el segundo grupo considerar los individuos cuyo π bi esté entre 0.1 y 0.2, etc. Sean n1 , n2 , . . . , n10 las frecuencias respectivas. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 51 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES 4. Sumar los valores de π bi dentro de cada grupo. Estos sumatorios serán los valores esperados, que denotamos E1 , E2 , . . . , E10 . 5. Contar en cada grupo el número de sujetos para los cuales Y = 1, estos serán los valores observados, que denotamos O1 , O2 , . . . , O10 . MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 52 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES 4. Sumar los valores de π bi dentro de cada grupo. Estos sumatorios serán los valores esperados, que denotamos E1 , E2 , . . . , E10 . 5. Contar en cada grupo el número de sujetos para los cuales Y = 1, estos serán los valores observados, que denotamos O1 , O2 , . . . , O10 . Estadístico de Hosmer-Lemeshow χ2 = 10 10 X (Oi − Ei )2 X (Oi∗ − Ei∗ )2 + , Ei Ei∗ i=1 i=1 donde Ei∗ = ni − Ei y Oi∗ = ni − Oi . Este estadístico sigue una distribución χ2 (8). MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 53 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Tests individuales Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 54 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Tests individuales Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj , seβb j con seβb j q = Var (βbj ). MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 55 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Tests individuales Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj , seβb j I q con seβb = Var (βbj ). j 2 `(β0 ,β1 ) Sea H = ∂ ∂β u ∂βj 0≤u,j≤1 I La matriz de covarianzas Σ(βb0 , βb1 ) = −(H(βb0 , βb1 ))−1 MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 56 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Tests individuales Nos planteamos... H0 : βj = 0 H1 : βj 6= 0, j = 0, 1 Test de Wald I Estadístico de Wald: W = βbj , seβb j I q con seβb = Var (βbj ). j 2 `(β0 ,β1 ) Sea H = ∂ ∂β u ∂βj 0≤u,j≤1 I I La matriz de covarianzas Σ(βb0 , βb1 ) = −(H(βb0 , βb1 ))−1 W tiene distribución Normal estándar. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 57 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Prueba Score I Contraste: H0 : β j = 0 H1 : βj 6= 0 MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 58 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Prueba Score I Contraste: H0 : β j = 0 H1 : βj 6= 0 I Requiere menos esfuerzo computacional que los anteriores I Estimador Pn ST = q i=1 Xi (Yi Y (1 − Y ) −Y) Pn I ST tiene distribución Normal estándar I Ejemplo... MÁSTER EN ESTADÍSTICA PÚBLICA . 2 i=1 (Xi − X ) Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 59 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Estudio de la capacidad predictiva del modelo Objetivo: Establecer si el modelo logístico estimado clasifica correctamente a los sujetos de acuerdo con los valores de la variable respuesta. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 60 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Estudio de la capacidad predictiva del modelo Objetivo: Establecer si el modelo logístico estimado clasifica correctamente a los sujetos de acuerdo con los valores de la variable respuesta. ( bi = 1 π bi > 0,5 ⇒ Y Clasificacion = bi = 0 π bi ≤ 0,5 ⇒ Y Y b Y 1 0 MÁSTER EN ESTADÍSTICA PÚBLICA 1 VP FP 0 FN VN Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 61 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Estudio de la capacidad predictiva del modelo Objetivo: Establecer si el modelo logístico estimado clasifica correctamente a los sujetos de acuerdo con los valores de la variable respuesta. ( bi = 1 π bi > 0,5 ⇒ Y Clasificacion = bi = 0 π bi ≤ 0,5 ⇒ Y Y b Y 1 0 I I I 1 VP FP 0 FN VN CP = (VP + VN)/n Sensibilidad = VP/(VP + FN) Especifidad = VN/(VN + FP) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 62 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Modelo de regresión logística múltiple P(Y = 1) = MÁSTER EN ESTADÍSTICA PÚBLICA exp(β0 + β1 X1 + · · · + βp Xp ) 1 + exp(β0 + β1 X1 + · · · + βp Xp ) Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 63 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Modelo de regresión logística múltiple P(Y = 1) = I exp(β0 + β1 X1 + · · · + βp Xp ) 1 + exp(β0 + β1 X1 + · · · + βp Xp ) F. de verosimilitud: n X L(β) = {Yi ln πi + (1 − Yi ) ln(1 − πi )} , i=1 con πi = π(Xi1 , Xi2 , . . . , Xip ). MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 64 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Modelo de regresión logística múltiple P(Y = 1) = I exp(β0 + β1 X1 + · · · + βp Xp ) 1 + exp(β0 + β1 X1 + · · · + βp Xp ) F. de verosimilitud: n X L(β) = {Yi ln πi + (1 − Yi ) ln(1 − πi )} , i=1 I con πi = π(Xi1 , Xi2 , . . . , Xip ). Ecuaciones de verosimilitud, para j = 1, . . . , p n ∂`(β) X = (Yi − πi ) = 0 ∂β0 i=1 ∂`(β) = ∂βj MÁSTER EN ESTADÍSTICA PÚBLICA n X (Yi − πi )Xij = 0; i=1 Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 65 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES I Forma matricial: X0 (Y − π) = 0, donde 1 X11 · · · X1p 1 X21 · · · X2p ;Y = . . . X= .. .. .. ··· .. 1 Xn1 · · · . Xnp MÁSTER EN ESTADÍSTICA PÚBLICA Y1 Y2 .. . ;π = Yn Experto Universitario: Estadística Aplicada y Técnicas de Encuestación π1 π2 .. . πn 66 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES I I Forma matricial: X0 (Y − π) = 0, donde 1 X11 · · · X1p 1 X21 · · · X2p ;Y = . . . X= .. .. .. ··· .. 1 Xn1 · · · . Xnp Y1 Y2 .. . ;π = Yn π1 π2 .. . πn Buscamos solución del siguiente sistema de ecuaciones: b = X0 (Y − π b) = 0 U(β) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 67 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES I I Forma matricial: X0 (Y − π) = 0, donde 1 X11 · · · X1p 1 X21 · · · X2p ;Y = . . . X= .. .. .. ··· .. 1 Xn1 · · · . Xnp Y1 Y2 .. . ;π = Yn π1 π2 .. . πn Buscamos solución del siguiente sistema de ecuaciones: b = X0 (Y − π b) = 0 U(β) I Desarrollo de Taylor → βb = β(0) − H−1 (β(0) )U(β(0) ) donde I I U(·) es la funcion score, el vector de derivadas parciales de `; ∂ 2 `(·) H(·) = ∂βj ∂βu , es la matriz hessiana 1≤u,j≤p MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 68 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Método de Newton-Raphson El estimador se obtiene de modo iterativo, en el paso k del algoritmo −1 0 b (k−1) βb(k) = βb(k−1) + X0 W(k−1) X X Y−π I b (k−1) (1 − π b (k−1) ) W(k−1) = diag π I b (k−1) son probabilidades estimadas en el paso anterior π βb(k−1) es el vector de coeficientes obtenido en el paso anterior. I MÁSTER EN ESTADÍSTICA PÚBLICA n×n Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 69 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Método de Newton-Raphson El estimador se obtiene de modo iterativo, en el paso k del algoritmo −1 0 b (k−1) βb(k) = βb(k−1) + X0 W(k−1) X X Y−π I b (k−1) (1 − π b (k−1) ) W(k−1) = diag π I b (k−1) son probabilidades estimadas en el paso anterior π βb(k−1) es el vector de coeficientes obtenido en el paso anterior. I I I n×n Se necesita un valor inicial para empezar el proceso iterativo. Matriz de información de Fisher: bI(k−1) = X0 W(k−1) X MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 70 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Interpretación de los coeficientes I I β0 = logit de presentar el suceso de interés cuando todas las covariables toman valor 0. Sean X1 y X2 dos perfiles distintos: " p # X O(X1 ) = exp βi (Xi1 − Xi2 ) O(X2 ) i=1 Cuánto más “peligro” tiene un sujeto del perfil 1 de presentar la característica de interés frente a un individuo del perfil 2. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 71 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Interpretación de los coeficientes I I β0 = logit de presentar el suceso de interés cuando todas las covariables toman valor 0. Sean X1 y X2 dos perfiles distintos: " p # X O(X1 ) = exp βi (Xi1 − Xi2 ) O(X2 ) i=1 I Cuánto más “peligro” tiene un sujeto del perfil 1 de presentar la característica de interés frente a un individuo del perfil 2. Caso particular: Xj1 = Xj2 + 1 y el resto igual, O(X1 )/O(X2 ) = exp(βj ) I I βj = cambio en logit cuando Xj aumenta en una unidad y el resto de variables se mantienen iguales. A veces el cambio en 1 unidad no tiene interés práctico (edad) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 72 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Contrastes de significación del modelo (A) Desviación del modelo: “Contraste de regresión” H0 : β1 = β2 = · · · = βp = 0 H1 : ∃βj 6= 0, Estadístico de contraste: G → χ2 (p). MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 73 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Contrastes de significación del modelo (A) Desviación del modelo: “Contraste de regresión” H0 : β1 = β2 = · · · = βp = 0 H1 : ∃βj 6= 0, Estadístico de contraste: G → χ2 (p). (B) Contrastes individuales: H0 : βj = 0 H1 : βj 6= 0, j = 1, . . . , p. Estadístico de contraste (Wald): Wj = βbj se(βbj ) → N(0, 1) Intervalo de confianza al nivel 100 × (1 − α) %: βbj ± Z1−α/2 se(βbj ) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 74 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES (C) Pruebas de hipótesis de subconjuntos de parámetros I I I Sea β = (β(1) , β(2) ), con dim(β(1) ) = r < p. Contraste: H0 : β(1) = 0 H1 : β(1) 6= 0, Estadístico de contraste: G = −2[`(modelo bajoH0 ) − `(modelo bajoH1 )] → χ2 (p − r ) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 75 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Selección de variables (Silva y Barroso, 2004) Adelante : 1. Se inicia con un modelo vacio (solo β0 ) 2. Se ajusta un modelo y se calcula el p-valor de incluir cada variable por separado 3. Se selecciona el modelo con la variable más significativa 4. Se ajusta un modelo con la(s) variable(s) seleccionada(s) y se calcula el p-valor de añadir cada variable no seleccionada por separado 5. Se selecciona el modelo con la más significativa 6. Se repite 4-5 hasta que no queden variables significativas para incluir. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 76 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Atrás : 1. Se inicia con un modelo con TODAS las variables candidatas 2. Se eliminan, una a una, cada variable y se calcula la pérdida de ajuste al eliminar 3. Se selecciona para eliminar la menos significativa 4. Se repite 2-3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 77 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Atrás : 1. Se inicia con un modelo con TODAS las variables candidatas 2. Se eliminan, una a una, cada variable y se calcula la pérdida de ajuste al eliminar 3. Se selecciona para eliminar la menos significativa 4. Se repite 2-3 hasta que todas las variables incluidas sean significativas y no pueda eliminarse ninguna sin que se pierda ajuste. Stepwise : a) Se combinan los métodos adelante y atrás. b) Puede empezarse por el modelo vacío o por el completo, pero en cada paso se exploran las variables incluidas, por si deben salir y las no seleccionadas, por si deben entrar c) No todos los métodos llegan a la misma solución necesariamente MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 78 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Consideraciones importantes en regresión logística múltiple I Multicolinealidad I I I Consiste en: dos o más variables linealmente correlacionadas; Efecto: Incremento exagerado en los errores estándar y en los coeficientes estimados. Modelo poco creible Posibles estrategias: I I I Examinar la matriz de correlaciones; Formular modelos con las variables correlacionadas y estudiar el coeficiente R 2 Si R 2 > 0,9 !! MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 79 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES I Confusión e interacción I I I Variable confusora: Covariable que está asociada a la variable respuesta y a un factor de riesgo Interacción: La asociación entre el factor de riesgo y la respuesta depende de la covariable (efecto modificador ). Ejemplo: I I I I Y = (1, si enfermedad coronaria; 0, en otro caso); X = edad; F =sexo (0=m, 1=m); logit lineal en la covariable X para los individuos con factor F = 1 con pendiente distinta de los individuos con factor F =0 Modelo: logit = β0 + β1 X + β2 F + δX ∗ F Importante: Determinar la evidencia o no de interacción en el modelo. H0 : δ = 0 MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 80 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES I Confusión e interacción I I I Variable confusora: Covariable que está asociada a la variable respuesta y a un factor de riesgo Interacción: La asociación entre el factor de riesgo y la respuesta depende de la covariable (efecto modificador ). Ejemplo: I I I I I Y = (1, si enfermedad coronaria; 0, en otro caso); X = edad; F =sexo (0=m, 1=m); logit lineal en la covariable X para los individuos con factor F = 1 con pendiente distinta de los individuos con factor F =0 Modelo: logit = β0 + β1 X + β2 F + δX ∗ F Importante: Determinar la evidencia o no de interacción en el modelo. H0 : δ = 0 Variables categóricas I I Se introducen como variables dummy Se aceptan o se rechazan en bloque. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 81 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Análisis de residuos Residuo. Medida que expresa la diferencia entre las respuestas observadas y predichas por el modelo. Alertan de... 1. que no se cumpla el supuesto de linealidad entre el modelo logit de la probabilidad de Y = 1 y la(s) variable(s) independiente(s); 2. la presencia de algunas observaciones extremas que perturbe la calidad del ajuste; o 3. que una función distinta de la logística describiese más adecuadamente el conjunto de observaciones. Tipos: I Residuos de Pearson I Residuos deviance MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 82 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Datos agrupados Consideramos perfiles de covariables que definen grupos de individuos I mj = número total de individuos con mismo perfil de covariables. I Hay J combinaciones distintas: X1 , . . . , XJ I Ỹj = número de individuos con perfil j que presentan el suceso Y =1 I π bj = π b(Xj ) = valor de probabilidad estimado según el modelo logístico para el perfil j-ésimo. I Las aproximaciones normales asintóticas se sustentan en la aproximación normal de la variable binomial Ỹ , por esto mj debe ser grande. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 83 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Residuos de Pearson I Residuos: Se definen... rj = Ỹj − mj π bj MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 84 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Residuos de Pearson I Residuos: Se definen... rj = Ỹj − mj π bj I Residuos estandarizados o residuos de Pearson: rej = p I I I Ỹj − mj π bj mj π bj (1 − π bj ) Si |rej | > 2 dato a examinar! Si J no es grande (mj suficientemente grande para cada j), rej son NORMALES. Si mj = 1, rj solo toma 2 valores y no puede esperarse Normalidad. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 85 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Residuos de Pearson I Residuos: Se definen... rj = Ỹj − mj π bj I Residuos estandarizados o residuos de Pearson: rej = p I I I I Ỹj − mj π bj mj π bj (1 − π bj ) Si |rej | > 2 dato a examinar! Si J no es grande (mj suficientemente grande para cada j), rej son NORMALES. Si mj = 1, rj solo toma 2 valores y no puede esperarse Normalidad. PJ Estadístico resumen: X 2 = j=1 rej2 → χ2 (J − (p + 1)) (J ≈ n problema!). MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 86 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Residuos deviance Definición: v " u u dj = sign(Ỹj −mj π bj )t2 Ỹj ln I Ỹj mj π bj ! + (mj − Ỹj ) ln mj − Ỹj mj (1 − π bj ) Mide la discrepancia entre la j-ésima componente del logaritmo de la función de verosimilitud del modelo ajustado y la correspondiente componente del logaritmo de la función de verosimilitud que resultaría si cada punto fuese ajustado exactamente. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 87 !# METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES I Datos no agrupados (mj = 1) I I di = −{2[− ln(1 − π bi )]}1/2 , si Yi = 0; y 1/2 di = {2[− ln(b πi )]} si Yi = 1. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 88 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES I Datos no agrupados (mj = 1) I I I di = −{2[− ln(1 − π bi )]}1/2 , si Yi = 0; y 1/2 di = {2[− ln(b πi )]} si Yi = 1. Estadístico resumen: D= J X dj2 j=1 es χ2 si J << n. MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 89 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Influencia o leverage ¿Qué efecto tiene eliminar todos aquellos sujetos que tienen un determinado perfil de covariables en los coeficientes estimados y las medidas de resumen global, X 2 y D? Se define... ∆βbj = βb − βb(−j) Pregibon (1981) aproxima... ∆βbj = rej2 hj 1 − hj donde hj son los leverages, H = V1/2 X(X0 VX)−1 X0 V1/2 XJ×p es la matriz de diseño, V = diag (vj )J×J = diag (mj π b(Xj )[1 − π b(Xj )]) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 90 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Otros diagnósticos Objetivo: determinar perfiles de covariables para los que el modelo proporciona un ajuste pobre... MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 91 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Otros diagnósticos Objetivo: determinar perfiles de covariables para los que el modelo proporciona un ajuste pobre... Procedimiento: Examinar cambios debidos a la eliminación de los mj sujetos en... I Chi-cuadrado de Pearson: ∆Xj2 = rej2 I Deviance: ∆Dj = dj2 1−hj Considerar las representaciones gráficas I Detectar perfiles con gran influencia en el modelo: (b πj , ∆βbj ) I Detectar perfiles que no son bien ajustados por el modelo: (b πj , ∆Xj2 ) y (b πj , ∆Dj ) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 92 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Otros diagnósticos Hosmer y Lemeshow (1989) aconsejan estos gráficos por encima de (b πj , rj ) o (b πj , dj ) porque: 1. Cuando J ≈ n la mayoría de los residuos positivos corresponden a perfiles en los que Ỹj = mj , por ejemplo mj = 1, y los residuos negativos se corresponden con aquellos con Ỹj = 0. Por lo que el signo no es informativo. 2. Grandes residuos se corresponden con puntos que no están bien reflejados en el modelo. Si consideramos los residuos al cuadrado se enfatiza aún más la falta de ajuste. 3. La forma de los gráficos ayuda a determinar qué perfiles se corresponden con Ỹj = 0 y cuáles tienen Ỹj = mj MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 93 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Regresión Logística Multinomial MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 94 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Regresión Logística Multinomial I La variable respueste tiene r + 1 ≥ 2 categorías MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 95 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Regresión Logística Multinomial I I La variable respueste tiene r + 1 ≥ 2 categorías Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) ; k = 1, . . . , r Prob(Y = 0) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 96 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Regresión Logística Multinomial I I I La variable respueste tiene r + 1 ≥ 2 categorías Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) ; k = 1, . . . , r Prob(Y = 0) Modelo ln Prob(Y = k) = β0k + β1k X 1 + · · · + βpk Xp Prob(Y = 0) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 97 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Regresión Logística Multinomial I I I La variable respueste tiene r + 1 ≥ 2 categorías Se elige una como referencia y se enfrentan a ella las r restantes a través de Prob(Y = k) ; k = 1, . . . , r Prob(Y = 0) Modelo ln I I I Prob(Y = k) = β0k + β1k X 1 + · · · + βpk Xp Prob(Y = 0) Tenemos un total de r ∗ (p + 1) parémetros a estimar Se estima mediante el método de máxima-verosimilitud Métodos númericos implementados en software estadístico (SPSS) MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 98 METODOLOGÍA ESTADÍSTICA: ESTIMACIÓN Y CONTRASTE DE HIPÓTESIS MODELOS LINEALES Y SERIES TEMPORALES Bibliografía I Hosmer,D.W. y Lemeshow, S. (1989). Applied Logistic Regression, Wiley Kleinbaum, D.G. (1994). Logistic Regression. A Self-Learning Text. Springer. Montgomery, D.C., Peck, E.A. y Vining, G.G. (2002). Introducción al análisis de regresión lineal, CECSA Pérez López, C. (2001). Técnicas Estadísticas con SPSS (Versión 10), Pearson Alhambra Ryan, T. (1997). Modern Regression Methods, Wiley Silva, L.C. y Barroso, I. (2004). Regresión Logística, La Muralla MÁSTER EN ESTADÍSTICA PÚBLICA Experto Universitario: Estadística Aplicada y Técnicas de Encuestación 99