TEMA 4 Modelo de regresión múltiple José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biologı́a Estructura de este tema Modelo de regresión múltiple. Ejemplos. Estimación e inferencia sobre los parámetros del modelo. Tabla ANOVA y contraste de la regresión. Regresión polinómica. Variables regresoras dicotómicas. Multicolinealidad. Diagnóstico del modelo. Ejemplo Se estudia Y = la tasa de respiración (moles O2 /(g·min)) del liquen Parmelia saxatilis bajo puntos de goteo con un recubrimiento galvanizado. El agua que cae sobre el liquen contiene zinc y potasio, que utilizamos como variables explicativas. (Fuente de datos: Wainwright (1993), J. Biol. Educ..) Tasa de respiración 71 53 55 48 69 84 21 68 68 Potasio (ppm) 388 258 292 205 449 331 114 580 622 Zinc (ppm) 2414 10693 11682 12560 2464 2607 16205 2005 1825 Tasa respiración Ejemplo 4.2 (cont.): 80 60 40 20 15000 10000 5000 Zinc Estadı́stica (CC. Ambientales). Profesora: Amparo Baı́llo 200 400 600 Potasio Tema 4: Regresión múltiple 6 Tasa_resp Potasio Correlaciones Tasa_resp Correlación de Pearson Tasa_resp 1 Sig. (bilateral) Zinc Tasa_resp Potasio Zinc Zinc ,653 ,057 9 9 9 ,686 1 ,443 Sig. (bilateral) ,041 N Zinc ,041 Correlación de Pearson N Potasio Potasio ,686 9 9 Correlación de Pearson ,653 ,443 1 Sig. (bilateral) ,057 ,232 9 9 N 9 ,232 9 Modelo de regresión lineal múltiple En la regresión lineal múltiple de Y sobre X1 , . . . , Xk se supone que la función de regresión tiene la expresión Y ≈ β0 + β1 x1 + . . . + βk xk . Cuando k = 2 la función de regresión es un plano Tasa respiración Ejemplo 4.2: Plano de regresión 80 60 40 20 15000 600 10000 5000 Zinc 400 200 Potasio Modelo de regresión lineal múltiple Tenemos una muestra de n individuos en los que observamos las variables Y y X1 , . . . , Xk . Para el individuo i, tenemos el vector de datos (Yi , xi1 , xi2 , . . . , xik ). El modelo de regresión lineal múltiple supone que Yi = β0 + β1 xi1 + . . . + βK xik + ui , i = 1, . . . , n, donde las variables de error Ui verifican a) ui tiene media cero, para todo i. b) Var(ui ) = σ 2 , para todo i (homocedasticidad). c) Los errores son variables independientes. d) ui tiene distribución normal, para todo i. e) n ≥ k + 2 (hay más observaciones que parámetros). f) Las variables Xi son linealmente independientes entre sı́ (no hay colinealidad). Modelo de regresión lineal múltiple Las hipótesis (a)-(d) se pueden reexpresar ası́: las observaciones Yi son independientes entre con distribución normal: Yi ∼ N(β0 + β1 xi1 + . . . + βk xik , σ). El modelo admite una expresión equivalente en forma matricial: u1 1 x11 . . . x1k β0 Y1 Y2 1 x21 . . . x2k β1 u2 .. = .. .. .. + .. . . . . . un βk Yn 1 xn1 . . . xnk Estimación de los parámetros del modelo Parámetros desconocidos: β0 , β1 , . . . , βk , σ 2 . Estimamos β0 , β1 , . . . , βK por el método de mı́nimos cuadrados, es decir, los estimadores son los valores para los que se minimiza la suma: n X [Yi − (β0 + β1 xi1 + . . . + βk xik )]2 . i=1 Cada coeficiente βi mide el efecto que tiene sobre la respuesta un aumento de una unidad de la variable regresora xi cuando el resto de las variables permanece constante. Estimación de los parámetros del modelo Al derivar la suma anterior respecto a β0 , β1 , . . . , βk e igualar las derivadas a 0 obtenemos k + 1 restricciones sobre los residuos: n X i=1 ei = 0, n X ei xi1 = 0, ..., n X i=1 ei xik = 0. i=1 A partir de este sistema de k + 1 ecuaciones es posible despejar los estimadores de mı́nimos cuadrados de β0 , β1 , . . . , βk . Las hipótesis (e) y (f) hacen falta para que el sistema tenga una solución única. Llamamos β̂0 , β̂1 , . . . , β̂k a los estimadores. Le media de los residuos es cero. La correlación entre los residuos y cada una de las k variables regresoras es cero. Los residuos tienen n − k − 1 grados de libertad. Estimación de los parámetros del modelo Tasa respiración Ejemplo 4.2: Plano de regresión 80 60 40 20 15000 600 10000 5000 Zinc 400 200 Potasio Estimación de la varianza Un estimador insesgado de σ 2 es la varianza residual SR2 . Como en los modelos anteriores, SR2 se define como la suma de los residuos al cuadrado, corregida por los gl apropiados: n SR2 = X 1 ei2 . n−k −1 i=1 Siempre se verifica ȳ = β̂0 + β̂1 x̄1 + . . . + β̂k x̄k , siendo n ȳ = 1X yi , n i=1 n x̄1 = 1X xi1 , n i=1 n ..., x̄k = 1X xik . n i=1 Por ejemplo, si k = 2, el plano de regresión pasa por el punto de medias muestrales (x̄1 , x̄2 , ȳ ). Inferencia sobre los parámetros del modelo Distribución de los estimadores de los coeficientes: Todos los estimadores β̂j verifican: β̂j − βj error tı́pico de β̂j ≡ tn−k−1 , donde el error tı́pico de β̂j es un valor que se calcula con SPSS. Intervalos de confianza para los coeficientes: Para cualquier j = 0, 1, . . . , k, IC1−α (βj ) = β̂j ∓ tn−k−1;α/2 × error tı́pico de β̂j . Contrastes de hipótesis individuales sobre los coeficientes Estamos interesados en determinar qué variables Xj son significativas para explicar Y . H0 : β j = 0 (Xj no influye sobre Y ) H1 : βj 6= 0 (Xj influye sobre Y ) La región crı́tica de cada H0 al nivel de significación α es ) ( |βj | > tn−k−1;α/2 . R= error tı́pico de β̂j El cociente β̂j /(error tı́pico de β̂j ) se llama estadı́stico t asociado a βj . Salida SPSS Resumen del modelo R ,789 a Modelo 1 R cuadrado ,622 R cuadrado corregida ,496 Error típ. de la estimación 12,907 a. Variables predictoras: (Constante), Zinc, Potasio ANOVAb Modelo 1 Regresión Residual Total Suma de cuadrados 1644,390 2 Media cuadrática 822,195 999,610 6 166,602 2644,000 8 gl F 4,935 Sig. ,054 a a. Variables predictoras: (Constante), Zinc, Potasio b. Variable dependiente: Tasa_resp Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) B 15,978 Error típ. 15,304 Coeficientes tipificados Beta t 1,044 Sig. ,337 Potasio ,053 ,030 ,494 1,763 ,128 Zinc ,013 ,009 ,434 1,549 ,172 a. Variable dependiente: Tasa_resp Descomposición de la variabilidad Como en modelos anteriores: Yi Yi − Ȳ n X (Yi − Ȳ )2 i=1 = Ŷi + ei = (Ŷi − Ȳ ) + ei n n X X = (Ŷi − Ȳ )2 + ei2 i=1 i=1 SCT = SCE + SCR SCT mide la variabilidad total (tiene n − 1 gl) SCE mide la variabilidad explicada por el modelo (tiene k gl) SCR mide la variabilidad no explicada o residual (tiene n − k − 1 gl) El contraste de la regresión H0 : β1 = . . . = βk = 0 (el modelo no es explicativo: ninguna de las variables explicativas influye en la respuesta) H1 : βj 6= 0 para algún j = 1, . . . , k (el modelo es explicativo: al menos una de las variables Xj influye en la respuesta) Comparamos la variabilidad explicada con la no explicada mediante el estadı́stico F : SCE/k . F = SCR/(n − k − 1) Bajo H0 el estadı́stico F sigue una distribución Fk,n−k−1 . La región de rechazo de H0 al nivel de significación α es R = {F > Fk,n−k−1;α } El coeficiente de determinación Es una medida de la bondad del ajuste en el modelo de regresión múltiple R2 = SCE . SCT Propiedades: 0 ≤ R 2 ≤ 1. Cuando R 2 = 1 existe una relación exacta entre la respuesta y las k variables regresoras. Cuando R 2 = 0, sucede que β̂0 = ȳ y β̂1 = . . . = β̂k = 0. No existe relación lineal entre Y y las Xi . Podemos interpretar R 2 o como un coeficiente de correlación múltiple entre Y y las k variables regresoras. R2 n − k − 1 Se verifica que F = . 1 − R2 k El coeficiente de determinación ajustado El coeficiente de determinación para comparar distintos modelos de regresión entre sı́ tiene el siguiente inconveniente: Siempre que se añade una nueva variable regresora al modelo, R 2 aumenta, aunque el efecto de la variable regresora sobre la respuesta no sea significativo. Por ello se define el coeficiente de determinación ajustado o corregido por grados de libertad R̄ 2 = 1 − SR2 SCE/(n − k − 1) =1− SCT/(n − 1) SCT/(n − 1) R̄ 2 sólo disminuye al introducir una nueva variable en el modelo si la varianza residual disminuye. Regresión polinómica Podemos utilizar el modelo de regresión múltiple para ajustar un polinomio: Y ≈ β0 + β1 x + β2 x 2 + · · · + βk x k . Basta considerar las k variables regresoras x, x 2 , . . . , x k . ● ● ● 150 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 100 ● ● ● ● ● ● ● ●● ● ● y ● ● ● ● ● ● ● ● ● ● ● ● ● ● 50 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● 0 2 4 6 x 8 10 Regresión polinómica Resumen del modelo R ,926 a Modelo 1 R cuadrado ,858 R cuadrado corregida ,857 Error típ. de la estimación 19,04222 a. Variables predictoras: (Constante), x Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) x B -14,376 Error típ. 3,762 15,904 ,650 Coeficientes tipificados Beta ,926 t -3,822 Sig. ,000 24,472 ,000 t 1,429 Sig. ,156 a. Variable dependiente: y Resumen del modelo R ,947 a Modelo 1 R cuadrado ,896 R cuadrado corregida ,894 Error típ. de la estimación 16,36427 a. Variables predictoras: (Constante), x2, x Coeficientesa Coeficientes no estandarizados 6,846 Error típ. 4,790 x 3,042 2,214 ,177 1,374 ,172 x2 1,286 ,214 ,774 6,004 ,000 Modelo 1 (Constante) a. Variable dependiente: y B Coeficientes tipificados Beta Regresión polinómica Estimación curvilínea Resumen del modelo y estimaciones de los parámetros Variable dependiente:y Resumen del modelo Ecuación Lineal R cuadrado ,858 F 598,866 ,896 423,481 Cuadrático gl1 1 99 Sig. ,000 2 gl2 98 ,000 La variable independiente esx. Resumen del modelo y estimaciones de los parámetros Variable dependiente:y Estimaciones de los parámetros Ecuación Lineal Cuadrático Constante -14,376 b1 15,904 6,846 3,042 b2 1,286 La variable independiente esx. ● y ● ● 150 ● ● ● ● 200,00 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 100 ● ● ● ● ● ● ● ●● 150,00 ● ● y ● ● ● ● ● ● ● ● ● ● ● ● ● ● 50 ● ● ● ● ● ● ● 100,00 ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● 50,00 ● ● ● 0,00 0 2 4 6 x 8 10 Observado Lineal Cuadrático Regresión polinómica ● ● 2 ● 2 ● ● ● ● ● ● ● ● ● 1 ● ● 1 ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1 ● ● −1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● residuos2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −2 ● ● −2 residuos1 ● ● ● ● ● ● ● ● 0 50 ● 100 ajustados1 150 50 100 ajustados2 150 Regresión polinómica: rentas y fracaso escolar Resumen del modelo y estimaciones de los parámetros Variable dependiente:Fracaso Estimaciones de los parámetros Resumen del modelo Ecuación Lineal R cuadrado ,550 F 25,658 gl1 1 gl2 21 Sig. ,000 Constante 38,494 b1 -1,347 b2 ,109 Cuadrático ,586 14,183 2 20 ,000 61,088 -4,614 Potencia ,610 32,809 1 21 ,000 293,923 -1,066 La variable independiente esRenta. Fracaso Observado Lineal Cuadrático Potencia 40,0 30,0 20,0 10,0 0,0 8,000 10,000 12,000 14,000 16,000 18,000 20,000 22,000 Renta 10 0 200 150 y 50 0 200 y ● ● ● ● ● ● 0 ● ● ● ● ● ● 5 Radj2 = 0.72 R2 = 0.94 10 ● ● ● 0 −10 ● ● ● 10 100 ● 50 50 10 5 150 ● ● 5 Radj2 = 0.81 R2 = 0.94 0 Radj = 0.85 R2 = 0.92 ● ● 0 −10 100 200 150 50 0 200 ● ● 5 Radj2 = 0.83 R2 = 0.93 −10 2 ● 150 ● ● 0 ● 0 ● ● 10 ● 0 ● ● 5 ● ● ● ● ● 0 Radj = 0.83 R2 = 0.9 ● ● 50 50 ● −10 2 ● ● ● ● ● 50 ● ● ● ● ● ● ● 100 200 ● y ● ● 10 100 200 y 100 ● 5 150 ● ● ● 0 Radj = 0.85 R2 = 0.89 100 200 −10 2 ● 150 ● 150 10 Radj = 0.87 R2 = 0.89 0 y 5 ● ● ● ● 0 2 ● ● ● y −10 Radj = 0.88 R2 = 0.89 ● ● 0 0 0 10 ● ● ● ● ● 5 ● ● ● ● ● 0 ● ● ● ● 2 −10 ● 50 50 50 ● ● −10 ● ● ● ● ● y ● ● ● ● ● ● 100 200 y y ● ● ● ● 150 ● 100 ● 100 y ● 150 ● 100 200 ● 150 200 Regresión polinómica y sobreajuste −10 0 ● 5 Radj2 = 0.67 R2 = 0.97 10 −10 0 5 Radj2 = NaN R2 = 1 10 Curvas estimadas a partir de 50 muestras de 10 datos −10 −5 0 Mucho sesgo y poca varianza 5 10 300 250 0 50 100 150 200 250 z 0 50 100 150 200 250 200 150 100 50 0 z Polinomio de grado k=9 300 k=2 (reg. cuadrática) 300 k=2 (reg. simple) −10 −5 0 Modelo verdadero 5 10 −10 −5 0 Poco sesgo y mucha varianza 5 10 Variables regresoras dicotómicas 10 Mezclar subpoblaciones en regresión no es adecuado. ● ● ● ● ● ● ● ● 5 ● ● ● ● ● ● ● ● 5 ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ●● ● ●● ● ● ● ● ● ● −5 ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● −10 0 ● ● y2 y1 ● ● ● ● ● ● ● ● ● ● ● ● ●● ● −15 −5 ● ● −4 −2 0 2 ● ● ●● ● 10 ● 4 ● −4 −2 x1 ¿En qué se diferencian los dos ejemplos anteriores? 0 x2 1 2 Modelo aditivo Resumen del modelo R ,963 a Modelo 1 R cuadrado ,928 R cuadrado corregida ,923 Error típ. de la estimación a. Variables predictoras: (Constante), x1z1, z1, x1 ANOVAb Modelo 1 Regresión Suma de cuadrados 438,063 3 Media cuadrática 146,021 34,041 46 ,740 472,104 49 Residual Total gl F 197,319 Sig. ,000 a a. Variables predictoras: (Constante), x1z1, z1, x1 b. Variable dependiente: y1 Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) B ,277 Error típ. ,177 Coeficientes tipificados Beta t 1,560 Sig. ,126 x1 ,927 ,080 ,647 11,632 ,000 z1 3,620 ,247 ,589 14,649 ,000 ,142 ,114 ,068 1,241 ,221 x1z1 a. Variable dependiente: y1 Modelo con interacciones Resumen del modelo R ,987 a Modelo 1 R cuadrado ,975 R cuadrado corregida ,973 Error típ. de la estimación a. Variables predictoras: (Constante), x2z2, z2, x2 ANOVAb Modelo 1 Regresión Suma de cuadrados 1533,096 3 Media cuadrática 511,032 39,604 46 ,861 1572,700 49 Residual Total gl F 593,559 Sig. ,000 a a. Variables predictoras: (Constante), x2z2, z2, x2 b. Variable dependiente: y2 Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) B -,235 Error típ. ,189 Coeficientes tipificados Beta t -1,243 Sig. ,220 x2 ,796 ,115 ,247 6,902 ,000 z2 3,025 ,267 ,270 11,320 ,000 x2z2 3,288 ,152 ,781 21,599 ,000 a. Variable dependiente: y2 Multicolinealidad El cálculo de los estimadores de los parámetros en regresión múltiple requiere resolver un sistema de k + 1 ecuaciones con k + 1 incógnitas. Cuando una de las Xj es combinación lineal de las restantes variables regresoras, el sistema es indeterminado. Entonces diremos que las variables explicativas son colineales. En la práctica esto nunca pasa de manera exacta, aunque sı́ es posible que en un conjunto de datos algunas de las variables regresoras se puedan describir muy bien como función lineal de las restantes variables. Este problema, llamado multicolinealidad, hace que los estimadores de los parámetros β̂i tengan alta variabilidad (errores tı́picos muy grandes) y sean muy dependientes entre sı́. x1 -0.43 1.36 0.52 -0.12 -0.48 -0.98 -1.04 1.45 1.31 -0.24 -0.86 0.89 0.53 -0.44 0.50 -0.66 0.46 0.33 1.58 0.05 x2 -0.57 1.42 0.45 -0.33 -0.56 -1.00 -0.83 1.44 1.47 -0.32 -1.32 0.84 0.54 -0.50 0.46 -0.62 0.32 0.19 1.80 0.20 X2 y -0.67 4.36 0.70 -1.00 -1.59 -3.13 -2.40 1.79 1.95 -0.70 -1.97 1.82 1.49 -0.88 1.40 0.82 0.51 0.83 3.11 -0.20 X1 Y Multicolinealidad Y X1 X2 Correlaciones Y Y Correlación de Pearson 1 Sig. (bilateral) N X1 X2 ,902 ,000 ,000 20 20 20 Correlación de Pearson ,906 1 ,987 Sig. (bilateral) ,000 N X2 X1 ,906 ,000 20 20 Correlación de Pearson ,902 ,987 Sig. (bilateral) ,000 ,000 20 20 N 20 1 20 Multicolinealidad Resumen del modelo R ,907 a Modelo 1 R cuadrado ,823 R cuadrado corregida ,803 Error típ. de la estimación ,84071 a. Variables predictoras: (Constante), X2, X1 ANOVAb Modelo 1 Regresión Suma de cuadrados 56,049 2 Media cuadrática 28,025 ,707 gl Residual 12,015 17 Total 68,065 19 F 39,651 Sig. ,000 a a. Variables predictoras: (Constante), X2, X1 b. Variable dependiente: Y Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) B -,041 Error típ. ,202 Coeficientes tipificados Beta t -,205 Sig. ,840 X1 1,360 1,426 ,601 ,954 ,354 X2 ,648 1,319 ,309 ,491 ,630 a. Variable dependiente: Y