TEMA 4 Modelo de regresión múltiple

TEMA 4 Modelo de regresión múltiple José R. Berrendero Departamento de Matemáticas Universidad Autónoma de Madrid Análisis de Datos - Grado en Biologı́a Estructura de este tema Modelo de regresión múltiple. Ejemplos. Estimación e inferencia sobre los parámetros del modelo. Tabla ANOVA y contraste de la regresión. Regresión polinómica. Variables regresoras dicotómicas. Multicolinealidad. Diagnóstico del modelo. Ejemplo Se estudia Y = la tasa de respiración (moles O2 /(g·min)) del liquen Parmelia saxatilis bajo puntos de goteo con un recubrimiento galvanizado. El agua que cae sobre el liquen contiene zinc y potasio, que utilizamos como variables explicativas. (Fuente de datos: Wainwright (1993), J. Biol. Educ..) Tasa de respiración 71 53 55 48 69 84 21 68 68 Potasio (ppm) 388 258 292 205 449 331 114 580 622 Zinc (ppm) 2414 10693 11682 12560 2464 2607 16205 2005 1825 Tasa respiración Ejemplo 4.2 (cont.): 80 60 40 20 15000 10000 5000 Zinc Estadı́stica (CC. Ambientales). Profesora: Amparo Baı́llo 200 400 600 Potasio Tema 4: Regresión múltiple 6 Tasa_resp Potasio Correlaciones Tasa_resp Correlación de Pearson Tasa_resp 1 Sig. (bilateral) Zinc Tasa_resp Potasio Zinc Zinc ,653 ,057 9 9 9 ,686 1 ,443 Sig. (bilateral) ,041 N Zinc ,041 Correlación de Pearson N Potasio Potasio ,686 9 9 Correlación de Pearson ,653 ,443 1 Sig. (bilateral) ,057 ,232 9 9 N 9 ,232 9 Modelo de regresión lineal múltiple En la regresión lineal múltiple de Y sobre X1 , . . . , Xk se supone que la función de regresión tiene la expresión Y ≈ β0 + β1 x1 + . . . + βk xk . Cuando k = 2 la función de regresión es un plano Tasa respiración Ejemplo 4.2: Plano de regresión 80 60 40 20 15000 600 10000 5000 Zinc 400 200 Potasio Modelo de regresión lineal múltiple Tenemos una muestra de n individuos en los que observamos las variables Y y X1 , . . . , Xk . Para el individuo i, tenemos el vector de datos (Yi , xi1 , xi2 , . . . , xik ). El modelo de regresión lineal múltiple supone que Yi = β0 + β1 xi1 + . . . + βK xik + ui , i = 1, . . . , n, donde las variables de error Ui verifican a) ui tiene media cero, para todo i. b) Var(ui ) = σ 2 , para todo i (homocedasticidad). c) Los errores son variables independientes. d) ui tiene distribución normal, para todo i. e) n ≥ k + 2 (hay más observaciones que parámetros). f) Las variables Xi son linealmente independientes entre sı́ (no hay colinealidad). Modelo de regresión lineal múltiple Las hipótesis (a)-(d) se pueden reexpresar ası́: las observaciones Yi son independientes entre con distribución normal: Yi ∼ N(β0 + β1 xi1 + . . . + βk xik , σ). El modelo admite una expresión equivalente en forma matricial:        u1 1 x11 . . . x1k β0 Y1  Y2   1 x21 . . . x2k   β1   u2          ..  =  .. ..   ..  +  ..   .   . .  .   .  un βk Yn 1 xn1 . . . xnk Estimación de los parámetros del modelo Parámetros desconocidos: β0 , β1 , . . . , βk , σ 2 . Estimamos β0 , β1 , . . . , βK por el método de mı́nimos cuadrados, es decir, los estimadores son los valores para los que se minimiza la suma: n X [Yi − (β0 + β1 xi1 + . . . + βk xik )]2 . i=1 Cada coeficiente βi mide el efecto que tiene sobre la respuesta un aumento de una unidad de la variable regresora xi cuando el resto de las variables permanece constante. Estimación de los parámetros del modelo Al derivar la suma anterior respecto a β0 , β1 , . . . , βk e igualar las derivadas a 0 obtenemos k + 1 restricciones sobre los residuos: n X i=1 ei = 0, n X ei xi1 = 0, ..., n X i=1 ei xik = 0. i=1 A partir de este sistema de k + 1 ecuaciones es posible despejar los estimadores de mı́nimos cuadrados de β0 , β1 , . . . , βk . Las hipótesis (e) y (f) hacen falta para que el sistema tenga una solución única. Llamamos β̂0 , β̂1 , . . . , β̂k a los estimadores. Le media de los residuos es cero. La correlación entre los residuos y cada una de las k variables regresoras es cero. Los residuos tienen n − k − 1 grados de libertad. Estimación de los parámetros del modelo Tasa respiración Ejemplo 4.2: Plano de regresión 80 60 40 20 15000 600 10000 5000 Zinc 400 200 Potasio Estimación de la varianza Un estimador insesgado de σ 2 es la varianza residual SR2 . Como en los modelos anteriores, SR2 se define como la suma de los residuos al cuadrado, corregida por los gl apropiados: n SR2 = X 1 ei2 . n−k −1 i=1 Siempre se verifica ȳ = β̂0 + β̂1 x̄1 + . . . + β̂k x̄k , siendo n ȳ = 1X yi , n i=1 n x̄1 = 1X xi1 , n i=1 n ..., x̄k = 1X xik . n i=1 Por ejemplo, si k = 2, el plano de regresión pasa por el punto de medias muestrales (x̄1 , x̄2 , ȳ ). Inferencia sobre los parámetros del modelo Distribución de los estimadores de los coeficientes: Todos los estimadores β̂j verifican: β̂j − βj error tı́pico de β̂j ≡ tn−k−1 , donde el error tı́pico de β̂j es un valor que se calcula con SPSS. Intervalos de confianza para los coeficientes: Para cualquier j = 0, 1, . . . , k, IC1−α (βj ) = β̂j ∓ tn−k−1;α/2 × error tı́pico de β̂j . Contrastes de hipótesis individuales sobre los coeficientes Estamos interesados en determinar qué variables Xj son significativas para explicar Y . H0 : β j = 0 (Xj no influye sobre Y ) H1 : βj 6= 0 (Xj influye sobre Y ) La región crı́tica de cada H0 al nivel de significación α es ) ( |βj | > tn−k−1;α/2 . R= error tı́pico de β̂j El cociente β̂j /(error tı́pico de β̂j ) se llama estadı́stico t asociado a βj . Salida SPSS Resumen del modelo R ,789 a Modelo 1 R cuadrado ,622 R cuadrado corregida ,496 Error típ. de la estimación 12,907 a. Variables predictoras: (Constante), Zinc, Potasio ANOVAb Modelo 1 Regresión Residual Total Suma de cuadrados 1644,390 2 Media cuadrática 822,195 999,610 6 166,602 2644,000 8 gl F 4,935 Sig. ,054 a a. Variables predictoras: (Constante), Zinc, Potasio b. Variable dependiente: Tasa_resp Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) B 15,978 Error típ. 15,304 Coeficientes tipificados Beta t 1,044 Sig. ,337 Potasio ,053 ,030 ,494 1,763 ,128 Zinc ,013 ,009 ,434 1,549 ,172 a. Variable dependiente: Tasa_resp Descomposición de la variabilidad Como en modelos anteriores: Yi Yi − Ȳ n X (Yi − Ȳ )2 i=1 = Ŷi + ei = (Ŷi − Ȳ ) + ei n n X X = (Ŷi − Ȳ )2 + ei2 i=1 i=1 SCT = SCE + SCR SCT mide la variabilidad total (tiene n − 1 gl) SCE mide la variabilidad explicada por el modelo (tiene k gl) SCR mide la variabilidad no explicada o residual (tiene n − k − 1 gl) El contraste de la regresión H0 : β1 = . . . = βk = 0 (el modelo no es explicativo: ninguna de las variables explicativas influye en la respuesta) H1 : βj 6= 0 para algún j = 1, . . . , k (el modelo es explicativo: al menos una de las variables Xj influye en la respuesta) Comparamos la variabilidad explicada con la no explicada mediante el estadı́stico F : SCE/k . F = SCR/(n − k − 1) Bajo H0 el estadı́stico F sigue una distribución Fk,n−k−1 . La región de rechazo de H0 al nivel de significación α es R = {F > Fk,n−k−1;α } El coeficiente de determinación Es una medida de la bondad del ajuste en el modelo de regresión múltiple R2 = SCE . SCT Propiedades: 0 ≤ R 2 ≤ 1. Cuando R 2 = 1 existe una relación exacta entre la respuesta y las k variables regresoras. Cuando R 2 = 0, sucede que β̂0 = ȳ y β̂1 = . . . = β̂k = 0. No existe relación lineal entre Y y las Xi . Podemos interpretar R 2 o como un coeficiente de correlación múltiple entre Y y las k variables regresoras. R2 n − k − 1 Se verifica que F = . 1 − R2 k El coeficiente de determinación ajustado El coeficiente de determinación para comparar distintos modelos de regresión entre sı́ tiene el siguiente inconveniente: Siempre que se añade una nueva variable regresora al modelo, R 2 aumenta, aunque el efecto de la variable regresora sobre la respuesta no sea significativo. Por ello se define el coeficiente de determinación ajustado o corregido por grados de libertad R̄ 2 = 1 − SR2 SCE/(n − k − 1) =1− SCT/(n − 1) SCT/(n − 1) R̄ 2 sólo disminuye al introducir una nueva variable en el modelo si la varianza residual disminuye. Regresión polinómica Podemos utilizar el modelo de regresión múltiple para ajustar un polinomio: Y ≈ β0 + β1 x + β2 x 2 + · · · + βk x k . Basta considerar las k variables regresoras x, x 2 , . . . , x k . ● ● ● 150 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 100 ● ● ● ● ● ● ● ●● ● ● y ● ● ● ● ● ● ● ● ● ● ● ● ● ● 50 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● 0 2 4 6 x 8 10 Regresión polinómica Resumen del modelo R ,926 a Modelo 1 R cuadrado ,858 R cuadrado corregida ,857 Error típ. de la estimación 19,04222 a. Variables predictoras: (Constante), x Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) x B -14,376 Error típ. 3,762 15,904 ,650 Coeficientes tipificados Beta ,926 t -3,822 Sig. ,000 24,472 ,000 t 1,429 Sig. ,156 a. Variable dependiente: y Resumen del modelo R ,947 a Modelo 1 R cuadrado ,896 R cuadrado corregida ,894 Error típ. de la estimación 16,36427 a. Variables predictoras: (Constante), x2, x Coeficientesa Coeficientes no estandarizados 6,846 Error típ. 4,790 x 3,042 2,214 ,177 1,374 ,172 x2 1,286 ,214 ,774 6,004 ,000 Modelo 1 (Constante) a. Variable dependiente: y B Coeficientes tipificados Beta Regresión polinómica Estimación curvilínea Resumen del modelo y estimaciones de los parámetros Variable dependiente:y Resumen del modelo Ecuación Lineal R cuadrado ,858 F 598,866 ,896 423,481 Cuadrático gl1 1 99 Sig. ,000 2 gl2 98 ,000 La variable independiente esx. Resumen del modelo y estimaciones de los parámetros Variable dependiente:y Estimaciones de los parámetros Ecuación Lineal Cuadrático Constante -14,376 b1 15,904 6,846 3,042 b2 1,286 La variable independiente esx. ● y ● ● 150 ● ● ● ● 200,00 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 100 ● ● ● ● ● ● ● ●● 150,00 ● ● y ● ● ● ● ● ● ● ● ● ● ● ● ● ● 50 ● ● ● ● ● ● ● 100,00 ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● 50,00 ● ● ● 0,00 0 2 4 6 x 8 10 Observado Lineal Cuadrático Regresión polinómica ● ● 2 ● 2 ● ● ● ● ● ● ● ● ● 1 ● ● 1 ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1 ● ● −1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● residuos2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −2 ● ● −2 residuos1 ● ● ● ● ● ● ● ● 0 50 ● 100 ajustados1 150 50 100 ajustados2 150 Regresión polinómica: rentas y fracaso escolar Resumen del modelo y estimaciones de los parámetros Variable dependiente:Fracaso Estimaciones de los parámetros Resumen del modelo Ecuación Lineal R cuadrado ,550 F 25,658 gl1 1 gl2 21 Sig. ,000 Constante 38,494 b1 -1,347 b2 ,109 Cuadrático ,586 14,183 2 20 ,000 61,088 -4,614 Potencia ,610 32,809 1 21 ,000 293,923 -1,066 La variable independiente esRenta. Fracaso Observado Lineal Cuadrático Potencia 40,0 30,0 20,0 10,0 0,0 8,000 10,000 12,000 14,000 16,000 18,000 20,000 22,000 Renta 10 0 200 150 y 50 0 200 y ● ● ● ● ● ● 0 ● ● ● ● ● ● 5 Radj2 = 0.72 R2 = 0.94 10 ● ● ● 0 −10 ● ● ● 10 100 ● 50 50 10 5 150 ● ● 5 Radj2 = 0.81 R2 = 0.94 0 Radj = 0.85 R2 = 0.92 ● ● 0 −10 100 200 150 50 0 200 ● ● 5 Radj2 = 0.83 R2 = 0.93 −10 2 ● 150 ● ● 0 ● 0 ● ● 10 ● 0 ● ● 5 ● ● ● ● ● 0 Radj = 0.83 R2 = 0.9 ● ● 50 50 ● −10 2 ● ● ● ● ● 50 ● ● ● ● ● ● ● 100 200 ● y ● ● 10 100 200 y 100 ● 5 150 ● ● ● 0 Radj = 0.85 R2 = 0.89 100 200 −10 2 ● 150 ● 150 10 Radj = 0.87 R2 = 0.89 0 y 5 ● ● ● ● 0 2 ● ● ● y −10 Radj = 0.88 R2 = 0.89 ● ● 0 0 0 10 ● ● ● ● ● 5 ● ● ● ● ● 0 ● ● ● ● 2 −10 ● 50 50 50 ● ● −10 ● ● ● ● ● y ● ● ● ● ● ● 100 200 y y ● ● ● ● 150 ● 100 ● 100 y ● 150 ● 100 200 ● 150 200 Regresión polinómica y sobreajuste −10 0 ● 5 Radj2 = 0.67 R2 = 0.97 10 −10 0 5 Radj2 = NaN R2 = 1 10 Curvas estimadas a partir de 50 muestras de 10 datos −10 −5 0 Mucho sesgo y poca varianza 5 10 300 250 0 50 100 150 200 250 z 0 50 100 150 200 250 200 150 100 50 0 z Polinomio de grado k=9 300 k=2 (reg. cuadrática) 300 k=2 (reg. simple) −10 −5 0 Modelo verdadero 5 10 −10 −5 0 Poco sesgo y mucha varianza 5 10 Variables regresoras dicotómicas 10 Mezclar subpoblaciones en regresión no es adecuado. ● ● ● ● ● ● ● ● 5 ● ● ● ● ● ● ● ● 5 ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ●● ● ●● ● ● ● ● ● ● −5 ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● −10 0 ● ● y2 y1 ● ● ● ● ● ● ● ● ● ● ● ● ●● ● −15 −5 ● ● −4 −2 0 2 ● ● ●● ● 10 ● 4 ● −4 −2 x1 ¿En qué se diferencian los dos ejemplos anteriores? 0 x2 1 2 Modelo aditivo Resumen del modelo R ,963 a Modelo 1 R cuadrado ,928 R cuadrado corregida ,923 Error típ. de la estimación a. Variables predictoras: (Constante), x1z1, z1, x1 ANOVAb Modelo 1 Regresión Suma de cuadrados 438,063 3 Media cuadrática 146,021 34,041 46 ,740 472,104 49 Residual Total gl F 197,319 Sig. ,000 a a. Variables predictoras: (Constante), x1z1, z1, x1 b. Variable dependiente: y1 Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) B ,277 Error típ. ,177 Coeficientes tipificados Beta t 1,560 Sig. ,126 x1 ,927 ,080 ,647 11,632 ,000 z1 3,620 ,247 ,589 14,649 ,000 ,142 ,114 ,068 1,241 ,221 x1z1 a. Variable dependiente: y1 Modelo con interacciones Resumen del modelo R ,987 a Modelo 1 R cuadrado ,975 R cuadrado corregida ,973 Error típ. de la estimación a. Variables predictoras: (Constante), x2z2, z2, x2 ANOVAb Modelo 1 Regresión Suma de cuadrados 1533,096 3 Media cuadrática 511,032 39,604 46 ,861 1572,700 49 Residual Total gl F 593,559 Sig. ,000 a a. Variables predictoras: (Constante), x2z2, z2, x2 b. Variable dependiente: y2 Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) B -,235 Error típ. ,189 Coeficientes tipificados Beta t -1,243 Sig. ,220 x2 ,796 ,115 ,247 6,902 ,000 z2 3,025 ,267 ,270 11,320 ,000 x2z2 3,288 ,152 ,781 21,599 ,000 a. Variable dependiente: y2 Multicolinealidad El cálculo de los estimadores de los parámetros en regresión múltiple requiere resolver un sistema de k + 1 ecuaciones con k + 1 incógnitas. Cuando una de las Xj es combinación lineal de las restantes variables regresoras, el sistema es indeterminado. Entonces diremos que las variables explicativas son colineales. En la práctica esto nunca pasa de manera exacta, aunque sı́ es posible que en un conjunto de datos algunas de las variables regresoras se puedan describir muy bien como función lineal de las restantes variables. Este problema, llamado multicolinealidad, hace que los estimadores de los parámetros β̂i tengan alta variabilidad (errores tı́picos muy grandes) y sean muy dependientes entre sı́. x1 -0.43 1.36 0.52 -0.12 -0.48 -0.98 -1.04 1.45 1.31 -0.24 -0.86 0.89 0.53 -0.44 0.50 -0.66 0.46 0.33 1.58 0.05 x2 -0.57 1.42 0.45 -0.33 -0.56 -1.00 -0.83 1.44 1.47 -0.32 -1.32 0.84 0.54 -0.50 0.46 -0.62 0.32 0.19 1.80 0.20 X2 y -0.67 4.36 0.70 -1.00 -1.59 -3.13 -2.40 1.79 1.95 -0.70 -1.97 1.82 1.49 -0.88 1.40 0.82 0.51 0.83 3.11 -0.20 X1 Y Multicolinealidad Y X1 X2 Correlaciones Y Y Correlación de Pearson 1 Sig. (bilateral) N X1 X2 ,902 ,000 ,000 20 20 20 Correlación de Pearson ,906 1 ,987 Sig. (bilateral) ,000 N X2 X1 ,906 ,000 20 20 Correlación de Pearson ,902 ,987 Sig. (bilateral) ,000 ,000 20 20 N 20 1 20 Multicolinealidad Resumen del modelo R ,907 a Modelo 1 R cuadrado ,823 R cuadrado corregida ,803 Error típ. de la estimación ,84071 a. Variables predictoras: (Constante), X2, X1 ANOVAb Modelo 1 Regresión Suma de cuadrados 56,049 2 Media cuadrática 28,025 ,707 gl Residual 12,015 17 Total 68,065 19 F 39,651 Sig. ,000 a a. Variables predictoras: (Constante), X2, X1 b. Variable dependiente: Y Coeficientesa Coeficientes no estandarizados Modelo 1 (Constante) B -,041 Error típ. ,202 Coeficientes tipificados Beta t -,205 Sig. ,840 X1 1,360 1,426 ,601 ,954 ,354 X2 ,648 1,319 ,309 ,491 ,630 a. Variable dependiente: Y

TEMA 4 Modelo de regresión múltiple

Documentos relacionados

Productos

Apoyo

TEMA 4 Modelo de regresión múltiple

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib