TEMA 4 Modelo de regresión múltiple

Anuncio
TEMA 4
Modelo de regresión múltiple
José R. Berrendero
Departamento de Matemáticas
Universidad Autónoma de Madrid
Análisis de Datos - Grado en Biologı́a
Estructura de este tema
Modelo de regresión múltiple. Ejemplos.
Estimación e inferencia sobre los parámetros del modelo.
Tabla ANOVA y contraste de la regresión.
Regresión polinómica.
Variables regresoras dicotómicas.
Multicolinealidad.
Diagnóstico del modelo.
Ejemplo
Se estudia Y = la tasa de respiración (moles O2 /(g·min)) del liquen
Parmelia saxatilis bajo puntos de goteo con un recubrimiento galvanizado.
El agua que cae sobre el liquen contiene zinc y potasio, que utilizamos
como variables explicativas. (Fuente de datos: Wainwright (1993), J. Biol.
Educ..)
Tasa de respiración
71
53
55
48
69
84
21
68
68
Potasio (ppm)
388
258
292
205
449
331
114
580
622
Zinc (ppm)
2414
10693
11682
12560
2464
2607
16205
2005
1825
Tasa respiración
Ejemplo 4.2 (cont.):
80
60
40
20
15000
10000
5000
Zinc
Estadı́stica (CC. Ambientales). Profesora: Amparo Baı́llo
200
400
600
Potasio
Tema 4: Regresión múltiple
6
Tasa_resp
Potasio
Correlaciones
Tasa_resp
Correlación de Pearson
Tasa_resp
1
Sig. (bilateral)
Zinc
Tasa_resp
Potasio
Zinc
Zinc
,653
,057
9
9
9
,686
1
,443
Sig. (bilateral)
,041
N
Zinc
,041
Correlación de Pearson
N
Potasio
Potasio
,686
9
9
Correlación de Pearson
,653
,443
1
Sig. (bilateral)
,057
,232
9
9
N
9
,232
9
Modelo de regresión lineal múltiple
En la regresión lineal múltiple de Y sobre X1 , . . . , Xk se supone que la
función de regresión tiene la expresión
Y ≈ β0 + β1 x1 + . . . + βk xk .
Cuando k = 2 la función de regresión es un plano
Tasa respiración
Ejemplo 4.2: Plano de regresión
80
60
40
20
15000
600
10000
5000
Zinc
400
200
Potasio
Modelo de regresión lineal múltiple
Tenemos una muestra de n individuos en los que observamos las variables
Y y X1 , . . . , Xk . Para el individuo i, tenemos el vector de datos
(Yi , xi1 , xi2 , . . . , xik ).
El modelo de regresión lineal múltiple supone que
Yi = β0 + β1 xi1 + . . . + βK xik + ui ,
i = 1, . . . , n,
donde las variables de error Ui verifican
a) ui tiene media cero, para todo i.
b) Var(ui ) = σ 2 , para todo i (homocedasticidad).
c) Los errores son variables independientes.
d) ui tiene distribución normal, para todo i.
e) n ≥ k + 2 (hay más observaciones que parámetros).
f) Las variables Xi son linealmente independientes entre sı́ (no hay
colinealidad).
Modelo de regresión lineal múltiple
Las hipótesis (a)-(d) se pueden reexpresar ası́: las observaciones Yi son
independientes entre con distribución normal:
Yi ∼ N(β0 + β1 xi1 + . . . + βk xik , σ).
El modelo admite una expresión equivalente en forma matricial:

 
 


u1
1 x11 . . . x1k
β0
Y1
 Y2   1 x21 . . . x2k   β1   u2 
 


 

 ..  =  ..
..   ..  +  .. 
 .   .
.  .   . 
un
βk
Yn
1 xn1 . . . xnk
Estimación de los parámetros del modelo
Parámetros desconocidos: β0 , β1 , . . . , βk , σ 2 .
Estimamos β0 , β1 , . . . , βK por el método de mı́nimos cuadrados, es decir,
los estimadores son los valores para los que se minimiza la suma:
n
X
[Yi − (β0 + β1 xi1 + . . . + βk xik )]2 .
i=1
Cada coeficiente βi mide el efecto que tiene sobre la respuesta un aumento
de una unidad de la variable regresora xi cuando el resto de las
variables permanece constante.
Estimación de los parámetros del modelo
Al derivar la suma anterior respecto a β0 , β1 , . . . , βk e igualar las
derivadas a 0 obtenemos k + 1 restricciones sobre los residuos:
n
X
i=1
ei = 0,
n
X
ei xi1 = 0,
...,
n
X
i=1
ei xik = 0.
i=1
A partir de este sistema de k + 1 ecuaciones es posible despejar los
estimadores de mı́nimos cuadrados de β0 , β1 , . . . , βk .
Las hipótesis (e) y (f) hacen falta para que el sistema tenga una solución
única. Llamamos β̂0 , β̂1 , . . . , β̂k a los estimadores.
Le media de los residuos es cero. La correlación entre los residuos y cada
una de las k variables regresoras es cero.
Los residuos tienen n − k − 1 grados de libertad.
Estimación de los parámetros del modelo
Tasa respiración
Ejemplo 4.2: Plano de regresión
80
60
40
20
15000
600
10000
5000
Zinc
400
200
Potasio
Estimación de la varianza
Un estimador insesgado de σ 2 es la varianza residual SR2 .
Como en los modelos anteriores, SR2 se define como la suma de los
residuos al cuadrado, corregida por los gl apropiados:
n
SR2 =
X
1
ei2 .
n−k −1
i=1
Siempre se verifica ȳ = β̂0 + β̂1 x̄1 + . . . + β̂k x̄k , siendo
n
ȳ =
1X
yi ,
n
i=1
n
x̄1 =
1X
xi1 ,
n
i=1
n
...,
x̄k =
1X
xik .
n
i=1
Por ejemplo, si k = 2, el plano de regresión pasa por el punto de medias
muestrales (x̄1 , x̄2 , ȳ ).
Inferencia sobre los parámetros del modelo
Distribución de los estimadores de los coeficientes:
Todos los estimadores β̂j verifican:
β̂j − βj
error tı́pico de β̂j
≡ tn−k−1 ,
donde el error tı́pico de β̂j es un valor que se calcula con SPSS.
Intervalos de confianza para los coeficientes:
Para cualquier j = 0, 1, . . . , k,
IC1−α (βj ) = β̂j ∓ tn−k−1;α/2 × error tı́pico de β̂j .
Contrastes de hipótesis individuales sobre los coeficientes
Estamos interesados en determinar qué variables Xj son significativas para
explicar Y .
H0 : β j = 0
(Xj no influye sobre Y )
H1 : βj 6= 0
(Xj influye sobre Y )
La región crı́tica de cada H0 al nivel de significación α es
)
(
|βj |
> tn−k−1;α/2 .
R=
error tı́pico de β̂j
El cociente β̂j /(error tı́pico de β̂j ) se llama estadı́stico t asociado a βj .
Salida SPSS
Resumen del modelo
R
,789 a
Modelo
1
R cuadrado
,622
R cuadrado
corregida
,496
Error típ. de la
estimación
12,907
a. Variables predictoras: (Constante), Zinc, Potasio
ANOVAb
Modelo
1
Regresión
Residual
Total
Suma de
cuadrados
1644,390
2
Media
cuadrática
822,195
999,610
6
166,602
2644,000
8
gl
F
4,935
Sig.
,054 a
a. Variables predictoras: (Constante), Zinc, Potasio
b. Variable dependiente: Tasa_resp
Coeficientesa
Coeficientes no estandarizados
Modelo
1
(Constante)
B
15,978
Error típ.
15,304
Coeficientes
tipificados
Beta
t
1,044
Sig.
,337
Potasio
,053
,030
,494
1,763
,128
Zinc
,013
,009
,434
1,549
,172
a. Variable dependiente: Tasa_resp
Descomposición de la variabilidad
Como en modelos anteriores:
Yi
Yi − Ȳ
n
X
(Yi − Ȳ )2
i=1
= Ŷi + ei
= (Ŷi − Ȳ ) + ei
n
n
X
X
=
(Ŷi − Ȳ )2 +
ei2
i=1
i=1
SCT = SCE + SCR
SCT mide la variabilidad total (tiene n − 1 gl)
SCE mide la variabilidad explicada por el modelo (tiene k gl)
SCR mide la variabilidad no explicada o residual (tiene n − k − 1 gl)
El contraste de la regresión
H0 : β1 = . . . = βk = 0
(el modelo no es explicativo:
ninguna de las variables explicativas influye en la respuesta)
H1 : βj 6= 0 para algún j = 1, . . . , k
(el modelo es explicativo:
al menos una de las variables Xj influye en la respuesta)
Comparamos la variabilidad explicada con la no explicada mediante el
estadı́stico F :
SCE/k
.
F =
SCR/(n − k − 1)
Bajo H0 el estadı́stico F sigue una distribución Fk,n−k−1 .
La región de rechazo de H0 al nivel de significación α es
R = {F > Fk,n−k−1;α }
El coeficiente de determinación
Es una medida de la bondad del ajuste en el modelo de regresión múltiple
R2 =
SCE
.
SCT
Propiedades:
0 ≤ R 2 ≤ 1.
Cuando R 2 = 1 existe una relación exacta entre la respuesta y las k
variables regresoras.
Cuando R 2 = 0, sucede que β̂0 = ȳ y β̂1 = . . . = β̂k = 0. No existe
relación lineal entre Y y las Xi .
Podemos interpretar R 2 o como un coeficiente de correlación
múltiple entre Y y las k variables regresoras.
R2 n − k − 1
Se verifica que F =
.
1 − R2
k
El coeficiente de determinación ajustado
El coeficiente de determinación para comparar distintos modelos de
regresión entre sı́ tiene el siguiente inconveniente:
Siempre que se añade una nueva variable regresora al modelo, R 2
aumenta, aunque el efecto de la variable regresora sobre la respuesta no
sea significativo.
Por ello se define el coeficiente de determinación ajustado o corregido por
grados de libertad
R̄ 2 = 1 −
SR2
SCE/(n − k − 1)
=1−
SCT/(n − 1)
SCT/(n − 1)
R̄ 2 sólo disminuye al introducir una nueva variable en el modelo si la
varianza residual disminuye.
Regresión polinómica
Podemos utilizar el modelo de regresión múltiple para ajustar un polinomio:
Y ≈ β0 + β1 x + β2 x 2 + · · · + βk x k .
Basta considerar las k variables regresoras x, x 2 , . . . , x k .
●
●
●
150
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
100
●
●
●
●
●
●
●
●●
●
●
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
50
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
●
●
●
●
●
0
2
4
6
x
8
10
Regresión polinómica
Resumen del modelo
R
,926 a
Modelo
1
R cuadrado
,858
R cuadrado
corregida
,857
Error típ. de la
estimación
19,04222
a. Variables predictoras: (Constante), x
Coeficientesa
Coeficientes no estandarizados
Modelo
1
(Constante)
x
B
-14,376
Error típ.
3,762
15,904
,650
Coeficientes
tipificados
Beta
,926
t
-3,822
Sig.
,000
24,472
,000
t
1,429
Sig.
,156
a. Variable dependiente: y
Resumen del modelo
R
,947 a
Modelo
1
R cuadrado
,896
R cuadrado
corregida
,894
Error típ. de la
estimación
16,36427
a. Variables predictoras: (Constante), x2, x
Coeficientesa
Coeficientes no estandarizados
6,846
Error típ.
4,790
x
3,042
2,214
,177
1,374
,172
x2
1,286
,214
,774
6,004
,000
Modelo
1
(Constante)
a. Variable dependiente: y
B
Coeficientes
tipificados
Beta
Regresión polinómica
Estimación curvilínea
Resumen del modelo y estimaciones de los parámetros
Variable dependiente:y
Resumen del modelo
Ecuación
Lineal
R cuadrado
,858
F
598,866
,896
423,481
Cuadrático
gl1
1
99
Sig.
,000
2
gl2
98
,000
La variable independiente esx.
Resumen del modelo y estimaciones de los parámetros
Variable dependiente:y
Estimaciones de los parámetros
Ecuación
Lineal
Cuadrático
Constante
-14,376
b1
15,904
6,846
3,042
b2
1,286
La variable independiente esx.
●
y
●
●
150
●
●
●
●
200,00
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
100
●
●
●
●
●
●
●
●●
150,00
●
●
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
50
●
●
●
●
●
●
●
100,00
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
●
●
50,00
●
●
●
0,00
0
2
4
6
x
8
10
Observado
Lineal
Cuadrático
Regresión polinómica
●
●
2
●
2
●
●
●
●
●
●
●
●
●
1
●
●
1
●
●
●
●
●
●
●
●
●
●
●
0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−1
●
●
−1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
0
●
●
●
residuos2
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2
●
●
−2
residuos1
●
●
●
●
●
●
●
●
0
50
●
100
ajustados1
150
50
100
ajustados2
150
Regresión polinómica: rentas y fracaso escolar
Resumen del modelo y estimaciones de los parámetros
Variable dependiente:Fracaso
Estimaciones de los
parámetros
Resumen del modelo
Ecuación
Lineal
R cuadrado
,550
F
25,658
gl1
1
gl2
21
Sig.
,000
Constante
38,494
b1
-1,347
b2
,109
Cuadrático
,586
14,183
2
20
,000
61,088
-4,614
Potencia
,610
32,809
1
21
,000
293,923
-1,066
La variable independiente esRenta.
Fracaso
Observado
Lineal
Cuadrático
Potencia
40,0
30,0
20,0
10,0
0,0
8,000 10,000 12,000 14,000 16,000 18,000 20,000 22,000
Renta
10
0
200
150
y
50
0
200
y
●
●
●
●
●
●
0
●
●
●
●
●
●
5
Radj2 = 0.72
R2 = 0.94
10
●
●
●
0
−10
●
●
●
10
100
●
50
50
10
5
150
●
●
5
Radj2 = 0.81
R2 = 0.94
0
Radj = 0.85
R2 = 0.92
●
●
0
−10
100
200
150
50
0
200
●
●
5
Radj2 = 0.83
R2 = 0.93
−10
2
●
150
●
●
0
●
0
●
●
10
●
0
●
●
5
●
●
●
●
●
0
Radj = 0.83
R2 = 0.9
●
●
50
50
●
−10
2
●
●
●
●
●
50
●
●
●
●
●
●
●
100
200
●
y
●
●
10
100
200
y
100
●
5
150
●
●
●
0
Radj = 0.85
R2 = 0.89
100
200
−10
2
●
150
●
150
10
Radj = 0.87
R2 = 0.89
0
y
5
●
●
●
●
0
2
●
●
●
y
−10
Radj = 0.88
R2 = 0.89
●
●
0
0
0
10
●
●
●
●
●
5
●
●
●
●
●
0
●
●
●
●
2
−10
●
50
50
50
●
●
−10
●
●
●
●
●
y
●
●
●
●
●
●
100
200
y
y
●
●
●
●
150
●
100
●
100
y
●
150
●
100
200
●
150
200
Regresión polinómica y sobreajuste
−10
0
●
5
Radj2 = 0.67
R2 = 0.97
10
−10
0
5
Radj2 = NaN
R2 = 1
10
Curvas estimadas a partir de 50 muestras de 10 datos
−10
−5
0
Mucho sesgo y poca varianza
5
10
300
250
0
50
100
150
200
250
z
0
50
100
150
200
250
200
150
100
50
0
z
Polinomio de grado k=9
300
k=2 (reg. cuadrática)
300
k=2 (reg. simple)
−10
−5
0
Modelo verdadero
5
10
−10
−5
0
Poco sesgo y mucha varianza
5
10
Variables regresoras dicotómicas
10
Mezclar subpoblaciones en regresión no es adecuado.
●
●
●
●
● ●
●
●
5
●
● ●
●
●
●
●
●
5
●
●
●
●
●
●
●
●
●
●
●
●
0
●
●
●
●●
●
●●
●
●
●
●
●
●
−5
● ●
●
●
●
● ●
●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●
−10
0
● ●
y2
y1
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
−15
−5
●
●
−4
−2
0
2
●
●
●●
●
10
●
4
●
−4
−2
x1
¿En qué se diferencian los dos ejemplos anteriores?
0
x2
1
2
Modelo aditivo
Resumen del modelo
R
,963 a
Modelo
1
R cuadrado
,928
R cuadrado
corregida
,923
Error típ. de la
estimación
a. Variables predictoras: (Constante), x1z1, z1, x1
ANOVAb
Modelo
1
Regresión
Suma de
cuadrados
438,063
3
Media
cuadrática
146,021
34,041
46
,740
472,104
49
Residual
Total
gl
F
197,319
Sig.
,000 a
a. Variables predictoras: (Constante), x1z1, z1, x1
b. Variable dependiente: y1
Coeficientesa
Coeficientes no estandarizados
Modelo
1
(Constante)
B
,277
Error típ.
,177
Coeficientes
tipificados
Beta
t
1,560
Sig.
,126
x1
,927
,080
,647
11,632
,000
z1
3,620
,247
,589
14,649
,000
,142
,114
,068
1,241
,221
x1z1
a. Variable dependiente: y1
Modelo con interacciones
Resumen del modelo
R
,987 a
Modelo
1
R cuadrado
,975
R cuadrado
corregida
,973
Error típ. de la
estimación
a. Variables predictoras: (Constante), x2z2, z2, x2
ANOVAb
Modelo
1
Regresión
Suma de
cuadrados
1533,096
3
Media
cuadrática
511,032
39,604
46
,861
1572,700
49
Residual
Total
gl
F
593,559
Sig.
,000 a
a. Variables predictoras: (Constante), x2z2, z2, x2
b. Variable dependiente: y2
Coeficientesa
Coeficientes no estandarizados
Modelo
1
(Constante)
B
-,235
Error típ.
,189
Coeficientes
tipificados
Beta
t
-1,243
Sig.
,220
x2
,796
,115
,247
6,902
,000
z2
3,025
,267
,270
11,320
,000
x2z2
3,288
,152
,781
21,599
,000
a. Variable dependiente: y2
Multicolinealidad
El cálculo de los estimadores de los parámetros en regresión múltiple
requiere resolver un sistema de k + 1 ecuaciones con k + 1 incógnitas.
Cuando una de las Xj es combinación lineal de las restantes variables
regresoras, el sistema es indeterminado. Entonces diremos que las
variables explicativas son colineales.
En la práctica esto nunca pasa de manera exacta, aunque sı́ es posible que
en un conjunto de datos algunas de las variables regresoras se puedan
describir muy bien como función lineal de las restantes variables.
Este problema, llamado multicolinealidad, hace que los estimadores de los
parámetros β̂i tengan alta variabilidad (errores tı́picos muy grandes) y sean
muy dependientes entre sı́.
x1
-0.43
1.36
0.52
-0.12
-0.48
-0.98
-1.04
1.45
1.31
-0.24
-0.86
0.89
0.53
-0.44
0.50
-0.66
0.46
0.33
1.58
0.05
x2
-0.57
1.42
0.45
-0.33
-0.56
-1.00
-0.83
1.44
1.47
-0.32
-1.32
0.84
0.54
-0.50
0.46
-0.62
0.32
0.19
1.80
0.20
X2
y
-0.67
4.36
0.70
-1.00
-1.59
-3.13
-2.40
1.79
1.95
-0.70
-1.97
1.82
1.49
-0.88
1.40
0.82
0.51
0.83
3.11
-0.20
X1
Y
Multicolinealidad
Y
X1
X2
Correlaciones
Y
Y
Correlación de Pearson
1
Sig. (bilateral)
N
X1
X2
,902
,000
,000
20
20
20
Correlación de Pearson
,906
1
,987
Sig. (bilateral)
,000
N
X2
X1
,906
,000
20
20
Correlación de Pearson
,902
,987
Sig. (bilateral)
,000
,000
20
20
N
20
1
20
Multicolinealidad
Resumen del modelo
R
,907 a
Modelo
1
R cuadrado
,823
R cuadrado
corregida
,803
Error típ. de la
estimación
,84071
a. Variables predictoras: (Constante), X2, X1
ANOVAb
Modelo
1
Regresión
Suma de
cuadrados
56,049
2
Media
cuadrática
28,025
,707
gl
Residual
12,015
17
Total
68,065
19
F
39,651
Sig.
,000 a
a. Variables predictoras: (Constante), X2, X1
b. Variable dependiente: Y
Coeficientesa
Coeficientes no estandarizados
Modelo
1
(Constante)
B
-,041
Error típ.
,202
Coeficientes
tipificados
Beta
t
-,205
Sig.
,840
X1
1,360
1,426
,601
,954
,354
X2
,648
1,319
,309
,491
,630
a. Variable dependiente: Y
Descargar