Ejemplo regresión múltiple Modelo regresión múltiple Notación

Anuncio
Ejemplo regresión múltiple
Modelo regresión múltiple
yi = β 0 + β1 x1i + β 2 x2i + L + β k xki + ui ,
Consumo = β0 + β1 CC + β2 Pot + β3 Peso + β4 Acel + Error
Y
Consumo
l/100Km
15
16
24
9
11
17
...
X1
Cilindrada
cc
4982
6391
5031
1491
2294
5752
...
Var. dependientes
o respuesta
X2
Potencia
CV
150
190
200
70
72
153
...
X3
Peso
kg
1144
1283
1458
651
802
1384
...
ui → N (0, σ 2 )
X4
Aceleración
segundos
12
9
15
21
19
14
...
β 0 , β1 , β 2 , K , β k , σ 2 : parámetros desconocidos
„
„
52
x11
x21
L
x12
M
x1n
x22
M
x2n
L
O
L
Normalidad
Var [yi|x1 ,...,xk] = σ2
„
Independencia
Cov [yi, yk] = 0
53
Regresión Lineal
Estimación mínimo-cuadrática
⎛ y1 ⎞ ⎛1
⎜ ⎟ ⎜
⎜ y 2 ⎟ ⎜1
⎜ M ⎟ = ⎜M
⎜ ⎟ ⎜
⎜ y ⎟ ⎜1
⎝ n⎠ ⎝
xk1 ⎞⎛ β 0 ⎞ ⎛ u1 ⎞
⎟⎜ ⎟ ⎜ ⎟
xk 2 ⎟⎜ β1 ⎟ ⎜ u 2 ⎟
+
M ⎟⎜ M ⎟ ⎜ M ⎟
⎟⎜ ⎟ ⎜ ⎟
xkn ⎟⎠⎜⎝ β k ⎟⎠ ⎜⎝ u n ⎟⎠
x11
x12
x21
x22
L
L
M
M
x1n
x2n
O
L
Y = Xβˆ + e
xk1 ⎞⎛ βˆ0 ⎞ ⎛ e1 ⎞
⎟⎜ ⎟ ⎜ ⎟
xk 2 ⎟⎜ βˆ1 ⎟ ⎜ e2 ⎟
⎜ ⎟+
M ⎟⎜ M ⎟ ⎜ M ⎟
⎟
⎜ ⎟
xkn ⎟⎠⎜⎝ βˆ k ⎟⎠ ⎜⎝ en ⎟⎠
donde el vector e cumple
Y = Xβ + U
e
2
U → N (0, σ I )
Regresión Lineal
Homocedasticidad
yi| x1 ,...,xk ⇒ Normal
Notación matricial
⎛ y1 ⎞ ⎛1
⎜ ⎟ ⎜
⎜ y 2 ⎟ ⎜1
⎜ M ⎟ = ⎜M
⎜ ⎟ ⎜
⎜ y ⎟ ⎜1
⎝ n⎠ ⎝
„
E[yi] = β0+ β1x1i+…+ βkxki
Var. Independientes
o regresores
Regresión Lineal
Linealidad
2
n
= ∑ ei2
es mínimo
i =1
54
Regresión Lineal
55
Mínimos cuadrados
Para que ||e||2 sea mínimo, e tiene que ser
perpendicular al espacio vectorial generado las
columnas de X
⎛1
⎜
X = ⎜1
⎜M
⎝1
x11
x12
M
x1n
x21
x22
M
x2 n
L
L
O
L
xk1 ⎞
⎛ e1 ⎞
xk 2 ⎟, e = ⎜ e2 ⎟
⎟
⎜M⎟
M ⎟
⎜ ⎟
xkn ⎠
⎝ en ⎠
a
Un
⎧ ∑1nei = 0
⎪ n
⎪
⇒ X T e = 0 ⎨ ∑1 ei x1i = 0
⎪ n M
⎪⎩ ∑1 ei xki = 0
Residuos
e = Y − Xβˆ = Y − VY
= (I − V)Y
Val. Previstos
ˆ = Xβˆ
Y
T
ˆ = X(X X) −1 X T Y
Y
ˆ = VY
Y
V = X(XT X) −1 XT
Y
e = Y − Yˆ
x1
x2
Yˆ = X βˆ
Regresión Lineal
57
βˆ = (XT X)−1 X T Y = CY (siendo C = (XT X)−1 X T )
βˆ → Normal
E[βˆ ] = CE[Y ] = CXβ = (XT X)−1 X T Xβ = β
Var[βˆ ] = Var[CY] = CVar[Y ]CT
= ((XT X)−1 X T )(σ 2I )((XT X)−1 X T )T
= σ 2 (XT X)−1 X T X(XT X)−1
Simétrica V=VT
= σ 2 (XT X)−1
Idempotente VV=V
Regresión Lineal
x1
Y → N ( Xβ, σ 2I )
e = (I − V)Y
1
Solución MC
Distribución de probabilidad
de β̂
Matriz de proyección V
Yˆ = VY
Y
X e=0
x2
T
T ˆ
T
X Y = X Xβ + X e
X T Y = X T Xβˆ ⇒ βˆ = ( X T X) −1 X T Y
56
x1
po
n
T
Regresión Lineal
Y
s
de
m
co
ió
sic
58
Regresión Lineal
59
Distribución de probabilidad
de β̂
Residuos
βˆ → N (β, σ 2 (X T X)−1 )
Y
123
βˆi → N ( β i , σ 2 qii )
⎛ βˆ 0 ⎞
⎛ q00
⎛ β0 ⎞
⎜ ⎟
⎜
⎜β ⎟
ˆ
βˆ = ⎜ β 1 ⎟ β = ⎜ 1 ⎟ Q = ( X T X) −1 = ⎜ q10
⎜ M ⎟
⎜ M
⎜ M ⎟
⎜ βˆ ⎟
β
⎝ qk 0
⎝ k⎠
⎝ k⎠
Observados
q01
q11
M
qk1
L
L
O
L
q0 k ⎞
q1k ⎟
⎟
M ⎟
q kk ⎠
⎛ y1 ⎞ ⎛1
⎜ ⎟ ⎜
⎜ y 2 ⎟ ⎜1
⎜ M ⎟ = ⎜M
⎜ ⎟ ⎜
⎜ y ⎟ ⎜1
⎝ n⎠ ⎝
dim(Q) = (k + 1) × (k + 1)
60
Regresión Lineal
σ2
=
∑in=1 ei2
σ2
→ χ n2− k −1
∑in=1 ei2
] = n − k −1
E[
2
σ
∑n ei2
E[ i =1 ] = σ 2
n − k −1
Regresión Lineal
σ2
Previstos
x11
x21
L
x12
M
x22
M
L
O
x1n
x2n
L
Residuos
xk1 ⎞⎛ βˆ0 ⎞ ⎛ e1 ⎞
⎟⎜ ⎟ ⎜ ⎟
xk 2 ⎟⎜ βˆ1 ⎟ ⎜ e2 ⎟
⎜ ⎟+
M ⎟⎜ M ⎟ ⎜ M ⎟
⎜ ⎟
⎟
xkn ⎟⎠⎜⎝ βˆ k ⎟⎠ ⎜⎝ en ⎟⎠
ei = yi − ( βˆ0 + βˆ1 x1i + L + βˆ k xki )
61
Regresión Lineal
yi = β 0 + β1 x1i + L + β k xki + ui
n e2
∑
2
i
=1 i
sˆR =
n − k −1
2
(n − k − 1) sˆ R
Xβˆ +
e
1
424
3 123
Contraste individual βi
Varianza Residual
e Te
=
H 0 : βi = 0
H1 : β i ≠ 0
βˆi → N ( β i , σ 2 qii )
βˆi − β i
βˆ − β1
→ t n − k −1
→ N (0,1) ⇒ 1
σ qii
sˆR qii
→ χ n2− k −1
ti =
62
βˆi
sˆR qii
Regresión Lineal
;
ti > t n − k −1;α / 2 ⇒ Se rechaza Ho
63
Descomposición de la
variabilidad en regresión
Contraste general de regresión.
yi = βˆ0 + βˆ1 x1i + L + βˆ k xki + ei
yi = yˆ i + ei (Restando y )
( yi − y ) = ( yˆ i − y ) + ei
∑in=1 ( yi − y ) 2 = ∑in=1 ( yˆ i − y ) 2 + ∑in=1 ei2
yi = β 0 + β1 x1i + L + β k xki + ui
H 0 : β1 = β 2 = L = β k = 0
H1 : alguno es distinto de 0
VE
σ
→ χ k2
2
VNE
VT = VE + VNE
σ2
=
(Si Ho es cierto)
2
(n − k − 1) sˆ R
σ2
→ χ n2− k −1
VE VNE
,
son independie ntes
σ2 σ2
64
Regresión Lineal
n
∑ ( yˆi − y ) 2
i =1
n
VNE =
∑ ( yi − yˆi ) 2
i =1
n
VT =
∑ ( yi − y ) 2
i =1
VT = VE + VNE
R2 =
VE / k
→ Fk ,n − k −1
VNE/(n-k − 1 )
F > Fα ⇒ Se rechaza H0
65
Regresión Lineal
Coef. determinación corregido R 2
Coeficiente de determinación R2
VE =
F=
R2 =
VE
VT
VE VT − VNE
=
VT
VT
= 1−
2
0 ≤ R ≤1
Mide el porcentaje de VT que
está explicado por los regresores
VNE
= 1−
VT
2
R = 1−
n
~T ~ ˆ ˆT ~T ~
ˆ − Y)T (Y
ˆ − Y) = bˆ T ( X
VE = ∑ ( yˆ i − y ) 2 = (Y
X)b = b ( X Y)
2
sˆR
sˆ 2y
2
(n − k − 1) sˆ R
(n − 1) sˆ 2y
= 1−
n
∑ ( yi − y ) 2
sˆ 2y = i =1
n −1
VNE /( n − k − 1)
VT /( n − 1)
i =1
Regresión Lineal
66
Regresión Lineal
67
Regresión con STATGRAPHICS
Interpretación (inicial)
Multiple Regression Analysis
----------------------------------------------------------------------------Dependent variable: consumo
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-1,66958
0,983305
-1,69793
0,0903
cilindrada
0,000383473
0,0001625
2,35983
0,0188
potencia
0,0402844
0,00656973
6,13183
0,0000
peso
0,00578424
0,00095783
6,0389
0,0000
aceleracion
0,111501
0,0496757
2,24458
0,0254
-----------------------------------------------------------------------------
„
„
Contraste F=438 (p-valor=0.0000) ⇒ Alguno de
los regresores influye significativamente en el
consumo.
Contrastes individuales:
z
z
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
4845,0
4
1211,25
438,70
0,0000
Residual
1065,74
386
2,76099
----------------------------------------------------------------------------Total (Corr.)
5910,74
390
„
„
R-squared = 81,9694 percent
R-squared (adjusted for d.f.) = 81,7826 percent
Standard Error of Est. = 1,66162
La potencia y el peso influyen significativamente (pvalor=0.0000)
Para α=0.05, la cilindrada y la aceleración también
tienen efecto significativo (p-valor < 0.05)
El efecto de cualquier regresor es “positivo”, al
aumentar cualquiera de ellos aumenta la variable
respuesta: consumo.
Los regresores explican el 82 % de la variabilidad
del consumo (R2 = 81.969)
69
Regresión Lineal
Identificación de la multicolinealidad:
Multicolinealidad
Matriz de correlación de los regresores.
Correlations
„
„
Cuando la correlación entre los
regresores es alta.
Presenta graves inconvenientes:
z
z
cilindrada
potencia
peso
aceleraci
-----------------------------------------------------------------------------------------cilindrada
0,8984
0,9339
-0,5489
( 391)
( 391)
( 391)
0,0000
0,0000
0,0000
potencia
Empeora las estimaciones de los efectos de
cada variable βi: aumenta la varianza de las
estimaciones y la dependencia de los
estimadores)
Dificulta la interpretación de los parámetros
del modelo estimado (ver el caso de la
aceleración en el ejemplo).
Regresión Lineal
0,8984
391)
0,0000
0,8629
391)
0,0000
(
peso
0,9339
391)
0,0000
(
(
0,8629
391)
0,0000
(
-0,6963
( 391)
0,0000
-0,4216
( 391)
0,0000
aceleracion
-0,5489
-0,6963
-0,4216
( 391)
( 391)
( 391)
0,0000
0,0000
0,0000
------------------------------------------------------------------------------------------
70
Regresión Lineal
71
24
20
20
16
12
8
Consumo y aceleración
R. simple
24
consumo
consumo
Gráficos consumo - xi
16
12
8
4
4
0
0
500
1000
1500
2000
0
40
80
120
160
200
240
24
24
20
20
16
12
8
R. múltiple
potencia
consumo
consumo
peso
16
12
8
4
4
0
0
0
2
4
6
8
(X 1000)
cilindrada
8
11
14
17
20
23
26
aceleracion
72
Regresión Lineal
varianza de los estimadores
yi = β 0 + β1x1i + β 2 x2i + ui
(
)
~T X
~ = nS
X
XX
⎛ s2
S XX = ⎜⎜ 1
⎝ s12
⎛
2
| S XX |= s12 s22 (1 − r12
)
⎛
σ2
⎜
⎡⎛ βˆ ⎞⎤ ⎜ ns 2 (1 − r122 )
var ⎢⎜⎜ 1 ⎟⎟⎥ = ⎜ 1
2
ˆ
⎣⎢⎝ β 2 ⎠⎦⎥ ⎜ − r12σ
⎜ ns s (1 − r122 )
⎝ 1 2
Regresión Lineal
1
⎜ 2
2
⎜ s (1 − r12 )
1
=⎜ 1
S −XX
− r12
⎜
2
⎜
⎝ s1 s2 (1 − r12 )
Multiple Regression Analysis
----------------------------------------------------------------------------Dependent variable: consumo
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-1,66958
0,983305
-1,69793
0,0903
cilindrada
0,000383473
0,0001625
2,35983
0,0188
potencia
0,0402844
0,00656973
6,13183
0,0000
peso
0,00578424
0,00095783
6,0389
0,0000
aceleracion
0,111501
0,0496757
2,24458
0,0254
-----------------------------------------------------------------------------
Regresión Lineal
„
s12 ⎞⎟ ⎛⎜ s12
=
s22 ⎟⎠ ⎜⎝ r12 s1s2
73
Consecuencias de la
multicolinealidad
Multicolinealidad: efecto en la
⎡⎛ βˆ ⎞⎤ ~ T ~ −1 2
X σ
var ⎢⎜⎜ 1 ⎟⎟⎥ = X
⎣⎝ βˆ2 ⎠⎦
Regression Analysis - Linear model: Y = a + b*X
----------------------------------------------------------------------------Dependent variable: consumo
Independent variable: aceleracion
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
21,5325
1,00701
21,3827
0,0000
aceleracion
-0,657509
0,0632814
-10,3902
0,0000
-----------------------------------------------------------------------------
r12 s1s2 ⎞⎟
s22 ⎟⎠
„
− r12
⎞
2 ⎟
s1 s2 (1 − r12
)⎟
⎟
1
2 ⎟⎟
s22 (1 − r12
) ⎠
„
⎞
⎟
2 ⎟
ns1 s 2 (1 − r12 )
⎟
σ2
⎟
ns 22 (1 − r122 ) ⎟⎠
− r12σ 2
„
74
Gran varianza de los estimadores β
Cambio importante en las
estimaciones al eliminar o incluir
regresores en el modelo
Cambio de los contrastes al eliminar
o incluir regresores en el modelo.
Contradicciones entre el contraste F
y los contrastes individuales.
Regresión Lineal
75
Variables cualitativas como
regresores
Consumo
l/100Km
15
16
24
9
11
17
12
17
18
12
16
12
9
...
Cilindrada
cc
4982
6391
5031
1491
2294
5752
2294
6555
6555
1147
5735
1868
2294
...
Potencia
CV
150
190
200
70
72
153
90
175
190
97
145
91
75
...
Peso
kg
1144
1283
1458
651
802
1384
802
1461
1474
776
1360
860
847
...
Aceleración
segundos
12
9
15
21
19
14
20
12
13
14
13
14
17
...
⎧⎪ Europa
Origen ⎨ Japón
⎪⎩ USA
Origen
Europa
Japón
USA
Europa
Japón
USA
Europa
USA
USA
Japón
USA
Europa
USA
...
Variables cualitativas
⎧0 si i ∉ JAPON
Z JAP i = ⎨
⎩1 si i ∈ JAPON
⎧0 si i ∉ USA
ZUSAi = ⎨
⎩1 si i ∈ USA
⎧0 si i ∉ EUROPA
Z EUR i = ⎨
⎩1 si i ∈ EUROPA
Consumo = β0 + β1 CC + β2 Pot + β3 Peso +
Consumo
l/100Km
15
16
24
9
11
17
12
17
18
12
16
12
9
...
Cilindrada
cc
4982
6391
5031
1491
2294
5752
2294
6555
6555
1147
5735
1868
2294
...
Peso
kg
1144
1283
1458
651
802
1384
802
1461
1474
776
1360
860
847
...
Aceleración ZJAP
segundos
12
0
9
1
15
0
21
0
19
1
14
0
20
0
12
0
13
0
14
1
13
0
14
0
17
0
...
...
ZUSA
ZEUR
0
0
1
0
0
1
0
1
1
0
1
0
1
...
1
0
0
1
0
0
1
0
0
0
0
1
0
...
Consumo = β0 + β1 CC + β2 Pot + β3 Peso +
+ β4 Acel + αJAP ZJAP + αUSA ZUSA + Error
+ β4 Acel + αJAP ZJAP + αUSA ZUSA + Error
76
Regresión Lineal
Potencia
CV
150
190
200
70
72
153
90
175
190
97
145
91
75
...
Interpretación var. cualitativa
77
Regresión Lineal
Interpretación del modelo
Consumo = β0 + β1 CC + β2 Pot + β3 Peso +
y
+ β4 Acel + αJAP ZJAP + αUSA ZUSA + Error
Americanos
Europeos
β0 + αUSA
• Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA
Consumo = β0 + β1 CC + β2 Pot + β3 Peso + β4 Acel + Error
Ref.
Japoneses
β0
• Coches japoneses: ZJAP =1 y ZUSA = 0
Consumo = β0 + αJAP + β1 CC + β2 Pot + β3 Peso + β4 Acel + Error
β0 + αJAP
xi
• Coches americanos: ZJAP =0 y ZUSA = 1
Consumo = β0 + αUSA + β1 CC + β2 Pot + β3 Peso + β4 Acel + Error
Regresión Lineal
78
Regresión Lineal
79
Interpretación
Multiple Regression Analysis
----------------------------------------------------------------------------Dependent variable: consumo
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-1,45504
1,01725
-1,43037
0,1534
cilindrada
0,000322798
0,0001792
1,80133
0,0724
potencia
0,0422677
0,00678898
6,22592
0,0000
peso
0,00559955
0,000965545
5,79937
0,0000
aceleracion
0,110841
0,0496919
2,23057
0,0263
Zjap
-0,361762
0,279049
-1,29641
0,1956
Zusa
0,0611229
0,280236
0,218113
0,8275
-----------------------------------------------------------------------------
„
„
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
4852,53
6
808,756
293,48
0,0000
Residual
1058,21
384
2,75575
----------------------------------------------------------------------------Total (Corr.)
5910,74
390
„
R-squared = 82,0969 percent
R-squared (adjusted for d.f.) = 81,8171 percent
Standard Error of Est. = 1,66005
Regresión Lineal
80
81
Regresión Lineal
Modelo de regresión con
variables cualitativas
„
El p-valor del coeficiente asociado a ZJAP
es 0.1956>.05, se concluye que no existe
diferencia significativa entre el consumo
de los coches Japoneses y Europeos
(manteniendo constante el peso, cc, pot y
acel.)
La misma interpretación para ZUSA.
Comparando R2 =82.09 de este modelo
con el anterior R2=81.98, se confirma que
el modelo con las variables de Origen no
suponen una mejora sensible.
Predicción
En general, para considerar una variable
cualitativa con r niveles, se introducen en
la ecuación r-1 variables ficticias
Nueva Observ. yh|xh
Media mh|xh
yh
mh
mh
⎧0 i ∉ nivel 1
⎧0 i ∉ nivel 2
⎧0 i ∉ nivel r − 1
z1i = ⎨
, z 2i = ⎨
, L , z r −1i = ⎨
⎩1 i ∈ nivel 1
⎩1 i ∈ nivel 2
⎩1 i ∈ nivel r − 1
xh
Y el nivel r no utilizado es el que actúa de
referencia
yi = β 0 + β 1 x1i + L + β k xki +
+ α 1 z1i + α 2 z 2i + L + α r −1 z r −1,i + u i
14444
4244444
3
variable cualitativ a
Regresión Lineal
xh
ŷh
xh
82
Regresión Lineal
83
Predicción de la media mh
Expresión alternativa para vhh
(Regresión múltiple)
mh
yˆ h = y + bˆ T (x h − x)
var[ yˆ h ] = var[ y + bˆ T (x h − x)] = var[ y ] + (x h − x)T var[bˆ ](x h − x)
~ ~
σ2
XT X
~ ~
=
+ (x h − x)T ( XT X) −1 (x h − x)σ 2 ,
(S x =
)
n
n
ŷh
yh → N (mh , σ 2 )
xh
x'h
ˆ T x'h , x'T = (1, x1h , x2h , L , xkh )
yˆ h = β
mh = β 0 + β1 x1h + L + β k xkh
= β x'h
h
E [ yˆ
T
h] =
E[βˆ T x'h ] = E[βˆ T ]x'h = βT x'h
var[ yˆ h ] = var[βˆ T x'h ] = x 'Th
yˆ h → N ⎛⎜ mh , σ 2vhh ⎞⎟
⎝
⎠
=
v
hh
=
T
x'
h
T
x'
h
(X
(X
var[
βˆ T ]x'h
T −1
x'h σ = vhhσ
T −1
x 'h
X)
X)
2
σ2
n
(
σ vhh
yˆ h − mh
sˆR vhh
)
→ N (0,1)
m ∈ yˆ ± tα / 2 sˆR vhh
h
h
1
vhh = (1 + (x h − x)T S −x1 (x h − x))
n
Regresión Lineal
x h = x ⇒ vhh = 1 / n
x h ≠ x ⇒ vhh > 1 / n
85
Predicción de una nueva
observación yh (reg.simple)
yh
ŷh
→ t n − k −1
1
(1 + (x h − x)T S −x1 (x h − x))
n
Regresión Lineal
Intervalos de confianza para la
media mh
yˆ h → N mh , σ 2 vhh
yˆ h − mh
(1 + (x h − x)T S −x1 (x h − x))
vhh =
2
84
Regresión Lineal
=
ŷh
mh
xh
xh
Regresión simple
1
n
vhh = (1 +
( xh − x ) 2
)
s x2
86
yˆ h = βˆ0 + βˆ1 xh
yh → N (mh , σ 2 )
yˆ h → N (mh , σ 2 vhh )
e~ = y − yˆ
mh = β 0 + β1 xh
h
h
h
E[e~h ] = E[ yh ] − E[ yˆ h ] = 0
var[e~ ] = var[ y ] + var[ yˆ ]
h
xh
h
h
e~h → N ( 0, σ 2 (1 + vhh ))
= σ 2 + σ 2 vhh
Regresión Lineal
87
Predicción de una nueva
observación yh (Reg. Múltiple)
yh
ŷh
mh
xh
e~h → N ( 0, σ 2 (1 + vhh ))
e~h = yh − yˆ h
ŷh
yh − yˆ h
σ 1 + vhh
xh
yˆ h → N (mh , σ 2 vhh )
⎧ E[e~h ] = E[ yh ] − E[ yˆ h ] = 0
~
eh = yh − yˆ h → ⎨
2
~
⎩var[eh ] = var[ yh ] + var[ yˆ h ] = σ (1 + vhh )
yˆ h = y + bˆ x h
T
Intervalos de predicción para
una nueva observación yh
yh − yˆ h
sˆR 1 + vhh
→ N (0,1)
→ tn − k −1
xh
y ∈ yˆ ± tα / 2 sˆR 1 + vhh
h
h
e~h → N ( 0, σ 2 (1 + vhh ))
88
Regresión Lineal
Diagnosis: Residuos
Límites de predicción
yˆ = βˆ0 + βˆ1 x1 + L + βˆ k xk
89
Regresión Lineal
m ∈ yˆ ± tα / 2 sˆR vhh
h
h
Y
123
Observados
y ∈ yˆ ± tα / 2 sˆR 1 + vhh
h
h
y
Xβˆ +
e
1
424
3 123
Previstos
x11
x21
L
x12
M
x22
M
L
O
x1n
x2n
L
Residuos
xk1 ⎞⎛ βˆ0 ⎞ ⎛ e1 ⎞
⎟⎜ ⎟ ⎜ ⎟
xk 2 ⎟⎜ βˆ1 ⎟ ⎜ e2 ⎟
⎜ ⎟+
M ⎟⎜ M ⎟ ⎜ M ⎟
⎜ ⎟
⎟
xkn ⎟⎠⎜⎝ βˆ k ⎟⎠ ⎜⎝ en ⎟⎠
ei = yi − ( βˆ0 + βˆ1 x1i + L + βˆ k xki )
x
Regresión Lineal
⎛ y1 ⎞ ⎛1
⎜ ⎟ ⎜
⎜ y 2 ⎟ ⎜1
⎜ M ⎟ = ⎜M
⎜ ⎟ ⎜
⎜ y ⎟ ⎜1
⎝ n⎠ ⎝
=
90
Regresión Lineal
91
Distribución de los residuos
Y → N ( Xβ, σ 2 I )
Di2 = (x i − x) T S −x 1 (x i − x) (Dist. de Mahalanobi s)
e = (I − V)Y
−1
V = X(X X) X
T
Distancia de Mahalanobis
⎧x = x ⇒ Di2 = 0
Mide la distancia de x i a x ⇒ ⎨ i
2
⎩x i ≠ x ⇒ Di > 0
T
⎧e → Normal
⎪
⎨ E[e] = (I − V) E[Y] = (I − V)Xβ = 0
⎪⎩var[e] = (I − V) var(Y)(I − V) = σ 2 (I − V)
vii son los elementos diagonales de la matriz V
e → N (0, σ 2 (I − V))
V = X(XT X) −1 X T
vii = x'Ti ( X T X) −1 x'i =
n
ei → N (0, σ 2 (1 − vii ))
vii = ∑ vij v ji =
j =1
92
Regresión Lineal
Residuos estandarizados
1
(1 + (x i − x) T S −x1 (x i − x))
n
n
n
j =1, j ≠ i
j =1, j ≠ i
1
n
∑ vij2 + vii2 ⇒ vii (1 − vii ) = ∑ vij2 ≥ 0 ⇒ ≤ vii ≤ 1
93
Regresión Lineal
Hipótesis de normalidad
ei → N (0, (1 − vii )σ 2 )
Herramientas de comprobación:
z
var(ei ) = (1 − vii )σ 2
z
z
Cuando xi está próximo a x ⇒ vii ≈ 1 / n ⇒ var(ei ) ≈ σ 2
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)
Ejemplo de coches
vii ≈ 1 ⇒ var(ei ) ≈ 0 ⇒ ei ≈ 0
100
probabilidad
Cuando xi está lejos de x ⇒
120
80
60
Residuos estandarizados
ei
ri =
sˆR 1 − vii
Regresión Lineal
40
20
0
-9
-6
-3
0
3
Residuos
94
Regresión Lineal
6
9
99,9
99
95
80
50
20
5
1
0,1
-6
-4
-2
0
2
4
6
Residuos
95
Comprobación de la linealidad
y homocedasticidad
„
Se desea construir un
modelo de regresión para
obtener el volumen de
madera de una “cerezo
negro” en función de la
altura del tronco y del
diámetro del mismo a un
metro sobre el suelo. Se
ha tomado una muestra
de 31 árboles. Las
unidades de longitudes
son pies y de volumen
pies cúbicos.
Ambas hipótesis se comprueban
conjuntamente mediante gráficos de los
residuos
z
z
„
Ejemplo 1: Cerezos Negros
Frente a valores previstos
Frente a cada regresor.
En muchas ocasiones se corrige la falta
de linealidad y la heterocedasticidad
mediante transformación de las variables.
log yi = β 0 + β 1 x1i + L + β k xki + ui
log yi = β 0 + β 1 log x1i + L + β k log xki + ui
96
Regresión Lineal
Diametro
8,3
8,6
8,8
10,5
10,7
10,8
11,0
11,0
11,1
11,2
11,3
11,4
11,4
11,7
12,0
12,9
Altura
70
65
63
72
81
83
66
75
80
75
79
76
76
69
75
74
Volumen
10,30
10,30
10,20
16,40
18,80
19,70
15,60
18,20
22,60
19,90
24,20
21,00
21,40
21,30
19,10
22,20
Árbol
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Diametro
12,9
13,3
13,7
13,8
14,0
14,2
14,5
16,0
16,3
17,3
17,5
17,9
18,0
18,0
20,6
Altura
85
86
71
64
78
80
74
72
77
81
82
80
80
80
87
Volumen
33,80
27,40
25,70
24,90
34,50
31,70
36,30
38,30
42,60
55,40
55,70
58,30
51,50
51,00
77,00
80
80
60
60
Volumen
Árbol
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Gráficos x-y
Volumen
Cerezos negros: Datos
97
Regresión Lineal
40
20
0
60 65 70 75 80 85 90
Altura
Regresión Lineal
98
Regresión Lineal
40
20
0
8
11 14 17 20 23
Diametro
99
Diagnosis
Primer modelo:cerezos negros
9
Volumen = β0 + β1 Diametro + β2 Altura + Error
Falta de
linealidad
Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-57,9877
8,63823
-6,71291
0,0000
Altura
0,339251
0,130151
2,60659
0,0145
Diametro
4,70816
0,264265
17,8161
0,0000
-----------------------------------------------------------------------------
3
0
-3
-6
-9
9
0
residuos
40
60
80
valores previstos
3
Falta de
homocedasticidad
0
-3
-6
-9
8
R-squared = 94,795 percent
R-squared (adjusted for d.f.) = 94,4232 percent
11
14
17
20
23
Diametro
100
101
Regresión Lineal
Transformación
Diagnosis (modelo transformado)
0,23
log(vol) ≈ β 0 + β1 log(altura) + β 2 log(diámetro) + error
0,13
0,13
Dependent variable: log(Volumen)
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-6,63162
0,79979
-8,2917
0,0000
log(Altura)
1,11712
0,204437
5,46439
0,0000
log(Diametro)
1,98265
0,0750106
26,4316
0,0000
-----------------------------------------------------------------------------
residuos
0,23
residuos
vol ≈ k × altura × diámetro 2
0,03
-0,07
0,03
-0,07
-0,17
-0,17
4,1
4,2
4,3
4,4
2,1
4,5
probabilidad
0,23
residuos
0,13
0,03
-0,07
-0,17
2,3
R-squared = 97,7678 percent
R-squared (adjusted for d.f.) = 97,6084 percent
2,7
3,1
3,5
3,9
valores previstos
102
Regresión Lineal
2,3
2,5
2,7
2,9
3,1
log(Diametro)
log(Altura)
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
8,12323
2
4,06161
613,19
0,0000
Residual
0,185463
28
0,00662369
----------------------------------------------------------------------------Total (Corr.)
8,30869
30
Regresión Lineal
20
6
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
7684,16
2
3842,08
254,97
0,0000
Residual
421,921
28
15,0686
----------------------------------------------------------------------------Total (Corr.)
8106,08
30
Regresión Lineal
residuos
6
4,3
4,7
99,9
99
95
80
50
20
5
1
0,1
-0,17 -0,12 -0,07 -0,02
0,03
0,08
0,13
Residuos
103
Interpretación
„
„
„
Datos olímpicos
Se comprueba gráficamente que la distribución
de los residuos es compatible con las hipótesis
de normalidad y homocedasticidad.
El volumen está muy relacionado con la altura y
el diámetro del árbol (R2= 97.8%)
El modelo estimado
Tiempos de los campeones olímpicos
en 200m, 400m, 800m y 1500m.
Se pretende construir
un modelo de regresión
con dos objetivos:
z Medir la evolución
de estas marcas con
el tiempo.
z Hacer una
predicción del
resultado en unas
futuras olimpiadas.
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
„
es compatible con la ecuación vol=k × Alt ×Diam2
La varianza residual es 0.006623, es decir
sR=0.081 que indica que el error relativo del
modelo en la predicción del volumen es del 8.1%.
104
Regresión Lineal
Regresión Lineal
Altitud
79
138
15
15
4
79
-2
100
50
15
25
115
15
14
2220
458
53
150
100
34
0
320
Año
1900
1904
1908
1912
1920
1924
1928
1932
1936
1948
1952
1956
1960
1964
1968
1972
1976
1980
1984
1988
1992
1996
200 m
22,20
21,60
22,40
21,70
22,00
21,60
21,80
21,20
20,70
21,10
20,70
20,60
20,50
20,30
19,83
20,00
20,23
20,19
19,80
19,75
20,01
19,32
400 m
49,40
49,20
50,00
48,20
49,60
47,60
47,80
46,20
46,50
46,20
45,90
46,70
44,90
45,10
43,80
44,66
44,26
44,60
44,27
43,87
43,50
43,49
800 m
121,40
116,00
112,80
111,90
113,40
112,40
111,80
109,80
112,90
109,20
109,20
107,70
106,30
105,10
104,30
105,90
103,50
105,40
104,00
103,45
103,66
102,58
105
Tiempo = β0 + β1 Año + β2 Distancia + Error
Ejemplo: Carreras olímpicas
Ciudad
París
San Luis
Londres
Estocolmo
Amberes
París
Amsterdan
Los Ángeles
Berlín
Londres
Helsinki
Melbourne
Roma
Tokyo
Mexico
Munich
Montreal
Moscú
Los Ángeles
Seúl
Barcelona
Atlanta
Regresión Lineal
1500 m
246,00
245,40
243,40
236,80
241,80
233,60
233,20
231,20
227,80
225,20
225,20
221,20
215,60
218,10
214,90
216,30
219,20
218,40
212,53
215,96
220,12
215,78
Dependent variable: Tiempo
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
268,485
36,8179
7,29222
0,0000
Año
-0,145478
0,0188741
-7,70784
0,0000
Distancia
0,159578
0,00113405
140,715
0,0000
----------------------------------------------------------------------------Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
554892,0
2
277446,0
9930,11
0,0000
Residual
2374,89
85
27,9399
----------------------------------------------------------------------------Total (Corr.)
557267,0
87
R-squared = 99,5738 percent
R-squared (adjusted for d.f.) = 99,5638 percent
106
Regresión Lineal
107
Interpretación
15
15
10
10
residuos
Residuos
Diagnosis
5
0
-5
„
5
0
-5
-10
-10
-15
-15
0
0
200 400 600 800 1000 1200 1400 1600
50
probabilidad
Distancia
100
150
200
„
250
Valores previstos
99,9
99
95
80
50
20
5
1
0,1
„
-16 -12 -8
-4
0
4
8
12
Velocidad = Distancia / Tiempo
i
i
i
16
residuos
108
109
Regresión Lineal
Velocidad = β0 + β1 Año + β2 Dist. + Error
Dependent variable: Velocidad
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-12,2153
2,73592
-4,46478
0,0000
Año
0,0112286
0,00140252
8,00603
0,0000
Distancia
-0,00220474
0,0000842706
-26,1627
0,0000
-----------------------------------------------------------------------------
Residuos
Diagnosis
0,8
0,8
0,4
0,4
residuos
Regresión Lineal
Los gráficos de los residuos con la
distancia y con los valores previstos
muestran falta de linealidad y
heterocedasticidad (leve)
El gráfico Q-Q muestra falta de
normalidad
La transformación 1/Tiempo puede
servir para corregir el problema de
heterocedasticidad. En este caso es
más útil modelar la velocidad
0
-0,4
-0,4
-0,8
-0,8
0
6
200 400 600 800 1000 1200 1400 1600
7
R-squared = 89,803 percent
R-squared (adjusted for d.f.) = 89,5631 percent
8
9
10
11
Valores previstos
Distancia
Residuos
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
115,492
2
57,7459
374,29
0,0000
Residual
13,1139
85
0,154281
----------------------------------------------------------------------------Total (Corr.)
128,606
87
0
99,9
99
95
80
50
20
5
1
0,1
-0,8
-0,5
-0,2
0,1
0,4
0,7
Residuos
Regresión Lineal
110
Regresión Lineal
111
Diagnosis
0,5
0,5
0,25
0,25
residuos
Dependent variable: Velocidad
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-11,1792
0,834388
-13,3981
0,0000
Año
0,0112286
0,000427338
26,2758
0,0000
Distancia
-0,00588973
0,000130341
-45,1873
0,0000
Distancia^2
0,0000021172
7,34191E-8
28,8371
0,0000
-----------------------------------------------------------------------------
residuos
Velocidad = β0 + β1 Año + β2 Dist. + β3 Dist.2 + Error
0
-0,25
0
-0,25
-0,5
-0,5
0
200 400 600 800 1000 1200 1400 1600
6
7
Distancia
probabilidad
Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
127,403
3
42,4675
2964,98
0,0000
Residual
1,20314
84
0,014323
----------------------------------------------------------------------------Total (Corr.)
128,606
87
R-squared = 99,0645 percent
R-squared (adjusted for d.f.) = 99,0311 percent
8
9
10
11
valores previstos
99,9
99
95
80
50
20
5
1
0,1
-0,31
-0,21
-0,11
-0,01
0,09
0,19
0,29
Residuos
Regresión Lineal
112
„
„
„
„
El modelo cumple las condiciones de normalidad
y homocedasticidad.
El coeficiente de determinación R2=99% da una
medida de la bondad de ajuste del modelo.
El coeficiente positivo del AÑO indica que
conforme pasan los años se aumenta la
velocidad (se mejoran las marcas).
El término dominante de la variable DISTANCIA
tiene coeficiente negativo que indica que la
velocidad media disminuye al aumentar la
distancia de la prueba.
Se mejora ligeramente el modelo con una nueva
variable ALTITUD de la ciudad donde se
desarrolla las olimpiadas.
Regresión Lineal
113
Vel. = β0+β1 Año+β2 Dist. + β3 Dist.2 + log(Alt)+Error
Interpretación
„
Regresión Lineal
114
Dependent variable: Velocidad
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
-10,6966
0,807542
-13,2459
0,0000
Año
0,0109342
0,000416677
26,2413
0,0000
Distancia
-0,00588973
0,000123874
-47,5461
0,0000
Distancia^2
0,0000021172
6,97766E-8
30,3425
0,0000
log(Altitud+3)
0,0237773
0,00751947
3,1621
0,0022
----------------------------------------------------------------------------Analysis of Variance
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
127,532
4
31,883
2464,46
0,0000
Residual
1,07378
83
0,0129371
----------------------------------------------------------------------------Total (Corr.)
128,606
87
R-squared = 99,1651 percent
R-squared (adjusted for d.f.) = 99,1248 percent
Regresión Lineal
115
Selección de Modelos de
Regresión
Predicción Sydney 2000
Predicción para Velocidad - AÑO 2000 - SYDNEY
-----------------------------------------------------------------------Fitted
Stnd. Error Lower 95,0% CL Upper 95,0% CL
Row
Value
for Forecast
for Forecast
for Forecast
-----------------------------------------------------------------------200 m
10,1114
0,119833
9,87302
10,3497
400 m
9,18748
0,118783
8,95123
9,42374
800 m
7,84784
0,119901
7,60937
8,08632
1500 m
7,13371
0,120308
6,89442
7,373
------------------------------------------------------------------------
Construcción de modelos de regresión.
•Eliminación progresiva (backward selection)
•Introdución progresiva (forward selection)
•Regresión paso a paso (stepwise regression)
Predicción del tiempo (segundos) y resultados Sydney 2000
Distancia
200 m
400 m
800 m
1500 m
Intervalo de predicción (95%)
Lím. Inf.
Lím. Sup.
19,32
20,26
42,44
44,69
98,93
105,13
203,44
217,57
Predicción
19,78
43,538
101,939
210,269
Resultado Error
Sydney 2000
Absoluto
20,09
0,31
43,84
0,302
95,08
-6,859
212,07
1,801
Error
Relativo
2%
1%
-7%
1%
116
Regresión Lineal
Selección de Modelos de
Regresión
Comparación de los mejores subconjuntos
• R2 ajustado.
• Criterio de Akaike
AIC = n ln σˆ p2 + 2 p
•Criterio BIC
BIC = n ln σˆ p2 + p ln n
Regresión Lineal
118
Regresión Lineal
117
Descargar