Subido por Luis Alberto Caneo Vergara

Regresion y estadistica

Anuncio
3. Regresión lineal
Curso 2011-2012
Estadística
Regresión simple
consumo y peso de automóviles
Peso
kg
Consumo
litros/100 km
1
981
878
708
1138
1064
655
1273
1485
1366
1351
1635
900
888
766
981
729
1034
1384
776
835
650
956
688
716
608
802
1578
688
1461
1556
11
12
8
11
13
6
14
17
18
18
20
10
7
9
13
7
12
17
12
10
9
12
8
7
7
11
18
7
17
15
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Regresión Lineal
25
Consumo (litros/100 Km)
Núm. Obs.
(i)
20
15
10
5
0
500
700
900
1100
1300
1500
1700
Peso (Kg)
2
Modelo
yi
1 xi
0
ui ,
ui
N (0,
2
)
yi
0
1
x
xi
2
,
,
: parámetros desconocid os
0
1
Regresión Lineal
3
Hipótesis del modelo
Linealidad
yi =
0+ 1xi
+ ui
Parámetros
Normalidad
yi|xi
N ( 0 + 1x i, 2)
Homocedasticidad
Var [yi|xi] =
2
0
1
2
Independencia
Cov [yi, yk] = 0
Regresión Lineal
4
Modelo
yi
1 xi
0
ui ,
ui
2
N (0,
)
yi : Variable dependiente
xi : Variable independiente
ui : Parte aleatoria
0
Regresión Lineal
5
Estimación
n
M(
0
,
1
( yi
)
x )2
0
1 i
i 1
n
dM
d 0
dM
d 0
( yi
0
x) 0
yi
1 i
n
0
xi
1
i 1
n
( yi
0
x ) xi
0
1 i
xi yi
xi
0
xi2
1
i 1
n
y
( yi
1x
0
n
y )( xi
x)
( xi
i 1
n
xi yi n
0
x
1
2
i
x n
x) 2
i 1
1
n
n
i 1
1
Regresión Lineal
cov( xi , yi )
;
var( xi )
0
y
1
x
6
Estimación: máxima verosimilitud
1
l ( 0 , 1, 2 )
2 2i 1
( yi
1xi )
0
2
i 1
1 n
2i 1
y
i 1
2
n
n
1
L( 0 , 1, 2 ) log l ( 0 , 1, 2 )
n
n
1 n
2
log( 2 )
log 2
( yi
0
1xi )
2
2
2
2 i 1
1 n
( yi
yi n 0
0
1xi ) 0
1 xi
2
dL
d 0
dL
d 0
n
n/2
exp
xi yi n
( yi
1xi ) xi
0
n
1x
0
0x
1
i 1
xi2 n
1
0
( yi
xi yi
y )( xi
n
x)
1
n
cov( xi , yi )
;
var( xi )
y
0
2
1 xi
xi
0
i 1
( xi
x)2
n
1x
Regresión Lineal
7
2
Estimación
L( 0 , 1, 2 )
dL
d
2
: máxima verosimilitud
n
n
log( 2 )
log 2
2
2
n 1
1 n
( yi
2
4
2
2 i 1
n
2
i 1
( yi
2 2i 1
( yi
1xi )
0
1xi )
0
n
1
2
0
2
x
)
1 i
0
2
n
ei
yi
0
1 xi
n
n
ei
0
s R2
i 1
n
ei xi
0
ei2
i 1
n 2
i 1
Regresión Lineal
8
Estimación
Máxima verosimilitud
Max
1
2
n/2
exp
n
1
2
n
2
( yi
x )2
0
1 i
i 1
Mínimos cuadrados
n
Mín
( yi
0
2
x
)
1 i
i 1
y
0
1
x
cov( xi , yi )
var( xi )
1
n
i 1
( xi
x )( yi y )
n
x )2
i 1 ( xi
Regresión Lineal
9
Recta de regresión
y
1x
0
y
Pendiente
1
0
y
1x
x
Regresión Lineal
10
Residuos
yi
1 xi
ei
Valor Previsto Residuo
0
Valor observado
ei
yi
yi
0
1 xi
xi
Regresión Lineal
11
Ejemplo: estimación
Peso
kg
Consumo
litros/100 km
Predicción
Residuos
1
981
878
708
1138
1064
655
1273
1485
1366
1351
1635
900
888
766
981
729
1034
1384
776
835
650
956
688
716
608
802
1578
688
1461
1556
11
12
8
11
13
6
14
17
18
18
20
10
7
9
13
7
12
17
12
10
9
12
8
7
7
11
18
7
17
15
11,44
10,23
8,23
13,28
12,41
7,61
14,86
17,35
15,95
15,78
19,11
10,49
10,35
8,91
11,44
8,48
12,06
16,16
9,03
9,72
7,55
11,14
8,00
8,33
7,06
9,34
18,44
8,00
17,07
18,18
-0,44
1,77
-0,23
-2,28
0,59
-1,61
-0,86
-0,35
2,05
2,22
0,89
-0,49
-3,35
0,09
1,56
-1,48
-0,06
0,84
2,97
0,28
1,45
0,86
0,00
-1,33
-0,06
1,66
-0,44
-1,00
-0,07
-3,18
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Regresión Lineal
25
Consumo (litros/100 Km)
Núm. Obs.
(i)
20
15
10
5
0
500
700
900
1100
1300
1500
1700
Peso (Kg)
yi
0.071 0.0117 xi
2
; sR
2.38
12
Propiedades de
1
1
ns x2
i 1
1
ns x2
wi
n
i 1
wi xi
1
ns x2
n
i 1
2
i
1
ns x2
w
n
i 1
xi
xi
x
xi
1
ns x2
x yi
w1 y1
1
ns x2
x xi
xi
y
n
xi
x y
w2 y2
wn yn
x
2
n
i 1
xi
1
ns x2
x xi
n
i 1
xi
x x
1
ns x2
n
i 1
xi
x
1
ns x2
Regresión Lineal
y,
xi x
ns x2
wi
i 1
0
2
n
i 1
x yi
i 1
i 1
xi
n
i 1
n
n
xi x
yi
ns x2
n
n
i 1
1
ns x2
0
cov( xi , yi )
s x2
1
13
son v.a. independientes
1
y1
1
y1
n
y
1
y2
n
1
yn
n
1
n
1
n
1
n
y2
aT Y
yn
y1
1
w1 y1 w2 y2
wn yn
w1
w2
wn
y2
wT Y
yn
2
cov( y ,
n
T
1
) a var(Y) w
Regresión Lineal
n
wi
0
i 1
14
2
1
Distribución de
yi
1
N(
w1 y1
2
x,
1 i
0
)
w2 y2
E[ 1 ] E[ w1 y1
wn yn
w2 y2
( wi )
1
Var[ 1 ] Var[ w1 y1
Comb. lineal de normales
wn yn ]
w1 E[ y1 ] w2 E[ y2 ]
0
1
( wi xi )
w2 y2
wn E[ yn ] ( E[ yi ]
1
wn yn ]
w12Var[ y1 ] w22Var[ y2 ]
n
x)
1 i
0
wn2 [ yn ] (Var[ yi ]
2
)
2
2
i
2
( w )
ns x2
i 1
2
N
1
1
,
ns x2
Regresión Lineal
15
Modelo en diferencias a la
media
yi
x
0
y
ei
1 i
0
1
x
yi
yi
y
1
( xi
x ) ei
yi
y
1
( xi
x)
Regresión Lineal
y
1
( xi
x ) ei
16
Distribución de
0
2
N(
y
0
1
x,
2
N(
1
y,
y
0
E[
1
x
1
n
)
,
)
ns x2
son independie ntes
1
Normal
] E[ y ] x E[ 1 ]
2
x2
var[ 0 ]
1 2
n
sx
0
2
0
0
x2
1 2
0,
n
sx
N
Regresión Lineal
17
2
R
yi
1xi
0
ui
ui
yi
0
1xi
ei
N (0, 2 )
n u2
i 1 i
2
n e2
i 1 i
2
2
n
n
ei2
i 1
2
Regresión Lineal
2
(n 2) s R
2
2
n 2
ei
0
ei xi
2
n 2
18
0
Contraste principal de regresión:
¿depende y de x?
H0 :
1
0
H1 :
1
0
yi
yi
yi
x
0
1 i
ui
yi
ui
0
xi
xi
H0 es falso
H0 es cierto
x e y están relacionados
x e y no están relacionados
Regresión Lineal
19
Contraste sobre la pendiente
H0 :
H1 :
1
0
1
0
1
yi
x
0
1 i
2
1
1
1
N ( 1,
Regresión Lineal
1
sR
nsx
;
t1
tn
)
1
N (0,1)
1
sR
ns x
ns x
t1
ns x2
2; / 2
tn
2
Se rechaza Ho
20
Contraste: ordenada en el origen
H0 :
H1 :
0
0
yi
0
0
x
0
1 i
2
x2
N ( 0 , (1 2 ))
n
sx
0
0
t0
t0
tn
2
sR
x
1 2
sx
n
;
Se rechaza Ho
2; / 2
Regresión Lineal
21
Descomposición de la
variabilidad en regresión
yi
0
1 i
x
yi
0
1 i
x
y
i
yi
( yi
n
( yi
y
i
(y
i
y)
y)
2
i 1
VT
ui
y
i
(y
i
y) ( y
i
n
( y y)
i
i 1
VE VNE
Regresión Lineal
ei
2
y
i
y ) (restando y )
i
y ) (elevando al cuadrado y sumando)
i
n
(y
i
i 1
y )2
i
22
Coeficiente de determinación R2
n
VE
( yi
y)2
i 1
n
( yi
VNE
i 1
n
VT
yi )
VT
R
2
R2
1
Mide el porcentaje de VT que
y)2
está explicado por el regresor
i 1
y
VE
VT
2
0
( yi
yi
VE VNE
1 ( xi
x) :
VE
2
1
n
( xi
x)2
2 2
1 ns x
i 1
Regresión Lineal
23
Coef. determinación
R2
R2
1
0.50
Regresión Lineal
R2
0.80
R2
0
24
Contraste F
H0 :
H1 :
VE
2
1
0
1
0
2
1
(Si H o es cierto)
n e2
i 1 i
2
VNE
2
1
yi
2
( n 2) s R
2
x
0
1 i
VE
VNE/(n-2 )
F
F
2
n 2
VE VNE
,
son independie ntes
2
F
VE
2
sR
F1,n
Se rechaza H0
2
Regresión Lineal
25
Regresión con R
ARCHIVO TEXTO: coches.txt
Regresión Lineal
2
26
Regresión con R: Estimación
Regresión Lineal
27
Gráfico en R
Regresión Lineal
28
Ejemplo regresión múltiple
Consumo =
0
+
CC +
1
2
Pot +
3 Peso
+
4
Acel + Error
Y
X1
X2
X3
X4
Consumo
l/100Km
15
16
24
9
11
17
...
Cilindrada
cc
4982
6391
5031
1491
2294
5752
...
Potencia
CV
150
190
200
70
72
153
...
Peso
kg
1144
1283
1458
651
802
1384
...
Aceleración
segundos
12
9
15
21
19
14
...
Var. dependientes
o respuesta
Var. Independientes
o regresores
Regresión Lineal
29
Modelo regresión múltiple
yi
0
1x1i
2 x2i
, k , 2 : parámetros desconocid os
Linealidad
E[yi] =
0+
Homocedasticidad
1x1i+
+
kxki
Normalidad
yi| x1 ,...,xk
Regresión Lineal
ui ,
N (0, 2 )
ui
0 , 1, 2 ,
k xki
Normal
Var [yi|x1 ,...,xk] =
2
Independencia
Cov [yi, yk] = 0
30
Notación matricial
y1
1
x11
x21
xk1
0
u1
y2
1
x12
x22
xk 2
1
u2
yn
1
x1n
x 2n
xkn
k
un
Y
X
U
2
N (0, I)
U
Regresión Lineal
31
Estimación mínimo-cuadrática
y1
1
x11
x21
xk1
0
e1
y2
1
x12
x22
xk 2
1
e2
yn
1
x1n
x 2n
xkn
k
en
Y
X
e
donde el vector e cumple
e
2
n
ei2
es mínimo
i 1
Regresión Lineal
32
Para que ||e||2 sea mínimo, e tiene que ser
perpendicular al espacio vectorial generado las
columnas de X
X
1
1
x11
x12
x21
x22
xk1
xk 2 , e
e1
e2
1
x1n
x2 n
xkn
en
X Te
0
n
1 i
n
1 i 1i
e 0
ex
0
n
1 i
e xki
0
Regresión Lineal
33
Mínimos cuadrados
Y
Solución MC
x1
Y
e
Y
Y
x1
x2
Y
T
X e 0
XT Y XT X
XT Y XT X
Regresión Lineal
X
x2
X Te
( X T X) 1 X T Y
34
Matriz de proyección V
Y
e
(I
V)Y
x1
Y
Val. Prev istos
Y X
Y X(X T X) 1 X T Y
Y VY
VY
1
Residuos
e Y X
Y VY
(I V)Y
X(XT X) 1 XT
V
Simétrica V=VT
Idempotente VV=V
Regresión Lineal
35
Distribución de probabilidad
de
Y
N ( X , 2I)
(X T X) 1 X T Y
CY (siendo C (X T X) 1 X T )
Normal
E[ ] CE[ Y ] CX
(X T X) 1 X T X
Var[ ] Var[CY ] CVar[Y ]CT
((X T X) 1 X T )( 2I )((X T X) 1 X T )T
Regresión Lineal
2
(X T X) 1 X T X(X T X) 1
2
(X T X) 1
36
Distribución de probabilidad
de
N ( , 2 (X T X) 1 )
N ( i , 2 qii )
i
0
0
1
1
Q
( X T X)
k
k
1
q00
q10
q01
q11
q0 k
q1k
qk 0
qk1
qkk
dim(Q)
(k 1) (k 1)
Regresión Lineal
37
Residuos
Y
X
e
Observados Previstos Residuos
y1
1
x11
x21
xk1
0
e1
y2
1
x12
x22
xk 2
1
e2
yn
1
x1n
x 2n
xkn
k
en
ei
yi
Regresión Lineal
( 0
1x1i
k xki )
38
Varianza Residual
n 2
i 1 ei
2
e Te
2
E[
E[
n e2
i 1 i ]
2
2
n k 1
n k 1
n e2
i 1 i ]
n e2
i 1 i
2
sR
n k 1
2
(n k 1) s R
2
2
2
n k 1
n k 1
Regresión Lineal
39
Contraste individual
yi
1x1i
0
k xki
i
i
i
ti
i
s R qii
Regresión Lineal
H0 : i
H1 : i
ui
1
1
s R qii
;
ti
0
0
N ( i , 2 qii )
N (0,1)
qii
i
t n k 1; / 2
tn k 1
Se rechaza Ho
40
Descomposición de la
variabilidad en regresión
yi
( yi
n (y
i 1 i
1x1i
0
yi
yi
y)
( yi
k xki
ei
(Restando y )
ei
y ) ei
y)2
n (y
i 1 i
y)2
VT
VE VNE
n e2
i 1 i
Regresión Lineal
41
Modelo en diferencias a la
media
yi
0
y
0
yi
0
yi
y
1x1i
k xki
1 x1
n
x1i
1
k
i 1
n
xki
i 1
ei
i 1
0
k xki
x1 )
k ( xki
x k1 x k
x k 2 xk
1
xkn
k
y
x11 x1
y2
y
x12
x1
x21 x2
x22 x2
yn
y
x1n
x1
x2 n
Regresión Lineal
n 0
i 1
y1
Y Y
n
yi
k xk
1x1i
1 ( x1i
n
ei
~
Xb
xk )
x2
Y Y
xk
2
~
Xb e
42
Modelo en diferencias a la
media
~ ~
Y Xb U
y1 y
~
Y
~
X
b
y2
y
yn
y
y
, Y
y
1
2
, b
y
1
, b
k
k
x11 x1
x21 x2
x12
x1
x22
x2
xk1 xk
xk 2 xk
x1n
x1
x2 n
x2
xkn
~T ~ 1 ~T ~
(X X) X Y
2
xk
~T ~ 1
2
N (b, (X X) )
b
Regresión Lineal
43
Contraste general de regresión.
yi
0
1x1i
k xki
ui
H0 : 1
2
k 0
H1 : algunoes distintode 0
VE
2
k
2
VNE
(Si Ho es cierto)
2
(n k 1) s R
2
2
2
n k 1
VE VNE
,
son independientes
2
2
Regresión Lineal
F
F
VE / k
VNE/(n-k 1 )
F
Fk ,n
k 1
Se rechaza H0
44
Coeficiente de determinación R2
n
VE
( yi
y)2
i 1
n
( yi
VNE
i 1
n
VT
yi )
( yi
R
2
VE
VT
2
R2
1
Mideel porcentajede VT que
y)2
está explicadopor los regresores
i 1
VE
VE VNE
0
( yi
n
VT
~ ~
(Y Y)T (Y Y) bT ( XT X)b
y)2
~ ~
bT ( XT Y)
i 1
Regresión Lineal
45
Coef. determinación corregido R
R2
VE
VT
VT VNE
VT
2
(n k 1) s R
1
(n 1) s 2y
VNE
1
VT
R2
Regresión Lineal
1
2
sR
s 2y
n
( yi
s 2y
y)2
i 1
n 1
VNE /(n k 1)
1
VT /(n 1)
46
2
Regresión con R
Interpretación (inicial)
Contraste F=438 (p-valor=0.0000)
Alguno de
los regresores influye significativamente en el
consumo.
Contrastes individuales:
La potencia y el peso influyen significativamente (pvalor=0.0000)
Para =0.05, la cilindrada y la aceleración también
tienen efecto significativo (p-valor < 0.05)
El efecto de cualquier regresor
aumentar cualquiera de ellos aumenta la variable
respuesta: consumo.
Los regresores explican el 82 % de la variabilidad
del consumo (R2 = 0.8197)
Regresión Lineal
48
Multicolinealidad
Cuando la correlación entre los
regresores es alta.
Presenta graves inconvenientes:
Empeora las estimaciones de los efectos de
cada variable i: aumenta la varianza de las
estimaciones y la dependencia de los
estimadores)
Dificulta la interpretación de los parámetros
del modelo estimado (ver el caso de la
aceleración en el ejemplo).
Regresión Lineal
49
Identificación de la multicolinealidad:
Matriz de correlación de los regresores.
Regresión Lineal
50
24
24
20
20
consumo
consumo
Gráficos consumo - xi
16
12
8
4
16
12
8
4
0
500
0
1000
1500
2000
0
40
120
160
200
240
23
26
potencia
24
24
20
20
consumo
consumo
peso
80
16
12
8
4
16
12
8
4
0
0
0
2
4
cilindrada
6
8
(X 1000)
8
11
14
17
20
aceleracion
Regresión Lineal
51
Consumo y aceleración
Regresión Lineal
52
Multicolinealidad: efecto en la
varianza de los estimadores
yi
var
1
~T X
~ 1 2
X
~T X
~
X
1x1i
0
nS XX
2 x2i ui
S XX
2
s12
s12
s12
r12 s1s2
s12
s22
r12 s1s2
s22
1
s12 (1
2
1
| S XX | s12 s22 (1 r12
) S XX
r12
2
r12
)
2
s1 s2 (1 r12
)
1
r12
2
s1 s2 (1 r12
)
2
s22 (1 r12
)
2
var
1
2
r12
2
ns12 (1 r122 )
r12 2
ns1 s2 (1 r122 )
ns1 s2 (1 r122 )
ns 22 (1 r122 )
2
Regresión Lineal
53
Consecuencias de la
multicolinealidad
Gran varianza de los estimadores
Cambio importante en las
estimaciones al eliminar o incluir
regresores en el modelo
Cambio de los contrastes al eliminar
o incluir regresores en el modelo.
Contradicciones entre el contraste F
y los contrastes individuales.
Regresión Lineal
54
Variables cualitativas como
regresores
Consumo
l/100Km
15
16
24
9
11
17
12
17
18
12
16
12
9
...
Cilindrada
cc
4982
6391
5031
1491
2294
5752
2294
6555
6555
1147
5735
1868
2294
...
Potencia
CV
150
190
200
70
72
153
90
175
190
97
145
91
75
...
Consumo =
+
+
0
Peso
kg
1144
1283
1458
651
802
1384
802
1461
1474
776
1360
860
847
...
1
CC +
Acel +
4
Aceleración
segundos
12
9
15
21
19
14
20
12
13
14
13
14
17
...
2
Origen
Europa
Japón
USA
Europa
Japón
USA
Europa
USA
USA
Japón
USA
Europa
USA
...
Pot +
JAP ZJAP
+
3 Peso
Origen
Europa
Japón
USA
Z JAP i
0 si i JAPON
1 si i JAPON
ZUSAi
0 si i USA
1 si i USA
Z EUR i
0 si i EUROPA
1 si i EUROPA
+
USA ZUSA +
Error
Regresión Lineal
55
Variables cualitativas
Consumo
l/100Km
15
16
24
9
11
17
12
17
18
12
16
12
9
...
Cilindrada
cc
4982
6391
5031
1491
2294
5752
2294
6555
6555
1147
5735
1868
2294
...
Consumo =
+
Regresión Lineal
Potencia
CV
150
190
200
70
72
153
90
175
190
97
145
91
75
...
0
4
+
1
Peso
kg
1144
1283
1458
651
802
1384
802
1461
1474
776
1360
860
847
...
CC +
Acel +
2
Aceleración ZJAP
segundos
12
0
9
1
15
0
21
0
19
1
14
0
20
0
12
0
13
0
14
1
13
0
14
0
17
0
...
...
Pot +
JAP ZJAP
+
3 Peso
ZUSA
ZEUR
0
0
1
0
0
1
0
1
1
0
1
0
1
...
1
0
0
1
0
0
1
0
0
0
0
1
0
...
+
USA ZUSA +
Error
56
Interpretación var. cualitativa
Consumo =
+
0
4
+
1
CC +
Acel +
2
Pot +
JAP ZJAP
+
3 Peso
+
USA ZUSA +
Error
Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA
Consumo =
0
+
1
CC +
2
Pot +
3 Peso
+
4
Acel + Error
Coches japoneses: ZJAP =1 y ZUSA = 0
Consumo =
0
+
JAP +
1
CC +
2
Pot +
3 Peso
+
4
Acel + Error
Coches americanos: ZJAP =0 y ZUSA = 1
Consumo =
0
+
USA +
1
CC +
2
Pot +
3 Peso
+
4
Acel + Error
Regresión Lineal
57
Interpretación del modelo
y
Americanos
Europeos
0+
Ref.
Japoneses
USA
0
0+
JAP
xi
Regresión Lineal
58
Regresión Lineal
59
Interpretación
El p-valor del coeficiente asociado a ZJAP
es 0.1956>.05, se concluye que no existe
diferencia significativa entre el consumo
de los coches Japoneses y Europeos
(manteniendo constante el peso, cc, pot y
acel.)
La misma interpretación para ZUSA.
Comparando R2 =0.821 de este modelo
con el anterior R2=0.8197, se confirma
que el modelo con las variables de
Origen no suponen una mejora sensible.
Regresión Lineal
60
Modelo de regresión con
variables cualitativas
En general, para considerar una variable
cualitativa con r niveles, se introducen en
la ecuación r-1 variables ficticias
z1i
0 i nivel1
, z 2i
1 i nivel1
0 i nivel 2
,
1 i nivel 2
, zr
0 i nivel r 1
1 i nivel r 1
1i
Y el nivel r no utilizado es el que actúa de
referencia
yi
0
x
1 1i
z
1 1i
k
z
2 2i
xki
z
r 1 r 1,i
ui
variablecualitativa
Regresión Lineal
61
Predicción
Nueva Observ. yh|xh
Media mh|xh
yh
mh
mh
xh
xh
yh
xh
Regresión Lineal
62
Predicción de la media mh
(Regresión simple)
mh
yh
xh
yh
N( 0
mh
xh
1 xh ,
2)
yh
0
1 xh y
1 ( xh x )
E[ yh ] E[ 0 1 xh ] 0 1xh mh
var[ yh ] var[ y
1 ( xh x )]
1 xh
0
( xh x ) 2
N mh ,
1
n
s x2
2
yh
x ) 2 var[ 1 ]
var[ y ] ( xh
2
x)
( xh
n
2
2
ns x2
Regresión Lineal
63
Predicción de la media mh
(Regresión múltiple)
mh
yh
mh
yh
)
xh
x'h
x
0
T
yh
2
N (mh ,
1 1h
k
Regresión Lineal
xkh
T
h
x'h , x'T
h]
E[ T x'h ] E[ T ]x'h
var[ y h ] var[ T x'h ]
2v
hh
(1, x1h , x2 h ,
, xkh )
h
E[ y
x'h
N mh ,
y
T
h
T
x'
h
x'
v
hh
(X
(X
T
T
X)
X)
T
h
x'
var[
1
x 'h 2
1
x 'h
T
T
x 'h
]x'h
vhh 2
64
Expresión alternativa para vhh
y bT ( x h
yh
x)
var[ yh ] var[ y bT (x h x)] var[ y ] (x h
2
n
~ ~
( x h x ) T ( XT X) 1 ( x h x )
2
x)T var[b](x h
~ ~
XT X
(S x
)
n
,
x)
2
n
(1 (x h
x ) T S x1 ( x h
1
(1 (x h
n
vhh
x))
T
1
x
x) S ( x h
x))
xh
x
vhh 1 / n
xh
x
vhh 1 / n
Regresión Lineal
65
Intervalos de confianza para la
media mh
yh
yh
2
N mh ,
mh
vhh
y h mh
s R vhh
yh
N (0,1)
tn
m
h
y t
h
vhh
1
(1 (xh
n
Regresión Lineal
vhh
k 1
s
/2 R
xh
vhh
Regresión simple
T
1
x
x) S ( x h
x))
vhh
1
( xh x ) 2
(1
)
2
n
sx
66
Predicción de una nueva
observación yh (Reg.Simple)
yh
yh
mh
xh
yh
yh
e~
h
0
N (mh ,
yh
yh
x
1 h
2
vhh )
2
N (mh ,
mh
xh
)
x
0
1 h
yh
E[e~h ] E[ yh ] E[ yh ] 0
var[e~h ] var[ yh ] var[ yh ]
2
2
e~h
N ( 0,
2
(1 vhh ))
vhh
Regresión Lineal
67
Predicción de una nueva
observación yh (Reg. Múltiple)
yh
yh
mh
xh
yh
e~h
y bT x h
yh
yh
E[~
eh ] E[ yh ] E[ yh ] 0
var[~
eh ] var[ yh ] var[ yh ]
yh
~
eh
Regresión Lineal
N (mh ,
N ( 0,
2
2
xh
vhh )
2
(1 vhh )
(1 vhh ))
68
Intervalos de predicción para
una nueva observación yh
e~h
N 0,
~
eh yh y h
yh y h
1 vhh
yh y h
2
(1 vhh )
yh
N (0,1)
tn k 1
s R 1 vhh
xh
y
h
y t
h
s
/2 R
1 vhh
Regresión Lineal
69
Límites de predicción
y
0
x
1 1
k
m
h
xk
y
y
h
y t
h
y t
h
s
s
/2 R
/2 R
1 vhh
x
Regresión Lineal
vhh
70
Diagnosis: Residuos
Y
X
e
Observados Previstos Residuos
y1
1
x11
x21
xk1
0
e1
y2
1
x12
x22
xk 2
1
e2
yn
1
x1n
x 2n
xkn
k
en
ei
yi
( 0
1x1i
k xki )
Regresión Lineal
71
Distribución de los residuos
Y
N (X ,
V
2
I)
e
(I V)Y
X(X T X) 1 X T
e Normal
E[e] (I V) E[Y] (I V)X
var[ e] (I V) var (Y)(I V)
e N (0, 2 (I V))
ei
Regresión Lineal
N (0,
2
0
2
(I V)
(1 vii ))
72
Distancia de Mahalanobis
Di2
(x i
x) T S x 1 (x i
x) (Dist. de Mahalanobis)
xi
xi
Midela distanciade x i a x
1
(1 (x i
n
x'Ti ( XT X) 1 x'i
vii
Di2
Di2
x
x
x ) T S x1 ( x i
0
0
x))
vii son los elementosdiagonalesde la matriz V
X(X T X) 1 XT
V
n
vii
n
vij v ji
j 1
2
ij
v
2
ii
v
n
vij2
vii (1 vii )
j 1, j i
1
n
0
j 1, j i
vii
1
Regresión Lineal
73
Residuos estandarizados
ei
N (0, (1 vii )
var(ei )
2
)
(1 vii ) 2
Cuando xi está próximo a x
vii
1/ n
Cuando xi está lejos de x
vii
1
var(ei )
var(ei ) 0
2
ei
0
Residuos estandarizados
ri
Regresión Lineal
ei
s R 1 vii
74
Hipótesis de normalidad
Herramientas de comprobación:
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)
probabilidad
Ejemplo de coches
99,9
99
95
80
50
20
5
1
0,1
-6
-4
-2
0
2
4
6
Residuos
Regresión Lineal
75
Comprobación de la linealidad
y homocedasticidad
Ambas hipótesis se comprueban
conjuntamente mediante gráficos de los
residuos
Frente a valores previstos
Frente a cada regresor.
En muchas ocasiones se corrige la falta
de linealidad y la heterocedasticidad
mediante transformación de las variables.
Regresión Lineal
log yi
0
1 1i
x
log yi
0
1
log x1i
k
xki ui
k
log xki ui
76
Residuos - Valores previstos
ei
Lineal y homocedástico
ei
No lineal y homocedástico
0
0
yi
yi
ei
ei
0
0
Lineal y no homocedástico
yi
No lineal y no homocedástico
yi
Regresión Lineal
77
Regresión Lineal
78
Funciones R relacionadas
Regresión Lineal
79
Ejemplo 1: Cerezos Negros
Se desea construir un
modelo de regresión para
obtener el volumen de
cerezo
en función de la
altura del tronco y del
diámetro del mismo a un
metro sobre el suelo. Se
ha tomado una muestra
de 31 árboles. Las
unidades de longitudes
son pies y de volumen
pies cúbicos.
Regresión Lineal
80
Cerezos negros: Datos
Árbol
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Diametro
8,3
8,6
8,8
10,5
10,7
10,8
11,0
11,0
11,1
11,2
11,3
11,4
11,4
11,7
12,0
12,9
Altura
70
65
63
72
81
83
66
75
80
75
79
76
76
69
75
74
Volumen
10,30
10,30
10,20
16,40
18,80
19,70
15,60
18,20
22,60
19,90
24,20
21,00
21,40
21,30
19,10
22,20
Regresión Lineal
Árbol
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Diametro
12,9
13,3
13,7
13,8
14,0
14,2
14,5
16,0
16,3
17,3
17,5
17,9
18,0
18,0
20,6
Altura
85
86
71
64
78
80
74
72
77
81
82
80
80
80
87
Volumen
33,80
27,40
25,70
24,90
34,50
31,70
36,30
38,30
42,60
55,40
55,70
58,30
51,50
51,00
77,00
81
Gráficos x-y
Regresión Lineal
82
Primer modelo:cerezos negros
Volumen
0
Regresión Lineal
1
Diametro
2
Altura Error
83
Diagnosis
Regresión Lineal
84
Transformación
vol k altura diámetro2
log( vol)
0
1 log( altura)
2
log( diámetro) error
Regresión Lineal
85
Diagnosis (modelo transformado)
Regresión Lineal
86
Interpretación
Se comprueba gráficamente que la distribución
de los residuos es compatible con las hipótesis
de normalidad y homocedasticidad.
El volumen está muy relacionada con la altura y
el diámetro del árbol (R2= 97.77%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
es compatible con la ecuación vol=k Alt Diam2
La desviación típica residual es sR=0.081 que
indica que el error relativo del modelo en la
predicción del volumen es del 8.1%.
Regresión Lineal
87
Modelos de regresión lineal
1. La tabla muestra los mejores tiempos mundiales en Juegos Olı́mpicos hasta 1976 en carrera
masculina para distintas distancias.
y: tiempo (sg)
x: distancia (m)
9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795
100 200
400
800 1500 5000 10000 42196
(a) Estimar la regresión lineal de y sobre x y calcular la varianza residual y el coeficiente
de correlación.
(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).
(c) Analizar si la relación lineal es adecuada, transformando las variables si es necesario.
(d) Supóngase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.
Estimar el tiempo previsto para el record olı́mpico en dicha carrera, dando un intervalo
de confianza con α = 0.05.
2. Estimar por mı́nimos cuadrados los parámetros a y b de la ecuación y = a + bx2 con la
muestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).
3. Dada la recta de regresión ŷ = 3 + 5(x − 2) con r = 0.8, sˆR = 1, construir un intervalo de
confianza del 95% para la pendiente si n = 100.
4. Dado el modelo estimado con n = 25 datos, ŷ = 2 + 3(x − 4), ŝR = 5, con desviación tı́pica
del coeficiente de regresión S(βˆ1 ) = 0.5, calcular la desviación tı́pica de la predicción del
valor medio de y cuando x = 20.
5. Sir Francis Galton (1877) estudió la relación entre la estatura de una persona (y) y la estatura
de sus padres (x) obteniendo las siguientes conclusiones:
(a) Existı́a una correlación positiva entre las dos variables.
(b) Las estaturas de los hijos cuyos padres medı́an más que la media era, en promedio,
inferior a la de sus progenitores, mientras que los padres con estatura inferior a la
media en promedio tenı́an hijos más altos que ellos, calificando este hecho como de
”regresión” a la media.
Contrastar (α = 0.05) estas dos conclusiones con la ecuación ŷ = 17.8 + 0.91x resultante de
estimar un modelo de regresión lineal entre las variables (en cm.) descritas anteriormente
para una muestra de tamaño 100 si la desviación tı́pica (estimada) de β̂ 1 es 0.04.
6. La ley de Hubble sobre la expansión del universo establece que dadas dos galaxias la velocidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H
la constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias
respecto a la Via Láctea. Se pide:
1
Galaxia
Virgo
Pegaso
Perseo
Coma Berenices
Osa Mayor 1
Leo
Corona Boreal
Géminis
Osa Mayor 2
Hidra
Distancia
(millones años luz)
22
68
108
137
255
315
390
405
700
1100
Velocidad
(103 Km/s)
1.21
3.86
5.15
7.56
14.96
19.31
21.56
23.17
41.83
61.14
Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.
Nota: Obsérvese que según el modelo de Hubble la regresión debe pasar por el origen.
Tómese 1 año luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.
(a) Estimar por regresión la constante de Hubble.
(b) Como T = d/v = d/Hd = 1/H, la inversa de la constante de Hubble representa la
edad estimada del Universo. Construir un intervalo de confianza del 95% para dicha
edad .
9. Para establecer la relación entre el alargamiento en mm (Y ) producido en un cierto material
plástico sometido a tracción y la fuerza aplicada en toneladas por cm2 (X) se realizaron 10
experimentos cuyos resultados se muestran en la tabla
xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70
yi 23
20
33
45
67
52
86
74
98
102
Tabla: Alargamiento yi (mm) producidos por la fuerza xi (Tm/cm2 ).
(a) Ajustar el modelo de regresión lineal E(Y |x) = β 0 + β 1 x y contrastar (α = 0.01) la
hipótesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar un
alargamiento de 50 milı́metros, sabiendo que la desviación tı́pica residual vale 10.55.
(b) Si el lı́mite de elasticidad se alcanza cuando x = 2.2 Tm/cm2 , construir un intervalo
de confianza al 95% para el alargamiento medio esperado en ese punto.
(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nula
debe ser nulo también, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores
¿Cuál es el sesgo del estimador del parámetro de la pendiente si se estima según el
modelo del apartado 1?
2
10. La ecuación de regresión entre las ventas de un producto y y su precio x es ŷ = 320 − 1.2x,
ŝR = 2 y ŝy = 4. Si el número de datos ha sido n = 50, contrastar H0 : β 1 = −1 frente a la
alternativa H1 : β 1 < −1.
11. Se estudia la relación entre el tiempo de reparación (minutos) de ordenadores personales y
el número de unidades reparadas en ese tiempo por un equipo de mantenimiento con los
resultados mostrados en la siguiente tabla
unidades reparadas
tiempo de reparación
1 3 4
23 49 74
6
7
9
10
96 109 149 154
Se pide:
(a) Construir la recta de regresión para prever el tiempo de reparación y utilizarla para
construir un intervalo de confianza (α = 0.01) para el tiempo medio de reparación de
8 unidades.
(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparación para un lote
de 14 unidades.
(c) Si los tiempos de reparación fuesen medias de 10 datos. ¿Cual serı́a la recta de regresión?
13. Se realiza una regresión múltiple con tres regresores y se encuentra un coeficiente de correlación de 0.5 entre los residuos de la regresión y uno de los regresores. Interpretar este
resultado.
14. La matriz de varianzas de tres variables estandarizadas es la siguiente


1 0.8 0.6
 0.8 1 0.2 
0.6 0.2 1
Calcular la ecuación de regresión de la primera variable respecto a las otras dos.
15. Dos variables x1 y x2 tienen la siguiente matriz de varianzas
1 0.5
0.5 1
y las regresiones simples con y son ŷ = 0.75x1 ; ŷ = 0.6x2 . Calcular la regresión múltiple
entre y y las dos variables x1 , x2 sabiendo que la variable y tiene media cero y varianza
unidad.
16. Se realiza la regresión entre la variable dependiente y y tres regresores x1 , x2 y x3 . Posteriormente se decide realizar la regresión entre la variable y y los tres regresores estandarizados.
Explicar cuáles son las diferencias entre los resultados de una regresión y otra en cuanto a
los coeficientes estimados β̂ i , los residuos y el coeficiente de determinación, justificando la
respuesta.
3
17. La matriz de varianzas de las variables X1 , X2 e Y es


25 27
14
 27 36 19.2 
14 19.2 16
Siendo X 1 = 30, X 2 = 40, Y = 100 y el número de datos n = 10.
Se pide:
(a) Realizar la regresión simple entre Y (variable dependiente) y X1 , dando el intervalo de
confianza para la pendiente de la recta con α = 0.05. Hacer lo mismo con Y y X2 .
(b) Realizar la regresión múltiple entre Y (variable dependiente) y X1 , X2 , en desviaciones
a la media.
(c) Indicar si los coeficientes de la regresión anterior son significativos.
(d) Calcular R2 para los tres modelos, comentar los resultados obtenidos e indicar qué
modelo eligirı́a y por qué.
18. Para establecer la relación entre el voltaje de unas baterı́as y la temperatura de funcionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguiente
tabla
Baterı́a
Temperatura
Voltaje
1
2
10 10
7.2 7.7
3
4
5
20 20 30
7.3 7.4 7.7
6
7
8
30 40
40
9.4 9.3 10.8
Se pide:
(a) Contrastar la hipótesis (α = 0.05) de que no existe relación lineal entre el voltaje y la
temperatura.
(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterı́as de Cadmio y las 2,4, 6 y 8 con
baterı́as de Zinc. Introducir en el análisis anterior una variable cualitativa que tenga
en cuenta los dos tipos de baterı́as y contrastar si es significativa al 95%.
(c) Dar un intervalo de confianza para el voltaje de una baterı́a de Cadmio que va a trabajar
a 35◦ centı́grados. (Utilizar el modelo estimado en el apartado 2).
(d) Comprobar que se cumplen las hipótesis del modelo construido en los apartados anteriores.
19. ¿Cómo disminuirá la varianza teórica de los estimadores β̂ en el modelo de regresión lineal
al replicar las observaciones? (Por replicar se entiende el obtener un nuevo vector Y de la
variable respuesta manteniendo las X fijas).
4
20. Se ha estimado un modelo de regresión para la estatura (y) de un grupo de adultos y sus
estaturas a los 7 (x1 ) y 14 (x2 ) años. La desviación tı́pica residual obtenida es 5 cm y la
desviación tı́pica del coeficiente de x1 (estatura a los 7 años) resulta 2.4, siendo este efecto
no significativo al 95%. Sin embargo, un segundo modelo de regresión que incluya sólo a
esta variable (x1 ) conduce a una desviación tı́pica residual de 7 cm y a un coeficiente de
regresión de 2 con desviación tı́pica de 1. ¿Qué podemos concluir con estos resultados de la
correlación entre x1 y x2 ?
21. Se dispone de una muestra de 100 automóviles con información respecto a su consumo
(litros/100 km), peso (kg), potencia (CV), tipo de motor (I=inyección, NI=no inyección) y
nacionalidad (1=USA, 2=Alemania, 3=Japón, 4=Francia). Escribir la ecuación del modelo
de regresión lineal del consumo respecto al resto de las variables e interpretar el significado
de cada uno de los parámetros del modelo. Indicar cómo contrastar si la nacionalidad del
vehı́culo influye en el consumo.
22. Teniendo en cuenta que mediante variables cualitativas cualquier modelo de diseño experimental puede escribirse como un modelo de regresión, determinar la matriz V = X(X T X)−1 X T
de proyección y la varianza de un residuo eij para el modelo básico de análisis de la varianza
yij = µi + uij , i = 1, ..., I ; j = 1, ..., ni
Aplicarlo al caso de 3 grupos (I = 3), con 5 observaciones en el primer grupo, 4 en el segundo
y 3 en el tercero.
23. La variable y se relaciona con las variables x1 y x2 según el modelo E(y) = β 0 + β 1 x1 + β 2 x2 ;
no obstante se estima el siguiente modelo de regresión que no incluye la variable x2
ŷi = β̂ 0 + β̂ 1 x1i .
Justificar en qué condiciones el estimador β̂ 1 es centrado.
24. Se efectúa una regresión con dos variables explicativas E[y] = β 0 + β 1 x1 + β 2 x2 . La matriz
de varianzas de x1 y x2 es
2 1
1 3
¿Cuál de los dos estimadores β̂ 1 y β̂ 2 tendrá menor varianza?
25. Se estudia la relación entre los costes de fabricación totales en miles de pesetas (Y ), de 25
libros técnicos, la tirada en miles de ejemplares producidos (T ) y el número de páginas del
libro (N), encontrandose la relación
Y = 1400 + 900T + 4N
5
(a) Sabiendo que las desviaciones tı́picas (sin corregir por grados de libertad) de T y N
son 1.5 miles de ejemplares y 200 páginas respectivamente, y ŝR = 600, calcular un
intervalo de confianza del 90% para los efectos de T y N suponiendo que las variables
están incorreladas. Interpretar el resultado.
(b) Si el coeficiente de correlación entre las variables T y N es −0.5, ¿Puede admitirse la
hipótesis de que el coste asociado a la tirada es de 1.100.000 ptas. cada mil unidades?
(α = 0.05).
(c) Sabiendo que la desviación tı́pica (sin corregir por grados de libertad) de los costes de
fabricación es 2200 miles de pesetas, calcular el coeficiente de correlación múltiple y el
estadı́stico F para contrastar que ambas variables no influyen. Interpretar el resultado.
(d) Para estudiar cuánto encarecen los gráficos el precio se introduce en el modelo una
variable ficticia Z que toma el valor 1 en libros con gráficos y 0 en el resto, obteniéndose
el nuevo modelo estimado siguiente (desviaciones tı́picas entre paréntesis)
Y
= 1080 + 520Z + 840T + 3.8N
(100)
(16)
(0.97)
Interpretar el resultado.
26. Demostrar que el coeficiente de correlación múltiple en el modelo general de regresión es
igual al coeficiente de correlación lineal entre la variable observada y y la prevista ŷ.
27. Para 11 provincias españolas se conocen los siguientes datos:
Y = número de mujeres conductoras dividido por el número de hombres conductores.
X1 = porcentaje de mujeres que trabajan sobre el total de trabajadores de la provincia.
X2 = porcentaje de población que trabaja en el sector agrı́cola.
Si se denomina X = (1 X1 X2 ) a la matriz de regresores (1 es un vector de unos) se sabe que
(X T X)−1




5.1 −0.12 −0.05
−0.06
=  −0.12 30.8
0.08  (X T Y ) =  0.05 
−0.05 0.08 0.001
−9.45
ŝR = 0.03;
n
X
(yi − y)2 = 0.0645
i=1
Se pide:
(a) Estimar el modelo de regresión y realizar los contrastes individuales (α = 0.05). Interpretar la regresión.
(b) Calcular el coeficiente de determinación R2 y realizar el contraste de que las dos variables no influyen mediante el test F (α = 0.05).
6
(c) Se introducen dos nuevas variables en la regresión: X3 que representa el porcentaje
de población que trabaja en los servicios, y X4 el porcentaje de población que trabaja
en otras actividades distintas de agricultura y servicios. Explicar razonadamente cómo
será la regresión al introducir estas dos nuevas variables y los efectos de cada una de
ellas.
28. Con los datos de la tabla, se pide:
x -2
y 1.1
-2 -1 -1
0
1.3 2.0 2.1 2.7
0
1
1
2.8 3.4 3.6
2
2
3
3
4.0 3.9 3.8 3.6
(a) Estimar un modelo de regresión simple con y como variable dependiente y x como
regresor. Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + ui
y realizar el contraste H0 : β 2 = 0.
(c) El resultado de la estimación del modelo que incluye el término x3 es,
ŷi = 2.81 + 0.80xi - 0.06x2i - 0.035x3i
(0.05)
(0.048)
(0.019)
(0.010)
con ŝR = 0.113 (entre paréntesis las desviaciones tı́picas de los estimadores). Realizar
el contraste general de regresión con α = 0.01. Seleccionar entre los tres el modelo más
adecuado, justificando la respuesta.
29. En un modelo de regresión simple se ha obtenido un coeficiente de correlación igual a −0.8.
Si el número de observaciones es n = 150, ȳ = 22 y la variabilidad total es 320. Construir
un intervalo de confianza al 95% para el valor medio de la variable dependiente (y) cuando
x (regresor) es igual a x̄. (Aproximar la distribución t de Student correspondiente por una
distribución normal, si Z
N(0, 1), P (Z ≤ 1.96) = 0.975).
30. En una planta piloto se obtiene un nuevo producto mediante un proceso quı́mico. Con el
fin de mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres
temperaturas diferentes. Los resultados del experimento son
Catalizador
A
B
Temperatura
200
300
400
115 125 130 140 110 120
115 105 135 145 100 110
(a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. (α =
0.05)
(b) ¿Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar una probabilidad de error tipo I total, αT = 0.03?
7
(c) Estimar y contrastar el modelo de regresión simple entre el rendimiento y la temperatura. ¿Qué conclusiones obtiene? Proponga un modelo de regresión que subsane las
deficiencias encontradas.
31. El modelo de regresion múltiple se puede escribir en notación matricial
Y = Xβ + U
donde U es el vector de variables aleatorias que cumple las hipótesis de normalidad, independencia y homocedasticidad. Deducir razonadamente la distribución, media y matriz de
varianzas del vector de residuos e = Y − X β̂.
32. La empresa de bebidas gaseosas CIBELES quiere determinar la influencia sobre la presión
interna (yi ) en los botes de refresco de dos variables continuas (x1 , x2 ) y del tipo de bebida
(NARANJA=1, LIMON=2 y COLA=3). Para distintos valores de x1 y x2 y 20 botes de
cada sabor, ha medido la presión interna. El tipo de bebida se representa por las variables z1 ,
z2 y z3 qué identifican el sabor NARANJA, LIMON y COLA, respectivamente. El modelo
estimado de regresión de y con respecto a x1 , x2 , z2 y z3 es:
ŷ = 19.4 + 77.2x1 − 50.8x2 + 2.95z2 + 5.52z3 ;
donde
T
(X X)

−1


=


hatsR = 4.32

0.1772 −0.6909 −0.5043 −0.0605 −0.0896
−0.6909
5.8085
0.2541
0.1478
0.2444 

−0.5043
0.2541
5.0070 −0.0680
0.1216 

−0.0605
0.1478 −0.0680
0.1049
0.0546 
−0.0896
0.2444
0.1216
0.0546
0.1127
(a) Realizar los contrastes individuales con α = 0.01, indicando las variables que influyen
significativamente en la presión. Interpretar el resultado explicando el significado de
cada parámetro.
(b) Si se realiza una regresión entre la presión interna (yi ) y las dos variables continuas x1
y x2 se obtiene el siguiente modelo de regresión
ŷ = 23.86 + 65.1x1 − 56.3x2 ;
ŝR = 4.78.
Contrastar (α = 0.01) conjuntamente que el tipo de bebida no influye. (H0 : α2 = α3 =
0 frente a H1 : α2 ó α3 es distinto de cero).
(c) ¿Existe diferencia significativa en las presiones internas de los botes de LIMON y
COLA? (α = 0.01)
33. Estimar por máxima verosimilitud los parámetros β 1 y β 2 del modelo
yi = β 1 x1i + β 2 x22i + ui
; ui
N(0, σ).
¿En qué condiciones los estimadores obtenidos por máxima verosimilitud son iguales que los
obtenidos por mı́nimos cuadrados?
8
34. Obtener la relación entre el coeficiente de determinación R2 y el coeficiente de determinación
2
corregido R . ¿ Que ventajas presenta el segundo frente al primero ?
35. Con el fin de reducir el tiempo de secado se han realizado 20 ensayos con cementos de
distintas caracterı́sticas. El ajuste por mı́nimos cuadrados de la ecuación de regresión entre
el tiempo de secado y una de las variables x1 es
ŝR = 12.8, R2 = 0.37
ŷ = 17.1 + 2.9x1 ,
(a) Obtener el intervalo de confianza al 95% para el parámetro de la pendiente de la recta
e indicar si su efecto es significativo.
(b) Incluir en el modelo de regresión otra variable independiente x2 , sabiendo que su varianza muestral es s22 = 9.2, la covarianza entre las dos variables independientes es
s12 = −3.35 y la covarianza entre el tiempo de secado y la nueva variable s2y = 9.55.
Realizar los contrastes individuales para los parámetros de x1 y x2 .
(c) Un estudio teórico del problema indica que el efecto de las dos variables es igual y que
por tanto, la ecuación de regresión deberı́a ser
ŷ = b̂0 + b̂1 (x1 + x2 ).
Con la información de los apartados anteriores, obtener b̂1 y contrastar si la pendiente
de la recta es significativamente distinta de cero.
36. Explicar cómo contrastar que dos o más coeficientes en un modelo de regresión múltiple son
simultanáneamente nulos.
37. En el análisis de regresión simple entre dos variables, se considera como importante desde
el punto de vista práctico, una correlación entre las dos variables igual o superior a r = 0.1.
Determinar el número mı́nimo de observaciones con las que se debe estimar el modelo de
regresión para que una correlación igual a 0.1, implique que el regresor tiene un efecto
significativo sobre la variable dependiente. (Aproximar la distribución t de Student correspondiente por una distribución normal, si Z
N(0, 1), P (Z ≤ 1.96) = 0.975).
38. Interpretar geométricamente el problema de estimación por mı́nimos cuadrados en regresión
múltiple. Demostrar que los residuos del modelo se obtienen mediante la expresión e =
P Y , donde Y es el vector correspondiente a la variable dependiente y P es una matriz de
dimensión n × n. Determinar P en términos de la matriz X de los regresores. A partir de
la expresión anterior, obtener la distribución de probabilidad de los residuos, la media y la
matriz de varianzas.
39. Una de las etapas de fabricación de circuitos impresos requiere perforar las placas y recubrir
los orificios con una lámina de cobre mediante electrólisis. Una caracterı́stica esencial del
proceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluar
el efecto de 7 variables, X1 : Concentración de Cobre, X2 : Concentración de Cloruro, X3 :
Concentración de Ácido, X4 : Temperatura, X5 : Intensidad, X6 : Posición y X7 : Superficie
de la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales y
los resultados de cada experimento se muestran en la tabla.
9
X1 X2 X3 X4 X5 X6 X7
1
1 -1
1
1
1 -1
1 -1
1
1
1 -1 -1
-1
1
1
1 -1 -1 -1
1
1
1 -1 -1 -1
1
1
1 -1 -1 -1
1 -1
1 -1 -1 -1
1 -1
1
-1 -1 -1
1 -1
1
1
-1 -1
1 -1
1
1 -1
-1
1 -1
1
1 -1
1
1 -1
1
1 -1
1
1
-1
1
1 -1
1
1
1
-1 -1 -1 -1 -1 -1 -1
Y
2.13
2.15
1.67
1.53
1.49
1.78
1.80
1.93
2.19
1.61
1.70
1.43
Responder a las siguientes preguntas aplicando el modelo de regresión múltiple, teniendo en
cuenta que X T X = 12I8 , donde I8 es la matriz identidad de 8 × 8.
(a) Estimar el modelo de regresión múltiple
yi = β 0 + β 1 x1i + β 2 x2i + β 3 x3i + β 4 x4i + β 5 x5i + β 6 x6i + β 7 x7i + ui .
Obtener la descomposición de la variabilidad del modelo y realizar el contraste
H0 : β 1 = β 2 = β 3 = β 4 = β 5 = β 6 = β 7 = 0
frente a la hipótesis alternativa H1 : algún β j es distinto de cero.
(NOTA.: X T Y = (21.41, −0.03, 0.01, −0.23, 1.69, 2.35, −0.09, −0.19)T )
(b) Realizar cada uno de los contrastes individuales e indicar qué variables tienen efecto
significativo.
(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar el
modelo y contrastar sus coeficientes. Interpretar los resultados del experimento.
40. Una medida crı́tica de calidad en la fundición de llantas de aluminio por inyección es la
porosidad. Se ha realizado un diseño experimental para analizar la porosidad (Y ) en función
de la temperatura (T ) del aluminio lı́quido y de la presión (P ) con que éste se inyecta al
molde. Se han realizado n=16 experimentos y el modelo obtenido ha sido
ŷ
=
2.84 +
(.048)
+
0.26
T2 +
(.048)
0.59 T
(.048)
0.30 P 2
(.048)
-
0.031
P
(.048)
0.22 T P
(.068)
Entre paréntesis se proporciona la desviación tı́pica estimada para cada uno de las estima2
ciones de los parámetros del modelo. Además ŝR = 0.137 y R = 0.9267. Las condiciones
experimentales se eligieron de forma que los cinco regresores utilizados en el modelo están
incorrelados.
10
(a) Realizar el contraste F general de regresión y los contrastes individuales de todos los
coeficientes del modelo, indicando cuál es significativamente distinto de cero.
(b) Demostrar que si los regresores estan incorrelados, al eliminar alguno del modelo,
las estimaciones de los restantes no varı́an. Además, si se elimina el regresor j, con
parámetro estimado β̂ j , la variabilidad no explicada del nuevo modelo V NE1 es igual
2
a V NE0 + ns2j β̂ j , donde V NE0 es la variabilidad no explicada del modelo con todos
2
los regresores. Obtener ŝR y R para el modelo que únicamente incluye los parámetros
significativos.
(c) Determinar en qué condiciones de presión y temperatura la porosidad es mı́nima según
el modelo anterior y dar un intervalo para predicción de la porosidad media en estas
condiciones. (Si t es la temperatura medida en grados centı́grados (0 C) y p la presión
en kg/cm2 ,
P
T = (t − 650)/10
y P = (pP
− 975)/25. En
estas unidades se cumple que ni=1 Ti = 0,
P
P
P
n
n
n
n
2
2
i=1 Ti Pi = 0)
i=1 Pi = 8,
i=1 Ti = 8,
i=1 Pi = 0,
41. Demostrar que cuando todos los regresores están incorrelados,
el coeficiente de determinación
Pk
2
2
de un modelo de regresión múltiple cumple R = j=1 rj , donde k es el número de regresores
y rj el coeficiente de correlación entre el regresor j y la variable dependiente.
42. Explicar el concepto de multicolinealidad en regresión múltiple, cómo se identifica y cuáles
son sus efectos sobre (a) los estimadores β̂ i , (b) los residuos y (c) las predicciones.
43. Demostrar que en un modelo de regresión simple y y el estimador de la pendiente β̂ 1 son
independientes. Utilizar esta propiedad para calcular la varianza de β̂ 0 = y − β̂ 1 x.
44. La masa M de un cristal de hielo depositado en una cámara a temperatura (-5o C) y humedad
relativa constante crece según la ecuación M = αT β , donde T es el tiempo y α y β son
parámetros desconocidos. La relación anterior se linealiza con la transformación logarı́tmica,
estimándose el siguiente modelo
log M = log α + β log T + u
donde el término añadido u son los errores experimentales, que se consideran aleatorios e
independientes con distribución normal, N(0,σ 2 ). Diez cristales del mismo tamaño y forma se
introdujeron en una cámara, extrayéndose secuencialmente según unos tiempos previamente
establecidos. Para determinar la influencia del tipo de cámara, se repitió exáctamente el
experimento en una segunda cámara. Los valores de ŝR para la cámara 1 y 2 son 0.64 y
0.50, respectivamente. Los modelos estimados para cada cámara, X T X y (X T X)−1 son:
log M1 = −7.30 + 2.40 log T
log M2 = −5.74 + 2.03 log T
T
(X X)
−1
=
11
T
X X=
18.27 −3.89
−3.89 0.835
10.00 46.66
46.66 218.9
(a) Contrastar con nivel de significación 0.05 si los dos modelos tienen la misma pendiente.
Lo mismo para la ordenada en el origen. (NOTA.- Aceptar que la varianza de los
dos modelos es la misma y estimarla como el promedio de las dos varianzas residuales
calculadas.)
(b) Un modelo de regresión múltiple Y = Xβ + U, se replica, es decir se obtienen dos
vectores de variables respuesta Y1 , Y2, para los mismo regresores (matriz X). Demostrar
que si β̂ 1 y β̂ 2 son los resultados de la estimación de β utilizando por separado la variable
Y1 e Y2 ; entonces el estimador de β con todos los datos es (β̂ 1 + β̂ 2 )/2.
(c) Estimar un único modelo con los datos de las dos cámaras. Sabiendo que Y T Y = 306.8,
donde Y = log M, dar un intervalo de confianza al 99% para los dos parámetros.
45. El molibdeno se añade a los aceros para evitar su oxidación, pero en instalaciones nucleares
presenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Se
ha realizado un experimento para determinar el grado de oxidación del acero en función del
porcentaje de molibdeno. Además se ha tenido en cuenta el efecto del tipo de refrigerante
utilizado (R1 , R2 ). Los resultados se muestran en la tabla.
Refrig. 0.5%
R1
26.2
R2
34.8
R1
33.2
R2
43.0
Media 34.3
Molibdeno (%)
1% 1.5%
23.4 20.3
31.7 29.4
31.3 28.6
40.0 31.7
31.6 27.5
2% Medias
23.3
23.3
26.9
30.7
29.3
30.6
33.3
37.0
28.2
30.4
(a) Escribir un modelo de regresión que incluya el porcentaje de molibdeno y el tipo de refrigerante como regresores; estimar el modelo e indicar qué parámetros son significativos
(α = 0.05)).
(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalación
y los correspondientes a las dos últimas en otra distinta. Escribir un nuevo modelo que
incluya este aspecto. Comprobar que este nuevo regresor está incorrelado con los dos
anteriores. Estimar el nuevo modelo.
(c) Demostrar que en un modelo con los regresores incorrelados, la eliminación de uno
de ellos no influye en el valor de los estimadores β̂ i , (i 6= 0) restantes. ¿ Influye en
la varianza residual y en los contrastes ? Explicar este efecto en función de que el
parámetro β del regresor eliminado sea o no nulo.
46. Demostrar que en un modelo de regresión múltiple estimado por máxima verosimilitud, los
residuos cumplen
n
X
ej xij = 0,
j=1
donde [xi1, xi2, ..., xin, ] es cualquier regresor del modelo. Obtener la distribución conjunta
del vector de residuos. Si σ 2 es la varianza teórica de la componente aleatoria del modelo,
indicar en que circuntancias la varianza de un residuo es mayor que σ 2 .
12
47. Se dispone de una muestra de 86 vehı́culos, de los cuales 31 son japoneses (J), 41 norteamericanos (N) y 14 europeos (E). La media y desviación tı́pica del consumo de gasolina (en litros
cada 100 Km) para los coches japoneses es y J = 9.1781, b
sJ = 1.42, para los norteamericanos
y N = 9.7274, b
sN = 1.25 y para los europeos y E = 10.64, b
sE = 1.36.
(a) Suponiendo que los vehı́culos escogidos son muestras aleatorias independientes y que
pueden aplicarse las hipótesis de normalidad y homocedasticidad, contrastar la hipótesis
de que el lugar de fabricación no influye en el consumo de combustible. ¿Existe algún
grupo con un consumo significativamente menor que los otros dos?
(b) Los coches tienen caracterı́sticas muy diferentes (peso, potencia,...) que deben ser
tenidas en cuenta para hacer la comparación anterior. Con esa finalidad, se ha ajustado
el siguiente modelo de regresión:
yb = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE sb2R = 0.506,
R2 = 75.7%
donde (X T X)−1 es:


4.791e − 1
5.054e − 2 −3.794e − 1 −9.157e − 2 −4.682e − 2
 5.054e − 2
1.595e − 1 −1.931e − 1 −3.443e − 3 −1.262e − 2 



 −3.794e − 1 −1.931e − 1
4.646e
−
1
5.210e
−
2
2.865e
−
2


 −9.157e − 2 −3.443e − 3
5.210e − 2
6.667e − 2
2.744e − 2 
−4.682e − 2 −1.262e − 2
2.865e − 2
2.744e − 2
9.759e − 2
dónde la variable dependiente es el consumo, Pot (potencia) está expresada en unidades
de 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el coche es japonés y cero en
los demás, y ZE toma el valor 1 para los coches europeos y cero en los demás. Realizar
el contraste general de regresión para el modelo anterior e interpretar los coeficientes
estimados.
(c) Con el modelo de regresión anterior realizar los tres contrastes siguientes:
(c.1) No existe diferencia en el consumo de los coches japoneses y europeos.
(c.2) No existe diferencia en el consumo de los coches japoneses y norteamericanos.
(c.3) No existe diferencia en el consumo de los coches europeos y norteamericanos.
Comparar los resultados con los obtenidos en el apartado 1, explicar a qué se deben las
diferencias y justificar cuál es el modelo más adecuado para hacer las comparaciones.
48. El modelo de regresión múltiple con n observaciones y k + 1 variables independientes (incluyendo la constante β 0 ) se puede escribir en notación matricial como
Y = Xβ + U,
donde U es el vector de variables aleatorias que cumple las hipótesis de normalidad, independencia y homocedasticidad y la matriz de los regresores X es de dimensión n × (k + 1).
Demostrar que si se transforma linealmente la matriz X, esto es, W = XA, donde A es
cualquier matriz cuadrada de dimensión (k + 1) × (k + 1) y rango máximo, entonces la
regresión de Y con la nueva W proporciona las mismas predicciones y los mismos residuos.
Justificar geométricamente este resultado.
13
49. La resistencia a la tracción (y) de una aleación metálica en función de la temperatura de
templado (x) se ha ajustado con una ecuación de regresión para 30 observaciones resultando:
ŷ = 276.1 + 1.9x, ŝR = 15.7, R2 = 0.43
Se puede concluir con una confianza del 95% que la temperatura de templado tiene efecto
significativo en la resistencia a la tracción.
50. En Cosby Creek, una ciudad al sur de las montañas Apalaches, se ha hecho un estudio para
determinar cómo el pH y otras medidas de acidificación del agua se ven afectadas durante
las tormentas. En concreto se han obtenido 17 datos durante cada una de las tres tormentas
monitorizadas para un total de 19 variables, aunque en este análisis se analizarán solo 2, el
pH y el denominado Weak Acidity (WA). Se ha estimado el modelo de regresión múltiple
del valor pH con respecto a la variable WA y para cada una de las tres tormentas. Las
tormentas se representan con las variables ficticias z1 , z2 y z3 que identifican respectivamente
la tormenta 1, 2 y 3. El modelo estimado de regresión de y con respecto a WA, z1 , z2 y z3
es:
c = 5.77 − 0, 00008W A + 0, 998z1 + 1, 65z2 − 0, 005z1 W A − 0, 008z2W A,
pH
(0,000727)
(0,4664)
(0,4701)
(0,0014)
R2 = 0, 866
(0,0016)
Entre paréntesis las deviaciones tı́picas estimadas de los estimadores de los parámetros correspondientes.
(a) Realice el contraste general de regresión y los contrastes individuales con α = 0, 05
indicando las variables que influyen significativamente en el pH. Interprete el significado
de cada parámetro.
(b) Proporcione sendos intervalos de confianza al 95% para los parámetros de las interacciones z1 W A y z2 W A. ¿Qué conclusiones pueden extraerse? ¿Se puede simplificar el
modelo?
51. Dos becarios del Departamento de Ciencias Sociales están interesados en el estudio de la
Tasa de Mortalidad Infantil (TMI). Para ello, han recogido en 107 paı́ses dicha magnitud
ası́ como la alfabetización (A), el PIB y la población (Pob) en cada uno de ellos.
Las medias y desviaciones tı́picas corregidas de estas 4 variables son:
Media
DT corregida
TMI
42.67
38.3
A
PIB
Pob
78.34 5831.4
48501
22.88 6537.24 147.991
(a) Si el coeficiente de correlación entre TMI y A vale -0.9005 estime el modelo de regresión
simple en el que TMI es la variable respuesta y A la variable explicativa y contraste si
la pendiente estimada es significativa.
(b) Los becarios han estimado un modelo de regresión múltiple en que la variable dependiente es TMI y las variables independientes son A, PIB y Pob. Observando que la
diagnosis del modelo es inadecuada. Estime el modelo de regresión múltiple entre TMI
(variable dependiente) y los regresores A, log(PIB) y log(Pob). Para ello se proporciona:
14
e ′ X)
e −1
(X


0.0259 −0.0499 0.0001
= 10−3 −0.0499 0.3186 0.0007
0.0001
0.0007 0.0004


−8.3651
e ′ Ye ) = 104 −1.7007
(X
5.1293
e la matriz de estos 3 últimos regresores en desviaciones a la media e Ye el vector
siendo X
respuesta en desviaciones a la media. ¿Son significativos los coeficientes estimados?
c. Para el modelo del apartado anterior realice el contraste general de regresión. ¿Encuentra contradicciones entre el resultado de los contrastes individuales del apartado 2
y el del apartado 3? Justifique la respuesta.
d. Los paı́ses objeto del estudio se pueden clasificar en desarrollados y no desarrollados.
Para ello se introduce la variable cualitativa Z que toma valor 0 si el paı́s es desarrollado
y 1 si no lo es. El modelo resultante se presenta a continuación:
T MI = 138.2 − 1.1A − 9.6 log(P IB) + 3.3Z
con sb2R = 196.3
Todos los coeficientes estimados resultan significativos. Interprete dichos coeficientes y elija
de manera razonada el mejor modelo de entre los propuestos en el segundo y cuarto apartados
NOTA: Utilice α = 0.05 para todos los contrastes que sean necesarios.
52. Se ha realizado la regresión entre la anchura y la longitud del pie en centı́metros con datos
de chicos y chicas de cuarto curso de la enseñanza secundaria. En la tabla se proporciona el
resultado de la regresión. En el modelo se ha incluido una variable cualitativa que toma el
valor 1 si la observación corresponde a una chica y 0 si es a un chico. Interpreta el resultado
del análisis.
Multiple Regression Analysis
----------------------------------------------------------------------------Dependent variable: Anch
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
4,29977
1,12692
3,81551
0,0005
Long
0,21311
0,048554
4,38913
0,0001
Chica
-0,272394
0,127844
-2,13067
0,0402
----------------------------------------------------------------------------Analysis of Variance
15
----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
4,60164
2
2,30082
16,41
0,0000
Residual
4,90599
35
0,140171
----------------------------------------------------------------------------Total (Corr.)
9,50763
37
R-squared = 48,3994 percent
53. Según la ecuación de los gases ideales, la presión ejercida por un gas a volumen y temperatura
constante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimar
el peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se va
soltando poco a poco gas, variando la presión, pero manteniendo la temperatura constante.
En la tabla adjunta se proporcionan mediciones de la presión (con respecto a la atmosférica)
y de la masa del gas para el árgon.
Presión (psi)
52
49
44
39
34
29
25
21
19
19
11
0
Masa (g)
1, 028
0, 956
0, 88
0, 793
0, 725
0, 645
0, 593
0, 526
0, 5
0, 442
0, 373
0, 21
(a) Para estimar el peso molecular del árgon a partir de los datos, se propone el siguiente
modelo de regresión
Pi = αmi + ui , con ui ∼ N(0, σ 2 ).
Obtener el estimador de máxima verosimilitud del parámetro α
(b) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significación 0.05.
(c) Para el modelo del apartado 1, obtener un intervalo de predicción para la presión cuando
la masa es igual a 1 gramo.
(d) Se considera también el modelo alternativo
Pi = β 0 + β 1 mi + ui con ui ∼ N(0, σ 2 ).
16
Obtener la varianza del estimador de E[Ph |mh ], es decir del valor medio de la presión Ph
para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el del primer
apartado, ¿qué efecto tendrı́a sobre la predicción adoptar el modelo alternativo?
54. Se ha estimado un modelo de regresión con dos variables independientes y 150 observaciones
obteniéndose la siguiente ecuación:
ybi = −1.17 + 0.025 log x1 + 0.59 log x2 ,
sb2R = 2.48
b ,β
b ]T para el modelo propuesto es
La matriz de varianzas estimada de bb = [β
1
2
−1
.253 .201
T
2
X̃ X̃
sbR =
.
.201 .288
realiza el contraste general de regresión con α = 0.05:
H0 : β 1 = β 2 = 0
H1 : algún β i es distinto de cero
55. En el modelo de regresión
yi = β 0 + β 1 X1i + β 2 X2i + ui
con las hipótesis habituales, explicar como se contrasta
H0 :
H1 :
β1 = β2
β 1 6= β 2
56. Demostrar que en el modelo de regresión múltiple con k regresores y constante, el estadı́stico
que contrasta H0 : β 0 = β 1 = β 2 = · · · = β k = 0 frente a H1 : algún β i 6= 0, si H0 es cierta
es:
F =
n−k−1
Y TV Y
T
Y (I − V )Y k + 1
Fk+1,n−k−1
donde V = X(X T X)−1 X T e I es la matriz identidad de dimensión n × n.
57. En la tabla siguiente se muestra el resultado de un experimento para relacionar el calor
generado en el proceso de endurecimiento del 13 muestras de cemento en función de su
composición. Los regresores Xi corresponden al porcentaje de 4 componentes de la mezcla.
17
Fila
X1
7
1
11
11
7
11
3
1
2
21
1
11
10
1
2
3
4
5
6
7
8
9
10
11
12
13
Regresores
X2 X3 X4
26
6 60
29 15 52
56
8 20
31
8 47
52
6 33
55
9 22
71 17
6
31 22 44
54 18 22
47
4 26
40 23 34
66
9 12
68
8 12
Calor
Y
78.5
74.3
104.3
87.6
95.9
109.2
102.7
72.5
93.1
115.9
83.8
113.3
109.4
Modelo II
Residuo vii
-1.574 0.25
1.049 0.26
-1.515 0.12
-1.658 0.24
-1.393 0.08
4.048 0.11
-1.302 0.36
-2.075 0.24
1.825 0.18
1.362 0.55
3.264 0.18
0.863 0.20
-2.893 0.21
Modelo I
Parámetros
Constante
X1
X2
X3
X4
Estimación
62.4
1.55
0.51
0.10
-0.14
Modelo II
Desv. Tı́p.
Estimadas
70.1
0.74
0.72
0.75
0.71
t
0.89
2.08
0.70
0.13
-0.20
Parámetros
Constante
X1
X2
Fuentes
Grados
Lib.
Explic.
Residual
Total
2667.9
47.8
2715.7
4
8
12
t
23.0
12.1
14.4
Análisis de la Varianza
Análisis de la Varianza
Variabilidad
Estimación
52.6
1.46
0.66
Desv. Tı́p.
Estimadas
2.28
0.12
0.045
Var.
F
Fuentes
Variabilidad
667.0
5.98
111.5
Explic.
Residual
Total
2657.8
57.9
2715.7
Grados
Lib.
2
10
12
Var.
F
1328.9
5.8
229.5
En las tablas se proporcionan dos modelos de regresión lineal, con las estimaciones de los
parámetros, las desviaciones tı́picas estimadas de éstos y los estadı́sticos t de los contrastes
individuales. Debajo se incluyen las tablas de análisis de la varianza de cada modelo.
(a) Realizar los contrastes H0 : β i = 0 frente H1 : β i 6= 0 para los distintos parámetros en
los dos modelos. Realizar el contraste conjunto H0 : β 3 = β 4 = 0 frente H1 : alguno de
los dos es 6= 0. ¿Se puede concluir con éstos datos que X4 no influye significativamente
en el calor Y ?
(b) Estimar el modelo de regresión simple del calor Y y la variable explicativa X4 ¿Influye
significativamente X4 en el calor Y ? Analizar este resultado e interpretarlo teniendo
en cuenta el resultado del apartado anterior.
(c) En la tabla superior se muestran los residuos del modelo II y los elementos de la
diagonal de la matriz V = X(X T X)−1 X T . Indicar los residuos con mayor y menor
varianza, justificando la respuesta. Si se vuelve a repetir los experimentos en estas dos
18
condiciones, dar un intervalo para la predicción de los nuevos valores de la variable
dependiente (usar α = 0.05).
58. En un estudio de regresión simple con 35 observaciones ha resultado el siguiente modelo
ŷ = 0.12 + 7.6 log(x),
ŝR = 1.2,
R2 = 0.37
Obtener el intervalo de confianza al 95% para el parámetro de la pendiente e indicar si su
efecto es significativo.(El percentil 0.975 de la distribución t de Student con 33 grados de
libertad es 2.03)
59. Los datos siguientes corresponden a la pérdida (P) por abrasión en gr/h y su medida de
dureza (D) en grados Shore para 15 gomas de caucho de alta resistencia a la tensión (A) y
otras 15 gomas de caucho con resistencia a la tensión baja (B):
A
A
A
A
B
B
B
B
D
D
P
P
D
D
P
P
75
53
128
221
45
89
372
114
55 61 66 71 71 81 86
60 64 68 79 81 56
206 175 154 136 112 55 45
166 164 113 82 32 228
68 83 88 59 71 80 82
51 59 65 74 81 86
196 97 64 249 219 186 155
341 340 283 267 215 148
Escribir el modelo estadı́stico, indicar los parámetros y explicar el procedimiento de estimación para estudiar con estos datos simultáneamente el efecto de la dureza y de la resistencia a la tensión (alta o baja) en las pérdidas por abrasión. Indicar cómo contrastar con el
modelo propuesto que “las gomas de caucho con baja resistencia a la tracción tienen por
término medio mayor pérdida que las gomas con resistencia a la tracción baja.” (Nota.- No
se pide ningún cálculo numérico, los datos se presentan para ilustrar y describir el problema
de forma precisa).
60. Sea x1 la altura del tronco de un árbol y x2 el diámetro del mismo en su parte inferior. El
volumen y del tronco de árbol puede ser calculado aproximadamente con el modelo
yi = αx1i x22i + ui ,
según el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas
x1i , x2i , siendo α el parámetro (desconocido) de proporcionalidad, más una componente
de error aleatorio ui . La tabla siguiente contiene los datos (en metros y metros cúbicos)
correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.
19
Obs.
1
2
3
4
5
6
7
8
x1i
10,1
11,3
20,4
14,9
23,8
19,5
21,6
22,9
x2i
0,117
0,13
0,142
0,193
0,218
0,236
0,257
0,269
x1i x22i
0,14
0,19
0,41
0,56
1,13
1,09
1,43
1,66
yi
0,062
0,085
0,204
0,227
0,47
0,484
0,623
0,722
x1i
19,8
26,8
21
27,4
29
27,4
31,7
Obs.
9
10
11
12
13
14
15
x2i
0,297
0,328
0,351
0,376
0,389
0,427
0,594
x1i x22i
1,75
2,90
2,60
3,90
4,40
5,00
11,2
yi
0,821
1,280
1,034
1,679
2,073
2,022
4,630
(a) Estimar α por máxima verosimilitud suponiendo que las variables ui tienen distribución
normal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo
de predicción de su volumen (95% de confianza). La varianza residual del modelo es
0,0058.
(c) En el análisis de los residuos se observa que la varianza de los errores crece con el
volumen del tronco. Para obtener homocedasticidad se propone el siguiente modelo
transformado utilizando logaritmos neperianos,
log yi = β 0 + β 1 log x1i + β 2 log x2i + ui
El resultado de la estimación es:
Parámetro
β0
β1
β2
Estimación
-1,45
1,14
1,86


0, 1250
0, 0212 −0, 0317
cb =  0, 0212
0, 0082 −0, 0051 
M
β
−0, 0317 −0, 0051
0, 0042
y
cb = b
siendo M
s2R (X T X)−1 (X es la matriz de los regresores transformados según el
β
modelo) La transformación logarı́tmica del modelo inicial (αx1i x22i ) implicarı́a que β 1 =
1 y β 2 = 2. Contrastar (nivel de significación 0.05) si estos dos valores son aceptables.
(d) Con este modelo, dar un intervalo de predicción (95% de confianza) para el volumen
del tronco del apartado 2 si la varianza residual es 0,0031.
61. La cantidad máxima yi de cierto compuesto disuelta en un litro de agua a temperatura xi
sigue el modelo de regresión simple,
yi = β 0 + β 1 xi + ui ,
dónde ui cumple las hipótesis de normalidad, homocedasticidad (Var(ui ) = σ 2 ) e independencia. Una muestra de n disoluciones diferentes han proporcionado los valores (yi , xi ).
′
Además se han medido las cantidades disueltas y1′ , y2′ , ..., ym
en otra muestra de m disoluciones que se encontraban a la misma temperatura x0 . El valor x0 es desconocido. Estimar
por máxima verosimilitud los parámetros β 0 , β 1 , σ 2 y x0 utilizando las n + m observaciones.
20
62. Explicar en qué consiste el problema de la multicolinealidad en el modelo de regresión: cómo
se detecta, cómo se puede corregir y cuáles son sus efectos.
63. Ciertas propiedades del acero se mejoran sumergiéndolo a alta temperatura (T0 = 1525
o
F ) en un baño templado de aceite (t0 = 95 o F ). Para determinar la influencia de las
temperaturas del acero y del baño de aceite en las propiedades finales del material se han
elegido tres valores de la temperatura del acero y tres del baño de aceite,


 1450 o F
 70 o F
Temperatura acero (T ) 1525 o F
Temperatura aceite (t) 95 o F


o
1600 F
120 o F
y se han realizado los siguientes experimentos:
x1i
x2i
yi
0
0
0
0
-1
1
-1
0
0
0
0
-1
-1
1
49.2 49.4 47.0 49.5 28.2 88.6 54.9
1
0
0
-1
1
1
-1
1
0
0
31.3 59.2 43.6 41.9 58.0
dónde se ha utilizado la siguiente transformación (para simplificar cálculos)
x1i =
Ti − 1525
75
y
x2i =
ti − 95
.
25
Estimar el modelo de regresión
yi = β 0 + β 1 x1i + β 2 x2i + β 3 x1i x2i + ui
e indicar qué parámetros son significativos para nivel de significación 0.05, teniendo en
cuenta que la desviación tı́pica residual es b
sR = 9.6. Estimar y contrastar el modelo anterior
empleando las variables originales Ti y ti .
64. Se ha ajustado un modelo de regresión para estudiar el efecto de la velocidad de corte (x1 )
y el caudal de refrigerante (x2 ) en la duración (y) de una herramienta de corte. Las tres
variables se han transformado mediante el logaritmo neperiano y el modelo estimado ha sido:
log y
= 18, 30 − 5, 050 log x1
(1,65)
(0,19)
− 3, 750 log x2
(0,34)
(entre paréntesis se proporcionan las desviaciones tı́picas estimadas de los coeficientes estimados del modelo). El número de observaciones es 32 y la desviación tı́pica residual b
sR = 0, 24.
Obtener los intervalos de confianza (99%) para los tres parámetros de la ecuación de regresión. El coeficiente de determinación es R2 = 0, 96, realizar el contraste conjunto de los
parámetros correspondientes a las dos variables explicativas.
65. Se ha ajustado el siguiente modelo de regresión múltiple con una muestra de 86 vehı́culos, de
los cuales 31 son japoneses , 41 norteamericanos y 14 europeos, dónde la variable dependiente
es el consumo, y los regresores: Pot (potencia) está expresada en unidades de 100 Cv, el
21
Peso en Toneladas, ZJ toma el valor 1 si el coche es japonés y cero en los demás, y ZE toma
el valor 1 para los coches europeos y cero en los demás.
yb = 3.305 + 0.843 Pot + 3.829

4.791e − 1
 5.054e − 2

(X T X)−1 = 
 −3.794e − 1
 −9.157e − 2
−4.682e − 2
Peso + 0.440 ZJ + 1.127 ZE
sb2R = 0.506,
5.054e − 2 −3.794e − 1 −9.157e − 2
1.595e − 1 −1.931e − 1 −3.443e − 3
−1.931e − 1
4.646e − 1
5.210e − 2
−3.443e − 3
5.210e − 2
6.667e − 2
−1.262e − 2
2.865e − 2
2.744e − 2
R2 = 75.7%

−4.682e − 2
−1.262e − 2 

2.865e − 2 

2.744e − 2 
9.759e − 2
Dar el intervalo de confianza para el consumo previsto de un coche norteamericano con una
potencia de 120 Cv y 1600 Kg de peso.
66. El modelo de regresión múltiple que relaciona el calor generado en el proceso de endurecimiento (variable dependiente) de 13 muestras de cemento en función de su composición
x1 , x2 , x3 y x4 , es
ybi =
62.4 + 1.55 x1i + 0.51 x2i + 0.10 x3i − 0.14 x4i
(70.1)
(0.74)
(0.72)
(0.75)
(0.71)
(entre paréntesis la desviación tı́pica estimada de las estimaciones de los parámetros). Abajo
se proporciona el coeficiente de determinación R2 de los 15 modelos de regresión diferentes
que se obtienen según los regresores elegidos.
R2
Variables en el Modelo
53.3948
x1
66.6268
x2
28.5873
x3
67.4542
x4
97.8678
x1 , x2
54.8167
x1 , x3
97.2471
x1 , x4
84.7025
x2 , x3
68.0060
x2 , x4
93.5290
x3 , x4
98.2285
x1 , x2 , x3
98.2335
x1 , x2 , x4
98.1281
x1 , x3 , x4
97.2820
x2 , x3 , x4
98.2376
x1 , x2 , x3 , x4
¿Qué variables influyen significativamente en el calor generado? Justificar la respuesta. ¿Qué
modelo seleccionarı́as para predecir el calor generado?
67. Se desea estudiar la relación entre el sueldo de 100 personas, en función del número de
años que llevan trabajando y el sector al que pertenecen, pudiéndose dividir el sector en
22
S=servicios, I=industria, A=agricultura. Escribir el modelo de regresión entre el sueldo
(variable respuesta) y el resto de las variables. Se estima este modelo de regresión obteniendo
una varianza residual sb2R = 0.25. Con el objetivo de contrastar si el sector influye en el sueldo
se estima otro modelo de regresión que no contiene ninguna variable de sector, para este
′
modelo se obtiene una varianza residual b
sR2 = 0.4. Contrastar si el sector influye en el sueldo
que perciben los empleados (α = 0.05).
68. En un modelo de regresión múltiple Y = Xβ+U se realiza la transformación de los regresores
Z = XA, donde X es la matriz de los regresores, y A una matriz cuadrada de rango máximo.
Calcular la estimación de los coeficientes del nuevo modelo Y = Zβ N + U en función de los
antiguos.
10.64. (S-00) Se ha estimado el siguiente modelo de regresión entre la variable y y los regresores
x1 , x2 y x3 ,
ŷ = 61.1 + 46.1 log x1 + 83.1 log x2 + 27.9 log x3 ,
ŝR = 5.49
Teniendo en cuenta que el número de observaciones es

0.1939 −0.0892

−0.0892 0.1924
(X T X)−1 = 
 −0.0887 −0.0125
−0.1534 0.0010
n = 60 y que

−0.0887 −0.1534
−0.0125 0.0010 

0.2093 −0.0066 
−0.0066 0.2613
Dar un intervalo de confianza para los 4 parámetros de la ecuación de regresión y para la varianza
del modelo (α = 0.05).
69. Se ha estimado un modelo de regresión múltiple para explicar el consumo de combustible
de automóviles en función del peso, la potencia y el lugar de fabricación. La muestra es de
86 vehı́culos, de los cuales 31 son japoneses (J), 41 norteamericanos (N) y 14 europeos (E).
yb = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE ,
sb2R = 0.506, R2 = 75.7%


4.791e − 1
5.054e − 2 −3.794e − 1 −9.157e − 2 −4.682e − 2
 5.054e − 2
1.595e − 1 −1.931e − 1 −3.443e − 3 −1.262e − 2 


T
−1

−3.794e
−
1
−1.931e
−
1
4.646e
−
1
5.210e
−
2
2.865e
−
2
(X X) = 


 −9.157e − 2 −3.443e − 3
5.210e − 2
6.667e − 2
2.744e − 2 
−4.682e − 2 −1.262e − 2
2.865e − 2
2.744e − 2
9.759e − 2
La variable dependiente, el consumo, está medida en litros cada 100 km, Pot es la potencia
y está expresada en unidades de 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el coche
es japonés y cero en los demás, y ZE toma el valor 1 para los coches europeos y cero en
los demás. Realizar el contraste general de regresión y los contrastes individuales para el
modelo anterior. Interpretar el resultado.
70. En una muestra de 31 árboles se ha medido la altura (x1i ), el diámetro del árbol a un metro
de altura sobre el suelo (x2i ) y el volumen de madera del tronco (yi ) y se ha estimado el
siguiente modelo de regresión
log(yi ) = β 0 + β 1 log(x1i ) + β 2 log(x2i ) + ui .
Los resultados se muestran en las tablas siguientes:
23
Análisis de regresión múltiple
Variable dependiente: Log(Volumen)
Regresor
Estimación Desviación tı́pica Estadı́stico t Nivel crı́tico
Ordenada en el origen
-6,63162
0,79979
-8,2917
0,0
Log(Altura)
1,11712
0,20444
-5,4644
0,0
Log(Diámetro)
1,98265
0,07501
26,4316
0,0
Fuente
Modelo
Residual
Total
Análisis de la varianza
Suma de cuadrados G. de L. Varianzas Cociente F Nivel crı́tico
8,12323
2
4,06161
613,19
0,0
0,18546
28
0,00662
8,30869
30
Aproximando el volumen del árbol por el de un tronco cónico, el volumen debe ser proporcional
a kx1i x22i y tomando logaritmos
log(k) + log(x1i ) + 2 log(x2i ).
Realizar los siguientes contrastes de hipótesis con nivel de significación 0,05:
′
H0 : β 1 = 1
H0 : β 2 = 2
.
H1 : β 1 6= 1
H1′ : β 2 6= 2
71. Una medida crı́tica de calidad en la fundición de llantas de aluminio por inyección es la
porosidad. Se ha realizado un diseño 22 replicado (n = 16 experimentos) para analizar la
porosidad (Y ) en función de la temperatura (T ) del aluminio lı́quido y de la presión (P ) con
que éste se inyecta al molde. El modelo obtenido ha sido
ŷ
= 2.84 +
0.59 T
- 0.031 P
- 0.22 T P
y ŝR = 0.137 . Indica qué efectos son significativos (α = 0.05) y las condiciones óptimas de
fabricación
72. En la tabla siguiente se presenta la estimación de la regresión entre el resultado en la prueba
del salto de longitud de 34 atletas y los tiempos de estos mismos atletas en las pruebas de
100 metros lisos, 110 metros valla, 400 metros y 1500 metros.
Constante
X1 (100 m)
X2 (110 m)
X3 (400 m)
X4 (1500 m)
Coeficientes
b
β
Desv. T.
i
17.9
2.12
-.462
.266
-.181
.124
-3.39E-02
.070
-4.47E-03
.004
t
p-valor
8.45
0.000
-1.73
0.093
-1.45
0.155
-.485
0.631
-1.03
0.312
La variabilidad total de los datos es 4.613, la variabilidad explicada 2.199 y la variabilidad
residual 2.413. Realizar el contraste general de regresión, e interpretar el resultado del
contraste y los contrastes individuales de la tabla.
24
Descargar