Prácticas y problemas de regresión lineal m[ltiple.

Anuncio
Capítulo 1
Prácticas y problemas de regresión
lineal múltiple.
1.1.
Problemas de regresión lineal múltiple con ordenador.
Problema 5.1.
“El …chero problema-5-1 contiene datos relativos a variables de coches. Se pide:
1. Ajustar un modelo de regresión múltiple con variable respuesta “millas por galón”
(inversa del consumo) y regresoras: precio, peso y desplazamiento.
2. ¿Son todas las variables signi…cativas (contraste invidual de la t)?
3. ¿Cuál es el coe…ciente de determinación?, ¿cuál es el coe…ciente de correlación múltiple?
4. Tabla ANOVA. ¿Qué conclusiones se obtienen de esta tabla (contraste conjunto de la
F )? ¿qué indican los contrastes individuales de la F ? ¿estos contrastes tienen alguna
relación con los contrastes inviduales de la t?
5. Analizar los residuos del modelo ajustado: estudio descriptivo y grá…co de los residuos. ¿Se veri…can las hipótesis del modelo (homocedasticidad, normalidad)? ¿mejora
el modelo si se introduce la variable “aceleración”?
6. ¿Qué indican los grá…cos de efectos de las componentes?
7. Analizar la hipótesis de multicolinealidad.
8. Analizar la hipótesis de independencia.
9. Repetir este mismo problema pero utilizando solamente los datos relativos a coches
de origen USA, ¿Cambian las conclusiones de los apartados anteriores?”
1
2
Modelos estadísticos aplicados. Juan Vilar
Desarrollo del Problema 5.1.
Utilizando el Statgraphics se utiliza el siguiente módulo que proporciona un análisis
muy completo con mucha información:
dependencia > regresion multiple
Los resultados del apartado resumen del procedimiento permite responder a las
preguntas de los cuatro primeros apartados de este problema:
? Proporciona el modelo estimado y la tabla ANOVA, se deduce que todas las variables
son signi…cativas y el contraste conjunto de la F indica que el modelo es signi…cativo.
? Calcula los coe…cientes de determinación y correlación.
? Obtiene el contraste de Durbin-Watson que indica que la primera autocorrelación de
los residuos es cero.
En el apartado informes se obtienen los valores de las predicciones y de los residuos.
Si se quieren calcular predicciones para un valor de x
~ determinado se debe introducir este
vector como un dato muestral (sin Y ).
En el apartado residuos atipicos se observa que las observaciones 145 y 147 presentan
residuos altos.
En el apartado puntos influyentes se pueden estudiar las observaciones que pueden
ser in‡uyentes en el cálculo del modelo.
Este módulo proporciona muchos grá…cos de interés:
? Los grá…cos de efectos de las componentes indican la importancia de las tres regresoras.
? Los diferentes grá…cos de residuos permiten obtener conclusiones acerca de las hipótesis del modelo.
La hipótesis de multicolinealidad puede estudiarse en:
El apartado matriz de correlaciones valores grandes de esta matriz (valores
fuera de la diagonal próximos a 1) indican la posible existencia de multicolinealidad.
La matriz de correlaciones de las variables regresoras R; puede calcularse en el
apartado (también se obtiene la matriz de correlaciones parciales y un grá…co matricial)
descripcion > datos numericos > analisis multidimensional.
En todo caso es conveniente calcular la diagonal de R 1 y el índice de condicionamiento de R:
Se guardan las predicciones y los residuos estandarizados y/o estudentizados y se
pueden estudiar las hipótesis de normalidad, homocedasticidad e independencia.
? Utilizando los residuos estandarizados la normalidad se estudia en el módulo:
descripcion > distribuciones > ajuste de distribuciones (datos no
censurados)
Prácticas y problemas de regresión lineal múltiple.
3
? También es de interés el grá…co de normalidad
graficos > graficos exploratorios > grafico probabilistico
La hipótesis de homocedasticidad se puede observar:
? En el grá…co de residuos frente a predicciones.
? Un estudio más completo sobre esta hipótesis se puede hacer como sigue: se ordena
el …chero según las predicciones de menor a mayor; se hacen clases (cada una de tamaño
aproximado a diez) y se utiliza el modelo de diseño de experimentos de una vía siendo la
variable dependiente “los residuos” y el factor “las clases” creadas; entonces utilizar los
contrastes de homocedasticidad de este modelo.
? El ajuste de las desviaciones típicas de los residuos estandarizados en cada clase
frente a la media de las predicciones es útil para estudiar la homocedasticidad, además
indica la forma de transformar el modelo si se supone que hay heterocedasticidad.
? Si se sospecha que la heterocedasticidad puede ser causada por una regresora se
puede repetir el análisis anterior pero haciendo residuos frente a regresora en lugar de
frente a las predicciones.
La hipótesis de independecia se estudia en el módulo
avanzado > analisis series temporales > metodos descriptivos
Problema 5.2.
“Con los datos del …chero problema-5-1 estudiar la regresión de la variable respuesta
“millas por galón” (inversa del consumo) respecto a las variables regresoras: precio, peso,
desplazamiento, potencia (caballos de vapor) aceleración y número de cilindros.
1. Utilizando el algoritmo de “regresión paso a paso”obtener las regresoras que deben
entrar en el modelo.
2. Utilizando diferentes medidas de bondad de ajuste indicar el mejor modelo de regresión.
3. Trabajando con el modelo de regresión lineal seleccionado en el apartado anterior
¿los estimadores contraídos proporcionan mejores resultados que los estimadores por
mínimos cuadrados?
4. Introduciendo algún término cuadrático ¿se puede mejorar el modelo de regresión
lineal?
5. Estudiar el modelo de regresión lineal simple de la variable respuesta “millas por
galón” respecto al “peso” pero teniendo en cuenta el “origen” (variables atributo o
dumping) ”.
4
Modelos estadísticos aplicados. Juan Vilar
Desarrollo del Problema 5.2.
Utilizando el opciones del analisis se calcula la regresión “paso a paso”en el módulo
dependencia > regresion multiple
Para seleccionar un modelo de regresión utilizar el análisis
avanzado > regresion avanzada > seleccion del modelo de regresion
El estudio de la regresión contraída (ridge regression) se hace en el módulo
avanzado > regresion avanzada > regresion en cadena
El apartado 5 es un problema de regresión lineal con una variable regresora atributo
y se estudia en el apartado
avanzado > regresion avanzada > comparacion de rectas de regresion
Introduciendo en el campo “codes level=origin” y en la ventana de resultados del
opciones del analisis se puede elegir si las rectas ajustadas tienen igual pendiente y/o
constante según submuestra.
Problema 5.3. (Regresion No Lineal)
“En el …chero Problema-5-3 contiene 44 datos de dos variables relativas a la cantidad
de cloro presente en unas muestras de agua sometidas a un proceso químico en relación
con el tiempo transcurrido medido en semanas.
1.
Dibujar el grá…co de la nube de observaciones y calcular el ajuste lineal o linealizable
que explique la variable Y =“Cloro” como función de la variable X =“Semanas”
(tiempo).
2.
Utilizando el algoritmo iterativo de Kalman ajustar por mínimos cuadrados la función de regresión
Y =
1
+ 00 49
1
exp (
2 (X
8)) ;
siendo los valores iniciales de los parámetros: 1 = 00 2 y 2 = 00 3, estos valores son
necesarios para comenzar el algoritmo. Representar la nube muestral y la función de
regresión no lineal estimada. ¿Es bueno el ajuste obtenido?”
Desarrollo del Problema 5.3.
Los problemas de regresión no lineal se estudian en el módulo
avanzado > regresion avanzada > regresion no lineal
Los resultados que calcula este módulo son similares a los que se obtienen en el ajuste
de un modelo de regresión lineal.
Prácticas y problemas de regresión lineal múltiple.
1.2.
5
Problema resuelto de regresión lineal múltiple.
Problema 5.4. “Se quiere ajustar un modelo que permita estimar los gastos en alimentación de una familia (Y ) en base a la información que proporcionan las variables
regresoras X1 =ingresos mensuales y X2 =número de miembros de la familia. Para ello
se recoge una muestra aleatoria simple de 15 familias cuyos resultados son los de la tabla
adjunta. (El gasto e ingreso está dado en cientos de miles de pesetas)”
Gasto
00 43
00 31
00 32
00 46
10 25
00 44
00 52
00 29
Ingreso
20 1
10 1
00 9
10 6
60 2
20 3
10 8
10 0
Tamaño
3
4
5
4
4
3
6
5
Gasto
10 29
00 35
00 35
00 78
00 43
00 47
00 38
Ingreso
80 9
20 4
10 2
40 7
30 5
20 9
10 4
Tamaño
3
2
4
3
2
3
4
Solución Problema 5.4.
Los datos en forma matricial:
0
B
B
B
B
B
B
B
B
B
B
B
B
B
B
Y=B
B
B
B
B
B
B
B
B
B
B
B
B
B
@
00 43
00 31
00 32
00 46
10 25
00 44
00 52
00 29
10 29
00 35
00 35
00 78
00 43
00 47
00 38
0
1
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
C = X~ + ~
"=B
B
C
C
B
B
C
B
C
C
B
B
C
B
C
B
C
B
C
B
C
B
C
B
C
B
C
@
A
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
20 1
10 1
00 9
10 6
60 2
20 3
10 8
10 0
80 9
20 4
10 2
40 7
30 5
20 9
10 4
Con estos datos se obtiene
n = 15;
P
P
x1i = 42;
x21i = 1880 08;
P
P
x2i = 55;
x1i x2i = 1400 80;
P
x22i = 2190 00;
3
4
5
4
4
3
6
5
3
2
4
3
2
3
4
1
C
C
C
C
C
C
C
C
C
C
C0
C
C
CB
C@
C
C
C
C
C
C
C
C
C
C
C
C
C
A
0
1
2
P
P
P
1
C
"
A+~
yi = 80 070;
yi x1i = 320 063;
yi x2i = 280 960:
6
Modelos estadísticos aplicados. Juan Vilar
Por tanto
0
De donde
1
15 420 00 550 00
B
C
S = Xt X = @ 42 1880 08 1400 80 A
55 1400 80 2190 00
0
1
80 070
B
C
T = @ 320 063 A :
280 960
1
15 420 00 550 00
C
B
~ = S 1 T = @ 42 1880 08 1400 80 A
55 1400 80 2190 00
0
~ =S
1
0
B
T=@
10 360
00 092
00 282
1
80 070
C
B 0
@ 32 063 A =
280 960
10
1 0
10
00 282
80 070
CB
C B
00 013 A @ 320 063 A = @
00 067
280 960
00 092
00 016
00 013
El modelo de regresión lineal que se obtiene es:
Gasto =
1
00 160
C
00 149 A
00 077
00 160 + 00 149 Ingreso + 00 077 T ama~
no + error:
A partir de esta ecuación se obtienen las predicciones y los residuos asociados a las
observaciones muestrales.
Para la primera observación (x1 = 20 1; x2 = 3; y = 00 43) se obtiene
y^1 =
00 160 + 00 149 20 1 + 00 077 3 = 00 3839;
e1 = y1
y^1 = 00 43
00 3839 =
00 0461:
Razonando así en todos los puntos muestrales se obtienen
y residuos:
Predicciones
Residuos
0
0
0
0
0 38 0 41 0 33
0 046
00 028
00 31 00 57 00 77
00 001
00 048
00 36 00 37 00 51
00 038
00 083
00 39 10 39 00 50
00 075
00 104
0
0
0
0
1 07 0 35 0 36
0 180
00 000
Se calcula la scR
scR =
X
las siguientes predicciones
00 024
00 011
00 084
00 032
00 025
e2i = 00 0721
s^2R = 00 0060 ) s^R = 00 0775
Una forma más fácil de calcular la scR es la siguiente
X
X
X
~ t Y ^ t Xt Y =
~
et ~
e = Y
yi2
yi
yi x1i
0
1
0
= 5 7733
0
0 160
0
8 070
0
0
0 149 32 063
0
2
0
X
0 077 28 960:
yi x2i =
Prácticas y problemas de regresión lineal múltiple.
7
Intervalos de con…anza de los parámetros del modelo al 90 %,
2;
Para la varianza
(k + 1)) s^2R
(n
2
n (k+1)
2
2
12
00 05
00 072
= 50 2253
12 00 0060
2
12 ;
2
210 0298 =
2
00 072
210 0298
00 0034 =
)
2
12
00 95 ;
00 072
= 00 0138:
50 2253
2
Varianza de los estimadores del modelo,
V ar (^ ) =
10 360
00 092
00 282
B
00 0060 @
1
Xt X
2
0
1
00 282
C
00 013 A ;
00 067
00 092
00 016
00 013
de donde
V ar (^ 0 ) = s^2R q00 = 00 0060 10 360 = 00 00816 )
(^ 0 ) = 00 0903;
V ar (^ 2 ) = s^2R q22 = 00 0060 00 067 = 00 00040 )
(^ 2 ) = 00 0201:
V ar (^ 1 ) = s^2R q11 = 00 0060 00 0166 = 00 000099 )
Intervalo de con…anza para
0;
^0
0
p
s^R q00
t12 00 05
00 0903
tn
00 160
Intervalo de con…anza para
1
^1
1
p
s^R q11
t12 00 05
00 0099
(k+1)
00 160
00 321 =
(^ 1 ) = 00 0099
00 149
00 1314 = 00 149
00 160
00 0903
)
t12 00 95
0
0
0 161
0
t12 ;
00 0903 = 10 783 00 0903 = 00 161;
00 160 + 00 161 = 00 001:
0
(ingreso),
tn
1
0
(k+1)
)
00 149
00 0099
t12 00 95
0 0176
1
1
t12 ;
00 0099 = 10 783 00 0099 = 00 0176;
00 149 + 00 0176 = 00 1666:
8
Modelos estadísticos aplicados. Juan Vilar
Contraste individual de la t; H0
t^1 =
^1
p
s^R q11
tn
1
(k+1)
= 0; “la variable ingreso no in‡uye”.
) t^1 =
00 149
= 150 050
00 0099
t12 ;
p1 = 00 000 ) Se Rechaza H0 :
Intervalo de con…anza para
2
(tamaño)
^2
2
2 tn
p
s^R q22
t12 00 05
00 0201
00 077
(k+1)
Contraste individual de la t; H0
^2
p
s^R q22
tn
00 077
00 0201
t12 00 95
2
0
00 0412 = 00 077 + 0 0358
t^2 =
)
(k+1)
;
00 0201 = 10 783 00 0201 = 00 0358;
00 077 + 00 0358 = 00 1128:
2
2
2
= 0; “la variable tamaño no in‡uye”.
) t^2 =
00 077
= 30 831;
00 0201
p2 = 00 0012 ) Se Rechaza H0 :
Cálculo de la tabla ANOVA
scG =
de donde
scE = scG
X
(yi
scR ==
y)2 = 10 4316;
X
(yi
y^i )2 = 10 3595:
Tabla ANOVA
Fuentes de
variación
scE (por el modelo)
scR (Residual)
scG ( Global)
Suma de
cuadrados
Grados
libertad
10 3595
00 0721
10 4316
2
12
14
Varianzas
s^2e = 00 6797
s^2R = 00 0060
s^2y = 00 1023
Contraste conjunto de la F, con estos datos se obtiene
s^2
00 6797
F^M = 2e = 0
= 1130 28
0 0060
s^R
F2;12 ) pc = 00 0000:
El contraste conjunto de la F indica claramente la in‡uencia del modelo en la respuesta. Por tanto, de los contrastes individuales y del conjunto se deduce la in‡uencia
de cada una de las dos regresoras y la in‡uencia conjunta del modelo.
Prácticas y problemas de regresión lineal múltiple.
9
Contraste individual de la F:
Se calcula el contraste individual de la F respecto a la variable x2 =“tamaño”, este
contraste es equivalente al contraste individual de la t.
Se obtiene la regresión de la variable gasto respecto a la variable ingreso,
gasto =
870 124 + 10 543 ingreso.
La tabla ANOVA de este modelo es
Tabla ANOVA
Fuentes de
variación
Suma de
cuadrados
10 2716
00 1600
10 4316
scE (ingreso)
scR (Residual)
scG (Global)
Grados de
libertad
Varianzas
s^2e = 10 2716
s^2R (1) = 00 0123
s^2y = 00 1022
1
13
14
La variabilidad incremental debida a la variable diámetro es
4V E (tama~
no) = V E (2)
V E (ingreso) = 10 3595
10 2716 = 00 0879;
este valor indica lo que aumenta la variabilidad explicada por el modelo al introducir
la variable tamaño.
Para contrastar la in‡uencia de esta variable se utiliza el estadístico
4V E (x2 )
00 0879
1
=
F^2 =
= 140 65
00 0060
s^2R (k)
F1;12 ) p = 00 001:
Este contraste proporciona el mismo p valor que el contraste individual de la t salvo
problemas de redondeo.
Coe…cientes de correlación:
Coe…ciente de determinación,
R2 =
scE
10 3595
= 0
= 00 9496 ) 940 96 % de scG:
scG
1 4316
Coe…ciente de correlación múltiple,
p
R = 00 9496 = 00 9745:
Coe…ciente de determinación corregido por los grados de libertad,
R2 = 1
s^2R
=1
s^2Y
00 0060
= 940 13 ) 940 13 % de scG:
00 1023
p
R = 00 9413 = 00 9702:
10
Modelos estadísticos aplicados. Juan Vilar
Coe…ciente de correlación simple entre las variables gasto e ingreso,
(gasto; ingreso) =
Cov (gasto; ingreso)
= 00 9424:
(gasto) (ingreso)
Este coe…ciente es una medida de la relación lineal existente entre las variables gasto
e ingreso.
Este coe…ciente también se puede calcular a partir del coe…ciente de determinación
de la siguiente regresión
gasto =
870 124 + 10 543 ingreso.
La tabla ANOVA del modelo es
Tabla ANOVA
Fuentes de
variación
Suma de
cuadrados
Grados de
libertad
10 2716
00 1600
10 4316
1
13
14
scE (ingreso)
scR (Residual)
scG ( Global)
R2 =
Varianzas
s^2e = 10 2716
s^2R (1) =
00 0123
s^2y = 00 1022
scE
10 2716
= 0
= 00 8882 ) R = (gasto; ingreso) = 00 9424:
scG
1 4316
Análogamente el coe…ciente de correlación simple entre gasto y tamaño es,
(gasto; tama~
no) =
Cov (gasto; tama~
no)
=
(gasto) (tama~
no)
00 1265:
Coe…ciente de correlación parcial entre las variables gasto e ingreso t^ingreso = t^1 .
2
r (gasto; ingreso; tama~
no)
=
=
t^2ingreso
t^2ingreso + n
(k + 1)
150 0502
= 00 9496
150 0502 + 12
) r (gasto; ingreso; tama~
no) = 00 974:
Otra forma más compleja de calcular este coe…ciente es la siguiente: se calculan las
siguientes regresiones simple y se guardan los residuos egasto:tama~no y eingreso:tama~no :
Gasto
= 00 6713
00 0363 tamaño + egasto:tama~no :
Ingreso
= 50 5923
07615 tamaño + eingreso:tama~no :
Prácticas y problemas de regresión lineal múltiple.
11
El coe…ciente de correlación parcial entre las variables gasto e ingreso se obtiene como
el coe…ciente de correlación simple entre las variables egasto:tama~no y eingreso:tama~no
r (gasto; ingreso; tama~
no) =
=
(egasto:tama~no ; eingreso:tama~no )
Cov (egasto:tama~no ; eingreso:tama~no )
= 00 9740:
(egasto:tama~no ) (eingreso:tama~no )
Este coe…ciente mide la relación entre gasto e ingreso libres de la in‡uencia de la
variable tamaño.
Análogamente se obtiene
r (gasto; tama~
no; ingreso) = (egasto:ingreso ; e:tama~no:ingreso ) = 00 7412:
Estimación de la media condicionada.
“Estimar el gasto medio en alimentación de una familia con unos ingresos de
xt1 = 30 0 y un tamaño de xt2 = 4: Esto es (~xt = (xt1 ; xt2 ) = (30 0; 4)) ”.
Del modelo de regresión estimado se obtiene
m(3
^ 0 0; 4) = m
^ t = ^ 0 + ^ 1 xt1 + ^ 2 xt2 =
00 160 + 00 149 30 0 + 00 077 4 = 00 595:
=
El valor de in‡uencia asociado al dato ~xt = (xt1 ; xt2 ) = (30 0; 4) es
htt
=
=
1
~xtt X t X
~xt
1 30 0 4
) nt =
1
00 07649
0
B
@
10 360
00 092
00 282
00 092
00 016
00 013
= 130 073:
10
1
00 282
1
CB
C
00 013 A @ 30 0 A = 00 07649
00 067
4
La varianza del estimador m
^ t es
V ar (m
^ t ) = s^2R htt = 00 0060 00 07649 = 00 00046 )
(m
^ t ) = 00 0214:
Y un intervalo de con…anza para mt al 90 % es
mt 2 00 595
t12 00 95
00 0214 = 00 595
00 038 = 00 557; 00 633 :
12
Modelos estadísticos aplicados. Juan Vilar
Predicción de una observación.
“La familia Pérez que tiene unos ingresos de xt1 = 30 0 y un tamaño de xt2 = 4:
Esto es (~xt = (xt1 ; xt2 ) = (30 0; 4)) ¿qué gasto en alimentación tendrá?”.
Utilizando el modelo de regresión estimado la predicción es
y^(30 0; 4) = ^ 0 + ^ 1 x1 + ^ 2 x2 = 00 595:
La varianza de la predicción es
V ar (^
yt )
=
)
s^2R (1 + htt ) = 00 0060
1 + 00 07649 = 00 0065
(^
yt ) = 00 0803:
Un intervalo de predicción al 90 % para yt es
yt 2 00 595
t12 00 95
00 0803 = 00 595
00 143 = 00 452; 00 738 :
Algunos grá…cos de interés que ayudan a resolver el problema son los grá…cos parciales de las componentes que sirven para observar la in‡uencia de las regresoras (Figuras
5.1. y 5.2.) y los grá…cos de residuos que se utilizan para chequar que se veri…can las hipótesis estructurales del modelo, dos de ellos (frente a ingreso y frente a índice) se representan
en las Figuras 5.3. y 5.4.
Figura 5.1. Grá…co parcial de ingreso.
Prácticas y problemas de regresión lineal múltiple.
Figura 5.2. Grá…co parcial de tamaño.
Figura 5.3. Grá…co de residuos frente a ingreso.
Figura 5.4. Grá…co de residuos frente a índice.
13
14
Modelos estadísticos aplicados. Juan Vilar
1.3.
Resumen de los modelos de regresión lineal.
Las principales fórmulas de los modelos de regresión lineal simple y múltiple se presentan en la tabla adjunta.
R. L. Simple
yi =
+
0
1 xi
R. L. Múltiple
yi = 0 + 1 xi1 + 2 xi2 +
+ : : : + k xik + "i
+ "i
Modelo
~ =
Y
1
0~
~ +~
"
+
1X
~ = X ~ + ~"
Y
sXY
^1 = 2
sX
Estimación
^0 = y
N
1;
0;
Xt X
1
(normal multivariante)
2
N
2
N ~;
~
ns2x
Propiedades
^0
Xt Y
^1 x
2
^1
1
^ = Xt X
1+
n
x2
^i
s2x
N
Predicción
^ = ^ 0~
~
Y
1 + ^ 1X
y^i
~
~
e=Y
^
Y
2q
ii
y^i = ^ 0 + ^ 1 xi1 + ^ 2 xi2 +
+ : : : + ^ k xik
y^i = ^ 0 + ^ 1 xi
ei = yi
i;
^ =X ^
Y
ei = yi y^i
Residuos
Varianza
Estimada
n
2
Pn
2
i=1 ei
n^ 2M V
Propiedades
s^R
Interv. de
Con…anza
!1 =
s
0
1
n
x2
1+ 2
sx
1
s^R
(n
^
Y
Pn 2
1
i=1 ei
(k + 1)
n
(k + 1)) s^2R
2
n (k+1)
2
^0
^1
s^2R =
2
n 2
2
!0 =
Contraste F
1
s^2R =
~
~
e=Y
p
sx n
s^2
F^R = 2e
s^R
Fk;n
tn
2
!i =
tn
2
^i
i
p
s^R qii
tn
(k+1)
2
s^2
F^M = 2e
s^R
Fk;n
(k+1)
Prácticas y problemas de regresión lineal múltiple.
1.4.
15
Problemas propuestos de regresión lineal múltiple.
Problema 5.5. “Se realiza un experimento para determinar la duración de vida de
ciertos circuitos electrónicos (Y ) en función de dos variables de fabricación (X1 ) y (X2 ),
con los siguientes resultados:
Y
X1
X2
11
10
0
8
0
5
73
10
5
21
10
0
46
0
5
30
10
5
1. Ajustar un modelo de regresión lineal.
2. Calcular el coe…ciente de determinación y la varianza residual. ¿Es el ajuste adecuado?
3. Construir un intervalo de con…anza al 90 % para la predicción en el punto (0; 0).
Problema 5.6. “Los datos de la tabla adjunta indican la gravedad especí…ca (X1 ),
contenido de humedad (X2 ) y fuerza (Y ) de diez vigas de madera. Encontrar el modelo
de regresión que mejor se ajusta a estos datos”.
Y
X1
X2
110 14
00 99
110 1
120 74
00 558
80 9
130 13
00 604
80 8
110 51
00 441
80 9
120 38
00 550
80 8
120 60
00 528
90 9
110 13
00 418
100 7
110 70
00 480
100 5
110 02
00 406
100 5
110 41
00 467
100 7
Problema 5.7. “En la tabla adjunta se presenta un indicador provincial global de
consumo (Y ) el número de automóviles por mil habitantes (X1 ) y el número de teléfonos
por mil habitantes (X2 ) en ocho provincias españolas. Estudiar un modelo explicativo que
relacione el indicador global con los dos indicadores de consumo (datos de 1974)”.
Provincia
Y
X1
X2
Avila
64
58
111
Palenc
778
84
131
Segov
83
78
158
Burgos
88
81
147
Soria
89
82
121
Vallad
99
102
165
Logroño
101
85
174
Santan
102
102
169
Problema 5.8. “La demanda de un tipo de impresoras ha cambiado debido a una
rápida variación en el precio. Se ha observado la demanda (Y ) en una amplia región
geográ…ca y el precio unitario (X) (en unidades de diez mil pesetas). Los resultados son
los de la tabla adjunta. Ajustar un polinomio de regresión a estos datos que explique el
comportamiento de la demanda”.
Y
X
Y
X
360
80 8
121
130 2
305
90 7
83
140 8
230
90 9
122
150 8
242
100 3
91
170 4
180
110 0
105
180 2
172
120 5
16
Modelos estadísticos aplicados. Juan Vilar
Problema 5.9. “El …chero problema-5-9 contiene datos relativos a veinticuatro
países. El …chero consta de las siguientes variables referidas a cada país:
- Coches: Número de coches por persona.
- Pob: Población en millones de personas.
- Den: Densidad de población.
- Ingresos: Ingresos per capita en dólares U.S.A.
- Gasol: Precio de la gasolina en centavos U.S.A. por litro.
- Consumo: Toneladas de gasolina consumida por coche al año.
- Pasaj: Miles de pasajeros-kilómetros por persona que usan bús o tren.
- País: País al que se re…eren los datos de la …la.
Se quiere ajustar un modelo de regresión múltiple que explique la variable coches en
función de las variables explicativas: pob, den, ingresos, gasol, consumo y pasaj.”
Problema 5.10. “El …chero problemas-5-10 contiene datos relativos a partidos de
la liga ACB de baloncesto. Los datos son de 62 jugadores al azar del total y han sido
obtenidos de la Guía O…cial de la Liga 1989-1990 de la ACB (Asociación de Clubs de
Baloncesto). En base a esta muestra se desea estudiar si existe una relación lineal entre la
variable puntos por partido (punt part) que es capaz de anotar un jugador de baloncesto
respecto a las siguientes regresoras:
- La altura del jugador (altura).
- Los minutos que juega por partido (min part).
- Los balones que pierde por partido (bp part).
- Las faltas personales cometidas por partido (fp part).
- El porcentaje en tiros de campo por partido (porcentaje obtenido de los tiros de dos
y tres puntos conseguidos e intentados) (por_tc).
En base a estos datos:
1. Ajustar un modelo de regresión sin excluir ninguna variable e interpretar el resultado.
¿Es el ajuste bueno?
2. Analizar la hipótesis de multicolinealidad para el modelo anterior.
3. En el modelo ajustado ¿Cuáles son las observaciones atípicas y/o in‡uyentes?
4. ¿Existe un modelo de regresión lineal más adecuado?
5. ¿Es aconsejable utilizar un ajuste no lineal? Justi…car la respuesta.
6. Analizar los residuos del modelo que se considere más adecuado.”
Problema 5.11. “El …chero problema-5-11 contiene datos relativos a 60 observaciones de datos del Mercado Financiero Canadiense (de septiembre del 77 a diciembre del
80). Se han considerado las siguientes variables:
- Bankcan: activos del Banco de Canadá.
- Trsbill: intereses de las Letras del Tesoro a 90 días.
Prácticas y problemas de regresión lineal múltiple.
17
- CPI: índice de precios al consumo.
- Usspot: razón de cambio Canadá/USA.
- Usforw: razón de cambio a un mes Canadá/USA.
Se quiere estudiar el modelo de regresión lineal múltiple de la variable de interés Trsbill
frente a las otras cuatro variables regresoras. Se pide:
1. Calcular el modelo de regresión lineal múltiple.
2. Estudio de la multicolinealidad del modelo.
3. Estudio de las observaciones in‡uyentes y atípicas.
4. Análisis de residuos. ¿Se veri…can las hipótesis del modelo?
5. Encontrar un ajuste que mejore al modelo de regresión lineal obtenido.”
Problema 5.12. (Observaciones in‡uyentes y datos atípicos) “Con los datos
de la tabla adjunta se construyen tres conjuntos de datos. El primero consta de los casos
1 a 9 repetidos tres veces cada uno y añadiendo el caso 28(A). El segundo está formado
por los casos de 1 a 9 repetidos tres veces y, adicionalmente, el caso 28(B). Finalmente, el
tercero se construye de igual manera pero con la observación adicional 28(C). Por tanto,
estos tres conjuntos tienen 27 datos iguales y uno diferente. Estudiar las regresiones de los
tres conjuntos y examinar las observaciones in‡uyentes y atípicas”.
Caso
x1
x2
y
1
2
6;5
1;5
2
0
7;3
0;5
3
2
8;3
1;6
4
4
6;0
3;9
5
3
8;8
3;5
6
1
8;0
0;8
7
3
5;9
2;7
8
1
6;9
1;3
9
4
9;5
4;1
A
0
7;2
5
B
3
9
1;5
C
3
7;3
4
Problema 5.13. “Se ha realizado un experimento para investigar como la resistencia
del corcho al rozamiento se ve afectada por la dureza del corcho y la fuerza tensorial. Para
ello se han testado treinta muestras de corcho de las que se ha calculado la dureza (en
grados Shore, a mayor número mayor dureza) y la fuerza tensorial (medidos en Kgr por
cm2 ).
Las muestras de corcho eran sometidas a un rozamiento continuo por un período de
tiempo …jo y después se medía la pérdida de peso de corcho en gramos por hora. Los datos
obtenidos en este experimento se encuentran en el …chero problema-5-13, en base a
ellos:
1.
Analizar la relación lineal de la variable de interés, peso de corcho perdido, con las
dos variables explicativas.
2.
Analizar las hipótesis del modelo ”.
18
Modelos estadísticos aplicados. Juan Vilar
Problema 5.14. “El …chero problema-5-14 contiene datos de contaminación atmosférica en 41 ciudades de EEUU en los años 1969-71 . La variable de interés es Y =“contenido
de SO2 en el aire en microgramos por metro cúbico”. Se desea estudiar la relación de Y
con seis variables regresoras, dos relativas a ecología humana y cuatro al clima. Son la
siguientes:
X1 =“temperatura media anual en grados Farenheit”.
X2 =“número de fábricas con más de 20 empleados”
X3 =“número de habitantes, en miles”
X4 =“Velocidad media del viento al año en millas por hora”
X5 =“precipitación media anual en litros por pulgada”
X6 =“número medio de días con lluvia al año”
El objetivo del estudio es encontrar un modelo de regresión múltiple que explique
adecuadamente el comportamiento de la variable Y ”.
Problema 5.15. “El …chero problema-5-15 contiene datos de seis variables de 22
aviones de combate de EEUU. Las variables estudiadas son las siguientes:
F F D=“…rst ‡ight date, fecha del primer vuelo en meses después de Enero de 1940”
SP R=“speci…c power, potencia especí…ca proporcional a la potencia por unidad de
peso”
RGF =“‡ight range factor, factor de rango de vuelo”
P LF =“payload como una fracción del peso bruto del avión”
SLF =“factor de carga sostenido”
CAR=“una variable binaria que vale 1 si el avión puede aterrizar en un portaviones y
0 en otro caso”
El objetivo del estudio es encontrar un modelo de regresión múltiple que explique el
comportamiento de la variable de interés F F D o una transformada de la misma (por
ejemplo, tomar logaritmos) como una función del resto de variables.
Tener en cuenta la presencia de la variable atributo CAR; interpretar el modelo resultante al introducir esta variable”.
Problema 5.16. “Algunas veces es necesario bajar la presión sanguínea de un paciente durante una intervención quirúrgica utilizando un fármaco hipotensivo. El …chero
problema-5-16 contiene datos relativos a la utilización de un determinado fármaco en 53
enfermos. En cada uno de ellos se ha medido el tiempo en minutos antes de que la presión
sistólica sanguínea del paciente vuelva a los 100 mm (TR es el tiempo de recuperación), el
logaritmo de la dosis de fármaco en miligramos (LD) y la presión media sistólica sanguínea
del paciente mientras el fármaco hacía efecto (PM). ¿Qué relación existe entre la variable
TR y las otras dos variables?”.
Problema 5.17. “El …chero problema-5-17 contiene datos del fósforo encontrado
en 18 muestras de aceite tomadas a 20o . La variable X1 es el fósforo inorgánico, X2 el
fósforo orgánico e Y es el fósforo de maíz en el aceite. Encontrar un modelo que explique
la variable Y como función de las otras dos regresoras”.
Prácticas y problemas de regresión lineal múltiple.
19
Problema 5.18. “Se está interesado en estudiar la temperatura mínima de una ciudad en relación con su longitud y latitud geográ…ca. Se ha tomado una muestra de 56
ciudades de EEUU y se ha calculado la temperatura mínima (en grados Farenheit) en el
mes de enero, el resultado obtenido es el promedio de 30 años (de 1931 a 1960). El …chero
problema-5-18 contiene los datos de esta variable y de las regresoras: longitud y latitud
de la ciudad.
En base a estos datos ajustar un modelo de regresión que explique el comportamiento
de la variable de interés en función de las dos regresoras. En un estudio previo se proponía
ajustar la temperatura con una relación lineal respecto a la variable latitud y un ajuste
cúbico respecto a la variable longitud”.
Problema 5.19. “Se desea estudiar la relación entre el consumo de helados, medido
en pintas per capita, y las variables regresoras precio del helado, en doláres por pinta,
el ingreso familiar por semana y la temperatura media medida en grados Farenheit. Para
ello se obtuvieron datos de 30 meses, desde marzo de 1951 a julio de 1953. El …chero
problema-5-19 contiene estos datos. Analizarlos y estudiar un modelo de regresión que
se ajuste a los mismos”.
Problema 5.20. “El …chero problema-5-20 contiene datos relativos al número de
muertes e intensidad de los terremotos ocurridos desde 1.900. También se proporciona el
año en que ocurrió el terremoto, en total, 40 datos. Se desea estudiar si existe una relación
entre el número de muertes y la intensidad del terremoto. Analizar las hipótesis básicas
del modelo ajustado”.
Problema 5.21. “El …chero problema-5-21 contiene datos de 209 procesadores
(CPU). De cada uno de ellos se han obtenido características y medidas de rendimiento
relativo respecto a un procesador IBM 370/158-3. Las variables observadas las siguientes:
-Cycle time(ns), número de ciclos por segundo.
-Minimum memory (kb), memoria mínima en kb.
-Maximum memory (kb), memoria máxima en kb.
-Cache size (kb), tamaño del caché.
-Minimum channels, número mínimo de canales.
-Maximum channels, número máximo de canales.
-Relative performance, rendimiento relativo.
-Estimated relative performance, rendimiento relativo estimado.
El objetivo del estudio es conocer que variables in‡uyen en el rendimiento relativo
(en el relative performance y en el estimated relative performance). Ajustar el modelo de
regresión en cada uno de los dos casos e indicar la bondad del ajuste”.
(Los datos proceden del trabajo de Ein-Dor,P. y Feldmesser,J. (1987) “Atributes of
the performance of central processing units: a relative performance prediction model”,
Communitaions of the ACM, 30,308-317).
20
Modelos estadísticos aplicados. Juan Vilar
Problema 5.22. “El …chero problema-5-22 contiene los resultados de 35 carreras
de montaña celebradas en Escocia en 1984. Se proporcionan datos sobre la distancia en
millas de la carrera, tiempo del vencedor en minutos y la altura total ganada en pies.
Se quiere estudiar un modelo de regresión que relacione el tiempo con las otras dos
variables. Al analizar los datos parece razonable transformar la variable respuesta pero
también se observa la aparición de observaciones in‡uyentes”.
Problema 5.23. “El …chero problema-5-23 contiene datos de tres variables relativas
a las 48 ciudades más grandes del mundo en 1991. Las variables consideradas son:
Horas de trabajo=“promedio ponderado de 12 ocupaciones”
Nivel de precios=“coste de una cesta de la compra de 112 productos básicos, en base
al nivel de Zurich=100”
Nivel de salarios=“nivel del salario de 12 ocupaciones diferentes ponderadas según la
distribución ocupacional, excluídas tasas a la seguridad social e impuestos, en base al nivel
de Zurich=100”
El objetivo del estudio es encontrar una relación entre estas tres variables. Tiene particular interés el estudio de los siguientes modelos de regresión:
1. Estudiar la variable respuesta nivel de precios respecto a la regresora nivel de salarios.
2. Estudiar la respuesta nivel de precios respecto a las otras dos regresoras.
3. Estudiar la respuesta nivel de salarios respecto a la regresora horas de trabajo”.
Problema 5.24. “Se está interesado en investigar el índice de criminalidad en relación
con otras variables. Para ello se dispone de datos de 47 estados de EEUU relativos al año
1960 (problema-5-24). Las variables estudiadas son las siguientes:
R=“índice de criminalidad, número de delitos conocidos por la policía por cada millón
de habitantes”
Age=“distribución de la edad, número de varones de edad 14-24 por cada mil de toda
la población del estado”
S=“variable binaria que distingue entre estados del sur (S = 1) del resto”
Ed=“nivel educativo, número medio de años de escolarización”
Ex1 =“gasto per cápita en protección policial relativa a 1960 ”
Ex2 =“gasto per cápita en protección policial relativa a 1959 ”
LF =“proporción en participación en trabajos de fuerza por cada mil hombres con edad
14-24”
M =“Número de varones por mil mujeres”
N =“Tamaño de la población del estado en cin mil”
N W =“El número de personas de raza no blanca por 1000 habitantes”
U1 =“Razón de desempleo entre hombres de edad 14-24, por cada mil”
U2 =“Razón de desempleo entre hombres de edad 35-39, por cada mil”
W =“Riqueza medida por el ingreso familiar”
Prácticas y problemas de regresión lineal múltiple.
21
X=“Desigualdad en ingresos, el número de familias por mil que ganan por debajo de
la mitad de la mediana de ingresos”
El objetivo del estudio es encontrar la mejor relación entre la variable de interés R con
el resto de las variables regresoras. Analizar la in‡uencia de la variable atributo S”.
Problema 5.25. “Los datos de este problema son clásicos en análisis de regresión
(…chero problema-5-25), corresponden a la observación de 21 días de trabajo en una
planta química para la oxidación del amonio como una etapa en la producción del ácido
nítrico. Las variables observadas son:
X1 =“‡ujo de aire”
X2 =“temperatura del ahua de refrigeración (o C)”
X3 =“concentración de ácido ( %)”
Y =“pérdida acumulada, porcentage del amonio que escapa sin ser absorbido”
El objetivo del estudio es ajustar un modelo de regresión a estos datos que explique el
comportamiento de la respuesta Y respecto a las tres regresoras”.
Problema 5.26. “En la tabla adjunta se presentan cuatro indicadores del tamaño
medio de las empresas en 15 paises desarrolados. Estos indicadores son: (V ) ventas, (A)
activos, (N ) número de empleados y (R) recursos propios. Estudiar un modelo de regresión
que relacione la variable V con las restantes variables (se sugiere transformar los datos
tomando logaritmos)”.
Pais
España
EE.UU.
Alemania
Inglaterra
Francia
Suecia
Suiza
Holanda
V
249
3;334
707
511
477
142
494
301
A
454
2;612
542
352
535
137
475
227
N
3;358
15;230
7;391
7;307
6;306
2;075
6;163
3;517
R
166
1;209
119
243
91
34
215
70
Pais
Italia
Bélgica
Noruega
Dinamarca
Finlandia
Portugal
Irlanda
V
109
167
100
84
119
35
237
A
100
124
81
67
100
46
283
N
874
1;267
894
978
1;350
1;302
3;668
R
16
37
14
20
15
16
80
Problema 5.27. “En la tabla adjunta se indica la altura (H), longitudde las naves
(L), anchura de la nave principal (A) y número de naves (N ) de algunas iglesias románicas
españolas. Estudiar la relación entre la variable altura (H) y el resto de las variables”.
22
Modelos estadísticos aplicados. Juan Vilar
H
60 15
110 60
220 00
100 20
80 90
90 50
120 20
110 40
L
200 00
190 40
850 00
240 00
140 30
110 90
200 00
190 30
A
60 18
50 20
80 10
50 50
60 50
60 40
60 10
70 50
N
1
3
3
3
1
1
3
1
H
90 20
90 10
70 75
80 85
100 00
100 50
190 00
80 20
L
170 00
200 60
120 20
170 90
280 20
260 78
350 00
160 00
A
80 20
90 50
50 40
60 50
50 45
80 80
70 70
90 00
N
1
1
1
1
1
3
3
1
H
90 00
130 00
110 45
80 50
60 70
110 60
100 15
L
200 50
260 50
210 75
100 00
140 60
130 60
110 60
A
70 00
60 40
70 45
60 70
60 20
70 60
40 10
N
3
3
3
1
3
1
3
Problema 5.28. “El …chero problema-5-28 contiene datos de tres variables observadas en cincuenta tipos de madera utilizados en la construcción. Las variables estudiadas
son las siguientes:
X =“densidad de la madera en aire seco”
Y =“módulo de rigidez”
Z =“módulo de elasticidad”.
El objetivo del estudio es ajustar un módelo de regresión que explique el comportamiento de la variable elasticidad en función de las otras dos variables.
Los datos están ordenados de forma creciente según la variable X”.
Y
1000
1112
1033
1087
1069
925
1306
1306
1323
1379
1332
1254
1587
Z
99
173
188
133
146
91
188
194
195
177
182
110
203
X
250 3
280 2
280 6
290 1
300 7
310 4
320 5
360 8
370 1
380 3
390 0
390 6
400 1
Y
1897
1822
2129
2053
1676
1621
1990
1764
1909
2086
1916
1889
1870
Z
240
248
261
245
186
188
252
222
244
274
276
254
238
X
500 3
510 3
510 7
520 8
530 8
530 9
540 9
550 1
550 2
550 3
560 9
570 3
580 3
Y
1145
1438
1281
1595
1129
1492
1605
1647
1539
1706
1728
1703
Z
193
167
188
238
130
189
213
165
210
224
228
209
X
400 3
400 3
400 6
420 3
420 4
420 5
430 0
430 0
460 7
490 0
500 2
500 3
Y
2036
2570
1474
2116
2054
1994
1746
2604
1767
2649
2159
2078
Z
264
189
223
245
272
264
196
268
205
346
246
237;5
X
580 6
580 7
590 5
600 8
610 3
610 5
630 2
630 3
680 1
680 9
680 9
700 8
Problema 5.29. “Se presentan dos problemas análogos. En una primera parte en el
…chero problema-5-29A, se recogen las distancias en metros de los saltos obtenidos por
los ganadores de la medalla de oro en las Olimpíadas en las siguientes pruebas: salto de
altura, salto de pértiga, salto de longitud y triple salto, en las pruebas realizadas entre los
años 1896 y 1988.
Prácticas y problemas de regresión lineal múltiple.
23
Los datos de la segunda parte están en el …chero problema-5-29B que contiene los
tiempos, en segundos, de los ganadores de las carreras de hombres de 100, 200, 400, 800 y
1500 metros en los JJOO desde 1900 a 1988 (no hubo JJOO en 1916, 1940 y 1944).
En ambos casos el objetivo del estudio es el mismo:
1. Ajustar un modelo de regresión razonable a la nube de datos que permita predecir
futuros resultados.
2. Para una determinada variable (en ambos …cheros) ajustar un modelo de regresión
simple donde la variable regresora es el tiempo (reescalado) o, dicho de otra forma,
estimar la tendencia de la variable (serie de tiempo).
3. En ambos apartados estudiar la hipótesis de independencia. (Estas variables son
series de tiempo y los modelos estadísticos ARIMA son, en muchos casos, adecuados
para hacer predicciones).
Problema 5.30. “El …chero problema-5-30 contiene datos de tres variables relativas
a 35 carreras de montaña que tuvieron lugar en Escocia durante el año 1984. Las variables
estudiadas son:
- Distancia: recorrida en la carrera medida en millas.
- Altura: alcanzada en la montaña en el ascenso efectuado, medida en pies.
- Tiempo: que tardó el vencedor de la carrera.
Se desea ajustar un modelo de regresión que explique el comportamiento de la variable
respuesta, tiempo, respecto a las dos regresoras distancia y altura. En principio, puede ser
razonable hacer una transformación de la variable respuesta pero debe de estudiarse la
existencia de datos in‡uyentes”.
Problema 5.31. “En este problema se presenta una colección de datos obtenidos en
pruebas simuladas de accidentes de motos. Se observaban dos variables:
- X = tiempo transcurrido (en milisegundos) después del impacto.
- Y = aceleración de la cabeza.
Los datos se recogen en el …chero problema-5-31. En base a ellos se pide:
1. Representar los datos y ajustar un modelo de regresión que explique el comportamiento de la variable respuesta Y a partir de la variable regresora. ¿Se mejoran
los resultados si se transforma alguna de las dos variables o ambas?
2. Utilizando métodos de regresión no paramétrica ¿se obtienen mejores resultados?”
Problema 5.32. “El …chero problema-5-32 contiene datos de porcentajes de delitos
de siete tipos (asesinato, violación, atraco, agresión, robo, latrocinio y robo de vehículos)
en cincuenta estados de EEUU en el año 1986. Los datos que se presentan son el número
de delitos por cada 100.000 residentes.
Analizar analítica y grá…camente estas variables y estudiar si se puede ajustar un
modelo de regresión que explique el comportamiento de una de ellas en función de las
otras”.
Descargar