3 Resolución de algunos ejercicios del tema 3.

Anuncio
3 INTRODUCCIÓN A LA ESTADÍSTICA. GRUPO 71 LADE.
3
13
Resolución de algunos ejercicios del tema 3.
3.1
Ejercicios.
Ejercicio 17 En una muestra de 1500 individuos se recogen datos sobre dos
medidas antropométricas X e Y . Los resultados que se obtienen son
x = 14,
y = 100,
sx = 2,
sy = 25,
sxy = 45.
Obtener el modelo de regresión lineal que mejor aproxima Y en función de X.
Utilizando este modelo calcular de modo aproximado la cantidad Y esperada
cuando X = 15.
Buscamos la recta Ŷ = a + b X que mejor aproxima los valores de Y , según el
criterio de los mı́nimos cuadrados, en la nube de puntos que resulta de representar en un plano (X, Y ) las 1500 observaciones. Los coeficientes de esta recta
son:
sxy
45
b= 2 =
= 11.25,
sx
4
a = y − b x = 100 − (11.25)(14) = −57.5.
Ası́, el modelo lineal es: Ŷ = −57.5 + 11.25 X. Por tanto, si x = 15, el modelo
lineal predice un valor de Y de
ŷ = −57.5 + 11.25(15) = 111.25.
En este punto hay que preguntarse cómo de fiable es esta predicción.
Ejercicio 18 De una muestra de 8 observaciones conjuntas de valores de dos
variables X e Y se obtiene la siguiente información:
X
X
X
xi = 24,
xi yi = 64,
yi = 40, s2y = 12, s2x = 6.
a) Obtener la recta de regresión de Y sobre X. Explicar el significado de los
parámetros.
b) Calcular el coeficiente de determinación. Comentar el resultado e indicar
el porcentaje de variación de Y que no está explicado por el modelo de
regresión lineal.
c) Si el modelo es adecuado, ¿cuál es la predicción para un valor de x = 4?
d) Obtener la recta de regresión de X sobre Y .
a) Buscamos la recta Ŷ = a + b X:
b=
xy − x y
sXY
64/8 − (24/8)(40/8)
=
=
= −1.167,
2
2
sX
sX
6
24
40
− (−1.167)
= 8.5.
8
8
el parámetro b es la pendiente de la recta de regresión y mide la variación de Y
cuando X aumenta una unidad. Puesto que b < 0 esto significa que a medida
que X aumenta la variable Y tiende a disminuir, es decir, existe una relación
inversa entre X e Y . El parámetro a es el valor de la ordenada en el origen,
a = y − bx =
14
3 INTRODUCCIÓN A LA ESTADÍSTICA. GRUPO 71 LADE.
es decir, el punto en que la recta cruza el eje vertical. La recta de regresión es
Ŷ = 8.5 − 1.167 X.
b) Puesto que se trata de un modelo lineal, el coeficiente de determinación coincide con el coeficiente de correlación lieal de Pearson al cuadrado:
2
R2 = rXY
=
(−7)2
s2XY
=
= 0.68,
2
2
sX sY
6 · 12
esto significa que el modelo de regresión lineal explica el 68% de la variabilidad
de Y en función de la de X. Por tanto, queda un 32% de variabilidad no
explicada.
c) La predicción que realiza este modelo es
ŷ = 8.5 − 1.167(4) = 3.83,
que hay que considerar con ciertas reservas, puesto que el modelo explica solamente un 68% de la variabilidad total.
d) Buscamos la recta X̂ = ã + b̃ Y :
b̃ =
sXY
−7
=
= −0.583,
2
sY
12
ã = x − b̃ y =
40
24
− (−0.583)
= 5.915,
8
8
por tanto, el modelo es X̂ = 5.915 − 0.583 Y . Observemos que los valores que
se obtienen para la pendiente de la recta y para el término independiente no
coinciden en absoluto con los que se obtendrı́an despejando en la ecuación Ŷ =
8.5 − 1.167 X.
Ejercicio 19 La tabla siguiente contiene la edad X y la máxima de la presión
sanguı́nea Y de un grupo de 10 mujeres:
Edad
Presión
56
14.8
42
12.6
72
15.9
36
11.8
63
14.9
47
13.0
55
15.1
49
14.2
38
11.4
42
14.1
a) Calculad el coeficiente de correlación lineal entre las variables y decid qué
indica.
b) Determinad la recta de regresión de Y sobre X, justificando la adecuación
de un modelo lineal. Interpretad los coeficientes.
c) Valorad la bondad del modelo.
d) Haced las predicciones siguientes, sólo cuando creáis que tengan sentido:
d.1) Presión sanguı́nea de una mujer de 51 años.
d.2) Presión sanguı́nea de una niña de 10 años.
d.3) Presión sanguı́nea de una hombre de 54 años.
Respuestas: Construimos la tabla auxiliar para realizar los cálculos de los
apartados a) y b):
3 INTRODUCCIÓN A LA ESTADÍSTICA. GRUPO 71 LADE.
xi
56
42
72
36
63
47
55
49
38
42
500
yi
14.8
12.6
15.9
11.8
14.9
13
15.1
14.2
11.4
14.1
137.8
x2i
3136
1764
5184
1296
3969
2209
3025
2401
1444
1764
26192
Las medias son:
500
= 50,
10
las varianzas y covarianza son:
x=
s2X = x2 −x2 =
26192
−502 = 119.2,
10
y=
yi2
219.04
158.76
252.81
139.24
222.01
169
228.01
201.64
129.96
198.81
1919.28
15
xi yi
828.8
529.2
1144.8
424.8
938.7
611
830.5
695.8
433.2
592.2
7029
137.8
= 13.78,
10
s2Y = y 2 −y 2 =
1919.28
−13.782 = 2.04,
10
7029
− 50 · 13.78 = 13.9
10
y el coeficiente de correlación lineal es
sXY = xy − x y =
rXY =
13.9
sXY
= 0.89,
=√
sX sY
119.2 · 2.04
que indica una dependencia lineal moderada y directa entre X e Y . Cuanto
mayor es X mayor tiende a ser Y .
La recta de regresión de Y sobre X es Ŷ = a + b X, cuyos coeficientes son:
b=
sXY
13.9
=
= 0.12,
2
sX
119.2
a = y − b x = 137.78 − 0.12 · 50 = 7.95.
El coeficiente a es la intersección con el eje de ordenadas, mientras que b es la
pendiente de la recta de regresión.
c) El ajuste del modelo se mide mediante el coeficiente de determinación R2 ,
2
que en el caso del modelo lineal coincide con rXY
. Entonces, R2 = 0.892 = 0.79,
que indica que un 79% de la variabilidad de Y viene explicada por el modelo de
la recta de regresión, mientras que queda sin explicar un 21% de la variabilidad.
d) Sólo tiene sentido realizar la predicción del apartado (d1). Para un valor de
x = 51 el modelo predice un valor de y = 7.95 + 0.12 · 51 = 13.90.
Ejercicio 20 Se ha llevado a cabo un ajuste lineal a una nube de puntos formada por observaciones de dos variables X e Y y se ha obtenido un coeficiente
de determinación de 0.03. Discutid si las siguientes afirmaciones son ciertas y
por qué:
a) El coeficiente de correlación lineal entre X e Y valdrá 0.173.
b) La covarianza entre X e Y puede ser negativa.
3 INTRODUCCIÓN A LA ESTADÍSTICA. GRUPO 71 LADE.
c)
d)
e)
f)
Las variables X e Y son casi independientes.
El coeficiente de determinación entre −X e Y valdrá -0.03.
El coeficiente de determinación entre −X y −Y valdrá 0.03.
Sólo el 3% de la variabilidad total de Y queda sin explicar en el modelo.
Respuestas:
a)
b)
c)
d)
e)
f)
16
√
√
Falso, rXY = ± R2 = ± 0.03 = ±0.173.
Cierto.
Falso, pues la relación entre X e Y puede ser no lineal.
Falso, R2 nunca puede ser negativo. En este caso R2 = 0.03.
Cierto.
Falso, el modelo sólo explica un 3% de la variablidad de Y , por tanto,
queda por explicar un 97%.
Descargar