5 Relaciones entre variables.

Anuncio
5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
5
1
Relaciones entre variables.
5.1
Ejercicios.
Ejercicio 5.1 En una muestra de 1500 individuos se recogen datos sobre dos
medidas antropométricas X e Y . Los resultados que se obtienen son
x = 14,
y = 100,
sx = 2,
sy = 25,
sxy = 45.
Obtener el modelo de regresión lineal que mejor aproxima Y en función de X.
Utilizando este modelo calcular de modo aproximado la cantidad Y esperada
cuando X = 15.
Respuesta: Buscamos la recta Ŷ = a + b X que mejor aproxima los valores de
Y , según el criterio de los mı́nimos cuadrados, en la nube de puntos que resulta
de representar en un plano (X, Y ) las 1500 observaciones. Los coeficientes de
esta recta son:
45
sxy
= 11.25,
b= 2 =
sx
4
a = y − b x = 100 − (11.25)(14) = −57.5.
Ası́, el modelo lineal es: Ŷ = −57.5 + 11.25 X. Por tanto, si x = 15, el modelo
lineal predice un valor de Y de
ŷ = −57.5 + 11.25(15) = 111.25.
En este punto hay que preguntarse cómo de fiable es esta predicción. Para dar
una respuesta necesitamos estudiar las propiedades de la regresión lineal.
Ejercicio 5.2 De una muestra de 8 observaciones conjuntas de valores de dos
variables X e Y se obtiene la siguiente información:
X
X
X
xi = 24,
xi yi = 64,
yi = 40, s2y = 12, s2x = 6.
a) Obtener la recta de regresión de Y sobre X. Explicar el significado de los
parámetros.
b) Calcular el coeficiente de determinación. Comentar el resultado e indicar
el porcentaje de variación de Y que no está explicado por el modelo de
regresión lineal.
c) Si el modelo es adecuado, ¿cuál es la predicción para un valor de x = 4?
d) Obtener la recta de regresión de X sobre Y .
Respuestas: a) Buscamos la recta Ŷ = a + b X:
b=
xy − x y
sXY
64/8 − (24/8)(40/8)
=
=
= −1.167,
s2X
s2X
6
24
4
− (−1.167)
= 8.5.
8
8
el parámetro b es el pendiente de la recta de regresión y mide la variación de Y
cuando X aumenta una unidad. Puesto que b < 0 esto significa que a medida
a = y − bx =
2
5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
que X aumenta la variable Y tiende a disminuir, es decir, existe una relación
inversa entre X e Y . El parámetro a es el valor de la ordenada en el origen, es
decir, el punto en que la recta cruza el eje vertical. La recta de regresión es
Ŷ = 8.5 − 1.167 X.
b) Puesto que se trata de un modelo lineal, el coeficiente de determinación coincide con el coeficiente de correlación lineal de Pearson al cuadrado:
¶2
¶2 µ
µ
−7
sXY
2
2
= 0.68,
=
R = rXY =
sX sY
6 · 12
esto significa que el modelo de regresión lineal explica el 68% de la variabilidad
de Y en función de la de X. Por tanto, queda un 32% de variabilidad no
explicada.
c) La predicción que realiza este modelo es
ŷ = 8.5 − 1.167(4) = 3.83,
que hay que considerar con ciertas reservas, puesto que el modelo explica solamente un 68% de la variabilidad total.
d) Buscamos la recta X̂ = ã + b̃ Y :
b̃ =
sXY
−7
=
= −0.583,
s2Y
12
ã = x − b̃ y =
40
24
− (−0.583)
= 5.915,
8
8
por tanto, el modelo es X̂ = 5.915 − 0.583 Y . Observemos que los valores que
se obtienen para la pendiente de la recta y para el término independiente no
coinciden en absoluto con los que se obtendrı́an despejando de la ecuación Ŷ =
8.5 − 1.167 X, que serı́an X = 7.284 − 0.857 Ŷ y resulta del todo incorrecto
utilizar esta última ecuación para predecir X en función de Y .
Ejercicio 5.3 La tabla siguiente contiene la edad X y la máxima de la presión
sanguı́nea Y de un grupo de 10 mujeres:
Edad
Presión
56
14.8
42
12.6
72
15.9
36
11.8
63
14.9
47
13.0
55
15.1
49
14.2
38
11.4
42
14.1
a) Calculad el coeficiente de correlación lineal entre las variables y decid qué
indica.
b) Determinad la recta de regresión de Y sobre X, justificando la adecuación
de un modelo lineal. Interpretad los coeficientes.
c) Valorad la bondad del modelo.
d) Haced las predicciones siguientes, sólo cuando creáis que tengan sentido:
d.1) Presión sanguı́nea de una mujer de 51 años.
d.2) Presión sanguı́nea de una niña de 10 años.
d.3) Presión sanguı́nea de una hombre de 54 años.
5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
3
Respuestas: Construimos la tabla auxiliar para realizar los cálculos de los
apartados a) y b):
xi
56
42
72
36
63
47
55
49
38
42
500
yi
14.8
12.6
15.9
11.8
14.9
13
15.1
14.2
11.4
14.1
137.8
x2i
3136
1764
5184
1296
3969
2209
3025
2401
1444
1764
26192
Las medias son:
500
= 50,
10
las varianzas y covarianza son:
x=
s2X = x2 − x2 =
y=
yi2
219.04
158.76
252.81
139.24
222.01
169
228.01
201.64
129.96
198.81
1919.28
xi yi
828.8
529.2
1144.8
424.8
938.7
611
830.5
695.8
433.2
592.2
7029
137.8
= 13.78,
10
26192
− 502 = 119.2,
10
1919.28
− 13.782 = 2.04,
10
7029
sXY = xy − x y =
− 50 · 13.78 = 13.9
10
y el coeficiente de correlación lineal es
s2Y = y 2 − y 2 =
rXY =
13.9
sXY
=√
= 0.89,
sx sY
119.2 · 2.04
que indica una dependencia lineal moderada y directa entre X e Y . Cuanto
mayor es X mayor tiende a ser Y .
La recta de regresión de Y sobre X es Ŷ = a + b X, cuyos coeficientes son:
b=
13.9
sXY
=
= 0.12,
s2X
119.2
a = y − b x = 137.78 − 0.12 · 50 = 7.95.
El coeficiente a es la intersección con el eje de ordenadas, mientras que b es la
pendiente de la recta de regresión.
c) El ajuste del modelo se mide mediante el coeficiente de determinación R2 ,
2
que en el caso del modelo lineal coincide con rXY
. Entonces, R2 = 0.892 = 0.79,
que indica que un 79% de la variabilidad de Y viene explicada por el modelo de
la recta de regresión, mientras que queda sin explicar un 21% de la variabilidad.
d) Sólo tiene sentido realizar la predicción del apartado (d1). Para un valor de
x = 51 el modelo predice un valor de y = 7.95 + 0.12 · 51 = 13.90.
4
5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
Ejercicio 5.4 Se ha llevado a cabo un ajuste lineal a una nube de puntos formada por observaciones de dos variables X e Y y se ha obtenido un coeficiente
de determinación de 0.03. Discutid si las siguientes afirmaciones son ciertas y
por qué:
a)
b)
c)
d)
e)
f)
El coeficiente de correlación lineal entre X e Y valdrá 0.173.
La covarianza entre X e Y puede ser negativa.
Las variables X e Y son casi independientes.
El coeficiente de determinación entre −X e Y valdrá -0.03.
El coeficiente de determinación entre −X y −Y valdrá 0.03.
Sólo el 3% de la variabilidad total de Y queda sin explicar en el modelo.
Respuestas:
a)
b)
c)
d)
e)
f)
√
√
Falso, rXY = ± R2 = ± 0.03 = ±0.173.
Cierto.
Falso, pues la relación entre X e Y puede ser no lineal.
Falso, R2 nunca puede ser negativo. En este caso R2 = 0.03.
Cierto.
Falso, el modelo sólo explica un 3% de la variablidad de Y , por tanto,
queda por explicar un 97%.
Ejercicio 5.6 Los datos siguientes forman parte de un anuncio publicado por
un joyero de Singapur en el periódico Straits Times el 29 de febrero de 1992.
Estos datos hacen referencia al precio (en dólares de Singapur) de anillos que
llevan un diamante. El tamaño de un diamante, que se indica en quilates (1
quilate=200 mg).
tamaño
precio
tamaño
precio
0.17
355
0.16
345
0.16
328
0.17
352
0.17
350
0.16
332
0.25
675
0.17
353
0.16
342
0.18
438
0.15
322
0.23
595
0.21
483
0.23
553
0.15
323
0.12
223
Ajustad un modelo lineal a estos datos y decidid si el ajuste obtenido es bueno.
Comprobad si se cumplen para los residuos las suposiciones de independencia y
de varianza constante.
Respuesta: Entre las dos variables, “tamaño” y “precio”, es el tamaño de un
diamante el que determina el precio del anillo. Por tanto, escogemos X =“tamaño”
como variable independiente y Y =“precio” como variable dependiente.
Realizamos un diagrama de dispersión para ver si puede utilizarse la regresión
lineal. El gráfico obtenido (véase la figura 1) indica que el modelo lineal es
adecuado para representar la relación entre X e Y .
Construimos la tabla auxiliar para realizar los cálculos:
5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
Figure 1: Gráfico de dispersión con los datos del ejercicio 5.6
b
473
b
439
b
yi
405
b
b
372
bb
bb
b
338
bb
b
0
0.17
0.22
0.27
0.32
0.37
xi
xi
0.17
0.16
0.17
0.25
0.16
0.15
0.21
0.15
0.16
0.17
0.16
0.17
0.18
0.23
0.23
0.12
2.84
yi
355
328
350
675
342
322
483
323
345
352
332
353
438
595
553
223
6369
x2i
0.0289
0.0256
0.0289
0.0625
0.0256
0.0225
0.0441
0.0225
0.0256
0.0289
0.0256
0.0289
0.0324
0.0529
0.0529
0.0144
0.5222
yi2
126025
107584
122500
455625
116964
103684
233289
104329
119025
123904
110224
124609
191844
354025
305809
49729
2749169
xi yi
60.35
52.48
59.50
168.75
54.72
48.30
101.43
48.45
55.20
59.84
53.12
60.01
78.84
136.85
127.19
26.76
1191.79
Las medias son:
x=
2.84
= 0.1775,
16
y=
6369
= 398.0625,
16
las varianzas y covarianza son:
s2X = x2 − x2 =
s2Y = y 2 − y 2 =
0.5222
− 0.17752 = 0.0011,
16
2749169
− 398.06252 = 13369.3086,
16
5
5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
6
1191.79
− 0.1775 · 398.0625 = 3.8308.
16
La recta de regresión de Y sobre X es Ŷ = a + b X, cuyos coeficientes son:
sXY = xy − x y =
b=
sXY
3.8308
=
= 3482.55,
s2X
0.0011
a = y − b x = 398.0625 − 3482.55 · 0.1775 = −220.09,
por tanto, el modelo ajustado es Y = −220.09 + 3482.55 X. El coeficiente de
correlación lineal es
3.8308
sXY
=√
rXY =
= 0.9989,
sx sY
0.0011 · 13369.3086
que indica una dependencia lineal muy fuerte y directa entre X e Y . El valor
2
de R2 = rXY
= 0.9978 indica que el ajuste es muy bueno, puesto que el modelo
lineal explica el 99.78% de la variabilidad de Y .
Para comprobar las suposiciones de independecia de los residuos y de varianza
constante, hay que calcular para cada valor xi de la variable X la predicción
ŷi = a + b xi y el correspondiente residuo ei = yi − ŷi .
xi
0.17
0.16
0.17
0.25
0.16
0.15
0.21
0.15
0.16
0.17
0.16
0.17
0.18
0.23
0.23
0.12
yi
355
328
350
675
342
322
483
323
345
352
332
353
438
595
553
223
ŷi
371.9435
337.1180
371.9435
650.5475
337.1180
302.2925
511.2455
302.2925
337.1180
371.9435
337.1180
371.9435
406.7690
580.8965
580.8965
197.8160
ei
-16.9435
-9.1180
-21.9435
24.4525
4.8820
19.7075
-28.2455
20.7075
7.8820
-19.9435
-5.1180
-18.9435
31.2310
14.1035
-27.8965
25.1840
Posteriormente se construye un diagrama de dispersión de los pares (xi , ei ), i =
1, . . . , 16. Este diagrama ( véase la figura 2) permite concluir que los residuos
no presentan ninguna regularidad evidente y que la amplitud de la dispersión de
los residuos es más o menos constante a lo largo del eje X. Por tanto, se puede
considerar que los residuos en el modelo lineal son independientes y de varianza
constante.
Ejercicio 5.7 Las ecuaciones siguientes
5
4
Ŷ = − X − ,
3
3
1
1
X̂ = − Y − ,
2
2
representan las rectas de regresión lineal de una distribución estadı́stica bivariante. Hallad los coeficientes de determinación y de correlación entre las variables
X e Y.
5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
7
Figure 2: Gráfico de residuos de los datos del ejercicio 5.6
b
31.23
b
b
bb
19.34
b
ei 7.44
b
b
-4.45
b
b
b
bb
b
-16.35
b
b
0
0.17
0.22
0.27
0.32
0.37
xi
Respuesta: Si llamamos b a la pendiente de la recta de regresión de Y sobre
X y b̃ a la pendiente de la recta de regresión de X sobre Y , entonces:
b=−
sXY
5
= 2 ,
3
sX
b̃ = −
1
sXY
= 2 .
2
sY
Por otro lado, puesto que se trata de un modelo lineal, sabemos que existe la
siguiente relación entre el coeficiente de determinación y el coeficiente de correlación lineal:
µ
¶µ
¶
¶2
µ
sXY
1
5
5
2
2
R = rXY =
−
= = 0.83.
= b b̃ = −
sX sY
3
2
6
Para calcular el coeficiente de correlación lineal hay que tener en cuenta que la
pendiente de la recta de regresión es negativa,
√
√
rXY = − R2 = − 0.83 = −0.91.
Ejercicio 5.8 Dos distribuciones estadı́sticas tienen como rectas de regresión
de Y sobre X, respectivamente,
Ŷ =
5 1
+ X,
3 4
Ŷ = 2 +
3
X,
5
¿Puede asegurarse que la segunda distribución tiene un coeficiente de determinación mayor que la primera?
Respuesta: No. El hecho que la pendiente de la segunda recta sea mayor que
la de la primera no permite asegurar que R2 vaya también a ser mayor, puesto
que R2 depende del grado de acercamiento de la recta a la nube de puntos.
5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS
8
Ejercicio 5.9 De una distribución estadı́stica bivariante se conocen x = 5,
y = 8, CVY = 3 CVX . Mediante la recta de regresión de Y sobre X, ¿cuál es la
predicción del modelo para un valor de x = 6,
a) en el caso que R2 = 0?
b) en el caso que R2 = 1?
Respuesta: a) Consideremos el modelo lineal Y = a + b X. En este caso se
2
tiene que R2 = rXY
, y por tanto,
R2 = 0 =⇒ sXY = 0 =⇒ b = 0.
De manera que el modelo queda: Ŷ = a, y teniendo en cuenta que a = y − b x =
8, se tiene que Ŷ = 8, que no depende del valor de la variable X. Ası́, la
predicción de este modelo para x = 6 es y = 8.
b) Debemos determinar los coeficentes a y b del modelo lineal. Empezamos
2
buscando b = ssXY
2 . Puesto que R = 1, tenemos que:
X
R2 = 1 =⇒
s2XY
= 1;
s2X s2Y
sXY = ±sX sY .
A partir de la relación CVY = 3 CVX podemos deducir que:
CVY = 3 CVX =⇒
sY
sX
=3
;
y
x
sY = 3 sX
24
y
=
sX .
x
8
Substituyendo esta expresión de sY en la expresión anteriormente encontrada
para sXY tenemos que:
sXY = ±
24 2
s ;
8 X
sXY
24
=±
= b.
2
sX
5
Por tanto, si la dependencia entre X e Y es directa:
b=
24
,
5
a = y − bx = 8 −
24
· 5 = −16,
5
de manera que el modelo es Ŷ = −16 + 24
5 X, y la predicción para x = 6 es
ŷ = 12.8. Si la dependencia entre X e Y es inversa:
b=−
24
,
5
a = y − bx = 8 +
24
· 5 = 32,
5
de manera que el modelo ahora es Ŷ = 32 − 24
5 X, y la predicción para x = 6 es
ŷ = 3.2.
Descargar