5 Relaciones entre variables.

5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 5 1 Relaciones entre variables. 5.1 Ejercicios. Ejercicio 5.1 En una muestra de 1500 individuos se recogen datos sobre dos medidas antropométricas X e Y . Los resultados que se obtienen son x = 14, y = 100, sx = 2, sy = 25, sxy = 45. Obtener el modelo de regresión lineal que mejor aproxima Y en función de X. Utilizando este modelo calcular de modo aproximado la cantidad Y esperada cuando X = 15. Respuesta: Buscamos la recta Ŷ = a + b X que mejor aproxima los valores de Y , según el criterio de los mı́nimos cuadrados, en la nube de puntos que resulta de representar en un plano (X, Y ) las 1500 observaciones. Los coeficientes de esta recta son: 45 sxy = 11.25, b= 2 = sx 4 a = y − b x = 100 − (11.25)(14) = −57.5. Ası́, el modelo lineal es: Ŷ = −57.5 + 11.25 X. Por tanto, si x = 15, el modelo lineal predice un valor de Y de ŷ = −57.5 + 11.25(15) = 111.25. En este punto hay que preguntarse cómo de fiable es esta predicción. Para dar una respuesta necesitamos estudiar las propiedades de la regresión lineal. Ejercicio 5.2 De una muestra de 8 observaciones conjuntas de valores de dos variables X e Y se obtiene la siguiente información: X X X xi = 24, xi yi = 64, yi = 40, s2y = 12, s2x = 6. a) Obtener la recta de regresión de Y sobre X. Explicar el significado de los parámetros. b) Calcular el coeficiente de determinación. Comentar el resultado e indicar el porcentaje de variación de Y que no está explicado por el modelo de regresión lineal. c) Si el modelo es adecuado, ¿cuál es la predicción para un valor de x = 4? d) Obtener la recta de regresión de X sobre Y . Respuestas: a) Buscamos la recta Ŷ = a + b X: b= xy − x y sXY 64/8 − (24/8)(40/8) = = = −1.167, s2X s2X 6 24 4 − (−1.167) = 8.5. 8 8 el parámetro b es el pendiente de la recta de regresión y mide la variación de Y cuando X aumenta una unidad. Puesto que b < 0 esto significa que a medida a = y − bx = 2 5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS que X aumenta la variable Y tiende a disminuir, es decir, existe una relación inversa entre X e Y . El parámetro a es el valor de la ordenada en el origen, es decir, el punto en que la recta cruza el eje vertical. La recta de regresión es Ŷ = 8.5 − 1.167 X. b) Puesto que se trata de un modelo lineal, el coeficiente de determinación coincide con el coeficiente de correlación lineal de Pearson al cuadrado: ¶2 ¶2 µ µ −7 sXY 2 2 = 0.68, = R = rXY = sX sY 6 · 12 esto significa que el modelo de regresión lineal explica el 68% de la variabilidad de Y en función de la de X. Por tanto, queda un 32% de variabilidad no explicada. c) La predicción que realiza este modelo es ŷ = 8.5 − 1.167(4) = 3.83, que hay que considerar con ciertas reservas, puesto que el modelo explica solamente un 68% de la variabilidad total. d) Buscamos la recta X̂ = ã + b̃ Y : b̃ = sXY −7 = = −0.583, s2Y 12 ã = x − b̃ y = 40 24 − (−0.583) = 5.915, 8 8 por tanto, el modelo es X̂ = 5.915 − 0.583 Y . Observemos que los valores que se obtienen para la pendiente de la recta y para el término independiente no coinciden en absoluto con los que se obtendrı́an despejando de la ecuación Ŷ = 8.5 − 1.167 X, que serı́an X = 7.284 − 0.857 Ŷ y resulta del todo incorrecto utilizar esta última ecuación para predecir X en función de Y . Ejercicio 5.3 La tabla siguiente contiene la edad X y la máxima de la presión sanguı́nea Y de un grupo de 10 mujeres: Edad Presión 56 14.8 42 12.6 72 15.9 36 11.8 63 14.9 47 13.0 55 15.1 49 14.2 38 11.4 42 14.1 a) Calculad el coeficiente de correlación lineal entre las variables y decid qué indica. b) Determinad la recta de regresión de Y sobre X, justificando la adecuación de un modelo lineal. Interpretad los coeficientes. c) Valorad la bondad del modelo. d) Haced las predicciones siguientes, sólo cuando creáis que tengan sentido: d.1) Presión sanguı́nea de una mujer de 51 años. d.2) Presión sanguı́nea de una niña de 10 años. d.3) Presión sanguı́nea de una hombre de 54 años. 5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 3 Respuestas: Construimos la tabla auxiliar para realizar los cálculos de los apartados a) y b): xi 56 42 72 36 63 47 55 49 38 42 500 yi 14.8 12.6 15.9 11.8 14.9 13 15.1 14.2 11.4 14.1 137.8 x2i 3136 1764 5184 1296 3969 2209 3025 2401 1444 1764 26192 Las medias son: 500 = 50, 10 las varianzas y covarianza son: x= s2X = x2 − x2 = y= yi2 219.04 158.76 252.81 139.24 222.01 169 228.01 201.64 129.96 198.81 1919.28 xi yi 828.8 529.2 1144.8 424.8 938.7 611 830.5 695.8 433.2 592.2 7029 137.8 = 13.78, 10 26192 − 502 = 119.2, 10 1919.28 − 13.782 = 2.04, 10 7029 sXY = xy − x y = − 50 · 13.78 = 13.9 10 y el coeficiente de correlación lineal es s2Y = y 2 − y 2 = rXY = 13.9 sXY =√ = 0.89, sx sY 119.2 · 2.04 que indica una dependencia lineal moderada y directa entre X e Y . Cuanto mayor es X mayor tiende a ser Y . La recta de regresión de Y sobre X es Ŷ = a + b X, cuyos coeficientes son: b= 13.9 sXY = = 0.12, s2X 119.2 a = y − b x = 137.78 − 0.12 · 50 = 7.95. El coeficiente a es la intersección con el eje de ordenadas, mientras que b es la pendiente de la recta de regresión. c) El ajuste del modelo se mide mediante el coeficiente de determinación R2 , 2 que en el caso del modelo lineal coincide con rXY . Entonces, R2 = 0.892 = 0.79, que indica que un 79% de la variabilidad de Y viene explicada por el modelo de la recta de regresión, mientras que queda sin explicar un 21% de la variabilidad. d) Sólo tiene sentido realizar la predicción del apartado (d1). Para un valor de x = 51 el modelo predice un valor de y = 7.95 + 0.12 · 51 = 13.90. 4 5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS Ejercicio 5.4 Se ha llevado a cabo un ajuste lineal a una nube de puntos formada por observaciones de dos variables X e Y y se ha obtenido un coeficiente de determinación de 0.03. Discutid si las siguientes afirmaciones son ciertas y por qué: a) b) c) d) e) f) El coeficiente de correlación lineal entre X e Y valdrá 0.173. La covarianza entre X e Y puede ser negativa. Las variables X e Y son casi independientes. El coeficiente de determinación entre −X e Y valdrá -0.03. El coeficiente de determinación entre −X y −Y valdrá 0.03. Sólo el 3% de la variabilidad total de Y queda sin explicar en el modelo. Respuestas: a) b) c) d) e) f) √ √ Falso, rXY = ± R2 = ± 0.03 = ±0.173. Cierto. Falso, pues la relación entre X e Y puede ser no lineal. Falso, R2 nunca puede ser negativo. En este caso R2 = 0.03. Cierto. Falso, el modelo sólo explica un 3% de la variablidad de Y , por tanto, queda por explicar un 97%. Ejercicio 5.6 Los datos siguientes forman parte de un anuncio publicado por un joyero de Singapur en el periódico Straits Times el 29 de febrero de 1992. Estos datos hacen referencia al precio (en dólares de Singapur) de anillos que llevan un diamante. El tamaño de un diamante, que se indica en quilates (1 quilate=200 mg). tamaño precio tamaño precio 0.17 355 0.16 345 0.16 328 0.17 352 0.17 350 0.16 332 0.25 675 0.17 353 0.16 342 0.18 438 0.15 322 0.23 595 0.21 483 0.23 553 0.15 323 0.12 223 Ajustad un modelo lineal a estos datos y decidid si el ajuste obtenido es bueno. Comprobad si se cumplen para los residuos las suposiciones de independencia y de varianza constante. Respuesta: Entre las dos variables, “tamaño” y “precio”, es el tamaño de un diamante el que determina el precio del anillo. Por tanto, escogemos X =“tamaño” como variable independiente y Y =“precio” como variable dependiente. Realizamos un diagrama de dispersión para ver si puede utilizarse la regresión lineal. El gráfico obtenido (véase la figura 1) indica que el modelo lineal es adecuado para representar la relación entre X e Y . Construimos la tabla auxiliar para realizar los cálculos: 5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS Figure 1: Gráfico de dispersión con los datos del ejercicio 5.6 b 473 b 439 b yi 405 b b 372 bb bb b 338 bb b 0 0.17 0.22 0.27 0.32 0.37 xi xi 0.17 0.16 0.17 0.25 0.16 0.15 0.21 0.15 0.16 0.17 0.16 0.17 0.18 0.23 0.23 0.12 2.84 yi 355 328 350 675 342 322 483 323 345 352 332 353 438 595 553 223 6369 x2i 0.0289 0.0256 0.0289 0.0625 0.0256 0.0225 0.0441 0.0225 0.0256 0.0289 0.0256 0.0289 0.0324 0.0529 0.0529 0.0144 0.5222 yi2 126025 107584 122500 455625 116964 103684 233289 104329 119025 123904 110224 124609 191844 354025 305809 49729 2749169 xi yi 60.35 52.48 59.50 168.75 54.72 48.30 101.43 48.45 55.20 59.84 53.12 60.01 78.84 136.85 127.19 26.76 1191.79 Las medias son: x= 2.84 = 0.1775, 16 y= 6369 = 398.0625, 16 las varianzas y covarianza son: s2X = x2 − x2 = s2Y = y 2 − y 2 = 0.5222 − 0.17752 = 0.0011, 16 2749169 − 398.06252 = 13369.3086, 16 5 5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 6 1191.79 − 0.1775 · 398.0625 = 3.8308. 16 La recta de regresión de Y sobre X es Ŷ = a + b X, cuyos coeficientes son: sXY = xy − x y = b= sXY 3.8308 = = 3482.55, s2X 0.0011 a = y − b x = 398.0625 − 3482.55 · 0.1775 = −220.09, por tanto, el modelo ajustado es Y = −220.09 + 3482.55 X. El coeficiente de correlación lineal es 3.8308 sXY =√ rXY = = 0.9989, sx sY 0.0011 · 13369.3086 que indica una dependencia lineal muy fuerte y directa entre X e Y . El valor 2 de R2 = rXY = 0.9978 indica que el ajuste es muy bueno, puesto que el modelo lineal explica el 99.78% de la variabilidad de Y . Para comprobar las suposiciones de independecia de los residuos y de varianza constante, hay que calcular para cada valor xi de la variable X la predicción ŷi = a + b xi y el correspondiente residuo ei = yi − ŷi . xi 0.17 0.16 0.17 0.25 0.16 0.15 0.21 0.15 0.16 0.17 0.16 0.17 0.18 0.23 0.23 0.12 yi 355 328 350 675 342 322 483 323 345 352 332 353 438 595 553 223 ŷi 371.9435 337.1180 371.9435 650.5475 337.1180 302.2925 511.2455 302.2925 337.1180 371.9435 337.1180 371.9435 406.7690 580.8965 580.8965 197.8160 ei -16.9435 -9.1180 -21.9435 24.4525 4.8820 19.7075 -28.2455 20.7075 7.8820 -19.9435 -5.1180 -18.9435 31.2310 14.1035 -27.8965 25.1840 Posteriormente se construye un diagrama de dispersión de los pares (xi , ei ), i = 1, . . . , 16. Este diagrama ( véase la figura 2) permite concluir que los residuos no presentan ninguna regularidad evidente y que la amplitud de la dispersión de los residuos es más o menos constante a lo largo del eje X. Por tanto, se puede considerar que los residuos en el modelo lineal son independientes y de varianza constante. Ejercicio 5.7 Las ecuaciones siguientes 5 4 Ŷ = − X − , 3 3 1 1 X̂ = − Y − , 2 2 representan las rectas de regresión lineal de una distribución estadı́stica bivariante. Hallad los coeficientes de determinación y de correlación entre las variables X e Y. 5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 7 Figure 2: Gráfico de residuos de los datos del ejercicio 5.6 b 31.23 b b bb 19.34 b ei 7.44 b b -4.45 b b b bb b -16.35 b b 0 0.17 0.22 0.27 0.32 0.37 xi Respuesta: Si llamamos b a la pendiente de la recta de regresión de Y sobre X y b̃ a la pendiente de la recta de regresión de X sobre Y , entonces: b=− sXY 5 = 2 , 3 sX b̃ = − 1 sXY = 2 . 2 sY Por otro lado, puesto que se trata de un modelo lineal, sabemos que existe la siguiente relación entre el coeficiente de determinación y el coeficiente de correlación lineal: µ ¶µ ¶ ¶2 µ sXY 1 5 5 2 2 R = rXY = − = = 0.83. = b b̃ = − sX sY 3 2 6 Para calcular el coeficiente de correlación lineal hay que tener en cuenta que la pendiente de la recta de regresión es negativa, √ √ rXY = − R2 = − 0.83 = −0.91. Ejercicio 5.8 Dos distribuciones estadı́sticas tienen como rectas de regresión de Y sobre X, respectivamente, Ŷ = 5 1 + X, 3 4 Ŷ = 2 + 3 X, 5 ¿Puede asegurarse que la segunda distribución tiene un coeficiente de determinación mayor que la primera? Respuesta: No. El hecho que la pendiente de la segunda recta sea mayor que la de la primera no permite asegurar que R2 vaya también a ser mayor, puesto que R2 depende del grado de acercamiento de la recta a la nube de puntos. 5 ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS 8 Ejercicio 5.9 De una distribución estadı́stica bivariante se conocen x = 5, y = 8, CVY = 3 CVX . Mediante la recta de regresión de Y sobre X, ¿cuál es la predicción del modelo para un valor de x = 6, a) en el caso que R2 = 0? b) en el caso que R2 = 1? Respuesta: a) Consideremos el modelo lineal Y = a + b X. En este caso se 2 tiene que R2 = rXY , y por tanto, R2 = 0 =⇒ sXY = 0 =⇒ b = 0. De manera que el modelo queda: Ŷ = a, y teniendo en cuenta que a = y − b x = 8, se tiene que Ŷ = 8, que no depende del valor de la variable X. Ası́, la predicción de este modelo para x = 6 es y = 8. b) Debemos determinar los coeficentes a y b del modelo lineal. Empezamos 2 buscando b = ssXY 2 . Puesto que R = 1, tenemos que: X R2 = 1 =⇒ s2XY = 1; s2X s2Y sXY = ±sX sY . A partir de la relación CVY = 3 CVX podemos deducir que: CVY = 3 CVX =⇒ sY sX =3 ; y x sY = 3 sX 24 y = sX . x 8 Substituyendo esta expresión de sY en la expresión anteriormente encontrada para sXY tenemos que: sXY = ± 24 2 s ; 8 X sXY 24 =± = b. 2 sX 5 Por tanto, si la dependencia entre X e Y es directa: b= 24 , 5 a = y − bx = 8 − 24 · 5 = −16, 5 de manera que el modelo es Ŷ = −16 + 24 5 X, y la predicción para x = 6 es ŷ = 12.8. Si la dependencia entre X e Y es inversa: b=− 24 , 5 a = y − bx = 8 + 24 · 5 = 32, 5 de manera que el modelo ahora es Ŷ = 32 − 24 5 X, y la predicción para x = 6 es ŷ = 3.2.

5 Relaciones entre variables.

Documentos relacionados

Productos

Apoyo

5 Relaciones entre variables.

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib