a 1 En 1965 A.J. Lea recogio datos sobre la temperatura anual media en varias ciudades (de Gran Breta~na, Noruega y Suecia) y la tasa de mortalidad en un tipo de cancer de pecho en mujeres. Los datos que obtuvo fueron los siguientes: Temperatura anual Indice de media (grados Fa.) mortalidad 510 3 490 9 500 0 490 2 480 5 470 8 470 3 450 1 460 3 420 1 440 2 430 5 420 3 400 2 310 8 340 0 1020 5 1040 5 1000 4 950 9 870 0 950 0 880 6 890 2 780 9 840 6 810 7 720 2 650 1 680 1 670 3 520 5 Determinar la recta de mnimos cuadrados as como la precision conseguida con el ajuste obtenido mediante dicho metodo. Aunque los datos del enunciado constituyen una distribucion bidimensional de frecuencias, en donde la frecuencia absoluta de cada par es igual a 1, el principal interes sobre ellos suele ser el de determinar la ecuacion de una funcion, generalmente una recta, que permita explicar una de las variables |denominada dependiente| en funcion de la otra |denominada independiente|, con el habitual proposito de hacer predicciones sobre la variable dependiente en funcion de la independiente. En este ejercicio, el estudio de campo realizado tendra interes si puede demostrarse una relacion entre las variables temperatura medio-ambiental e ndice de mortalidad. Si esto fuera as, se podra predecir, mediante la funcion ajustada, el ndice de mortalidad que cabra esperar bajo una determinada temperatura medio-ambiental. 2 En este caso, por tanto, parece razonable considerar como variable independiente, , la temperatura y como variable dependiente, , el ndice de mortalidad. No obstante todo lo que acabamos de decir, hacemos la observacion de que, aunque con el coeciente de determinacion 2 , que calcularemos al nal del problema, podemos calcular la bondad del ajuste que efectuemos, no sera hasta que utilicemos las potentes tecnicas de la Inferencia Estadstica (en concreto de la Regresion Lineal) que podamos decidir si existe o no una relacion lineal signicativa entre ambas variables. Aunque el ajuste por mnimos cuadrados (CB-seccion 2.4.2) que se nos solicita es el de una recta, siempre es conveniente comenzar haciendo una representacion graca de los pares de puntos dados, en lo que se denomina la nube de puntos, que no es mas que la representacion de los pares de puntos ( i i ), = 1 16, en unos ejes de coordenadas cartesianas, de forma que se pueda aventurar la bondad del ajuste que se va a realizar. Es decir, si los datos aparecen alineados la recta de mnimos cuadrados explicara bien a la variable dependiente en funcion de la independiente, pero si los puntos muestran una graca en forma de parabola, es posible que un ajuste de tal funcion por mnimos cuadrados resulte mas adecuado. Para los datos de nuestro enunciado la nube de puntos es la siguiente X Y R x ;y i ; :::; --+------------------+------------------+------------------+-104.5+ * + | * *| | | | * * | M | | o + * * + r | * | t | * * | a | * | l | | i + + d | * | a |* * | d | * | | | + + | | 52.5| * | --+------------------+------------------+------------------+-31.8 51.3 Temperatura aa aa 3 La disposicion lineal de los datos, hace razonable el ajuste por mnimos cuadrados. Como es sabido, la recta de mnimos cuadrados es la mas proxima a la nube de puntos, la cual se determino en CB que era la de ecuacion y = b + b x en donde b y b eran los valores determinados por las ecuaciones !X! X X n x y 0 x y =1 =1 =1 = !2 X X 2 n x 0 x n b y n i i i i n i i=1 n i n i i=1 X y 0 b X x n b i i n i = i=1 n i=1 i : Para calcularlos utilizaremos la siguiente tabla de calculos xi 51 3 49 9 50 0 49 2 48 5 47 8 47 3 45 1 46 3 42 1 44 2 43 5 42 3 40 2 31 8 34 0 713 5 a 0 yi 102 5 104 5 100 4 95 9 87 0 95 0 88 6 89 2 78 9 84 6 81 7 72 2 65 1 68 1 67 3 52 5 1333 5 a 0 a 0 a a 0 a 0 a 0 a 0 0 a a 0 a 0 0 a a a 0 a 0 0 a 0 a 0 0 a 0 a a 0 a a 0 a a 0 a 0 a 0 a 0 a 0 a 0 a 0 a 0 a a 0 a 0 a 0 a 0 0 0 a 0 0 a 0 0 a 0 a 0 a 0 0 a 0 a 0 a 0 a a 0 a 0 a 0 a 0 a 0 0 a 0 a 10506 25 10920 25 10080 16 9196 81 7569 9025 7849 96 7956 64 6225 21 7157 16 6674 89 5212 84 4238 01 4637 61 4529 29 2756 25 114535 33 0 a 0 a 0 0 a a yi2 0 a 0 0 a 0 a 0 a 0 0 a 0 a 0 0 a a 0 0 a 2631 69 2490 01 2500 2420 64 2352 25 2284 84 2237 29 2034 01 2143 69 1772 41 1953 64 1892 25 1789 29 1616 04 1011 24 1156 32285 29 a 0 0 a 0 xi2 0 a 0 0 a 5258 25 5214 55 5020 4718 28 4219 5 4541 4190 78 4022 92 3653 07 3561 66 3611 14 3140 7 2753 73 2737 62 2140 14 1785 60568 34 a 0 a 0 0 xi yi 0 a aa aa 4 De ella obtenemos que es !X! X X x y n x y 0 34 0 713 5 1 1333 5 = 2 3577 =1 =1 =1 = 16 1160568 b = ! 2 29 0 713 52 6 1 32285 X Xx n x2 0 n a a aaa n i i i n b i i 0 0 0 0 0 0 i i=1 X y 0 b X x n i i n i i=1 y n n i i 1333 5 0 2 3577 1 713 5 = 021 795 = n 16 con lo que la recta de mnimos cuadrados sera = i=1 i=1 0 0 0 0 y = 021 795 + 2 3577 x: 0 0 Para analizar la bondad del ajuste de mnimos cuadrados (CB-seccion 2.4.3) que acabamos de realizar, calcularemos el coeciente de determinacion R2 . Al ser el ajuste de una recta, podemos calcular R2 a traves de la formula R 2 = ( r )2 = b P =1 x2 0 (P =1 x )2 =n P =1 y2 0 (P =1 y )2 =n ( )2 n i i n i aa i aa n i n i i i 2 713 5 29 0 32285 16 2 = 0 76537 = 2 35772 1 1333 114535 33 0 16 5 0 0 0 0 0 0 o como cuadrado del coeciente de correlacion de Pearson !X! X X n x y 0 x y =1 =1 =1 uvutn X x2 0 X x !2tuuvn X y2 0 X y !2 n r = n i=1 n i i i i n i i=1 i n i i n i i=1 i n i=1 i 16 1 60568 34 0p713 5 1 1333 5 = p = 0 87485 16 1 32285 29 0 713 52 16 1 114535 33 0 1333 52 0 0 0 0 0 0 0 0 5 siendo R2 = r2 = 0 874852 = 0 76536: 0 0 Aunque dicho valor puede calicarse de aceptable, no sera hasta que utilicemos el contraste de la regresion lineal simple, cuando podamos decidir si este se calica de bueno o no.