Ejemplo 5

Anuncio
a
1
En 1965 A.J. Lea recogio datos sobre la temperatura anual media
en varias ciudades (de Gran Breta~na, Noruega y Suecia) y la tasa
de mortalidad en un tipo de cancer de pecho en mujeres. Los
datos que obtuvo fueron los siguientes:
Temperatura anual Indice de
media (grados Fa.) mortalidad
510 3
490 9
500 0
490 2
480 5
470 8
470 3
450 1
460 3
420 1
440 2
430 5
420 3
400 2
310 8
340 0
1020 5
1040 5
1000 4
950 9
870 0
950 0
880 6
890 2
780 9
840 6
810 7
720 2
650 1
680 1
670 3
520 5
Determinar la recta de mnimos cuadrados as como la precision
conseguida con el ajuste obtenido mediante dicho metodo.
Aunque los datos del enunciado constituyen una distribucion bidimensional de frecuencias, en donde la frecuencia absoluta de cada par es igual
a 1, el principal interes sobre ellos suele ser el de determinar la ecuacion
de una funcion, generalmente una recta, que permita explicar una de las
variables |denominada dependiente| en funcion de la otra |denominada
independiente|, con el habitual proposito de hacer predicciones sobre la
variable dependiente en funcion de la independiente.
En este ejercicio, el estudio de campo realizado tendra interes si puede
demostrarse una relacion entre las variables temperatura medio-ambiental
e ndice de mortalidad. Si esto fuera as, se podra predecir, mediante la
funcion ajustada, el ndice de mortalidad que cabra esperar bajo una determinada temperatura medio-ambiental.
2
En este caso, por tanto, parece razonable considerar como variable independiente, , la temperatura y como variable dependiente, , el ndice de
mortalidad.
No obstante todo lo que acabamos de decir, hacemos la observacion de
que, aunque con el coeciente de determinacion 2 , que calcularemos al
nal del problema, podemos calcular la bondad del ajuste que efectuemos,
no sera hasta que utilicemos las potentes tecnicas de la Inferencia Estadstica
(en concreto de la Regresion Lineal) que podamos decidir si existe o no una
relacion lineal signicativa entre ambas variables.
Aunque el ajuste por mnimos cuadrados (CB-seccion 2.4.2) que se nos
solicita es el de una recta, siempre es conveniente comenzar haciendo una
representacion graca de los pares de puntos dados, en lo que se denomina la
nube de puntos, que no es mas que la representacion de los pares de puntos
( i i ), = 1
16, en unos ejes de coordenadas cartesianas, de forma que
se pueda aventurar la bondad del ajuste que se va a realizar.
Es decir, si los datos aparecen alineados la recta de mnimos cuadrados
explicara bien a la variable dependiente en funcion de la independiente, pero
si los puntos muestran una graca en forma de parabola, es posible que un
ajuste de tal funcion por mnimos cuadrados resulte mas adecuado.
Para los datos de nuestro enunciado la nube de puntos es la siguiente
X
Y
R
x ;y i
; :::;
--+------------------+------------------+------------------+-104.5+
*
+
|
*
*|
|
|
|
*
*
|
M
|
|
o
+
*
*
+
r
|
*
|
t
|
*
*
|
a
|
*
|
l
|
|
i
+
+
d
|
*
|
a
|*
*
|
d
|
*
|
|
|
+
+
|
|
52.5|
*
|
--+------------------+------------------+------------------+-31.8
51.3
Temperatura
aa
aa
3
La disposicion lineal de los datos, hace razonable el ajuste por mnimos
cuadrados.
Como es sabido, la recta de mnimos cuadrados es la mas proxima a la
nube de puntos, la cual se determino en CB que era la de ecuacion
y = b + b x
en donde b y b eran los valores determinados por las ecuaciones
!X!
X
X
n x y 0
x
y
=1
=1
=1
=
!2
X
X
2
n x 0
x
n
b
y
n
i i
i
i
n
i
i=1
n
i
n
i
i=1
X y 0 b X x
n
b
i
i
n
i
= i=1
n
i=1
i
:
Para calcularlos utilizaremos la siguiente tabla de calculos
xi
51 3
49 9
50 0
49 2
48 5
47 8
47 3
45 1
46 3
42 1
44 2
43 5
42 3
40 2
31 8
34 0
713 5
a
0
yi
102 5
104 5
100 4
95 9
87 0
95 0
88 6
89 2
78 9
84 6
81 7
72 2
65 1
68 1
67 3
52 5
1333 5
a
0
a
0
a
a
0
a
0
a
0
a
0
0
a
a
0
a
0
0
a
a
a
0
a
0
0
a
0
a
0
0
a
0
a
a
0
a
a
0
a
a
0
a
0
a
0
a
0
a
0
a
0
a
0
a
0
a
a
0
a
0
a
0
a
0
0
0
a
0
0
a
0
0
a
0
a
0
a
0
0
a
0
a
0
a
0
a
a
0
a
0
a
0
a
0
a
0
0
a
0
a
10506 25
10920 25
10080 16
9196 81
7569
9025
7849 96
7956 64
6225 21
7157 16
6674 89
5212 84
4238 01
4637 61
4529 29
2756 25
114535 33
0
a
0
a
0
0
a
a
yi2
0
a
0
0
a
0
a
0
a
0
0
a
0
a
0
0
a
a
0
0
a
2631 69
2490 01
2500
2420 64
2352 25
2284 84
2237 29
2034 01
2143 69
1772 41
1953 64
1892 25
1789 29
1616 04
1011 24
1156
32285 29
a
0
0
a
0
xi2
0
a
0
0
a
5258 25
5214 55
5020
4718 28
4219 5
4541
4190 78
4022 92
3653 07
3561 66
3611 14
3140 7
2753 73
2737 62
2140 14
1785
60568 34
a
0
a
0
0
xi yi
0
a
aa aa
4
De ella obtenemos que es
!X!
X
X
x
y
n x y 0
34 0 713 5 1 1333 5 = 2 3577
=1
=1
=1
= 16 1160568
b =
!
2
29 0 713 52
6
1
32285
X Xx
n x2 0
n
a
a
aaa
n
i i
i
n
b
i
i
0
0
0
0
0
0
i
i=1
X y 0 b X x
n
i
i
n
i
i=1
y
n
n
i
i
1333 5 0 2 3577 1 713 5 = 021 795
=
n
16
con lo que la recta de mnimos cuadrados sera
=
i=1
i=1
0
0
0
0
y = 021 795 + 2 3577 x:
0
0
Para analizar la bondad del ajuste de mnimos cuadrados (CB-seccion
2.4.3) que acabamos de realizar, calcularemos el coeciente de determinacion
R2 .
Al ser el ajuste de una recta, podemos calcular R2 a traves de la formula
R 2 = ( r )2
=
b P =1 x2 0 (P =1 x )2 =n
P =1 y2 0 (P =1 y )2 =n
( )2
n
i
i
n
i
aa
i
aa
n
i
n
i
i
i
2
713 5
29
0
32285
16 2 = 0 76537
= 2 35772 1
1333
114535 33 0 16 5
0
0
0
0
0
0
o como cuadrado del coeciente de correlacion de Pearson
!X!
X
X
n x y 0
x
y
=1
=1
=1
uvutn X x2 0 X x !2tuuvn X y2 0 X y !2
n
r
=
n
i=1
n
i i
i
i
n
i
i=1
i
n
i
i
n
i
i=1
i
n
i=1
i
16 1 60568 34 0p713 5 1 1333 5
= p
= 0 87485
16 1 32285 29 0 713 52 16 1 114535 33 0 1333 52
0
0
0
0
0
0
0
0
5
siendo
R2 = r2 = 0 874852 = 0 76536:
0
0
Aunque dicho valor puede calicarse de aceptable, no sera hasta que
utilicemos el contraste de la regresion lineal simple, cuando podamos decidir
si este se calica de bueno o no.
Descargar