Llista 7. Estadística (10075, Grups 1-2-3-4)

Anuncio
Llista 7. Estadística (10075, Grups 1-2-3-4)
Professors: A. Cabaña, G.García i F. Udina
Publicat:
Límit lliurament:
Dijous, 25 de Febrer de 2010
Dilluns, 1 de Març de 2010; 8:00 am
1. A continuació tenim les puntuacions obtingudes per un grup d’estudiants en l’examen parcial i en l’examen
final d’Estadística.
Parcial
Final
81
80
75
82
71
83
61
57
96
100
56
30
85
68
18
56
70
40
77
87
71
65
91
86
88
82
79
57
77
75
30
40
50
60
final
70
80
90
100
a) Dibuixa el diagrama de dispersió de les dades. Identifica les dades ”atípiques” (outliers).
20
40
60
80
parcial
Excepto por el dato correspondiente al estudiante 8, los demás parecen homogéneos. No es claro si habría
que sacarlo del grupo. Depende de qué población estemos interesados en estudiar. Si es la de todo el
curso, tal vez haya que admitir el fracaso y asumir que hay estudiantes con malas notas. Si nos interesa
en cambio, predecir notas de algún buien estudiante, entonces sí es razonable sacar este dato.
b) Calcula el coeficient de correlació lineal entre unes i altres notes i interpreta el seu valor.
El coeficiente de correlación (de moemento con todos los datos) se puede calcular como:
cor(parcial,final)
[1] 0.5903886
Si queremos verificar si es significativamente distinto de cero (recordad que tenemos pocos datos) hacemos el test:
cor.test(parcial,final)
Pearson’s product-moment correlation
data:
parcial and final
t = 2.6374, df = 13, p-value = 0.0205
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.1119976 0.8466082
sample estimates:
cor
0.5903886
La relación lineal se pone de manifiesto en el valor moderado del estimador r = 0,59, y el p-valor nos
lleva a rechazar H0 : ρ = 0.
Si quitamos del análisis al estudiante número 8, obtendremos una relación más fuerte.
>parcial2=parcial[-8]
>final2=final[-8]
> cor.test(parcial2,final2)
Pearson’s product-moment correlation
data:
parcial2 and final2
t = 4.0336, df = 12, p-value = 0.001658
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3816822 0.9192134
sample estimates:
cor
0.7586295
c) Determina la recta d’ajust pel mètode dels quadrats mínims.
Para todos los datos tenemos
> ajuste1=lm(final~parcial)
summary(ajuste1)
Call:
lm(formula = final ~ parcial)
Residuals:
Min
1Q
Median
3Q
Max
-29.526
-7.326
3.086
12.674
19.497
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
parcial
25.5977
17.2843
1.481
0.1624
0.6059
0.2297
2.637
0.0205 *
2
--Signif. codes:
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
Residual standard error: 15.97 on 13 degrees of freedom
Multiple R-squared: 0.3486,Adjusted R-squared: 0.2984
F-statistic: 6.956 on 1 and 13 DF,
p-value: 0.0205
Esto confirma el resultado anterior. Se rechaza H0 : β1 = 0 (test t) , y también se rechaza con el test
equivalente H0 :“ el modelo y = ȳ describe bien los datos”.
Observar que los residuos lucen bastante asimétricos.
Si quitamos el dato del estudiante 8, las conclusiones son más fuertes.
De ahora en adelante nos quedaremos con este modelo, el que no toma en cuenta las calificaciones del
estudiante 8.
>ajuste12=lm(final2~parcial2)
Call:
lm(formula = final2 ~ parcial2)
Residuals:
Min
1Q
Median
3Q
Max
-21.533 -10.540
2.975
6.628
20.135
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -31.7123
parcial2
1.3321
25.6703
-1.235
0.3302
4.034
0.24033
0.00166 **
--Signif. codes:
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
Residual standard error: 13.14 on 12 degrees of freedom
Multiple R-squared: 0.5755,Adjusted R-squared: 0.5401
F-statistic: 16.27 on 1 and 12 DF,
p-value: 0.001658
d) Un estudiant del mateix grup va obtenir una puntuació de 80 en el primer examen. No es va poder
presentar a l’examen final. A la vista del comportament del grup, ¿quina nota creieu que podia esperar
en l’examen final? ¿Com s’interpreta aquest valor?
Buscamos un intervalo de predicción porque se trata de una observación NUEVA.
datos=data.frame(parcial2=80)
# d\’onde queremos la predicci\’on?
predict(ajuste12,newdata=datos,interval="prediction")
fit
lwr
upr
3
1 74.85335 45.13233 104.5744
De acuerdo con lo anterior, el valor predicho de la nota en el examen final para el estudiante que sacó 80
en el parciale es de 74.85. Con una confianza del 95 % su nota habría estado entre 45 y 100.
e) Estudia els residus i comenta sobre la adecuació del model.
Para hacer los gráficos de residuos usamos las instrucciones
par(mfrow=c(2,2)) # para tener los 4 graf en la misma ventana
plot(ajuste12)
Normal Q-Q
8
60
70
80
1.5
0.5
13
8
90
-1
1
Scale-Location
Residuals vs Leverage
2
Theoretical Quantiles
1
0.5
0
Standardized residuals
0.8
0.4
6
8 distance
Cook's
-2
60
70
1
3
13
-1
1.2
8
3
50
0
Fitted values
0.0
Standardized residuals
50
3
-0.5
0
-10
13
-20
Residuals
10
Standardized residuals
3
-1.5
20
Residuals vs Fitted
80
90
0.00
Fitted values
0.10
0.20
0.5
1
0.30
Leverage
Se observa un problema de heterocesdasticidad. Los residuos tienen menor varianza cuanto más alta la
nota (lo cual, en realidad no es sorprendente. Para arreglar este problema se puede intentar una transformación estabilizadora de varianzas. Este tipo de transformaciones (por ejemplo las de Box-Cox) están
fuera del alcance de este curso. Presentamos una transformación que, si bien no mejora el porcentaje
de variabilidad explicada por el modelo, y tiene una interpretación menos directa, soluciona en buena
medida el problema de las varianzas.
ajuste13=lm((final2)^2~parcial2)
summary(ajuste13)
Call:
lm(formula = (final2)^2 ~ parcial2)
Residuals:
Min
1Q
Median
3Q
Max
-2557.02
-761.70
75.09
1167.16
2558.75
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -7968.44
3335.84
-2.389
4
0.03421 *
parcial2
173.22
42.92
4.036
0.00165 **
--Signif. codes:
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
Residual standard error: 1708 on 12 degrees of freedom
Multiple R-squared: 0.5759,Adjusted R-squared: 0.5405
F-statistic: 16.29 on 1 and 12 DF,
p-value: 0.001650
2. (Moore, exercici 10.9) Los manatís son criaturas marinas grandes y apacibles que viven a lo largo de la costa
de Florida. Las lanchas motoras matan o lastiman muchos manatís.
En http://pascal.upf.edu/estad/dades/manatis.dat están los datos sobre las lanchas motoras registradas (en miles) (V2) y el número de manatís muertos por las lanchas (V3) en Florida en los años de 1997 a
1990.
a) Dibuja un diagrama de dispersión que muestre la relación entre el número de lanchas motoras registradas
(V2) y los manatís muertos (V3) (¿cuál es la variable explicativa?).
manati=read.table("http://pascal.upf.edu/estad/dades/manatis.dat")
attach(manati)
V3
20
30
40
50
plot(V2,V3)
450
500
550
600
650
700
V2
b) ¿ El aspecto general de la relación entre las variables es aproximadamente lineal? ¿Existen observaciones
atípicas claras o observaciones influyentes fuertes?
Esta claro a partir del plot de V1 contra V2 que la relación entre el número de manatíis muertos y el
número de lanchas es lineal, con pendiente positiva (a más lanchas, más manatís muertos). La variable
explicativa es el número de lanchas. No se observan datos atípicos ni puntos potencialmente influyentes.
Sólamante el número de manatis muertos en los años 1980 y 1983 son un poco mas bajos que lo que cabría
esperar, pero habrá que esperar a hacer el análisis de residuos del modelo ajustado para ver si realmente
se trata de outliers o no (residuos "grandes").
5
c) Calcula el modelo de regresión con lm. ¿Qué indica R2 = 0,886 a propósito de la relación entre lanchas y
manatís muertos?
ajuste2=lm(V3~V2)
summary(ajuste2)
Call:
lm(formula = V3 ~ V2)
Residuals:
Min
1Q
Median
3Q
Max
-9.24681 -2.02166
0.02172
2.33692
5.63275
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -41.4304
7.4122
-5.589 0.000118 ***
V2
0.0129
9.675 5.11e-07 ***
0.1249
--Signif. codes:
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
Residual standard error: 4.276 on 12 degrees of freedom
Multiple R-squared: 0.8864,Adjusted R-squared: 0.8769
F-statistic: 93.61 on 1 and 12 DF,
p-value: 5.109e-07
En efecto se puede observar que la variable V2, numero de lanchas es un buen predictor para el numero
de manatis muertos (V3). Se rechaza H0 : β1 =0 con un p-valor bajisimo (5.11e-07) en la prueba t y en
la prueba F que en el caso de la regresion lineal simple es equivalente (F-statistic: 93.61 on 1 and 12 DF,
p-value: 5.109e-07 ).
El valor de R2 = ,886indica que el 88,6 % de la variabilidad en el número de manatis muertos está explicado por el número de lanchas registradas.
d) Explica lo que significa, en esta situación, la pendiente β1 de la verdadera recta de regresión. Luego da un
intervalo de confianza del 90 % para β1.
El valor de β1 representa el incremento en el numero de manatis muertos al aumentar el numero de
lanchas en mil (es decir, cuando V2 aumenta 1 unidad). Si aumentan las lanchas en 1 millar, se espera un
aumento de la muerte de los manatíes en 1 * 0.1249 = 0.1249 manatíes, o equivalentemente, si se aumenta
en número de lanchas en 10 millares, se espera un aumento de la muerte de los manatíes en 10 * 0.1249 =
1,249 manatíes.
e) Si Florida decidiera congelar el número de lanchas registradas en 700.000, ¿cuántos manatís predices que
matarían las lanchas motoras cada año?
La predicción del número de manatis muertos si el número de lanchas es 700,000 se obitiene como:
V̂ 3 = β̂0 + β̂1 V 2 de modo que es
6
y700=ajuste2$coef[1]+ajuste2$coef[2]*700
y700
(Intercept)
45.97275
Es decir, unos 46 manatis muertos al año.
f ) Pide a R la predicción para x = 700. ¿ Coincide con la que habías obtenido tú?
Sí coincide, ver respuesta de la pregunta siguiente.
g) Da un intervalo de predicción del 95 % para la media de manatís que morirían cada año si Florida congelara el número de licencias en 700.000.
La predicción y el intervalo con R se obtienen con
datos=data.frame(V2=700)
predict(ajuste2,newdata=datos,interval="prediction")
fit
lwr
upr
1 45.97275 35.6337 56.31179
La predicción coincide con la obtenida a partir de los estimadores, y el intervalo nos predice que el número de manaties muertos al año estaría entre 36 y 56 si se congelara el número de lanchas en 700mil.
h) Finalmente, estudia la adecuación del modelo ajustado: ¿se cumplen las suposiciones iniciales?
El gráfico de residuos frente a valores predichos muestra una leve heterocesdasticidad, pero no se ve tan
acusada en el grafico de residuos estandarizados. La suposición de normalidad de los errores parece no
violarse.
Como en el ejercicio anterior, con plot(ajuste2) obtenemos los 4 gráficos:
Residuals vs Fitted
1
0
-2
-1
Standardized residuals
5
0
25
30
35
40
7
45
-1
0
1
Fitted values
Theoretical Quantiles
Scale-Location
Residuals vs Leverage
7
1
0
1.0
0.5
0.5
2
-1
Standardized residuals
3
8
3
0.5
-2
Residuals
-5
-10
1.5
20
8
3
7
15
1
7 distance
Cook's
0.0
Standardized residuals
Normal Q-Q
8
3
15
20
25
30
35
40
45
Fitted values
0.00
0.05
0.10
0.15
0.20
0.25
Leverage
3. La siguiente tabla presenta algunos datos del número de líneas telefónicas por cada 1.000 individuos (Y ) y el
producto bruto interno per cápita (X) para Singapur en el período de 1966 a 1981 (16 años).
7
Año
1966
1967
1968
..
.
Y
48
54
59
..
.
X
1589
1757
1974
..
.
1979
1980
1981
262
291
317
4628
5038
5472
Con estos datos tenemos las siguientes estimaciones:
media de X = 3334,6
varianza de X = 1,380 × 106
covarianza entre Xe Y = 1,003 × 105
media de Y = 145,7
varianza de Y = 7697,4
a) Si suponemos una relación lineal entre X e Y (Y = β0 + β1 X + ε), estimar β0 y β1 por mínimos cuadrados
y analizar la bondad del ajuste.
A partir de los datos tenemos:
meanx=3334.6
meany= 145.7
varx = 1.380*1000000
vary= 7697.4
covxy= 1.003* 100000
Calculamos la correlación entre x e y para estimar β1
r=covxy/(sqrt(varx*vary))
beta1=r*sqrt(vary)/sqrt(varx)
beta0=meany-beta1*meanx
beta1
[1] 0.07268116
beta0
[1] -96.6626
De modo que el modelo ajustado es y = −96,6626 + 0,07268116x.
b) Si los errores ε son normales con media 0 y varianza σ 2 , dar un intervalo de confianza 90 % para β1 .
Para calcular el error estandard de β̂1 usamos la fórmula de la tabla de la página 13 de la Guía 7:
Recordemos que σ 2 se estima con SSE/(n − 2), donde
SSE = SST − β̂1 Sxy = SST-SSR
y que la varianza de β̂1 es σ 2 /SSxx , de manera que se estima con MSE/SSxx .
n=16
sst=(n-1)*vary
# suma de cuadrados total
8
ssxy=(n-1)*covxy #suma de prod (x-mean(x))(y-mean(y))
ssr=beta1*ssxy # suma de cuadrados debida a la regresion
sse=sst-ssr
# suma de cuadrados de error
mse=sse/(n-2) # estimacion de sigma2
sterr=sqrt(mse/((n-1)*varx)) # desv del estimador de beta1
beta1+sterr*qt(c(0.05,0.95),14) # intervalo de confianza
[1] 0.06459234 0.08076998
c) ¿Tenemos suficiente evidencia para rechazar la hipótesis de dependencia lineal entre Y y X?
A pesar de que el los valores razonables para β1 son cercanos a 0, son todos positivos, de modo que
rechazaríamos H0 : β1 = 0 con nivel 10 % y por lo tanto no tenemos suficiente evidencia para descartar la
relación entre x e y.
4. En 1929 el científico Edwin Hubble investigó la relación existente entre la distancia de una galaxia a la tierra y la
velocidad a la que parecía alejarse de ella. En cualquier dirección que se mire, las galaxias parecen alejarse de
la tierra, y esto es congruente con la teoría del Big Bang. Hubble esperaba obtener alguna información de como
se había formado el universo y qué podía esperarse que sucediera en el futuro.
Llamando v a la variable velocidad de alejamiento de la tierra (velocidad) y d a la distancia a la tierra (distancia),
la ley de Hubble se enuncia como
v = hu d
donde hu es la constante de Hubble que pensó que valdía alrededor de 75 km/seg/M pc. Aparte de validar la ley
y estimar hu , es interesante estimar la cantidad
1
hu ,
que representaría la edad del universo.
La velocidad está medida en km/seg y la distancia en megaparsec (1 parsec = 3,26 años luz).
Para realizar este estudio se ajustan los dos siguientes modelos
yi = β0 + β1 xi + εi
e yi = β1 xi + εi
i = 1, . . . , 19
donde y es la variable velocidad y x la variable distancia. Ambos modelos aparecen representados sobre el
siguiente diagrama de dispersión.
plot(d,v)
abline(hubble.lm.1)
abline(hubble.lm.2,col="blue",lty=2)
9
150
v
100
50
0.0
0.5
1.0
1.5
2.0
d
a) Teniendo en cuenta el diagrama anterior, cuál de los dos modelos te parece más adecuado?
Aparentemente es más adecuado el modelo 2, que pasa por el origen.
b) Qué contraste crees que te puede servir para descartar uno de los modelos y continuar trabajando con el
otro? Búsca información en las siguientes salidas obtenidas con R.
Uno de los contrastes que sirve es el H0 : β0 = 0 en el primer modelo.
Observamos que el p-valor es 0.134271 de modo que no rechazamos la hipótesis, y de ahora en adelante
usaremos el segundo modelo, que además tiene R2 más grande y tiene la forma adecuada a la ley de
Hubble enunciada.
> hubble.lm.1=lm(v~d)
> summary(hubble.lm.1)
Call:
lm(formula = v ~ d)
Residuals:
Min
1Q
Median
3Q
Max
-58.265 -18.238
-3.852
16.314
74.607
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
23.55
14.98
1.572 0.134271
d
60.46
12.24
4.938 0.000125 ***
--Signif. codes:
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
Residual standard error: 33.54 on 17 degrees of freedom
10
Multiple R-squared: 0.5892,Adjusted R-squared: 0.5651
F-statistic: 24.38 on 1 and 17 DF,
p-value: 0.0001248
> hubble.lm.2=lm(v~d-1)
>
> summary(hubble.lm.2)
Call:
lm(formula = v ~ d - 1)
Residuals:
Min
1Q
Median
3Q
Max
-67.748 -11.935
1.532
30.412
81.643
Coefficients:
Estimate Std. Error t value Pr(>|t|)
d
76.98
6.54
11.77 6.89e-10 ***
--Signif. codes:
0 *** 0.001 ** 0.01 * 0.05 . 0.1
1
Residual standard error: 34.88 on 18 degrees of freedom
Multiple R-squared: 0.885,Adjusted R-squared: 0.8786
F-statistic: 138.5 on 1 and 18 DF,
p-value: 6.891e-10
>cor(v,d)
[1] 0.7676052
> cor.test(v,d)
Pearson’s product-moment correlation
data:
v and d
t = 4.9381, df = 17, p-value = 0.0001248
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.4811509 0.9059515
sample estimates:
cor
0.7676052
En base a las tablas anteriores responde las siguientes preguntas:
11
1) Señala en los resultados la estimación de todos los parámetros desconocidos de los dos modelos.
>Cuál es el significado de β̂1 en el segundo modelo?
Es la estimación de la pendiente de la recta, de modo que corresponde a la estimación de la constante de Hubble.
De este modo, estamos estimando h con 76.98.
2) Utiliza los resultados obtenidos para estimar la edad del universo.
De acuerdo con el enunciado, la edad del universo está dada por 1/h, tenemos que poner todas las cantidades en
las mismas unidades, teniendo en cuenta que 1 parsec=3.26 años luz, un año luz son 9454254955488 km, de modo
que 1 parsec son 3,082087 × 101 3km. Un Megaparsec entonces equivale a 3,082087 × 101 9 km. Además, un año tiene
525600 segundos Entonces,
3,08 × 101 9
3,08 × 101 9
sec =
= 7,612327105 millones de años.
76,98
76,98 ∗ 525600
3) Di cuales son las hipótesis del test realizado con la función cor.test. Con qué test de los obtenidos con la función
summary coincide el resultado? Es esta coincidencia casual o no? Interpreta el resultado del test.
La hipótesis nula es H0 : ρ = 0 contra la alternativa ρ 6= 0, donde ρ es el coeficiente de correlación entre
las variables v y d.
c) Se quiere comprobar la suposición de Hubble sobre la constante hu , esto es, que su valor es 75 km/seg/M pc.
Teniendo en cuenta los siguientes resultados
> 3.08*10^19/(76.98*525600)
[1] 761232730397
> 3.08/76.98
[1] 0.04001039
>
0.04001039/525600
[1] 7.612327e-08
> 3.08e19/(76.98*525600)
[1] 761232730397
>
> (23.55-75)/14.78
[1] -3.481055
> (60.46-75)/12.24
[1] -1.187908
> (76.98-75)/6.54
[1] 0.3027523
> (76.98-75)/34.88
[1] 0.05676606
> qt(c(0.995,0.99,0.975,0.95,0.90,0.1,0.05,0.025,0.01,0.005),17)
[1]
2.898231
2.566934
2.109816
[8] -2.109816 -2.566934 -2.898231
12
1.739607
1.333379 -1.333379 -1.739607
> qt(c(0.995,0.99,0.975,0.95,0.90,0.1,0.05,0.025,0.01,0.005),18)
[1]
2.878440
2.552380
2.100922
1.734064
1.330391 -1.330391 -1.734064
[8] -2.100922 -2.552380 -2.878440
1) Enuncia las hipótesis del test que habría que realizar para comprobar esta suposición.
2) ¿Cuál es el valor observado del estadístico de contraste de este test?
3) Interpreta el resultado del test.
En el segundo modelo, v = β1 d, hay que probar H0 : beta1 = 75 contra β1 > 75
4) Teniendo en cuenta los resultados anteriores construye la región crítica de nivel 0,01 para este test.
Rechazaremos H0 si el valor observado de
β̂1 − 75
76,98 − 75
=
= 0,3027523
se(β1 )
6,54
es mayor que qt(0.99,18)=2.55. Como no lo es, no rechazamos H0 y asumimos que la suposición
de Hubble es correcta. (Nota: en realidad con instrumentos de precisión se ha mostrado que el valor
de la constante es 77).
13
Descargar