Mètodes de Captació, Anàlisi i Interpretació de Dades .

Anuncio
MÀSTER DE LOGÍSTICA, TRANSPORT I MOBILITAT (UPC).
CURS 10 -11 Q1 – EXAMEN FINAL 1
Mètodes de Captació, Anàlisi i Interpretació de Dades .
(Data: 19/1/2011 16:00-19:00 h
Nom de l’alumne:
Professor responsable:
Localització:
Normativa de l’examen:
Durada:
Sortida de notes:
Revisió:
Lloc: Aula H-4.4)
Lídia Montero Mercadé
Edifici C5 D217
ES PERMÉS DE DUR ELS APUNTS de TEORIA sense NOTES
SI TAULES ESTADÍSTIQUES
ES POT DUR CALCULADORA I FORMULARI OFICIAL
3h 00 min
Abans 24 /1/11 al WEB de l’assignatura.
El 24 /1/11 a les 14:30 hores (C5-217).
Problema 1. Modelaje estadístico (4 puntos, responder sólo a 8 de los 14
apartados)
Se va a estudiar el salario en dólares por semana a partir de las variables explicativas descritas a continuación.
Description
Cross-section data originating from the March 1988 Current Population
Survey by the US Census Bureau.
Format
A data frame containing 28,155 observations on 7 variables.
wage
Wage (in dollars per week).
education
Number of years of education.
experience
Number of years of potential work experience.
ethnicity
Factor with levels "cauc" and "afam" (African-American).
smsa
Factor. Does the individual reside in a Standard Metropolitan Statistical Area
(SMSA)?
region
Factor with levels "northeast", "midwest", "south", "west".
parttime
Factor. Does the individual work part-time?
Details
A sample of men aged 18 to 70 with positive annual income greater than USD
50 in 1992, who are not self-employed nor working without pay. Wages are
deflated by the deflator of Personal Consumption Expenditure for 1992.
La variable que se quiere modelar es el sueldo semanal (wage). Se dispone de un modelo
avanzado donde el sueldo viene explicado por la experiencia, los años de educación y la raza.
> dim(CPS1988);summary(CPS1988)
[1] 28155
7
wage
education
Min.
:
50.05
Min.
: 0.00
1st Qu.: 308.64
1st Qu.:12.00
experience
Min.
:-4.0
1st Qu.: 8.0
1
ethnicity
cauc:25923
afam: 2232
smsa
no : 7223
yes:20932
Median : 522.32
Median :12.00
Mean
: 603.73
Mean
:13.07
3rd Qu.: 783.48
3rd Qu.:15.00
Max.
:18777.20
Max.
:18.00
region
parttime
northeast:6441
no :25631
midwest :6863
yes: 2524
south
:8760
west
:6091
Median :16.0
Mean
:18.2
3rd Qu.:27.0
Max.
:63.0
> cor(data.frame(wage,experience,education), use="pairwise.complete.obs")
wage experience education
wage
1.0000000 0.1942204 0.3016440
experience 0.1942204 1.0000000 -0.2867064
education 0.3016440 -0.2867064 1.0000000
>par(mfrow=c(1,2))
plot(density(wage))
curve(dnorm(x,mean(x),sd(x)),col=2,add=T)
hist(wage,freq=F,add=T)
boxplot(wage~ethnicity,main="wage~ethnicity")
library(MASS)
boxcox(wage~1)
0
5000
N = 28155
15000
-370000 -360000 -350000 -340000 -330000 -320000 -310000
log-Likelihood
0.0006
0.0000
0.0002
0.0004
Density
0.0008
0.0010
0.0012
density.default(x = wage)
95%
-2
-1
0
1

Bandwidth = 41.09
> summary(m1)
Call: lm(formula = wage ~ I(experience - 16) + I((experience - 16)^2) +
I(education - 12) + ethnicity, data = CPS1988)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
613.37695
3.43115 178.77
<2e-16 ***
I(experience - 16)
17.04257
0.24467
69.66
<2e-16 ***
I((experience - 16)^2)
-0.53957
0.01294 -41.70
<2e-16 ***
I(education - 12)
54.26492
0.86702
62.59
<2e-16 ***
ethnicityafam
-128.42173
8.80396 -14.59
<2e-16 ***
--Residual standard error: 398 on 28150 degrees of freedom
Multiple R-squared: 0.2302,
Adjusted R-squared: 0.2301
2
2
F-statistic:
2104 on 4 and 28150 DF,
p-value: < 2.2e-16
> summary(m1)
Call:
lm(formula = log(wage) ~ I(experience - 16) + I((experience 16)^2) + I(education - 12) + ethnicity, data = CPS1988)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
6.252e+00 5.035e-03 1241.84
<2e-16 ***
I(experience - 16)
3.536e-02 3.590e-04
98.49
<2e-16 ***
I((experience - 16)^2) -1.316e-03 1.899e-05 -69.31
<2e-16 ***
I(education - 12)
8.567e-02 1.272e-03
67.34
<2e-16 ***
ethnicityafam
-2.434e-01 1.292e-02 -18.84
<2e-16 ***
--Residual standard error: 0.5839 on 28150 degrees of freedom
Multiple R-squared: 0.3347,
Adjusted R-squared: 0.3346
F-statistic: 3541 on 4 and 28150 DF, p-value: < 2.2e-16
> summary(m2)
Call:
lm(formula = log(wage) ~ I(experience - 16) + I((experience 16)^2) + I(education - 12) * ethnicity, data = CPS1988)
3
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
6.252e+00 5.038e-03 1240.997
<2e-16 ***
I(experience - 16)
3.535e-02 3.590e-04
98.455
<2e-16 ***
I((experience - 16)^2)
-1.318e-03 1.901e-05 -69.339
<2e-16 ***
I(education - 12)
8.631e-02 1.309e-03
65.944
<2e-16 ***
ethnicityafam
-2.397e-01 1.304e-02 -18.379
<2e-16 ***
I(education - 12):ethnicityafam -9.648e-03 4.651e-03
-2.074
0.0380 *
> summary(m3)
Call:
lm(formula = log(wage) ~ I(experience - 16) + I((experience 16)^2) + I(education - 12) * ethnicity + region, data = CPS1988)
Coefficients:
(Intercept)
I(experience - 16)
I((experience - 16)^2)
I(education - 12)
ethnicityafam
regionmidwest
regionsouth
regionwest
I(education - 12):ethnicityafam
---
Estimate Std. Error
6.335e+00 8.227e-03
3.531e-02 3.578e-04
-1.325e-03 1.896e-05
8.530e-02 1.307e-03
-2.220e-01 1.319e-02
-8.804e-02 1.010e-02
-1.319e-01 9.642e-03
-9.122e-02 1.043e-02
-9.503e-03 4.636e-03
t value Pr(>|t|)
770.053
<2e-16 ***
98.676
<2e-16 ***
-69.880
<2e-16 ***
65.251
<2e-16 ***
-16.831
<2e-16 ***
-8.716
<2e-16 ***
-13.683
<2e-16 ***
-8.749
<2e-16 ***
-2.050
0.0404 *
Residual standard error: 0.582 on 28146 degrees of freedom
Multiple R-squared: 0.3393,
Adjusted R-squared: 0.3392
F-statistic: 1807 on 8 and 28146 DF, p-value: < 2.2e-16
> anova(m1);anova(m2)
Analysis of Variance Table
Response: log(wage)
Df Sum Sq Mean Sq
I(experience - 16)
1 839.5 839.52
I((experience - 16)^2)
1 2249.5 2249.49
I(education - 12)
1 1619.7 1619.69
ethnicity
1 121.0 121.02
Residuals
28150 9598.6
0.34
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’
Analysis of Variance Table
F value
2462.06
6597.10
4750.07
354.91
<
<
<
<
Pr(>F)
2.2e-16
2.2e-16
2.2e-16
2.2e-16
***
***
***
***
0.05 ‘.’ 0.1 ‘ ’ 1
Response: log(wage)
Df Sum Sq Mean Sq
I(experience - 16)
1 839.5 839.52
I((experience - 16)^2)
1 2249.5 2249.49
I(education - 12)
1 1619.7 1619.69
ethnicity
1 121.0 121.02
I(education - 12):ethnicity
1
1.5
1.47
Residuals
28149 9597.2
0.34
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05
>anova(m3)
Analysis of Variance Table
F value
2462.3505
6597.8755
4750.6318
354.9488
4.3033
Pr(>F)
< 2e-16
< 2e-16
< 2e-16
< 2e-16
0.03805
***
***
***
***
*
‘.’ 0.1 ‘ ’ 1
Response: log(wage)
I(experience - 16)
I((experience - 16)^2)
I(education - 12)
ethnicity
Df Sum Sq Mean Sq
F value Pr(>F)
1 839.5 839.52 2478.8692 < 2e-16 ***
1 2249.5 2249.49 6642.1373 < 2e-16 ***
1 1619.7 1619.69 4782.5013 < 2e-16 ***
1 121.0 121.02 357.3300 < 2e-16 ***
4
region
3
65.0
I(education - 12):ethnicity
1
1.4
Residuals
28146 9532.2
> summary(m4)
21.67
1.42
0.34
63.9894 < 2e-16 ***
4.2012 0.04041 *
Call: lm(formula = log(wage) ~ (I(experience - 16) + I((experience 16)^2) + I(education - 12) * ethnicity) + region + smsa + parttime)
Coefficients:
(Intercept)
I(experience - 16)
I((experience - 16)^2)
I(education - 12)
ethnicityafam
regionmidwest
regionsouth
regionwest
smsayes
parttimeyes
I(education - 12):ethnicityafam
---
Estimate Std. Error
6.196e+00 9.555e-03
2.796e-02 3.399e-04
-8.686e-04 1.828e-05
8.486e-02 1.189e-03
-2.199e-01 1.198e-02
-4.705e-02 9.222e-03
-9.850e-02 8.795e-03
-4.142e-02 9.497e-03
1.651e-01 7.305e-03
-8.806e-01 1.177e-02
-9.395e-03 4.203e-03
t value Pr(>|t|)
648.452 < 2e-16 ***
82.276 < 2e-16 ***
-47.529 < 2e-16 ***
71.399 < 2e-16 ***
-18.356 < 2e-16 ***
-5.102 3.38e-07 ***
-11.200 < 2e-16 ***
-4.362 1.30e-05 ***
22.598 < 2e-16 ***
-74.815 < 2e-16 ***
-2.235
0.0254 *
Residual standard error: 0.5275 on 28144 degrees of freedom
Multiple R-squared: 0.4573,
Adjusted R-squared: 0.4571
> summary(hatvalues(m4))
Min.
1st Qu.
Median
Mean
3rd Qu.
Max.
0.0001591 0.0002188 0.0002808 0.0003907 0.0004035 0.0108600
> quantile(hatvalues(m4),seq(0.9,1,by=0.01))
90%
91%
92%
93%
94%
95%
0.0006781513 0.0007000164 0.0007367758 0.0007727589 0.0008179242 0.0008791812
96%
97%
98%
99%
100%
0.0009763965 0.0011062511 0.0013543100 0.0017964113 0.0108632976
> pairwise.t.test(log(wage),region,pool.sd=F,p.adj = "BY")
Pairwise comparisons using t tests with non-pooled SD data:
midwest
south
west
P value
>
northeast midwest south
1.1e-14
< 2e-16
3.0e-15 1.5e-14
1
3.1e-13
adjustment method: BY
5
log(wage) and region
10
Residuals vs Leverage
15387
5
26099
0
9415
-5
Standardized residuals
(M4)
Cook's distance
0.000
0.002
0.004
0.006
0.008
0.010
Leverage
lm(log(wage) ~ (I(experience - 16) + I((experience - 16)^2) + I(education - ...
1. Indicad la variable explicativa numérica (X) más asociada con la variable de respuesta (Y) y cual
sería el coeficiente de determinación del modelo de regresión lineal simple Y ~X.
Com indica el coeficient de correlació lineal entre la resposta wage i les variables numériques,
l’educació és la correlació (positiva) de més intensitat, malgrat no gaire satisfactòria (0.30). El
coeficient de determinació del model RLS seria el quadrat de 0.3, és a dir 0.09 aproximadament.
2. Indicad cual sería el valor del estimador de la constante en el modelo nulo (Y ~1).
Seria la mitjana mostral de la resposta, és a dir, segons el resultat de summary(CPS1988) mostrat
603.73 dolars/set.
3. Argumentad si la distribución de la variable de respuesta puede considerarse aceptablemente
normal.
Òbviament no, és una distribució molt assimètrica degut als valors atípics (salaris molt, molt
elevats), sembla difícil però titllar els outliers a partir d’un llindar.
4. Interpretad el modelo (M1), indicando la expresión concreta de la relación entre el salario y las
variables explicativas cuantitativas para cada grupo étnico.
Etnia caucàssica:
613.37695 + 17.04257 * I(experience - 16) -0.53957 * I((experience - 16)^2)
+ 54.26492 *(education - 12)
Etnia Afroamericana:
ethnicityafam
(613.37695-128.42173) + 17.04257 * I(experience - 16) 0.53957 * I((experience - 16)^2)
+ 54.26492 *(education - 12)
5. Según el modelo (M1), cuál sería el salario semanal esperado para un individuo afroamericano
con experiencia y educación en la mediana muestral?
6
La mediana de l’experiència és 16 anys i la mediana de l’educació són 12 anys, per tant, només
cal considerar el terme independent de la superficie interpretada pels afroamericans.
ethnicityafam
(613.37695-128.42173) + 17.04257 * I(16 - 16) -0.53957 * I((16 - 16)^2) +
54.26492 *(12 - 12) = (613.37695-128.42173)= 484.9552 $/set
6. A la vista de los resultados del método boxcox, pensaís que es necesaria alguna transformación
para mejorar las propiedades del modelo de regresión, cuál?
Claríssimament, per tal de simetritzar la distribució de la resposta caldria fer una transformació
que segons BoxCox hauria d’estar al voltant de la potencia 0.25 (arrel quarta) ara bé com el 0 està
proper i pràcticament té el mateix valor de la funció de versemblança, la logarítmica pot ser
adecuada al trobar-se el màxim estimat pel paràmetre lambda de Box-Cox pràcticament a 0. El
resultat tampoc sembla que sigui satisfactòriament normal, però sens dubte ha millorat.
Se decide aplicar una transformación logarítmica a la variable de respuesta y se pasa a
recalcular el modelo de regresión con las variables experiencia, educación y el factor étnico.
7. Según el nuevo modelo (M1), cuál sería el salario semanal esperado para un individuo
afroamericano con experiencia y educación en la mediana muestral?
Model amb log(wage) per afam (afroamericans):
6.252e+00-2.434e-01 + 3.536e-02 * I(experience – 16) -1.316e-03 *
I((experience - 16)^2)+ 8.567e-02 * I(education - 12)
En la media de les covariants el log(wage) predit és: 6.252e+00-2.434e01=6.0086 i per tant exp(6.0086)= 406.9132 $/set seria la predicció puntual
sol.licitada, vora 80 $ per sota que la predicció facilitada pel model sense
transformar.
8. Pensáis que la relación entre el salario y la educación depende de la etnia del individuo después
de controlar por los años de experiencia? Contruir manualmente en base a los resultados
disponibles el contraste por varianza incremental de la hipótesis nula formulada.
7
Es demana per la interacció entre l’educació i el log(wage) després de controlar per l’experiència
laboral. Cal mirar els resultats del model additiu en educación i etnia (i amb els termes lineals i
quadràtic de l’experiència) i el mateix model amb addicionalment la interacció educación i etnia.
Es comparem per variança incremental formulant la hipòtesi nula que tots 2 models són
equivalents i valorant el p valor de la hipòtesi nula a partir de la distribució de Fisher de
l’estadístic calculat (comparar models M2 vs M1). La interacció consumeix 1 grau de llibertat i
també es pot resoldre la qüestió valorant la taula de la regressió on s’indiquen els p valors de les
hipótesis nul.les individuals sobre els paràmetres coeficient igual a zero. Segons aquesta darrera
opció, el p valor associat al contrast de la hipòtesi nul.la paràmetre de la interacció igual a zero té
un p valor inferior al 5% (0.0380), per tant, hi ha evidencia per rebutjar la hipòtesi nul.la i per
tant, la relació entre el salari setmanal i l’educació depèn de l’ètnia de l’individu.
9. Interpretad las curvas resultantes del modelo ANCOVA con interacciones de educación e
indicador de étnia para explicar la respuesta salario semanal.
Model amb log(wage) per cauc(caucàssics):
(6.252e+00) +3.535e-02 * I(experience - 16)-1.318e-03 * I((experience 16)^2)+(8.631e-02) * I(education – 12)
Model amb log(wage) per afam (afroamericans):
(6.252e+00- 2.397e-01) +3.535e-02 * I(experience - 16)-1.318e-03 *
I((experience - 16)^2)+(8.631e-02 -9.648e-03) * I(education – 12)=
6.0123 + 3.535e-02 * I(experience - 16)-1.318e-03 * I((experience 16)^2)+0.076662* I(education – 12)
10. Se decide trabajar con las variables explicativas numéricas educación y experiencia y
considerar la transformación logarítmica de la respuesta. Después de controlar por las
variables numéricas y etnia, pensáis que la respuesta transformada depende de la región del país
de donde residan los individuos?
Cal comparar per variança incremental el model amb i sense regió, només es disposa dels
resultats de la inclussió de la regió amb efecte principal. Es presenten els resultats del model (M2)
sense regió i del model (M3) amb regió. Aquest cop no es poden mirar els contrastos individuals
dels coeficients associats a les variables dummies emprades per incloure el factor politòmic en el
predictor lineal. Teniu les dades per construir manualment el contrast VI.
> anova(m2,m3)
Analysis of Variance Table
Model 1: log(wage) ~ I(experience - 16) + I((experience - 16)^2) + I(education
12) * ethnicity
Model 2: log(wage) ~ I(experience - 16) + I((experience - 16)^2) + I(education
12) * ethnicity + region
Res.Df
RSS Df Sum of Sq
F
Pr(>F)
1 28149 9597.2
2 28146 9532.2 3
64.969 63.946 < 2.2e-16 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
11. Elegid el mejor modelo disponible en la salida de datos del presente ejercicio.
A la vista del model (M4) on s’afegeixen sobre (M3) els factors dicotòmics SMSA i PARTTIME,
que són estadísticament significatius (en forma additiva, l’única disponible). Aquest sembla el
millor models entre els disponibles en el llistat.
8
12. Pensáis que la diagnosis del modelo (M4) es satisfactoria a partir del análisis de los residuos del
modelo.
Només hi ha un gràfic de diagnosi on es veu en ordenades els residus estandaritzats i en abscisses
el factor d’anclatge. S’observen residus estandaritzats que superem per molt el límit de +3, valor
que aproximadament pot considerar-se de referencia a la distribució quasi normal que haurien de
tenir aquests residus. Per tant, no són ni de lluny satisfactoris. L’explicabilitat del model només és
del 46%. Hi ha un problema seriós d’observacions influents i sobretot de valors atípics en la
resposta (salaris molt elevats).
13. Indicad cual es el umbral máximo del factor de anclaje a partir del cual una observación es
sospechosa a priori de condicionar los estimadores de los coeficientes del modelo?
El factor d’anclatge té una cota superior de 2 o 3 vegades el promig dels valors propis de la
matriu de projecció que aparaeix en el mètode dels mínims quadrats, és a dir, 3p/n donat que la
mostra és molt gran, hi ha més d’un 1 per cent d’observacions que superen aquest llindar.
> length(coef(m4))*3/dim(CPS1988)[1]
[1] 0.001172083
> quantile(hatvalues(m4),seq(0.9,1,by=0.01))
90%
91%
92%
93%
94%
95%
0.0006781513 0.0007000164 0.0007367758 0.0007727589 0.0008179242 0.0008791812
96%
97%
98%
99%
100%
0.0009763965 0.0011062511 0.0013543100 0.0017964113 0.0108632976
>
14. A la vista de los resultados comparativos de las medias dos a dos entre la respuesta transformada
y la región del país, pensaís que podría recodificarse la región en un número menor de categorías?
Si, sembla que l’efecte sobre brut sobre la resposta no és significativament diferent en els estats
del west i midwest, per tant, es podría intentar una agrupació d’aquests dos nivells, recalcular el
millor model disponible i comparar-lo amb l’actual per variança incremental (són models
encaixats). No es disposa de sortides de resultats com per treure cap conclusió més.
Problema 2. Incidencia de la pena capital en EEUU (1946-1950) (3 puntos)
Los datos MurderRates del paquete AER de R son un juego de datos trabajado por Maddala (2001)
que contienen indicación de las características de las ejecuciones por pena capital para 44 de los
estados de EEUU según datos de 1950. Para cada estado se dispone de: la mediana del tiempo de
reclusión (time), la mediana familiar de ingresos (income), la tasa de población activa (en porcentaje,
lfp), la proporción de población no caucásica (noncauc) y un indicador dicotómico de estado del sur
(southern). La siguiente tabla muestra los datos agregados referentes a la incidencia de ejecuciones
por pena capital según el indicador de región del Sur de EEUU o no.
Southern
No (ref)
Yes
Con Ejecuciones
(respuesta positiva)
Sin Ejecuciones
m
20
15
35
9
0
9
29
15
44
> anova(m1)
Analysis of Deviance Table
Model: binomial, link: logit
Response: I(dfex$executions > 0)
9
Terms added sequentially (first to last)
NULL
southern
>
Df Deviance Resid. Df Resid. Dev
43
44.584
1
8.6605
42
35.924
1. Calcular el modelo nulo según la transformación logit.
Manualment logodd marginal:
log(35/9)= 1.358123
> summary(m0)
Call:
glm(formula = I(dfex$executions > 0) ~ 1, family = binomial,
data = dfex)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
1.3581
0.3737
3.634 0.000279 ***
--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 44.584
Residual deviance: 44.584
AIC: 46.584
on 43
on 43
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 4
2. Estimar manualmente el modelo de regresión logística para modelar la probabilidad de
ejecuciones capitales en un estado según sea o no un estado del Sur de EEUU.
Manualment logodd referencia (southern = No):
log(20/9)= 0.7985
> log(15.0000001/0.0000001);log(15.5/0.5);log(15.005/0.005)
[1] 18.82615
[1] 3.433987
[1] 8.006701
logodd i=2, souther = Yes -> log(15/0)=Inf
Per tant, l’estimador del coeficient de la dummy per l’efecte additiu en l’escala del predictor de estat
sudista és infinit, tècnicament no convergeix el mètode dels scores per l’estimació MV.
3. La probabilidad que se produjeran ejecuciones es estadísticamente independiente de si el estado
es o no es del sur? Formular la hipótesis nula y calcular manualmente algún estadístico adecuado
de bondad del ajuste y cálculo del pvalor de la hipótesis nula.
Sigui com sigui el model M1 amb el factor SOUTHERN és un model saturat i per tant, de
deviança nula. Es pot calcular manualment la deviança o l’estadístic de Pearson pel model (M0) i
valorar el goodness of fit contrastant aquests estadístics amb una Chi quadrat de 1 grau de
10
llibertat o bé directament usar el resultat on indica que la diferencia de deviances entre el model
(M0) nul i el model (M1) amb el factor és de 8.87 unitats i per tant P(X2(2)>8.87)=0.003 inferior
al llindar del 5% habitual i per tant, hi ha evidencia per rebutjar l’equivalència entre els 2 models
i efectivament l’indicador d’estat sudista és un factor estadísticament significatiu.
4. Calcular el modelo probit nulo.
> qnorm(35/(35+9))
[1] 0.8254945
> summary(m0)
Call:
glm(formula = I(dfex$executions > 0) ~ 1, family = binomial(link =
probit),
data = dfex)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
0.8255
0.2143
3.852 0.000117 ***
5. Calcular en el modelo probit de la pena capital el estimador del coeficiente asociado a la variable
indicadora de estado sudista.
> qnorm(20/(20+9));qnorm(15/(15));qnorm(15/(15))-qnorm(20/(20+9))
[1] 0.4948732
[1] Inf
[1] Inf
> summary(m1)
Call:glm(formula = I(dfex$executions > 0) ~ southern, family
binomial(link = probit),
data = dfex)
Coefficients: Estimate Std. Error z value Pr(>|z|)
(Intercept)
0.4949
0.2434
2.033
0.042 *
southernyes
5.2551
404.9882
0.013
0.990
=
6. Pensaís que los estimadores de los parámetros muestran algún tipo de patología? Qué os lo hace
sospechar?
Clarament la classificació com estat sudista porta automàticament a una resposta positiva del
100%, és a dir, en tots ells hi ha hagut execucions, per tant, els estimadors no convergeixen per la
dummy, però la deviança residual pot seguir-se emprant.
Problema 3. Sondeo sobre Percepción de Tarifas Urbanas (3 puntos,
responder sólo a 6 de los 9 apartados)
Se desarrolla un sondeo de opinión para recoger información sobre la
proporción de usuarios del transporte urbano del Area Metropolitana de
Barcelona que recuerdan el precio de la tarifa individual de un billete
sencillo no integrado y posteriormente se les pregunta cuál es ese
precio por selección de uno entre seis intérvalos posibles presentados.
Se obtiene un porcentaje de viajeros que responden afirmativamente a
la pregunta de si recuerdan la tarifa individual del 40% (llamémoslos
viajeros atentos).
1. Si la extracción es MASCR y el tamaño muestras fuera de 100
usuarios, determinar el intérvalo de confianza del 95% para el
verdadero porcentaje de viajeros atentos en la población de usuarios?
11
L’error absolut al nivel de confíança del 95% per una proporció en mostreig ASCR seria amb
pˆ  0.4 , n=100, N  
 n 1
EA y   EA pˆ   z 0.975 1  S ' 2  1.96
 N n
pˆ 1  pˆ 
0.41  0.4 
 1.96
 0.097 .
n-1
99
L’interval de confiança al 95% pel veritable valor de la proporció d’usuaris atents a la població
d’usuaris seria de 0.4±0.097.
2. Si la extracción es MASSR y el tamaño muestras fuera de 100 usuarios, determinar el intérvalo
de confianza del 95% para el verdadero porcentaje de viajeros atentos en la población de
usuarios, si la dimensión del universo fuera de N=5000 usuarios?
L’error absolut al nivel de confíança del 95% per una proporció en mostreig ASSR seria amb
pˆ  0.4 , n=100, N  1500000
 100  0.41  0.4 
 n  pˆ 1  pˆ 
 n 1
 0.0955 .
 1.96 1
EA y   EA pˆ   z 0.975 1  S ' 2  1.96 1 

N
n
1
99
N
n
 5000 




L’interval de confiança al 95% pel veritable valor de la proporció d’usuaris atents a la població
d’usuaris seria de 0.4±0.0955.
3. Si la extracción es MASSR y el tamaño muestras fuera de 100 usuarios, determinar el intérvalo
de confianza del 95% para el verdadero porcentaje de viajeros atentos en la población de
usuarios, si la dimensión del universo se considera infinito?
Una población infinita equival a emprar el formulari d’un MASCR en comptes del MASSR, per tant,
els resultats seran els mateixos que en l’apartat 1, l’interval de confiança al 95% pel veritable valor
de la proporció d’usuaris atents a la població d’usuaris seria de 0.4±0.097.
4. Si la extracción es ASCR, cuántas personas han de ser interrogadas para poder decir con un nivel
de confianza del 95% que el verdadero porcentaje de viajeros atentos en la población no se desvía
más de 5 puntos del estimador puntual?
L’error absolut al nivel de confíança del 95% per una proporció en mostreig ASCR seria amb
pˆ  0.4 i N  
 n 1
EA y   EA pˆ   z 0.975 1  S ' 2  1.96
 N n
pˆ 1  pˆ 
0.41  0.4 
0.96
 1.96

 0.05  n  369.8  370
n-1
n-1
n 1
.
5. Si la extracción es ASSR, cuántas personas han de ser interrogadas para poder decir con un nivel
de confianza del 95% que el verdadero porcentaje de viajeros atentos en la población no se desvía
más de 5 puntos del indicador muestral (N=3.500.000) .
L’error absolut al nivel de confíança del 95% per una proporció en mostreig ASSR seria amb
pˆ  0.4 i N  3500000
pˆ 1  pˆ 
0.41  0.6 
0.96
 n 1
EA y   EA pˆ   z 0.975 1  S ' 2  1.96
 1.96

 0.05  n   369.8 . I
n  1
n  1
 N n
n  1
d’aquí
n
369.8
n

 369.8  370
369.8
1  3500000
 
1  nN


6. Si la extracción es ASSR, cuántas personas tendrían que ser interrogadas para poder decir con un
nivel de confianza del 90% que el verdadero porcentaje de viajeros atentos en la población no se
desvía más de 5 puntos del indicador si la población tuviera un tamaño de N=1.500.000
habitantes.
12
L’error absolut al nivel de confíança del 90% per una proporció en mostreig ASSR seria amb
pˆ  0.4 i N  1500000
pˆ 1  pˆ 
0.41  0.4
0.808
 n 1
EA y   EA pˆ   z 0.95 1  S ' 2  1.65
 1.65

 0.05  n   262.15 .
n  1
n  1
 N n
n  1
I d’aquí
n
262.15
n

 262.15  263
262.15
1  1500000
 
1  nN


7. Calcular el error relativo que se obtendría de una muestra 500 individuos en una población de
N=3.500.000 habitantes para la proporción de viajeros atentos si se obtiene un valor muestral del
40%, al 95% de confianza.
L’error relatiu al nivel de confíança del 95% per una proporció en mostreig ASSR seria amb
pˆ  0.4 i N  3500000
 n  pˆ 1  pˆ  ˆ
 n  1  pˆ 
p  z0.975 1 
ER pˆ   EA pˆ  pˆ  z0.975 1 

 N  n-1
 N  pˆ n - 1
500  1  0.4 
 n  1  pˆ 

 z 0.975 1 
1.96 1
 0.108  11% Error relatiu

 N  pˆ n - 1
 3500000  0.4500 - 1
8. A los viajeros que responden afirmativamente a la pregunta de si conocen la tarifa de un billete
simple, se les pide que indiquen en qué rango de los mostrados se encuentra el verdadero valor de
esa tarifa. Los rangos muestrados son 0.5€ a 0.74€, 0.75€ a 0.89€, 0.9 a 1.14€, 1.15 a 1.34 €,
1.35€ a 1.75€ y más de 1.75€. Sólo un 60% define el rango correcto para el verdadero valor de la
tarifa individual para 1 corona (el verdadero valor se sitúa en 1,0€ para el billete sencillo en
2002). Cuál es el error relativo para la proporción de viajeros que perciben correctamente la tarifa
si el tamaño muestral es de 500 observaciones (suponer una población infinita)?
L’error relatiu al nivel de confíança del 95% per una proporció en mostreig ASSR seria amb
pˆ  0.4  0.6  0.24 i N  3500000 (o infinit directament)
 n  pˆ 1  pˆ 
 n  1  pˆ 
pˆ  z 0.975 1 
ER pˆ   EA pˆ  pˆ  z 0.975 1 

 N  n-1
 N  pˆ n - 1
0.76  0.156  16% Error relatiu
 n  1  pˆ 
 z 0.975 1 
1.96
0.24500 - 1
 N  pˆ n - 1
9. Cuál debería ser el tamaño muestral para conseguir un error relativo inferior al 5% en la
estimación del rango de la verdadera tarifa a nivel de confianza del 95%, si el coeficiente de
variación de la proporción de individuos conocedores de la tarifa sencilla toma por valor 3.
1
 n 1
2
2
ER y   EA y  y  z1 2 V  y  y  z1 2 1  CV Y   z1 2
CV Y   
n
 N n
n 
z12 2
2
CV Y 
2
1.96 2 2

3  13830
0.05 2
13
14
Descargar