Subido por Eduardo Baltra Rojas

Prueba 3 Estadistica II 02 2017

Anuncio
Pep 3
Estadística II
1. Un corredor de bienes raíces estudió la relación entre X= ingreso anual (en millones de pesos)
de los compradores de residencias e Y= precio de venta de la residencia (en millones de
pesos). Se obtuvieron datos de las solicitudes hipotecarias correspondientes a 24 profesionales
de distintas empresas. El resumen de algunos resultados son:
n  24
24
x
i 1
24
y
i 1
2
i
i
 942.5
 347868.9
24
x
i 1
2
i
 39915.5
i
 116392.8
24
x y
i 1
i
24
y
i 1
i
 2830.6
a. Calcule el coeficiente de correlación de Pearson e interprete su valor.
b. Estime el modelo de regresión lineal adecuado e interprete los coeficientes estimados.
c. Construya la tabla ANOVA y realice la prueba de significancia del modelo con un nivel de
significación del 5%.
2. En el artículo “Chemithermomechanical Pulp from Mixed High Density Hardwoods” (TAPPI, julio
de 1988: 145-146) se describe un estudio en el que se obtuvo los siguientes datos para
relacionar Y = área superficial específica (cm3/g) con X1 = % de NaOH utilizado como
tratamiento químico previo y X2 = tiempo de tratamiento (min) para un lote de pulpa.
X1
X2 Y
3
30
5.95
3
60
5.60
3
90
5.44
9
30
6.22
9
60
5.85
9
90
5.61
15
30
8.36
15
60
7.30
15
90
6.43
a) Estime el modelo de regresión lineal múltiple para estos datos, e interprete los coeficientes
estimados.
b) ¿Qué proporción de la variabilidad observada en el área superficial específica es explicada
mediante la relación del modelo?
c) ¿El modelo al parecer especifica una relación útil entre la variable dependiente y los
predictores? Use un nivel de significación del 5%.
d) ¿Es él % de NaOH significativo? ¿Es el tiempo de tratamiento significativo? Use un nivel de
significación del 5%.
e) Como el valor del coeficiente de determinación aumenta conforme se añaden más términos
y la SCT siempre permanece constante, es por esta razón que se sugiere una media
alternativa que tome en cuenta el número de términos que figuran en el modelo. Esta
medida recibe el nombre de coeficiente de determinación ajustado y su valor es 𝑅𝐴2 = 1 −
𝑛−1 𝑆𝐶𝐸
( )
. Determine este valor y compárelo con el coeficiente de determinación.
𝑛−𝑝 𝑆𝐶𝑇
f) Realice la validación de supuestos.
3. El siguiente conjunto de datos era tomado sobre grupos de trabajadoras de Inglaterra y Galés
en el período de 1970-72. Cada grupo está formado por trabajadores de la misma profesión
(médicos, trabajadores textiles, decoradores,...etc,) y en cada uno de los veinticinco grupos
muestreados se han observado dos variables: el índice de estandarizado de consumo de
cigarrillos (variable regresora x) y el índice de muertes por cáncer de pulmón (variable
dependiente y). (Occupational mortality: the registar general’s decennial supplement for England
and Wales, 1970-72, series Ds, n.1, London:HMSO,149).
a) Estudiar el modelo de regresión lineal del índice de mortalidad frente al índice de
fumadores interpretándolos parámetros estimados.
b) Calcular la tabla ANOVA. Conclusiones.
c) Realice las pruebas de significancia de los parámetros estimados.
d) Determine el coeficiente de determinación e interprete su valor.
e) Comprobar si se verifican las hipótesis del modelo.
x
77
137
117
94
116
102
111
93
88
y
84
116
123
128
155
101
118
113
104
x
102
91
104
107
112
113
110
125
y
88
104
129
86
96
144
139
113
x
133
115
105
87
91
100
76
66
y
146
128
115
79
85
120
60
51
4. Con los datos del archivo Problema 5-2.xlsx estudiar la regresión de la variable respuesta
“millas por galón” (inversa del consumo) respecto a las variables regresoras: precio, peso,
desplazamiento, potencia (caballos de vapor) aceleración y número de cilindros.
Utilizando el algoritmo de “regresión paso a paso” obtener las variables regresoras que
deben entrar.
b) Utilizando diferentes medidas indicar el mejor modelo de regresión de todos los posibles
c) Trabajando con el mejor modelo de regresión lineal seleccionado en el apartado anterior
¿los estimadores contraídos proporcionan mejores resultados que los estimadores
pormínimos cuadrados?
d) Introduciendo algún término cuadrático ¿se puede mejorar el modelo de regresión?
e) Estudiar el modelo de regresión lineal simple de la variable respuesta “millas por galón”
respecto al “peso” pero teniendo en cuenta el origen del auto.
5. En el archivo Problema-5-14 se presentan datos de contaminación atmosférica en 41 ciudades
de EEUU relativos a los años 1969-71. La variable de interés es Y =“contenido deSO2 en el aire
en microgramos por metro cúbico” y se desea estudiar su relación con seis variables
regresoras, dos relativas a ecología humana y cuatro al clima. Son las siguientes:
a)
X1=“temperatura media anual en grados Farenheit”.
X2=“número de fábricas con más de 20 empleados”
X3=“número de habitantes, en miles”
X4=“Velocidad media del viento al año en millas por hora”
X5=“precipitación media anual en litros por pulgada”
X6=“número medio de días con lluvia al año”
El objetivo del estudio es encontrar un modelo de regresión múltiple que explique
adecuadamente el comportamiento de la variable Y, mediante el proceso de selección de
variables:
a) hacia adelante, mostrando todos los pasos del algoritmo.
b) hacia atrás, mostrando todos los pasos del algoritmo.
Del modelo resultante en a) y b), realice prueba de significancia del modelo, inferencia sobre los
parámetros estimados, interpretación de los parámetros estimados, validación de los supuestos
del modelo y determine la calidad de ajuste.
Descargar