Subido por Fernanda Alban

Modelos Lineales

Anuncio
NOTA:Para este trabajo utilizaremos R como soporte.
Ejercicio 1. El siguiente modelo puede ser usado para estudiar si los gastos en campaña afectan los
resultados de una elección:
vote(A)
=
β0 + β1log(expendA) + β2log(expendB) + β3prtystrA + µ
(1)
Donde voteA es el% de votos recibidos por el candidato A, expenda y expendB son los gastos en
campaña de cada candidato y prtystrA es una medida en porcentaje de la fuerza del partido del
candidato A.
a) Estime el modelo usando la base EJERCICIO1 y reporte los resultados.Los gastos de A afectan
los resultados? Y los gastos de B?
El modelo estimado está dado por:
voteA\ =
45,09 + 6,081log(expendA) − 6,616log(expendB) + 0,152prtystrA
(3,93)
(0,382)
(0,379)
R2 = 0,7925
(0,062)
n = 173
Ahora procederemos a realizar las pruebas de hipótesis de ambas colas sobre β1,β2 y β3 al 5%
para analizar su nivel de significancia.
H0 : β1 = 0
Para este modelo tenemos n − #parametros´ = 173 − 4
Teniendo 169 grados de libertad, entonces se utiliza el percentil P5% = 1,974.
Por tanto
0.
5%,
es decir, H0 se rechaza, por lo tanto se tiene que β1 es distinto de
Ahora realizamos las pruebas de hipótesis para β2.
Consideremos como hipótesis nula H0 :
β2 = 0, entonces
Entonces 17,456 > P5% por tanto, no se rechaza H0.
Finalmente consideremos H0 : β3 = 0, entonces
5%
Por tanto se rechaza H0,por lo tanto se tiene que β3 es distinto de 0.
Notemos queen cualquier caso se rechaza la hipótesis nula de que βi = 0 con i = 1,2,3, dado
esto podemos responder a las preguntas expuestas en el enunciado.
¿Los gastos en A afectan el número de votos en B?
Observamos que las hipótesis nulas para β1 y β3 se rechazaron, entonces estos tienen
significancia en el modelo, por lo tanto, los gastos en A si influyen en el número de votos
de B.
¿Los gastos en B afectan el número de votos en A?
Notemos como en el inciso anterior que la hipótesis nula β2 sea igual a 0 se rechaza,
entonces β2 si tiene significancia en el modelo, por lo que los gatos en B afectará en el
número de votos que se obtendra en A.
b) ¿Cuál es la interpretación de β1?
Teniendo esta expresión
Donde β1 es la variación porcentual de los votos en A el 1% en la variación de los gastos de
campaña de A.
En otras palabras, manteniendo constantes es decir sin cambio al pasar el tiempo los gastos de
campaña de la lista B y el porcentaje de votos anteriores para la lista A. Se tiene que los votos
en A varían en
puntos por una unidad porcentual en los gastos de campaña de A.
c) Pruebe la hipótesis nula de que 1% de aumento de gastos de A está compensado por 1%de
crecimiento de gastos de B. Se podrían usar los resultados de a) para probar la prueba de
hipótesis planteada?
La hipótesis nula a considerar será:
H0 : β1 = −β2
O expresandolo de la siguiente manera
H0 : β1 + β2 = 0
Al querer realizar el cálculo, podemos darnos cuenta q pues no disponemos de la desviación
estándar de
.
d) Estime un modelo que directamente devuelva el estadístico t para probar la hipótesis del Ítem
c).Qué concluye? (use una prueba de dos colas)
Consideremos α = β1 + β2, entonces β1 = α − β2 y reemplazando en el modelo (1) se tiene que:
vote(A)
= β0 + αlog(expendA) + β2 [log(expendB) − log(expendA)] + β3prtystrA + µ
Por tanto
voteA\ =
45,09 − 0,532log(expendA) − 6,616 [log(expendB) − log(expendA)] + 0,152prtystrA
(3,93)
(0,533)
(0,379)
De donde αb = −0,532 y deb (αb) = 0,5333.
1
(0,062)
Trabajando al 5% se tiene que
Entonces
, por lo que no se rechaza H0 : α = 0.
2
¿Cuáles son las conclusiones?
Al realizar las pruebas en los Item anteriores sepuede notar que aunque exista un
incremento de 1% en gastos en A no va ha compensar por un 1% en gastos en B.
Ejercicio 2. El salario mediano para recién graduados es determinado por
log(salary) = β0 + β1LSAT + β2GPA + β3log(libvol) + β4log(cost) + β5rank + µ
Donde LSAT es la nota mediana de la universidad de los graduados, GPA es la nota mediana del
colegio de los graduados, libvol es el número de volúmenes en la biblioteca de los graduados, cost
es el costo anual de la universidad, y Rank es el ranking en el que está situado la universidad,
siendo Rank = 1 el mejor.
a) Explique porque se espera un β5 sea menor o igual a 0?
Consideremos la hipótesis nula H0 : β5 = 0.
Tenemos n−#parametros´ = 136−6 = 130 grados de libertad y considerando al 5% de
confianza, se tiene que P5% ≈ 1,96.
Además
Entonces
|tβb5| > P5%
, por lo cual el ranking si es significativo en el promedio de salario a ganar para una estudiante
que se graduará.
En efecto, se esperará que β5 sea menor o igual a 0, pues con un ranking cada vez mas alto,
significa que la escuela posee menos prestigio, tomando como ejemplo el escoger entre 15
universidades y tomamos la que esta posicionada con un ranking de 10 esto nos indica que 9
universidades son mejores que esta, siendo la que tiene ranking 1 la mejor.
b) ¿Qué signo se espera para los otros parámetros?Explique
Para β0 se esperará que sea positivo o al menos 0, ya que no se debe tener ganancias
negativas tras haber culminado los estudios en una universidad.
Para los coeficientes β1 y β2 se esperará que sean positivas, ya que están relacionadas con
las calificaciones del estudiante en la universidad, por tanto se esperá que un estudiante
con calificaciones altas ganara más que otro estudiante que posea calificaciones bajas o al
menos nenores al estudiante con notas altas.
El coeficiente β3 se esperá que sea positivo, porque esta relacionado al número de
volúmenes en la biblioteca, al explicar esto tenemos que, los estudiantes que asistan a
3
dicha universidad tienen acceso a más información que los estudiantes que asistan a una
universidad con un catalogo menor de libros en su bilioteca.
En este caso para β4 se esperá que sea positivo, pues en una universidad en la que se pague
una pensión alta, se esperará tener acceso a mejores recursos y un nivel de enseñanza
superior por tanto esto ayuda a un mejor desempeño de sus estudiantes.
c) Use los datos de EJERCICIO2 y estime el modelo reportando los resultados e interpretando los
parámetros. Considere que existen datos faltantes. El modelo estimado es el siguiente:
R2 = 0,841685483
,
n = 136
Error
Estadistico
Parámetro
Estimación
Estándar
T
Valor-P
Constante
7,849
0,6900
11,375
0,000
LSAT
0,00683
0,00556
1,2268
0,2233
GPA
0,2331
0,11510
2,0250
0,460
llibvol
0,1061
0,040660
2,61107
0,0107
lcost
0,04940
0,040426
1,222
0,2251
rank
-0,00291
0,00045
-6,3455
0,0000
Donde el estadistico T al 0,05 con 94 grados de libertad es 1,6630 y el valor-p se tiene que
las variables GPA, llibvol y rank son significativas en el modelo, a diferencia de LSAT y
lcost teniendo los siguientes resultados:
R2 = 83,2714
R2 = 82,2757
(con respecto a los grados de libertad Errorestandardelest = 0,1121
F : EstadisticodeDurbin − Watson = 83,63
EstadisticodeDurbin − Watson = 1,83922
(P=0,1917) Así el modelo explica alrededor del 83% de la variabilidad del salario con
respecto a las otras variables, lo mismo sucede para F donde se puede analizar que no
importa las variables que se adicionen estas no son significativas para el modelo.
Interprete el coeficiente de la variable log(libvol). Nótese
que
Esto nos dice que β3 esta intercorrelacionada entre salario y libros en la biblioteca, por lo
tanto al aumentar en 1% en tomos en la biblioteca, aumentamos 0,0949% en el salario
del estudiante al graduarse.
4
d) Cuál es la diferencia en salarios predicha, certeris paribus, para universidades con GPA
diferente en 5 puntos? Puesto que
Así %∆Salary = 24,75, es decir, que al aumentar en un punto del promedio de calificaciones,
se aumenta en aproximadamente 24,75% el salario del estudiante y teniendo las otras
variables explicativas del modelo constantes.
e) Podría afirmarse que es mejor ir a Universidades mejor rankeadas? ¿Cuánto vale la dife-rencia
en el ranking de 20 en términos del salario inicial previsto? Tenemos que
Una variación en 20 puntos en el ranking entre dos universidades, produce una variación del
6,65% en el sueldo que ganara el estudiante al graduarse, por lo tanto es una gran estratega
el cambio de universidad con el salario que se ha predicho, mientras mantenemos las otras
variables explicativas del modelo constantes.
f) LSAT y GPA son conjuntamente significativas para explicar el salario?El modelo estimado al
quitar las variables LSAT y GPA es el siguiente: log\(salary) = 9,903841951 +
0,12990378log(libvol) + 0,023708024log(cost) − 0,004177894rank
(0,359125255)
(0,034123785)
(0,030472411)
(0,00030998)
Tenemos además que SSRmodelo5variables = 1,642728843 y SSRmodelo3variables = 1,8942363 y por
tanto
Calculando con un nivel de confianza del 5%,se tiene que
f0,05;2;130 ≈ 3,041
. Entonces
F > f0,05;2;130
, por tanto, se rechaza la hipótesis nula; entonces se concluye que las variables LSAT y GPA son
significativas en el modelo, así, el promedio en notas y la nota de la prueba de admisión si
tienen influencia en el salario promedio que ganará un estudiante tras graduarse de la
universidad.
5
g) Pruebe si el tamaño de la clase clsize o el tamaño de la facultad (faculty) deberían añadirse al
modelo. Considere que existen datos faltantes.
Al añadir estas dos nuevas variables se tiene el siguiente modelos estimado:
R2 = 0,843984615
,
n = 131
Los coeficientes β6 y β7 que corresponden a estas variables son casi insignificantes, pero
realizaremos la hipótesis nula con el estadístico F para corroborar lo que se obtuvo al observar
el modelo
Al calcular con un nivel de confianza del 5%, tenemos que
f0,05;2;123 ≈ 3,087
. Entonces
F < f0,05;2;123
por tanto, no se rechaza la hipótesis nula; y esto nos indica que el tamaño del aula y el tamaño
de la facultad no tienen mayor significancia en el salario promedio de un estudiante luego de
graduarse de la universidad.
h) ¿Qué factores podrían influir en el Rank de la Universidad que no están siendo con-siderados en
la regresión de salario? Un factor que podria tener un nivel aceptable de importancia aunque
no influye de manera radical es la Edad age, a medida que más temprano entre a la Universidad
y salga de la misma podra obtener mayor experiencia es decir que se podra posecionar mejor
de un puesto laboral y asi ganar un salario mayor al promedio de un estudiante luego de
graduarse de la universidad.
Ejercicio 3. Use los datos de EJERCICIO3 para estimar el modelo
price = β0 + β1sqrft + β2bdroms + µ
Donde price es el precio de casas medido en miles de dólares.
a) Estime el modelo y reporte los resultados.
price[ = −19,31499577 + 0,12843621sqrft + 15,19819097bdroms
(31,04661924)
(0,013824458)
6
(9,483517015)
R2 = 0,631918401
,
n = 88
b) ¿Cuál es el incremento estimado del precio de una casa con un dormitorio más, (certeris
paribus)?
Como el número de dormitorios variará y manteniendo constante la variable tamaño de la casa,
se obtiene la siguiente relación:
∆price
= 15,19819097∆bdrom
=
≈
15,19819097 ∗ 1 → pues nos pide una variacion en una habitaci´ on´
15,19
Por tanto se puede concluir que, el precio de una casa en este modelo variará en 15,19 mil
dólares al aumentar o disminuir un dormitorio, manteniendo constante el tamaño de la
casa.
c) ¿Cuál es el incremento estimado del precio de una casa con un dormitorio más, dondeel tamaño
de la casa es sqrft = 140pies?(Compare esta respuesta con el Ítem b)y Ítem c).
En este caso, el número de dormitorios y el tamaño de la casa variarán, por tanto se obtiene la
siguiente relación:
Entonces ∆price = 33,17 cuando el tamaño de la casa es 140pies y el número de
dormitorios varie en y 1 unidad respectiamente. Se tiene que el precio de una casa con
estas caracteristicas para este modelo variará en 33,17 mil dólares.Tomando en cuenta
siempre las especificaciones dadas.
Notemos que en comparación con el Ítem b), la variación del precio aumenta dado ciertas
caracteristicas y estas son: Cuando el tamaño de la casa varía a la vez que el número de
dormitorios y esto a comparación de que solo el número de dormitorios varíe. Y es claro
ya que el jugar con la variabilidad de dos parametros hace que se obtengan mejores
resultados haciendo que el modelo sea más real.
d) ¿Cuál es el porcentaje de variación en precio que es explicado por sqrft y bdrms?
Dado que
R2 = 0,631918401
, entonces se puede explicar alrededor del 63,19% de la variación del precio con respecto a la
variación de número de dormitorios y el tamaño de la casa.
7
e) La primera casa en la base de datos tiene sqrft = 2,438 y bdrms = 4. Cuál es el precio de venta
para esta casa al estimar por MCO y MV ? Cuáles son los intervalos de confianza?
El precio estimado dadas estas caracteristicas.
Para MCO
( sqrft = 2438m2 y bdrms = 4) será price[ = −19,31499577 + 0,12843621 ∗ 2438 +
15,19819097 ∗ 4 ≈ 354,605249
Es decir, el precio estimado es de 354,6 mil dólares.
Para MV
( sqrft = 2438m2 y bdrms = 4) será price[ = 293,546+2013,693sqrft+3,568bdrms =
293,546+2013,6932,438+3,5684 ≈ 5217,20 Es decir, el precio estimado es de 5217,20 mil
dólares.
f) EL rpecio actual de venta para la primera casa en la base de datos es $300000. Cuál es el
residuo? Esto sugiere que que el comprador está o no pagando en exceso por la casa?
Puesto que price[ = 354,605249, por lo cual el residuo µ = 54,60524898.
Se observar que el vendedor está subestimando el precio, ya que el error es de 54,6 mil dólares.
Y esto representaria una perdida para el vendedor y por lo tanto para su comisión.
Ejercicio 4. Dado los siguientes datos:
xi2
yi
169,6
71,2
166,8
58,2
157,1
56,0
181,1
64,5
158,4
53,0
165,6
52,4
166,7
56,8
157,5
49,2
168,1
55,6
165,3
77,8
a) Efectue la regresión
yi = β1 + β2xi2 + µi
8
Notemos que se tiene que:
!
Sabemos que β = (X0X)−1XY , por tanto
!−1
10
!
1656,2
594,7
βb =
∗
1656,2 274754,78
98758,73
!
−36,827
=
0,571
De donde β1 = −36,827 y β2 = 0,581 y por tanto, el modelo estimado es
yi = −36,827 + 0,581xi2
De donde
Entonces
y por tanto
Además sabemos que
.
, entonces
=
!
60,394 −0,364
72,27 ∗
−0,364
0,002
!
9
4364,67 −26,30
=
−26,30
0,144
Entonces
b) Hallar la matriz de covarianzas de β.
!
c) Contrastar H0 : β1 = 0.
Ahora comprobaremos la hipótesis nula al 5%, entonces tenemos
n − #parametros´ = 10 − 2 = 8
grados de libertad y el valor del percentil corresponde a P5% = 2,306. Entonces
5%
Por
tanto no se rechaza la hipótesis nula.
Calculando el valor del p − value:
=
p(|T| > 0,5574)
=
p(T > 0,5574) + p(T < −0,5574)
=
2p(T > 0,5574)
=
2 ∗ 0,40786119
≈
0,81572238
Se tiene que el nivel de confianza más pequeño para que la hipótesis nula H0 : β1 = 0 sea
rechazada es del 81,57%.
d) Contrastar H0 : β2 = 0. Tenemos que
5%
Por tanto no se rechaza la hipótesis nula, es decir, los valores de xi2 no son significativos
en el módelo.
Calculando el valor del p − value:
p(|T| > tβb2)
=p(|T| > 1,529)
10
= p(T > 1,529) + p(T < −1,529)
= 2p(T > 1,529)
= 2 ∗ 0,08574514
≈ 0,171490281
Se tiene que el nivel de confianza más pequeño para que la hipótesis nula H0 : β2 = 0 sea
rechazada es del 17,15%.
e) Obtener los residuos, ¿Existe valores atípicos? ¿Existe alguna pauta definida claramenteen los
residuos?
Los residuos que se obtuvierón son: s
Podemos notar que los errores estimados µi ∀i ∈ {1...10} estan alejados del 0, por tanto, los
valores estimados de los yi no son exactos y esto pudo haber sido porque la base de datos
proporcionada es muy pequeña, por lo cual se pierde presición es decir los resultados no son
tan acertados.
Ejercicio 5. Se desea estimar los efectos del tabaco durante el embarazo en la salud infantil. Una medida
de salud infantil es el peso al nacer. El peso al nacer muy bajo puede indicar riesgo para contraer
enfermedades.
Existen algunos otros factores que afectan el peso al nacer y que podrían estar correlacionados
con los hábitos de fumar y por lo tanto deberían considerarse en el modelo. Por ejemplo, la renta
familiar, mayores ingresos sugieren acceso a mejores prenatales, así como una mejor nutrición de
la madre. Un modelo que considera esto es el siguiente:
bwght = β0 + β1cigs + β2faminc + µ
Donde faminc corresponde a los ingresos familiares.
a) ¿Cuál sería el signo esperado de β2?
El signo que se esperará para β2 será positivo, ya que entre mejores sean los ingresos familiares,
estos influenciarán de manera favorable en una mejor alimentación, salud y mejores condiones
para la madre, y a su vez esto provoca un aumento de peso en el niño o niña al nacer.
b) Usted cree que cigs y faminc están correlacionados? Si así lo cree explique porque la co-rrelación
sería positiva o negativa.
faminc
cigs
faminc
1.00000000
-0.17304493
cigs
0.17304493
0.029352783
11
Como se observa, fumar cigarrillos y los ingresos familiares están correlacionados y esta
correlación es positiva, por tanto a mayor sea el ingreso familiar existe un acceso más facil a la
compra de una cantidad elevada de cigarrillos.
c) Estime la ecuación con y sin faminc usando los datos de la base de datos EJERCICIO5. Reporte
los resultados y comente. Al incluir faminc cambia substancialmente la estimación del efecto de
cigs en bwght.
Estimación sin faminc(ingresos familiares):
bwght\ = 119,7719004 − 0,513772093cigs
(0,572340664)
(0,09049093)
Estimación del modelo incluyendo la variable faminc(ingresos familiares):
bwght\ = 116,9741305 − 0,46340754cigs + 0,092764738faminc
(1,04898413)
(0,091576823)
(0,029187869)
De estos dos modelos podemos notar que en efecto al añadir la variable faminc(ingresos
familiares) al modelo,será que el peso promedio de un niño al nacer se vera afectado en
2,7977699 onzas.
Lo cual confirma que existe una correlación positiva entre fumar cigarrillos e ingresos
familiares que se obtuvo en el Ítem b), además podemos notar que el parámetro que tiene
relación con fumar cigarrillos sigue siendo negativo,por tanto sigue afectando de
sobremanera al peso del niño al nacer.pero también se nota que es menor al primer
modelo estimado y esto se da gracias a que a mejor sea el ingreso familiar la madre tiene
accede a mejores beneficios en la alimentación y visitas médicas que pueden ser en su
propio domicilio, pero a pesar de esto la diferencia entre el β1 del primer modelo estimado
y el β1 del segundo no es muy grande, por lo cual si existe un efecto de cigs en bwght al
añadir la variable faminc(ingresos familiares).
d) Estime un modelo de regresión para explicar bwght usando los datos de la base de datos
EJERCICIO5. Ajuste el modelo más predictivo y parsimonioso y explique los resultados.
Los criterios predictivos consideran las respuestas observadas y ajustadas. Se presentan a
continuación el Coeficiente R2, el Coeficiente de concordancia (rc) y la Suma de cuadrados de
errores de predicción (PRESS).
Coeficientes sin estandarizar
Model
1
Std.Error
B
Coeficientes estandarizados
T
value-p
3.76
0.001
-4.14
0.000
Beta
Constante
3.09
0.838
Cigs
-6.18E-02
0.015
12
-0.198
faminc
0.824
0.042
0.927
20.28
0.000
R2 = 0,968
Se tiene que en el modelo mas predictivo observamos que a medida que va fumando va
afectando en igual medida al peso del niño al nacer es decir es directamente proporcional
ademas el R cuadrado es muy cercano a 1 es decir mayor será el ajuste del modelo a la variable
que estamos intentando explicar en este caso bwght. En un análisis predictivo el mejor modelo
es el que produce predicciones más fiables para una nueva observación, mientras que en un
análisis estimativo el mejor modelo es el que produce estimaciones más precisas para el
coeficiente de la variable de interés.
En ambos casos se prefiere el modelo más sencillo posible y a este modelo se le denomina
parsimonioso, tomando como el mejor modelo el modelo predictivo.
13
Descargar