NOTA:Para este trabajo utilizaremos R como soporte. Ejercicio 1. El siguiente modelo puede ser usado para estudiar si los gastos en campaña afectan los resultados de una elección: vote(A) = β0 + β1log(expendA) + β2log(expendB) + β3prtystrA + µ (1) Donde voteA es el% de votos recibidos por el candidato A, expenda y expendB son los gastos en campaña de cada candidato y prtystrA es una medida en porcentaje de la fuerza del partido del candidato A. a) Estime el modelo usando la base EJERCICIO1 y reporte los resultados.Los gastos de A afectan los resultados? Y los gastos de B? El modelo estimado está dado por: voteA\ = 45,09 + 6,081log(expendA) − 6,616log(expendB) + 0,152prtystrA (3,93) (0,382) (0,379) R2 = 0,7925 (0,062) n = 173 Ahora procederemos a realizar las pruebas de hipótesis de ambas colas sobre β1,β2 y β3 al 5% para analizar su nivel de significancia. H0 : β1 = 0 Para este modelo tenemos n − #parametros´ = 173 − 4 Teniendo 169 grados de libertad, entonces se utiliza el percentil P5% = 1,974. Por tanto 0. 5%, es decir, H0 se rechaza, por lo tanto se tiene que β1 es distinto de Ahora realizamos las pruebas de hipótesis para β2. Consideremos como hipótesis nula H0 : β2 = 0, entonces Entonces 17,456 > P5% por tanto, no se rechaza H0. Finalmente consideremos H0 : β3 = 0, entonces 5% Por tanto se rechaza H0,por lo tanto se tiene que β3 es distinto de 0. Notemos queen cualquier caso se rechaza la hipótesis nula de que βi = 0 con i = 1,2,3, dado esto podemos responder a las preguntas expuestas en el enunciado. ¿Los gastos en A afectan el número de votos en B? Observamos que las hipótesis nulas para β1 y β3 se rechazaron, entonces estos tienen significancia en el modelo, por lo tanto, los gastos en A si influyen en el número de votos de B. ¿Los gastos en B afectan el número de votos en A? Notemos como en el inciso anterior que la hipótesis nula β2 sea igual a 0 se rechaza, entonces β2 si tiene significancia en el modelo, por lo que los gatos en B afectará en el número de votos que se obtendra en A. b) ¿Cuál es la interpretación de β1? Teniendo esta expresión Donde β1 es la variación porcentual de los votos en A el 1% en la variación de los gastos de campaña de A. En otras palabras, manteniendo constantes es decir sin cambio al pasar el tiempo los gastos de campaña de la lista B y el porcentaje de votos anteriores para la lista A. Se tiene que los votos en A varían en puntos por una unidad porcentual en los gastos de campaña de A. c) Pruebe la hipótesis nula de que 1% de aumento de gastos de A está compensado por 1%de crecimiento de gastos de B. Se podrían usar los resultados de a) para probar la prueba de hipótesis planteada? La hipótesis nula a considerar será: H0 : β1 = −β2 O expresandolo de la siguiente manera H0 : β1 + β2 = 0 Al querer realizar el cálculo, podemos darnos cuenta q pues no disponemos de la desviación estándar de . d) Estime un modelo que directamente devuelva el estadístico t para probar la hipótesis del Ítem c).Qué concluye? (use una prueba de dos colas) Consideremos α = β1 + β2, entonces β1 = α − β2 y reemplazando en el modelo (1) se tiene que: vote(A) = β0 + αlog(expendA) + β2 [log(expendB) − log(expendA)] + β3prtystrA + µ Por tanto voteA\ = 45,09 − 0,532log(expendA) − 6,616 [log(expendB) − log(expendA)] + 0,152prtystrA (3,93) (0,533) (0,379) De donde αb = −0,532 y deb (αb) = 0,5333. 1 (0,062) Trabajando al 5% se tiene que Entonces , por lo que no se rechaza H0 : α = 0. 2 ¿Cuáles son las conclusiones? Al realizar las pruebas en los Item anteriores sepuede notar que aunque exista un incremento de 1% en gastos en A no va ha compensar por un 1% en gastos en B. Ejercicio 2. El salario mediano para recién graduados es determinado por log(salary) = β0 + β1LSAT + β2GPA + β3log(libvol) + β4log(cost) + β5rank + µ Donde LSAT es la nota mediana de la universidad de los graduados, GPA es la nota mediana del colegio de los graduados, libvol es el número de volúmenes en la biblioteca de los graduados, cost es el costo anual de la universidad, y Rank es el ranking en el que está situado la universidad, siendo Rank = 1 el mejor. a) Explique porque se espera un β5 sea menor o igual a 0? Consideremos la hipótesis nula H0 : β5 = 0. Tenemos n−#parametros´ = 136−6 = 130 grados de libertad y considerando al 5% de confianza, se tiene que P5% ≈ 1,96. Además Entonces |tβb5| > P5% , por lo cual el ranking si es significativo en el promedio de salario a ganar para una estudiante que se graduará. En efecto, se esperará que β5 sea menor o igual a 0, pues con un ranking cada vez mas alto, significa que la escuela posee menos prestigio, tomando como ejemplo el escoger entre 15 universidades y tomamos la que esta posicionada con un ranking de 10 esto nos indica que 9 universidades son mejores que esta, siendo la que tiene ranking 1 la mejor. b) ¿Qué signo se espera para los otros parámetros?Explique Para β0 se esperará que sea positivo o al menos 0, ya que no se debe tener ganancias negativas tras haber culminado los estudios en una universidad. Para los coeficientes β1 y β2 se esperará que sean positivas, ya que están relacionadas con las calificaciones del estudiante en la universidad, por tanto se esperá que un estudiante con calificaciones altas ganara más que otro estudiante que posea calificaciones bajas o al menos nenores al estudiante con notas altas. El coeficiente β3 se esperá que sea positivo, porque esta relacionado al número de volúmenes en la biblioteca, al explicar esto tenemos que, los estudiantes que asistan a 3 dicha universidad tienen acceso a más información que los estudiantes que asistan a una universidad con un catalogo menor de libros en su bilioteca. En este caso para β4 se esperá que sea positivo, pues en una universidad en la que se pague una pensión alta, se esperará tener acceso a mejores recursos y un nivel de enseñanza superior por tanto esto ayuda a un mejor desempeño de sus estudiantes. c) Use los datos de EJERCICIO2 y estime el modelo reportando los resultados e interpretando los parámetros. Considere que existen datos faltantes. El modelo estimado es el siguiente: R2 = 0,841685483 , n = 136 Error Estadistico Parámetro Estimación Estándar T Valor-P Constante 7,849 0,6900 11,375 0,000 LSAT 0,00683 0,00556 1,2268 0,2233 GPA 0,2331 0,11510 2,0250 0,460 llibvol 0,1061 0,040660 2,61107 0,0107 lcost 0,04940 0,040426 1,222 0,2251 rank -0,00291 0,00045 -6,3455 0,0000 Donde el estadistico T al 0,05 con 94 grados de libertad es 1,6630 y el valor-p se tiene que las variables GPA, llibvol y rank son significativas en el modelo, a diferencia de LSAT y lcost teniendo los siguientes resultados: R2 = 83,2714 R2 = 82,2757 (con respecto a los grados de libertad Errorestandardelest = 0,1121 F : EstadisticodeDurbin − Watson = 83,63 EstadisticodeDurbin − Watson = 1,83922 (P=0,1917) Así el modelo explica alrededor del 83% de la variabilidad del salario con respecto a las otras variables, lo mismo sucede para F donde se puede analizar que no importa las variables que se adicionen estas no son significativas para el modelo. Interprete el coeficiente de la variable log(libvol). Nótese que Esto nos dice que β3 esta intercorrelacionada entre salario y libros en la biblioteca, por lo tanto al aumentar en 1% en tomos en la biblioteca, aumentamos 0,0949% en el salario del estudiante al graduarse. 4 d) Cuál es la diferencia en salarios predicha, certeris paribus, para universidades con GPA diferente en 5 puntos? Puesto que Así %∆Salary = 24,75, es decir, que al aumentar en un punto del promedio de calificaciones, se aumenta en aproximadamente 24,75% el salario del estudiante y teniendo las otras variables explicativas del modelo constantes. e) Podría afirmarse que es mejor ir a Universidades mejor rankeadas? ¿Cuánto vale la dife-rencia en el ranking de 20 en términos del salario inicial previsto? Tenemos que Una variación en 20 puntos en el ranking entre dos universidades, produce una variación del 6,65% en el sueldo que ganara el estudiante al graduarse, por lo tanto es una gran estratega el cambio de universidad con el salario que se ha predicho, mientras mantenemos las otras variables explicativas del modelo constantes. f) LSAT y GPA son conjuntamente significativas para explicar el salario?El modelo estimado al quitar las variables LSAT y GPA es el siguiente: log\(salary) = 9,903841951 + 0,12990378log(libvol) + 0,023708024log(cost) − 0,004177894rank (0,359125255) (0,034123785) (0,030472411) (0,00030998) Tenemos además que SSRmodelo5variables = 1,642728843 y SSRmodelo3variables = 1,8942363 y por tanto Calculando con un nivel de confianza del 5%,se tiene que f0,05;2;130 ≈ 3,041 . Entonces F > f0,05;2;130 , por tanto, se rechaza la hipótesis nula; entonces se concluye que las variables LSAT y GPA son significativas en el modelo, así, el promedio en notas y la nota de la prueba de admisión si tienen influencia en el salario promedio que ganará un estudiante tras graduarse de la universidad. 5 g) Pruebe si el tamaño de la clase clsize o el tamaño de la facultad (faculty) deberían añadirse al modelo. Considere que existen datos faltantes. Al añadir estas dos nuevas variables se tiene el siguiente modelos estimado: R2 = 0,843984615 , n = 131 Los coeficientes β6 y β7 que corresponden a estas variables son casi insignificantes, pero realizaremos la hipótesis nula con el estadístico F para corroborar lo que se obtuvo al observar el modelo Al calcular con un nivel de confianza del 5%, tenemos que f0,05;2;123 ≈ 3,087 . Entonces F < f0,05;2;123 por tanto, no se rechaza la hipótesis nula; y esto nos indica que el tamaño del aula y el tamaño de la facultad no tienen mayor significancia en el salario promedio de un estudiante luego de graduarse de la universidad. h) ¿Qué factores podrían influir en el Rank de la Universidad que no están siendo con-siderados en la regresión de salario? Un factor que podria tener un nivel aceptable de importancia aunque no influye de manera radical es la Edad age, a medida que más temprano entre a la Universidad y salga de la misma podra obtener mayor experiencia es decir que se podra posecionar mejor de un puesto laboral y asi ganar un salario mayor al promedio de un estudiante luego de graduarse de la universidad. Ejercicio 3. Use los datos de EJERCICIO3 para estimar el modelo price = β0 + β1sqrft + β2bdroms + µ Donde price es el precio de casas medido en miles de dólares. a) Estime el modelo y reporte los resultados. price[ = −19,31499577 + 0,12843621sqrft + 15,19819097bdroms (31,04661924) (0,013824458) 6 (9,483517015) R2 = 0,631918401 , n = 88 b) ¿Cuál es el incremento estimado del precio de una casa con un dormitorio más, (certeris paribus)? Como el número de dormitorios variará y manteniendo constante la variable tamaño de la casa, se obtiene la siguiente relación: ∆price = 15,19819097∆bdrom = ≈ 15,19819097 ∗ 1 → pues nos pide una variacion en una habitaci´ on´ 15,19 Por tanto se puede concluir que, el precio de una casa en este modelo variará en 15,19 mil dólares al aumentar o disminuir un dormitorio, manteniendo constante el tamaño de la casa. c) ¿Cuál es el incremento estimado del precio de una casa con un dormitorio más, dondeel tamaño de la casa es sqrft = 140pies?(Compare esta respuesta con el Ítem b)y Ítem c). En este caso, el número de dormitorios y el tamaño de la casa variarán, por tanto se obtiene la siguiente relación: Entonces ∆price = 33,17 cuando el tamaño de la casa es 140pies y el número de dormitorios varie en y 1 unidad respectiamente. Se tiene que el precio de una casa con estas caracteristicas para este modelo variará en 33,17 mil dólares.Tomando en cuenta siempre las especificaciones dadas. Notemos que en comparación con el Ítem b), la variación del precio aumenta dado ciertas caracteristicas y estas son: Cuando el tamaño de la casa varía a la vez que el número de dormitorios y esto a comparación de que solo el número de dormitorios varíe. Y es claro ya que el jugar con la variabilidad de dos parametros hace que se obtengan mejores resultados haciendo que el modelo sea más real. d) ¿Cuál es el porcentaje de variación en precio que es explicado por sqrft y bdrms? Dado que R2 = 0,631918401 , entonces se puede explicar alrededor del 63,19% de la variación del precio con respecto a la variación de número de dormitorios y el tamaño de la casa. 7 e) La primera casa en la base de datos tiene sqrft = 2,438 y bdrms = 4. Cuál es el precio de venta para esta casa al estimar por MCO y MV ? Cuáles son los intervalos de confianza? El precio estimado dadas estas caracteristicas. Para MCO ( sqrft = 2438m2 y bdrms = 4) será price[ = −19,31499577 + 0,12843621 ∗ 2438 + 15,19819097 ∗ 4 ≈ 354,605249 Es decir, el precio estimado es de 354,6 mil dólares. Para MV ( sqrft = 2438m2 y bdrms = 4) será price[ = 293,546+2013,693sqrft+3,568bdrms = 293,546+2013,6932,438+3,5684 ≈ 5217,20 Es decir, el precio estimado es de 5217,20 mil dólares. f) EL rpecio actual de venta para la primera casa en la base de datos es $300000. Cuál es el residuo? Esto sugiere que que el comprador está o no pagando en exceso por la casa? Puesto que price[ = 354,605249, por lo cual el residuo µ = 54,60524898. Se observar que el vendedor está subestimando el precio, ya que el error es de 54,6 mil dólares. Y esto representaria una perdida para el vendedor y por lo tanto para su comisión. Ejercicio 4. Dado los siguientes datos: xi2 yi 169,6 71,2 166,8 58,2 157,1 56,0 181,1 64,5 158,4 53,0 165,6 52,4 166,7 56,8 157,5 49,2 168,1 55,6 165,3 77,8 a) Efectue la regresión yi = β1 + β2xi2 + µi 8 Notemos que se tiene que: ! Sabemos que β = (X0X)−1XY , por tanto !−1 10 ! 1656,2 594,7 βb = ∗ 1656,2 274754,78 98758,73 ! −36,827 = 0,571 De donde β1 = −36,827 y β2 = 0,581 y por tanto, el modelo estimado es yi = −36,827 + 0,581xi2 De donde Entonces y por tanto Además sabemos que . , entonces = ! 60,394 −0,364 72,27 ∗ −0,364 0,002 ! 9 4364,67 −26,30 = −26,30 0,144 Entonces b) Hallar la matriz de covarianzas de β. ! c) Contrastar H0 : β1 = 0. Ahora comprobaremos la hipótesis nula al 5%, entonces tenemos n − #parametros´ = 10 − 2 = 8 grados de libertad y el valor del percentil corresponde a P5% = 2,306. Entonces 5% Por tanto no se rechaza la hipótesis nula. Calculando el valor del p − value: = p(|T| > 0,5574) = p(T > 0,5574) + p(T < −0,5574) = 2p(T > 0,5574) = 2 ∗ 0,40786119 ≈ 0,81572238 Se tiene que el nivel de confianza más pequeño para que la hipótesis nula H0 : β1 = 0 sea rechazada es del 81,57%. d) Contrastar H0 : β2 = 0. Tenemos que 5% Por tanto no se rechaza la hipótesis nula, es decir, los valores de xi2 no son significativos en el módelo. Calculando el valor del p − value: p(|T| > tβb2) =p(|T| > 1,529) 10 = p(T > 1,529) + p(T < −1,529) = 2p(T > 1,529) = 2 ∗ 0,08574514 ≈ 0,171490281 Se tiene que el nivel de confianza más pequeño para que la hipótesis nula H0 : β2 = 0 sea rechazada es del 17,15%. e) Obtener los residuos, ¿Existe valores atípicos? ¿Existe alguna pauta definida claramenteen los residuos? Los residuos que se obtuvierón son: s Podemos notar que los errores estimados µi ∀i ∈ {1...10} estan alejados del 0, por tanto, los valores estimados de los yi no son exactos y esto pudo haber sido porque la base de datos proporcionada es muy pequeña, por lo cual se pierde presición es decir los resultados no son tan acertados. Ejercicio 5. Se desea estimar los efectos del tabaco durante el embarazo en la salud infantil. Una medida de salud infantil es el peso al nacer. El peso al nacer muy bajo puede indicar riesgo para contraer enfermedades. Existen algunos otros factores que afectan el peso al nacer y que podrían estar correlacionados con los hábitos de fumar y por lo tanto deberían considerarse en el modelo. Por ejemplo, la renta familiar, mayores ingresos sugieren acceso a mejores prenatales, así como una mejor nutrición de la madre. Un modelo que considera esto es el siguiente: bwght = β0 + β1cigs + β2faminc + µ Donde faminc corresponde a los ingresos familiares. a) ¿Cuál sería el signo esperado de β2? El signo que se esperará para β2 será positivo, ya que entre mejores sean los ingresos familiares, estos influenciarán de manera favorable en una mejor alimentación, salud y mejores condiones para la madre, y a su vez esto provoca un aumento de peso en el niño o niña al nacer. b) Usted cree que cigs y faminc están correlacionados? Si así lo cree explique porque la co-rrelación sería positiva o negativa. faminc cigs faminc 1.00000000 -0.17304493 cigs 0.17304493 0.029352783 11 Como se observa, fumar cigarrillos y los ingresos familiares están correlacionados y esta correlación es positiva, por tanto a mayor sea el ingreso familiar existe un acceso más facil a la compra de una cantidad elevada de cigarrillos. c) Estime la ecuación con y sin faminc usando los datos de la base de datos EJERCICIO5. Reporte los resultados y comente. Al incluir faminc cambia substancialmente la estimación del efecto de cigs en bwght. Estimación sin faminc(ingresos familiares): bwght\ = 119,7719004 − 0,513772093cigs (0,572340664) (0,09049093) Estimación del modelo incluyendo la variable faminc(ingresos familiares): bwght\ = 116,9741305 − 0,46340754cigs + 0,092764738faminc (1,04898413) (0,091576823) (0,029187869) De estos dos modelos podemos notar que en efecto al añadir la variable faminc(ingresos familiares) al modelo,será que el peso promedio de un niño al nacer se vera afectado en 2,7977699 onzas. Lo cual confirma que existe una correlación positiva entre fumar cigarrillos e ingresos familiares que se obtuvo en el Ítem b), además podemos notar que el parámetro que tiene relación con fumar cigarrillos sigue siendo negativo,por tanto sigue afectando de sobremanera al peso del niño al nacer.pero también se nota que es menor al primer modelo estimado y esto se da gracias a que a mejor sea el ingreso familiar la madre tiene accede a mejores beneficios en la alimentación y visitas médicas que pueden ser en su propio domicilio, pero a pesar de esto la diferencia entre el β1 del primer modelo estimado y el β1 del segundo no es muy grande, por lo cual si existe un efecto de cigs en bwght al añadir la variable faminc(ingresos familiares). d) Estime un modelo de regresión para explicar bwght usando los datos de la base de datos EJERCICIO5. Ajuste el modelo más predictivo y parsimonioso y explique los resultados. Los criterios predictivos consideran las respuestas observadas y ajustadas. Se presentan a continuación el Coeficiente R2, el Coeficiente de concordancia (rc) y la Suma de cuadrados de errores de predicción (PRESS). Coeficientes sin estandarizar Model 1 Std.Error B Coeficientes estandarizados T value-p 3.76 0.001 -4.14 0.000 Beta Constante 3.09 0.838 Cigs -6.18E-02 0.015 12 -0.198 faminc 0.824 0.042 0.927 20.28 0.000 R2 = 0,968 Se tiene que en el modelo mas predictivo observamos que a medida que va fumando va afectando en igual medida al peso del niño al nacer es decir es directamente proporcional ademas el R cuadrado es muy cercano a 1 es decir mayor será el ajuste del modelo a la variable que estamos intentando explicar en este caso bwght. En un análisis predictivo el mejor modelo es el que produce predicciones más fiables para una nueva observación, mientras que en un análisis estimativo el mejor modelo es el que produce estimaciones más precisas para el coeficiente de la variable de interés. En ambos casos se prefiere el modelo más sencillo posible y a este modelo se le denomina parsimonioso, tomando como el mejor modelo el modelo predictivo. 13