Capítulo 1 Prácticas y problemas de regresión lineal simple. 1.1. Problemas de regresión lineal simple con ordenador. Problema 4.1. “Los datos de la tabla adjunta proporcionan la distancia en línea recta (LR) y por carretera (DC) entre veinte pares de puntos geográ…cos (localidades) de She¢ eld. 1. ¿Existe una relación lineal entre las dos variables? 2. ¿Es su…cientemente bueno el modelo de regresión lineal que explica la variable de interés DC en función de la variable regresora LR?. Estimar el modelo de regresión lineal. Calcular intervalos de con…anza al 90 % para los parámetros del modelo. 3. Calcular la tabla ANOVA del modelo. Conclusiones que se obtienen. 4. Predecir la distancia por carretera entre dos ciudades cuya distancia en línea recta es 25. Calcular un intervalo de predicción al 90 %. Repetir el apartado si la distancia (LR) es 50. 5. ¿Existe un modelo linealizable mejor? DC 100 7 60 5 290 4 170 2 180 4 190 7 160 3 LR 90 5 50 0 230 0 150 2 110 4 110 8 140 6 DC 160 6 290 0 400 5 140 2 110 7 250 6 90 5 LR 120 1 220 0 280 2 120 1 90 8 190 0 80 3 1 DC 280 8 310 2 60 5 250 7 260 5 330 1 LR 210 6 260 5 40 8 210 7 180 0 280 0 2 Modelos estadísticos aplicados. Juan Vilar Desarrollo del Problema 4.1. En primer lugar se representa la grá…ca de dispersión de la nube de puntos que permite tener una primera idea acerca de la forma del modelo de regresión. Se utiliza el siguiente módulo de Statgraphics graficos > graficos de dispersion > grafico x-y Un estudio detallado del modelo lineal simple ajustado se obtiene en dependencia > regresion simple Dentro de este módulo, en el apartado resumen del procedimiento, se obtiene la recta de regresión estimada (estimación de los coe…cientes de 0 y 1 ; desviaciones típicas, lo que permite calcular intervalos de con…anza de los mismos y test de la t). Este apartado también proporciona la tabla ANOVA y los coe…cientes de determinación. En este problema el coe…ciente de correlación es r = 00 969, y se concluye que el ajuste lineal es bueno. El apartado predicciones permite calcular predicciones e intervalos de con…anza de la media condicionada y de predicción para una observación determinada. Si la recta de regresión se quiere comparar con otros modelos “linealizables” se puede hacer en el apartado comparacion de modelos alternativos Este módulo proporciona la correlación de doce ajustes. Con los datos de este problema los ajustes “doble recíproco” y “multiplicativo” mejoran ligeramente (en correlación) a la regresión lineal y habría que evaluar la conveniencia de trabajar con ellos. Para calcular el ajuste de alguno de estos modelos “linealizables”se utiliza el apartado de opciones en resumen del procedimiento. Este módulo también proporciona las observaciones con residuos grandes (residuos atipicos), las observaciones in‡uyentes (puntos influyentes) y diferentes grá…cos que permiten evaluar la bondad del ajuste y el cumplimiento de las hipótesis básicas. Problema 4.2. (Datos simulados) “Este problema consta de dos partes. En un primer apartado se simula un conjunto de datos bidimensionales (xi ; yi ) que siguen un modelo de regresión lineal simple con diseño …jo. En el segundo apartado se estudia el modelo de regresión que mejor se ajusta a los datos simulados en el apartado anterior. La variable regresora X toma los valores 5; 8; 12; 15; 20; 22; 25; 27; 30 y 33: Para cada valor de X se tienen 15 observaciones de la variable respuesta Y; en total, 150 observaciones. Los valores se generan a partir del modelo matemático Y = 40 + 10 5X + "; donde " sigue una distribución N 0; 102 : Se seguirán los siguientes pasos: Prácticas y problemas de regresión lineal simple. 3 1. Generación de la muestra. 2. Hacer un estudio estadístico básico de la variable condicionada Y =X: 3. Calcular la recta de regresión ajustada a las observaciones simuladas: estimación de los parámetros, tabla ANOVA, contraste de regresión y de linealidad, intervalos de con…anza. ¿Se obtienen resultados congruentes, la recta de regresión ajustada está próxima a la recta generadora de las observaciones? 4. Contrastar las hipótesis estructurales del modelo. ¿Existen datos atípicos? 5. Hacer predicciones para X = 10; 20; 30; 40; 50; 100: Calcular intervalos de con…anza y de predicción. 6. Estudiar otros modelos linealizables. Desarrollo del Problema 4.2. Para generar la muestra por simulación se siguen los siguientes pasos: - Crear la variable valor_x = 5; 8; 12; 15; 20; 22; 25; 27; 30; 33: - Generar la variable x = rep(15; valor_x): - Generar la variable recta = 40 + 1; 5 x: - Generar la variable error = rnormal(150; 0; 10): - Obtener la variable respuesta y = recta + error . La muestra (simulada) se representa en un grá…co bidimensional según el análisis graficos > graficos de dispersion > grafico x-y Como se dispone de varias observaciones de la respuesta para cada valor de X se debe hacer un análisis estadístico de la variable condicionada Y =X: Para ello se utiliza el módulo descripcion > datos numericos > analisis de subgrupo Introducir codes = x. Igual que en el problema anterior el análisis de regresión se realiza en dependencia > regresion simple En este problema se puede hacer una tabla ANOVA más completa y el contraste de linealidad en la opción contraste de falta de ajuste. El desarrollo del resto del problema es análogo al anterior y como se dispone de un número relativamente grande de observaciones se puede hacer un estudio más completo acerca del cumplimiento de las hipótesis del modelo. 4 Modelos estadísticos aplicados. Juan Vilar 1.2. Problema resuelto de regresión lineal simple. Problema 4.3. “Los datos de la tabla adjunta muestran el tiempo de impresión (Y ) de trabajos que se han imprimido en impresoras de la marca PR. Se está interesado en estudiar la relación existente entre la variable de interés “tiempo de impresión de un trabajo” y la variable explicativa (X) “número de páginas del trabajo”. Utilizando estos datos ajustar un modelo de regresión”. x y 1 240 56 280 07 220 53 170 33 230 16 140 70 4 290 03 540 38 440 34 450 00 470 63 480 95 7 850 33 780 94 780 34 660 73 610 07 880 25 10 790 82 830 81 760 30 900 83 710 79 Datos de las impresoras x y 0 92 29 170 14 170 81 370 25 310 90 2 190 41 310 80 410 72 240 59 520 55 690 50 530 52 550 61 520 98 5 300 11 650 70 400 11 450 21 460 63 830 82 750 38 680 17 690 40 840 42 8 760 71 800 68 600 79 640 84 1000 08 740 79 0 89 00 760 20 x 3 6 9 y 280 86 440 73 410 32 280 79 650 39 620 85 710 44 500 42 820 90 1020 13 930 93 Solución Problema 4.3. Se calculan los estadísticos básicos de las variables X e Y; Pn n = 75 x = 50 44 i=1 xi = 408 Pn 2 i=1 xi Pn 2 i=1 yi Pn = 2;818 x2 = 370 5733 Pn i=1 yi = 296;397 i=1 xi yi = 28;3620 5 = 4;3210 7 s2x = 70 9797 570 48 690 09 570 29 1050 73 1190 82 1020 30 sx = 20 82484 y = 570 6227 y 2 = 3;9510 96 s2y = 6310 586 xy = 3780 167 sxy = 640 6995 Las estimaciones de los parámetros de la recta de regresión son ^1 = 300 01 440 43 340 16 sxy 640 6995 = 0 = 80 108: 2 sx 7 9797 sy = 250 1313 Prácticas y problemas de regresión lineal simple. ^ 1 x = 570 6227 ^0 = y 5 80 108 50 44 = 130 515 Se calculan las predicciones y^i xi 1 2 y^i 210 623 290 731 Predicciones y^i xi y^i xi 370 839 5 540 055 7 450 947 6 620 163 8 xi 3 4 y^i 700 271 780 379 xi 9 10 y^i 860 487 940 595 La suma de cuadrados de los residuos (scR) se obtiene como 75 X e2i = i=1 75 X 2 (yi y^i ) = i=1 75 X 130 515 + 80 108xi yi 2 = 80250 61: i=1 Una forma alternativa, más sencilla, de calcular scR es ! 75 75 75 75 X X X X e2i = yi2 ^0 yi + ^ 1 xi yi = 80250 61: i=1 i=1 i=1 i=1 La varianza residual es s^2R = 1 n 2 75 X e2i = i=1 80250 61 = 1090 94 ) s^R = 100 485: 73 Las varianzas de los parámetros son s^2R 1090 94 = = 00 1837 ) (^ 1 ) = 00 4286: ns2x 75 70 9797 V ar(^ 1 ) = V ar(^ 0 ) = s^2R n 1+ x2 s2x = 1090 94 75 1+ 50 442 70 9797 = 60 9022 ) (^ 0 ) = 20 6272 Intervalos de con…anza (al 90 %) y contrastes de hipótesis sobre los parámetros del modelo son: Intervalo de con…anza para 2) s^2R (n 2 n 2 2 2 ) 80250 62 540 3245 850 325 = 2 80250 62 940 0592 2 73 00 05 73 1090 94 2 2 73 00 95 ) 940 0592 ) 2 80250 62 = 1470 735: 540 3245 Intervalo de con…anza para ^ 1 ^1 1 (^ 1 ) 10 6664 1 tn 2 ) t73 00 05 80 108 00 4286 1 80 108 1 10 6664 ) 00 4286 2 80 108 00 4286 10 6664 = 80 108 t73 00 95 ) 00 7142 = 70 3938; 80 8222 : 6 Modelos estadísticos aplicados. Juan Vilar Intervalo de con…anza para ^ 0 ^0 0 tn (^ 0 ) 10 6664 0 2 130 515 20 6272 ) t73 00 05 0 130 515 0 10 6664 ) 0 2 6272 2 130 515 20 6272 10 6664 = 130 515 Contraste de hipótesis para ^ 1 d1 (H0 : 1 =0 t73 00 95 ) 40 378 = 90 137; 170 893 : f rente H0 : ^1 80 108 = 0 = 180 917 (^ 1 ) (^ 1 ) 0 4286 ) p valor = P jt73 j > 180 917 = 00 0000 = ^1 1 jH0 = tn 1 6= 0) 0 6= 0) 2 ) Se rechaza H0 : Contraste de hipótesis para ^ 0 d0 (H0 : 0 =0 f rente H0 : ^0 130 515 = 0 = 50 144 (^ 0 ) (^ 0 ) 2 6272 ) p valor = P jt73 j > 50 144 = 00 0000 = ^0 0 jH0 = tn 2 ) Se rechaza H0 : El coe…ciente de correlación es r= sxy 640 6995 = 0 = 00 9113: sx sy 2 82484 250 1313 En el siguiente grá…co se representa la nube de puntos y la recta ajustada Figura 4.1. Nube de observaciones y recta ajustada. Prácticas y problemas de regresión lineal simple. 7 El grá…co de residuos frente a las predicciones se observa en el siguiente grá…co, Figura 4.2. Grá…co de residuos. Cálculo de la tabla ANOVA del modelo. scR = 75 X e2i = 8;0250 61; i=1 scG = scE = 75 X i=1 75 X (yi y)2 = 75 s2y = 75 6310 586 = 47;3680 95; (^ yi y)2 = scG scR = 47;3680 95 8;0250 61 = 39;3430 34; i=1 de donde Tabla ANOVA Fuentes de variación scE (modelo) scR (Residual) scG (Global) Suma de cuadrados Grados libertad 39;3430 34 80250 61 47;3680 95 1 73 74 Varianzas F test s^2e = 39;3430 34 s^2R = 1090 94 s^2y = 6400 12 F = 3570 86 s^R = 100 48 s^y = 250 30 p 00 0000 Contraste de regresión. H0;reg : H1 : value “el modelo de regresión lineal ajustado no es in‡uyente” “el modelo ajustado es in‡uyente” 8 Modelos estadísticos aplicados. Juan Vilar 0: El estadístico del contraste es d^reg Si H0;reg es correcto s^2e d^reg s^2e 39;3430 34 = 3570 86 F1;73 = 1090 94 s^2R ) p valorreg = P (F1;73 > 3570 86) = 00 0000: = Se rechaza H0;reg y se asume que el modelo ajustado es signi…cativo. Contraste de linealidad. Dado que para cada valor de x se dispone de varias observaciones de Y; se puede hacer el contraste H0;lin : H1 : “el modelo lineal es adecuado” “el modelo de regresión no es lineal” Se descompone scR en dos términos: scR = 75 X e2i = i=1 y^i )2 = (yi i=1 75 X scR1 = 75 X 75 X (yi: y^i )2 + i=1 75 X (yi yi )2 : i=1 (yi: y^i )2 = 2;7650 84: i=1 75 X scR2 = i=1 75 X scR = yi )2 = 5;2590 77: (yi e2i = i=1 75 X y^i )2 = 2;7650 84 + 52590 77 = 8;0250 61: (yi i=1 La nueva tabla ANOVA, más completa, es Tabla ANOVA Fuentes de variación scE (modelo) scR1 scR2 scR (Residual) scG (Global) Suma de cuadrados Grados libertad 39;3430 34 2;7650 84 5;2590 77 80250 61 47;3680 95 1 8 65 73 74 = F test s^2e = 39;3430 34 s^2R;1 = 3450 731 s^2R;2 = 800 919 s^2R = 1090 94 s^2y = 6400 12 Freg = 3570 86 00 0000 Flin = 40 27 s^R = 100 48 s^y = 250 30 00 0004 0: El estadístico del contraste es d^lin Si H0;lin es correcto s^2R;1 d^lin Varianzas s^2R;1 s^2R;2 ) p = 3450 731 = 40 27 800 919 F8;65 valorlineal = P (F8;65 > 40 27) = 00 0004 p value Prácticas y problemas de regresión lineal simple. 9 Se rechaza H0;lin y se deduce que el modelo lineal no es el que mejor se ajusta a la nube de observaciones. Predicciones. “Calcular intervalos de con…anza al 90 % para el tiempo medio de impresión de los trabajos que tienen 6 y 12 hojas respectivamente. Calcular intervalos de predicción al 90 % para el tiempo de impresión de un trabajo que tiene 6 hojas. Calcular el intervalo de predicción para el tiempo de impresión de un trabajo de 12 hojas”. Para xt = 6; el estimador de mt = E(Y =X = 6) es m ^ t = 130 515 + 80 108 xt = 130 515 + 80 108 6 = 620 163: El valor de in‡uencia (leverage) es ht = 1 n 1+ xt x sX 2 ! 1 = 75 1+ 6 50 44 20 82484 2 ! 1 1 + 00 19822 = 00 013857: 75 1 ) nt = = 720 1651 (número de observaciones equivalente): ht = La varianza del estimador m ^t V ar (m ^ t) = ) s^2R 1090 94 = 0 = 10 5235: nt 72 1651 (m ^ t ) = 10 2343: Un intervalo de con…anza al 90 % para mt es mt 620 163 10 2343 mt mt t73 ) 2 620 163 2 620 163 t73 00 95 10 2343 ) 10 6664 10 2343 = 620 163 20 0568 = 600 106; 640 219 : La predicción para Y =X = 6 es y^t = 130 515 + 80 108 xt = 130 515 + 80 108 6 = 620 163: La varianza de predicción es s^2R 1090 94 + s^2R = 0 + 1090 94 = 1110 4635 ) nh 72 1651 (^ yt ) = 100 5576: V ar (^ yt ) = 10 Modelos estadísticos aplicados. Juan Vilar Un intervalo de predicción al 90 % para yt es yt 2 620 163 t73 00 95 yt 2 620 163 100 5576 ) 10 6664 100 5576 = 620 163 170 593 = 440 569; 790 756 : Análogamente, se realizan los cálculos para xq = 12: El estimador de mt = E (Y =X = 12) es m ^ q = 130 515 + 80 108 12 = 1100 811: Su valor de in‡uencia es hq = 1 n xq x sR 1+ 2 ! 1 = 75 2 12 50 44 20 82484 1+ ! 1 1 + 20 32222 = 00 08523 75 1 ) nq = = 110 7323 (número de observaciones equivalente): hq = La varianza de m ^ q es V ar (m ^ q) = ) s^2R 1090 94 = 0 = 90 3707: nq 11 7323 (m ^ q ) = 30 0612: Un intervalo de con…anza al 90 % para mq es mq 2 1100 811 mq 2 1100 811 t73 00 95 30 0612 ) 10 6664 30 0612 = 1100 811 50 1011 = 1050 709; 1150 912 : La predicción de Y =X = 12 es y^q = 130 515 + 80 108 12 = 1100 811: V ar (^ yq ) = ) s^2R + s^2R = 1090 94 nq (^ yq ) = 100 923: 1 110 7323 +1 = 1190 31: Un intervalo de predicción al 90 % para yq es yq 2 1100 811 yq 2 1100 811 t73 00 95 100 923 ) 10 6664 100 923 = 1100 811 180 202 = 920 609; 1290 013 : Prácticas y problemas de regresión lineal simple. En la tabla adjunta se pueden comparar las longitudes de los intervalos calculados xt = 6 xq = 12 Longitudes de los intervalos calculados Int. Con…anza Int. Predicción núm. equivalente de (E (Y =x)) de (Y =x) de observaciones 0 0 2 0568 17 593 720 1651 50 1011 180 202 110 7323 11 12 Modelos estadísticos aplicados. Juan Vilar 1.3. Problemas propuestos de regresión lineal simple. Problema 4.4. (este problema se puede resolver utilizando calculadora) “En la tabla adjunta se presentan el número de páginas y el precio de doce libros técnicos: páginas 310 300 280 310 precio 30 50 30 50 30 50 70 30 páginas 400 170 430 230 precio 80 00 10 80 70 00 30 20 páginas 420 610 420 450 precio 20 50 50 00 50 40 30 70 Con estos datos se obtiene: (X el número de páginas e Y el precio): P12 i=1 Xi P12 i=1 Yi = 4;330; = 540 4; P12 2 i=1 Xi P12 2 i=1 Yi = 1;714;700; = 2900 62; P12 i=1 Xi Yi = 20;663: 1. Ajustar una recta de regresión que explique el precio en función del número de páginas e interpretar los resultados. 2. Construir la tabla ANOVA asociada. ¿Es el ajuste adecuado? 3. Calcular intervalos de con…anza al 90 % para los parámetros del modelo. 4. Calcular un intervalo de con…anza al 90 % para el precio de un libro de 500 páginas.” Problema 4.5. “La resistencia del cemento (r) depende, entre otras cosas, del tiempo de secado del cemento (t). En un experimento se obtuvo la resistencia de bloques de cemento con diferente tiempo de secado los resultados fueron los siguientes (Hald, A. (1952) “Statistical theory with engneering applications. Wiley & Sons). En base a esta muestra, Tiempo (días) 1 2 3 7 28 Resistencia (kg=cm2 ) 130 0 130 3 110 8 210 9 240 5 240 7 290 8 280 0 240 1 240 2 260 2 320 4 300 4 340 5 330 1 350 7 410 8 420 6 400 3 350 7 370 3 1. Analizar la posible existencia de una relación entre estas dos variables. 2. ¿Qué conclusiones se deducen del contraste de regresión y del contraste de linealidad? 3. Si se utilizase un ajuste cuadrático ¿se obtienen mejores resultados? Prácticas y problemas de regresión lineal simple. 13 4. Estudiar el modelo paramétrico propuesto por A. Hald que estudiba la relación del logaritmo de la resistencia del cemento sobre la inversa del tiempo de secado.” Problema 4.6. “La variable (Y ) representa, en miles, el número de asnos en España y la (X) el tanto por ciento del presupuesto del Estado dedicado a Educación. año 1920 1925 1930 1935 1940 Y 1;006 1;162 1;479 805 795 X 50 5 40 8 70 8 80 2 80 6 año 1945 1950 1955 1960 1965 Y 747 732 683 686 493 X 90 7 90 6 80 9 110 4 100 6 año 1970 1975 1980 Y 476 386 368 X 120 7 110 5 110 4 1. Representar gra…camente estos datos. 2. Construir la recta de regresión que explique el comportamiento de la variable “tanto por ciento del presupuesto del Estado dedicado a Educación” en función de la variable “el número de asnos en España” e interpretar los resultados 3. ¿Es signi…cativo el coe…ciente de correlación entre estas dos variables? 4. Los residuos asociados al ajuste de la regresión lineal ¿son independientes? 5. Representar las variables X e Y frente al tiempo. Calcular los coe…cientes de correlación y rectas de regresión de las variables X e Y respecto al tiempo. Nota: Estos datos son recogidos del texto de Daniel Peña “Estadística modelos y métodos. Vol. 2. Modelos lineales y series temporales”. Alianza Universidad Textos. Es un claro ejemplo de variables entre las que existe una alta correlación estadística pero no existe relación entre las mismas (correlaciones espúreas), su relación estadística es debida a la relación que ambas tienen con una tercera (el tiempo) y que no se tiene en cuenta en el estudio. Problema 4.7. “Se llevó a cabo un estudio para determinar la relación entre el número de años de experiencia (X) y el salario mensual, en miles de pesetas, (Y ) entre los informáticos de una región española. Se tomó una muestra aleatoria de 17 informáticos y se obtuvieron los siguientes datos Exper. 13 16 30 2 8 6 Salario 260 1 330 2 360 1 160 5 260 4 190 1 Exper. 31 19 20 1 4 10 Salario 360 4 330 8 360 5 160 9 190 8 240 6 Exper. 27 25 7 15 13 Salario 360 0 360 5 210 4 310 0 310 4 14 Modelos estadísticos aplicados. Juan Vilar 1. Calcular la regresión lineal de la variable salario frente a años de experiencia. Calcular intervalos de con…anza al 95 % para los coe…cientes de este modelo. 2. Calcular el coe…ciente de correlación lineal y el coe…ciente de determinación. ¿Con = 00 05 se puede rechazar la hipótesis de que el coe…ciente de determinación es cero? 3. Calcular intervalos de con…anza al 90 % y 95 % para la predicción del salario de un informático que tiene 8 años de experiencia. 4. ¿Se observa alguna anomalía en el grá…co de los residuos frente a la regresora.” Problema 4.8. “El siguiente conjunto de datos era tomado sobre grupos de trabajadoras de Inglaterra y Galés en el período de 1970-72. Cada grupo está formado por trabajadores de la misma profesión (médicos, trabajadores textiles, decoradores,...etc,) y en cada uno de los veinticinco grupos muestrados se han observado dos variables: el índice estandarizado de consumo de cigarrillos y el índice de muertes por cáncer de pulmón. (Occupational mortality: the registar general’s decennial supplement for England and Wales, 1970-72, series Ds, n.1, London:HMSO,149). x 77 137 117 94 116 102 111 93 88 y 84 116 123 128 155 101 118 113 104 x 102 91 104 107 112 113 110 125 y 88 104 129 86 96 144 139 113 x 133 115 105 87 91 100 76 66 y 146 128 115 79 85 120 60 51 1. Estudiar la regresión lineal del índice de mortalidad frente al índice de fumadores. 2. Calcular la tabla ANOVA. Conclusiones. 3. Comprobar si se veri…can las hipótesis del modelo.” Problema 4.9. “Anscombe utilizó el siguiente conjunto de datos para demostrar la importancia de los grá…cos en el análisis de regresión y correlación. Hay cuatro conjuntos de datos bidimensionales (X; Y ), el vector X es el mismo para los tres primeros conjuntos. 1. Para cada uno de los cuatro conjuntos de datos, calcular la recta de regresión de Y frente a X y el coe…ciente de correlación. 2. Para cada uno de los cuatro casos, dibujar la grá…ca de Y frente a X y la grá…ca de los residuos frente a las predicciones. ¿Qué conclusiones se deducen?” Prácticas y problemas de regresión lineal simple. X1 = X2 = X3 10 8 13 9 11 14 6 4 12 7 5 Y1 80 04 60 95 70 58 80 81 80 33 90 96 70 24 40 26 100 84 40 82 50 68 15 Y2 90 14 80 14 80 74 80 77 90 26 80 10 60 13 30 10 90 13 70 26 40 74 Y3 70 46 60 77 120 74 70 11 70 81 80 84 60 08 50 39 80 15 60 42 50 73 X4 8 8 8 8 8 8 8 8 8 8 19 Y4 60 58 50 76 70 71 80 84 80 47 70 04 50 25 50 56 70 91 60 89 120 50 Problema 4.10. “Los datos de la tabla adjunta muestran la cantidad de ozono registrada (Y ) y su presión parcial (X) para cada capa de altitud. Cada capa tiene aproximadamente un kilómetro de altura. Por conveniencia las capas se han escalado a un intervalo de -7 a +7. 1. Hacer una grá…ca de estos datos, ¿es razonable un ajuste lineal? 2. Ajustar una función de regresión lineal del ozono frente a la capa. Calcular la tabla ANOVA y los contrastes de regresión y de linealidad. Conclusiones. 3. Analizar detenidamente los residuos. ¿Se veri…can las hipótesis estructurales del modelo? ¿Son los datos homocedásticos? 4. ¿Existe un modelo no lineal que mejore el ajuste lineal?”. Capa 7 6 5 4 3 2 1 0 Ozono 530 8 540 8 530 3 540 6 630 8 640 2 670 2 650 4 710 8 730 2 790 4 810 1 850 2 830 0 900 3 840 2 930 2 970 4 1020 8 960 9 980 9 960 1 Capa 530 7 550 2 660 9 670 3 750 6 840 1 820 8 880 3 980 3 980 2 990 6 550 7 540 1 760 2 860 0 720 7 Ozono 7 440 7 380 5 6 600 2 540 9 500 8 5 730 6 650 4 670 1 4 740 8 820 3 760 9 3 2 1 930 6 860 2 870 9 890 5 920 3 960 6 980 5 1010 1 940 6 950 9 810 2 910 4 Problema 4.11. “El …chero problema-4-11 contiene once variables de 200 datos. La primera variable se corresponde con el vector de predicción de un ajuste lineal simple y las restantes diez variables se correponden con diferentes vectores de residuos del 16 Modelos estadísticos aplicados. Juan Vilar ajuste. Utilizando básicamente métodos grá…cos (grá…co de residuos frente a predicciones, histograma, grá…co de normalidad, grá…co de residuos frente al índice, correlograma,....) contratar si se veri…can las hipótesis básicas estructurales del modelo de regresión lineal o indagar la existencia de posibles problemas en el ajuste”. Problema 4.12. “En 34 lotes de 120 libras de cacahuetes se observó el nivel medio de a‡atoxin (partes por billón) (X) y el porcentaje de cacahuetes no contaminados (Y ) : X 30 0 40 7 80 3 90 3 90 9 110 0 830 2 Y 990 971 990 979 990 982 990 971 990 957 990 961 990 830 X 180 8 180 9 210 7 210 9 220 8 240 2 830 6 Y 990 942 990 932 990 908 990 970 990 985 990 933 990 718 X 460 8 460 8 580 1 620 3 700 6 710 1 990 5 Y 990 863 990 811 990 877 990 798 990 855 990 788 990 642 X 120 3 710 3 120 5 120 6 150 9 160 7 1110 2 Y 990 956 990 821 990 972 990 889 990 961 990 982 990 658 X 250 8 180 8 300 6 360 2 390 8 440 3 Y 990 858 990 975 990 987 990 958 990 909 990 859 1. Analizar estos datos e investigar la relación entre estas dos variables para predecir Y en función de X. ¿Es adecuado el ajuste lineal? 2. ¿Veri…can los residuos las hipótesis estructurales? 3. Intentar encontrar un ajuste paramétrico que mejore al lineal.” Problema 4.13. “En quince casas de la ciudad de Milton Keynes se observó durante un período de tiempo la diferencia de temperatura promedio (en grados centígrados) entre la temperatura en la calle y la temperatura en casa, y el consumo de gas diario en kWh. Dif. temp 100 3 110 4 110 5 120 5 130 1 Consumo 690 81 820 75 810 75 800 38 850 89 Dif. temp 130 4 130 6 150 0 150 2 150 3 Consumo 750 32 690 81 780 54 810 29 990 20 Dif. temp 150 6 160 4 160 5 170 0 170 1 Consumo 860 35 1100 23 1060 55 850 50 900 02 1. Hacer una grá…ca de los datos. ¿Existe relación entre estas dos variables? 2. ¿Se puede explicar el consumo de gas por una relación lineal con la diferencia de temperatura?. 3. Ajustando un polinomio de mayor grado, ¿se obtiene un mayor coe…ciente de determinación?, ¿qué modelo es preferible?”. Problema 4.14. “Se midió la altura (en centímetros) y el peso (en kilogramos) de treinta chicas de once años del Heaton Meiddle School de Bradford. Estudiar estos datos y la relación entre ambas variables. Prácticas y problemas de regresión lineal simple. Altura 135 146 153 154 139 131 149 Peso 26 33 55 50 32 25 44 Altura 141 136 154 151 155 137 143 Peso 28 28 36 48 36 31 36 Altura 149 147 152 140 143 146 133 Peso 46 36 47 33 42 35 31 17 Altura 148 149 141 164 146 137 135 Peso 32 34 29 47 37 34 30 Altura 149 141 Peso 32 32 1. Dibujar la grá…ca de estas observaciones y calcular la recta de regresión de peso frente a altura y la de altura frente a peso. 2. En la regresión lineal de peso frente a altura, ¿se observa alguna observación atípica?. 3. ¿Existen observaciones in‡uyentes? 4. Contrastar las hipótesis estructurales del modelo.” Problema 4.15. “El contenido en hierro de las escorias de los altos hornos puede ser determinada por una prueba química en laboratorio o, de forma más barata y rápida, por un test magnético. Se está interesado en estudiar la relación entre los resultados del test químico y del test magnético. En particular, se desea saber si a partir de los resultados del test magnético (X) se pueden estimar los resultados del test químico (Y ) sobre el contenido del hierro. Para ello, se han realizado los dos test a un conjunto de lotes recogidos secuencialmente en el tiempo. Los resultados obtenidos son los de la tabla adjunta. Qui 24 16 24 18 18 10 14 16 25 Mag 25 22 17 21 20 13 16 14 28 Qui 18 20 21 20 21 15 16 15 25 Mag 19 10 23 20 19 15 16 16 36 Qui 17 19 16 15 15 13 24 22 32 Mag 12 15 15 15 15 17 18 16 40 Qui 21 24 15 20 20 25 27 22 28 Mag 18 22 20 21 21 25 22 18 33 Qui 20 24 24 23 29 27 23 19 25 Mag 21 18 20 25 20 18 19 16 33 Qui 25 15 16 27 27 30 29 26 Mag 16 16 26 28 28 30 32 28 1. Analizar estos datos. Hacer un estudio descriptivo y grá…co de los mismos. 2. Estudiar la relación entre los tests, ¿es adecuado el ajuste lineal? 3. Chequear las hipótesis del modelo. 4. ¿Existe un ajuste linealizable o polinómico que mejore al ajuste lineal?” 18 Modelos estadísticos aplicados. Juan Vilar Problema 4.16. “Utilizando los datos del …chero problema-4-16 que contiene datos de variables de coches. 1. Estudiar la regresión lineal entre la variable mpg (miles per galon: inversa del consumo) y la regresora accel (aceleración). ¿Existe un ajuste mejor que el lineal? 2. Estudiar la regresión lineal entre mpg y la regresora weight (peso). 3. Estudiar la regresión lineal entre mpg y la regresora price (precio). 4. Estudiar la regresión lineal entre mpg y la regresora displace. 5. Estudiar la regresión lineal entre price y la regresora accel (aceleración). 6. ¿Utilizando un ajuste linealizable se mejoran los ajustes lineales estudiados? 7. Estudiar la existencia de datos atípicos y datos in‡uyentes en los ajustes lineales o linealizables obtenidos.” Problema 4.17. “Los siguientes datos representan el Producto Nacional Bruto de USA (X) y los gastos de consumo (Y ) en miles de millones de dólares de 1972, entre los años 1960-1980 Año PNB GC Año PNB GC Año PNB GC 1960 7370 2 4520 0 1967 1;0110 4 6020 7 1974 1;2480 0 7630 6 1961 7560 6 4610 4 1968 1;0580 1 6340 4 1975 1;2330 9 7800 2 1962 8000 3 4820 0 1969 1;0870 6 6570 9 1976 1;3000 4 8230 7 1963 8320 5 5000 5 1970 1;0850 6 6720 1 1977 1;3710 7 8630 9 1964 8760 4 5280 0 1971 1;1220 4 6960 8 1978 1;4360 9 9040 8 1965 9290 3 5570 5 1972 1;1850 9 7370 1 1979 1;4830 0 9300 9 1966 9840 8 5850 7 1973 1;2550 0 7680 5 1980 1;4800 7 9350 1 1. Ajustar un modelo lineal e interpretar los coe…cientes de regresión estimados. 2. Hacer la grá…ca de los residuos frente al tiempo. Estudiar la hipótesis de independencia. 3. Si existe una autocorrelación positiva, transformar los datos y ajustar el modelo de regresión lineal a los datos (mínimos cuadrados generalizados).” Problema 4.18. “Para las compañías de seguros de hogar tiene interés estimar el coste de reemplazar algunos objetos. Una de estas compañías estaba interesada en estimar el coste de reemplazar una colección de 1554 libros a partir de una muestra de 100 libros. El coste de los cien libros muestrales se obtenía de los catálogos de las editoriales y si algún libro estaba descatalogado su valor se calculaba utilizando el precio de un libro de similares características. Los precios están en peniques. Prácticas y problemas de regresión lineal simple. 19 Dado que el valor de los libros era muy variable, en un intento de conseguir una mayor exactitud, se utilizó como regresora para explicar el precio de un libro el ancho del lomo del mismo (medido en milímetros). El ancho total de los 1.554 libros era de 25.182 mm. Los datos de los cien libros se encuentran en el …chero problema-4-18. En base a estos datos, se pide: 1. Analizar estadísticamente las variables precio y ancho del libro. 2. ¿Existe una relación entre ambas variables? 3. Estimar el coste de toda la colección. En una primera aproximación sin tener en cuenta la variable ancho de los libros y, en segundo lugar, teniendo en cuenta esta variable.” Problema 4.19. “El …chero problema-4-19 contiene datos de dos nubes de puntos bidimensionales ((x; Y1 ) y (x; Y2 )). Estos datos son debidos a Wampler y los generó por simulación para comprobar cuando un determinado programa estadístico realiza con exactitud el ajuste por mínimos cuadrados. 1. Ajustar a estas dos nubes de puntos un polinomio. 2. ¿Qué grado de polinomio se debe ajustar?, ¿es el ajuste bueno? ¿exacto?”. Problema 4.20. “Los datos de la tabla adjunta son el conjunto clásico de datos del test psicológico de Strong sobre retención de memoria. Los datos se tomaban de la siguiente manera: un conjunto de individuos memorizaban una lista de objetos inconexos y pasado un tiempo la recordaba. La variable p indica el porcentage de retención de memoria en promedio y la variable t es el tiempo transcurrido. El objetivo del estudio era explicar la variable p en función de t: t 1 5 15 30 p 00 84 00 71 00 61 00 56 t 60 120 240 480 p 00 54 00 47 00 45 00 38 t 720 1440 2880 5760 p 00 36 t 10080 p 00 08 00 26 00 20 00 16 1. Analizar este conjunto de datos y estudiar la relación de la variable p respecto a t: 2. Estudiar analítica y gra…cámente un modelo del tipo p = exp( pérdida geométrica de la memoria. 3. Estudiar analítica y gra…cámente un modelo del tipo log p = pretación tiene este modelo?, ¿Qué ajuste es mejor?”. t) que sugiere una 0 + 1 t: ¿Qué inter- 20 Modelos estadísticos aplicados. Juan Vilar Problema 4.21. “El …chero problema-4-21 contiene datos de 78 ciervos de Escocia en los que se estudia el crecimiento de los dientes. Para todos los ciervos de un rebaño se supone que el crecimiento de los dientes …naliza a la misma edad y después la velocidad de desgaste es la misma para todos los animales y constante en el tiempo. La aleatoriedad en los resultados es debida al peso de la corona en la madurez que sigue una distribución normal y la edad de la madurez no es conocida con exactitud. A los ciervos de la muestra se les tomo la edad y el peso en gramos del primer molar. En base a estos datos: 1. Estudiar la relación del peso respecto a la edad. 2. Hacer los contrastes de regresión y de linealidad. 3. Analizar los residuos, ¿se veri…can las hipótesis básicas?”. Problema 4.22. “En los sitemas productivos de ovejas tiene un gran interés controlar las necesidades energéticas de cada animal ya que in‡uyen en la predicción de la producción de carne. Por ello, se ha tomado una muestra de 64 ovejas australianas y, a cada una de ellas, se le controló su peso x (en kilogramos), y sus necesidades energéticas diarias Y medidas en Mcal/día. Los resultados de la muestra se presentan en el …chero problema4-22. En base a estos datos muestrales: 1. Estudiar la relación lineal de Y respecto a x: 2. Estimar la media de consumo energético de las ovejas que pesan 30, 40, 50 y 60 Kgr. Calcular intervalos de con…anza al 90 % para estos valores. Hacer el mismo cálculo pero considerando la predicción del consumo energético de una oveja de ese peso. Calcular intervalos de predicción.” Problema 4.23. “El …chero problema-4-23 contiene dos conjuntos de datos bidimensionales en los que no existe una relación lineal pero si es fácil encontrar la relación existente entre las dos variables. El primer conjunto tiene 25 observaciones de molinos de viento para la producción de energía eléctrica, la variable X1 mide la velocidad del viento y la variable Y 1 mide la corriente eléctrica obtenida. El segundo conjunto tiene 19 observaciones relativas a la producción del papel, la variable X2 mide la resistencia del papel fabricado y la variable Y 2 mide la proporción de madera en la pulpa a partir de la cual se obtiene el papel. 1. En ambos casos, dibujar la grá…ca de la nube de puntos. 2. Obtener el modelo de regresión que mejor se ajusta a la nube de observaciones. ¿Existe ajustes que mejoran al lineal?, ¿el ajuste realizado es su…cientemente bueno? 3. Analizar los residuos de los modelos ajustados”. Prácticas y problemas de regresión lineal simple. 21 Problema 4.24. “El …chero problema-4-24 contiene datos relativos al peso del cuerpo (X; en kilogramos) y el peso del cerebro (Y; en gramos) de 28 especies de animales. En base a estos datos: 1. ¿Se observa en esta nube algún dato atípico? 2. Transformar los datos para que se pueda hacer una grá…ca de los mismos. Realizar la grá…ca de los datos transformados. 3. Ajustar un modelo de regresión lineal a los datos transformados. ¿Es el ajuste adecuado? Interpretarlo. 4. En el modelo transformado ¿Existen datos atípicos?”. Problema 4.25. “La dureza de los árboles es difícil de medir directamente, sin embargo la densidad si es relativamente fácil de medir. Por ello es de gran interés disponer de un modelo que permita predecir la dureza de un árbol a partir de su densidad. Por este motivo se ha tomado una muestra de 36 eucaliptos australianos y se les midió su densidad (X) y su dureza (Y ). Los resultados obtenidos son los de la tabla adjunta. Densidad 240 7 240 8 270 3 280 4 280 4 290 0 300 3 320 7 350 6 380 5 380 8 390 3 Dureza 484 427 413 517 549 648 587 704 979 914 1070 1020 Densidad 390 4 390 9 400 3 400 6 400 7 400 7 420 9 450 8 460 9 480 2 510 5 510 5 Dureza 1210 989 1160 1010 1100 1130 1270 1180 1400 1760 1710 2010 Densidad 530 4 560 0 560 5 570 3 570 6 590 2 590 8 660 0 670 4 680 8 690 1 690 1 Dureza 1880 1980 1820 2020 1980 2310 1940 3260 2700 2890 2740 3140 En base a estos datos: 1. Estudiar el modelo de regresión lineal de Y respecto a X: 2. Ajustar a estos datos un polinomio de grado a determinar. ¿Se mejora de forma apreciable el ajuste lineal? 3. Con el mejor ajuste predecir la dureza de un árbol de densidad 20, 40, 60 y 80. 4. Calcular intervalos de con…anza y de predicción al 90 % para las estimaciones del apartado anterior. 5. Analizar los residuos del modelo ajustado. 6. Considerar una transformación de los datos de la dureza (Y ) y ajustar un modelo de regresión. ¿El modelo ajustado con los datos transformados mejora al ajuste polinómico?”