Regresión lineal simple 1 Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Ingenierı́o Industrial Ampliación de Estadı́stica. Curso Académico: 2003/2004. Profesor: Mathieu Kessler Regresión lineal simple 1. Producción de uva. En julio, las cepas producen racimos de pequeñas bayas, y un recuento de esos racimos se quiere utilizar para predecir la cantidad de uva que se cosechará. En la tabla siguiente aparece, para varios años, la cosecha de uva en toneladas por acre, y la cantidad de racimos contabilizados en julio. Año 1971 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 Producción (Y ) 5.6 3.2 4.5 4.2 5.2 2.7 4.8 4.9 4.7 4.1 4.4 5.4 No racimos (x) 116 83 111 97 116 80 125 116 117 93 107 122 (a) Definir la población y las variables bajo estudio. Analice los datos utilizando, después de haberlo definido, un modelo de regresión lineal. Este análisis deberá comprender intervalos de confianza para la pendiente y la ordenada al origen de la recta de regresión. (b) Realize un gráfico de los residuos en función de los valores ajustados, una gráfica normal de los residuos, y comente la validez del modelo de regresión lineal simple. (c) El precio de venta del kilo de uva es de 10pts . Si en junio se contaron 105 racimos de bayas, a) construya un intervalo de confianza para el precio medio conseguido por la producción. b) Encuentre, con una probabilidad de 0.95 una cota inferior para el precio de la cosecha, es decir, encuentre un número tal que la probabilidad de que el precio supere esta cota es igual a 0.95. 2. Los datos de la tabla siguiente están tomados de un experimento de soldadura por rozamiento. En este experimento, una pieza que rodaba a cierta velocidad se llevó a un punto de reposo al forzarla a entrar en contacto con otra pieza que estaba parada. El calor generado por la fricción entre las dos superficies produjo una soldadura de presión caliente. Se quiere estudiar la relación entre la resistencia a la rotura de la soldadura con la velocidad de la pieza rotativa. Velocidad (m/mn) Resistencia (ksi) 60 89 75 97 75 91 83 98 90 100 90 104 90 97 (a) Analice los datos utilizando un modelo de regresión lineal. (b) ¿Cuál es la resistencia promedio de la soldadura si la velocidad de la pieza es de 85m/mn? (c) ¿Qué cambio se espera en la resistencia promedio si la velocidad cambia 1 m/mn? (d) Contrastar la afirmación ” La mejora en la resistencia promedio es mayor de 5 ksi si se aumenta la velocidad de 10m/mn”. 3. Las materias primas empleadas en la producción de una fibra sintética son almacenadas en un lugar en donde no se tiene control de la humedad. La siguiente tabla refleja en porcentajes la humedad relativa del almacén (X) y la humedad observada en la materias primas (Y ) durante un estudio que tuvo lugar durante 12 dı́as. X Y 41 1.6 53 13.6 59 19.6 65 25.6 71 31.6 78 33.2 50 14.7 65 21.2 74 28.3 (a) Analice los datos utilizando un modelo de regresión lineal. Este análisis deberá comprender intervalos de confianza para la pendiente, la ordenada al origen de la recta de regresión ası́ como para la varianza del modelo. (b) Construir un intervalo de confianza para la media de la humedad de las materias primas si la humedad relativa del almacen es igual a 69. (c) Contestar a la pregunta que os hace una persona sin conocimientos de estadı́stica : ¿Qué valdrá la humedad en las materias primas si se consigue una humedad relativa de 35? (d) Realizar el análisis de los residuos para validar el modelo. 4. Se pretende calibrar un cromatógrafo, técnica usada para detectar cantidades muy pequeñas de sustancia. Para ello se preparan cuatro probetas con distintas cantidas de una sustancia dada. Para cada una de las cuatro probetas, se realizaron cuatro medidas con el aparato: Regresión lineal simple Cantidad Señal Cantidad Señal 2 0.25 6.55 5 211 0.25 7.98 5 204 0.25 6.54 5 212 0.25 6.37 5 213 1 29.7 20 929 1 30.0 20 905 1 30.1 20 922 1 29.5 20 928 (a) Analice los datos utilizando, después de haberlo definido, un modelo de regresión lineal. Este análisis deberá comprender intervalos de confianza para la pendiente, la ordenada al origen de la recta de regresión ası́ como para la varianza del modelo. (b) Realizar el análisis de los residuos para validar el modelo. (c) LLeve a cabo la prueba de falta de ajuste del modelo lineal. 5. Un fabricante de papel utilizado para fabricar bolsas para caramelos quiere mejorar la resitencia a la tensión del producto. Para ello, quiere estudiar la influencia de la concentración de madera en la tensión de ruptura del papel. Los datos obtenidos son los siguientes: % madera 5 10 15 20 Observaciones 16.11 14.90 15.22 14.27 14.62 14.74 12.76 14.85 14.42 16.72 14.50 15.35 (a) Calcular estimadores de β0 , β1 y de la varianza σ 2 del error. Construir intervalos de confianza para los dos primeros parámetros. ¿Le parece bueno el ajuste de nuestros datos por el modelo propuesto? (b) Plantear y llevar a cabo el contraste de hipótesis para probar si los valores del factor f no dependen de ln(P ). (c) ¿Cuáles son los pasos a seguir para validar nuestro modelo? (Es suficiente enumerar los procedimientos adecuados junto con su finalidad) (d) Si en la presión se produce un incremento que corresponde a multiplicar la presión inicial por dos, ¿cuál es, en función de β1 , el incremento promedio correspondiente para el el factor f ? Deducir un intervalo de confianza al 95 % para ese incremento promedio. (e) Realizar la prueba de falta de ajuste de nuestro modelo lineal sabiendo que el en correspondiente modelo anova, el estimador de la varianza es σ̃ 2 ' 1.917. ¿Cuál es su conclusión? 7. La hidrólisis de un cierto ester tiene lugar en medio ácido según un proceso cinético de primer orden. Partiendo de una concentración inicial desconocida del éster, se han medido las concentraciones del mismo a diferentes tiempos obteniéndose los resultados siguientes. 3 5 10 15 20 30 40 50 60 75 90 t(min) c.103 (M) 25.5 23.4 18.2 14.2 11 6.7 4.1 2.5 1.5 0.7 0.4 (a) Analice los datos utilizando un modelo de regresión lineal. 6. (Septiembre 99) Los datos que se dan a continuación provienen de un experimento en el que cinco presiones distintas fueron aplicadas durante la fase de presa en una fábrica de papel. Se quiere investigar el efecto de la presión P sobre el factor f de desgarro del papel, que se calcula como el porcentaje de una fuerza estándar necesaria para desgarrar la hoja. Al sospechar que el factor de desgarro está directamente relacionado con el logaritmo de la presión, se ha indicado en la segunda columna el logaritmo de P. Presión P 35 49.5 70 99 140 ln(P ) 3.55 3.90 4.25 4.59 4.94 Factor de desgarro 113,116 111 107,107,109 104,103 100 Queremos proponer el modelo siguiente para el factor de desgarro f : f = β1 + β2 ln(P ) + ε donde ε es un error aleatorio normal de media 0. (a) Realize una nube de puntos de las dos variables. Proponga un modelo de relación entre el tiempo y la concentración en éster. (b) Estamos interesados en estimar la velocidad k de disparición del t éster, que definimos por k = dC dt |t=0 . Proponga un método para estimar esta cantidad, y realice el análisis de los datos anteriores. (c) Nos indican ahora que la concentración incial exacta del éster era de 3.10−2 M . ¿Cómo podemos incluir esta información a nuestro modelo? 8. Se realiza un estudio sobre la concentración de cloro de varios arroyos. Los datos siguientes muestran la concentración de cloro y ( en mg/l) y el área x que rodea la cuenca ( en %). x y x y 0.19 4.40 0.78 14.70 0.15 6.60 0.81 15.00 0.57 9.70 0.78 17.30 0.70 10.60 0.69 19.20 0.67 10.80 1.30 23.10 0.63 10.90 1.05 27.40 0.47 11.80 1.06 27.70 0.70 12.10 1.74 31.80 (a) Analice los datos utilizando un modelo de regresión lineal. 0.60 14.30 1.62 39.50