Revisado_Abril_2015_LW B CLAVE - LAB 12 - Regresión Múltiple y Selección de Variables Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (g) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (g) y se registraron las características del suelo en el que crecía. Los datos están en el archivo Salinidad en InfoStat (Archivo>Abrir datos de prueba). a. Ajuste un modelo de regresión lineal múltiple (modelo 1) usando biomasa como variable dependiente, y pH, salinidad, zinc y potasio como variables independientes. Guarde los valores predichos y los residuos estudentizados. Análisis de regresión lineal Variable Biomass N 45 R² 0.92 R² Aj ECMP 0.92 33301.86 AIC 590.55 BIC 601.39 Coeficientes de regresión y estadísticos asociados Coef const pH Salinity Zinc Potassium Est. E.E. LI(95%) LS(95%) T 1492.81 453.60 576.05 2409.57 3.29 262.88 33.73 194.71 331.05 7.79 -33.50 8.65 -50.99 -16.01 -3.87 -28.97 5.66 -40.42 -17.52 -5.11 -0.12 0.08 -0.28 0.05 -1.40 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM Modelo. 12120944.19 4 3030236.05 pH 1533665.03 1 1533665.03 Salinity 378485.90 1 378485.90 Zinc 660588.37 1 660588.37 Potassium 49785.48 1 49785.48 Error 1009974.02 40 25249.35 Total 13130918.21 44 p-valor CpMallows 0.0021 <0.0001 63.28 0.0004 18.65 <0.0001 29.55 0.1680 5.95 F 120.01 60.74 14.99 26.16 1.97 p-valor <0.0001 <0.0001 0.0004 <0.0001 0.1680 b. Obtenga la ecuación estimada de regresión y el valor del coeficiente de determinación. Interprete los coeficientes de regresión parciales en términos de este problema. Biomasa = 1492.81 + 262.9 (pH) – 33.5(salinidad) – 28.97(Zn) – 0.12(K) Coeficiente de determinación = R2 = 0.92 (el modelo explica 92% de la variabilidad en biomasa) β1 = Por cada aumento en una unidad de pH, y manteniendo constantes Zn, salinidad y K, la biomasa promedio aumentará 262.9 g, β2 = Por cada aumento en una unidad de salinidad, y manteniendo constantes Zn, pH y K, la biomasa promedio disminuirá 33.5 g, β3 = Por cada aumento en una unidad de Zn, y manteniendo constante salinidad, pH, y K, la biomasa promedio disminuirá 28.97 g, β4 = Por cada aumento en una unidad de K, y manteniendo constantes Zn, pH, y salinidad, la biomasa promedio disminuirá 0.12g, AGRO 6600 – LAB 12 - CLAVE Page 1 c. Para verificar validez del modelo, construya gráficos de dispersión de residuos estudentizados versus cada una de las variables independientes. ¿Qué información obtenemos con estos gráficos? Observe con cuidado el gráfico residuos vs. salinidad. Los gráficos de residuos estudentizados vs. las variables independientes reflejan la linealidad del modelo. Una curva notable en alguno de los gráficos refleja una relación curva de la Y con esa variable X, indicando la necesidad de utilizar una fórmula matemática diferente para mejorar el valor predictivo del modelo. Este tipo de curvatura puede observarse en el gráfico residuos vs. salinidad. d. Ajuste un modelo (modelo 2) que incluya todas las variables independientes usadas anteriormente y un término cuadrático para salinidad (use la opción polinomios). Guarde nuevamente los residuos estudentizados y valores predichos. Análisis de regresión lineal Variable Biomass N 45 R² 0.97 R² Aj 0.96 ECMP 15382.90 AIC BIC 556.48 569.12 No se puede interpretar los coeficientes parciales de salinidad y salinidad2 porque es imposible cambiar el nivel de salinidad y a la misma vez mantener la variable salinidad2 constante Coeficientes de regresión y estadísticos asociados Coef const pH Zinc Potassium Salinity Salinity^2 Est. 10430.36 224.02 -36.39 -0.17 -590.47 8.90 E.E. LI(95%) LS(95%) 1327.07 7746.11 13114.61 23.56 176.37 271.68 3.99 -44.46 -28.32 0.06 -0.28 -0.06 80.66 -753.62 -427.32 1.29 6.30 11.50 T 7.86 9.51 -9.12 -3.02 -7.32 6.92 p-valor CpMallows <0.0001 <0.0001 93.19 <0.0001 86.17 0.0044 13.94 <0.0001 57.27 <0.0001 51.76 Revisado_Abril_2015_LW B Cuadro de Análisis de la Varianza (SC tipo I) F.V. SC gl CM Modelo. 12677829.81 5 2535565.96 pH 11310631.13 1 11310631.13 Zinc 347360.98 1 347360.98 Potassium 84466.18 1 84466.18 Salinity 378485.90 1 378485.90 Salinity^2 556885.62 1 556885.62 Error 453088.40 39 11617.65 Total 13130918.21 44 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM Modelo. 12677829.81 5 2535565.96 pH 1050548.66 1 1050548.66 Zinc 966936.57 1 966936.57 Potassium 106199.51 1 106199.51 Salinity 935371.52 2 467685.76 Error 453088.40 39 11617.65 Total 13130918.21 44 F 218.25 973.57 29.90 7.27 32.58 47.93 F 218.25 90.43 83.23 9.14 40.26 p-valor <0.0001 <0.0001 <0.0001 0.0103 <0.0001 <0.0001 p-valor <0.0001 <0.0001 <0.0001 0.0044 <0.0001 Solamente hace sentido considerar las SC tipo I (secuenciales) para términos polinomiales (salinidad lineal y cuadrática en este ejemplo) Considerando las SC tipo I (secuenciales): vemos que, en un modelo que ya incluye 2 pH, Zn, K y salinidad, el término salinidad explique una parte adicional (significativa) de la variación en biomasa (justificando su inclusión en el modelo) Biomasa = 10430.36 + 224(pH) – 36.4(Zn) – 0.17(K) -590.5(salinidad) + 8.9(salinidad)2 e. Para verificar validez del modelo, construya gráficos de dispersión de residuos estudentizados versus cada una de las variables independientes. Modelo 2 (con salinidad2): En estos gráficos no se observan tendencias curvilíneas respecto a ninguna de las variables (al contrario de lo que vimos en el modelo 1). AGRO 6600 – LAB 12 - CLAVE Page 3 f. Para este modelo, interprete los coeficientes de regresión parciales asociados con pH, potasio y zinc. ¿Por qué no se puede interpretar el coeficiente asociado a salinidad? β1 = Por cada aumento en una unidad de pH, y manteniendo constantes Zn, salinidad y K, la biomasa promedio aumentará en 224.02 g β2 = Por cada aumento en una unidad de Zn, y manteniendo constantes salinidad, pH y K, la biomasa promedio disminuirá por 36.4 g, β3 = Por cada aumento en una unidad de K, y manteniendo constante salinidad, pH y Zn, la biomasa promedio disminuirá 0.17 g, Los coeficientes asociados a salinidad no se puede interpretar porque no es posible mantener constante salinidad2 y al mismo tiempo aumentar salinidad una unidad! g. Ajuste un modelo que no incluya potasio (modelo 3). Incluya solamente ph, zinc, salinidad y salinidad al cuadrado (use polinomios), guarde los residuos estudentizados y grafíquelos versus cada una de las variables independientes (incluyendo potasio). Análisis de regresión lineal Variable Biomass N 45 R² 0.96 R² Aj 0.95 ECMP 17163.88 AIC BIC 563.95 574.79 Coeficientes de regresión y estadísticos asociados Coef const pH Zinc Salinity Salinity^2 Est. E.E. LI(95%) LS(95%) 9895.13 1442.86 6979.01 12811.25 215.02 25.64 163.21 266.84 -38.01 4.34 -46.77 -29.25 -558.14 87.71 -735.40 -380.87 8.35 1.40 5.53 11.18 Cuadro de Análisis de la Varianza (SC tipo I) F.V. SC gl CM Modelo. 12571630.30 4 3142907.58 pH 11310631.13 1 11310631.13 Zinc 347360.98 1 347360.98 Salinity 413166.61 1 413166.61 Salinity^2 500471.59 1 500471.59 Error 559287.91 40 13982.20 Total 13130918.21 44 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM Modelo. 12571630.30 4 3142907.58 pH 983536.25 1 983536.25 Zinc 1074346.89 1 1074346.89 Salinity 913638.19 2 456819.10 Error 559287.91 40 13982.20 Total 13130918.21 44 T 6.86 8.39 -8.77 -6.36 5.98 p-valor CpMallows <0.0001 <0.0001 72.65 <0.0001 78.99 <0.0001 43.53 <0.0001 38.94 F 224.78 808.93 24.84 29.55 35.79 p-valor <0.0001 <0.0001 <0.0001 <0.0001 <0.0001 F 224.78 70.34 76.84 32.67 p-valor <0.0001 <0.0001 <0.0001 <0.0001 Biomasa = 9895.1 + 215(pH) – 38.0(Zn) – 558.1(salinidad) + 8.35(salinidad)2 Revisado_Abril_2015_LW B Título Título 2.50 2.50 1.25 RE_Biomasa RE_Biomasa 1.25 0.00 -1.25 0.00 -1.25 -2.50 -2.50 3.00 4.25 5.50 6.75 20.00 8.00 25.00 30.00 35.00 40.00 Salinidad pH Título Título 2.50 2.50 1.25 RE_Biomasa RE_Biomasa 1.25 0.00 -1.25 0.00 -1.25 -2.50 -2.50 0.00 8.75 17.50 26.25 35.00 Zinc 300 600 900 1200 1500 Potasio Modelo 2 (eliminando potasio del modelo): En estos gráficos una tendencia lineal entre RE_biomasa y potasio, sugiriendo que no fue conveniente remover potasio del modelo h. ¿Cuál de los tres modelos seleccionaría? Justifique su respuesta e indique la ecuación del modelo estimado. El modelo más apropiado parece ser el Modelo 2. En el modelo 1 hay una relación curvilínea entre los residuos y la variable independiente salinidad. Esto significa que agregando un término cuadrático para salinidad el modelo mejorará su valor predictivo. En el modelo 3 hay una relación lineal entre los residuos (que es la parte no explicada por el modelo) y la variable independiente K. Esto indica que K explica (linealmente) una parte de lo que falta por explicar de las observaciones, y por lo tanto aporta a la predicción de la biomasa, lo cual indica que NO es conveniente sacarlo (recordemos que K no se incluyó en el modelo 3). AGRO 6600 – LAB 12 - CLAVE Page 5 El modelo 2 parece tener un comportamiento apropiado de residuos, y por lo tanto lo elegimos: Biomasa = 10430.36 + 224(pH) – 36.4(Zn) – 0.17(K) -590.5(salinidad) + 8.9(salinidad)2 i. Para el modelo seleccionado verifique los supuestos de normalidad y homogeneidad de varianzas mediante gráficos y/o pruebas adecuadas. Shapiro-Wilks (modificado) Variable RE_Biomass n 45 Media 7.4E-04 D.E. 1.01 W* 0.94 p(Unilateral D) 0.1466 Ambas pruebas confirman Normalidad en los residuos y Homogeneidad de Varianza j. Prediga, si es posible, la biomasa producida en suelo de pH 6, con una salinidad de 35, un contenido de zinc de 20 y un contenido de potasio de 900. Si es posible, ya que todas las variables están en los rangos estudiados Biomasa = 10430.36 + 224(6) – 36.4(20) – 0.17(900) -590.5(35) + 8.9(35)2 = 1,128.36 (g) 2. Los datos adjuntos (gansos) se tomaron para estudiar el efecto de varias variables ambientales sobre el tiempo en el que una especie de ganso migratorio deja su nido a la mañana para ir a buscar alimento. Estos datos se tomaron durante varios días en un refugio de vida silvestre cerca de la costa de Texas en el invierno de 1987/88. La variable TIEMPO se indica en minutos antes (-) o después (+) del amanecer. La variable TEMP es la temperatura del aire en C, HUM es la humedad relativa ambiente, LUZ es la intensidad lumínica y NUBES es el porcentaje del cielo cubierto por nubes. Fecha 10-Nov-87 13-Nov-87 14-Nov-87 Tiempo 11 2 -2 Temp 11 11 11 Hum 78 88 100 Luz 12.6 10.8 9.7 Nubes 100 80 30 Revisado_Abril_2015_LW B 15-Nov-87 17-Nov-87 18-Nov-87 21-Nov-87 22-Nov-87 23-Nov-87 25-Nov-87 30-Nov-87 5-Dic-87 14-Dic-87 18-Dic-87 24-Dic-87 26-Dic-87 27-Dic-87 28-Dic-87 30-Dic-87 31-Dic-87 2-Ene-88 3-Ene-88 4-Ene-88 5-Ene-88 6-Ene-88 7-Ene-88 8-Ene-88 10-Ene-88 11-Ene-88 12-Ene-88 14-Ene-88 15-Ene-88 16-Ene-88 20-Ene-88 21-Ene-88 22-Ene-88 23-Ene-88 24-Ene-88 AGRO 6600 – LAB 12 - CLAVE -11 -5 2 -6 22 22 21 8 25 9 7 8 18 -14 -21 -26 -7 -15 -6 -23 -14 -6 -8 -19 -23 -11 5 -23 -7 9 -27 -24 -29 -19 -9 20 8 12 6 18 19 21 10 18 20 14 19 13 3 4 3 15 15 6 5 2 10 2 0 -4 -2 5 5 8 15 5 -1 -2 3 6 83 100 90 87 82 91 92 90 85 93 92 96 100 96 86 89 93 43 60 80 92 90 96 83 88 80 80 61 81 100 51 74 69 65 73 12.2 14.2 10.5 12.5 12.9 12.3 9.4 11.7 11.8 11.1 8.3 12 11.3 4.8 6.9 7.1 8.1 6.9 7.6 8.8 9 8 7.1 3.9 8.1 10.3 9 5.1 7.4 7.9 3.8 6.3 6.3 7.8 9.5 50 0 90 30 20 80 100 60 40 95 90 40 100 100 100 40 95 100 100 100 60 100 100 100 20 10 95 95 100 100 0 0 0 30 30 Page 7 a. Prepare e interprete una matriz de diagramas de dispersión (“scatterplot matrix”) y una matriz de correlación en Infostat. Título Tiempo Temp Hum Luz Nubes Correlación de Pearson: Coeficientes\probabilidades Tiempo Temp Hum Luz Nubes Tiempo 1.00 0.77 0.45 0.68 0.26 Temp 1.7E-08 1.00 0.25 0.55 0.29 Hum 4.2E-03 0.13 1.00 0.43 0.15 Luz 2.3E-06 3.2E-04 0.01 1.00 -0.17 Nubes 0.12 0.07 0.38 0.31 1.00 Este matriz nos ayuda hacer una evaluación preliminar o exploratoria sobre las relaciones entre las variables. Valores por debajo del diagonal son los coeficientes de correlación (r), y valores por encima del diagonal son la probabilidades (de la prueba t). Temperatura (r = 0.77, p=0.000000017) y luz (r=0.68, p=0.0000023) están bastante correlacionadas con el tiempo en que el ganso deja su nido. Así que, son buenos candidatos de variables para ser incluidas en el modelo. Mientras más alta la temperatura o mientras más luz (sol) que hay, los gansos toman más tiempo para dejar su nido. Hay otras variables como nubes (r=0.26, p=0.12) no correlacionada con tiempo. Ciertas variables son correlacionadas entre si (luz con temperatura y luz con humidad). Posiblemente no se justifica incluir ambas variables en el modelo. Revisado_Abril_2015_LW B b. Ajuste ecuaciones de regresión lineal simple entre TIEMPO y cada una de las variables independientes ¿Cuáles variables muestran una relación lineal fuerte con TIEMPO? Temperatura: Variable Tiempo N 38 R² 0.59 R² Aj ECMP 0.58 111.72 AIC 286.47 BIC 291.38 Coeficientes de regresión y estadísticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valor const -19.67 2.61 -24.95 -14.38 -7.55 <0.0001 Temp 1.68 0.23 1.21 2.15 7.23 <0.0001 CpMallows 51.86 VIF 1.00 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo. 5181.18 1 5181.18 52.24 <0.0001 Temp 5181.18 1 5181.18 52.24 <0.0001 Error 3570.40 36 99.18 Total 8751.58 37 Título 27.70 Tiempo 12.85 -2.00 -16.85 -31.70 -5.25 1.63 8.50 15.38 22.25 Temp Humedad Variable Tiempo N 38 R² 0.21 R² Aj ECMP 0.18 210.80 AIC 311.75 BIC 316.66 Coeficientes de regresión y estadísticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valor const -47.95 14.25 -76.84 -19.05 -3.37 0.0018 Hum 0.51 0.17 0.17 0.86 3.06 0.0042 CpMallows 10.14 VIF 1.00 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo. 1806.84 1 1806.84 9.37 0.0042 AGRO 6600 – LAB 12 - CLAVE Page 9 Hum Error Total 1806.84 6944.74 8751.58 1 36 37 1806.84 192.91 9.37 0.0042 Título 27.70 Tiempo 12.85 -2.00 -16.85 -31.70 40.15 55.82 71.50 87.17 102.85 Hum Luz Variable Tiempo N 38 R² 0.47 R² Aj ECMP 0.45 144.95 AIC 296.61 BIC 301.53 Coeficientes de regresión y estadísticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valor const -40.88 6.66 -54.39 -27.36 -6.13 <0.0001 Luz 3.99 0.71 2.55 5.43 5.62 <0.0001 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo. 4088.59 1 4088.59 31.57 <0.0001 Luz 4088.59 1 4088.59 31.57 <0.0001 Error 4662.99 36 129.53 Total 8751.58 37 Título 27.70 Tiempo 12.85 -2.00 -16.85 -31.70 3.28 6.14 9.00 Luz 11.86 14.72 CpMallows 31.74 VIF 1.00 Revisado_Abril_2015_LW B Nubes: Variable Tiempo N 38 R² 0.07 R² Aj ECMP 0.04 252.81 AIC 317.93 BIC 322.84 Coeficientes de regresión y estadísticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valor const -11.78 4.95 -21.81 -1.74 -2.38 0.0227 Nubes 0.11 0.07 -0.03 0.24 1.60 0.1184 CpMallows 3.52 VIF 1.00 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo. 580.86 1 580.86 2.56 0.1184 Nubes 580.86 1 580.86 2.56 0.1184 Error 8170.72 36 226.96 Total 8751.58 37 Título 27.70 Tiempo 12.85 -2.00 -16.85 -31.70 -5.00 22.50 50.00 77.50 105.00 Nubes Las variables TEMP, HUM y LUZ muestran un efecto lineal significativa sobre la variable dependiente tiempo (no hubo un efecto significativo (p=0.1184) de NUBES sobre el tiempo). La variable que muestra la relación más fuerte con el tiempo es la temperatura con un R2 igual a 0.59. (la raíz cuadrado de este valor es igual al coeficiente de correlación) c. Conduzca un análisis de regresión múltiple para predecir el tiempo (Y) usando todas las otras variables como independientes (temp, hum, luz y nubes). Obtenga la ecuación estimada de regresión y el valor del coeficiente de determinación. Interprete los coeficientes de regresión parciales en términos de este problema. Use InfoStat y SAS. AGRO 6600 – LAB 12 - CLAVE Page 11 Modelo completo (todas las variables): Análisis de regresión lineal Variable Tiempo N 38 R² 0.74 R² Aj ECMP AIC 0.70 92.94 275.97 BIC 285.79 El modelo completo explica 74% de la variación en tiempo en dejar el nido Coeficientes de regresión y estadísticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valor const -52.52 9.08 -70.99 -34.05 -5.78 <0.0001 Temp 1.02 0.27 0.48 1.57 3.82 0.0006 Hum 0.16 0.12 -0.07 0.40 1.39 0.1731 Luz 2.28 0.76 0.73 3.84 2.99 0.0053 Nubes 0.07 0.04 -0.02 0.16 1.55 0.1300 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo. 6438.69 4 1609.67 22.97 <0.0001 Temp 1021.21 1 1021.21 14.57 0.0006 Hum 135.90 1 135.90 1.94 0.1731 Luz 625.95 1 625.95 8.93 0.0053 Nubes 169.02 1 169.02 2.41 0.1300 Error 2312.89 33 70.09 Total 8751.58 37 CpMallows 18.17 5.91 12.70 6.37 VIF 1.88 1.32 2.15 1.43 Para usar en el ejercicio 2e Ecuación estimada de regresión: Tiempo = -52.52 + 1.02 TEMP + 0.16 HUM + 2.28 LUZ + 0.07 NUBES Interpretación de los coeficientes de Regresión: β1 = (TEMP) (p=0.0006) Por cada aumento en un grado centígrado el tiempo de salida del nido aumentará en 1.02 minutos, manteniendo constante humedad, luz y nubes. Β2 = (HUM) (p=0.1731) No hay un efecto significativo de humedad sobre el tiempo de salida del nido, manteniendo constante temperatura, luz y nubes. Β3 = (LUZ) (p=0.0053) Por cada aumento en una unidad de intensidad lumínica el tiempo de salida del nido aumentará en 2.28 minutos, manteniendo constante temperatura, humedad y nubes. β4 = (NUBES) (p=0.1300) No hay un efecto significativo de nubes sobre el tiempo de salida del nido, manteniendo constante temperatura, luz y humedad. Favor de notar que la regresión lineal simple con solo HUM resultó significativa en la parte 2b. Pero al incluir HUM en un modelo con las otras tres variables, su efecto no es significativo (posiblemente debido a una correlación con otra variable en el modelo). d. Prediga el tiempo promedio que estas aves dejan su nido cuando la temperatura es de 15C, la humedad relativa del 70%, la intensidad de luz de 10.5 y la cobertura de nubes del 65%. Y = -52.52 + 1.02 (15) + 0.16 (70) + 2.28 (10.5) + 0.07 (65) = 2.47 minutos después del amanecer Revisado_Abril_2015_LW B e. Pruebe 2 4 0. Ho: β0 + β1x1 + β3x3 (Modelo Reducido, donde 2 = 4 =0, o en otras palabras, estas variables [HUM y NUBES] no se incluyen en el modelo) Ha: β0 + β1x1 + β2x2 + β3x3 +β4x4 (Modelo Completo) El modelo completo se encuentra en la parte 2c. Modelo reducido: Variable Tiempo N 38 R² 0.69 R² Aj ECMP AIC 0.67 93.61 278.25 BIC 284.81 Coeficientes de regresión y estadísticos asociados Coef Est. E.E. LI(95%) LS(95%) T p-valor const -35.30 5.29 -46.04 -24.56 -6.67 <0.0001 Temp 1.23 0.25 0.73 1.73 4.98 <0.0001 Luz 2.17 0.66 0.83 3.51 3.29 0.0023 CpMallows 26.14 12.52 VIF 1.44 1.44 Cuadro de Análisis de la Varianza (SC tipo III) F.V. SC gl CM F p-valor Modelo. 6022.61 2 3011.30 38.62 <0.0001 Temp 1934.02 1 1934.02 24.80 <0.0001 Luz 841.43 1 841.43 10.79 0.0023 Error 2728.97 35 77.97 Total 8751.58 37 SCEmodelo reducido = 2728.97 SCEmodelo completo = 2312.89 Diferencia: 416.08 GL=35 GL=33 2 CMH = (416.08/2) = 208.04 CMEcompleto = 70.09 Fobservado = (208.04/70.09) = 2.968 R.R. F > F 0.05, 2, 33 (grados de libertad del numerador y denominador de la prueba F) Nuestra tabla de F tiene los valores tabulares para 2,30 (F=3.32) y 2,40 (F=3.23). En ambos casos, el Fobservado (2.968) es menor que los valores tabulares; por lo tanto, se acepta Ho. Esto significa que el modelo reducido (que no incluye HUM y NUBES), es adecuado para explicar la variación en TIEMPO. (no hay evidencia que el modelo completo explica una mayor cantidad de la variación en Tiempo comparado con el modelo reducido). AGRO 6600 – LAB 12 - CLAVE Page 13 f. Usando regresión múltiple, decida qué variables son importantes para predecir el tiempo usando los procedimientos Backward, Forward y Stepwise en Infostat. Indique sus conclusiones. Backward: Análisis de regresión lineal Variable N R² R² Aj ECMP Tiempo 38 0.72 0.70 84.88 Eliminación backward. Máximo p-valor para retener: 0.15 Variables totales: 5, variables en el modelo 4 Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows const -42.59 6.39 -55.58 -29.61 -6.67 <0.0001 Temp 0.98 0.27 0.44 1.52 3.68 0.0008 16.17 Luz 2.67 0.68 1.30 4.05 3.95 0.0004 18.21 Nubes 0.08 0.04 1.3E-03 0.17 2.06 0.0466 7.17 Error cuadrático medio: 67.472547 Forward: Análisis de regresión lineal Variable N R² R² Aj ECMP Tiempo 38 0.72 0.70 84.88 Selección Forward. Máximo p-valor para entrar: 0.15 Variables totales: 5, variables en el modelo 4 Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows const -42.59 6.39 -55.58 -29.61 -6.67 <0.0001 Temp 0.98 0.27 0.44 1.52 3.68 0.0008 16.17 Luz 2.67 0.68 1.30 4.05 3.95 0.0004 18.21 Nubes 0.08 0.04 1.3E-03 0.17 2.06 0.0466 7.17 Error cuadrático medio: 67.472547 Stepwise: Análisis de regresión lineal Variable N R² R² Aj ECMP Tiempo 38 0.72 0.70 84.88 Selección Stepwise. Máximo p-valor para entrar: 0.15 Máximo p-valor para retener: 0.15 Variables totales: 5, variables en el modelo 4 Coeficientes de regresión y estadísticos asociados Coef Est. EE LI(95%) LS(95%) T p-valor CpMallows const -42.59 6.39 -55.58 -29.61 -6.67 <0.0001 Temp 0.98 0.27 0.44 1.52 3.68 0.0008 16.17 Luz 2.67 0.68 1.30 4.05 3.95 0.0004 18.21 Nubes 0.08 0.04 1.3E-03 0.17 2.06 0.0466 7.17 Error cuadrático medio: 67.472547 Las variables importantes son Luz, Nubes y Temperatura. g. Para el modelo seleccionado en la parte 6, construya los siguientes gráficos: residuos vs. predichos, QQ plot de residuos, residuos vs. caso (=fecha). Realice una prueba de Shapiro-Wilks de los residuos. Use esta información para comentar sobre la validez de los supuestos del modelo. Revisado_Abril_2015_LW B Residuos vs. Predichos: Gráfica de los residuales vs. predichos Res. estudentizados_Tiempo 2.25 0.87 -0.51 -1.90 -3.28 -31.76 -19.38 -7.01 5.37 17.74 predichos QQ plot: Q-Q Plot de los Residuos Cuantiles observados(RDUO_Tiempo) 16.34 n= 38 r= 0.982 (RDUO_Tiempo) 6.51 -3.31 -13.13 -22.95 -22.95 -13.13 -3.31 6.51 16.34 Cuantiles de una Normal(-5.4693E-015,58.501) Residuos vs. casos: Residuo vs Caso (Fecha) 17.26 RDUO_Tiempo 6.73 -3.80 -14.34 -24.87 -1 9 20 30 40 Caso (fecha) AGRO 6600 – LAB 12 - CLAVE Page 15 Shapiro-Wilks: Shapiro-Wilks (modificado) Variable n Media D.E. RDUO_Tiempo 38 0.00 7.65 W* 0.97 p (una cola) 0.8352 A través de estas pruebas comprobamos que se cumplen los supuestos de normalidad, independencia y homogeneidad de varianzas. h. Usando regresión múltiple, decida qué variables son importantes para predecir el tiempo usando el criterio de R2 ajustado en Infostat. Análisis de regresión lineal Variable N Tiempo 38 Regresoras evaluadas Regresoras Temp Hum Luz Nubes Mejores 10 modelos, seleccionados del conjunto de todos los modelos posibles Num.Reg. 4 3 3 2 2 3 2 3 1 2 R² Aj 0.7037 0.6955 0.6914 0.6704 0.6448 0.6346 0.5893 0.5854 0.5807 0.5699 1 Temp Temp Temp Temp Temp Temp Luz Hum Temp Temp 2 Hum Luz Hum Luz Hum Hum Nubes Luz 3 4 Luz Nubes Nubes Luz Nubes Nubes Nubes El modelo que incluye las 4 variables es el que da el R2 ajustado más alto. El modelo incluyendo solo Luz, Nubes y Temperatura tiene un valor ligeramente inferior, pero posiblemente sea equivalente al anterior (difiere en menos de 0.01).