Ejemplo: Datos de Anscombe (1973) xabc ya yb yc xd yd 10 8 13 9 11 14 6 4 12 7 5 8,04 6,95 7,58 8,81 8,83 9,96 7,24 4,26 10,84 4,82 5,68 9,14 8,14 8,74 8,77 9,26 8,1 6,13 3,1 9,13 7,26 4,74 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73 8 8 8 8 8 8 8 19 8 8 8 6,58 5,76 7,71 8,84 8,47 7,04 5,25 12,5 5,56 7,91 6,89 Se realizan 4 modelos de Regresión Lineal Simple: 1) ya vs. xabc 2) yb vs. xabc 3) yc vs. xabc 4) yd vs. xd Estimación de los parámetros Dependent variable: ya Independent variable: xabc ---------------------------------------------------------------------......... ....................Standard T Parameter Estimate Error Statistic P-Value ---------------------------------------------------------------------Intercept 2,96373 1,12667 2,63052 0,0273 Slope 0,509182 0,118107 4,31119 0,0020 Dependent variable: yb Independent variable: xabc ---------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ---------------------------------------------------------------------Intercept 3,00091 1,1253 2,66676 0,0258 Slope 0,5 0,117964 4,23859 0,0022 Dependent variable: yc Independent variable: xabc ---------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ---------------------------------------------------------------------Intercept 3,00245 1,12448 2,67008 0,0256 Slope 0,499727 0,117878 4,23937 0,0022 Dependent variable: yd Independent variable: xd ---------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ---------------------------------------------------------------------Intercept 3,00173 1,12392 2,67076 0,0256 Slope 0,499909 0,117819 4,24303 0,0022 Resumen de resultados Análisis de la varianza Source Sum of Squares Df Mean Square F-Ratio P-Value -----------------------------------------------------------------------Model 28,5193 1 28,5193 18,59 0,0020 Residual 13,8098 9 1,53442 -----------------------------------------------------------------------Total (Corr.) 42,3291 10 Para los 4 modelos ajustados se tiene: y = 3 + 0.5 x texp(ȕ0)=2.67 texp(ȕ1)=4.24 VE=27.5 VNE=13.8 VT=41.3 sR2=1.5 r=0.82 R2=66.7% Correlation Coefficient = 0,820824 R-squared = 67,3752 percent Standard Error of Est. = 1,23872 (excepto errores de redondeo) Source Sum of Squares Df Mean Square F-Ratio P-Value -----------------------------------------------------------------------Model 27,5 1 27,5 17,97 0,0022 Residual 13,7763 9 1,5307 -----------------------------------------------------------------------Total (Corr.) 41,2763 10 Pregunta: ¿Significa esto que las 4 regresiones son idénticas? Respuesta: NO Correlation Coefficient = 0,816237 R-squared = 66,6242 percent Standard Error of Est. = 1,23721 Source Sum of Squares Df Mean Square F-Ratio PValue -----------------------------------------------------------------------Model 27,47 1 27,47 17,97 0,0022 Residual 13,7562 9 1,52847 -----------------------------------------------------------------------Total (Corr.) 41,2262 10 Correlation Coefficient = 0,816287 R-squared = 66,6324 percent Standard Error of Est. = 1,23631 Source Sum of Squares Df Mean Square F-Ratio PValue -----------------------------------------------------------------------Model 27,49 1 27,49 18,00 0,0022 Residual 13,7425 9 1,52694 -----------------------------------------------------------------------Total (Corr.) 41,2325 10 Correlation Coefficient = 0,816521 R-squared = 66,6707 percent Standard Error of Est. = 1,2357 Reflexión: Entonces… es que nos hemos olvidado de algo…¿De qué nos hemos olvidado? De observar los gráficos de dispersión Diagramas de dispersión Plot of Fitted Model Plot of Fitted Model 13,3 12,2 11,3 ya yc 10,2 9,3 8,2 7,3 6,2 5,3 4 4,2 4 6 8 10 12 6 8 xabc 10 12 14 xabc 14 Hay una observación atípica e influyente que atrae la recta hacia ella. Este modelo no parece tener problemas de especificación Plot of Fitted Model Plot of Fitted Model 13,2 11,1 11,2 yb yd 9,1 7,1 9,2 7,2 5,1 5,2 8 3,1 4 6 8 10 12 xabc Hay una clara relación no lineal entre x e y. 14 10 12 14 16 18 20 xd La recta está determinada por un solo punto. Gráficos de residuos vs. valores ajustados Studentized residual Residual Plot 2,7 1,7 0,7 -0,3 -1,3 -2,3 5 6 7 8 9 10 11 10 11 predicted ya Studentized residual Residual Plot 2,7 1,7 0,7 -0,3 -1,3 -2,3 5 6 7 8 9 predicted yb Studentized residual Residual Plot 1700 1200 700 200 -300 -800 -1300 5 6 7 8 predicted yc 9 10