Ejemplo regresión múltiple Modelo regresión múltiple yi = β 0 + β1 x1i + β 2 x2i + L + β k xki + ui , Consumo = β0 + β1 CC + β2 Pot + β3 Peso + β4 Acel + Error Y Consumo l/100Km 15 16 24 9 11 17 ... X1 Cilindrada cc 4982 6391 5031 1491 2294 5752 ... Var. dependientes o respuesta X2 Potencia CV 150 190 200 70 72 153 ... X3 Peso kg 1144 1283 1458 651 802 1384 ... ui → N (0, σ 2 ) X4 Aceleración segundos 12 9 15 21 19 14 ... β 0 , β1 , β 2 , K , β k , σ 2 : parámetros desconocidos 52 x11 x21 L x12 M x1n x22 M x2n L O L Normalidad Var [yi|x1 ,...,xk] = σ2 Independencia Cov [yi, yk] = 0 53 Regresión Lineal Estimación mínimo-cuadrática ⎛ y1 ⎞ ⎛1 ⎜ ⎟ ⎜ ⎜ y 2 ⎟ ⎜1 ⎜ M ⎟ = ⎜M ⎜ ⎟ ⎜ ⎜ y ⎟ ⎜1 ⎝ n⎠ ⎝ xk1 ⎞⎛ β 0 ⎞ ⎛ u1 ⎞ ⎟⎜ ⎟ ⎜ ⎟ xk 2 ⎟⎜ β1 ⎟ ⎜ u 2 ⎟ + M ⎟⎜ M ⎟ ⎜ M ⎟ ⎟⎜ ⎟ ⎜ ⎟ xkn ⎟⎠⎜⎝ β k ⎟⎠ ⎜⎝ u n ⎟⎠ x11 x12 x21 x22 L L M M x1n x2n O L Y = Xβˆ + e xk1 ⎞⎛ βˆ0 ⎞ ⎛ e1 ⎞ ⎟⎜ ⎟ ⎜ ⎟ xk 2 ⎟⎜ βˆ1 ⎟ ⎜ e2 ⎟ ⎜ ⎟+ M ⎟⎜ M ⎟ ⎜ M ⎟ ⎟ ⎜ ⎟ xkn ⎟⎠⎜⎝ βˆ k ⎟⎠ ⎜⎝ en ⎟⎠ donde el vector e cumple Y = Xβ + U e 2 U → N (0, σ I ) Regresión Lineal Homocedasticidad yi| x1 ,...,xk ⇒ Normal Notación matricial ⎛ y1 ⎞ ⎛1 ⎜ ⎟ ⎜ ⎜ y 2 ⎟ ⎜1 ⎜ M ⎟ = ⎜M ⎜ ⎟ ⎜ ⎜ y ⎟ ⎜1 ⎝ n⎠ ⎝ E[yi] = β0+ β1x1i+…+ βkxki Var. Independientes o regresores Regresión Lineal Linealidad 2 n = ∑ ei2 es mínimo i =1 54 Regresión Lineal 55 Mínimos cuadrados Para que ||e||2 sea mínimo, e tiene que ser perpendicular al espacio vectorial generado las columnas de X ⎛1 ⎜ X = ⎜1 ⎜M ⎝1 x11 x12 M x1n x21 x22 M x2 n L L O L xk1 ⎞ ⎛ e1 ⎞ xk 2 ⎟, e = ⎜ e2 ⎟ ⎟ ⎜M⎟ M ⎟ ⎜ ⎟ xkn ⎠ ⎝ en ⎠ a Un ⎧ ∑1nei = 0 ⎪ n ⎪ ⇒ X T e = 0 ⎨ ∑1 ei x1i = 0 ⎪ n M ⎪⎩ ∑1 ei xki = 0 Residuos e = Y − Xβˆ = Y − VY = (I − V)Y Val. Previstos ˆ = Xβˆ Y T ˆ = X(X X) −1 X T Y Y ˆ = VY Y V = X(XT X) −1 XT Y e = Y − Yˆ x1 x2 Yˆ = X βˆ Regresión Lineal 57 βˆ = (XT X)−1 X T Y = CY (siendo C = (XT X)−1 X T ) βˆ → Normal E[βˆ ] = CE[Y ] = CXβ = (XT X)−1 X T Xβ = β Var[βˆ ] = Var[CY] = CVar[Y ]CT = ((XT X)−1 X T )(σ 2I )((XT X)−1 X T )T = σ 2 (XT X)−1 X T X(XT X)−1 Simétrica V=VT = σ 2 (XT X)−1 Idempotente VV=V Regresión Lineal x1 Y → N ( Xβ, σ 2I ) e = (I − V)Y 1 Solución MC Distribución de probabilidad de β̂ Matriz de proyección V Yˆ = VY Y X e=0 x2 T T ˆ T X Y = X Xβ + X e X T Y = X T Xβˆ ⇒ βˆ = ( X T X) −1 X T Y 56 x1 po n T Regresión Lineal Y s de m co ió sic 58 Regresión Lineal 59 Distribución de probabilidad de β̂ Residuos βˆ → N (β, σ 2 (X T X)−1 ) Y 123 βˆi → N ( β i , σ 2 qii ) ⎛ βˆ 0 ⎞ ⎛ q00 ⎛ β0 ⎞ ⎜ ⎟ ⎜ ⎜β ⎟ ˆ βˆ = ⎜ β 1 ⎟ β = ⎜ 1 ⎟ Q = ( X T X) −1 = ⎜ q10 ⎜ M ⎟ ⎜ M ⎜ M ⎟ ⎜ βˆ ⎟ β ⎝ qk 0 ⎝ k⎠ ⎝ k⎠ Observados q01 q11 M qk1 L L O L q0 k ⎞ q1k ⎟ ⎟ M ⎟ q kk ⎠ ⎛ y1 ⎞ ⎛1 ⎜ ⎟ ⎜ ⎜ y 2 ⎟ ⎜1 ⎜ M ⎟ = ⎜M ⎜ ⎟ ⎜ ⎜ y ⎟ ⎜1 ⎝ n⎠ ⎝ dim(Q) = (k + 1) × (k + 1) 60 Regresión Lineal σ2 = ∑in=1 ei2 σ2 → χ n2− k −1 ∑in=1 ei2 ] = n − k −1 E[ 2 σ ∑n ei2 E[ i =1 ] = σ 2 n − k −1 Regresión Lineal σ2 Previstos x11 x21 L x12 M x22 M L O x1n x2n L Residuos xk1 ⎞⎛ βˆ0 ⎞ ⎛ e1 ⎞ ⎟⎜ ⎟ ⎜ ⎟ xk 2 ⎟⎜ βˆ1 ⎟ ⎜ e2 ⎟ ⎜ ⎟+ M ⎟⎜ M ⎟ ⎜ M ⎟ ⎜ ⎟ ⎟ xkn ⎟⎠⎜⎝ βˆ k ⎟⎠ ⎜⎝ en ⎟⎠ ei = yi − ( βˆ0 + βˆ1 x1i + L + βˆ k xki ) 61 Regresión Lineal yi = β 0 + β1 x1i + L + β k xki + ui n e2 ∑ 2 i =1 i sˆR = n − k −1 2 (n − k − 1) sˆ R Xβˆ + e 1 424 3 123 Contraste individual βi Varianza Residual e Te = H 0 : βi = 0 H1 : β i ≠ 0 βˆi → N ( β i , σ 2 qii ) βˆi − β i βˆ − β1 → t n − k −1 → N (0,1) ⇒ 1 σ qii sˆR qii → χ n2− k −1 ti = 62 βˆi sˆR qii Regresión Lineal ; ti > t n − k −1;α / 2 ⇒ Se rechaza Ho 63 Descomposición de la variabilidad en regresión Contraste general de regresión. yi = βˆ0 + βˆ1 x1i + L + βˆ k xki + ei yi = yˆ i + ei (Restando y ) ( yi − y ) = ( yˆ i − y ) + ei ∑in=1 ( yi − y ) 2 = ∑in=1 ( yˆ i − y ) 2 + ∑in=1 ei2 yi = β 0 + β1 x1i + L + β k xki + ui H 0 : β1 = β 2 = L = β k = 0 H1 : alguno es distinto de 0 VE σ → χ k2 2 VNE VT = VE + VNE σ2 = (Si Ho es cierto) 2 (n − k − 1) sˆ R σ2 → χ n2− k −1 VE VNE , son independie ntes σ2 σ2 64 Regresión Lineal n ∑ ( yˆi − y ) 2 i =1 n VNE = ∑ ( yi − yˆi ) 2 i =1 n VT = ∑ ( yi − y ) 2 i =1 VT = VE + VNE R2 = VE / k → Fk ,n − k −1 VNE/(n-k − 1 ) F > Fα ⇒ Se rechaza H0 65 Regresión Lineal Coef. determinación corregido R 2 Coeficiente de determinación R2 VE = F= R2 = VE VT VE VT − VNE = VT VT = 1− 2 0 ≤ R ≤1 Mide el porcentaje de VT que está explicado por los regresores VNE = 1− VT 2 R = 1− n ~T ~ ˆ ˆT ~T ~ ˆ − Y)T (Y ˆ − Y) = bˆ T ( X VE = ∑ ( yˆ i − y ) 2 = (Y X)b = b ( X Y) 2 sˆR sˆ 2y 2 (n − k − 1) sˆ R (n − 1) sˆ 2y = 1− n ∑ ( yi − y ) 2 sˆ 2y = i =1 n −1 VNE /( n − k − 1) VT /( n − 1) i =1 Regresión Lineal 66 Regresión Lineal 67 Regresión con STATGRAPHICS Interpretación (inicial) Multiple Regression Analysis ----------------------------------------------------------------------------Dependent variable: consumo ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT -1,66958 0,983305 -1,69793 0,0903 cilindrada 0,000383473 0,0001625 2,35983 0,0188 potencia 0,0402844 0,00656973 6,13183 0,0000 peso 0,00578424 0,00095783 6,0389 0,0000 aceleracion 0,111501 0,0496757 2,24458 0,0254 ----------------------------------------------------------------------------- Contraste F=438 (p-valor=0.0000) ⇒ Alguno de los regresores influye significativamente en el consumo. Contrastes individuales: z z Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 4845,0 4 1211,25 438,70 0,0000 Residual 1065,74 386 2,76099 ----------------------------------------------------------------------------Total (Corr.) 5910,74 390 R-squared = 81,9694 percent R-squared (adjusted for d.f.) = 81,7826 percent Standard Error of Est. = 1,66162 La potencia y el peso influyen significativamente (pvalor=0.0000) Para α=0.05, la cilindrada y la aceleración también tienen efecto significativo (p-valor < 0.05) El efecto de cualquier regresor es “positivo”, al aumentar cualquiera de ellos aumenta la variable respuesta: consumo. Los regresores explican el 82 % de la variabilidad del consumo (R2 = 81.969) 69 Regresión Lineal Identificación de la multicolinealidad: Multicolinealidad Matriz de correlación de los regresores. Correlations Cuando la correlación entre los regresores es alta. Presenta graves inconvenientes: z z cilindrada potencia peso aceleraci -----------------------------------------------------------------------------------------cilindrada 0,8984 0,9339 -0,5489 ( 391) ( 391) ( 391) 0,0000 0,0000 0,0000 potencia Empeora las estimaciones de los efectos de cada variable βi: aumenta la varianza de las estimaciones y la dependencia de los estimadores) Dificulta la interpretación de los parámetros del modelo estimado (ver el caso de la aceleración en el ejemplo). Regresión Lineal 0,8984 391) 0,0000 0,8629 391) 0,0000 ( peso 0,9339 391) 0,0000 ( ( 0,8629 391) 0,0000 ( -0,6963 ( 391) 0,0000 -0,4216 ( 391) 0,0000 aceleracion -0,5489 -0,6963 -0,4216 ( 391) ( 391) ( 391) 0,0000 0,0000 0,0000 ------------------------------------------------------------------------------------------ 70 Regresión Lineal 71 24 20 20 16 12 8 Consumo y aceleración R. simple 24 consumo consumo Gráficos consumo - xi 16 12 8 4 4 0 0 500 1000 1500 2000 0 40 80 120 160 200 240 24 24 20 20 16 12 8 R. múltiple potencia consumo consumo peso 16 12 8 4 4 0 0 0 2 4 6 8 (X 1000) cilindrada 8 11 14 17 20 23 26 aceleracion 72 Regresión Lineal varianza de los estimadores yi = β 0 + β1x1i + β 2 x2i + ui ( ) ~T X ~ = nS X XX ⎛ s2 S XX = ⎜⎜ 1 ⎝ s12 ⎛ 2 | S XX |= s12 s22 (1 − r12 ) ⎛ σ2 ⎜ ⎡⎛ βˆ ⎞⎤ ⎜ ns 2 (1 − r122 ) var ⎢⎜⎜ 1 ⎟⎟⎥ = ⎜ 1 2 ˆ ⎣⎢⎝ β 2 ⎠⎦⎥ ⎜ − r12σ ⎜ ns s (1 − r122 ) ⎝ 1 2 Regresión Lineal 1 ⎜ 2 2 ⎜ s (1 − r12 ) 1 =⎜ 1 S −XX − r12 ⎜ 2 ⎜ ⎝ s1 s2 (1 − r12 ) Multiple Regression Analysis ----------------------------------------------------------------------------Dependent variable: consumo ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT -1,66958 0,983305 -1,69793 0,0903 cilindrada 0,000383473 0,0001625 2,35983 0,0188 potencia 0,0402844 0,00656973 6,13183 0,0000 peso 0,00578424 0,00095783 6,0389 0,0000 aceleracion 0,111501 0,0496757 2,24458 0,0254 ----------------------------------------------------------------------------- Regresión Lineal s12 ⎞⎟ ⎛⎜ s12 = s22 ⎟⎠ ⎜⎝ r12 s1s2 73 Consecuencias de la multicolinealidad Multicolinealidad: efecto en la ⎡⎛ βˆ ⎞⎤ ~ T ~ −1 2 X σ var ⎢⎜⎜ 1 ⎟⎟⎥ = X ⎣⎝ βˆ2 ⎠⎦ Regression Analysis - Linear model: Y = a + b*X ----------------------------------------------------------------------------Dependent variable: consumo Independent variable: aceleracion ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT 21,5325 1,00701 21,3827 0,0000 aceleracion -0,657509 0,0632814 -10,3902 0,0000 ----------------------------------------------------------------------------- r12 s1s2 ⎞⎟ s22 ⎟⎠ − r12 ⎞ 2 ⎟ s1 s2 (1 − r12 )⎟ ⎟ 1 2 ⎟⎟ s22 (1 − r12 ) ⎠ ⎞ ⎟ 2 ⎟ ns1 s 2 (1 − r12 ) ⎟ σ2 ⎟ ns 22 (1 − r122 ) ⎟⎠ − r12σ 2 74 Gran varianza de los estimadores β Cambio importante en las estimaciones al eliminar o incluir regresores en el modelo Cambio de los contrastes al eliminar o incluir regresores en el modelo. Contradicciones entre el contraste F y los contrastes individuales. Regresión Lineal 75 Variables cualitativas como regresores Consumo l/100Km 15 16 24 9 11 17 12 17 18 12 16 12 9 ... Cilindrada cc 4982 6391 5031 1491 2294 5752 2294 6555 6555 1147 5735 1868 2294 ... Potencia CV 150 190 200 70 72 153 90 175 190 97 145 91 75 ... Peso kg 1144 1283 1458 651 802 1384 802 1461 1474 776 1360 860 847 ... Aceleración segundos 12 9 15 21 19 14 20 12 13 14 13 14 17 ... ⎧⎪ Europa Origen ⎨ Japón ⎪⎩ USA Origen Europa Japón USA Europa Japón USA Europa USA USA Japón USA Europa USA ... Variables cualitativas ⎧0 si i ∉ JAPON Z JAP i = ⎨ ⎩1 si i ∈ JAPON ⎧0 si i ∉ USA ZUSAi = ⎨ ⎩1 si i ∈ USA ⎧0 si i ∉ EUROPA Z EUR i = ⎨ ⎩1 si i ∈ EUROPA Consumo = β0 + β1 CC + β2 Pot + β3 Peso + Consumo l/100Km 15 16 24 9 11 17 12 17 18 12 16 12 9 ... Cilindrada cc 4982 6391 5031 1491 2294 5752 2294 6555 6555 1147 5735 1868 2294 ... Peso kg 1144 1283 1458 651 802 1384 802 1461 1474 776 1360 860 847 ... Aceleración ZJAP segundos 12 0 9 1 15 0 21 0 19 1 14 0 20 0 12 0 13 0 14 1 13 0 14 0 17 0 ... ... ZUSA ZEUR 0 0 1 0 0 1 0 1 1 0 1 0 1 ... 1 0 0 1 0 0 1 0 0 0 0 1 0 ... Consumo = β0 + β1 CC + β2 Pot + β3 Peso + + β4 Acel + αJAP ZJAP + αUSA ZUSA + Error + β4 Acel + αJAP ZJAP + αUSA ZUSA + Error 76 Regresión Lineal Potencia CV 150 190 200 70 72 153 90 175 190 97 145 91 75 ... Interpretación var. cualitativa 77 Regresión Lineal Interpretación del modelo Consumo = β0 + β1 CC + β2 Pot + β3 Peso + y + β4 Acel + αJAP ZJAP + αUSA ZUSA + Error Americanos Europeos β0 + αUSA • Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA Consumo = β0 + β1 CC + β2 Pot + β3 Peso + β4 Acel + Error Ref. Japoneses β0 • Coches japoneses: ZJAP =1 y ZUSA = 0 Consumo = β0 + αJAP + β1 CC + β2 Pot + β3 Peso + β4 Acel + Error β0 + αJAP xi • Coches americanos: ZJAP =0 y ZUSA = 1 Consumo = β0 + αUSA + β1 CC + β2 Pot + β3 Peso + β4 Acel + Error Regresión Lineal 78 Regresión Lineal 79 Interpretación Multiple Regression Analysis ----------------------------------------------------------------------------Dependent variable: consumo ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT -1,45504 1,01725 -1,43037 0,1534 cilindrada 0,000322798 0,0001792 1,80133 0,0724 potencia 0,0422677 0,00678898 6,22592 0,0000 peso 0,00559955 0,000965545 5,79937 0,0000 aceleracion 0,110841 0,0496919 2,23057 0,0263 Zjap -0,361762 0,279049 -1,29641 0,1956 Zusa 0,0611229 0,280236 0,218113 0,8275 ----------------------------------------------------------------------------- Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 4852,53 6 808,756 293,48 0,0000 Residual 1058,21 384 2,75575 ----------------------------------------------------------------------------Total (Corr.) 5910,74 390 R-squared = 82,0969 percent R-squared (adjusted for d.f.) = 81,8171 percent Standard Error of Est. = 1,66005 Regresión Lineal 80 81 Regresión Lineal Modelo de regresión con variables cualitativas El p-valor del coeficiente asociado a ZJAP es 0.1956>.05, se concluye que no existe diferencia significativa entre el consumo de los coches Japoneses y Europeos (manteniendo constante el peso, cc, pot y acel.) La misma interpretación para ZUSA. Comparando R2 =82.09 de este modelo con el anterior R2=81.98, se confirma que el modelo con las variables de Origen no suponen una mejora sensible. Predicción En general, para considerar una variable cualitativa con r niveles, se introducen en la ecuación r-1 variables ficticias Nueva Observ. yh|xh Media mh|xh yh mh mh ⎧0 i ∉ nivel 1 ⎧0 i ∉ nivel 2 ⎧0 i ∉ nivel r − 1 z1i = ⎨ , z 2i = ⎨ , L , z r −1i = ⎨ ⎩1 i ∈ nivel 1 ⎩1 i ∈ nivel 2 ⎩1 i ∈ nivel r − 1 xh Y el nivel r no utilizado es el que actúa de referencia yi = β 0 + β 1 x1i + L + β k xki + + α 1 z1i + α 2 z 2i + L + α r −1 z r −1,i + u i 14444 4244444 3 variable cualitativ a Regresión Lineal xh ŷh xh 82 Regresión Lineal 83 Predicción de la media mh Expresión alternativa para vhh (Regresión múltiple) mh yˆ h = y + bˆ T (x h − x) var[ yˆ h ] = var[ y + bˆ T (x h − x)] = var[ y ] + (x h − x)T var[bˆ ](x h − x) ~ ~ σ2 XT X ~ ~ = + (x h − x)T ( XT X) −1 (x h − x)σ 2 , (S x = ) n n ŷh yh → N (mh , σ 2 ) xh x'h ˆ T x'h , x'T = (1, x1h , x2h , L , xkh ) yˆ h = β mh = β 0 + β1 x1h + L + β k xkh = β x'h h E [ yˆ T h] = E[βˆ T x'h ] = E[βˆ T ]x'h = βT x'h var[ yˆ h ] = var[βˆ T x'h ] = x 'Th yˆ h → N ⎛⎜ mh , σ 2vhh ⎞⎟ ⎝ ⎠ = v hh = T x' h T x' h (X (X var[ βˆ T ]x'h T −1 x'h σ = vhhσ T −1 x 'h X) X) 2 σ2 n ( σ vhh yˆ h − mh sˆR vhh ) → N (0,1) m ∈ yˆ ± tα / 2 sˆR vhh h h 1 vhh = (1 + (x h − x)T S −x1 (x h − x)) n Regresión Lineal x h = x ⇒ vhh = 1 / n x h ≠ x ⇒ vhh > 1 / n 85 Predicción de una nueva observación yh (reg.simple) yh ŷh → t n − k −1 1 (1 + (x h − x)T S −x1 (x h − x)) n Regresión Lineal Intervalos de confianza para la media mh yˆ h → N mh , σ 2 vhh yˆ h − mh (1 + (x h − x)T S −x1 (x h − x)) vhh = 2 84 Regresión Lineal = ŷh mh xh xh Regresión simple 1 n vhh = (1 + ( xh − x ) 2 ) s x2 86 yˆ h = βˆ0 + βˆ1 xh yh → N (mh , σ 2 ) yˆ h → N (mh , σ 2 vhh ) e~ = y − yˆ mh = β 0 + β1 xh h h h E[e~h ] = E[ yh ] − E[ yˆ h ] = 0 var[e~ ] = var[ y ] + var[ yˆ ] h xh h h e~h → N ( 0, σ 2 (1 + vhh )) = σ 2 + σ 2 vhh Regresión Lineal 87 Predicción de una nueva observación yh (Reg. Múltiple) yh ŷh mh xh e~h → N ( 0, σ 2 (1 + vhh )) e~h = yh − yˆ h ŷh yh − yˆ h σ 1 + vhh xh yˆ h → N (mh , σ 2 vhh ) ⎧ E[e~h ] = E[ yh ] − E[ yˆ h ] = 0 ~ eh = yh − yˆ h → ⎨ 2 ~ ⎩var[eh ] = var[ yh ] + var[ yˆ h ] = σ (1 + vhh ) yˆ h = y + bˆ x h T Intervalos de predicción para una nueva observación yh yh − yˆ h sˆR 1 + vhh → N (0,1) → tn − k −1 xh y ∈ yˆ ± tα / 2 sˆR 1 + vhh h h e~h → N ( 0, σ 2 (1 + vhh )) 88 Regresión Lineal Diagnosis: Residuos Límites de predicción yˆ = βˆ0 + βˆ1 x1 + L + βˆ k xk 89 Regresión Lineal m ∈ yˆ ± tα / 2 sˆR vhh h h Y 123 Observados y ∈ yˆ ± tα / 2 sˆR 1 + vhh h h y Xβˆ + e 1 424 3 123 Previstos x11 x21 L x12 M x22 M L O x1n x2n L Residuos xk1 ⎞⎛ βˆ0 ⎞ ⎛ e1 ⎞ ⎟⎜ ⎟ ⎜ ⎟ xk 2 ⎟⎜ βˆ1 ⎟ ⎜ e2 ⎟ ⎜ ⎟+ M ⎟⎜ M ⎟ ⎜ M ⎟ ⎜ ⎟ ⎟ xkn ⎟⎠⎜⎝ βˆ k ⎟⎠ ⎜⎝ en ⎟⎠ ei = yi − ( βˆ0 + βˆ1 x1i + L + βˆ k xki ) x Regresión Lineal ⎛ y1 ⎞ ⎛1 ⎜ ⎟ ⎜ ⎜ y 2 ⎟ ⎜1 ⎜ M ⎟ = ⎜M ⎜ ⎟ ⎜ ⎜ y ⎟ ⎜1 ⎝ n⎠ ⎝ = 90 Regresión Lineal 91 Distribución de los residuos Y → N ( Xβ, σ 2 I ) Di2 = (x i − x) T S −x 1 (x i − x) (Dist. de Mahalanobi s) e = (I − V)Y −1 V = X(X X) X T Distancia de Mahalanobis ⎧x = x ⇒ Di2 = 0 Mide la distancia de x i a x ⇒ ⎨ i 2 ⎩x i ≠ x ⇒ Di > 0 T ⎧e → Normal ⎪ ⎨ E[e] = (I − V) E[Y] = (I − V)Xβ = 0 ⎪⎩var[e] = (I − V) var(Y)(I − V) = σ 2 (I − V) vii son los elementos diagonales de la matriz V e → N (0, σ 2 (I − V)) V = X(XT X) −1 X T vii = x'Ti ( X T X) −1 x'i = n ei → N (0, σ 2 (1 − vii )) vii = ∑ vij v ji = j =1 92 Regresión Lineal Residuos estandarizados 1 (1 + (x i − x) T S −x1 (x i − x)) n n n j =1, j ≠ i j =1, j ≠ i 1 n ∑ vij2 + vii2 ⇒ vii (1 − vii ) = ∑ vij2 ≥ 0 ⇒ ≤ vii ≤ 1 93 Regresión Lineal Hipótesis de normalidad ei → N (0, (1 − vii )σ 2 ) Herramientas de comprobación: z var(ei ) = (1 − vii )σ 2 z z Cuando xi está próximo a x ⇒ vii ≈ 1 / n ⇒ var(ei ) ≈ σ 2 Histograma de residuos Gráfico de probabilidad normal (Q-Q plot) Contrastes formales (Kolmogorov-Smirnov) Ejemplo de coches vii ≈ 1 ⇒ var(ei ) ≈ 0 ⇒ ei ≈ 0 100 probabilidad Cuando xi está lejos de x ⇒ 120 80 60 Residuos estandarizados ei ri = sˆR 1 − vii Regresión Lineal 40 20 0 -9 -6 -3 0 3 Residuos 94 Regresión Lineal 6 9 99,9 99 95 80 50 20 5 1 0,1 -6 -4 -2 0 2 4 6 Residuos 95 Comprobación de la linealidad y homocedasticidad Se desea construir un modelo de regresión para obtener el volumen de madera de una “cerezo negro” en función de la altura del tronco y del diámetro del mismo a un metro sobre el suelo. Se ha tomado una muestra de 31 árboles. Las unidades de longitudes son pies y de volumen pies cúbicos. Ambas hipótesis se comprueban conjuntamente mediante gráficos de los residuos z z Ejemplo 1: Cerezos Negros Frente a valores previstos Frente a cada regresor. En muchas ocasiones se corrige la falta de linealidad y la heterocedasticidad mediante transformación de las variables. log yi = β 0 + β 1 x1i + L + β k xki + ui log yi = β 0 + β 1 log x1i + L + β k log xki + ui 96 Regresión Lineal Diametro 8,3 8,6 8,8 10,5 10,7 10,8 11,0 11,0 11,1 11,2 11,3 11,4 11,4 11,7 12,0 12,9 Altura 70 65 63 72 81 83 66 75 80 75 79 76 76 69 75 74 Volumen 10,30 10,30 10,20 16,40 18,80 19,70 15,60 18,20 22,60 19,90 24,20 21,00 21,40 21,30 19,10 22,20 Árbol 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Diametro 12,9 13,3 13,7 13,8 14,0 14,2 14,5 16,0 16,3 17,3 17,5 17,9 18,0 18,0 20,6 Altura 85 86 71 64 78 80 74 72 77 81 82 80 80 80 87 Volumen 33,80 27,40 25,70 24,90 34,50 31,70 36,30 38,30 42,60 55,40 55,70 58,30 51,50 51,00 77,00 80 80 60 60 Volumen Árbol 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Gráficos x-y Volumen Cerezos negros: Datos 97 Regresión Lineal 40 20 0 60 65 70 75 80 85 90 Altura Regresión Lineal 98 Regresión Lineal 40 20 0 8 11 14 17 20 23 Diametro 99 Diagnosis Primer modelo:cerezos negros 9 Volumen = β0 + β1 Diametro + β2 Altura + Error Falta de linealidad Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT -57,9877 8,63823 -6,71291 0,0000 Altura 0,339251 0,130151 2,60659 0,0145 Diametro 4,70816 0,264265 17,8161 0,0000 ----------------------------------------------------------------------------- 3 0 -3 -6 -9 9 0 residuos 40 60 80 valores previstos 3 Falta de homocedasticidad 0 -3 -6 -9 8 R-squared = 94,795 percent R-squared (adjusted for d.f.) = 94,4232 percent 11 14 17 20 23 Diametro 100 101 Regresión Lineal Transformación Diagnosis (modelo transformado) 0,23 log(vol) ≈ β 0 + β1 log(altura) + β 2 log(diámetro) + error 0,13 0,13 Dependent variable: log(Volumen) ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT -6,63162 0,79979 -8,2917 0,0000 log(Altura) 1,11712 0,204437 5,46439 0,0000 log(Diametro) 1,98265 0,0750106 26,4316 0,0000 ----------------------------------------------------------------------------- residuos 0,23 residuos vol ≈ k × altura × diámetro 2 0,03 -0,07 0,03 -0,07 -0,17 -0,17 4,1 4,2 4,3 4,4 2,1 4,5 probabilidad 0,23 residuos 0,13 0,03 -0,07 -0,17 2,3 R-squared = 97,7678 percent R-squared (adjusted for d.f.) = 97,6084 percent 2,7 3,1 3,5 3,9 valores previstos 102 Regresión Lineal 2,3 2,5 2,7 2,9 3,1 log(Diametro) log(Altura) Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 8,12323 2 4,06161 613,19 0,0000 Residual 0,185463 28 0,00662369 ----------------------------------------------------------------------------Total (Corr.) 8,30869 30 Regresión Lineal 20 6 Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 7684,16 2 3842,08 254,97 0,0000 Residual 421,921 28 15,0686 ----------------------------------------------------------------------------Total (Corr.) 8106,08 30 Regresión Lineal residuos 6 4,3 4,7 99,9 99 95 80 50 20 5 1 0,1 -0,17 -0,12 -0,07 -0,02 0,03 0,08 0,13 Residuos 103 Interpretación Datos olímpicos Se comprueba gráficamente que la distribución de los residuos es compatible con las hipótesis de normalidad y homocedasticidad. El volumen está muy relacionado con la altura y el diámetro del árbol (R2= 97.8%) El modelo estimado Tiempos de los campeones olímpicos en 200m, 400m, 800m y 1500m. Se pretende construir un modelo de regresión con dos objetivos: z Medir la evolución de estas marcas con el tiempo. z Hacer una predicción del resultado en unas futuras olimpiadas. log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error es compatible con la ecuación vol=k × Alt ×Diam2 La varianza residual es 0.006623, es decir sR=0.081 que indica que el error relativo del modelo en la predicción del volumen es del 8.1%. 104 Regresión Lineal Regresión Lineal Altitud 79 138 15 15 4 79 -2 100 50 15 25 115 15 14 2220 458 53 150 100 34 0 320 Año 1900 1904 1908 1912 1920 1924 1928 1932 1936 1948 1952 1956 1960 1964 1968 1972 1976 1980 1984 1988 1992 1996 200 m 22,20 21,60 22,40 21,70 22,00 21,60 21,80 21,20 20,70 21,10 20,70 20,60 20,50 20,30 19,83 20,00 20,23 20,19 19,80 19,75 20,01 19,32 400 m 49,40 49,20 50,00 48,20 49,60 47,60 47,80 46,20 46,50 46,20 45,90 46,70 44,90 45,10 43,80 44,66 44,26 44,60 44,27 43,87 43,50 43,49 800 m 121,40 116,00 112,80 111,90 113,40 112,40 111,80 109,80 112,90 109,20 109,20 107,70 106,30 105,10 104,30 105,90 103,50 105,40 104,00 103,45 103,66 102,58 105 Tiempo = β0 + β1 Año + β2 Distancia + Error Ejemplo: Carreras olímpicas Ciudad París San Luis Londres Estocolmo Amberes París Amsterdan Los Ángeles Berlín Londres Helsinki Melbourne Roma Tokyo Mexico Munich Montreal Moscú Los Ángeles Seúl Barcelona Atlanta Regresión Lineal 1500 m 246,00 245,40 243,40 236,80 241,80 233,60 233,20 231,20 227,80 225,20 225,20 221,20 215,60 218,10 214,90 216,30 219,20 218,40 212,53 215,96 220,12 215,78 Dependent variable: Tiempo ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT 268,485 36,8179 7,29222 0,0000 Año -0,145478 0,0188741 -7,70784 0,0000 Distancia 0,159578 0,00113405 140,715 0,0000 ----------------------------------------------------------------------------Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 554892,0 2 277446,0 9930,11 0,0000 Residual 2374,89 85 27,9399 ----------------------------------------------------------------------------Total (Corr.) 557267,0 87 R-squared = 99,5738 percent R-squared (adjusted for d.f.) = 99,5638 percent 106 Regresión Lineal 107 Interpretación 15 15 10 10 residuos Residuos Diagnosis 5 0 -5 5 0 -5 -10 -10 -15 -15 0 0 200 400 600 800 1000 1200 1400 1600 50 probabilidad Distancia 100 150 200 250 Valores previstos 99,9 99 95 80 50 20 5 1 0,1 -16 -12 -8 -4 0 4 8 12 Velocidad = Distancia / Tiempo i i i 16 residuos 108 109 Regresión Lineal Velocidad = β0 + β1 Año + β2 Dist. + Error Dependent variable: Velocidad ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT -12,2153 2,73592 -4,46478 0,0000 Año 0,0112286 0,00140252 8,00603 0,0000 Distancia -0,00220474 0,0000842706 -26,1627 0,0000 ----------------------------------------------------------------------------- Residuos Diagnosis 0,8 0,8 0,4 0,4 residuos Regresión Lineal Los gráficos de los residuos con la distancia y con los valores previstos muestran falta de linealidad y heterocedasticidad (leve) El gráfico Q-Q muestra falta de normalidad La transformación 1/Tiempo puede servir para corregir el problema de heterocedasticidad. En este caso es más útil modelar la velocidad 0 -0,4 -0,4 -0,8 -0,8 0 6 200 400 600 800 1000 1200 1400 1600 7 R-squared = 89,803 percent R-squared (adjusted for d.f.) = 89,5631 percent 8 9 10 11 Valores previstos Distancia Residuos Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 115,492 2 57,7459 374,29 0,0000 Residual 13,1139 85 0,154281 ----------------------------------------------------------------------------Total (Corr.) 128,606 87 0 99,9 99 95 80 50 20 5 1 0,1 -0,8 -0,5 -0,2 0,1 0,4 0,7 Residuos Regresión Lineal 110 Regresión Lineal 111 Diagnosis 0,5 0,5 0,25 0,25 residuos Dependent variable: Velocidad ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT -11,1792 0,834388 -13,3981 0,0000 Año 0,0112286 0,000427338 26,2758 0,0000 Distancia -0,00588973 0,000130341 -45,1873 0,0000 Distancia^2 0,0000021172 7,34191E-8 28,8371 0,0000 ----------------------------------------------------------------------------- residuos Velocidad = β0 + β1 Año + β2 Dist. + β3 Dist.2 + Error 0 -0,25 0 -0,25 -0,5 -0,5 0 200 400 600 800 1000 1200 1400 1600 6 7 Distancia probabilidad Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 127,403 3 42,4675 2964,98 0,0000 Residual 1,20314 84 0,014323 ----------------------------------------------------------------------------Total (Corr.) 128,606 87 R-squared = 99,0645 percent R-squared (adjusted for d.f.) = 99,0311 percent 8 9 10 11 valores previstos 99,9 99 95 80 50 20 5 1 0,1 -0,31 -0,21 -0,11 -0,01 0,09 0,19 0,29 Residuos Regresión Lineal 112 El modelo cumple las condiciones de normalidad y homocedasticidad. El coeficiente de determinación R2=99% da una medida de la bondad de ajuste del modelo. El coeficiente positivo del AÑO indica que conforme pasan los años se aumenta la velocidad (se mejoran las marcas). El término dominante de la variable DISTANCIA tiene coeficiente negativo que indica que la velocidad media disminuye al aumentar la distancia de la prueba. Se mejora ligeramente el modelo con una nueva variable ALTITUD de la ciudad donde se desarrolla las olimpiadas. Regresión Lineal 113 Vel. = β0+β1 Año+β2 Dist. + β3 Dist.2 + log(Alt)+Error Interpretación Regresión Lineal 114 Dependent variable: Velocidad ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT -10,6966 0,807542 -13,2459 0,0000 Año 0,0109342 0,000416677 26,2413 0,0000 Distancia -0,00588973 0,000123874 -47,5461 0,0000 Distancia^2 0,0000021172 6,97766E-8 30,3425 0,0000 log(Altitud+3) 0,0237773 0,00751947 3,1621 0,0022 ----------------------------------------------------------------------------Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 127,532 4 31,883 2464,46 0,0000 Residual 1,07378 83 0,0129371 ----------------------------------------------------------------------------Total (Corr.) 128,606 87 R-squared = 99,1651 percent R-squared (adjusted for d.f.) = 99,1248 percent Regresión Lineal 115 Selección de Modelos de Regresión Predicción Sydney 2000 Predicción para Velocidad - AÑO 2000 - SYDNEY -----------------------------------------------------------------------Fitted Stnd. Error Lower 95,0% CL Upper 95,0% CL Row Value for Forecast for Forecast for Forecast -----------------------------------------------------------------------200 m 10,1114 0,119833 9,87302 10,3497 400 m 9,18748 0,118783 8,95123 9,42374 800 m 7,84784 0,119901 7,60937 8,08632 1500 m 7,13371 0,120308 6,89442 7,373 ------------------------------------------------------------------------ Construcción de modelos de regresión. •Eliminación progresiva (backward selection) •Introdución progresiva (forward selection) •Regresión paso a paso (stepwise regression) Predicción del tiempo (segundos) y resultados Sydney 2000 Distancia 200 m 400 m 800 m 1500 m Intervalo de predicción (95%) Lím. Inf. Lím. Sup. 19,32 20,26 42,44 44,69 98,93 105,13 203,44 217,57 Predicción 19,78 43,538 101,939 210,269 Resultado Error Sydney 2000 Absoluto 20,09 0,31 43,84 0,302 95,08 -6,859 212,07 1,801 Error Relativo 2% 1% -7% 1% 116 Regresión Lineal Selección de Modelos de Regresión Comparación de los mejores subconjuntos • R2 ajustado. • Criterio de Akaike AIC = n ln σˆ p2 + 2 p •Criterio BIC BIC = n ln σˆ p2 + p ln n Regresión Lineal 118 Regresión Lineal 117