Modelo de Regresión Lineal Múltiple. Heterocedasticidad. Dr. Víctor Aguirre Propósito Estudiar el caso en que la varianza condicional de Y dado X no sea constante. Veremos ¿Porqué sucede? Consecuencias sobre el EMC Detección. Prueba de White. Incorporación a la estimación de β Guión 16. Dr. V. Aguirre 2 ¿Porqué Sucede? Ejemplo: Y=Gasto, X= Ingreso. A mayor ingreso mayor gasto. Esta es una afirmación sobre E(Y|X). Se ha observado que también a mayor ingreso mayor rango de elección para gastar. Esta es una afirmación sobre Var(Y|X). Guión 16. Dr. V. Aguirre 3 ¿Porqué Sucede? E( Y | X ) Y = Gasto Var( Y | X ) β0 X = Ingreso Guión 16. Dr. V. Aguirre 4 ¿Porqué Sucede? E( Y | X ) Y = Habilidad Verbal Var( Y | X ) β0 X = Edad Infante Guión 16. Dr. V. Aguirre 5 Notación. S2 no se cumple. Homocedasticidad y no correlación. σ 2 0 0 σ2 Cov( Y | X ) = ... 0 0 0 ... 0 = σ 2I ... ... ... σ 2 ... Heterocedasticidad y no correlación. σ 12 0 2 0 σ 2 Cov( Y | X ) = V = ... 0 0 ... 0 ... 0 ≠ σ 2 I ; σ i2 ≠ σ 2j algún i ≠ j ... ... 2 ... σ n Guión 16. Dr. V. Aguirre 6 Consecuencias sobre el EMC Proposición 17 Considere β̂ el EMC del modelo de Regresión Lineal Múltiple. Bajo S1, S3, S4 y S5. Entonces: Cov( βˆ | X ' s ) = ( X T X )−1 X T VX ( X T X )−1 Demostración: [( Cov( βˆ | X ) = Cov X T X ( ) = (X X ) T −1 T −1 = X X ) −1 XT Y | X ] T [( T X Cov( Y | X ) X X X ( X T (V )X X T X Guión 16. Dr. V. Aguirre ) ) ] −1 T −1 7 Modelado de la Varianza Condicional (White). Tenemos que: Yi = β 0 + β 1 X i 1 + β 2 X i 2 + ...β 2 X i 2 + ε i E( Yi | X ) = β 0 + β 1 X i 1 + β 2 X i 2 + ...β 2 X i 2 Por lo tanto E( ε i | X ) = 0, de donde: Var( ε i | X ) = E( ε i2 | X ) = σ i2 Entonces White supone un modelo de la forma (r=2) E( ε i2 | X ) = γ 0 + γ 1 X i 1 + γ 2 X i 2 + γ 3 X i 1 X i 2 + γ 4 X i21 + γ 5 X i22 Guión 16. Dr. V. Aguirre 8 Detección. Prueba de White. 2 ε Pero i es no observable, por lo que se estima la regresión auxiliar: ˆε i2 = γ 0 + γ 1 X i 1 + γ 2 X i 2 + γ 3 X i 1 X i 2 + γ 4 X i21 + γ 5 X i22 + ei Para detectar heterocedasticidad se prueba la hipótesis: H 1 : algún γ j ≠ 0. Se puede usar la prueba F de significancia ε i tiene densidad global, aunque como 2 ε normal entonces i tiene una densidad tipo ji-cuadrada. Guión 16. Dr. V. Aguirre 9 Detección. Prueba de White. White desarrolló un estadístico que no depende tanto de la normalidad como el estadístico F. W = nRεˆ22 Rεˆ22 = R 2 regresión auxiliar Se rechaza homocedasticidad si: W > χ α2 ( gl ) gl = número de variables explicativas regresión auxiliar Valor P = P( χ α2 ( gl ) > W ) Guión 16. Dr. V. Aguirre 10 Ejemplo. Y=Precio de Venta de Bienes Raíces. propiedad 1 2 3 4 5 PRECIO 300000 370000 191000 195000 373000 AVALUO 349100 351500 217700 231800 319100 RECAMARAS 4 3 3 3 4 AREA 6126 9903 5200 4600 6095 CONSTRUCC COLONIAL 2438 1 2076 1 1374 0 1448 1 2514 1 Dependent Variable: PRECIO Method: Least Squares Date: 11/06/06 Time: 18:58 Sample: 1 88 Included observations: 88 Variable Coefficient Std. Error t-Statistic Prob. C AREA CONSTRUCC RECAMARAS COLONIAL -24126.53 2.075832 124.2375 11004.29 13715.54 29603.45 0.642651 13.33826 9515.260 14637.27 -0.814990 3.230108 9.314370 1.156489 0.937029 0.4174 0.0018 0.0000 0.2508 0.3515 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat 0.675792 0.660167 59876.97 2.98E+11 -1090.297 2.116524 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 293546.0 102713.4 24.89311 25.03387 43.25210 0.000000 Guión 16. Dr. V. Aguirre 11 Variable Explicativa Indicadora. La variable COLONIAL indica la presencia (1) o ausencia (0) de un atributo de la residencia. Se le llama también variable muda (inglés: dummy variable). Su efecto es cambiar el valor de intercepto al origen. Si Y=Precio: E( Y | Area ,COL = 1 ) = β 0 + β 1 Area + β 2 = β 0 + β 2 + β 1 Area E( Y | Area ,COL = 0 ) = β 0 + β 1 Area + β 2 ( 0 ) = β 0 + β 1 Area Guión 16. Dr. V. Aguirre 12 Variable Explicativa Indicadora. Y = Pr ecio E( Y | Area ,COL = 1 ) β0 + β 2 E( Y | Area ,COL = 0 ) β0 X = Area Guión 16. Dr. V. Aguirre 13 Prueba de White. Precio de Venta de Bienes Raíces. Prueba de White, con Eviews, sin términos cruzados. White Heteroskedasticity Test: F-statistic Obs*R-squared 3.784349 21.89078 Probability Probability 0.001353 0.002653 Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 11/06/06 Time: 19:04 Sample: 1 88 Included observations: 88 Variable Coefficient Std. Error t-Statistic Prob. C AREA AREA^2 CONSTRUCC CONSTRUCC^2 RECAMARAS RECAMARAS^2 COLONIAL -3.17E+09 643384.3 -5.044871 -13941255 2885.194 8.30E+09 -8.18E+08 -2.19E+09 1.17E+10 260630.1 2.844358 8583859. 1790.014 5.04E+09 6.11E+08 1.70E+09 -0.270411 2.468573 -1.773641 -1.624124 1.611828 1.645180 -1.338074 -1.285266 0.7875 0.0157 0.0799 0.1083 0.1109 0.1039 0.1847 0.2024 R-squared 0.248759 Mean dependent var gl=7 3.38E+09 Guión 16. Dr. V. Aguirre 14 Ejemplo. Y=Precio de Venta de Bienes Raíces. 5.E+10 4.E+10 ε̂ i2 3.E+10 2 DI S E R 2.E+10 1.E+10 Ŷ 0.E+00 i 100000 200000 300000 400000 500000 60000 PRECIOF Guión 16. Dr. V. Aguirre 15 Incorporación a la estimación. White propone estimar V con εˆ 12 0 2 ˆ 0 ε 2 V̂ = ... 0 0 ... 0 ... 0 ... ... 2 ˆ ... ε n para después estimar −1 T ˆ Cov̂( β | X ) = X X X T V̂X X T X ( ) ( ) −1 → Cov( βˆ | X ) nótese que βˆ sigue siendo el EMC. Guión 16. Dr. V. Aguirre 16 Ejemplo. Y=Precio de Venta de Bienes Raíces. Dependent Variable: PRECIO Method: Least Squares Date: 11/06/06 Time: 19:15 Sample: 1 88 Included observations: 88 White Heteroskedasticity-Consistent Standard Errors & Covariance Variable Coefficient Std. Error t-Statistic Prob. C AREA CONSTRUCC RECAMARAS COLONIAL -24126.53 2.075832 124.2375 11004.29 13715.54 37777.60 1.292263 17.83555 9258.737 16429.75 -0.638646 1.606354 6.965723 1.188531 0.834799 0.5248 0.1120 0.0000 0.2380 0.4062 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat 0.675792 0.660167 59876.97 2.98E+11 -1090.297 2.116524 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) Estimación sin tomar en cuenta heterocedasticidad. Estimación tomando en cuenta heterocedasticidad. 293546.0 102713.4 24.89311 25.03387 43.25210 0.000000 Dependent Variable: PRECIO Method: Least Squares Date: 11/06/06 Time: 18:58 Sample: 1 88 Included observations: 88 Variable Coefficient Std. Error t-Statistic Prob. C AREA CONSTRUCC RECAMARAS COLONIAL -24126.53 2.075832 124.2375 11004.29 13715.54 29603.45 0.642651 13.33826 9515.260 14637.27 -0.814990 3.230108 9.314370 1.156489 0.937029 0.4174 0.0018 0.0000 0.2508 0.3515 Guión 16. Dr. V. Aguirre 17