Modelo de Regresión Lineal Múltiple. Normalidad Dr. Víctor Aguirre Torres ITAM Temas Porqué ocurre falta de normalidad Consecuencias Detección Enfoques para manejarla Guión 18. Dr. V. Aguirre 2 ¿Porqué ocurre? 30 Observaciones atípicas 25 20 15 10 5 0 -0.1 -0.05 0 0.05 0.1 Sesgos en la distribución de las observaciones 12 13 Guión 18. Dr. V. Aguirre 14 15 16 17 18 3 Consecuencias El valor de Beta gorro se ve afectado: ( βˆ = X T X ) −1 XT Y El valor de Var-Cov de Beta gorro se ve afectado (se inflan los errores estándar) n SCE 2 2 ˆ ˆ σ = SCE = ∑ ε t n − r −1 t =1 Los intervalos de confianza crecen. Niveles de significancia cambian Guión 18. Dr. V. Aguirre 4 ¿Cómo se detecta? En el modelo de regresión lineal múltiple, Y es normal si y solo si el error ε es normal. Por esta razón nos enfocaremos a verificar normalidad sobre los errores del modelo. ε 3 Coeficiente de sesgo o asimetría. c A = E ( ) σ ε 4 Coeficiente de kurtosis. cK = E ( ) σ Bajo normalidad de ε se debe cumplir cA=0 y cK=3. Guión 18. Dr. V. Aguirre 5 Estimación del coeficiente de Asimetría en RLM. 1. 2. 3. Ajustar el modelo y calcular residuos. Calcular 1 n εˆ i 3 ĉ A = ∑ ( ) n i =1 σˆ Distribución asintótica. Bajo normalidad (cA=0 ) e independencia de los errores: n 2 ĉ A → χ 2 ( 1 ) 6 Guión 18. Dr. V. Aguirre 6 Estimación del Coeficiente de Kurtosis en RLM. 1. 2. 3. Ajustar el modelo y calcular residuos. Calcular 1 n εˆ i 4 ĉK = ( ) ∑ σˆ n i =1 Distribución asintótica. Bajo normalidad (cK=3) e independencia de los errores: n ( ĉK − 3 ) → N ( 0 ,1 ) 24 n 2 2 ( ĉ − 3 ) → χ (1) 4. Entonces K 24 Guión 18. Dr. V. Aguirre 7 Estadístico de prueba. Estadístico de Jarque-Bera. Distribución asintótica. Bajo normalidad (cA=0 )(cK=3) e independencia de los errores: n 2 1 JB = ĉ A + ( ĉK − 3 )2 → χ 2 ( 2 ) 4 6 y cK=3 si Rechazar H0: cA=0 JB>c con P( χ 2 ( 2 ) > c ) = α Valor P = P( χ 2 ( 2 ) > JB ) Guión 18. Dr. V. Aguirre 8 Ejemplo: Y=Precio de Venta de Bienes Raíces 12 300000 Series: Residuals Sample 1 88 Observations 88 10 8 6 4 200000 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis 1.46E-11 -6554.850 209375.8 -120026.4 58792.82 0.960683 5.260844 Jarque-Bera Probability 32.27791 0.000000 100000 0 100000 2 0 -100000 0 100000 200000 200000 10 20 30 40 50 60 70 80 PRECIO Residuals En este caso hay falta de normalidad debido a 3 observaciones ATÍPICAS. Guión 18. Dr. V. Aguirre 9 Manejo de Datos Atípicos. Si hay falta de normalidad: Si se rechaza normalidad buscar observaciones atípicas con los residuos. Buscar la razón de ser de las observaciones atípicas. Es posible re-estimar sin esas observaciones o bien introducir una variable indicadora para cada una de esas observaciones. Guión 18. Dr. V. Aguirre 10 Ejemplo Datos Atípicos. 72 73 74 75 76 77 78 240000. 725000. 230000. 306000. 425000. 318000. 330000. 225886. 550203. 246694. 314795. 206960. 436703. 311161. 14114.4 174797. -16693.6 -8795.42 218040. -118703. 18838.8 | | | | | | | . |* . . | . . *| . . * . . | . * . | . . |* . | * | | | * | | Las observaciones 42, 73 y 76 parecen ser atípicas. Sus valores no son explicados satisfactoriamente con el modelo. Guión 18. Dr. V. Aguirre 11 Uso de Variables Indicadoras. propiedad 1 2 3 PRECIO 300000 370000 191000 AVALUO 349100 351500 217700 RECAMARAS 4 3 3 AREA 6126 9903 5200 CONSTRUCC COLONIAL 2438 1 2076 1 1374 0 41 42 43 246000 713500 248000 278500 655400 273300 3 5 4 6314 28231 7050 1662 3331 1656 73 74 75 76 725000 230000 306000 425000 708600 276300 388600 252500 5 3 2 3 31000 4054 20700 5525 3662 1736 2205 1502 M42 0 0 0 M73 0 0 0 M76 0 0 0 1 1 1 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 . . . Guión 18. Dr. V. Aguirre 12 Comparación de Resultados Dependent Variable: PRECIO Method: Least Squares Date: 11/14/06 Time: 14:57 Sample: 1 88 Included observations: 88 White Heteroskedasticity-Consistent Standard Errors & Covariance Dependent Variable: PRECIO Method: Least Squares Date: 11/14/06 Time: 14:58 Sample: 1 88 Included observations: 88 White Heteroskedasticity-Consistent Standard Errors & Covariance Variable Coefficient Std. Error t-Statistic Prob. Variable Coefficient Std. Error t-Statistic Prob. C AREA CONSTRUCC RECAMARAS COLONIAL -24126.53 2.075832 124.2375 11004.29 13715.54 37777.60 1.292263 17.83555 9258.737 16429.75 -0.638646 1.606354 6.965723 1.188531 0.834799 0.5248 0.1120 0.0000 0.2380 0.4062 C AREA CONSTRUCC RECAMARAS COLONIAL M42 M73 M76 12572.70 1.252328 109.1173 5573.270 31670.14 242566.8 246151.4 224894.3 24502.55 0.568796 12.27677 8476.788 9585.469 19427.59 22155.95 8959.910 0.513118 2.201716 8.888105 0.657474 3.303973 12.48568 11.10995 25.10006 0.6093 0.0306 0.0000 0.5128 0.0014 0.0000 0.0000 0.0000 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat 0.675792 0.660167 59876.97 2.98E+11 -1090.297 2.116524 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 293546.0 102713.4 24.89311 25.03387 43.25210 0.000000 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat 0.828011 0.812962 44421.40 1.58E+11 -1062.403 1.886317 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 293546.0 102713.4 24.32734 24.55255 55.02087 0.000000 Cambió beta gorro. Se redujo la estimación de varianza condicional. Cambió la significancia. Guión 18. Dr. V. Aguirre 13 Nueva Prueba de Normalidad. 12 Series: Residuals Sample 1 88 Observations 88 10 8 6 4 2 0 -100000 0 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis 4.13e-13 -2786.398 125627.4 -128434.7 42596.86 0.143250 3.572319 Jarque-Bera Probability 1.501983 0.471898 100000 Guión 18. Dr. V. Aguirre 14 Supuesto de la prueba JB. Si hay evidencia de autocorrelación no tiene caso usar JB. La distribución asintótica presupone independencia de los errores. Si hay evidencia de autocorrelación, primero estimar el modelo con errores AR. Guión 18. Dr. V. Aguirre 15