Modelo de Regresión Lineal Múltiple. Normalidad

Anuncio
Modelo de Regresión Lineal
Múltiple.
Normalidad
Dr. Víctor Aguirre Torres
ITAM
Temas
Porqué ocurre falta de normalidad
„ Consecuencias
„ Detección
„ Enfoques para manejarla
„
Guión 18. Dr. V. Aguirre
2
¿Porqué ocurre?
„
30
Observaciones atípicas
25
20
15
10
5
0
-0.1
-0.05
0
0.05
0.1
Sesgos en la distribución
de las observaciones
„
12
13
Guión 18. Dr. V. Aguirre
14
15
16
17
18
3
Consecuencias
„
El valor de Beta gorro se ve afectado:
(
βˆ = X T X
„
„
„
)
−1
XT Y
El valor de Var-Cov de Beta gorro se ve
afectado (se inflan los errores estándar)
n
SCE
2
2
ˆ
ˆ
σ =
SCE = ∑ ε t
n − r −1
t =1
Los intervalos de confianza crecen.
Niveles de significancia cambian
Guión 18. Dr. V. Aguirre
4
¿Cómo se detecta?
„
„
„
„
En el modelo de regresión lineal múltiple, Y es
normal si y solo si el error ε es normal. Por esta
razón nos enfocaremos a verificar normalidad
sobre los errores del modelo.
 ε 3
Coeficiente de sesgo o asimetría. c A = E ( ) 
 σ 
 ε 4
Coeficiente de kurtosis.
cK = E ( ) 
 σ 
Bajo normalidad de ε se debe cumplir cA=0 y
cK=3.
Guión 18. Dr. V. Aguirre
5
Estimación del coeficiente
de Asimetría en RLM.
1.
2.
3.
Ajustar el modelo y calcular residuos.
Calcular
1 n εˆ i 3
ĉ A = ∑ ( )
n i =1 σˆ
Distribución asintótica. Bajo normalidad
(cA=0 ) e independencia de los errores:
n 2
ĉ A → χ 2 ( 1 )
6
Guión 18. Dr. V. Aguirre
6
Estimación del Coeficiente
de Kurtosis en RLM.
1.
2.
3.
Ajustar el modelo y calcular residuos.
Calcular
1 n εˆ i 4
ĉK =
( )
∑
σˆ
n
i =1
Distribución asintótica. Bajo normalidad
(cK=3) e independencia de los errores:
n
( ĉK − 3 ) → N ( 0 ,1 )
24
n
2
2
(
ĉ
−
3
)
→
χ
(1)
4. Entonces
K
24
Guión 18. Dr. V. Aguirre
7
Estadístico de prueba.
„
Estadístico de Jarque-Bera. Distribución
asintótica. Bajo normalidad (cA=0 )(cK=3) e
independencia de los errores:
n 2 1

JB = ĉ A + ( ĉK − 3 )2  → χ 2 ( 2 )
4
6

y cK=3 si
„
Rechazar H0: cA=0
„
JB>c con P( χ 2 ( 2 ) > c ) = α
„
Valor P = P( χ 2 ( 2 ) > JB )
Guión 18. Dr. V. Aguirre
8
Ejemplo: Y=Precio de Venta
de Bienes Raíces
12
300000
Series: Residuals
Sample 1 88
Observations 88
10
8
6
4
200000
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
1.46E-11
-6554.850
209375.8
-120026.4
58792.82
0.960683
5.260844
Jarque-Bera
Probability
32.27791
0.000000
100000
0
100000
2
0
-100000
0
100000
200000
200000
10
20
30
40
50
60
70
80
PRECIO Residuals
En este caso hay falta de normalidad debido
a 3 observaciones ATÍPICAS.
Guión 18. Dr. V. Aguirre
9
Manejo de Datos Atípicos.
„
Si hay falta de normalidad:
„
„
„
Si se rechaza normalidad buscar
observaciones atípicas con los residuos.
Buscar la razón de ser de las observaciones
atípicas.
Es posible re-estimar sin esas observaciones o
bien introducir una variable indicadora para
cada una de esas observaciones.
Guión 18. Dr. V. Aguirre
10
Ejemplo Datos Atípicos.
72
73
74
75
76
77
78
„
„
240000.
725000.
230000.
306000.
425000.
318000.
330000.
225886.
550203.
246694.
314795.
206960.
436703.
311161.
14114.4
174797.
-16693.6
-8795.42
218040.
-118703.
18838.8
|
|
|
|
|
|
|
. |* .
. | .
. *| .
. * .
. | .
* . | .
. |* .
|
* |
|
|
*
|
|
Las observaciones 42, 73 y 76 parecen
ser atípicas.
Sus valores no son explicados
satisfactoriamente con el modelo.
Guión 18. Dr. V. Aguirre
11
Uso de Variables Indicadoras.
propiedad
1
2
3
PRECIO
300000
370000
191000
AVALUO
349100
351500
217700
RECAMARAS
4
3
3
AREA
6126
9903
5200
CONSTRUCC COLONIAL
2438
1
2076
1
1374
0
41
42
43
246000
713500
248000
278500
655400
273300
3
5
4
6314
28231
7050
1662
3331
1656
73
74
75
76
725000
230000
306000
425000
708600
276300
388600
252500
5
3
2
3
31000
4054
20700
5525
3662
1736
2205
1502
M42
0
0
0
M73
0
0
0
M76
0
0
0
1
1
1
0
1
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
1
0
0
0
0
0
0
1
.
.
.
Guión 18. Dr. V. Aguirre
12
Comparación de Resultados
Dependent Variable: PRECIO
Method: Least Squares
Date: 11/14/06 Time: 14:57
Sample: 1 88
Included observations: 88
White Heteroskedasticity-Consistent Standard Errors & Covariance
Dependent Variable: PRECIO
Method: Least Squares
Date: 11/14/06 Time: 14:58
Sample: 1 88
Included observations: 88
White Heteroskedasticity-Consistent Standard Errors & Covariance
Variable
Coefficient
Std. Error
t-Statistic
Prob.
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
AREA
CONSTRUCC
RECAMARAS
COLONIAL
-24126.53
2.075832
124.2375
11004.29
13715.54
37777.60
1.292263
17.83555
9258.737
16429.75
-0.638646
1.606354
6.965723
1.188531
0.834799
0.5248
0.1120
0.0000
0.2380
0.4062
C
AREA
CONSTRUCC
RECAMARAS
COLONIAL
M42
M73
M76
12572.70
1.252328
109.1173
5573.270
31670.14
242566.8
246151.4
224894.3
24502.55
0.568796
12.27677
8476.788
9585.469
19427.59
22155.95
8959.910
0.513118
2.201716
8.888105
0.657474
3.303973
12.48568
11.10995
25.10006
0.6093
0.0306
0.0000
0.5128
0.0014
0.0000
0.0000
0.0000
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
0.675792
0.660167
59876.97
2.98E+11
-1090.297
2.116524
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
293546.0
102713.4
24.89311
25.03387
43.25210
0.000000
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat
0.828011
0.812962
44421.40
1.58E+11
-1062.403
1.886317
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)
293546.0
102713.4
24.32734
24.55255
55.02087
0.000000
Cambió beta gorro.
Se redujo la estimación de varianza condicional.
Cambió la significancia.
Guión 18. Dr. V. Aguirre
13
Nueva Prueba de
Normalidad.
12
Series: Residuals
Sample 1 88
Observations 88
10
8
6
4
2
0
-100000
0
Mean
Median
Maximum
Minimum
Std. Dev.
Skewness
Kurtosis
4.13e-13
-2786.398
125627.4
-128434.7
42596.86
0.143250
3.572319
Jarque-Bera
Probability
1.501983
0.471898
100000
Guión 18. Dr. V. Aguirre
14
Supuesto de la prueba JB.
„
„
Si hay evidencia de autocorrelación no
tiene caso usar JB. La distribución
asintótica presupone independencia de
los errores.
Si hay evidencia de autocorrelación,
primero estimar el modelo con errores
AR.
Guión 18. Dr. V. Aguirre
15
Descargar