Normalidad de los errores

Anuncio
Normalidad de los errores
Fortino Vela Peón
Universidad Autónoma Metropolitana
[email protected]
20/10/2011
Octubre, 2010
México, D. F.
1
Introducción
Uno de los supuestos básicos del modelo de regresión
lineal clásico es el que los errores tengan distribución
normal, esto es:
y = Xβ + u
yi = β1 + β 2 xi + ui
,o bien,
donde
ui ≈ N (0, σ 2 )
,o bien,
u ≈ N (0, σ 2 I )
Con el cumplimiento del supuesto de normalidad se
tiene la justificación teórica para la utilización de
pruebas estadísticas que involucren a las distribuciones
t, F y χ2 (de uso muy común en la parte inferencial del
modelo).
No obstante, el supuesto de normalidad puede no ser
tan crucial cuando se emplean muestras grandes.
2
20/10/2011
Una propiedad de la distribución normal es que
cualquier función lineal de variables normalmente
distribuidas estará también normalmente distribuidas.
βˆ1 y βˆ2 , son
funciones lineales de ui entonces también siguen una
distribución normal.
Dado que los estimadores de MCO,
βˆi ≈ N ( β i , σ β2ˆ )
i
De esta manera, si se trabaja con muestras de menos de
100 observaciones resulta crucial el verificar si los
errores cumplen, de manera aproximada, una
distribución normal.
20/10/2011
3
La prueba Jarque-Bera (JB)
La literatura referente a probar la normalidad es vasta
(veáse White y MacDonald, 1980).
La prueba Jarque-Bera (1987) es una prueba que
considera los siguientes elementos para probar la
normalidad de los errores de un modelo de regresión
lineal.
2
[
]
E
u
=
0
donde
E
[
uu'
]
=
σ
y
=
X
β
+
u
Sea
Si u se encuentra normalmente distribuido,
entonces
µ 3 = E [u 3 ] = 0
t
µ 4 = E [u 4 ] = 3σ 4
t
20/10/2011
La prueba JB toma este principio: “que tanto se
desvían los coeficientes de asimetría4y curtosis”
Las medidas convencionales de asimetría (A) y curtósis
(K) están dadas, respectivamente*, por:
µ3
µ4
b1 = 3
b2 = 4
σ
σ
La notación
y b 2 es tradicional en estadística y no
debe confundirse con los estimadores del modelo.
b1
b1 = A y
b2 = K , se
pueden estimar a partir de los residuales de MCO
considerando que:
Los momentos señalados,
1 T i
µ̂ i = ∑ ut
T t =1
20/10/2011
donde i=2,3,4
5
Así, el coeficiente de asimetría (A) es el tercer momento
respecto a la media.
Mide el grado de simetría de la distribución de
probabilidad (que tan equilibrada o balanceada se
encuentra).
Si el coeficiente es mayor a cero, la distribución es
sesgada a la derecha, y en consecuencia presenta mayor
número de observaciones a la izquierda.
T
A=
3
u
∑ t n
t =1


2
 ∑ ut n 
 t =1

T
20/10/2011
3
…(1)
2
6
Por su parte, el coeficiente de curtosis (K) es el cuarto
momento respecto a la media.
Mide el grado de “picudez” o “apuntamiento” de la
distribución de probabilidad (que tan concentrada se
encuentra).
Cuando el coeficiente es centrado, si esté es diferente a
tres (mesocúrtica), la distribución muestra problemas.
Platicúrtica si b2>3 o leptocúrtica si b2<3.
T
K=
4
u
∑ t n
t =1


2
∑ u t n 
 t =1

T
…(2)
2
Las formulaciones (1) y (2) son las más utilizadas por los
diferentes paquetes estadísticos.
20/10/2011
7
Bajo la hipótesis nula de que los errores se encuentran
distribuidos normalmente, el estadístico JB se distribuye
2
χ
asintóticamente como una ( 2 ) , siendo igual a
 T

3
  ∑ ut n
  t =1
3
2
 T
2
   ∑ ut 
  t =1 
JB = T  
6







20/10/2011
2
2 
  T
 
 
4
 
u
n
∑
t
 
 
  t =1
− 3
2
T

 

2

   ∑ ut n 
 

 +   t =1
 

24







 A 2 (K − 3)2 
JB = T  +

24 
 6
8
Note que bajo Ho tanto A como K son cero.
Este estadístico tiende a ser grande si A o K o ambos
son significativamente diferentes de 0.
20/10/2011
9
Ejemplo
Considerando la información sobre ventas y publicidad de
una empresa determinada, verifique si los residuales
resultantes del modelo siguen aproximadamente una
distribución normal. Aplique la prueba Jarque-Bera.
id
1
2
3
4
5
6
7
8
9
10
11
12
20/10/2011
Total
Y
69
76
52
56
57
77
58
55
67
53
72
64
X
9
12
6
10
9
10
7
8
12
6
11
8
residual (u)
6.00
3.25
-1.25
-10.25
-6.00
10.75
1.50
-4.75
-5.75
-0.25
2.50
4.25
0.00
u2
36.00
10.56
1.56
105.06
36.00
115.56
2.25
22.56
33.06
0.06
6.25
18.06
387.00
u3
216.00
34.33
-1.95
-1076.89
-216.00
1242.30
3.38
-107.17
-190.11
-0.02
15.63
76.77
10
-3.75
u4
1296.00
111.57
2.44
11038.13
1296.00
13354.69
5.06
509.07
1093.13
0.00
39.06
326.25
29071.41
Retomando (1) y (2) para los datos de este ejemplo se
tiene:
A=
− 3.75 / 12
3
= -.0017063
Y
69
76
52
56
57
77
58
55
67
53
72
64
X
9
12
6
10
9
10
7
8
12
6
11
8
(387 / 12) 2
id
1
2
3
4
5
6
7
8
9
10
11
12
20/10/2011
Total
29071.41 / 12
K=
= 2.32929
2
(387 / 12)
residual (u)
6.00
3.25
-1.25
-10.25
-6.00
10.75
1.50
-4.75
-5.75
-0.25
2.50
4.25
0.00
u2
36.00
10.56
1.56
105.06
36.00
115.56
2.25
22.56
33.06
0.06
6.25
18.06
387.00
u3
216.00
34.33
-1.95
-1076.89
-216.00
1242.30
3.38
-107.17
-190.11
-0.02
15.63
76.77
11
-3.75
u4
1296.00
111.57
2.44
11038.13
1296.00
13354.69
5.06
509.07
1093.13
0.00
39.06
326.25
29071.41
Construyendo el estadístico de prueba Jarque-Bera (JB) se
tiene
A=
− 3.75 / 12
(387 / 12) 2
3
= -.0017063
29071.41 / 12
K=
= 2.32929
2
(387 / 12)
 A 2 (K − 3)2 
JB = T  +

24 
 6
 ( −0.0017063) 2 (2.32929 − 3)2 
JB = 12 
+
 = 0.01874965
6
24


2
χ
El valor de tablas es ( 2 ), 0.05 = 5.99 ∴ 0.01874965 < 5.99
No se rechaza Ho, los errores del modelo se distribuyen
aprox. normal
20/10/2011
12
La prueba JB en Stata
En Stata se pueden encontrar los coeficientes A y K.
reg y x
predict residual, resid
sum residual, d
Residuals
------------------------------------------------------------Percentiles
Smallest
1%
-10.25
-10.25
5%
-10.25
-6
10%
-6
-5.75
Obs
12
25%
-5.25
-4.75
Sum of Wgt.
12
50%
75%
90%
95%
99%
20/10/2011
.625
3.75
6
10.75
10.75
Largest
3.25
4.25
6
10.75
Mean
Std. Dev.
Variance
Skewness
Kurtosis
0
5.931426
35.18182
-.0017063
2.3293
13
A continuación se elabora el estadístico de prueba JB
return list
scalar
JB=
3)^2)/4)
di "JB" = JB
JB.22492532
(r(N)/6)
*((r(skewness)^2)+((r(kurtosis)-
No se rechaza Ho, los errores del modelo se distribuyen
aprox. normal
20/10/2011
14
Pruebas gráficas: histograma
El histograma de los residuales es quizás el método
0
.02
Density
.04
.06
.08
gráfico más ampliamente usado para verificar la
normalidad del término de error.
En Stata el comando histogram es seguido por la
variable sobre la cual se construirá el
La opción normal agrega una curva de densidad normal
al gráfico.
-10
20/10/2011
-5
0
Residuals
5
10
15
Otras pruebas gráficas: probabilidadprobabilidad (P-P) y cuantil-cuantil (Q-Q)
El gráfico de probabilidad-probabilidad (P-P plot o
gráfica porcentual) compara una función de distribución
acumulada empírica con una función de distribución
teórica (e.g., la función de distribución normal
estándar).
El
comando pnorm
estandarizado normal.
produces
un
gráfico
P-P
La forma de interpretar este gráfico es la siguiente: si los
puntos se aproximan al comportamiento lineal señalado
en el gráfico, se puede considerar que la función
empírica de la distribución acumulada es similar a la
teórica, y por tanto se comporta “normalmente”. Si los
puntos se alejan a la línea recta, la variable se aleja de
una distribución normal.
20/10/2011
16
En el gráfico P-P que ofrece Stata la distribución
0 .0 0
N o rm a l F [(re s id u a l-m )/s ]
0 .2 5
0 .5 0
0 .7 5
1 .0 0
acumulada de la variable empírica se ubica sobre el eje x
mientras que la distribución acumulada teórica normal
sobre el eje y.
0.00
20/10/2011
0.25
0.50
Empirical P[i] = i/(N+1)
0.75
1.00
17
Similarmente, la gráfica cuantil-cuantil (Q-Q plot)
compara los valores ordenados de una variable con los
cuantiles de una distribución teórica especifica (i.e., la
distribución normal).
Si las dos distribuciones son consistentes, los puntos
sobre la gráfica asumen un patrón lineal que pasa a
através del origen con una recta de pendiente unitaria.
Las gráficas P-P y
Q-Q se emplean para determinar
visualmente que tan bien se ajustan los datos empíricos
al comportamiento de una distribución teórica.
20/10/2011
18
-10
-5
R e sid ua ls
0
5
10
La instrucción en Stata es qnorm.
-10
20/10/2011
-5
0
Inverse Normal
5
10
19
Pruebas formales de normalidad en Stata
La prueba sktest (Skewness-Kurtosis) que realiza Stata
sigue los mismos principios que la prueba JB. Para su
correcta aplicación se requiere un mínimo de 8
observaciones.
Auque utiliza a los coeficientes de asimetría y curtosis,
sktest presenta una prueba de normalidad basada en
la asimetría y otra sustentada en la curtosis. Finalmente
combina las dos pruebas en un estadístico resumen.
La opción noadjust suprime el ajuste propuesto por
Royston (1991).
sktest residual
Skewness/Kurtosis tests for Normality
------- joint -----Variable |
Obs Pr(Skewness) Pr(Kurtosis)
chi2(2)
Prob>chi2
-------------+--------------------------------------------------------------residual |
12
0.9974
0.9250
0.01
0.9956
20/10/2011
20
Otras pruebas de normalidad en Stata
Stata tiene incorporadas además las pruebas Shapiro-
Wilk (swilk) y Shapiro-Francia (sfrancia).
puede utilizarse cuando 4 ≤ n ≤ 2000
observaciones, y sfrancia si 5 ≤ n ≤ 5000 observaciones.
swilk
En este sentido, la prueba sktest es la que puede
realizarse con más observaciones.
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Prob>z
-------------+-------------------------------------------------residual |
12
0.98286
0.286
-2.437
0.99259
Shapiro-Francia W' test for normal data
Variable |
Obs
W'
V'
z
Prob>z
-------------+-------------------------------------------------residual |
12
0.98218
0.332
-1.745
0.95952
20/10/2011
21
Conclusiones
De no verificarse el supuesto de normalidad de los
errores, los estimadores continúan siendo insesgados.
No obstante de no cumplirse la inferencia estadística
derivada del modelo puede no ser valida.
Conforme aumente el tamaño de la muestra los errores
(y los estimadores de MCO) tienden a una distribución
normal.
Por lo tanto, bajo muestras grandes la inferencia
estadística del modelo puede ser valida. Con muestras
reducidas es altamente recomendable verificar el
supuesto.
20/10/2011
22
Referencias
Gujarati, D. y D. Porter (2010). Econometría, 5ª. Ed., Mac
Graw Hill, México, cap. 4.
Jarque, Carlos M. y A. K. Bera (1987). “A Test for
Normality of Observations and Regression Residuals”,
International Statistics Review, Vol. 55, pp. 163-177.
Judge, George et. al. (1988). Introducction to Theory and
Practice of Econometrics, John Wiley & Sons, Estados
Unidos, pp. 890-892.
Vogelvang,
Ben (2005). Econometrics. Theory an
Applications with EViews, Addison-Wesley, Malaysia, pp.
116-119.
White H. y G. M. MacDonald (1980).
“Some LargeSample Test for Non-normality in Linear Regression
Model”, Journal of American Statistical Association, Vol.
75, pp. 16-28.
20/10/2011
23
Descargar