Conceptos Básicos de una Variable Aleatoria

Anuncio
Comisión Económica para América Latina y el Caribe (CEPAL)
División de Estadísticas y Proyecciones Económicas (DEPE)
Centro de Proyecciones Económicas (CPE)
Conceptos Básicos de una Variable Aleatoria.
Christian A. Hurtado Navarro
Abril, 2006
Variable discreta.
Función de probabilidad.
p(xi) = p(X = xi); con p(xi) ≥ 0.
Denominando S al espacio muestral de todos los posibles valores de la
variable aleatoria (v.a.) x, se verifica que:
∑ p(x ) = 1
i
S
Función de probabilidad.
Forma
equivalente
de
caracterizar
la
distribución
de
una
v.a.
La
función de distribución F(x) se define como la probabilidad de que la
v.a. X tome un valor menor o igual que x.
F(x) = p(X = x)
La función de distribución se define para todo valor x real, y por
definición no creciente.
F (− ∞ ) = 0
F (+ ∞ ) = 1
Si la variable toma valores
x1 ≤ x 2 ≤ K ≤ x n , la función de distribución
es:
F (x1 ) = p( X ≤ x1 ) = p(x1 )
F (x 2 ) = p( X ≤ x 2 ) = p(x1 ) + p(x 2 )
M
F (x n ) = p ( X ≤ x n ) =
n
∑ p(x )
i
i =1
Material de docente de uso exclusivo de los alumnos del curso de Econometría Básica, CEPAL.
Variables Aleatorias Continuas.
Función de densidad.
Es una función f(x)(continua en intervalos) tal que:
f (x ) ≥ 0
+∞
∫ f (x )dx = 1
−∞
El área por debajo de f(x) es la probabilidad de ese intervalo de
valores.
p(a < x < b ) =
b
∫ f (x)dx
a
Es decir, la suma de la probabilidad de todas las clases con valores
entre a y b.
Nota: La probabilidad que un modelo de v.a. continua asigna a un valor
concreto cualquiera es cero y por tanto:
p(a < x < b ) = p(a ≤ x < b ) = p (a < x ≤ b ) = p(a ≤ x ≤ b )
En cambio la probabilidad de un intervalo cualquiera es igual al área
debajo de la densidad f(x).
Δx
Δx ⎞
⎛
p⎜ x 0 −
< x < x0 +
⎟ ≈ f ( x 0 ) ⋅ Δx
2
2 ⎠
⎝
f(x) es por tanto una densidad de probabilidad por unidad de x.
Función de distribución.
F (x 0 ) = p( X ≤ x0 ) =
x0
∫ f (x )dx
−∞
F (x 0 + Δx ) − F (x0 ) = p(x0 < X ≤ x0 + Δx ) ≈ f (x 0 ) ⋅ Δx
Tomando límites, Δx → 0 se obtiene:
f (x ) =
d
F (x )
dx
1. F (− ∞ ) = 0
2. F (+ ∞ ) = 1 , ie,
+∞
∫ f (x)dx = 1
−∞
3. F es no decreciente: si a < b, F(a) ≤ F(b)
La función f(x) no es una probabilidad, sino una densidad, hay que
multiplicarla
por
la
anchura
del
intervalo
para
obtener
probabilidad del intervalo (en el límite).
Ejemplo. Variable aleatoria continua uniforme
En el intervalo (a,b) se tiene la función de densidad f(x)
Material de docente de uso exclusivo de los alumnos del curso de Econometría Básica, CEPAL.
la
9 Constante para x en (a,b).
9 Cero fuera del intervalo.
Solución.
Uniforme en [0,1], U [0,1]: es el resultado de elegir un número al
azar entre 0 y 1. Todos deben tener la misma probabilidad de ser
elegidos, pero como esta es cero, equivale a que todos los intervalos
con la misma anchura h entre 0 y 1 tienen la misma probabilidad.
0 ≤ x ≤1
⎧1
⎪
f (x ) = ⎨
⎪0
⎩
x < 0, x > 1
Para el caso general
a≤ x≤b
⎧c
⎪
f (x ) = ⎨
⎪0
⎩
x < a, x > b
y como además
+∞
1=
∫
b
f (x )dx = cdx = c(b − a )
∫
−∞
obtenemos, c =
a
1
y a ≤ x0 ≤ b.
b−a
F (x 0 ) =
x0
∫
f (x )dx =
−∞
x0
∫ b − a dx =
1
a
x0 − a
b−a
F(x) = 0, si x < a y F(x) = 1 si x > b.
Medidas características.
Medida de Posición (Media).
μ = E [x ] =
n
∑ x p(x )
i
i
Para una variable aleatoria discreta
i =1
μ = E [x ] =
+∞
∫ xf (x )dx
Para una variable aleatoria continua
−∞
En general la esperanza de cualquier función de una variable aleatoria
g(x).
μ = E [g (x )] =
+∞
∫ g (x ) f (x )dx
−∞
Material de docente de uso exclusivo de los alumnos del curso de Econometría Básica, CEPAL.
Ejemplo. Distribución Uniforme Continua.
Sea f (x ) =
1
con a < x < b
b−a
La media o esperanza matemática es calculada de la siguiente forma:
μ = E [x ] =
b
∫
a
b
x
1 x2
dx =
b−a
b−a 2
=
a
b2 − a2 b + a
=
2(b − a )
2
Es decir, el punto medio donde la densidad no es cero.
Medida de dispersión (Varianza).
[
] ( )
Var (x ) = σ 2 = E (x − μ )2 = E x 2 − μ 2
Var (x ) = σ 2 =
n
∑ (x
i
− μ )2 p(xi )
Para una variable aleatoria discreta
i =1
Var (x ) = σ 2 =
+∞
∫ (x − μ )
2
f (x )dx
Para una variable aleatoria continua
−∞
Ejemplo. Distribución Uniforme, x ~ U [a, b] .
⎧ 1
⎪b − a
⎪
f (x ) = ⎨
⎪ 0
⎪
⎩
a≤ x≤b
x < a, x > b
La varianza es calculada de la siguiente forma:
[
] [ ]
Var (x ) = E (x − μ )2 = E x 2 − μ 2
Var (x ) =
b
∫ (x − μ )
2
f (x )dx
a
b
Var (x ) = x 2 f (x )dx − μ 2
∫
a
Var (x ) =
b
∫
a
Var (x ) =
1
⎛b+a⎞
x 2 dx − ⎜
⎟
b−a
⎝ 2 ⎠
1 x3
b−a 3
b
a
⎛b+a⎞
−⎜
⎟
⎝ 2 ⎠
2
2
2
Var (x ) =
b3 − a3 ⎛ b + a ⎞
−⎜
⎟
3(b − a ) ⎝ 2 ⎠
Var (x ) =
(b − a )3 = (b − a )2
12(b − a )
12
Material de docente de uso exclusivo de los alumnos del curso de Econometría Básica, CEPAL.
Otras Medidas.
Momentos de orden k respecto al origen, mk.
+∞
[ ] ∫x
mk = E x k =
k
f (x )dx
−∞
Momentos de orden k respecto a la media.
[
+∞
] ∫ (x − μ )
m k = E ( x − μ )k =
k
f (x )dx
−∞
Medidas
o
momentos
importantes
de
una
distribución
son
los
coeficientes de asimetría y el coeficiente de curtosis.
Coeficiente de Asimetría o Skewness
Skewness, determina el grado de asimetría que posee una distribución.
Para el caso de funciones simétricas como la normal o la t-student,
este coeficiente es cero, y analíticamente se representa por:
⎛x −x⎞
∑ ⎜⎝ i σ ⎟⎠
Sk =
n
3
Donde n representa al tamaño muestral.
Este indicador indica si la cola más larga de la distribución se
encuentra desviada hacia la derecha, centrada o desviada hacia la
izquierda de la distribución. Si la cola más larga se encuentra hacia
la izquierda (derecha) de la distribución, el coeficiente de skewness
será negativo (positivo) y se dirá que la distribución es sesgada a la
izquierda (derecha).
Como todo estimador, el coeficiente tiene su propia distribución que
se deriva asintóticamente, y que permite hacer inferencia con muestras
finitas. La distribución es una normal, con media cero y varianza
6
,
n
lo cual representamos para T = 20, 50, 100 por la función de densidad:
f (S k ) =
1
e
⎛ s2 ⎞
⎜
⎟
− 0.5⎜ k ⎟
⎜6 ⎟
⎝ n⎠
6
2π
n
Material de docente de uso exclusivo de los alumnos del curso de Econometría Básica, CEPAL.
a
⎛ 6⎞
S k ~ N ⎜ 0, ⎟
⎝ n⎠
La hipótesis nula H0 : Sk = 0 se evalúa a través de una tabla normal
estandarizada con el siguiente estadístico:
z Sk =
Sˆ k
6
n
~ N (0,1)
Curtosis
El
cuarto
momento
se
denomina
curtosis,
y
determina
si
las
colas
tienen una masa o altura superior, igual, o inferior a la de una
distribución normal. El coeficiente de curtosis adopta un valor de 3
si
las
variables
aleatorias
son
generadas
de
una
normal,
y
analíticamente se representa por:
⎛x − x⎞
∑ ⎜⎝ i σ ⎟⎠
K=
n
4
La medida de referencia de este coeficiente para una distribución
normal es de 3 (mesocúrtica), de manera que si el estadístico es mayor
que 3, entonces la función tiene características de leptocurtosis (K >
3), mientras que si la distribución tiene un coeficiente menor a 3,
entonces esta se denomina platocúrtica (K < 3).
La función de distribución del coeficiente de curtosis es
Material de docente de uso exclusivo de los alumnos del curso de Econometría Básica, CEPAL.
f (K ) =
1
24
2π
n
e
⎛ ( K − 3 )2
⎜
− 0. 5 ⎜
⎜ 24
n
⎝
⎞
⎟
⎟⎟
⎠
a
⎛ 24 ⎞
K ~ N ⎜ 3, ⎟
⎝ n ⎠
Para testear la hipótesis nula de que K = 3 debemos calcular el
estadístico:
zK =
Kˆ − 3
24
n
~ N (0,1)
Test de Normalidad de Jarque-Bera
Tal como se menciona en la sección de funciones de distribución, si
sumamos dos funciones de distribución chi-cuadradas, la función
resultante también obedece a una distribución chi-cuadrada, teniendo
los grados de libertad que resultan de sumar los grados de libertad de
las funciones de densidad individuales.
Con este antecedente Jarque y Bera desarrollaron un estadístico que
evalúa en forma conjunta la hipótesis nula si el coeficiente de
skewness y curtosis toman valores de 0 y 3 respectiva y conjuntamente.
Para generar el estadístico requiero sumar el cuadrado de dos
funciones de distribución estandarizadas como son ẑ S k y ẑ k
( )2 + (zˆ k )2 ~ χ 2 (2)
jb = zˆ S k
Material de docente de uso exclusivo de los alumnos del curso de Econometría Básica, CEPAL.
2
2
2
2
⎛
⎞ ⎛
⎞
⎜
⎟ ⎜
⎟
⎜ S k ⎟ ⎜ Kˆ − 3 ⎟
2
jb = ⎜
⎟ +⎜
⎟ ~ χ (2 )
6
24
⎜⎜
⎟⎟ ⎜⎜
⎟⎟
⎝ n⎠ ⎝ n ⎠
⎛
⎞ ⎛
⎞
⎜
⎟ ⎜
⎟
ˆ
S
⎜
⎟ ⎜ K −3⎟
2
jb = ⎜ k ⎟ + ⎜
⎟ ~ χ (2 )
6
24
⎜⎜
⎟⎟ ⎜⎜
⎟⎟
⎝ n⎠ ⎝ n ⎠
jb =
jb =
(
)
2
S k2
Kˆ − 3
+
~ χ 2 (2)
24
6
n
n
n ⎛⎜ 2 (K − 3)2
Sk +
6 ⎜⎝
4
⎞
⎟ ~ χ 2 (2)
⎟
⎠
Tal como se genera el estadístico cabe mencionar que este indicador
tiene una cota inferior en cero, es decir que no puede ser inferior a
cero, de manera que en la medida que se aleja de 0, ya sea porque el
coeficiente de skewness se aleja de 0 o porque el coeficiente de
curtosis
difiere
de
3,
aumenta
la
probabilidad
de
rechazar
la
hipótesis nula de que la distribución generadora de los datos proviene
de una distribución normal.
Material de docente de uso exclusivo de los alumnos del curso de Econometría Básica, CEPAL.
Ejercicio
Se tienen los siguientes datos de puntajes promedio de lectura en los
diferentes países componentes de la OCDE.
País
OCDE
3
⎛ (x i − x ) ⎞ ⎛ ( x i − x ) ⎞ ⎛ (xi − x ) ⎞ 4
⎜
⎟ ⎜
⎟
⎟ ⎜
⎝ σ ⎠ ⎝ σ ⎠ ⎝ σ ⎠
País
3
4
⎛ (xi − x ) ⎞ ⎛ (xi − x ) ⎞ ⎛ (x i − x ) ⎞
⎜
⎟ ⎜
⎟
⎟ ⎜
⎝ σ ⎠ ⎝ σ ⎠ ⎝ σ ⎠
OCDE
1
546
1,680
4,745
7,974
15
504
0,149
0,003
0,000
2
534
1,243
1,919
2,385
16
497
-0,107
-0,001
0,000
3
529
1,060
1,192
1,264
17
494
-0,216
-0,010
0,002
4
528
1,024
1,073
1,099
18
493
-0,253
-0,016
0,004
5
527
0,987
0,963
0,951
19
492
-0,289
-0,024
0,007
6
525
0,914
0,765
0,699
20
487
-0,471
-0,105
0,049
7
523
0,842
0,596
0,502
21
484
-0,581
-0,196
0,114
8
522
0,805
0,522
0,420
22
480
-0,727
-0,384
0,279
9
516
0,586
0,201
0,118
23
479
-0,763
-0,445
0,339
10
507
0,258
0,017
0,004
24
474
-0,946
-0,845
0,799
11
507
0,258
0,017
0,004
25
470
-1,091
-1,300
1,419
12
507
0,258
0,017
0,004
26
441
-2,149
-9,926
21,333
13
505
0,185
0,006
0,001
27
422
-2,842
-22,957
65,246
14
505
0,185
0,006
0,001
Promedio
499,93
Desv. Est.
27,42
Skewness
-0,90
Kurtosis
3,89
Jarque-Bera
es
normalmente
distribuida.
asimetría
un
estadístico
(skewness)
distribución
normal.
y
Este
para
test
curtosis
El
testear
mide
de
la
estadístico
es
si
la
serie
esta
las
diferencias
de
la
serie
comparación
con
la
calculado
de
la
siguiente
manera:
jb =
Donde Sk es la skewness,
n ⎛⎜ 2 (K − 3)2
Sk +
6 ⎜⎝
4
⎞
⎟
⎟
⎠
y K es la curtosis, y k representa el numero
de parámetros estimados para crear la serie.
Bajo la hipótesis nula de distribución normal, el estadístico JarqueBera se distribuye
χ2
(chi-cuadrado) con dos grados de libertad.
Del ejercicio tenemos:
jb =
27 ⎛⎜
(3.89 − 3)2
(
− 0.895)2 +
6 ⎜⎝
4
jb =
(0.89)2
27 ⎛⎜
− 0.895)2 +
(
6 ⎜⎝
4
⎞
⎟
⎟
⎠
⎞
⎟
⎟
⎠
jb = 4.5(0.801025 + 0.198025)
jb = 4.495725 ≈ 4.5
Material de docente de uso exclusivo de los alumnos del curso de Econometría Básica, CEPAL.
Descargar