EST-712 - Preliminares

Anuncio
EST-712 - Preliminares
Felipe Osorio
www.ies.ucv.cl/fosorio
Instituto de Estadı́stica, PUCV
Abril 8, 2016
1 / 46
Espacio de probabilidad
Definición
Un espacio de probabilidad es el trı́o (Ω, A, P), donde
I Ω es un conjunto no vacı́o.
I A es un σ-álgebra de subconjuntos de Ω
I
I
I
Ω∈A
A ∈ A ⇒ Ac ∈ A
An ∈ A, n = 1, 2, . . . ⇒ ∪∞
n=1 An ∈ A
I P es una medida de probabilidad en A.
I
P(A) ≥ 0
P(Ω) = 1
I
Si A1 , A2 , · · · ∈ A son disjuntos, entonces
I
P
∞
[
n=1
∞
X
An =
P(An ).
n=1
2 / 46
Variable aleatoria
Definición
Una variable aleatoria X en (Ω, A, P) es una función real definida en Ω tal que
{X ≤ x} es un evento aleatorio (x ∈ R). Es decir
X : Ω → R,
es variable aleatoria si {X ≤ x} ∈ A para todo x ∈ R.
Notación: Diremos que X(ω) es variable aleatoria si
def
(X ≤ x) = {ω ∈ Ω : X(ω) ≤ x} ∈ A,
para todo x ∈ R.
3 / 46
Función de distribución
Definición
La función de distribución acumulada (CDF) de X denotada por FX es definida por
FX (x) = P(X ≤ x),
x ∈ R.
Note que: FX : R → [0, 1].
Propiedades
I x ≤ y ⇒ F (x) ≤ F (y) (es no decreciente).
I F es continua a la derecha.
I F (−∞) = 0 y F (+∞) = 1.
4 / 46
Tipos de variables aleatorias
Definición
X es variable aleatoria discreta si adopta valores en un conjunto finito o numerable
X = {x1 , x2 , . . . }. En este caso se define la función de probabilidad
p(xi ) = P(X = xi ),
i = 1, 2 . . .
Si X es variable aleatoria continua, entonces existe f (x) ≥ 0 tal que
Z x
F (x) =
f (t) dt,
x ∈ R,
−∞
y decimos que f (x) es la función de densidad de X.
5 / 46
Propiedades
Propiedades
a) Para el caso discreto tenemos que:
Ω=
∞
[
{X = xk },
k=1
y {X = xi } ∩ {X = xj } = ∅ (i 6= j). De este modo,
1 = P(Ω) =
∞
X
P(X = xk )
k=1
b) Por otro lado, si X es continua, sigue que
Z
1 = F (+∞) =
+∞
f (x) dx
−∞
Además f (x) = F 0 (x).
6 / 46
Esperanza y Varianza
Definición
Sea X variable aleatoria con densidad f (x). La media (siempre que exista) de X es
definida por:
Z
E(X) =
xf (x) dx.
R
En general, tenemos
Z
E{g(X)} =
g(x)f (x) dx.
R
De este modo, podemos tomar g(X) = (X − E(X))2 y definimos la varianza de X
como:
Z
var(X) = E{(X − E(X))2 } = (x − E(X))2 f (x) dx.
R
7 / 46
Propiedades
Propiedades
a) E(a) = a, para a una constante,
b) E(ag(X)) = a E(g(X)),
c) E(a1 g1 (X) + a2 g2 (X)) = a1 E(g1 (X)) + a2 E(g2 (X)),
d) E(g1 (X)) ≤ E(g2 (X)) si g1 (X) ≤ g2 (X).
Además, usando que
(X − E(X))2 = X 2 − 2X E(X) + E2 (X),
ası́
var(X) = E{(X − E(X))2 } = E(X 2 ) − E2 (X).
8 / 46
Desigualdad de Chebyshev
Sea X variable aleatoria y g(·) función no negativa
P(g(X) ≥ k) ≤
E(g(X))
,
k
k > 0.
En particular,
P(|X − µ| ≥ rσ) = P((X − µ)2 ≥ r2 σ 2 ) ≤
1
,
r2
r > 0.
o equivalentemente,
P(|X − µ| < rσ) ≥ 1 −
1
,
r2
donde µ = E(X) y σ 2 = var(X).
9 / 46
Función generadora de momentos
El r-ésimo momento de X es definido como
µr = E(X r ).
Definición
Sea X variable aleatoria con densidad f (x) se define la función generadora de
momentos de X como
Z ∞
mX (t) = E(etX ) =
etx f (x) dx,
|t| < h.
−∞
Aplicación: Note que
dr
mX (t)
= E(X r ) = µr
r
t=0
dt
10 / 46
Tablas de probabilidad (Galbiati, 2001)
Galbiati, J. (2001).
Tablas de Probabilidad.
Editado por el Instituto de Estadı́stica PUCV.
I Material online:
www.jorgegalbiati.cl/material_apoyo.html
11 / 46
Distribución binomial
Definición
Una variable aleatoria X tiene distribución binomial si su función de probabilidad es
dada por:
n
f (x) =
px (1 − p)n−x ,
x = 0, 1, . . . , n,
x
y escribimos X ∼ Bin(n, p) con n ∈ N, p ∈ [0, 1] y
n
n!
=
.
x
x!(n − x)!
En este caso, tenemos
mX (t) = {pet + (1 − p)}n ,
E(X) = np,
var(X) = np(1 − p).
En particular, si n = 1 entonces X ∼ Ber(p).
12 / 46
2
4
6
8
10
12
0.20
dbinom(x, 12, 1/2)
0.10
dbinom(x, 12, 1/4)
0.00
x
2
4
6
x
8
10
12
0.10
0.20
dbinom(x, 12, 3/4)
0.00 0.05 0.10 0.15 0.20
0.00
Distribución binomial
2
4
6
x
8
10
12
X ∼ Bin(n, p) con n = 12 y p = 1/4, 1/2, 3/4.
13 / 46
Distribución Poisson
Definición
Se dice que una variable aleatoria X tiene distribución Poisson si su función de
probabilidad asume la forma:
f (x) =
e−λ λx
,
x!
x = 0, 1, . . .
en cuyo caso denotamos X ∼ Poi(λ) con λ > 0. De este modo,
mX (t) = exp{λ(et − 1)},
E(X) = λ,
var(X) = λ.
14 / 46
0
5
10
15
0
x
5
10
x
15
0.10
dpois(x, 7.5)
0.00
0.00
0.10
dpois(x, 5)
0.20
0.10
dpois(x, 3)
0.00
0.2
0.0
dpois(x, 1)
Distribución Poisson
0
5
10
x
15
0
5
10
15
x
X ∼ Poi(λ) con λ = 1, 3, 5, 7.5.
15 / 46
Distribución Uniforme
Definición
Si la función de densidad de una variable aleatoria X es dada por:
f (x) =
1
I(a,b) (x),
b−a
donde a y b satisfacen −∞ < a < b < ∞. Entonces X ∼ U(a, b). Es fácil notar que
mX (t) =
ebt − eat
,
(b − a)t
Además
F (x) =
E(X) =
x−a
,
b−a
a+b
,
2
var(X) =
(b − a)2
.
12
x ∈ (a, b).
16 / 46
Distribución Gama
Definición
Si la variable aleatoria X tiene densidad dada por:
f (x) =
ba
xa−1 exp(−bx),
Γ(a)
x > 0,
donde a > 0 y b > 0, entonces X tiene distribución gama. En cuyo caso
b a
a
a
mX (t) =
,
E(X) = ,
var(X) = 2 .
b−t
b
b
En efecto, cuando a = 1 obtenemos que X ∼ Exp(b) con función de densidad
f (x) = b e−bx I(0,∞) (x).
17 / 46
0
2
4
x
6
8
3.0
2.0
dgamma(x, 1, 3)
0.0
1.0
2.0
1.5
1.0
dgamma(x, 1, 2)
0.0
0.5
0.8
0.6
0.4
0.2
0.0
dgamma(x, 1, 1)
1.0
Distribución Gama
0
2
4
6
8
0
2
x
4
6
8
x
X ∼ Gama(a, b) con a = 1 (negro), 2 (rojo), 3 (azul), 4 (verde), y b = 1, 2, 3.
18 / 46
Distribución Normal
Definición
Se dice que una variable aleatoria X es normalmente distribuı́da si su densidad es
dada por:
n 1 y − µ 2 o
f (x) = (2πσ 2 )−1/2 exp −
2
σ
donde µ ∈ R y σ 2 > 0 y anotamos X ∼ N (µ, σ 2 ). Un caso particular importante
corresponde a la distribución normal estándar, esto es Z ∼ N (0, 1) tal que
Z z
Φ(z) =
φ(u) du.
φ(z) = (2π)−1/2 exp(− 12 z 2 ),
−∞
Si X ∼
N (µ, σ 2 ),
entonces
mX (t) = exp(µt + σ 2 t2 /2),
E(X) = µ,
var(X) = σ 2 .
Además, para X ∼ N (µ, σ 2 ), tenemos
P(a < X < b) = Φ
b − µ
σ
b − µ
−Φ
.
σ
19 / 46
0.2
0.0
0.1
dnorm(x, 0, 1)
0.3
0.4
Distribución Normal
−5
0
5
x
X ∼ N (µ, σ 2 ) con µ = 0 y σ 2 = 1 (negro), 2 (rojo), 4 (azul) y 8 (verde).
20 / 46
Distribución Beta
Definición
Si una variable aleatoria X tiene densidad dada por
f (x) =
1
xa−1 (1 − x)b−1 ,
B(a, b)
x ∈ (0, 1),
donde a > 0 y b > 0, entonces X tiene distribución Beta y anotamos X ∼ Beta(a, b).
La función generadora de momentos para la distribución Beta no tiene una forma
simple. Sin embargo, es fácil notar que Si X ∼ N (µ, σ 2 ), entonces
E(X) =
a
,
a+b
var(X) =
ab
.
(a + b + 1)(a + b)2
21 / 46
1.5
1.0
0.0
0.5
dbeta(x, 2, 5)
2.0
2.5
Distribución Beta
0.0
0.2
0.4
0.6
0.8
1.0
x
X ∼ Beta(a, b) con (a, b) = (2, 5) (negro), (0.5, 0.5) (rojo), (2, 2) (azul) y (5, 1) (verde).
22 / 46
Comandos en R
I ddist(x, parametros) es la función de densidad de dist evaluado en x.
I pdist(x, parametros) calcula P (X ≤ x) para X dado por dist.
I qdist(p, parametros) retorna x satisfaciendo P (X ≤ x) = p, el p-ésimo
cuantil, con X dado por dist.
I rdist(n, parametros) genera n dı́gitos pseudo-aleatorios desde la distribución
especificada por dist.
23 / 46
Algunas distribuciones disponibles en R1
I beta
I hipergeométrica
I binomial
I logı́stica
I binomial negativa
I log-normal
I chi-cuadrado
I normal
I exponencial
I Poisson
I F
I t de Student
I gama
I uniforme
I geométrica
I Weibull
1 Hay muchas otras distribuciones disponibles en paquetes especı́ficos.
24 / 46
Vectores aleatorios
Un vector aleatorio k-dimensional X es una función desde el espacio de probabilidad
(Ω, A, P) a Rk , esto es
X : Ω → Rn .
Definición
Para X distribuı́do en Rk , la función de distribución de X es una función
F : Rk → [0, 1], tal que
F (x) = P(X ≤ x),
∀x ∈ Rk
y denotamos X ∼ F ó X ∼ FX .
La notación anterior debe ser entendida como:
F (x) = P(X1 ≤ x1 , X2 ≤ x2 , . . . , Xk ≤ xk ),
T
que corresponde a la probabilidad del evento kr=1 {Xr ≤ xr }.
25 / 46
Función de distribución
Propiedades
a) F (x) es función monótona creciente y contı́nua a la derecha en cada uno de los
componentes de X,
b) 0 ≤ F (x) ≤ 1,
c) F (−∞, x2 , . . . , xn ) = · · · = F (x1 , . . . , xn−1 , −∞) = 0,
d) F (+∞, . . . , +∞) = 1.
Sea F la CDF del vector aleatorio X. Entonces, existe una función no-negativa f tal
que
Z x
F (x) =
f (u) du,
x ∈ Rk ,
−∞
en este caso decimos que X es un vector aleatorio contı́nuo con función de densidad
f . Tenemos que
∂ k F (x)
f (x) =
.
∂x1 · · · ∂xk
26 / 46
Distribución marginal y condicional
> >
Considere el vector aleatorio k-dimensional X particionado como X = (X >
1 , X2 )
donde X 1 y X 2 son vectores k1 × 1 y k2 × 1, respectivamente, con k = k1 + k2 .
En este caso X i ∼ Fi , i = 1, 2, y X 1 , X 2 son llamadas marginales de X.
Note que
F1 (s) = F (s, ∞),
o bien
Z
f1 (s) =
∀s ∈ Rk1 , t ∈ Rk2 ,
F2 (t) = F (∞, t),
Z
f (s, u) du,
Rk2
f2 (t) =
f (u, t) du,
Rk1
para s ∈ Rk1 y t ∈ Rk2 .
27 / 46
Distribución marginal y condicional
Si X es absolutamente contı́nuo y f1 (x1 ) > 0, entonces la densidad condicional de
X 2 dado X 1 = x1 es dada por
fX2 |X1 =x1 (u) =
fX (x1 , u)
,
f1 (x1 )
con función de distribución de X 2 condicional a X 1 = x1 dada por
Z u
FX2 |X1 =x1 (u) =
fX2 |X1 =x1 (t) dt,
−∞
tenemos además que
fX2 |X1 =x1 (u) = R
fX (x1 , u)
.
fX (x1 , t) dt
Rk2
28 / 46
Esperanza y Covarianza
Considere X = (X1 , . . . , Xk )> vector aleatorio k-dimensional con densidad f .
Entonces la esperanza de cualquier función g de X está dada por
Z
E(g(X)) =
g(t)f (t) dt,
Rn
siempre que la integral (k-dimensional) exista.
Más generalmente, sea Z = (Zij ) una matriz aleatoria m × n, entonces
E(Z) = (E(Zij )).
Resultado
Sea A = (aij ), B = (bij ) y C = (cij ) matrices de constantes l × m, n × p y l × p,
respectivamente. Entonces
E(AZB + C) = A E(Z)B + C.
29 / 46
Esperanza y Covarianza
Definición
Sean X e Y vectores aleatorios m y n-dimensionales, respectivamente. Se define la
matriz de covarianza entre X e Y como la matriz m × n,
Cov(X, Y ) = (Cov(Xi , Yj ))
= E{(X − E(X))(Y − E(Y ))> }.
Además, es fácil mostrar que
Cov(X, Y ) = E(XY > ) − E(X) E> (Y ).
En particular,
Cov(X) = Cov(X, X) = E(XX > ) − E(X) E> (X).
30 / 46
Esperanza y Covarianza
Resultado
Si X e Y son vectores aleatorios m y n-dimensionales, respectivamente y A ∈ Rl×m ,
B ∈ Rp×n , entonces
Cov(AX, BY ) = A Cov(X, Y )B > .
Resultado
Toda matriz de dispersión es simétrica y semidefinida positiva.
Resultado
Sea X vector aleatorio n-dimensional y considere la transformación Y = AX + b,
donde A ∈ Rm×n es matriz de constantes y b ∈ Rm . Entonces
E(Y ) = AX + b,
Cov(Y ) = A Cov(X)A> .
31 / 46
Esperanza y Covarianza
Definición
Sea X = (X1 , . . . , Xp )> vector aleatorio con media µ y matriz de covarianza Σ. Se
define la matriz de correlaciones como R = (ρij ) donde
ρij =
Cov(Xi , Xj )
σij
,
= √
σii σjj
{var(Xi ) var(Xj )}1/2
i, j = 1, . . . , p.
En efecto, tenemos
R = D −1/2 ΣD −1/2 ,
donde D = diag(σ11 , . . . , σpp ).
Definición
La función generadora de momentos de X es dada por
mX (t) = E{exp(t> X)},
ktk < h.
32 / 46
Independencia
Sea Z = (X > , Y > )> con X, Y vectores aleatorios n- y q-dimensionales, respectivamente. Entonces, X e Y se dicen independientes sólo si
FZ (x, y) = GX (x)HY (y),
donde FZ (z), GX (x) y HY (y) son las funciones de distribución de Z, X e Y , respectivamente.
Si Z, X e Y tienen densidades f (z), g(x) y h(y). Entonces X e Y son independientes sólo si
f (z) = g(x)h(y),
desde esto sigue que
f (x|y) = g(x).
33 / 46
Transformación de vectores aleatorios continuos
Resultado
Sea X vector aleatorio n-dimensional con función de densidad fX (x) y soporte
X = {x : fX (x) > 0}. Para g : X → Rn diferenciable e invertible, sea Y = g(X).
Entonces, la densidad de Y está dada por:
fY (y) = |Dg −1 (y)|+ fX (g −1 (y)),
donde
Dg −1 (y) =
∂g −1 (y)
∂x
=
,
∂y >
∂y >
denota la matriz Jacobiana asociada a la transformación g −1 (·).
34 / 46
Distribución Normal multivariada
Sea Z1 , . . . , Zp v.a. iid N (0, 1), la densidad de Z es
fZ (z) =
p
Y
(2π)−1/2 exp(− 12 zi2 )
i=1
= (2π)−p/2 exp(− 21 z T z).
Considere Y = µ + B > Z con µ ∈ Rp y Σ = B > B, entonces
z = g −1 (y) = B −> (y − µ),
y
dx = dg −1 (y) = B −> dy,
Dg −1 (y) = B −>
35 / 46
Distribución Normal multivariada
como
|Dg −1 (y)|+ = |B > |−1 = |B > B|−1/2
obtenemos
fY (y) = |Dg −1 (y)|+ fZ (g −1 (y))
= (2π)−p/2 |B > B|−1/2 exp{− 12 (y − µ)> B −1 B −> (y − µ)}
= |2πΣ|−1/2 exp{− 21 (y − µ)> Σ−1 (y − µ)}
la densidad de Y ∼ Np (µ, Σ).
36 / 46
Distribución Normal multivariada
Densidad normal bivariada con µ = 0 y ρ = 0, 0.4, 0.8.
rho = 0.0
rho = 0.4
0.2
0.2
z
0.3
z
0.3
0.1
0.0
2
0.1
0.0
2
0
0
0
2
y
y
2
−2
x
0
−2
−2
x
−2
3
rho = 0.8
2
0.3
0.2
1
z
0.06
0.1
0.0
2
0
−2
x
0.1
−2
y
2
−2
0.02
−3
0
−1
0
0.14
−3
−2
−1
0
1
2
3
37 / 46
Distribución Normal multivariada
La función generadora de momentos de Y es
Z
mY (t) = E{exp(t> Y )} = |2πΣ|−1/2 exp{t> Y − 21 (y − µ)> Σ−1 (y − µ)} dy.
Note que el exponente dentro de la integral puede escribirse como
t> µ + 21 t> Σt − 12 (y − µ − Σt)> Σ−1 (y − µ − Σt),
de este modo,
mY (t) = exp(t> µ + 12 t> Σt)
Z
f (y; µ + Σt, Σ) dy.
38 / 46
Distribución normal multivariada
Transformaciones lineales
Si Y ∼ Np (µ, Σ) y X = AY + b, donde A ∈ Rk×p con rk(A) = k ≤ p, entonces
X ∼ Nk (Aµ + b, AΣA> ).
Distribución marginal
Considere la partición
Y1
Y =
,
Y2
µ=
µ1
,
µ2
Σ=
Σ11
Σ21
Σ12
Σ22
,
donde Y 1 es vector p1 -dimensional. Entonces Y 1 ∼ Np1 (µ1 , Σ11 ).
39 / 46
Distribución normal multivariada
Independencia
Y 1 es independiente de Y 2 sólo si Σ12 = 0.
Distribución condicional
−1
Sea µ1·2 = µ1 + Σ12 Σ−1
22 (y 2 − µ2 ) y Σ11·2 = Σ11 − Σ12 Σ22 Σ21 . Entonces,
Y 1 |Y 2 = y 2 ∼ Np1 (µ1·2 , Σ11·2 )
40 / 46
Estadı́sticos de resumen
Ingredientes: n observaciones y1 , . . . , yn conocidas como muestra. Sólo nos concentraremos en ella si n es diminuto.
En general, nuestro interés recaerá en resúmenes de la información a través de una
estadı́stica, T = T (y1 , . . . , yn ).
I Momentos muestrales: Atribuyen masa n−1 a cada yj y calculan la media,
varianza, etc. Algunos momentos son:
y=
n
1 X
yj ,
n j=1
n
1 X
(yj − y)2
n j=1
La varianza muestral s2 usa el denominador n − 1.
41 / 46
Estadı́sticos de resumen
I Estadı́sticos de orden: de y1 , . . . , yn , corresponden a los valores ordenados
y(1) ≤ y(2) ≤ · · · ≤ y(n) . Algunas estadı́sticas de orden son: mı́nimo muestral
y(1) , máximo muestral y(n) , o la mediana
(
y
,
n impar,
mediana(yj ) = 1((n+1)/2)
(y
+
y
),
n par.
(n/2)
(n/2+1)
2
I Outliers: Algunas estadı́sticas de resumen son susceptibles a datos atı́picos o
outliers. Si el “verdadero” y1 es reemplazado por y1 + δ, el promedio cambia de
y a y + n−1 δ. Que puede ser arbitrariamente grande.
Observación: se dice que la mediana es resistente mientras que el promedio no.
42 / 46
Estadı́sticos de resumen
I Asimetrı́a: Una medida de la forma de la distribución es la asimetrı́a muestral
estandarizada
g1 =
n−1
Pn
{(n − 1)−1
j=1 (yj
− y)3
Pn
2 3/2
j=1 (yj − y) }
,
Si g1 = 0 los datos son simétricos, mientras que g1 > 0 indica una cola superior
pesada.
I Función de distribución empı́rica: es la distribución acumulada que atribuye
probabilidad n−1 a cada y1 , . . . , yn . Ésta se escribe como
n
1 X
I(yj ≤ y).
n j=1
43 / 46
Muestra aleatoria
Muestra aleatoria
Supondremos y1 , . . . , yn valores observados de una muestra aleatoria de tamaño n,
definida como una colección de v.a. iid Y1 , . . . , Yn .
Cada Yj tiene distribución acumulada común F . Si F es conocido, podemos usar
cálculo de probabilidades para deducir y estudiar sus propiedades.
En la práctica, F es desconocido, y el objetivo es tratar de inferir sus propiedades
desde los datos. Frecuentemente, el interés es una función no aleatoria de F , tal como
la media o su q-ésimo cuantil.
Z
E(Y ) =
y dF (y),
yq = F −1 (q) = inf{y : F (y) ≥ q}
44 / 46
Parámetros y Estimador
Las cantidades E(Y ), var(Y ) y F −1 (q) son llamadas parámetros, dependen de F y
son generalmente desconocidos.
Si F está determinado por un número finito de parámetros θ, decimos que el modelo
es paramétrico, y escribimos F = F (y; θ) con función de densidad f (y; θ).
Suponga que Y1 , . . . , Yn es una m.a. desde F , estaremos interesados en el parámetro
θ y se utilizará el estadı́stico T = T (Y1 , . . . , Yn ) para hacer inferencias sobre θ.
Llamamos a T un estimador de θ y decimos que el valor que éste asume para una
muestra observada y1 , . . . , yn , esto es t(y1 , . . . , yn ) es una estimación de θ.
Esto es, T es una variable aleatoria, mientras que t es un valor observado.
45 / 46
Reparametrización
Distribución gama con parámetro de escala λ y parámetro de forma κ, tiene función
de densidad
f (y; λ, κ) =
λκ κ−1
y
exp(−λy),
Γ(κ)
y > 0, λ, κ > 0.
Ésta distribución tiene media κ/λ y varianza κ/λ2 .
Puede ser de interés re-escribir la densidad en términos de su media µ = κ/λ en cuyo
caso,
1 κ κ κ−1
f (y; µ, κ) =
y
exp(−κy/µ),
y > 0, µ, κ > 0.
Γ(κ) µ
con varianza µ2 /κ.
Como funciones de y, ámbas funciones son iguales. El rango de posibles densidades es
la misma para todas las reparametrizaciones 1-1 de (λ, κ).
Descargar