EST-712 - Preliminares Felipe Osorio www.ies.ucv.cl/fosorio Instituto de Estadı́stica, PUCV Abril 8, 2016 1 / 46 Espacio de probabilidad Definición Un espacio de probabilidad es el trı́o (Ω, A, P), donde I Ω es un conjunto no vacı́o. I A es un σ-álgebra de subconjuntos de Ω I I I Ω∈A A ∈ A ⇒ Ac ∈ A An ∈ A, n = 1, 2, . . . ⇒ ∪∞ n=1 An ∈ A I P es una medida de probabilidad en A. I P(A) ≥ 0 P(Ω) = 1 I Si A1 , A2 , · · · ∈ A son disjuntos, entonces I P ∞ [ n=1 ∞ X An = P(An ). n=1 2 / 46 Variable aleatoria Definición Una variable aleatoria X en (Ω, A, P) es una función real definida en Ω tal que {X ≤ x} es un evento aleatorio (x ∈ R). Es decir X : Ω → R, es variable aleatoria si {X ≤ x} ∈ A para todo x ∈ R. Notación: Diremos que X(ω) es variable aleatoria si def (X ≤ x) = {ω ∈ Ω : X(ω) ≤ x} ∈ A, para todo x ∈ R. 3 / 46 Función de distribución Definición La función de distribución acumulada (CDF) de X denotada por FX es definida por FX (x) = P(X ≤ x), x ∈ R. Note que: FX : R → [0, 1]. Propiedades I x ≤ y ⇒ F (x) ≤ F (y) (es no decreciente). I F es continua a la derecha. I F (−∞) = 0 y F (+∞) = 1. 4 / 46 Tipos de variables aleatorias Definición X es variable aleatoria discreta si adopta valores en un conjunto finito o numerable X = {x1 , x2 , . . . }. En este caso se define la función de probabilidad p(xi ) = P(X = xi ), i = 1, 2 . . . Si X es variable aleatoria continua, entonces existe f (x) ≥ 0 tal que Z x F (x) = f (t) dt, x ∈ R, −∞ y decimos que f (x) es la función de densidad de X. 5 / 46 Propiedades Propiedades a) Para el caso discreto tenemos que: Ω= ∞ [ {X = xk }, k=1 y {X = xi } ∩ {X = xj } = ∅ (i 6= j). De este modo, 1 = P(Ω) = ∞ X P(X = xk ) k=1 b) Por otro lado, si X es continua, sigue que Z 1 = F (+∞) = +∞ f (x) dx −∞ Además f (x) = F 0 (x). 6 / 46 Esperanza y Varianza Definición Sea X variable aleatoria con densidad f (x). La media (siempre que exista) de X es definida por: Z E(X) = xf (x) dx. R En general, tenemos Z E{g(X)} = g(x)f (x) dx. R De este modo, podemos tomar g(X) = (X − E(X))2 y definimos la varianza de X como: Z var(X) = E{(X − E(X))2 } = (x − E(X))2 f (x) dx. R 7 / 46 Propiedades Propiedades a) E(a) = a, para a una constante, b) E(ag(X)) = a E(g(X)), c) E(a1 g1 (X) + a2 g2 (X)) = a1 E(g1 (X)) + a2 E(g2 (X)), d) E(g1 (X)) ≤ E(g2 (X)) si g1 (X) ≤ g2 (X). Además, usando que (X − E(X))2 = X 2 − 2X E(X) + E2 (X), ası́ var(X) = E{(X − E(X))2 } = E(X 2 ) − E2 (X). 8 / 46 Desigualdad de Chebyshev Sea X variable aleatoria y g(·) función no negativa P(g(X) ≥ k) ≤ E(g(X)) , k k > 0. En particular, P(|X − µ| ≥ rσ) = P((X − µ)2 ≥ r2 σ 2 ) ≤ 1 , r2 r > 0. o equivalentemente, P(|X − µ| < rσ) ≥ 1 − 1 , r2 donde µ = E(X) y σ 2 = var(X). 9 / 46 Función generadora de momentos El r-ésimo momento de X es definido como µr = E(X r ). Definición Sea X variable aleatoria con densidad f (x) se define la función generadora de momentos de X como Z ∞ mX (t) = E(etX ) = etx f (x) dx, |t| < h. −∞ Aplicación: Note que dr mX (t) = E(X r ) = µr r t=0 dt 10 / 46 Tablas de probabilidad (Galbiati, 2001) Galbiati, J. (2001). Tablas de Probabilidad. Editado por el Instituto de Estadı́stica PUCV. I Material online: www.jorgegalbiati.cl/material_apoyo.html 11 / 46 Distribución binomial Definición Una variable aleatoria X tiene distribución binomial si su función de probabilidad es dada por: n f (x) = px (1 − p)n−x , x = 0, 1, . . . , n, x y escribimos X ∼ Bin(n, p) con n ∈ N, p ∈ [0, 1] y n n! = . x x!(n − x)! En este caso, tenemos mX (t) = {pet + (1 − p)}n , E(X) = np, var(X) = np(1 − p). En particular, si n = 1 entonces X ∼ Ber(p). 12 / 46 2 4 6 8 10 12 0.20 dbinom(x, 12, 1/2) 0.10 dbinom(x, 12, 1/4) 0.00 x 2 4 6 x 8 10 12 0.10 0.20 dbinom(x, 12, 3/4) 0.00 0.05 0.10 0.15 0.20 0.00 Distribución binomial 2 4 6 x 8 10 12 X ∼ Bin(n, p) con n = 12 y p = 1/4, 1/2, 3/4. 13 / 46 Distribución Poisson Definición Se dice que una variable aleatoria X tiene distribución Poisson si su función de probabilidad asume la forma: f (x) = e−λ λx , x! x = 0, 1, . . . en cuyo caso denotamos X ∼ Poi(λ) con λ > 0. De este modo, mX (t) = exp{λ(et − 1)}, E(X) = λ, var(X) = λ. 14 / 46 0 5 10 15 0 x 5 10 x 15 0.10 dpois(x, 7.5) 0.00 0.00 0.10 dpois(x, 5) 0.20 0.10 dpois(x, 3) 0.00 0.2 0.0 dpois(x, 1) Distribución Poisson 0 5 10 x 15 0 5 10 15 x X ∼ Poi(λ) con λ = 1, 3, 5, 7.5. 15 / 46 Distribución Uniforme Definición Si la función de densidad de una variable aleatoria X es dada por: f (x) = 1 I(a,b) (x), b−a donde a y b satisfacen −∞ < a < b < ∞. Entonces X ∼ U(a, b). Es fácil notar que mX (t) = ebt − eat , (b − a)t Además F (x) = E(X) = x−a , b−a a+b , 2 var(X) = (b − a)2 . 12 x ∈ (a, b). 16 / 46 Distribución Gama Definición Si la variable aleatoria X tiene densidad dada por: f (x) = ba xa−1 exp(−bx), Γ(a) x > 0, donde a > 0 y b > 0, entonces X tiene distribución gama. En cuyo caso b a a a mX (t) = , E(X) = , var(X) = 2 . b−t b b En efecto, cuando a = 1 obtenemos que X ∼ Exp(b) con función de densidad f (x) = b e−bx I(0,∞) (x). 17 / 46 0 2 4 x 6 8 3.0 2.0 dgamma(x, 1, 3) 0.0 1.0 2.0 1.5 1.0 dgamma(x, 1, 2) 0.0 0.5 0.8 0.6 0.4 0.2 0.0 dgamma(x, 1, 1) 1.0 Distribución Gama 0 2 4 6 8 0 2 x 4 6 8 x X ∼ Gama(a, b) con a = 1 (negro), 2 (rojo), 3 (azul), 4 (verde), y b = 1, 2, 3. 18 / 46 Distribución Normal Definición Se dice que una variable aleatoria X es normalmente distribuı́da si su densidad es dada por: n 1 y − µ 2 o f (x) = (2πσ 2 )−1/2 exp − 2 σ donde µ ∈ R y σ 2 > 0 y anotamos X ∼ N (µ, σ 2 ). Un caso particular importante corresponde a la distribución normal estándar, esto es Z ∼ N (0, 1) tal que Z z Φ(z) = φ(u) du. φ(z) = (2π)−1/2 exp(− 12 z 2 ), −∞ Si X ∼ N (µ, σ 2 ), entonces mX (t) = exp(µt + σ 2 t2 /2), E(X) = µ, var(X) = σ 2 . Además, para X ∼ N (µ, σ 2 ), tenemos P(a < X < b) = Φ b − µ σ b − µ −Φ . σ 19 / 46 0.2 0.0 0.1 dnorm(x, 0, 1) 0.3 0.4 Distribución Normal −5 0 5 x X ∼ N (µ, σ 2 ) con µ = 0 y σ 2 = 1 (negro), 2 (rojo), 4 (azul) y 8 (verde). 20 / 46 Distribución Beta Definición Si una variable aleatoria X tiene densidad dada por f (x) = 1 xa−1 (1 − x)b−1 , B(a, b) x ∈ (0, 1), donde a > 0 y b > 0, entonces X tiene distribución Beta y anotamos X ∼ Beta(a, b). La función generadora de momentos para la distribución Beta no tiene una forma simple. Sin embargo, es fácil notar que Si X ∼ N (µ, σ 2 ), entonces E(X) = a , a+b var(X) = ab . (a + b + 1)(a + b)2 21 / 46 1.5 1.0 0.0 0.5 dbeta(x, 2, 5) 2.0 2.5 Distribución Beta 0.0 0.2 0.4 0.6 0.8 1.0 x X ∼ Beta(a, b) con (a, b) = (2, 5) (negro), (0.5, 0.5) (rojo), (2, 2) (azul) y (5, 1) (verde). 22 / 46 Comandos en R I ddist(x, parametros) es la función de densidad de dist evaluado en x. I pdist(x, parametros) calcula P (X ≤ x) para X dado por dist. I qdist(p, parametros) retorna x satisfaciendo P (X ≤ x) = p, el p-ésimo cuantil, con X dado por dist. I rdist(n, parametros) genera n dı́gitos pseudo-aleatorios desde la distribución especificada por dist. 23 / 46 Algunas distribuciones disponibles en R1 I beta I hipergeométrica I binomial I logı́stica I binomial negativa I log-normal I chi-cuadrado I normal I exponencial I Poisson I F I t de Student I gama I uniforme I geométrica I Weibull 1 Hay muchas otras distribuciones disponibles en paquetes especı́ficos. 24 / 46 Vectores aleatorios Un vector aleatorio k-dimensional X es una función desde el espacio de probabilidad (Ω, A, P) a Rk , esto es X : Ω → Rn . Definición Para X distribuı́do en Rk , la función de distribución de X es una función F : Rk → [0, 1], tal que F (x) = P(X ≤ x), ∀x ∈ Rk y denotamos X ∼ F ó X ∼ FX . La notación anterior debe ser entendida como: F (x) = P(X1 ≤ x1 , X2 ≤ x2 , . . . , Xk ≤ xk ), T que corresponde a la probabilidad del evento kr=1 {Xr ≤ xr }. 25 / 46 Función de distribución Propiedades a) F (x) es función monótona creciente y contı́nua a la derecha en cada uno de los componentes de X, b) 0 ≤ F (x) ≤ 1, c) F (−∞, x2 , . . . , xn ) = · · · = F (x1 , . . . , xn−1 , −∞) = 0, d) F (+∞, . . . , +∞) = 1. Sea F la CDF del vector aleatorio X. Entonces, existe una función no-negativa f tal que Z x F (x) = f (u) du, x ∈ Rk , −∞ en este caso decimos que X es un vector aleatorio contı́nuo con función de densidad f . Tenemos que ∂ k F (x) f (x) = . ∂x1 · · · ∂xk 26 / 46 Distribución marginal y condicional > > Considere el vector aleatorio k-dimensional X particionado como X = (X > 1 , X2 ) donde X 1 y X 2 son vectores k1 × 1 y k2 × 1, respectivamente, con k = k1 + k2 . En este caso X i ∼ Fi , i = 1, 2, y X 1 , X 2 son llamadas marginales de X. Note que F1 (s) = F (s, ∞), o bien Z f1 (s) = ∀s ∈ Rk1 , t ∈ Rk2 , F2 (t) = F (∞, t), Z f (s, u) du, Rk2 f2 (t) = f (u, t) du, Rk1 para s ∈ Rk1 y t ∈ Rk2 . 27 / 46 Distribución marginal y condicional Si X es absolutamente contı́nuo y f1 (x1 ) > 0, entonces la densidad condicional de X 2 dado X 1 = x1 es dada por fX2 |X1 =x1 (u) = fX (x1 , u) , f1 (x1 ) con función de distribución de X 2 condicional a X 1 = x1 dada por Z u FX2 |X1 =x1 (u) = fX2 |X1 =x1 (t) dt, −∞ tenemos además que fX2 |X1 =x1 (u) = R fX (x1 , u) . fX (x1 , t) dt Rk2 28 / 46 Esperanza y Covarianza Considere X = (X1 , . . . , Xk )> vector aleatorio k-dimensional con densidad f . Entonces la esperanza de cualquier función g de X está dada por Z E(g(X)) = g(t)f (t) dt, Rn siempre que la integral (k-dimensional) exista. Más generalmente, sea Z = (Zij ) una matriz aleatoria m × n, entonces E(Z) = (E(Zij )). Resultado Sea A = (aij ), B = (bij ) y C = (cij ) matrices de constantes l × m, n × p y l × p, respectivamente. Entonces E(AZB + C) = A E(Z)B + C. 29 / 46 Esperanza y Covarianza Definición Sean X e Y vectores aleatorios m y n-dimensionales, respectivamente. Se define la matriz de covarianza entre X e Y como la matriz m × n, Cov(X, Y ) = (Cov(Xi , Yj )) = E{(X − E(X))(Y − E(Y ))> }. Además, es fácil mostrar que Cov(X, Y ) = E(XY > ) − E(X) E> (Y ). En particular, Cov(X) = Cov(X, X) = E(XX > ) − E(X) E> (X). 30 / 46 Esperanza y Covarianza Resultado Si X e Y son vectores aleatorios m y n-dimensionales, respectivamente y A ∈ Rl×m , B ∈ Rp×n , entonces Cov(AX, BY ) = A Cov(X, Y )B > . Resultado Toda matriz de dispersión es simétrica y semidefinida positiva. Resultado Sea X vector aleatorio n-dimensional y considere la transformación Y = AX + b, donde A ∈ Rm×n es matriz de constantes y b ∈ Rm . Entonces E(Y ) = AX + b, Cov(Y ) = A Cov(X)A> . 31 / 46 Esperanza y Covarianza Definición Sea X = (X1 , . . . , Xp )> vector aleatorio con media µ y matriz de covarianza Σ. Se define la matriz de correlaciones como R = (ρij ) donde ρij = Cov(Xi , Xj ) σij , = √ σii σjj {var(Xi ) var(Xj )}1/2 i, j = 1, . . . , p. En efecto, tenemos R = D −1/2 ΣD −1/2 , donde D = diag(σ11 , . . . , σpp ). Definición La función generadora de momentos de X es dada por mX (t) = E{exp(t> X)}, ktk < h. 32 / 46 Independencia Sea Z = (X > , Y > )> con X, Y vectores aleatorios n- y q-dimensionales, respectivamente. Entonces, X e Y se dicen independientes sólo si FZ (x, y) = GX (x)HY (y), donde FZ (z), GX (x) y HY (y) son las funciones de distribución de Z, X e Y , respectivamente. Si Z, X e Y tienen densidades f (z), g(x) y h(y). Entonces X e Y son independientes sólo si f (z) = g(x)h(y), desde esto sigue que f (x|y) = g(x). 33 / 46 Transformación de vectores aleatorios continuos Resultado Sea X vector aleatorio n-dimensional con función de densidad fX (x) y soporte X = {x : fX (x) > 0}. Para g : X → Rn diferenciable e invertible, sea Y = g(X). Entonces, la densidad de Y está dada por: fY (y) = |Dg −1 (y)|+ fX (g −1 (y)), donde Dg −1 (y) = ∂g −1 (y) ∂x = , ∂y > ∂y > denota la matriz Jacobiana asociada a la transformación g −1 (·). 34 / 46 Distribución Normal multivariada Sea Z1 , . . . , Zp v.a. iid N (0, 1), la densidad de Z es fZ (z) = p Y (2π)−1/2 exp(− 12 zi2 ) i=1 = (2π)−p/2 exp(− 21 z T z). Considere Y = µ + B > Z con µ ∈ Rp y Σ = B > B, entonces z = g −1 (y) = B −> (y − µ), y dx = dg −1 (y) = B −> dy, Dg −1 (y) = B −> 35 / 46 Distribución Normal multivariada como |Dg −1 (y)|+ = |B > |−1 = |B > B|−1/2 obtenemos fY (y) = |Dg −1 (y)|+ fZ (g −1 (y)) = (2π)−p/2 |B > B|−1/2 exp{− 12 (y − µ)> B −1 B −> (y − µ)} = |2πΣ|−1/2 exp{− 21 (y − µ)> Σ−1 (y − µ)} la densidad de Y ∼ Np (µ, Σ). 36 / 46 Distribución Normal multivariada Densidad normal bivariada con µ = 0 y ρ = 0, 0.4, 0.8. rho = 0.0 rho = 0.4 0.2 0.2 z 0.3 z 0.3 0.1 0.0 2 0.1 0.0 2 0 0 0 2 y y 2 −2 x 0 −2 −2 x −2 3 rho = 0.8 2 0.3 0.2 1 z 0.06 0.1 0.0 2 0 −2 x 0.1 −2 y 2 −2 0.02 −3 0 −1 0 0.14 −3 −2 −1 0 1 2 3 37 / 46 Distribución Normal multivariada La función generadora de momentos de Y es Z mY (t) = E{exp(t> Y )} = |2πΣ|−1/2 exp{t> Y − 21 (y − µ)> Σ−1 (y − µ)} dy. Note que el exponente dentro de la integral puede escribirse como t> µ + 21 t> Σt − 12 (y − µ − Σt)> Σ−1 (y − µ − Σt), de este modo, mY (t) = exp(t> µ + 12 t> Σt) Z f (y; µ + Σt, Σ) dy. 38 / 46 Distribución normal multivariada Transformaciones lineales Si Y ∼ Np (µ, Σ) y X = AY + b, donde A ∈ Rk×p con rk(A) = k ≤ p, entonces X ∼ Nk (Aµ + b, AΣA> ). Distribución marginal Considere la partición Y1 Y = , Y2 µ= µ1 , µ2 Σ= Σ11 Σ21 Σ12 Σ22 , donde Y 1 es vector p1 -dimensional. Entonces Y 1 ∼ Np1 (µ1 , Σ11 ). 39 / 46 Distribución normal multivariada Independencia Y 1 es independiente de Y 2 sólo si Σ12 = 0. Distribución condicional −1 Sea µ1·2 = µ1 + Σ12 Σ−1 22 (y 2 − µ2 ) y Σ11·2 = Σ11 − Σ12 Σ22 Σ21 . Entonces, Y 1 |Y 2 = y 2 ∼ Np1 (µ1·2 , Σ11·2 ) 40 / 46 Estadı́sticos de resumen Ingredientes: n observaciones y1 , . . . , yn conocidas como muestra. Sólo nos concentraremos en ella si n es diminuto. En general, nuestro interés recaerá en resúmenes de la información a través de una estadı́stica, T = T (y1 , . . . , yn ). I Momentos muestrales: Atribuyen masa n−1 a cada yj y calculan la media, varianza, etc. Algunos momentos son: y= n 1 X yj , n j=1 n 1 X (yj − y)2 n j=1 La varianza muestral s2 usa el denominador n − 1. 41 / 46 Estadı́sticos de resumen I Estadı́sticos de orden: de y1 , . . . , yn , corresponden a los valores ordenados y(1) ≤ y(2) ≤ · · · ≤ y(n) . Algunas estadı́sticas de orden son: mı́nimo muestral y(1) , máximo muestral y(n) , o la mediana ( y , n impar, mediana(yj ) = 1((n+1)/2) (y + y ), n par. (n/2) (n/2+1) 2 I Outliers: Algunas estadı́sticas de resumen son susceptibles a datos atı́picos o outliers. Si el “verdadero” y1 es reemplazado por y1 + δ, el promedio cambia de y a y + n−1 δ. Que puede ser arbitrariamente grande. Observación: se dice que la mediana es resistente mientras que el promedio no. 42 / 46 Estadı́sticos de resumen I Asimetrı́a: Una medida de la forma de la distribución es la asimetrı́a muestral estandarizada g1 = n−1 Pn {(n − 1)−1 j=1 (yj − y)3 Pn 2 3/2 j=1 (yj − y) } , Si g1 = 0 los datos son simétricos, mientras que g1 > 0 indica una cola superior pesada. I Función de distribución empı́rica: es la distribución acumulada que atribuye probabilidad n−1 a cada y1 , . . . , yn . Ésta se escribe como n 1 X I(yj ≤ y). n j=1 43 / 46 Muestra aleatoria Muestra aleatoria Supondremos y1 , . . . , yn valores observados de una muestra aleatoria de tamaño n, definida como una colección de v.a. iid Y1 , . . . , Yn . Cada Yj tiene distribución acumulada común F . Si F es conocido, podemos usar cálculo de probabilidades para deducir y estudiar sus propiedades. En la práctica, F es desconocido, y el objetivo es tratar de inferir sus propiedades desde los datos. Frecuentemente, el interés es una función no aleatoria de F , tal como la media o su q-ésimo cuantil. Z E(Y ) = y dF (y), yq = F −1 (q) = inf{y : F (y) ≥ q} 44 / 46 Parámetros y Estimador Las cantidades E(Y ), var(Y ) y F −1 (q) son llamadas parámetros, dependen de F y son generalmente desconocidos. Si F está determinado por un número finito de parámetros θ, decimos que el modelo es paramétrico, y escribimos F = F (y; θ) con función de densidad f (y; θ). Suponga que Y1 , . . . , Yn es una m.a. desde F , estaremos interesados en el parámetro θ y se utilizará el estadı́stico T = T (Y1 , . . . , Yn ) para hacer inferencias sobre θ. Llamamos a T un estimador de θ y decimos que el valor que éste asume para una muestra observada y1 , . . . , yn , esto es t(y1 , . . . , yn ) es una estimación de θ. Esto es, T es una variable aleatoria, mientras que t es un valor observado. 45 / 46 Reparametrización Distribución gama con parámetro de escala λ y parámetro de forma κ, tiene función de densidad f (y; λ, κ) = λκ κ−1 y exp(−λy), Γ(κ) y > 0, λ, κ > 0. Ésta distribución tiene media κ/λ y varianza κ/λ2 . Puede ser de interés re-escribir la densidad en términos de su media µ = κ/λ en cuyo caso, 1 κ κ κ−1 f (y; µ, κ) = y exp(−κy/µ), y > 0, µ, κ > 0. Γ(κ) µ con varianza µ2 /κ. Como funciones de y, ámbas funciones son iguales. El rango de posibles densidades es la misma para todas las reparametrizaciones 1-1 de (λ, κ).