Ignacio Cascos Fernández Departamento de Estadı́stica Universidad Carlos III de Madrid Modelos de distribuciones discretas y continuas Estadı́stica I — curso 2008–2009 1. Distribuciones discretas Aquellas que están asociadas a variables aleatorias discretas. Distribución degenerada. Una variable aleatoria X es degenerada en un valor real a ∈ R si toma dicho valor con probabilidad 1, es decir P (X = a) = 1, su media y varianza son entonces obvias a partir de resultados del tema anterior, E[X] = a ; var[X] = 0. 1.1. 1.1.1. Proceso de Bernoulli Modelos principales asociados al proceso de Bernoulli Distribución de Bernoulli, B(1, p). Una variable aleatoria X sigue distribución de Bernoulli de parámetro p ∈ (0, 1) y se denota X ∼ B(1, p) si describe el número de éxitos en una realización de un experimento que tiene probabilidad de éxito p (probabilidad de fracaso 1 − p). Toma valores en {0, 1}. P (X = 1) = p ; P (X = 0) = 1 − p ; E[X] = p ; var[X] = p(1 − p). 1 Distribución Binomial, B(n, p). Una variable aleatoria X sigue distribución Binomial de parámetros n ∈ N y p ∈ (0, 1) y se denota X ∼ B(n, p) si describe el número de éxitos en n realizaciones independientes de un experimento que tiene probabilidad de éxito p (probabilidad de fracaso 1 − p). Puede tomar cualquier valor en {0, 1, . . . , n}. Si k ∈ {0, 1, . . . , n}, se cumple n k P (X = k) = p (1 − p)n−k ; k E[X] = np ; var[X] = np(1 − p). Propiedad. Las distribuciones binomiales son reproductivas de parámetro n, es decir, dadas dos variables aleatorias X ∼ B(n1 , p) e Y ∼ B(n2 , p) independientes, se cumple X + Y ∼ B(n1 + n2 , p). A partir de este resultado es inmediato que una variable aleatoria X ∼ B(n, p) puede descomponerse en una suma de n variables aleatorias independientes de Bernoulli de parámetro p. Distribución Geométrica o de Pascal, Ge(p). Una variable aleatoria X sigue distribución Geométrica de parámetro p ∈ (0, 1) y se denota X ∼ Ge(p) si describe el número de realizaciones independientes de un experimento necesarias hasta obtener el primer éxito, siendo p la probabilidad de éxito en una realización del experimento (probabilidad de fracaso 1−p). Puede tomar como valor cualquier número natural, {1, 2, . . .}. Si k ∈ {1, 2, . . .}, se cumple P (X = k) = (1 − p)k−1 p ; E[X] = 1.1.2. 1 ; p var[X] = 1−p . p2 Otros modelos asociados al proceso de Bernoulli Distribución Binomial Negativa, BN(r, p). Una variable aleatoria X sigue distribución Binomial Negativa de parámetros r ∈ N y p ∈ (0, 1) y se denota X ∼ BN(r, p) si describe el número de fracasos de un experimento antes del r-ésimo éxito, siendo las realizaciones del experimento independientes y en cada una de ellas p la probabilidad de éxito (probabilidad de 2 fracaso 1 − p). Puede tomar cualquier valor entero mayor o igual que cero, {0, 1, 2, . . .}. Si k ∈ {0, 1, 2, . . .}, se cumple r+k−1 r P (X = k) = p (1 − p)k ; r−1 E[X] = r(1 − p) ; p var[X] = r(1 − p) . p2 Distribución Hipergeométrica, H(N, n, D/N ). Una variable aleatoria X sigue distribución Hipergeométrica de parámetros N ∈ N, n ∈ N con n ≤ N y D/N con D ∈ N, D ≤ N y se denota X ∼ H(N, n, D/N ) si describe el número de individuos que tienen una cierta caracterı́stica en n observaciones sin reemplazamiento en una población de N individuos de entre los que D tienen la caracterı́stica (N − D no tienen la caracterı́stica). Puede tomar cualquier valor entero mayor o igual que máx{0, n + D − N } y menor o igual que mı́n{n, D}. Si máx{0, n + D − N } ≤ k ≤ mı́n{n, D}, se cumple D N −D k P (X = k) = E[X] = n 1.2. D ; N var[X] = n × n−k N n ; D N −D N −n × × . N N N −1 Proceso de Poisson Distribución de Poisson, P(λ). Una variable aleatoria X sigue distribución de Poisson de parámetro λ > 0 y se denota X ∼ P(λ) si representa el número de eventos ocurridos independientemente y a velocidad constante o con intensidad constante en un tiempo o región fija. Puede tomar cualquier valor entero mayor o igual que cero, {0, 1, 2, . . .}. Si k ∈ {0, 1, 2, . . .}, se cumple λk −λ e ; k! var[X] = λ. P (X = k) = E[X] = λ ; Propiedad. Las distribuciones de Poisson son reproductivas, es decir, dadas X ∼ P(λ1 ) e Y ∼ P(λ2 ) independientes, se cumple X + Y ∼ P(λ1 + λ2 ). 3 2. Distribuciones continuas Aquellas que están asociadas a variables aleatorias continuas. Distribución Uniforme, U(a, b). Una variable aleatoria X sigue distribución uniforme de parámetros a < b y se denota X ∼ U(a, b) si toma valores en el intervalo (a, b) según la siguiente función de densidad, 1 si x < a 0 si x ∈ (a, b) x−a b−a si a ≤ x < b ; fX (x) = ; FX (x) = 0 si x ∈ / (a, b) b−a 1 si x ≥ b E[X] = 2.1. a+b ; 2 var[X] = (b − a)2 . 12 Proceso de Poisson Distribución Exponencial, Exp(λ). Una variable aleatoria X sigue distribución exponencial de parámetro λ > 0 y se denota X ∼ Exp(λ) si toma valores positivos según la siguiente función de densidad, −λx λe si x > 0 0 si x < 0 fX (x) = ; FX (x) = ; −λx 0 si x ≤ 0 1−e si x ≥ 0 E[X] = 1 ; λ var[X] = 1 . λ2 Propiedad. Las distribución exponencial no tiene memoria, es decir dada X ∼ Exp(λ) y t1 , t2 > 0, P (X > t1 + t2 |X > t1 ) = P (X > t2 ). 4 2.2. Distribución Normal Distribución Normal, N(µ, σ). Una variable aleatoria X sigue distribución normal de media µ y desviación tı́pica σ y se denota X ∼ N(µ, σ) si toma valores en toda la recta real, según la siguiente función de densidad, (x−µ)2 1 fX (x) = √ e− 2σ2 . σ 2π No podemos dar de forma explı́cita ninguna primitiva de esta función, por lo R x tanto la función de distribución sólo podemos describirla como FX (x) = f (t)dt. −∞ X E[X] = µ ; var[X] = σ 2 . Llamamos normal tipificada o estándar a la normal de media 0 y desviación tı́pica 1, N(0, 1). Propiedad. Dados a, b ∈ R y X una variable aleatoria tal que X ∼ N(µ, σ), entonces la variable aleatoria aX + b sigue distribución normal, más concretamente aX + b ∼ N(aµ + b, |a|σ). Utilizando esta propiedad podemos tipificar cualquier variable aleatoria normal, se cumple X−µ ∼ N(0, 1). σ Propiedad. Si X ∼ N(0, 1) y FX es su función de distribución, por la simetrı́a de la distribución normal, se cumple que para cualquier x ∈ R, FX (−x) = 1 − FX (x). Propiedad. La suma de dos variables aleatorias normales independientes sigue distribución normal. Ası́, si X ∼ N(µ1 , σ1 ) e Y ∼ N(µ2 , σ2 ) son independientes, entonces q 2 2 X + Y ∼ N µ1 + µ2 , σ1 + σ2 . Teorema Central del Lı́mite. Si X1 , X2 , . . . , Xn son n variables aleatorias independientes e idénticamente distribuidas con media µ √ y desviación Pn tı́pica σ, entonces, entonces X se aproxima a una N(nµ, σ n), equivai i=1 Pn √ lentemente i=1 Xi /n se aproxima a una N(µ, σ/ n). La aproximación es buena si n ≥ 30. 5 Corrección por continuidad. Si aplicamos el Teorema Central del Lı́mite a variables aleatorias discretas con valores enteros, mientras que X1 + X2 + . . . + Xn es discreta (y toma valores enteros), la normal es continua. Ası́, para aproximar la probabilidad de X1 + X2 + . . . + Xn ≤ a donde a ∈ N, calculamos FN(nµ,σ√n) (a + 1/2). Aproximación Binomial-Normal. Si n ≥ 30 y np(1 p − p) > 5, podemos aproximar una binomial B(n, p) por una normal N(np, np(1 − p)). Observa que una binomial se puede construir como suma de variables de Bernoulli independientes. Aproximación Poisson-Normal. La distribución de Poisson surge como lı́mite e la Binomail cuando el número de experimentos tiende a infinito. Por tanto, si λ > 5, podemos aproximar una Poisson P(λ) por una normal √ N(λ, λ). 2.3. Distribuciones relacionadas con la normal Distribución χ2 de Pearson, χ2n . Si X1 , X2 , . . . , Xn son n variables aleatorias independientes con distribución N(0, 1), entonces Y = X12 + X22 + . . . + Xn2 sigue distribución chi-cuadrado de Pearson con n grados de libertad, Y ∼ χ2n . Una variable aleatoria con distribución chi-cuadrado sólo toma valores positivos. E[Y ] = n ; var[Y ] = 2n. Distribución t de Student, tn . Si X e Y son dos variables aleatorias independientes, de tal modo que X sigue una distribución normal estándar e Y sigue distribución chi-cuadrado con n grados de libertad, entonces X Z=p Y /n sigue distribución t con n grados de libertad, Z ∼ tn . Una variable aleatoria con distribución t toma valores en toda la recta real. n E[X] = 0 ; var[X] = si n ≥ 3. n−2 6 Distribución F de Fisher-Snedecor, Fn1 ,n2 . Si X e Y son dos variables aleatorias independientes, de tal modo que X sigue una distribución chicuadrado con n1 grados de libertad e Y sigue distribución chi-cuadrado con n2 grados de libertad, entonces Z= X/n1 Y /n2 sigue distribución F con n1 y n2 grados de libertad, Z ∼ Fn1 ,n2 . Una variable aleatoria con distribución F sólo toma valores positivos. 7