Modelos probabilísticos discretos

Anuncio
1
Introducción al Tema 7
Tema 6. Variables aleatorias unidimensionales
Distribución.
Caracterı́sticas: media, varianza, etc.
Transformaciones.
V.A. de uso frecuente
Tema 7. Modelos probabilı́sticos discretos
Uniforme discreta.
Bernoulli, binomial, geométrica y binomial negativa.
Hipergeométrica
Poisson.
Tema 8. Modelos probabilı́sticos continuos
Introducción a la Estadı́stica
Andrés M. Alonso
2
Tema 7. Modelos probabilı́sticos discretos
Los contenidos a desarrollar en este tema son los siguientes:
La distribución uniforme discreta.
Ensayos de Bernoulli.
Distribuciones binomial, geométrica y binomial negativa.
La distribución hipergeométrica.
Sucesos raros y la distribución de Poisson.
Aproximación a la binomial con p pequeño.
Lecturas recomendadas: Capı́tulo 16 del libro de Peña y Romo (1997) y las
secciones 4.5 a 4.7 de Newbold (2001).
Introducción a la Estadı́stica
Andrés M. Alonso
3
Distribución uniforme discreta
Una variable aleatoria X se dice que tiene una distribución uniforme discreta
sobre n puntos {x1, x2, . . . , xn} si su función de probabilidad es:
1
Pr(X = xi) = , para todo i ∈ {1, 2, . . . , n}.
n
Media: E[X] =
Pn
i=1 xi Pr(X
p
= xi) =
Momento de orden p: E[|X| ] =
2
2
1
n
1
n
Pn
i=1 xi
= x̄.
Pn
Varianza: V [X] = E[X ] − E [X] =
p
|x
|
.
i
i=1
1
n
Pn
2
i=1 xi
2
− x̄ =
1
n
Pn
i=1 (xi
− x̄)2.
I Si {x1, x2, . . . , xn} es a su vez una muestra aleatoria, el proceso de tomar
muestras de la variable X es lo que se conoce en la literatura como bootstrap.
I Como vemos, en ese caso, la variable X reproduce las caracterı́sticas (media,
varianza, momentos) de la muestra original.
Introducción a la Estadı́stica
Andrés M. Alonso
4
Distribución uniforme discreta - Ejemplo
Ejemplo 1. Suponga que tiramos una vez un dado no trucado. Defina una
variable aleatoria que modele el resultado de la tirada y diga su función de
masa, media y varianza.
X = i si en la tirada del dado sale el número i, con i ∈ {1, 2, 3, 4, 5, 6}.
Pr(X = i) = 1/6, es decir, todos los resultados son igualmente probables.
E[X] = 1+2+3+4+5+6
= 3,5.
6
12+22+32+42+52+62
2
V [X] =
−3,5
≈ 2,9167.
6
Introducción a la Estadı́stica
Andrés M. Alonso
5
El modelo de Bernoulli
Supongamos que hacemos un experimento simple de lanzar una vez una
moneda sesgada con p = Pr(cruz).
Definimos una variable X como
X=
1 si sale cruz
0 si sale cara
es decir que X = el número de cruces.
En este caso, se dice que X tiene una distribución de Bernoulli con
parámetro p .
Una variable con sólo dos posibles resultados (cruz / cara, éxito / fracaso, . . .)
donde se da un valor de 1 en caso de cruz (éxito) y 0 en caso de cara (fracaso)
tiene una distribución de Bernoulli. El experimento se llama un ensayo de
Bernoulli.
Introducción a la Estadı́stica
Andrés M. Alonso
6
Media y varianza de una variable Bernoulli
Sea X una variable Bernoulli con parámetro p:
E[X] = p × 1 + (1 − p) × 0
= p
2
E X
= p × 12 + (1 − p) × 02
= p
2
V [X] = E X − E[X]2
= p − p2
= p(1 − p)
p
DT [X] =
p(1 − p)
Introducción a la Estadı́stica
Andrés M. Alonso
7
Ejemplo 2. Se sabe que una máquina produce un 3 % de piezas defectuosas.
Elegimos una pieza al azar para comprobar si no presenta defectos.
¿Cómo se distribuye la variable X que vale 1 si la pieza no es defectuosa y 0
si es defectuosa?
¿Cuáles son su media y su varianza?
X sigue una distribución Bernoulli con parámetro 0,97.
Su media y varianza son
E[X] = ,97
V [X] = ,97 × ,03
= ,0291
Ejemplo tomado de Pe~
na y Romo (1997).
Introducción a la Estadı́stica
Andrés M. Alonso
8
Distribución binomial
Supongamos ahora que se repite un ensayo de Bernoulli n veces de forma
independiente. Por ejemplo, se tira n veces una moneda con p = Pr(cruz), y
que se quiere la distribución de X = el número de cruces. Esta distribución se
llama la distribución binomial con parámetros n y p.
Definición 1. Una variable X tiene distribución binomial con parámetros
n y p si
n
Pr(X = x) =
px(1 − p)n−x
x
n
n!
para x = 0, 1, . . . , n donde
= x!(n−x)!
. En este caso, se escribe
x
X ∼ B(n, p).
Por tanto, la distribución Bernoulli es el caso especial X ∼ B(1, p).
Introducción a la Estadı́stica
Andrés M. Alonso
9
Ejemplo 3. La probabilidad de que Ronaldo marque un gol de penalti es 0,8.
¿Cuál es la distribución del número de goles que marca en los siguientes 6
penaltis?
Supuestos
X ∼ B(6, 0,8)
¿Cuál es la probabilidad de que marque todos los 6 penaltis?
Pr(X = 6) =
6
6
0,86(1 − 0,8)6−6 ≈ ,262
¿Y la probabilidad de que falle por lo menos uno?
Pr(X < 6) = 1 − Pr(X = 6) = ,738
Introducción a la Estadı́stica
Andrés M. Alonso
10
Ejemplo 4. Volviendo al Ejemplo 2, supongamos que se eligen 10 piezas al
azar. Si X es el número de piezas defectuosas, ¿cuál es la distribución de X?
X ∼ B(10, 0,03)
Igualmente, si Y es el número de piezas buenas,
Y ∼ B(10, 0,97)
¿Cuál es la probabilidad de que se encuentre por lo menos una pieza defectuosa?
Pr(X ≥ 1) = 1 − Pr(X = 0)
10
0,030(1 − 0,03)10−0
= 1−
0
≈ ,263
Introducción a la Estadı́stica
Andrés M. Alonso
11
Media y varianza de una variable binomial
Teorema 1. Sea X ∼ B(n, p). Entonces,
E[X] = np
V [X] = np(1 − p)
p
DT [X] =
np(1 − p)
Demostración
Propiedades de E[·] y V [·]
Escribimos X = X1 + X2 + . . . + Xn donde cada Xi es un ensayo de Bernoulli.
E[X] = E[X1 + X2 + . . . + Xn]
= E[X1] + . . . + E[Xn] = p + . . . + p = np
V [X] = V [X1 + X2 + . . . + Xn]
= V [X1] + . . . + V [Xn] = np(1 − p).
Introducción a la Estadı́stica
Andrés M. Alonso
12
Ejemplo 5. Volvemos a con el ejemplo de Ronaldo.
El número medio de goles en 6 penaltis es
E[X] = 6 × 0,8 = 4,8
La desviación tı́pica es
p
DT [X] = 6 × 0,8 × 0,2 ≈ 0,98.
Ejemplo 6. El número medio de piezas defectuosas en una muestra de 10 es
10 × 0,03 = 0,3
La desviación tı́pica es
p
10 × 0,03 × 0,97 ≈ 0,54.
Introducción a la Estadı́stica
Andrés M. Alonso
13
Uso de tablas de la distribución binomial
Calcular directamente probabilidades binomiales a través de la fórmula puede
ser trabajoso. Más fácil es usar tablas de la distribución binomial.
En Peña y Romo (1997), se proporcionan tablas de las probabilidades de k
éxitos en una distribución binomial con n ensayos y probabilidad p de éxito:
Ejemplo 7. Sea X ∼ B(15, 0,2). Hallar Pr(X = 3) y Pr(X ≤ 3).
Pr(X = 3) = 0,2501
Pr(X ≤ 3) =
X3
x=0
Pr(X = x)
= ,0352 + ,1319 + ,2309 + ,2501
= ,6481
I Estas tablas sólo consideran el caso p ≤ 0,5. ¿Qué hacemos si p > 0,5?
Introducción a la Estadı́stica
Andrés M. Alonso
14
Distribución geométrica
Hemos visto que si se tira una moneda (con p = Pr(cruz)) n veces, entonces
el número de cruces se distribuye como binomial.
Consideramos otro experimento relacionado. Vamos a seguir tirando la moneda
hasta que veamos la primera cruz ¿Cuántas tiradas necesitamos?
Sea X el número de tiradas.
Pr(X = 1) = p
Pr(X = 2) = (1 − p)p
Pr(X = 3) = (1 − p)2p
..
..
=
Pr(X = x) = (1 − p)x−1p
La distribución de X se llama la distribución geométrica.
Introducción a la Estadı́stica
Andrés M. Alonso
15
Definición 2. Una variable X tiene una distribución geométrica con
parámetro p si
Pr(X = x) = (1 − p)x−1p
para x = 1, 2, . . .
En este caso, se escribe X ∼ G(p).
Teorema 2. Si X ∼ G(p), entonces
1
E[X] =
,
p
1−p
y
V [X] =
p2
r
1−p
DT [X] =
.
2
p
Introducción a la Estadı́stica
Andrés M. Alonso
16
Ejemplo 8. Volvemos al Ejemplo 3. Supongamos que Ronaldo está ensayando
tiros de penalti y que dejará de ensayar cuando marque por primera vez.
¿Cuál es la probabilidad de que Ronaldo marque por primera vez en su quinto
penalti?
Sea X el número de penaltis que necesita para marcar su primer gol, suponemos
que X ∼ G(0,8).
Pr(X = 5) = 0,24 × 0,8 = ,00128
¿Cuál es el número esperado de penaltis que necesita para marcar?
La esperanza de X es 1/0,8 = 1,2 penaltis.
Se irá pronto a casa ...
Introducción a la Estadı́stica
Andrés M. Alonso
17
Ejemplo 9. En el Ejemplo 2, supongamos que se inspeccionarán piezas hasta
encontrar la primera pieza defectuosa. ¿Cuál es la probabilidad de que se
necesiten inspeccionar 4 o menos piezas para encontrar la primera pieza
defectuosa?
Sea Y el número de inspecciones necesarias, suponemos que Y ∼ G(0,03).
Pr(Y ≤ 4) =
4
X
Pr(Y = y)
y=1
=
4
X
0,97y × 0,03
y=1
≈ 0,115
¿Cuál es el número esperado de inspecciones necesarias?
El número esperado de inspecciones necesarias es 1/0,03 = 33.3̇.
Introducción a la Estadı́stica
Andrés M. Alonso
18
Ejemplo 10. (Junio de 2003) Andrés y Pedro se plantean el siguiente juego:
se lanza al aire un dado equilibrado con seis caras numeradas de uno a seis. Se
considera que el jugador gana cuando el resultado del dado es cuatro o seis, y
recibe diez euros. En otro caso, no recibe nada. Cada apuesta (un lanzamiento)
es de cinco euros.
1) Si Andrés juega en cinco ocasiones, ¿cuál es la probabilidad de que acierte
a lo sumo una vez?
2) ¿Cuál es el número medio de aciertos en esas cinco ocasiones?
3) Pedro jugará tantas veces como sea necesario hasta conseguir acertar una
vez. Calcular la probabilidad de que tenga que jugar al menos tres veces.
Obtener el número medio de veces que tiene que jugar para conseguir su
objetivo.
4) ¿Cuál será el beneficio medio obtenido por cada jugador?
Introducción a la Estadı́stica
Andrés M. Alonso
19
1) Sea X el número de aciertos de Andrés.
1
X ∼ B 5,
3
1 4
2
80
1
5
=
≈ 0,329.
Pr(X = 1) =
1
3
3
243
2) El número medio de aciertos es 5 × 13 ≈ 1,67.
3) Sea Y el número de jugadas necesarios.
Y
∼ G(1/3)
Pr(Y ≥ 3) = 1 − Pr(Y < 3) = 1 − {Pr(Y = 1) + Pr(Y = 2)}
1 2 1
4
= 1−
+ ×
= = 0,44̇
3 3 3
9
1
= 3.
El número medio de jugadas necesarias es 1/3
Introducción a la Estadı́stica
Andrés M. Alonso
20
4) El beneficio medio de Andrés serı́a
5
25
E[10X] − 5 × 5 = 10 × − 25 = −
3
3
es decir que en promedio, Andrés pierde 8,33 euros.
El beneficio medio de Pedro es
10 − E[5Y ] = 10 − 5 × 3 = −5
y entonces, en promedio, Pedro pierde 5 euros.
I La estrategia de Pedro es mejor, en promedio, que la de Andrés.
Introducción a la Estadı́stica
Andrés M. Alonso
21
Distribución binomial negativa
Hemos visto que si se tira n veces una moneda con p = Pr(cruz), entonces el
número de cruces se distribuye como una binomial.
Consideramos otro experimento relacionado. Vamos a seguir tirando la moneda
hasta que obtengamos exactamente n cruces. ¿Cuántas caras (fallos) se
observan?
Sea X el número de fallos. Para que X = x se necesita que:
En las primeras x + n − 1 tiradas haya exactamente n − 1 éxitos.
La n-ésima tirada sea un éxito.
La variable X sigue una distribución binomial negativa.
Introducción a la Estadı́stica
Andrés M. Alonso
22
Definición 3. Una variable X tiene una distribución binomial negativa con
parámetros p y n si
Pr(X = x) =
n+x−1
n−1
pn(1 − p)x
para x = 0, 1, 2, . . .
En este caso, se escribe X ∼ BN (p, n).
Teorema 3. Si X ∼ BN (p, n), entonces
n(1 − p)
E[X] =
,
p
n(1 − p)
V [X] =
y
p2
s
n(1 − p)
DT [X] =
.
p2
Introducción a la Estadı́stica
Andrés M. Alonso
23
Ejemplo 11. Volvemos al Ejemplo 3. Supongamos que Ronaldo está ensayando tiros de penalti y que dejará de ensayar cuando marque 20 veces. ¿Cuál es
el número esperado de tiros que fallará antes de irse a casa?
Sea X es el número de fallos, suponemos que X ∼ BN (0,8, 20). La esperanza
de X es
20(1 − 0,8)
1/0,8 = 5 penaltis.
0,8
¿Cuál es la probabilidad de que Ronaldo tire exactamente 25 veces?
20 + 5 − 1
Pr(X = 5) =
0,820(1 − 0,8)5 = 0,1568.
20 − 1
¿Cuál es la probabilidad de que falle más de 5 veces?
X5
Pr(X > 5) = 1 − Pr(X ≤ 5) = 1 −
Pr(X = x) ≈ 0,6167
x=0
Excel: NEGBINOMDIST(núm fracasos;núm éxitos;prob éxito)
Introducción a la Estadı́stica
Andrés M. Alonso
24
Distribución hipergeométrica
Supongamos que tenemos una población de N individuos, D poseen una
caracterı́stica dada (por ejemplo, están empleados) y N − D no la poseen
(desempleados).
Consideremos el experimento de obtener una muestra simultanea de n
individuos.
Equivalentemente, podemos ir extrayendo la muestra uno a uno hasta
tener los n individuos pero no “devolvemos” los individuos a la población:
Muestreo sin reemplazamiento.
Denotamos por X el número de individuos que poseen la caracterı́stica de
interés en la muestra de n.
La variable X sigue una distribución hipergeométrica.
Introducción a la Estadı́stica
Andrés M. Alonso
25
Definición 4. Una variable X tiene una distribución hipergeométrica con
parámetros N , D y n si
D
N −D
x
n−x
Pr(X = x) =
,
N
n
con máx(0, n − N + D) ≤ x ≤ mı́n(D, n).
Teorema 4. Si X ∼ HG(N, D, n), entonces
E[X] =
I Si llamamos p =
Dn
,
N
D
N,
y
V [X] =
D(N − D)n(N − n)
.
2
N (N − 1)
−n
entonces E[X] = np y V [X] = np(1 − p) N
N −1
I ¿Qué nos recuerda el lı́mite N → ∞ de E[X] y V [X]?
I ¿Qué distribución aproxima a la HG(N, D, n) cuando N → ∞ y D/N → p?
Introducción a la Estadı́stica
Andrés M. Alonso
26
Ejemplo 12. En estudio sobre la relación entre el nivel de estudio y paro, se
realiza una encuesta de 100 personas (sin reemplazamiento) en una comunidad
con 10000 personas en edad laboral y una tasa de paro del 5 %. Sea X el
número de personas encuestadas que están en paro.
a) Proponga una distribución para X y diga su función de masa, media y
varianza.
b) Calcule la probabilidad de obtener exactamente 5 personas en paro.
a) X ∼ HG(10000, 500, 100) cuya media es 5 y la varianza es 4,7030
b)
500
9500
5
95
Pr(X = 5) =
= 0,1809.
10000
100
Si, “incorrectamente” hubiésemos utilizado una B(n = 100, p = 0,05) los
resultados habrı́an sido: Media = 5, Varianza = 4.7500, Pr(X = 5) = 0,1800.
Introducción a la Estadı́stica
Andrés M. Alonso
27
Sucesos raros y la distribución de Poisson
La distribución del número de “sucesos raros” (llamadas de teléfono, emisiones
de partı́culas radioactivos, accidentes de tráfico, número de erratas) que ocurren
en un periodo fijo del tiempo (una hora, un segundo, un año, una página) es
la llamada distribución Poisson.
Definición 5. Una variable X tiene distribución Poisson con parámetro λ
si
λxe−λ
Pr(X = x) =
para x = 0, 1, 2, . . .
x!
En este caso, se escribe X ∼ P oisson(λ).
Teorema 5. Si X ∼ P oisson(λ), entonces
√
E[X] = λ, V [X] = λ
Introducción a la Estadı́stica
y
DT [X] =
λ.
Andrés M. Alonso
28
Ejemplo 13. El número medio de erratas por transparencia es 0,2. ¿Cuál es
la probabilidad de que en una transparencia no haya erratas?
Sea X el número de erratas. Supondremos que X ∼ P oisson(0,2)
0,20e−0,2
Pr(X = 0) =
= e−0,2 ≈ 0,8187
0!
¿Y la probabilidad de que haya 2 o más erratas?
Pr(X ≥ 2) = 1 − Pr(X < 2)
= 1 − Pr(X = 0) − Pr(X = 1)
0 −0,2
1 −0,2
0,2 e
0,2 e
= 1−
+
0!
1!
≈ 1 − (0,8187 + 0,1637) = 0,0176.
Introducción a la Estadı́stica
Andrés M. Alonso
29
Teorema 6. Si X ∼ Pr(λ) es el número de sucesos raros en una unidad de
tiempo e Y representa el número de sucesos raros en un tiempo t, entonces
Y ∼ Pr(tλ).
Ejemplo 14. En promedio, hay 50 incendios serios cada año en una localidad
a) ¿Cuál es la probabilidad de que no haya ningún incendio mañana?
El número medio de incendios serios al t = año es 50.
50
≈ 0,137, y si suponemos
El número medio de incendios serios en un dı́a es 365
que el número de incendios es P oisson(0,137) tenemos que la probabilidad de
cero incendios mañana es
0,1370e−0,137
≈ 0,872.
0!
b) Dada la suposición anterior, ¿cuál es la distribución del número de incendios
en un año?
P oisson(365 × 0,137) = P oisson(50).
Introducción a la Estadı́stica
Andrés M. Alonso
30
Ejemplo 15. Volvemos al Ejemplo 13. Este tema tiene 40 transparencias
¿Cuál es el número medio de erratas en el tema?
Sea Y el número de erratas en el tema. Si X ∼ P oisson(0,2), entonces
Y ∼ P oisson(40 × 0,2) y E[Y ] = 8.
¿Cuál es la probabilidad de que el tema contengan por lo menos una errata?
Pr(Y > 0) = 1 − Pr(Y = 0)
80e−8
= 1−
0!
≈ 1 − 0,00034 = 0,99966
Ejercicio importante: Detectarla(s) antes del examen.
Introducción a la Estadı́stica
Andrés M. Alonso
31
Tablas de la distribución Poisson
Igual que con la distribución binomial, en el libro de Peña y Romo (1997) hay
tablas de la distribución Poisson para varios valores de λ.
Ejemplo 16. Si X ∼ P oisson(3). Hallar Pr(X = 2) y Pr(X ≥ 2).
Pr(X = 2) = 0,2240
Pr(X ≥ 2) = 1 − Pr(X < 2)
= 1 − Pr(X = 0) − Pr(X = 1)
= 1 − 0,0498 − 0,1494
= 0,8008
Excel: POISSON(x;media;acumulado)
Introducción a la Estadı́stica
Andrés M. Alonso
32
Aproximación de la distribución binomial mediante la
distribución Poisson
Sea X ∼ B(n, p) donde p es pequeña y n es grande. Llamemos λ = np,
x n−x
λ
n!
λ
n
x
n−x
p (1 − p)
=
1−
x
(n − x)! x! n
n
n−x
n(n − 1) . . . (n − x + 1) λx
λ
1−
nx
x!
n
n−x
n (n − 1)
(n − x + 1) λx
λ
...
1−
n n
n
x!
n
λx −λ
e .
x!
Pr(X = x) =
=
=
≈
El resultado implica que para n grande (n > 50) y p pequeño, (p < 0,1) entonces se pueden aproximar probabilidades binomiales a través de la distribución
Poisson.
Introducción a la Estadı́stica
Andrés M. Alonso
33
Aproximación de la distribución binomial mediante la
distribución Poisson
0
0
10
10
B(100, 1/100)
B(200, 1/200)
B(300, 1/200)
B(400, 1/400)
B(500, 1/500)
B(600, 1/600)
B(700, 1/700)
B(800, 1/800)
B(900, 1/900)
B(1000, 1/1000)
Poisson(1)
-50
10
-100
10
-50
10
-100
10
B(50, 0.01)
P(0.5)
B(50, 0.02)
P(1.0)
B(50, 0.03)
P(1.5)
B(50, 0.04)
P(2.0)
B(50, 0.05)
P(2.5)
B(50, 0.06)
P(3.0)
B(50, 0.07)
P(3.5)
B(50, 0.08)
P(4.0)
B(50, 0.09)
P(4.5)
B(50, 0.10)
P(5.0)
-150
10
-200
10
-250
10
-300
10
-150
10
0
10
20
Introducción a la Estadı́stica
30
40
50
0
50
100
150
Andrés M. Alonso
200
34
Ejemplo 17. Sea X ∼ B(100, 0,05). Estimar Pr(X ≤ 3).
E[X] = 100 × 0,05 = 5
Aproximando y usando las tablas de la distribución Poisson, se tiene
Pr(X ≤ 3) =
3
X
Pr(X = x)
x=0
≈ 0,0067 + 0,0337 + 0,0842 + 0,1404
= 0,2650
La solución exacta usando la distribución binomial es 0,2578, la diferencia es
0,0072.
Excel: POISSON(x;media;acumulado)
DISTR.BINOM(núm éxito;ensayos;prob éxito;acumulado)
Introducción a la Estadı́stica
Andrés M. Alonso
35
Recapitulación
Tema 7. Modelos probabilı́sticos discretos
Ensayos de Bernoulli.
Distribuciones
binomial,
geométrica y binomial negativa.
W V.A. Bernoulli y asociadas.
Distribución hipergeométrica.
W Muestreo en poblaciones
finitas.
Distribución de Poisson.
Aproximación a la binomial con p
pequeño.
Introducción a la Estadı́stica
W Modelo para contar
sucesos poco frecuentes
Andrés M. Alonso
36
Tema 7. Variables aleatorias unidimensionales
Distribución.
Caracterı́sticas: media, varianza, etc.
Transformaciones.
V.A. de uso frecuente
Tema 7. Modelos probabilı́sticos discretos X
Bernoulli, binomial, hipergeométrica, Poisson, etcétera.
Tema 8. Modelos probabilı́sticos continuos
Uniforme, exponencial, Pareto, Normal, etcétera.
Introducción a la Estadı́stica
Andrés M. Alonso
Descargar