3.2 Distribuciones de probabilidad

Anuncio
DISTRIBUCIONES DE PROBABILIDAD.
DISTRIBUCIÓN DE PROBABILIDAD BINOMIAL.
En estadística, la distribución binomial es una distribución de probabilidad discreta que
mide el número de éxitos en una secuencia de n ensayos independientes de Bernoulli con
una probabilidad fija “p” de ocurrencia del éxito entre los ensayos.
Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, sólo son posibles
dos resultados. A uno de éstos se denomina éxito y tiene una probabilidad de ocurrencia “p”
y al otro, fracaso, con una probabilidad q = 1 - p. En la distribución binomial el experimento
se repite n veces, de forma independiente, y se trata de calcular la probabilidad de un
determinado número de éxitos. Para n = 1, la binomial se convierte, de hecho, en una
distribución de Bernoulli.
Características de la distribución binomial:
•
•
•
•
En cada prueba del experimento sólo son posibles dos resultados: el suceso A (éxito)
y su contrario B (fracaso).
El resultado obtenido en cada prueba es independiente de los resultados obtenidos
anteriormente.
La probabilidad de éxito “p” y la probabilidad de fracaso “q” son constantes.
El experimento consta de un número n de pruebas.
Todo experimento que tenga estas características diremos que sigue el modelo de la
distribución binomial. A la variable x que expresa el número de éxitos obtenidos en cada
prueba del experimento, la llamaremos variable aleatoria binomial.
La probabilidad en una distribución de probabilidad binomial se puede obtener con el
siguiente modelo matemático.
Donde:
P( x = k ) = C n p k q n −k
k
Media µ = np
x es la variable aleatoria.
k es el número de éxitos.
n es el número de ensayos.
Varianza σ 2 = npq
Desviación estándar.
σ = npq
p es la probabilidad de éxito.
q es la probabilidad de fracaso q=1-p
Ejemplos resueltos.
Ejemplo 1.
1.- ¿Cuál es la probabilidad de obtener seis águilas al lanzar una moneda diez veces?
x= es que salga águila en la moneda.
P ( x = k ) = C n p k q n −k
k
k es el número de éxitos = 6
6
10−6
P( x = 6) = C10
6 (0.5) (0.5)
n es el número de ensayos= 10
P( x = 6) = ( 210)(0.01562 )(0.0625) = 0.2050
p es la probabilidad de éxito= 0.5
q es la probabilidad de fracaso q=1- 0.5=0.5
Ejemplo 2.
Hallar la probabilidad de que en cinco lanzamientos de un dado el número tres aparezca
cuatro veces.
x= es que aparezca el número 3.
P( x = k ) = C nk p k q n −k
k es el número de éxitos = 4
P( x = 4) = C 54 (0.16) 4 (0.84) 5−4
n es el número de ensayos= 5
P ( x = 4) = (5)(0.00065)(0.84) = 0.027
1
p es la probabilidad de éxito= = 0.16
6
q es la probabilidad de fracaso q= 1- 0.16=0.84
Ejemplo 3.
El 20% de los focos producidos por una máquina son defectuosos, determinar la probabilidad
de que al elegir cuatro focos al azar dos de ellos estén defectuosos.
x= Número de focos defectuosos.
P( x = k ) = C nk p k q n −k
k es el número de éxitos = 2
n es el número de ensayos= 4
P( x = 2) = C 42 (0.2) 2 (0.8) 4−2
p es la probabilidad de éxito= 20% = 0.2
P ( x = 4) = (6)(0.04)(0.64) = 0.1536
q es la probabilidad de fracaso q= 1-0.2=0.8
DISTRIBUCIÓN DE PROBABILIDAD DE POISSON.
La distribución de Poisson, se aplica a varios fenómenos discretos de la naturaleza (esto es,
aquellos fenómenos que ocurren 0, 1, 2, 3 ...n veces durante un periodo definido de tiempo o
en un área determinada) cuando la probabilidad de ocurrencia del fenómeno es constante en
el tiempo o el espacio. Ejemplos de estos eventos que pueden ser modelados por la
distribución de Poisson incluyen:
•
•
•
•
•
El número de autos que pasan a través de un cierto punto en una ruta durante un
período definido de tiempo.
El número de errores de ortografía que uno comete al escribir una página.
El número de llamadas telefónicas en una central telefónica por minuto.
El número de animales muertos encontrados por unidad de longitud de ruta.
El número de estrellas en un determinado volumen de espacio.
Características de los procesos que producen una distribución de probabilidad de
Poisson.
• El promedio (la media) del número de eventos que se producen por hora, puede
estimarse a partir de datos que se tengan disponibles.
• Si dividimos la hora pico en periodos (intervalos) de un segundo cada uno,
encontraremos que las siguientes afirmaciones son verdaderas:
• La probabilidad de que exactamente un evento ocurra por segundo es muy pequeña y
es constante para cada intervalo de un segundo.
• La probabilidad de que dos o más eventos ocurran en un intervalo de un segundo es
tan pequeña que le podemos asignar un valor cero.
• El número de eventos que ocurren en un intervalo de un segundo es independiente
del tiempo en que dicho intervalo se presente en la hora pico.
• El número de eventos en un intervalo de un segundo no depende del número de
ocurrencias en cualquier otro intervalo de un segundo.
La distribución de Poisson se puede determinar por medio de la siguiente fórmula.
e −λt (λt ) x
x!
Pero como λt = media µ
P( x ) =
µ = λt
ó µ = np
De tal manera que:
−µ
e (µ) x
P( x ) =
x!
Media µ = µ
Varianza σ 2 = µ
Donde:
x es el número de ocurrencias.
e es la base de los logaritmos (2.7182)
λ es la razón media por unidad.
t es el número de unidades.
n es el tamaño de la muestra.
p es la probabilidad del evento.
Desviación estándar σ = µ
La distribución de Poisson como una aproximación a la distribución binomial.
La distribución de Poisson puede tener una aproximación a la distribución binomial, pero
sólo bajo ciertas condiciones. Tales condiciones se presentan cuando n es grande y p es
pequeña, esto es, cuando el número de ensayos es grande y la probabilidad binomial de
tener éxito es pequeña. La regla que utilizan con más frecuencia los estadísticos es que la
distribución de Poisson es una buena aproximación de la distribución binomial cuando n es
igual o mayor que 20 y p es igual o menor que 5%( 0,05). En los casos en que se cumplen
estas condiciones, podemos sustituir la media µ = np
Ejemplos resueltos.
Ejemplo 1.
Mediante un proceso mecánico se producen alfombras de buena calidad que presentan un
promedio de 2 defectos por m2. Determinar la probabilidad de que en 1 m2 exista sólo un
defecto.
x es el número de incidencias= 1 defecto.
Media µ = 2
−µ
e (µ ) x
P( x) =
x!
2
=1
=
1!
0.1353 2
= 0.2706
=1
1
Ejemplo 2.
Al puerto de Acapulco arriban a una razón media ( λ ) de 2 bar cos hora , si se observa este
proceso durante un periodo t= 1/ 2 hora encuentre la probabilidad de que arriben 3 barcos en
la siguiente media hora.
λ = 2 bar cos hora
t=
1
hora
2
1
µ = λt = ( 2)( ) = 1
2
P( x ) =
e
−µ
(µ) x
x!
Sustituimos datos.
P( x = 3bar cos) =
e −1 (1) 3
3!
P( x = 3bar cos) =
(0.3678)(1)
= 0.0613
6
DISTRIBUCIÓN DE PROBABILIDAD NORMAL.
Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio
nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que
ciertos fenómenos tienden a parecerse en su comportamiento a este tipo de distribución.
La importancia de la distribución normal se debe principalmente a que hay muchas variables
asociadas a fenómenos naturales que siguen el modelo de la normal.
•
Caracteres morfológicos de individuos, animales o plantas de una especie. por
ejemplo: Tallas, pesos, envergaduras, diámetros, perímetros, entre otras.
•
Caracteres fisiológicos, por ejemplo; efecto de una misma dosis de un fármaco, o de
una misma cantidad de abono.
•
Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo
de individuos,
•
puntuaciones de un examen.
•
Caracteres psicológicos, por ejemplo; coeficiente intelectual, grado de adaptación a un
medio.
La gráfica de una distribución normal se asemeja mucho a la forma de una campana. Por ello
es posible aproximarla a una distribución matemática conocida con el nombre de distribución
de Gauss.
Una característica muy importante es que una distribución normal es posible especificarla de
manera amplia por medio de 2 parámetros; la media y la desviación estándar. Otra cosa
importante es que la probabilidad de que una variable aleatoria tenga un valor entre dos
puntos cualesquiera es igual al área bajo la curva normal entre esos dos puntos.
Propiedades importantes de la curva normal.
a) Tiene forma de campana.
b) Es simétrica con respecto a la media.
c) Se extiende de − ∞ hasta ∞ .
d) El área bajo la curva normal es igual a 100% ó a 1.
e) Cada distribución normal está completamente especificada por su media y su desviación
estándar, dada por:
Donde:
Z=
x −µ
σ
x Es algún valor de la variable en estudio.
µ Es la media de la distribución normal.
σ Es la desviación estándar.
Z Es el número de desviaciones estándar a partir de la media.
0.5
-3
-2
-1
0.5
0
1
2
3
Valores de Z
Pasos para resolver este tipo de problemas.
1. Tipificar el valor de la variable “x” en estudio a un valor de Z.
2. Si existen 2 valores de “x” a analizar, encontrar el valor de Z1 y Z2.
3. Hallar el área bajo la curva utilizando la tabla que está en el anexo 1.
Nota:
Si nos piden que el valor de “x” sea mayor a algún valor, entonces el área bajo la curva es
hacia la derecha del valor de z.
Si nos piden que el valor de “x” sea menor a algún valor, entonces el área bajo la curva es
hacia la izquierda del l valor de z.
Si nos piden que el valor de “x” este entre dos valores, entonces el área bajo la curva es la
que esté comprendida entre Z1 y Z2.
Ejemplos resueltos.
Ejemplo 1.
La media de los pesos de un grupo de estudiantes de bachillerato se distribuye en forma
normal con una media µ = 65 Kg y una desviación estándar de 5 Kg. Hallar la probabilidad
de que al seleccionar a un estudiante al azar su peso sea mayor a 70Kg.
x =peso sea mayor a 70Kg.
µ = 65Kg
σ = 5Kg
Z=
x −µ
σ
Z=
70 − 65 5
= =1
5
5
.3413
P(x>70Kg)=?
El área buscada es la zona sombreada, en la que de acuerdo a la tabla del anexo 1 el área
de z=o a z=1 es igual a 0.3413, por lo que el área sombreada es igual a 0.5-0.3413=
0.1587 Entonces la probabilidad P(x>70Kg)=0.1587
Ejemplo 2.
En una ciudad se estima que la temperatura máxima en el mes de junio (30 días) tiene una
distribución normal, con media 23° y desviación est ándar de 5°. Calcular el número de días
del mes en los que se espera alcanzar una temperatura máximas entre 21° y 27°.
x =temperatura alcanzada.
P(21°C < x < 27°C)=?
µ = 23°C
σ = 5°C
Z=
x −µ
σ
Z1 =
21 − 23 − 2
=
= −0.4
5
5
Z2 =
27 − 23 4
= = 0.8
5
5
Área de z=0 a z=-0.4 es 0.1554
Área de z=0 a z=0.8 es 0.2881
Área buscada=0.1554+0.2881=0.4435
P(21°C < x <27°C)=0.4435 x 30 días = 13 dias.
Ejemplo 3.
Se supone que los resultados de un examen siguen una distribución normal con media µ
78 y varianza σ 2 =36. ¿Cuál es la probabilidad de que una persona que se presenta el
examen obtenga una calificación superior a 72?
x =Resultado del examen.
P(x>72puntos)
µ = 78puntos
σ 2 = 36puntos σ = 36 =6
Z=
x −µ
σ
72 − 78 − 6
Z=
=
= −1
6
6
Mayor
Área de z=0 a z=-1 es 0.3413
Área buscada= 0.5+0.3413=0.8413
P(x>72puntos)=0.8413
Ejemplo 4.
Un fabricante de sobres de correo sabe por experiencia que el peso de los sobres está
distribuido normalmente con media de µ =1.95gr y una desviación estándar de 0.3gr. ¿Cuál
es la probabilidad de que un sobre elegido al azar pese menos de 1.5gr?
x =Peso del sobre.
P(x<1.5gr)
µ = 1.95gr
σ = 0.3gr
Z=
x −µ
σ
Z=
1.5 − 1.95 − 0.45
=
= −1.5
0.3
0.3
Menor
Mayor
Área de z=0 a z=-1.5 es 0.4332
Área buscada= 0.5-0.4332=0.0668
P(x<1.5gr)=0.0668
CON MUESTRAS PEQUEÑAS (distribución t Student).
Si la muestra es pequeña n<30, la estimación de los intervalos de confianza se deberá de
realizar por medio de otra distribución continua llamada distribución t, esta distribución
también tiene forma de campana, pero sus colas son un poco más elevadas, su forma
depende de un parámetro llamado grados de libertad, que es n-1, esto es el tamaño de la
muestra menos uno.
Distribución t- Student
La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba
en una fábrica de cerveza, Guinness, que prohibía a sus empleados la publicación de
artículos científicos debido a una difusión previa de secretos industriales. De ahí que Gosset
publicase sus resultados bajo el seudónimo de Student.
En probabilidad y estadística, la distribución t (de Student) es una distribución de
probabilidad que surge del problema de estimar la media de una población normalmente
distribuida cuando el tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las
diferencias entre dos medias muestrales y para la construcción del intervalo de
confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce
la desviación típica de una población y ésta debe ser estimada a partir de los datos de una
muestra.
El teorema del límite central mencionado anteriormente, hace referencia a que la distribución
de la media muestral x era aproximadamente normal con media µ (media de la población) y
varianza
(σ es la varianza de la población y n el tamaño de la muestra).
También que el estadístico z se obtiene con
Z=
x −µ
σ
En la generalidad de los casos, no disponemos de la desviación estándar de la
población, sino de una estimación calculada a partir de una muestra extraída de la
misma y por tal razón no es posible calcular Z. Sin embargo, si utilizamos una
estimación de
y n es pequeño (n˂30) entonces z no tendrá una distribución normal, en
tales circunstancias se presenta la distribución t de student , que es una distribución de
probabilidad que surge del problema de estimar la media de una población normalmente
distribuida cuando el tamaño de la muestra es pequeño.
CARACTERISTICAS DE LA DISTRIBUCION t DE STUDENT
1.-El valor de la media es cero.
2.-Tiene forma de campana (como una distribución normal) y es simétrica con respecto a la
media. La distribución t es más ancha y más plana en el centro que la distribución normal,
como resultado de ello, se tiene una mayor variabilidad en las medias de muestras
calculadas a partir de muestras más pequeñas.
Comparación entre las distribuciones normal (N) y distribución (t)
3.-La distribución t tiene una varianza mayor que 1, pero en la medida en que aumentan los
grados de libertad, el valor de la varianza se aproxima a 1, lo cual lleva a que la distribución t
se aproxime a la distribución normal estándar; es decir, en la medida en que aumenta el
tamaño de la muestra. Por eso es que la distribución t student se utiliza para muestras
pequeñas y la distribución normal, para muestras grandes.
En el anexo 2 se pueden observar los valores de t correspondientes a los valores de
t α = t0.05, t0.025, t0.001 y t0.005 que corresponden a los grados de confianza del 90%, 95%,
2
98% y 99% respectivamente.
Analicemos el siguiente ejemplo.
Un laboratorio realizo un estudio del nivel de morfina de 20 pastillas producida por otro
laboratorio. Se considera un intervalo de confianza del 95%.
La siguiente tabla nos muestra la cantidad de morfina contenida en cada una de las pastillas.
22.5
28.1
24.6
23.9
26
23.6
23.4
24.7
25.2
27
26.7
24.3
24.5
22.7
23.6
24.1
25.8
27.3
24.8
25.2
Obtenemos la media aritmética de la muestra:
x=
∑ xi
n
x=
498
20
x = 24.9mg
Posteriormente obtenemos la desviación estándar de la muestra:
s=
2
∑ (x − x )
n −1
s=
(225 − 24.9)2 + ... + (25.2 − 24.9)
19
s = 1.53mg
Vamos a determinar el intervalo de confianza del 95%.
Buscamos en la tabla de valores de t el cociente de 0.05 / 2 = 0.025, en el renglón que
corresponde a 19 grados de libertad (n-1). Por lo tanto el valor de t= 2.093, por lo que el
intervalo de confianza para 95% es:
x − tα •
2
s
s
< µ < x + tα •
2
n
n
Sustituyendo los valores:
24.9 − 2.093 •
1.53
1.53
< µ < 24.9 + 2.093 •
20
20
24.9 − 0.72 < µ < 24.9 + 0.72
24.18 < µ < 25.62
Por tanto, con un nivel de confianza del
95% , el nivel medio de morfina está
entre 24.18 y 25.62mg, o bien, que al
estimar el nivel medio de morfina como
24.9 miligramos con un grado de
confianza del 95%.el error es menor a
0.72mg.
Descargar