3.- Distribuciones de probabilidad

Anuncio
Distribuciones de Probabilidad.
Septiembre 2005
3.- Distribuciones de probabilidad
Introducción
Las variables aleatorias son los instrumentos matemáticos destinados
a representar los resultados de un determinado experimento
aleatorio. Para ello se requiere asignar a cada elemento del espacio
de las muestras un número. El resultado de dicha asignación es una
función matemática llamada variable aleatoria. Así, si el experimento
es lanzar una moneda y observar si sale cara o cruz, podemos
asignar un 1 a la cara y un 0 a la cruz y tendremos una variable
aleatoria.
Evidentemente esta asignación es en sí misma aleatoria, podríamos
asignar cualesquiera otros dos números distintos. En muchos
experimentos científicos la variable aleatoria asociada surge de
manera natural. Por ejemplo si el experimento consiste en contar el
número de bacterias en un cierto cultivo de hora en hora, la variable
tomará como valores el número de cada recuento. Si se trata de
medir la temperatura en una cierta estancia, la variable tomará los
valores de dichas lecturas de temperatura.
Las variables aleatorias se dividen en discretas, si toman valores
discretos de un cierto conjunto, y continuas, si toman valores en un
rango continuo. Como cada suceso tiene asignado un cierto valor de
la variable aleatoria, es equivalente hablar de probabilidades para
los sucesos y para los valores que toma la variable aleatoria.
Esta asignación de probabilidades se realiza mediante una función
llamada de densidad de probabilidad. Definida para variables
discretas como:
f(xk) = p (X=xk)
También se definen las funciones de distribución, que proporcionan
los valores acumulados de la probabilidad. Para variables discretas
tenemos:
y para variables continuas:
donde f(t) es la función de densidad continua, que permite calcular
probabilidades en intervalos:
Distribuciones discretas
Matlab proporciona las funciones necesarias para trabajar con las
distribuciones discretas más comunes: binomial, geométrica,
hypergeométrica, binomial negativa y de Poisson.
Las distintas funciones de densidad de probabilidad de las
distribuciones discretas son las siguientes:
-
Binomial: binopdf
Geométrica: geopdf
Hipergeométrica: hygepdf
Binomial negativa: nbinpdf
Poisson: poisspdf
Por ejemplo, la función binopdf(50,100,0.5) proporciona la
probabilidad para el caso de una distribución B(100,0.5), la
probabilidad de obtener 50 éxitos.
>> binopdf(50,100,0.5)
ans =
0.0796
Las distintas funciones de distribución de probabilidad de las
distribuciones discretas son las siguientes:
-
Binomial: binocdf
Geométrica: geocdf
Hipergeométrica: hygecdf
Binomial negativa: nbincdf
Poisson: poisscdf
Por ejemplo, la función geocdf(5,0.5) proporciona la probabilidad de
obtener 5 o menos éxitos en una distribución geométrica.
>> geopdf(5,0.5)
ans =
0.0156
Se puede obtener la media y la varianza de cada una de las
anteriores distribuciones de probabilidad utilizando las siguientes
sentencias:
-
Binomial: binostat
Geométrica: geostat
Hipergeométrica: hygestat
Binomial negativa: nbinstat
Poisson: poisstat
La siguiente función, [m,d]=binostat(10,0.5), almacena en la variable
m la media y en la d la varianza de la distribución binomial B(10,0.5).
>> [m,d]=binostat(10,0.5)
m=
5
d=
2.5000
La sintaxis de cada una de las anteriores funciones se puede
consultar en la ayuda de Matlab.
Probemos ahora con la distribución binomial: Vamos a establecer una
binomial con 5 pruebas y probabilidad 0.3.
Podemos calcular la esperanza y la varianza de la siguiente forma:
>> [m,d]=binostat(5,0.3)
m=
1.5000
d=
1.0500
Veamos las funciones de densidad y distribución:
>> X=[0 1 2 3 4 5]
X=
0
1
2
3
4
5
>> Y=binopdf(X,5,0.3)
Y=
0.1681
0.0024
0.3601
0.3087
0.1323
0.0283
0.9692
0.9976
>> Y=binocdf(X,5,0.3)
Y=
0.1681
1.0000
0.5282
0.8369
Vamos a representar las funciones de densidad y distribución:
>> X=[0 1 2 3 4 5];
>> Y=binopdf(X,5,0.3);
>> plot(X,Y,'*')
>> Y=binocdf(X,5,0.3);
>> plot(X,Y,'*')
Probemos ahora con la distribución Binomial Negativa. Esta
distribución corresponde al caso en que la variable aleatoria cuenta el
número de ensayos de Bernouilli necesarios hasta obtener k éxitos.
Asi, el número de pruebas realizadas es n = x + k, donde x es el
numero de fracasos y k el de exitos.
Para esta variable aleatoria discreta, P(X=n) es la probabilidad de
obtener el éxito k en el n-ésimo ensayo, habiéndose producido k-1
éxitos durante los ensayos anteriores. Se calcula de la siguiente
manera
siendo p la probabilidad de obtener éxito cada prueba de Bernouilli.
Asi, si p=0.3, la probabilidad de contar 5 fracasos hasta obtener 10
éxitos, no es mas que la probabilidad de que se hayan realizado 15
ensayos para obtener 10 exitos, y se calcularia con la formula
anterior tomado n=15 y k=10. Procediendo de este modo se
comprueba que la probabilidad calculada es de 0.0020.
La funcion de dsitribucion de la binomial negativa en matlab (mirar
el manual de documentacion) viene en funcion del numero de
fracasos, de manera que
>> a=nbinpdf(5,10,0.3)
a =0.0020
nos proporciona la probabilidad de obtener 5 fracasos hasta obtener
10 exitos. En ocasiones hay que prestar atencion a la definicion que
proporciona Matlab a la variable aleatoria, que puede no coincidir
exactamente con las definiciones dadas en clase.
Además de estas funciones, Matlab dispone de una herramienta de
calculo y visualizacion, la Probability Distribution Function Tool, que
realiza la representación gráfica de las funciones de probabilidad
“pdf” (del ingles 'probability distribution function') y de distribución
de probabilidad “cdf” (del ingles 'cumulative distribution function') de
la principales distribuciones de probabilidad.
Esta herramienta se abre utilizando el comando “disttool” en la
ventana de Matlab:
>> disttool
Por defecto la ventana se abre con la distribución N(0,1) y
representando la función de distribución de probabilidad.
Desde el desplegable “Distribution” se podrá seleccionar la función de
probabilidad que se desee estudiar, en el desplegable “Function type”
se podrá seleccionar entre la función de probabilidad o la función de
distribución de probabilidad.
Por ejemplo, una distribución binomial con 10 experimentos y una
probabilidad de éxito de 0,7 se configuraría de la siguiente forma:
Como se observa en la figura hemos seleccionado la distribución
binomial y la función de densidad/probabilidad para su
representación.
Los parámetros que definen la distribución se indican en las cajas de
la parte inferior de la ventana. En particular el número de
experimentos en la caja “Trials” y la probabilidad de éxito en “Prob”,
el resto de campos indican los límites superior/inferior de los ejes que
se representan.
Otra información importante que se observa en la ventana son las
coordenadas, en la parte inferior del gráfico hay una campo editable
donde podemos escribir la coordenada del eje X, de forma que en la
parte izquierda de la gráfica se muestra la densidad/probabilidad para
este valor. Es decir, la probabilidad de obtener 5 éxitos es de
0.109292.
Si seleccionamos la función de distribución obtenemos el siguiente
gráfico:
Las líneas rojas discontinuas se pueden mover con el puntero del
ratón, de forma que el punto donde se posiciona se indica en las
cajas de los ejes, de forma que indican el valor de la variable y su
distribución de probabilidad (P(X<=5)=0,15027). Esto último permite
el cálculo de probabilidad de forma gráfica.
Para introducir un título en la gráfica, en los ejes de coordenadas o
líneas, cajas, texto, etc se debe acceder a las distintas opciones que
aparece en el menú “Insertar”.
Son también interesantes las opciones disponibles en el menú
“Tools”, desde este menú se puede aplicar zoom a la figura, aplicar
una vista en 3D:
Distribuciones continuas
Las variables aleatorias continuas son las que pueden tomar cualquier
valor de entre el infinito número de valores de un intervalo. Por este
motivo resulta imposible asignar probabilidad a cada uno de los
valores particulares de forma que la suma sea 1, ya que se tienen
infinitos sumandos, y se ha de recurrir al concepto de integral.
Como hemos dicho ya en la introducción, para una variable aleatoria
continua, existe una función f(t) llamada función de densidad de
probabilidad, de manera que la probabilidad de obtener valores en un
intervalo viene dada por:
De entre las distribuciones continuas, la distribución normal es, con
mucho, la más importante de todas y, además, la mayor parte de las
distribuciones continuas se deducen de combinaciones normales.
Matlab dispone las funciones de densidad de las distribuciones
continuas más usuales: Normal, Exponencial, chi-cuadrado, T de
Student y F de Snedecor.
-
Normal: normpdf, normcdf, normstat
Chi-cuadrado: chi2pdf, chi2cdf, chi2stat
T de Student: tpdf, tcdf, tstat
F de Snedecor: fpdf, fcdf, fstat
Empecemos con la distribución normal, las principales funciones
disponibles son: normpdf, normcdf y normstat como era de suponer.
Supongamos que una variable aleatoria X sigue una distribución
normal de media 5 y desviación típica 0.2. Para obtener la
probabilidad a la izquierda de 4.6, es decir P(X <= 4.6) haríamos:
>> a=normcdf(4.6,5,0.2)
a=
0.0228
Evidentemente, la probabilidad a la izquierda de la media es 0.5:
>> a=normcdf(5,5,0.2)
a=
0.5000
Hagamos lo mismo utilizando la Probability Distribution Function Tool:
Veamos ahora para la distribución t de Student. Definimos una t con
7 grados de libertad y calculamos la probalidad de que sea menor que
2:
>> a=tcdf(2,7)
a=
0.9572
Realicemos el mismo cálculo utilizando la ventana:
Se pueden encontrar todas las funciones de distribución de
probabilidad en la ayuda de Matlab, buscando “Supported
Distributions” en el campo del Help Navigator y las disponibles en la
herramienta a partir del desplegable “Distribution”.
Ejercicios:
1. En un proceso de fabricacion de componentes electrónicos
bajo control de calidad se sabe que la probabilidad de que
aparezca un componente defectuoso es p=0.01. Si los
componentes se distribuyen en cajas de 200, encontrar la
probabilidad de que haya menos de 5 defectuosos en cada
caja.
2. La distribución binomial se puede aproximar por una
distribución de Poisson para valores grandes del numero de
pruebas. Calcular la probabilidad anterior utilizando la
aproximación de Poisson. Comenta el resultado.
3. Calcular la probabilidad de que entre 1000 individuos tomados
al azar, exactamente 10 hayan nacido el dia de Navidad.
4. Hallar la probabilidad de que un estudiante que contesta al azar
en un examen verdadero-falso conteste correctamente:
a) 5 preguntas de un total de 10.
b) 10 omas preguntas de un total de 20.
c) Menos de 20 preguntas de un total de 40.
5. Sea X una variable aleatoria con una distribución N(0.8,2).
Calcular los valores de las siguientes probabilidades:
a) P(X <= 2.58); b) P(1.2<X<3.5); c) P(X>0.7)
Resuelve utilizando la función normcdf, y también utilizando el
disttool.
6. Hallar la probabilidad de que entre 100000 xifras elegidas al
azar, la cifra 6 salga menos de 9971 veces. Este problema se
puede hacer utilizando una variable aleatoria discreta o una
v.a. continua. ¿Porqué? Razona tu respuesta y explica que
resultado estas utilizando.
7. Sabiendo que la probabilidad de hacer blanco en un objectivo
con cierto sistema de tiro es de 0.01, ¿Cuántos disparos
deberán realizarse para alcanzar el objetivo al menos una vez
con una probabilidad del 95%?. Y si la probabilidad de acertar
es de 0.6?
8. La media de los pesos de 1000 estudiantes de una universidad
es de 62.5 Kg, y la desviación típica de 6.1 Kg. Suponiendo que
los pesos siguen una distribución normal, calcular el numero de
estudiantes que pesan
a) Entre 58 y 65 Kg.
b) Mas de 74 Kg.
Utiliza la función normcdf, y la herramienta disttool.
9. Un distribuidor de semillas ha determinado a partir de
numerosos ensayos que el 5% de un grupo grande de semillas
no germina. El distribuidor vende las semillas en paquetes de
200, garantizando una germinación del 90%. ¿ Cual es la
probabilidad de que un paquete no cumpla la garantía?
10. Una prueba de laboratorio para detectar heroína en sangre
tiene una precisión del 92%. Se analizan 72 muestras en un
mes. ¿Cuál es la probabilidad de que:
a) 60 muestras estén correctamente evaluadas?
b) Menos de 60 muestras estén correctamente evaluadas?
11. En una distribución T de Student con 7 grados de libertad,
a) ¿Qué punto deja a la izquierda una probabilidad de 0.95?
b) ¿Qué punto deja a la derecha una probabilidad de 0.35?
12. La duración en minutos del viaje desde un hotel hasta el
aeropuerto siguiendo un itinerario A sigue una distribución
normal N(27,5), mientras que si se sigue el itinerario B el
tiempo de llegada sigue una distribución N(30,2). Si se dispone
de 34 minutos para llegar al aeropuerto, ¿Cuál de los dos
itinerarios conviene utilizar?
13. Se sabe que una fuente radiactiva emite partículas alfa a un
ritmo de 1.5 por minuto. Si medimos el numero de partículas
en 2 minutos, ¿ Cual es el resultado promedio esperado? ¿ Cual
es la probabilidad de observar x=0,1,2,3,4? ¿ Y la probabilidad
de que x>5?.
14. Utilizar el disttool para comparar las distribuciones P(k) y
N(k,√k) para k=10, 20, 30, 40 y 80. Calcular el area a la
izquerda de k/4 en cada caso. Comenta tus resultados.
Descargar