Distribuciones de Probabilidad. Septiembre 2005 3.- Distribuciones de probabilidad Introducción Las variables aleatorias son los instrumentos matemáticos destinados a representar los resultados de un determinado experimento aleatorio. Para ello se requiere asignar a cada elemento del espacio de las muestras un número. El resultado de dicha asignación es una función matemática llamada variable aleatoria. Así, si el experimento es lanzar una moneda y observar si sale cara o cruz, podemos asignar un 1 a la cara y un 0 a la cruz y tendremos una variable aleatoria. Evidentemente esta asignación es en sí misma aleatoria, podríamos asignar cualesquiera otros dos números distintos. En muchos experimentos científicos la variable aleatoria asociada surge de manera natural. Por ejemplo si el experimento consiste en contar el número de bacterias en un cierto cultivo de hora en hora, la variable tomará como valores el número de cada recuento. Si se trata de medir la temperatura en una cierta estancia, la variable tomará los valores de dichas lecturas de temperatura. Las variables aleatorias se dividen en discretas, si toman valores discretos de un cierto conjunto, y continuas, si toman valores en un rango continuo. Como cada suceso tiene asignado un cierto valor de la variable aleatoria, es equivalente hablar de probabilidades para los sucesos y para los valores que toma la variable aleatoria. Esta asignación de probabilidades se realiza mediante una función llamada de densidad de probabilidad. Definida para variables discretas como: f(xk) = p (X=xk) También se definen las funciones de distribución, que proporcionan los valores acumulados de la probabilidad. Para variables discretas tenemos: y para variables continuas: donde f(t) es la función de densidad continua, que permite calcular probabilidades en intervalos: Distribuciones discretas Matlab proporciona las funciones necesarias para trabajar con las distribuciones discretas más comunes: binomial, geométrica, hypergeométrica, binomial negativa y de Poisson. Las distintas funciones de densidad de probabilidad de las distribuciones discretas son las siguientes: - Binomial: binopdf Geométrica: geopdf Hipergeométrica: hygepdf Binomial negativa: nbinpdf Poisson: poisspdf Por ejemplo, la función binopdf(50,100,0.5) proporciona la probabilidad para el caso de una distribución B(100,0.5), la probabilidad de obtener 50 éxitos. >> binopdf(50,100,0.5) ans = 0.0796 Las distintas funciones de distribución de probabilidad de las distribuciones discretas son las siguientes: - Binomial: binocdf Geométrica: geocdf Hipergeométrica: hygecdf Binomial negativa: nbincdf Poisson: poisscdf Por ejemplo, la función geocdf(5,0.5) proporciona la probabilidad de obtener 5 o menos éxitos en una distribución geométrica. >> geopdf(5,0.5) ans = 0.0156 Se puede obtener la media y la varianza de cada una de las anteriores distribuciones de probabilidad utilizando las siguientes sentencias: - Binomial: binostat Geométrica: geostat Hipergeométrica: hygestat Binomial negativa: nbinstat Poisson: poisstat La siguiente función, [m,d]=binostat(10,0.5), almacena en la variable m la media y en la d la varianza de la distribución binomial B(10,0.5). >> [m,d]=binostat(10,0.5) m= 5 d= 2.5000 La sintaxis de cada una de las anteriores funciones se puede consultar en la ayuda de Matlab. Probemos ahora con la distribución binomial: Vamos a establecer una binomial con 5 pruebas y probabilidad 0.3. Podemos calcular la esperanza y la varianza de la siguiente forma: >> [m,d]=binostat(5,0.3) m= 1.5000 d= 1.0500 Veamos las funciones de densidad y distribución: >> X=[0 1 2 3 4 5] X= 0 1 2 3 4 5 >> Y=binopdf(X,5,0.3) Y= 0.1681 0.0024 0.3601 0.3087 0.1323 0.0283 0.9692 0.9976 >> Y=binocdf(X,5,0.3) Y= 0.1681 1.0000 0.5282 0.8369 Vamos a representar las funciones de densidad y distribución: >> X=[0 1 2 3 4 5]; >> Y=binopdf(X,5,0.3); >> plot(X,Y,'*') >> Y=binocdf(X,5,0.3); >> plot(X,Y,'*') Probemos ahora con la distribución Binomial Negativa. Esta distribución corresponde al caso en que la variable aleatoria cuenta el número de ensayos de Bernouilli necesarios hasta obtener k éxitos. Asi, el número de pruebas realizadas es n = x + k, donde x es el numero de fracasos y k el de exitos. Para esta variable aleatoria discreta, P(X=n) es la probabilidad de obtener el éxito k en el n-ésimo ensayo, habiéndose producido k-1 éxitos durante los ensayos anteriores. Se calcula de la siguiente manera siendo p la probabilidad de obtener éxito cada prueba de Bernouilli. Asi, si p=0.3, la probabilidad de contar 5 fracasos hasta obtener 10 éxitos, no es mas que la probabilidad de que se hayan realizado 15 ensayos para obtener 10 exitos, y se calcularia con la formula anterior tomado n=15 y k=10. Procediendo de este modo se comprueba que la probabilidad calculada es de 0.0020. La funcion de dsitribucion de la binomial negativa en matlab (mirar el manual de documentacion) viene en funcion del numero de fracasos, de manera que >> a=nbinpdf(5,10,0.3) a =0.0020 nos proporciona la probabilidad de obtener 5 fracasos hasta obtener 10 exitos. En ocasiones hay que prestar atencion a la definicion que proporciona Matlab a la variable aleatoria, que puede no coincidir exactamente con las definiciones dadas en clase. Además de estas funciones, Matlab dispone de una herramienta de calculo y visualizacion, la Probability Distribution Function Tool, que realiza la representación gráfica de las funciones de probabilidad “pdf” (del ingles 'probability distribution function') y de distribución de probabilidad “cdf” (del ingles 'cumulative distribution function') de la principales distribuciones de probabilidad. Esta herramienta se abre utilizando el comando “disttool” en la ventana de Matlab: >> disttool Por defecto la ventana se abre con la distribución N(0,1) y representando la función de distribución de probabilidad. Desde el desplegable “Distribution” se podrá seleccionar la función de probabilidad que se desee estudiar, en el desplegable “Function type” se podrá seleccionar entre la función de probabilidad o la función de distribución de probabilidad. Por ejemplo, una distribución binomial con 10 experimentos y una probabilidad de éxito de 0,7 se configuraría de la siguiente forma: Como se observa en la figura hemos seleccionado la distribución binomial y la función de densidad/probabilidad para su representación. Los parámetros que definen la distribución se indican en las cajas de la parte inferior de la ventana. En particular el número de experimentos en la caja “Trials” y la probabilidad de éxito en “Prob”, el resto de campos indican los límites superior/inferior de los ejes que se representan. Otra información importante que se observa en la ventana son las coordenadas, en la parte inferior del gráfico hay una campo editable donde podemos escribir la coordenada del eje X, de forma que en la parte izquierda de la gráfica se muestra la densidad/probabilidad para este valor. Es decir, la probabilidad de obtener 5 éxitos es de 0.109292. Si seleccionamos la función de distribución obtenemos el siguiente gráfico: Las líneas rojas discontinuas se pueden mover con el puntero del ratón, de forma que el punto donde se posiciona se indica en las cajas de los ejes, de forma que indican el valor de la variable y su distribución de probabilidad (P(X<=5)=0,15027). Esto último permite el cálculo de probabilidad de forma gráfica. Para introducir un título en la gráfica, en los ejes de coordenadas o líneas, cajas, texto, etc se debe acceder a las distintas opciones que aparece en el menú “Insertar”. Son también interesantes las opciones disponibles en el menú “Tools”, desde este menú se puede aplicar zoom a la figura, aplicar una vista en 3D: Distribuciones continuas Las variables aleatorias continuas son las que pueden tomar cualquier valor de entre el infinito número de valores de un intervalo. Por este motivo resulta imposible asignar probabilidad a cada uno de los valores particulares de forma que la suma sea 1, ya que se tienen infinitos sumandos, y se ha de recurrir al concepto de integral. Como hemos dicho ya en la introducción, para una variable aleatoria continua, existe una función f(t) llamada función de densidad de probabilidad, de manera que la probabilidad de obtener valores en un intervalo viene dada por: De entre las distribuciones continuas, la distribución normal es, con mucho, la más importante de todas y, además, la mayor parte de las distribuciones continuas se deducen de combinaciones normales. Matlab dispone las funciones de densidad de las distribuciones continuas más usuales: Normal, Exponencial, chi-cuadrado, T de Student y F de Snedecor. - Normal: normpdf, normcdf, normstat Chi-cuadrado: chi2pdf, chi2cdf, chi2stat T de Student: tpdf, tcdf, tstat F de Snedecor: fpdf, fcdf, fstat Empecemos con la distribución normal, las principales funciones disponibles son: normpdf, normcdf y normstat como era de suponer. Supongamos que una variable aleatoria X sigue una distribución normal de media 5 y desviación típica 0.2. Para obtener la probabilidad a la izquierda de 4.6, es decir P(X <= 4.6) haríamos: >> a=normcdf(4.6,5,0.2) a= 0.0228 Evidentemente, la probabilidad a la izquierda de la media es 0.5: >> a=normcdf(5,5,0.2) a= 0.5000 Hagamos lo mismo utilizando la Probability Distribution Function Tool: Veamos ahora para la distribución t de Student. Definimos una t con 7 grados de libertad y calculamos la probalidad de que sea menor que 2: >> a=tcdf(2,7) a= 0.9572 Realicemos el mismo cálculo utilizando la ventana: Se pueden encontrar todas las funciones de distribución de probabilidad en la ayuda de Matlab, buscando “Supported Distributions” en el campo del Help Navigator y las disponibles en la herramienta a partir del desplegable “Distribution”. Ejercicios: 1. En un proceso de fabricacion de componentes electrónicos bajo control de calidad se sabe que la probabilidad de que aparezca un componente defectuoso es p=0.01. Si los componentes se distribuyen en cajas de 200, encontrar la probabilidad de que haya menos de 5 defectuosos en cada caja. 2. La distribución binomial se puede aproximar por una distribución de Poisson para valores grandes del numero de pruebas. Calcular la probabilidad anterior utilizando la aproximación de Poisson. Comenta el resultado. 3. Calcular la probabilidad de que entre 1000 individuos tomados al azar, exactamente 10 hayan nacido el dia de Navidad. 4. Hallar la probabilidad de que un estudiante que contesta al azar en un examen verdadero-falso conteste correctamente: a) 5 preguntas de un total de 10. b) 10 omas preguntas de un total de 20. c) Menos de 20 preguntas de un total de 40. 5. Sea X una variable aleatoria con una distribución N(0.8,2). Calcular los valores de las siguientes probabilidades: a) P(X <= 2.58); b) P(1.2<X<3.5); c) P(X>0.7) Resuelve utilizando la función normcdf, y también utilizando el disttool. 6. Hallar la probabilidad de que entre 100000 xifras elegidas al azar, la cifra 6 salga menos de 9971 veces. Este problema se puede hacer utilizando una variable aleatoria discreta o una v.a. continua. ¿Porqué? Razona tu respuesta y explica que resultado estas utilizando. 7. Sabiendo que la probabilidad de hacer blanco en un objectivo con cierto sistema de tiro es de 0.01, ¿Cuántos disparos deberán realizarse para alcanzar el objetivo al menos una vez con una probabilidad del 95%?. Y si la probabilidad de acertar es de 0.6? 8. La media de los pesos de 1000 estudiantes de una universidad es de 62.5 Kg, y la desviación típica de 6.1 Kg. Suponiendo que los pesos siguen una distribución normal, calcular el numero de estudiantes que pesan a) Entre 58 y 65 Kg. b) Mas de 74 Kg. Utiliza la función normcdf, y la herramienta disttool. 9. Un distribuidor de semillas ha determinado a partir de numerosos ensayos que el 5% de un grupo grande de semillas no germina. El distribuidor vende las semillas en paquetes de 200, garantizando una germinación del 90%. ¿ Cual es la probabilidad de que un paquete no cumpla la garantía? 10. Una prueba de laboratorio para detectar heroína en sangre tiene una precisión del 92%. Se analizan 72 muestras en un mes. ¿Cuál es la probabilidad de que: a) 60 muestras estén correctamente evaluadas? b) Menos de 60 muestras estén correctamente evaluadas? 11. En una distribución T de Student con 7 grados de libertad, a) ¿Qué punto deja a la izquierda una probabilidad de 0.95? b) ¿Qué punto deja a la derecha una probabilidad de 0.35? 12. La duración en minutos del viaje desde un hotel hasta el aeropuerto siguiendo un itinerario A sigue una distribución normal N(27,5), mientras que si se sigue el itinerario B el tiempo de llegada sigue una distribución N(30,2). Si se dispone de 34 minutos para llegar al aeropuerto, ¿Cuál de los dos itinerarios conviene utilizar? 13. Se sabe que una fuente radiactiva emite partículas alfa a un ritmo de 1.5 por minuto. Si medimos el numero de partículas en 2 minutos, ¿ Cual es el resultado promedio esperado? ¿ Cual es la probabilidad de observar x=0,1,2,3,4? ¿ Y la probabilidad de que x>5?. 14. Utilizar el disttool para comparar las distribuciones P(k) y N(k,√k) para k=10, 20, 30, 40 y 80. Calcular el area a la izquerda de k/4 en cada caso. Comenta tus resultados.