Distribuciones de Probabilidad El estudio sistemático de las probabilidades para aplicarlas a la estadística tiene que ver principalmente con la organización y análisis de datos. Con el análisis de esos datos, probablemente experimentales, se busca la toma de decisiones razonables, basadas en gran medida en las conclusiones que se hayan obtenido de esos datos. Para poder analizar los datos es necesario entenderlos y conocer sus características. La mayor parte de las veces estas características están reflejadas por lo que llamaremos la distribución de probabilidad, ésta puede ser un modelo teórico o un modelo empírico. En esta sección estudiaremos los conceptos de distribuciones de probabilidad teóricos que son modelos matemáticos que caracterizan comportamientos teóricos de datos. Aunque los datos de la vida real no tienen porqué apegarse a uno de estos modelos teóricos, lo cierto es que en general las aproximaciones que pueden hacerse con estos modelos matemáticos resultan suficientes. Preliminares Es importante, antes de hablar sobre los tipos de distribución hacer un repaso de algunos términos que se utilizan con frecuencia en esta sección. Recordemos que llamamos espacio muestral al conjunto de todos los posibles resultados de un experimento. Un espacio muestral puede ser finito o infinito numerable, o puede ser continuo. Una variable aleatoria es una función de un espacio muestral a los reales, es decir una regla que asigna un único valor real a cada evento del espacio muestral. Si el espacio muestral es finito o discreto entonces la variable se llama variable aleatoria discreta y si es continuo se llama variable aleatoria continua. Una distribución de probabilidad es una función que permite asignar un valor de probabilidad a cada evento del espacio muestral de un experimento. Las distribuciones de probabilidad se dividen en dos casos acorde con las características de la variable aleatoria, discretas o continuas. Definiciones Básicas La propiedad más importante de una variable aleatoria es la distribución de probabilidad. Si bien no existe una definición exacta de lo que es una distribución de probabilidad si hay consenso en las propiedades que debe cumplir. Si X es una variable aleatoria discreta con rango RX = {x1, x2, x3,...}, una distribución de probabilidad para X es una función, fX, del Rango(X) a los reales. fX : Rango(X) 1. fX(xi) 2. , que cumple: 0, xi Rango(X), fX(x) = 1. En general se aceptan ciertas convenciones de notación. Si X es una variable aleatoria y x es un número real se escribe: X = x, para referirse al evento { : X( ) = x}, similarmente se usa la notación X x, para referirse al evento { : X( ) x}, Si X es una variable aleatoria discreta se puede definir su función de distribución de probabilidad por: fX(x) = P[X = x]. (3.1) Ejemplo 13 Se tiene una caja que contiene 4 bolillas rojas y tres verdes y se empiezan a extraer bolillas, sin reemplazo, hasta obtener una bolilla roja. Sea X la variable aleatoria que indica el número de bolillas que se extraen, tenemos lo siguiente. El espacio muestral para el experimento es roja, verde - verde - verde - roja} = {roja, verde - roja, verde - verde - Los valores que toma X son Una distribución de probabilidad en este ejemplo, fundamentada en asumir que toda bolilla tiene la misma probabilidad de ser tomada, es: Una distribución de probabilidad asigna probabilidades a cada uno de los eventos simples del espacio muestral. Existe otro concepto importante que tiene que ver con el siguiente problema. Dado un espacio muestral , una variable aleatoria discreta definida sobre y un valor x, tiene sentido el calcular la probabilidad de que ocurra alguno de los valores que son menores o iguales a x. En el ejemplo anterior podrá resultar importante responder a cuál es la probabilidad de que haya que hacer dos o menos extracciones para obtener una bolilla roja. En este caso el valor solicitado es la probabilidad de que haya que hacer una o dos extracciones para obtener una bolilla roja. Aplicando el principio de la suma se obtiene que: P[X 2] = P[X = 1] + P[X = 2] = + = . Por ejemplo para el caso anterior se tiene que FX(x) cumple FX(x) = P[X x] = Ejemplo 14 Se tira un dado que no está cargado, hasta que se obtenga un uno. Si denotamos por Z la ocurrencia de un uno y por W la no ocurrencia, el espacio muestral tiene la forma {Z,WZ, WWZ, WWWZ,...}. Si X es el número de lanzamientos los posibles valores para X son {1, 2, 3, 4...} y la función de probabilidad para X tiene la forma: fX(x) = Para el cálculo de de la función de densidad de masa debe calcularse el valor de: P[X x] = De acuerdo a esta última función se tiene que la probabilidad de que se deban hacer 1,2 o 3 lanzamientos antes de obtener un 1 es de 0.4211 Las siguientes reglas se obtienen de manera directa de la definición 13 y de las propiedades de las probabilidades. P[a b] = F(b) - F(a), X - X < b] = F(b ) - F(a), P[a P[a < X + b] = F(b) - F(a ). Como se ha dicho anteriormente una variable aleatoria es continua si cumple que al poder alcanzar cualquier par de valores a < b reales entonces puede alcanzar cualquier valor que esté en el intervalo [a, b]. En el caso de variables aleatorias continuas se tienen las siguientes definiciones: Si X es una variable aleatoria continua una distribución de probabilidad para X es una función fX que cumple las siguientes propiedades: 1. fX(x) 0 x. 2. Si a < b se tiene P[a 3. fX(x) dx=1. X b] = fX(x) dx. 4. FX(x)=P[X x] = fX(t) dt. De acuerdo a esta definición se tiene que: (3.2) P[a X b] = F(b) - F(a), P[X = b] = 0. (3.3) Por ejemplo, si una variable aleatoria continua X tiene una distribución de probabilidad de la forma f (x; )= , se dice que la variable X sigue una distribución de tipo exponencial de parámetro . Además no es difícil demostrar que la distribución de probabilidad acumulada tiene la forma (3.4) F(x; )= , Ejemplo 15 El tiempo que tarda un persona en localizar un archivo en su escritorio sigue una distribución normal con parámetro = 2 minutos. La probabilidad de que en la próxima búsqueda dure menos de 3 minutos es F(3) = 1 - e6 = 0.997. Mientras tanto, la probabilidad de que tarde entre 1.5 y 2.5 minutos es deF(2.5) - F(1.5) = 0.043. Parámetros en una Distribución Cada vez que se logre determinar una distribución existen dos mediciones asociadas con ella que son sumamente importantes: la media y la varianza. La media o esperanza, como se llama a veces, en alguna forma es una medida de localización de los datos, mientras la varianza es una medida de dispersión de los datos. En las distribuciones teóricas, este par de medidas las caracterizan en forma absoluta y en el caso de las distribuciones que no se ajusten a un patrón conocido constituyen el punto de partida para poder estudiarlas en forma adecuada. a. Si X es discreta con rango RX = {x1, x2, x3,...} se definen la media o esperanza de X por (3.5) = xifX(xi), con la condición de que | xi| fX(xi) < . b. Mientras si X es continua. (3.6) = xfX(x) dx, con la condición de que | x| fX(x) dx < . La condición que se impone se conoce como convergencia absoluta [8] y se hace necesaria para evitar que el reordenamiento de las sumas pueda producir valores diferentes para la esperanza. De hecho en cada una de las definiciones que sea necesario se indicará. Note que la media, es una generalización del concepto de promedio aritmético. Por ejemplo si X es una variable aleatoria discreta tal que todos los valores en su rango tienen la misma probabilidad entonces: = . En realidad la media o esperanza es un promedio ponderado y cuantifica el valor esperado para una variable aleatoria. Ejemplo 16 Sea X la variable aleatoria del ejemplo 13. En ese caso el valor de la esperanza es: = 1( ) + 2( ) + 3( ) + 4( )= , significa que en promedio deberán hacerse 2.27 intentos antes de obtener la bolilla roja. Por ejemplo para la distribución exponencial de parámetro integración por partes y regla de L'Hôpital, se tiene que: , (3.2), usando un poco de Existen ejemplos de variables aleatorias con distribuciones de probabilidad bien definidas y que no tienen media. Se invita al lector a verificar que si X es una variable aleatoria tal que fX(2k) = P[X = 2k] = 1/2k, k = 0, 1,... entonces la distribución de probabilidad está bien definida pero no existe la esperanza. Ejemplo 17 Un sistema de administración de oxígeno esta formado por dos bombas idénticas. Estas bombas operan en forma independiente, y tienen una esperanza de funcionamiento continuo que es exponencial con media 20 horas. El sistema de bombeo falla solamente si ambas bombas fallan. Cuál es la probabilidad de que el sistema funcione durante 15 horas. Solución Como la media es 20 horas entonces el parámetro de la distribución es = 1/20. Acorde con (3.4) la probabilidad de que una bomba falle antes de las 15 horas es 1 - e-15/20, así que la probabilidad de que el sistema falle antes de las 15 horas es P[X 15] = (1 - e-15/20)2 y la probabilidad de que el sistema trabaje en forma continua por más 15 horas es de 1 P[X 15] = 1 - (1 - e-15/20)2. También es posible calcular la esperanza de una función aplicada a los valores de la variable aleatoria. a. Si X es discreta (3.7) (X) = h(xi)fX(xi), con la condición de que | h(xi)| fX(xi) < . Mientras que para X continua se tiene (3.8) = h(x)fX(x) dx, con la condición de que | h(xi)| fX(xi) dx < . Para calcular la varianza de una variable aleatoria se necesita antes conocer la media de X. a. Si X es discreta: (3.9) = = )2fX(xi), (xi - b. Si es continua (3.10) = = (x - )2fX(x) dx. Invitamos al lector a verificar en la tabla adjunta posibles distribuciones de probabilidad discretas y analizar los valores de la esperanza y de la varianza. En esta tabla puede introducir valores para la variable y las probabilidades respectivas y ver el comportamiento de la media y la varianza. La siguiente es una propiedad importante de la varianza. Según la definición de esperanza, en el caso discreto se tiene = = (xi - )2fX(xi) = (xi2 - 2xi + )fX(xi) = xi2fX(xi) - 2xi fX(xi) + ( )2fX(xi) = xi2fX(xi) - 2 = -2 xifX(xi) + + = -( fX(xi) )2. De hecho no es difícil verificar que esta propiedad también se cumple en el caso continuo. Se llamará momento de orden k a la esperanza de Xk. Es decir el momento de orden k para la variable aleatoria discreta X es E(Xk) = mientras que para una continua es xikfX(xi), E(Xk) = xkfX(x) dx. Ejemplo 18 Sea X una variable aleatoria continua con distribución de probabilidad dada por f (x) = 1. Determine el valor de k. 2. Calcule P([- 2 < X 3. Calcule VAR(X). Solución 1. Dado que 5]). 2. 3. Finalizamos esta sección enunciando un teorema que resume las propiedades fundamentales de la esperanza. 1. El valor esperado de una variable aleatoria constante es la misma constante. = c. 2. El valor esperado de una variable aleatoria multiplicada por una constante es la constante por el valor esperado de la variable. =c . 3. El valor esperado de una suma de dos variables aleatorias es la suma de los valores esperados de las variables. = + . Las pruebas de las dos primeras propiedades son bastante sencillas, y para demostrar la tercera se requiere estudiar algunos conceptos que no se han explorado hasta ahora. El lector interesado en la justificación de estos resultados puede consultar [2]. las siguientes afirmaciones. 1. La varianza de una variable aleatoria constante es cero. VAR(c) = 0. 2. La varianza de una variable aleatoria multiplicada por una constante es la constante por la varianza de la variable. VAR(cX) = c2VAR(X). 3. La varianza de una suma de dos variables aleatorias es la suma de las varianzas de las variables. VAR(X+Y) = VAR(X) + VAR(Y). Nuevamente la demostración de los apartados (1.) y (2.) es bastante directa a partir de la definición y la demostración de (3.) es un poco más delicada. El lector interesado puede verla en [2]. Función Generadora de Momentos Si X es una variable aleatoria se llama función generadora de momentos a la esperanza de etX y se denota por mX(t) mX(t) = E(etX). (3.11) Las siguientes líneas ayudarán a entender el porqué de este nombre. Supongamos que X es una variable aleatoria que toma valores 0, 1, 2,..., entonces mX(t) = E(etX) = etxifX(xi) = (txi)k/k! fX(xi) tkxik/k! fX(xi) = = xifX(xi) = E(Xk). Esta deducción utiliza una propiedad importante de las sumatorias que en general no es válida y es el intercambio de las sumatorias que se hace. Si el lector es paciente puede expandir cada una de las sumas y verificar que es posible el reordenamiento practicado. Como notará esta última serie tiene como parte de sus coeficientes los momentos de orden k, de hecho es bastante sencillo demostrar el siguiente lema Si X es una variable aleatoria con función generadora de momentos mX(t) se tiene que m(n)X(0) = E(Xn). (3.12) Es decir si tenemos la función generadora de momentos basta con derivarla n veces y evaluar en 0 para obtener el momento de orden n.