Grado en Ciencia y Tecnologı́a de los Alimentos M. Iniesta Universidad de Murcia Tema 4: Variables Aleatorias Modelos de Probabilidad Objetivos Conocer las funciones asociadas a una variable aleatoria, distinguiendo entre discretas y continuas. Conocer el significado de la esperanza y la varianza de una variable aleatoria discreta. Reconocer y aplicar modelos de probabilidad. 1. Variables Aleatorias Discretas Lo que pretendemos en este tema es transformar el problema de la asignación de probabilidades a otro consistente en el empleo de ciertas funciones reales de variable real, de forma que la probabilidad de cierto suceso aleatorio vendrá dada por el cálculo de ciertos valores de dichas funciones. 1.1. Definición de Variable aleatoria Sea Ω el espacio muestral asociado a un fenómeno aleatorio. Una variable aleatoria es una función X:Ω→X que asocia a cada suceso elemental un número real. El conjunto X se le llamará espacio muestral de la variable aleatoria X y es el conjunto de todos los valores posibles de X. Diremos que una variable aleatoria es discreta si su espacio muestral es un conjunto discreto, es decir, un conjunto finito o bien un conjunto infinito pero numerable. Si el espacio muestral de la variable es infinito no numerable, como el conjunto de puntos de un intervalo real, diremos que la variable aleatoria es continua. En principio trataremos con variables aleatorias discretas. Ejemplo 1.1 Si lanzamos una moneda al aire dos veces y X es el número de caras obtenidas X transforma el espacio muestral original Ω = {(c, c), (x, c), (c, x), (x, x)} en X = {0, 1, 2}. 1.2. Función de Probabilidad La función puntual de probabilidad va a asignar probabilidad a cada punto del espacio muestral de X. Tema 4 Curso 2010-11 Página: 1 M. Iniesta Universidad de Murcia Grado en Ciencia y Tecnologı́a de los Alimentos Si X es una variable aleatoria discreta, la Función Puntual de Probabilidad o simplemente la Función de Probabilidad es la función que asigna probabilidad a cada uno de los puntos muestrales de X. Es decir, p : X → [0, 1] x p(x) = P (X = x) De la definición se derivan las siguientes propiedades de la función de probabilidad: 1. Para cada punto muestral x del espacio muestral X ha de ser 0 ≤ p(x) ≤ 1 2. La suma P de las probabilidades de todos los puntos de X ha de ser igual a 1. Es decir, x∈X p(x) = 1 3. Si A ⊆ X , podemos calcular la probabilidadPdel suceso A sumando las probabilidades de los puntos de A, es decir, P (A) = x∈A p(x) Ejemplo 1.2 Si X =número de caras al probabilidad es 1/4, 1/2, p(x) = 0, tirar dos veces una moneda, su función de si x = {0, 2}; si x = 1; si x ∈ / {0, 1, 2}. Se observa claramente como dicha definición cumple con las condiciones anteriores por lo que es una verdadera función de probabilidad. Si A es el suceso “Obtener a lo sumo una cara”, P (A) = P (X = 0) + P (X = 1) = 1.3. 3 1 2 + = 4 4 4 Actividades 1. Estudiar si las funciones siguientes pueden ser funciones puntuales de probabilidad 1 si x = 0, 1, 2, 3, 4 y p(x) = 0 en el resto 5 b) p(x) = k si x = −10, −9, ..., 9, 10 y p(x) = 0 en el resto 2x + 1 c) p(x) = si x = 1, 2, 3, 4 y p(x) = 0 en el resto 24 a) p(x) = 2. Sea X una variable aleatoria con función de probabilidad p(x). Sean los sucesos X > 0 y X ∈ [1, 3]. Calcular las probabilidades de dichos sucesos, suponiendo que p(x) fuera cada uno de los casos anteriores. Tema 4 Curso 2010-11 Página: 2 Grado en Ciencia y Tecnologı́a de los Alimentos 1.4. M. Iniesta Universidad de Murcia Función de Distribución Se define la Función de Distribución de la variable aleatoria discreta X como X F (x) = p(y) y≤x La función F (x), en este caso, acumula la probabilidad asociada al punto muestral x a la de los puntos muestrales menores que x. Si denotamos mediante X ≤ x al suceso que consiste en obtener un valor de la variable X menor o igual al valor x, entonces F (x) = P (X ≤ x) Ejemplo 1.3 La función de distribución F (x) de la variable X=número de caras al tirar dos veces una moneda es la siguiente. 0 si x < 0; 1/4, si x ∈ [0, 1); F (x) = 3/4, si x ∈ [1, 2); 1, si x ≥ 2. 2. Esperanza y Varianza de una variable aleatoria discreta Con estos parámetros, que definimos a continuación, pretendemos describir una variable aleatoria respecto a sus caracterı́sticas de centralización y dispersión. 2.1. Esperanza Matemática o Media Teórica La Esperanza o Media Teórica de una v.a. E(X) indica un valor teórico al que tenderı́a el valor medio de n realizaciones de X, cuando n tiende a infinito. Para aclarar esto supongamos que X es nuestra ganancia cuando jugamos a un juego de loterı́a en el que podemos ganar un millón de euros con cierta probabilidad o perder lo invertido en el billete. En una realización concreta ganaremos o perderemos y la esperanza de X serı́a el valor al que tenderı́a el valor medio de mi ganancia cuando juego un número grande de veces. Se define mediante la siguiente expresión: X E(X) = xp(x) x∈X Ejemplo 2.1 Supongamos que en un juego ganamos 10 euros si al tirar un dado sacamos un cinco o un seis, ganamos 5 si sale un 2 o un 3 o un 4 y perdemos 25 si sale un 1. Si llamamos X a la ganancia obtenida en una jugada, la función de probabilidad de X es 2 , si x = 10; 63 , si x = 5; 6 p(x) = 1 , si x = −25; 6 0, si x ∈ / {10, 5, −25}. Tema 4 Curso 2010-11 Página: 3 M. Iniesta Universidad de Murcia Grado en Ciencia y Tecnologı́a de los Alimentos cuya esperanza vale: 3 1 10 2 E(X) = 10 + 5 − 25 = 6 6 6 6 que serı́a el valor medio de nuestras ganancias a largo plazo (en un gran número de jugadas). Ejemplo 2.2 La esperanza de la variable del ejemplo (1.1) vale 1 1 1 E(X) = 0. + 1. + 2. = 1 4 2 4 esto significa que en un gran número de experiencias, el valor medio del número de caras tenderı́a a 1. 2.2. Varianza y Desviación Tı́pica La varianza de una variable aleatoria X, que representaremos por V (X), y la Desviación Tı́pica, D(X), indicarán el grado de dispersión de los valores de la variable respecto a la esperanza matemática. La Desviación Tı́pica será la raı́z cuadrada positiva de la varp ianza, D(X) = V (X) y tiene la ventaja de que se expresa en la misma unidad que la propia variable. Variables con desviación tı́pica pequeña indicará que hay alta probabilidad de observar valores próximos a la esperanza matemática o media teórica E(X). Si denotamos E(X) mediante µ y V (X) mediante σ 2 Definimos V (X) = σ 2 = E((X − µ)2 ) = E(X 2 ) − µ2 y podemos calcularla mediante la siguiente expresión: X X X xp(x))2 x2 p(x) − ( x2 p(x) − µ2 = V (X) = σ 2 = x∈X x∈X x∈X Ejemplo 2.3 La varianza de la variable del ejemplo (1.1) es 1 1 1 1 σ 2 = 02 + 12 + 22 − 12 = 4 2 4 2 y su desviación tı́pica es 1 D(X) = σ = √ 2 2.3. Actividades Calcular la esperanza y la varianza en los casos en donde sea posible de las actividades de la sección 1.3. Tema 4 Curso 2010-11 Página: 4 Grado en Ciencia y Tecnologı́a de los Alimentos 2.4. M. Iniesta Universidad de Murcia Modelo Binomial Imaginemos un experimento con dos resultados posibles A y A y P (A) = p conocido. Supongamos que repetimos dicho experimento n veces en idénticas condiciones y de forma que el resultado de una prueba o repetición es independiente del resultado de otra. Sea ahora X=número de éxitos en n repeticiones (pruebas) idénticas e independientes El espacio muestral de la variable es X = {0, 1, ...., n} y la función puntual de probabilidad es: n x p (1 − p)n−x , si x ∈ X = {0, 1, ..., n}; x p(x) = 0, si x ∈ / X. En este caso la esperanza y la varianza valen: E(X) = np V (X) = np(1 − p) Si la variable X tiene una distribución de probabilidad como la del modelo Binomial de parámetros n =número de pruebas y P (A) = p, lo indicaremos poniendo X ∼ B(n, p) 2.4.1. Actividades 1. Supongamos que tiramos al aire un dado equilibrado 20 veces. Si llamamos X =“Nº de seises obtenidos, reconocer que esta variable sigue un modelo Binomial de parámetros n = 20 y p = 61 . Sean los sucesos A =”Obtener exactamente 4 seises“ y B=”Obtener al menos 4 seises“. Expresar las probabilidades de dichos sucesos en términos de la función de probabilidad y la función de distribución de dicha variable. Los valores concretos de probabilidad serán obtenidos con R-Commander. 2. Aporta cinco situaciones experimentales en donde la v.a. X siga una distribución Binomial. 2.5. Modelo de Poisson Supongamos que conocemos el número medio de veces que ocurre el suceso A en una unidad de soporte continuo (tiempo, espacio, volumen, longitud, superficie,....) y que vamos a denotar mediante λ. Decimos que la variable X =número de veces que ocurre A en un intervalo unidad cuyo espacio muestral es X = {0, 1, 2, ...}, sigue una distribución de Poisson (también llamada Ley de los Sucesos Raros) de parámetro λ si su función de probabilidad está dada por: −λ λx e x! , si x ∈ X = {0, 1, 2, ....}; p(x) = 0, en otro caso. En este caso: Tema 4 Curso 2010-11 Página: 5 Grado en Ciencia y Tecnologı́a de los Alimentos M. Iniesta Universidad de Murcia E(X) = λ V (X) = λ Si X es una variable cuya distribución de probabilidad es como la del modelo de Poisson, lo indicaremos poniendo X ∼ P(λ) donde λ = E(X) es el número medio de veces que ocurre A en un intervalo unidad. Además las probabilidades Binomiales cuando n es grande y p es pequeño se aproximan a las probabilidades de Poisson, haciendo λ = np. Es decir, x n x n−x −λ λ p (1 − p) →e , si n → ∞, λ = np x x! Lo anterior significa que podemos aproximar probabilidades binomiales mediante probabilidades de Poisson cuando n sea suficientemente grande y p pequeño. Ejemplo 2.4 En un núcleo urbano de n = 100000 personas la probabilidad de infección de cada una de ellas es p = 0.00002, el número X =“Número de infectados” sigue un modelo Binomial X ∼ B(100000, 0.00002) que podemos aproximar a un modelo de Poisson de parámetro λ = np = 2. La probabilidad exacta, según el modelo Binomial, de que en un determinado momento haya más de un infectado es P (X > 1) = 1 − P (X = 0) − P (X = 1) = 1 − 0.1353326 − 0.2706706 = 0.5939969 Mientras que aproximando la misma probabilidad por el modelo de Poisson se obtiene P (X > 1) = 1 − P (X = 0) − P (X = 1) = 1 − 0.1353353 − 0.2706706 = 0.5939942 (Todas las probabilidades anteriores se calcularon mediante R) 2.5.1. Actividades 1. Supongamos que el número medio de estrellas visibles en un cierto volumen v de espacio es λ = 7. Expresa en términos de la función de probabilidad o de la función de distribución de la variable X=“Nº de estrellas visibles en el volúmen de espacio v” los sucesos siguientes: a) Observar más de 9 estrellas b) Observar como mucho 5 estrellas c) Observar entre 5 y 9 estrellas. 2. Definir cinco situaciones experimentales que se ajusten a un modelo de Poisson. Establecer el parámetro λ en cada caso. 3. Definir cinco situaciones experimentales que se ajusten a un modelo de Binomial pero con aproximación razonablemente buena al modelo de Poisson. Establecer en cada caso los correspondientes parámetros. Tema 4 Curso 2010-11 Página: 6 M. Iniesta Universidad de Murcia Grado en Ciencia y Tecnologı́a de los Alimentos 3. Variables aleatorias continuas Cuando X es una variable aleatoria continua, por ejemplo X es la medida de cierta magnitud como peso, longitud, área, volumen, tiempo, etc, lo que significa que puede tomar cualquier valor de cierto intervalo de la recta real, no es posible asignar probabilidad punto a punto, sino a intervalos. Es decir, el espacio muestral de una variable aleatoria continua va a ser un intervalo de la recta real o incluso toda la recta real y en este caso los sucesos de interés no son los puntos muestrales aislados sino los intervalos de puntos muestrales, es decir, los sucesos del tipo X ∈ (a, b) donde a y b son valores cualesquiera. Para ello necesitamos una función que asigne probabilidad a dichos sucesos. Esta función, llamada función de densidad o curva de densidad, es una función que siempre se halla por encima del eje OX, el área que encierra a lo largo de todo el eje OX vale 1 y la probabilidad que asigna al suceso X ∈ (a, b) es el área comprendida entre los valores a y b. Un ejemplo de función de densidad lo vemos en la siguiente gráfica. Recordemos que cuando describı́amos una muestra de una variable estadı́stica continua lo hacı́amos mediante un histograma para agrupar los valores observados en clases de intervalo. El área del rectángulo que se levanta encima de una clase de intervalo representa la frecuencia relativa de dicha clase. Si dado un gran número de observaciones se construye un histograma se obtiene una gráfica que intuitivamente tiende a una curva cuando aumenta el número de observaciones y a la vez se reduce la amplitud de los intervalos. La siguiente sucesión de histogramas se han obtenido mediante muestras de gran tamaño de la variable X y aumentando el número de clases de intervalo para disminuir la amplitud de los mismos, mientras que la curva final representa la función de densidad de X. 80 100 120 Muestras_normales$obs Tema 4 140 80 100 120 140 Muestras_normales$obs Curso 2010-11 0.04 Density 0.01 0.02 0.03 0.04 0.01 0.00 0.00 0.00 60 0.02 Density 0.03 0.03 0.01 0.02 Density 0.020 0.010 0.000 Density 0.030 0.04 Normal Distribution: µ = 110, σ = 10 80 100 120 Muestras_normales$obs 140 80 90 100 110 120 130 x Página: 7 140 Grado en Ciencia y Tecnologı́a de los Alimentos 4. M. Iniesta Universidad de Murcia Función de Densidad Si X es continua, la función de densidad de X es una función f (x) que describe cómo se distribuye la probabilidad a lo largo de su espacio muestral, de modo que la probabilidad de que la variable tome un valor dentro de un determinado intervalo es precisamente el área que encierra la función f (x) en dicho intervalo. la Función de Densidad es la función f : R → R+ que cumple las siguientes propiedades: 1. El área comprendida por debajo de la curva y a lo largo de todo el eje OX vale 1. 2. P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = P (a ≤ X ≤ b) y se corresponde con el valor del área limitada bajo la curva f (x) y entre a y b. ¡OJO!: las cuatro probabilidades anteriores son iguales en variables continuas pero no en variables discretas. 3. Denominamos Función de Distribución de la variable X a la función F : R → [0, 1] tal que x F (x) := P (X ≤ x) Es decir, la función de distribución asigna a cada x ∈ R el área que queda a la izquierda de x bajo la curva de densidad. 4. Usando la Función de Distribución podemos calcular P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = P (a ≤ X ≤ b) = F (b) − F (a) La siguiente figura ilustra las propiedades anteriores Ejemplo 4.1 Supongamos un instrumento nos ofrece medidas al azar en el intervalo (0, 2). Supongamos que dichas medidas son los valores de una variable aleatoria X con función de densidad f (x) que se representa mediante la expresión f (x) = x si 0 < x < 1, f (x) = 2 − x si 1 < x < 2 y f (x) = 0 en el resto y por la siguiente gráfica: Tema 4 Curso 2010-11 Página: 8 Grado en Ciencia y Tecnologı́a de los Alimentos M. Iniesta Universidad de Murcia Podemos comprobar que esta función es una curva de densidad, puesto que se mantiene siempre por encima del eje OX y el área que encierra a lo largo del mismo vale 1. Si queremos ahora calcular la probabilidad de que X tome valores entre los puntos D y H, tendrı́amos que calcular el área bajo la curva entre los puntos D y H, es decir la el área sombreada con color rosa. Ası́ pues, P [D < X < H]= ”área rosa- 0.57. 4.1. Actividades Usando el ejemplo anterior: 1. Calcular la probabilidad de que el instrumento nos de una medida mayor que 1. 2. Calcular la probabilidad de que el instrumento nos de medidas que no se aleje de 1 en más de 0.05. 3. Calcular los puntos D y H del ejemplo anterior. 5. Descripción de variables aleatorias continuas Al igual que las variables aleatorias discretas, las variables aleatorias continuas pueden describirse usando parámetros de centralización, dispersión o de otras caracterı́sticas. Por ejemplo, igual que se define la esperanza de X cuando X es discreta sumando valores por probabilidades, también es posible definir E(X) cuando X es continua, salvo que el procedimiento de cálculo implica usar herramientas desconocidas en este nivel, como es la integral definida. Igual ocurre con el cálculo de la varianza o de otros parámetros más complejos. Es por ello que convendremos en describir una variable aleatoria continua X mediante sus dos parámetros más importantes, que son la esperanza de X o media teórica E(X), que también simbolizaremos mediante la letra griega µ, y la desviación tı́pica D(X), que también simbolizaremos mediante la letra griega σ. µ = E(X) es un valor medio (teórico) de la variable y se interpreta como el valor lı́mite o al que tenderı́an las medias muestrales obtenidas mediante muestras de tamaños muy grandes. 2 La varianza de la variable V (X), que simbolizaremos mediante p σ es un parámetro de dispersión pero más se usa la desviación tı́pica σ = D(X) = V (X) que se expresa en la misma unidad que mide la variable X. Ambos parámetros orientan de cómo se concentra el área limitada por la curva de densidad alrededor de la media. Cuando los valores alrededor de la media concentran más área significará que dichos valores tienen Tema 4 Curso 2010-11 Página: 9 M. Iniesta Universidad de Murcia Grado en Ciencia y Tecnologı́a de los Alimentos mayor probabilidad de ser observados y esto ocurre más cuando la desviación tı́pica sea menor. Por otro lado, podemos hablar de otro parámetro de centralización como es la mediana de la variable X, que simbolizaremos mediante M e(X), que es el punto que divide el área por debajo de la curva en dos mitades iguales. Cuando la curva de densidad es simétrica respecto al punto a, se tiene E(X) = M e(X) = a El siguiente gráfico muestra densidades del mismo tipo pero con distintos valores de media y de varianza. Observar como al variar la media se modifica el centro de la gráfica mientras que al variar la varianza se modifica la concentración del área alrededor de la media, a mayor varianza mayor dispersión y menor concentración del área alrededor de la media. Ejemplo 5.1 Siguiendo con el ejemplo 4.1, podemos apreciar que la densidad es simétrica respecto al punto X = 1, en este caso µ = E(X) = M e(X) = 1. Haciendo los cálculos pertinentes D(X) = σ = 0.40 aunque éste parámetro no lo calcularemos en este curso. 6. Modelo Normal La distribución de probabilidad continua más frecuente en experimentos aleatorios, donde se observan magnitudes en poblaciones homogéneas es la Distribución Normal, también llamada Campana de Gauss. Definición 6.1 Decimos que la variable aleatoria X sigue una distribución Normal con E(X) = µ y D(X) = σ si su función de densidad viene dada por f (x) = √ 1 x−µ 2 1 e− 2 ( σ ) ; 2πσ x∈R que indicaremos poniendo Tema 4 Curso 2010-11 Página: 10 Grado en Ciencia y Tecnologı́a de los Alimentos M. Iniesta Universidad de Murcia X ∼ N (µ, σ) La anterior función es una muestra de la complejidad que pueden tener las curvas de densidad a la hora de ser usadas en la práctica para calcular probabilidades. La alternativa es usar programas estadı́sticos, como R o R-Commander, para resolver los problemas de probabilidad asociados a un modelo de probabilidad como éste. La gráfica de la densidad f (x) es una figura como la que sigue, en la que pueden apreciarse algunas propiedades como las siguientes: y que son: 1. f (x) es simétrica respecto al punto x = µ. 2. f (x) tiene puntos de inflexión en x = µ ± σ 3. La curva se acerca de forma asintótica al eje OX en los valores distantes al punto central µ, es decir, cuanto más nos alejamos de µ más se pega la densidad al eje OX. 4. Los intervalos de mayor probabilidad se concentran alrededor de la media µ. Concretamente, si X sigue una distribución normal de media µ y desviación tı́pica σ, que lo indicaremos poniendo X ∼ N (µ, σ) se tiene: P (µ − σ < X < µ + σ) = 0.6827 P (µ − 2σ < X < µ + 2σ) = 0.9545 P (µ − 3σ < X < µ + 3σ) = 0.9973 tal y como se muestra en la siguiente figura. Tema 4 Curso 2010-11 Página: 11 M. Iniesta Universidad de Murcia Grado en Ciencia y Tecnologı́a de los Alimentos 7. Aproximación de la distribución Binomial a la Normal La densidad Normal también es posible usarla para calcular probabilidades aproximadas. Concretamente la distribución Binomial B(n, p) puede ser aproximada mediante p una distribución normal N (µ = np, σ = np(1 − p)) cuando n es grande y p es cercano a 0.5. Es decir, si X ∼ B(n, p), entonces p X ∼aprox. N (µ = np, σ = np(1 − p)) Ejemplo 7.1 Supongamos que la probabilidad de nacer niño es la misma que la de nacer niña y que deseamos calcular la probabilidad de que en 1000 nacimientos se produzcan más de 450 niñas. Si llamamos X=“Nº de niñas en 1000 nacimientos”, entonces √ X ∼ B(n = 1000, p = 0.5) ∼aprox. N (µ = 500, σ = 250 = 15.81) Calcular mediante el software R la probabilidad deseada P (X > 450) = 1 − P (X ≤ 450) = 450 X p(x) = 0.9991347 x=0 x 1000−x donde p(x) = 1000 0.5 0.5 x Sin embargo, aproximando por el modelo normal es, usando R: P (X > 450) = 0.999218 8. Bibliografı́a 1. Tema 2, sección 2 del texto Estadı́stica para Ciencias Agropecuarias. Autor: Di Riezo, J. A. 2. Capı́tulo 5, sección 3 y Capı́tulo 1, sección 4 del texto Estadı́stica Aplicada Básica. Autor: D. S. Moore Tema 4 Curso 2010-11 Página: 12