Valores esperados, varianza y desviación estándar para variables aleatorias Universidad de Puerto Rico ESTA 3041 Prof. Héctor D. Torres Aponte 1. Regla para los valores esperados en variables aleatorias A continuación expondremos las reglas al momento de calcular valores esperados cuando tenemos mas de una variable o simplemente alguna alteración de la variable original. Propiedad 1.1. Para variables aleatorias tenemos que: 1. Si X es una variable aleatoria y a, b números fijos entonces, µa+bX = a + bX. 2. Si X y Y son variables aleatorias entonces, µX+Y = µX + µY . Considere que la compañia “Gain Communications” vende productos de comunicación para propósitos militares y propósitos civiles. Las ventas del próximo año dependen de las condiciones del mercado las cuales no se pueden predecir con exactitud. Gain utiliza un modelo probabilı́stico para estimar sus ventas en el próximo año. La división de productos militares tiene la siguiente distribución: Unidades vendidas Probabilidad 1000 0.1 3000 0.3 5000 0.4 10,000 0.2 La división civil estima: Unidades vendidas Probabilidad 300 0.4 500 0.5 750 0.1 Ahora, sea X el número de unidades vendidas con propósito militar. Y el número de unidades vendidas con propósito civil. Utilizando las tablas de distribución podemos calcular el valor esperado para X de la siguiente manera: µX = (1, 000)(0.1) + (3, 000)(0.3) + (5, 000)(0.4) + (10, 000)(0.2) = 100 + 900 + 2000 + 2000 = 5000 1 lo que nos indica que el valor esperado para la variable aleatoria X es de 5,000 unidades. Haciendo lo mismo para la variable aleatoria Y obtenemos: µY = (300)(0.4) + (500)(0.5) + (750)(0.1) = 120 + 250 + 75 = 445 ası́ que el valor esperado para la variable aleatoria Y es de 445 unidades. Ahora, suponga que la compañia Gain genera una ganancia de $2,000 dólares por unidad militar y $3,500 por unidad civil. Podemos estimar la ganancia promedio para los productos militares: µ2,000X = 2, 000µX = (2, 000)(5, 000) = $10, 000, 000 De la misma forma, la ganancia promedio para los productos civiles es: µ3,500Y = 3, 500µY = (3, 500)(445) = $1, 557, 500 Ya tenemos la ganancia estimada promedio para el próximo año por tipo de producto, obviamente si queremos calcular cual es la ganancia total promedio de la compañia para el próximo año, solamente tenemos que tomar la suma de $10, 000, 000 + $1, 557, 500 lo que nos da un gran total de $11,557,500. Está será la ganancia promedio para el próximo año en la compañia Gain communications. Ahora, si queremos ver como matemáticamente es posible tenemos que hacer lo siguiente, la ganancia total (Z) para la compañia Gain communications es descrita por: Z = 2, 000X + 3, 500Y entonces la ganancia total promedio para el próximo año es: µZ = µ2,000X+3,500Y 1.1. = = = = = µ2,000X + µ3,500Y 2, 000µX + 3, 500µY 2, 000(5, 000) + 3, 500(445) 10, 000, 000 + 1, 557, 500 11, 557, 500 Varianza de una variable aleatoria Sabemos que la varianza y la desviación estándar son medidas de disperción. La notación para la varianza de datos se denotó como s2 . Ahora vamos a denotar la varianza de una 2 variable aleatoria como σX . 2 Definición 1.1. Suponga que X es una variable aleatoria discreta cuya distribución es: Valor de X Probabilidad x1 p1 x2 p2 ··· ··· xk pk con media µ. La varianza de la variable aleatoria X se define como: 2 σX = (x1 − µX )2 p1 + (x2 − µX )2 p2 + · · · + (xk − µX )2 pk k X = (xi − µX )2 pi i=1 cuya desviación estándar es v u k q uX 2 σX = σX = t (xi − µX )2 pi i=1 Note que los términos de la varianza de una variable aleatoria son muy similares a la varianza de una serie de datos, la única diferencia es que en vez de que cada término utilize x̄, se utiliza µX y se multiplica por la probabilidad pi . Ejemplo 1.2. Utilizando el ejemplo de la compañia Gain Communications, considere los estimados de los productos con propósito militar: Unidades vendidas Probabilidad 1000 0.1 3000 0.3 5000 0.4 10,000 0.2 Entonces, podemos encontrar la varianza de la variable aleatoria X. Para esto utilizamos la siguiente tabla: xi 1, 000 3, 000 5, 000 10, 000 pi 0.1 0.3 0.4 0.2 xi p i (xi − µX )2 pi 100 (1, 000 − 5, 000)2 (0.1) = 1, 600, 000 900 (3, 000 − 5, 000)2 (0.3) = 1, 200, 000 2000 (5, 000 − 5, 000)2 (0.4) = 0 2000 (10, 000 − 5, 000)2 (0.2) = 5, 000, 000 2 µX = 5, 000 σX = 7, 800, 000 Vemos que el valor esperado es la suma de todos los elementos en la tercera columna y la varianza es la suma de todos los elementos en la cuarta columna. Si queremos calcular la desviación estandar, entonces: q p 2 σX = σX = 7, 800, 000 = 2, 792.8 3 1.2. Reglas para la varianza de una variable aleatoria Definición 1.2. Dos variables aleatorias X y Y son independientes si al conocer eventos relacionados con la variable X no afecta a los eventos relacionados con la variable Y . Cuando dos variables no son independientes la varianza de sus sumas depende de su correlación. Obviamente, si no son independientes la correlación es distinta de cero. Anteriormente para un conjunto de datos utilizamos r para denotar la correlación entre dos conjuntos, ahora para denotar la correlación de dos variables aleatorias utilizamos la letra griega ρ (“rho”). Definición 1.3 (Regla de varianza para variables aleatorias). 1. Si X es una variable aleato2 2 . ria discreta e independiente y a, b números fijos entonces σa+bX = b2 σX 2. Si X y Y tienen una correlación ρ, entonces 2 σX+Y 2 σX−Y 2 = σX + σY2 + 2ρσX σY 2 = σX + σY2 − 2ρσX σY 3. Si X y Y son independientes entonces ρ = 0 y por lo tanto 2 σX+Y 2 σX−Y 2 = σX + σY2 2 = σX + σY2 Note que cuando X y Y son variables independientes entonces ρ = 0 entonces el término ±2ρσX σy = 0, por lo tanto ese último término se elimina. Ejemplo 1.3. Utilizando el ejemplo del “Pega 3” ya discutido en clase, sabemos que la 1 y 0 la otra parte del tiempo. Esto lo podemos utilizar para probabilidad de ganar $500 1,000 hacer la siguiente tabla: xi pi 0 0.999 500 0.001 xi p i (xi − µX )2 pi 0 (0 − 0.5)2 (0.999) = 0.24975 0.5 (500 − 0.5)2 (0.001) = 249.50025 2 µX = 0.5 σX = 249.75 Esto tiene una desviación estándar de σX = √ 249.75 = $15.80. Ahora, si se compra un boleto su ganancia neta se define como W = X − 1 esto es ya que X es la cantidad ganada menos el $1 invertido. La cantidad promedio que usted gana es µW = µ−1+X = −1 + µX = −$0.50 lo que nos indica que usted pierde $0.50 por cada jugada. 4 Ahora, suponga que usted compra un boleto ($1) dos dı́as diferentes. La ganancia de X y Y de cada boleto son independientes ya que son sorteos separados. La ganancia total promedio de ambos sorteos es: µX+Y = µX + µY = $0.50 + $0.50 = $1.00. Como X y Y son independientes entonces ρ = 0, lo que implica a que su varianza es 2 2 σX+Y = σX + σY2 = 2(249.75) = 499.5 y cuya desviación estándar es: σX+Y = √ 499.5 = $22.35 Note que esto no es lo mismo que la suma de las desviaciones estándares de cada variable ya que 15.80+15.80=31.60. Note que la varianza de variables independientes se suman, pero las desviaciones estándares no. Ejemplo 1.4. Las universidades a nivel subgraduado utilizan el SAT para propósitos de admisión. Suponga que la variable aleatoria X representa la puntuación obtenida en la parte de matemáticas con µX = 625 y σX = 90. Además, suponga que Y es la variable aleatoria que representa la puntuación en la parte verbal con µY = 590 y σ = 100. ¿Cual es la media y la desviación estándar de la puntuación total obtenida en el examen del SAT?, esto es, calclular µX+Y . Para esto tenemos que el promedio de la puntuación total del SAT es µX+Y = µX + µY = 625 + 590 = 1215 No podemos calcular la varianza y la desviación estándar por que no tenemos el factor de correlación ρ. Ahora, suponga que ρ = 0.7, entonces 2 σX+Y 2 = σX + σY2 + 2ρσX σY = (90)2 + (100)2 + (2)(0.7)(90)(100) = 30, 700 Cuya desviación estándar es σX+Y = 1.3. p 30, 700 = 175. Distribución binomial Una compañia de recursos humanos le pregunta a 100 empleados si se sienten presionados en el trabajo. Si vemos, las posibles respuestas son “si” o “no”. Esto es un claro ejemplo de lo que es una distribución binomial. Podemos decir que la distribución binomial es útil al momento de querer medir éxitos o fracasos en algún experimento. Para poder utilizar la distribución binomial, tenemos que cumplir ciertos requisitos: 5 1. Tiene que tener un número fijo de n observaciones. 2. Las n observaciones tienen que ser independientes. 3. Cada observación se tiene que clasificar entre “éxito” o “fracaso”. 4. La probabilidad de éxito, llamada p, tiene que ser igual para todas las observaciones. Definición 1.4. La distribución del conteo X de “éxitos” que cumpla con los requisitos mencionados anteriormente es una distribución binomial con parametros n y p. El parametro n es el número de observaciones y p es la probabilidad de éxito de cualquier observación. Ejemplo 1.5. Cada consumido tiene una probabilidad de 0.25 de preferir nuestro producto sobre otros productos de la competencia. Si le preguntamos a 5 consumidores, ¿Cual es la probabilidad de que exactamente 2 consumidores prefieran nuestro producto? Para esto, tenemos que definir que nuestra variable aleatoria X es el conteo de consumidores que prefieren nuestro producto. Vemos que X es una variable aleatoria binomial con parametros n = 5 y p = 0.25. Usando una notación mas corta, podemos decir que, X ∼ Bin(5, 0.25). Note que lo que queremos calcular es P (X = 2). S = ‘‘éxito’’ → prefieren nuestro producto Ahora com primer paso, F = ‘‘fallo’’ → no prefieren nuestro producto suponga que el primer y el tercer encuestado son s, entonces, el “outcome” es SF SF F pero como los eventos son independientes entonces Sea P (SF SF F ) = P (S)P (F )P (S)P (F )P (F ) = (0.25)(0.75)(0.25)(0.75)(0.75) = (0.25)2 (0.75)3 Ahora si vermos todas nuestas opciones, obtenemos 10 posibilidades SSF F F SF SF F SF F SF SF F F S F SSF F F SF SF F SF F S F F SSF F F SF S F F F SS vemos que cada observación tiene la misma probabilidad de ocurrir, entonces P (X = 2) = 10(0.25)2 (0.75)3 = 0.2637 Note que el patrón de todas las observaciones se basa que de 5 personas 2 son éxito. Definición 1.5. El número de maneras para obtener k éxitos de n observaciones es dado por el coeficiente binomial, este se define como n n! = k!(n − k)! k para k = 0, 1, 2, ..., k 6 Note que n! = n × (n − 1) × (n − 2) × · · · × 3 × 2 × 1 y por definición 0! = 1. Ahora por ejemplo si queremos cuantas opciones tenemos si que remos dos éxitos en 5 personas, para esto tenemos que, n 5! 5! = = k 3!(5 − 3)! 3!2! 5 × 4× 6 3! = 6 3!2! 5 × 2× 6 2 = 62 = 10 Ahora la definición formar de la distribución de probabilidad de una variable aleatoria binomial es, Definición 1.6. Si X ∼ Bin(n, p) entonces n k P (X = k) = p (1 − p)n−k k Ejemplo 1.6. En el ejemplo anterior se entrevisto a 5 personas, por lo tanto n = 5 con una probabilidad idénticamente distribuida de 0.25 por lo tanto p = 0.25 que prefieran nuestro producto. Por lo tanto aplicando la definición anterior tenemos que 5 P (X = 2) = (0.25)2 (0.75)5−2 2 5 = (0.25)2 (0.75)3 . 2 Ejemplo 1.7. Una encuesta encontró que un 65 % de todos los consumidores financieros están muy satisfechos con su institución bancaria. Suponga que 25 clientes son escogidos aleatoriamenete y que esta encuestra es válida al momento hacer dicha selección. ¿Cual es la probabilidad de que exactamente ’19 clientes están muy satisfechos con su institución primaria? Para esto, tenemos que la probabilidad de que los clientes estén muy satisfechos es p = 0.65 por lo tanto los que no están muy satisfechos son 1 − p = 1 − 0.65 = 0.35. Como se observaron 25 clientes, entonces n = 25 y queremos ver 19 de estos eventos por lo tanto k = 19. Entonces tenemos 25 P (X = 19) = (0.65)19 (0.35)25−19 19 = (177, 100)(0.00027884)(0.00183827) = 0.0908 Esto significa que 9.08 % de las veces se obtienen 19 de 25 clientes que están muy satisfechos con su intitución financiera. 7 Ejemplo 1.8. Según el U.S. Census Bureau, aproximadamente 6 % de todos los trabajadores en Jackson, Mississippi están desempleados. Si se realiza una encuesta telefónica aleatoria, ¿Cual es la probabilidad de que se obtengan 2 o menos trabajadores desempleados de una uestra de 20 trabajadores? Para resolver este problema, tenemos que p = 0.6, por lo tanto 1 − p = 1 − 0.06 = 0.94. Sea X el número de trabajadores desempleados, entonces queremos calcular P (X ≤ 2), P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) Entonces tenemos que calcular la probabilidad individual de cada evento y luego sumar, a esto se le conoce como la probabilidad acumulada. P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) 20 20 20 0 20 1 19 = (0.06) (0.94) + (0.06) (0.94) + (0.06)2 (0.94)18 0 1 2 = 20! 20! 20! (0.06)0 (0.94)20 + (0.06)1 (0.94)19 + (0.06)2 (0.94)18 0!(20 − 0)! 1!(20 − 1)! 2!(20 − 2)! = 20! 20! 20! (0.06)0 (0.94)20 + (0.06)1 (0.94)19 + (0.06)2 (0.94)18 0!(20)! 1!(19)! 2!(18)! = 6 20! 20× 6 19! 20 × 19× 6 18! (0.06)0 (0.94)20 + (0.06)1 (0.94)19 + (0.06)2 (0.94)18 0! 6 20! 1! 6 19! 2! 6 18! = (1)(0.06)0 (0.94)20 + (20)(0.06)1 (0.94)19 + 190(0.06)2 (0.94)18 = (1)(0.290106) + (20)(0.0185174) + 190(0.00118196) = 0.885026 1.4. Media y desviación estándar de la distribución binomial Definición 1.7. Si X ∼ Bin(n, p) entonces la media y la desviación estándar se definen como: µ = np p σ = np(1 − p) 2. Distribución Poisson Esta distribución cuenta variables aleatorias. Cuenta el número de eventos “éxitos” que ocurren en alguna unidad fija de medida como lo es la longitud, el área o el tiempo. Existen ciertos requisitos necesarios que se deben cumplir para decir que es un evento Poisson: 8 1. El número de eventos a ocurrir en cualquier unidad fija de medida tienen que ser independientes. No puede existie un “overlapping”. 2. La probabilidad de que un evento ocurra tiene que ser igual para todas las opciones. 3. La probabilidad de que 2 o mas eventos ocurran se hace 0 si la unidad de medida fija se aproxima a 0. La definición formal para la distribución Poisson es: Definición 2.1. La distribución del conteo X de éxitos que cumple con los requisitos de un evento Poisson es una distribución de probabilidad Poisson con media µ. El parameto µ es la media de los “éxitos” por unidad de medida. Los posibles valores para X son números enteros 0, 1, 2, · · · . Si k ∈ (0, ∞) entonces P (X = k) = cuya desviación estándar es √ µk e−µ k! µ. Note que e ≈ 2.71828183. Ejemplo 2.1. En un bando sus clientes llegan aleatoriamente a promedio de 3.2 clientes cada 4 minutos. ¿Cual es la probabilidad de tener mas de 7 clientes en un intérvalo de 4 minutos? Para esto tenemos que µ = 3.2 clientes/4 minutos y queremos ver X > 7 clientes/ 4 minutos. En teorı́a es necesario encontrar valores para X = 8, 9, 10, 11, 12, ... pero veamos lo que pasa: (3.2)8 e−3.2 8! (3.2)9 e−3.2 P (X = 9|µ = 3.2) = 9! (3.2)10 e−3.2 P (X = 10|µ = 3.2) = 10! (3.2)11 e−3.2 P (X = 11|µ = 3.2) = 11! (3.2)12 e−3.2 P (X = 12|µ = 3.2) = 12! (3.2)13 e−3.2 P (X = 13|µ = 3.2) = 13! P (X = 8|µ = 3.2) = = 0.1111 = 0.0040 = 0.0013 = 0.0004 = 0.0001 = 0.0000 Si seguimos calculando para X = 14, 15, ... vamos a obtener P (X) = 0, ası́ que basta con llegar a P (X = 13). Ahora tomando la suma tenemos que: P (X > 7) = P (X ≥ 8) = 0.0169. 9