Estadística Aplicada Tema 6 TEMA 6: VARIABLES ALEATORIAS. DISTRIBUCIONES DE PROBABILIDAD 1. VARIABLES ALEATORIAS 1.1 Variables aleatorias Considera el experimento aleatorio consistente en lanzar dos monedas. El espacio muestral de este experimento es: E = {(C, C), (C, +), (+, C), (+, +)} A cada uno de los resultados posibles le podemos asignar un valor numérico, por ejemplo, el número de caras obtenidas. (C, C) → 2 (C, +) → 1 (+, C) (+, +) → 0 Esta asignación define una función del espacio muestral en el conjunto de los números reales. Las funciones definidas de esta forma se denominan variables aleatorias y se representan mediante una letra mayúscula, por ejemplo X. Definición: Una variable aleatoria, X, es cualquier función que asigne un número real a cada resultado posible de un experimento aleatorio: →ℝ X : E ω → X (ω) Observa que pueden asociarse diferentes variables aleatorias a un mismo experimento. Así, por ejemplo, al lanzar dos monedas podemos considerar, además, la variable que hace corresponder a cada resultado el número de cruces obtenidas, la que asigna a cada resultado el valor 1 si contiene alguna cruz o el valor –1 si no contiene ninguna... 1.2 Tipos de variable aleatoria Una variable aleatoria es una función, por lo que tiene un dominio y un recorrido. El dominio es el espacio muestral E asociado a un experimento aleatorio y el recorrido es un subconjunto de ℝ . Una variable es discreta, si toma sólo un número finito o contable de valores. Si por el contrario, toma infinitos valores, que no presentan huecos diremos que es continua. Ejemplos: Son variables aleatorias discretas: − La variable aleatoria X que asigna el número de caras en el experimento aleatorio lanzar una moneda dos veces, solo puede tomar los valores: {0, 1, 2}. − En un examen tipo test, de 10 preguntas, podemos definir X como la variable que mide el número de respuestas acertadas. X podrá tomar los valores {0, 1, 2, ..., 10}. − Al lanzar un dado, si X designa el resultado obtenido, podrá tomar los valores {1, 2, ..., 6}. − Si X es el número de piezas defectuosas encontradas en un lote de 100, podrá tomar los valores {0, 1, 2, ...., 100}. 1 / 28 Estadística Aplicada Tema 6 Son variables aleatorias continuas: − Considera ahora el experimento aleatorio que consiste en escoger al azar un alumno de la clase y la variable aleatoria que asigna a cada uno de ellos su estatura. Esta variable aleatoria puede tomar, en principio, cualquier valor dentro de un intervalo del conjunto de los números reales ℝ. − Las medidas tales como pesos, tallas, tiempos, temperaturas, etc... Ejercicio 1: Efectuamos el experimento aleatorio consistente en lanzar un dado. Si definimos la variable aleatoria X como el doble del valor numérico de la puntuación observada: a) Especifica el dominio y el recorrido de X. b) Indica si X es una variable aleatoria discreta o continua. Solución: a) El dominio es el espacio muestral del experimento aleatorio: Dom X = E = {1, 2, 3, 4, 5, 6}. Por otra parte, el recorrido es el conjunto de valores que toma: R (X) = {2, 4, 6, 8, 10, 12}; b) X es una variable aleatoria discreta pues su recorrido es un conjunto finito de valores. 2. FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLE ALEATORIA DISCRETA 2.1 Función de probabilidad de una variable aleatoria discreta Considera de nuevo la variable aleatoria X, que asigna a cada resultado del lanzamiento de dos monedas el número de caras obtenidas. ¿Cuál es la probabilidad de que esta variable tome el valor 0? Esta variable toma el valor 0 cuando en el lanzamiento de las dos monedas se obtienen dos cruces. Por lo tanto, la probabilidad de que X tome el valor 0 es la probabilidad de conseguir dos cruces en el lanzamiento de dos monedas. 1 P (X = 0) = P ({(+, +)}) = 4 De la misma manera, se tiene: P (X = 1) = P ({(C, +), (+, C)}) = 1 2 P (X = 2) = P ({C, C)}) = y 1 4 Así pues, podemos asignar a cada valor xi del recorrido de la variable aleatoria X la probabilidad de que X tome dicho valor. De forma general, la función f asigna a cada número real x la probabilidad de que la variable aleatoria X tome ese valor. Esta función cumple lo siguiente: − Si x no es un valor del recorrido de la variable, f (x) = P (X = x) = 0. − Si x es un valor del recorrido de la variable, f (x) = P (X = x) vendrá dada por la distribución de probabilidad de X. Así, en el ejemplo que analizamos: 1/ 4 si f (x) = 1/ 2 si 0 x=0 ó x=2 x =1 en otro caso Esta función se llama función de probabilidad de X y se puede expresar también en forma de gráfica o tabla de valores, como se muestra a continuación: xi P (X = xi) 0 1 4 2 / 28 1 1 2 2 1 4 Estadística Aplicada Tema 6 Definición: Se llama función de probabilidad de una variable aleatoria discreta X a la función que asigna a cada número real x la probabilidad de que X tome el valor x: f : ℝ →ℝ → f (x) = P (X = x) x Al realizar esta operación, se ha asignado probabilidad a cada uno de los valores xi de la variable aleatoria X. Puesto que cada valor asignado es una probabilidad, todos ellos habrán de estar entre 0 y 1. Como recordarás, la probabilidad del suceso seguro es 1, y dado que 0, 1 y 2 son todos los posibles valores de X, su suma ha de ser (salvo redondeo) igual a 1. Estas dos condiciones son necesarias y suficientes para que una asignación sea una función de probabilidad. En consecuencia: 0 ≤ f ( xi ) ≤ 1 Una función f (x) es una función de probabilidad si verifica: ∑ f ( xi ) = 1 2.2 Función de distribución de una variable aleatoria discreta Considera, ahora, la función F que asigna a cada número real x la probabilidad de que la variable aleatoria X tome un valor menor o igual que x: F (x) = P (X ≤ x) Observa que F puede obtenerse a partir de f, ya que: F (x) = P (X ≤ x) = ∑ P (X = xi) = xi ≤ x ∑ f (xi) xi ≤ x donde xi son los valores que toma la variable X. En el ejemplo que venimos estudiando, tendríamos: 0 si x<0 f (0) = 1/ 4 si 0 ≤ x < 1 F (x) = ⇒ F (x) = si 1 ≤ x < 2 f (0) + f (1) = 3 / 4 f (0) + f (1) + f (2) = 1 si x≥2 0 1/ 4 3 / 4 1 si x<0 si 0 ≤ x < 1 si 1 ≤ x < 2 si x≥2 Esta función se llama función de distribución de X. Definición: Se llama función de distribución de una variable aleatoria discreta X a la función que asigna a cada número real x la probabilidad de que X tome un valor menor o igual que x: F : ℝ →ℝ x → F (x) = P (X ≤ x) Ejercicio 2: Considera la variable aleatoria X que cuenta el número de caras que se obtienen al lanzar simultáneamente tres monedas: a) Halla la función de probabilidad f. b) Halla la función de distribución F. Solución: 1/ 8 si x = 0 ó x = 3 a) f (x) = 3 / 8 si x = 1ó x = 2 0 en otro caso 0 1/ 8 b) F (x) = 1/ 2 7 / 8 1 3 / 28 si si si si si x<0 0 ≤ x <1 1≤ x < 2 2≤ x<3 x≥3 Estadística Aplicada Tema 6 2.3 Parámetros de una distribución de variable aleatoria discreta Para una variable aleatoria discreta X que toma valores x1, x2, ..., xn se define: • Media aritmética o esperanza: µ= ∑ xi · f (xi) i • Varianza: σ2 = ∑ (xi – µ)2 · f (xi) = i • ∑ xi2 · f (xi) – µ2 i Desviación típica: σ= Varianza = + σ2 Ejemplo: Calcula la media la varianza y la desviación típica de la variable aleatoria X, cuya función de probabilidad viene dada por la tabla: x –4 –1 2 5 f (x) 0,1 0,5 0,3 0,1 Para calcular los parámetros pedidos, basta con aplicar las expresiones correspondientes: Media: µ = ∑ xi · f (xi) = –4 · 0,1 + (–1) · 0,5 + 2 · 0,3 + 5 · 0,1 = 0,2 i Varianza: σ2 = ∑ xi2 · f (xi) – µ2= (–4)2 · 0,1 + (–1)2 · 0,5 + 22 · 0,3 + 52 · 0,1 – 0,22= 5,76 i Desviación típica: σ = Varianza = + σ2 = + 5, 76 = 2,4 Ejercicio 3: Calcula la media, la varianza y la desviación típica de la variable aleatoria que cuenta el número de caras que se obtienen al lanzar simultáneamente tres monedas. Solución: µ = 1,5; σ2 = 0,75; σ = 0,866 Ejercicio 4: Calcula la media, la varianza y la desviación típica de la variable aleatoria que indica la suma de las puntuaciones obtenidas al lanzar dos dados. Solución: µ = 7; σ2 = 5,833; σ = 2,415 Ejercicio 5: Un juego consiste en lanzar dos dados, de forma que se cobran tantos euros como indique la suma de puntos si ésta es un número primo, o bien, se paguen 6 euros en caso contrario. a) Obtén la función de probabilidad f de la variable aleatoria X que indica la ganancia correspondiente a cada resultado. b) Determina si el juego es equitativo (el juego es equitativo si, y sólo si, µ = 0) 7 /12 1/ 36 1/18 Solución: a) f (x) = 1/ 9 1/ 6 1/18 0 si x = −6 si x = 2 si x = 3 si x = 5 si x = 7 si x = 11 en otro caso b) El juego es equitativo si, y sólo si, µ = 0. En este caso, no lo es. 4 / 28 Estadística Aplicada Tema 6 3. FUNCIÓN DE DISTRIBUCIÓN DE UNA VARIABLE ALEATORIA CONTINUA Anteriormente vimos cómo asociar a una variable aleatoria discreta una distribución de probabilidad. Para ello asignábamos a cada uno de los valores del recorrido de la variable aleatoria X la probabilidad de que X tomara ese valor. Sin embargo, en el caso de una variable aleatoria continua no podemos proceder de igual manera. Considera el experimento consistente en escoger al azar una persona, y la variable aleatoria que asigna a cada una su peso. Esta variable puede tomar, en principio, cualquier valor dentro de un intervalo de ℝ , por lo que hemos de distribuir la probabilidad entre infinitos valores. En consecuencia, la probabilidad de que una variable aleatoria continua tome un valor determinado es, en general, cero. Debemos entonces buscar una alternativa para describir las probabilidades asociadas a este tipo de variables. 3.1 Función de densidad de una variable aleatoria continua Efectuamos tres estudios estadísticos sobre los ingresos mensuales de las familias españolas y obtenemos los siguientes histogramas de frecuencias relativas. Estudio A: muestra de 100 familias Estudio B: muestra de 1000 familias Estudio C: muestra de 10000 familias Observa que cada vez se han considerado muestras con un mayor número de familias y los ingresos se han agrupado en intervalos cada vez menores. Así, en el caso de que la muestra fuera infinitamente grande y los intervalos infinitamente pequeños, el perfil del histograma se convertiría en la gráfica de la función f de la figura derecha. Nos preguntamos ahora cuál es la probabilidad de que una familia tenga unos ingresos de entre mil y dos mil euros. Según la definición experimental de probabilidad, la probabilidad de un suceso es el número al que tienden sus frecuencias relativas cuando aumenta el numero de realizaciones del experimento. Por tanto, para hallar la probabilidad anterior, observamos el número hacia el que tiende la frecuencia relativa del intervalo [1, 2] conforme tomamos muestras cada vez mayores. Este número se corresponde con el área bajo la gráfica de la función f coloreada en la figura, y que representaremos por A 12 (f). La función f recibe el nombre de función de densidad. En general: 5 / 28 Estadística Aplicada Tema 6 Definición: Se llama función de densidad de una variable aleatoria continua X a una función f que cumple las siguientes condiciones: – Su gráfica está por encima del eje de abscisas. ⇒ f (x) ≥ 0 ∀ x ∈ ℝ – El área total bajo su gráfica es 1. La función de densidad f asigna a cada intervalo real [a, b] la probabilidad de que la variable aleatoria X esté comprendida en ese intervalo a partir del cálculo de Aab (f), es decir, el área encerrada por la gráfica de la función y el eje X, entre las rectas x = a y x = b. 1/ 3 si x ∈ [1, 4] Ejemplo: Considera la función: f (x) = 0 si x ∉ [1, 4] a) Comprueba que es una función de densidad. b) Si X es una variable aleatoria cuya función de densidad es f, calcula P (1,6 ≤ X ≤ 5,2). a) Para comprobar que f es una función de densidad, debemos averiguar si cumple las condiciones de la definición. En efecto: – Está claro que su gráfica está por encima del eje de abscisas, puesto que f (x) sólo toma los valores 1/3 y 0. – Representamos la función de densidad y calculamos el área total bajo su gráfica, es decir, +∞ A−∞ (f) De acuerdo con la figura, el área que buscamos es: +∞ A−∞ (f) = Área encerrada por la gráfica de f y el eje X = = 0 + (4 – 1) · 1 +0=1 3 5,2 b) Para hallar la probabilidad que nos pide el enunciado hemos de calcular A1,6 (f). 5,2 (f) = P (1,6 ≤ X ≤ 5,2) = A1,6 = Área encerrada por la gráfica de f y el eje X entre x =1,6 y x = 5,2 = 1 = (4 – 1,6) · + (5 – 4) · 0 = 0,8 3 3.2 Función de distribución de una variable aleatoria continua Definición: Como en el caso discreto, la función de distribución de una variable aleatoria X es la función real F, que asigna a cada valor x ∈ ℝ la probabilidad de que la variable aleatoria tome valores menores o iguales a él, esto es: F : ℝ →ℝ x → F (x) = P (X ≤ x) Nota: Como verás en 2º de Bachillerato, la función de distribución F (x) es una primitiva de la función de densidad f (x) (Teorema fundamental del cálculo integral), y la función de densidad es la derivada de la función de distribución. Por lo tanto, sin más que aplicar la regla de Barrow (o simplemente aplicando la interpretación geométrica de la función de distribución como área) se 6 / 28 Estadística Aplicada Tema 6 deduce inmediatamente que la probabilidad de que X tome valores en un intervalo I de extremos a y b es: P (X ∈ I) = [Área bajo f (x) entre a y b] = ∫ b a f ( x) dx = F (b) – F (a) Obsérvese también que la probabilidad de que una variable aleatoria continua tome un valor puntual siempre es cero: P (X = x) = 0 Ejemplo: Consideremos que X es una variable aleatoria continua cuya función de densidad es la del ejemplo anterior: 1/ 3 si x ∈ [1, 4] f (x) = 0 si x ∉ [1, 4] Para esta variable aleatoria X se tiene la siguiente función de distribución: x F (x) = P (X ≤ x) = A−∞ (f) • Si x < 1, se tiene que F (x) = P (X ≤ x) = 0 • 1 Si 1 ≤ x ≤ 4, se tiene que F (x) = P (X ≤ x) = A−∞ (f) + A1x (f) = 0 + (x – 1) · • 1 Si x > 4, se tiene que F (x) = P (X ≤ x) = A−∞ (f) + A14 (f) + A4x (f) = 0 + 1 + 0 = 1 1 x −1 = 3 3 Por tanto, la función de distribución viene dada por: si x <1 0 x −1 F (x) = si 1 ≤ x ≤ 4 3 si x>4 1 x+8 si −8 ≤ x ≤ 2 Ejercicio 6: Comprueba que la función f (x) = 50 es función de 0 si x < −8 o x > 2 densidad de una variable aleatoria X. Calcula la probabilidad de que X esté dentro del intervalo [–2, 1]. Solución: P (X ∈ [–2, 1]) = 0,45 k si Ejercicio 7: Calcula k para que f (x) = 0 si probabilidades: a) P[4 < x < 6] b) P[2 < x ≤ 5] Solución: k = 1/5; a) 2/5 b) 2/5 c) 0 x ∈ [3,8] sea una función de densidad. Halla las x ∉ [3,8] c) P[x = 6] d) P[5 < x ≤ 10] d) 3/5 mx si x ∈ [3, 7] Ejercicio 8:Calcula m para que f (x) = sea una función de densidad. Halla las 0 si x ∉ [3, 7] probabilidades: a) P (3 < x < 5) b) P (5 ≤ x < 7) c) P (4 ≤ x ≤ 6) d) P (6 ≤ x < 11) Solución: m = 1/20; a) 2/5 b) 3/5 c) 1/2 d) 13/40 7 / 28 Estadística Aplicada Tema 6 4. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD: LA DISTRIBUCIÓN BINOMIAL 4.1 Introducción Estudiaremos en este tema dos de las distribuciones de probabilidad más importantes y que son imprescindibles a la hora de adentrarnos en el estudio de la inferencia estadística. La distribución binomial es uno de los primeros ejemplos de las llamadas distribuciones discretas (que sólo pueden tomar un número finito, o infinito numerable, de valores). Fue estudiada por Jakob Bernoulli (Suiza, 1654–1705), quién escribió el primer tratado importante sobre probabilidad, “Ars conjectandi” (El arte de pronosticar) Los Bernoulli formaron una de las sagas de matemáticos más importantes de la historia. La distribución normal es un ejemplo de las distribuciones continuas, y aparece en multitud de fenómenos sociales. Fue estudiada, entre otros, por J.K.F. Gauss (Alemania, 1777–1855), uno de los más famosos matemáticos de la historia. La gráfica de la distribución normal en forma de campana se denomina Campana de Gauss. 4.2 La distribución binomial Un experimento que tiene las siguientes características sigue el modelo de una distribución binomial: − En cada prueba del experimento sólo son posibles dos resultados, el suceso A al que llamaremos éxito, y su contrario, A , al que llamaremos fracaso. − El resultado obtenido en cada prueba es independiente de los resultados obtenidos en las pruebas anteriores. − La probabilidad del suceso A, éxito, es constante en todas las pruebas. Dicha probabilidad se representa por p, y por q = 1 – p, la probabilidad del suceso A , fracaso. La variable discreta X, que representa el número de éxitos obtenidos en la realización de n pruebas, se dice que sigue una distribución binomial. Los parámetros que caracterizan una distribución binomial son el número de pruebas, n, y la probabilidad del suceso éxito, p, y se representa por B (n, p). Ejemplo: Tiramos un dado 7 veces y contamos el número de cincos que obtenemos. ¿Cuál es la probabilidad de obtener tres cincos? Este es un típico ejemplo de distribución binomial: − Estamos repitiendo 7 veces el experimento de lanzar un dado. Como resultado del mismo nos fijamos en los sucesos: Éxito = A = “sacar un 5” Fracaso = A = “no sacar un 5” − El resultado obtenido en cada lanzamiento es independiente de los resultados obtenidos en los lanzamientos anteriores. − La probabilidad del suceso éxito es constante en cada lanzamiento: 1 5 Éxito = A = “sacar un 5” ⇒ P (A) = ; Fracaso = A = “no sacar un 5” ⇒ P ( A ) = 6 6 1 . En consecuencia, la variable 6 1 aleatoria X, que cuenta el número de cincos obtenidos sigue una distribución binomial B 7, . 6 Por tanto, los parámetros de la distribución son n = 7 y p = 8 / 28 Estadística Aplicada Tema 6 Ejercicio 9: La opinión que tiene la población sobre la gestión de su Ayuntamiento es favorable en el 30% de los casos, y desfavorable en el resto. Elegidas 10 personas al azar, comprueba si la variable aleatoria que expresa el número de personas de la población favorable a la gestión del Ayuntamiento sigue una distribución binomial. En caso afirmativo, señala los parámetros de la distribución. Solución: Se trata de una distribución binomial de parámetros n = 10 y p = 0,3; es decir, B (10; 0,3). Ejercicio 10: Se reparten unas invitaciones sabiendo que el 40% de los invitados asistirán al acto. Se seleccionan al azar 12 invitados. Comprueba si la variable aleatoria que expresa el número de personas que asisten al acto sigue una distribución binomial. En caso afirmativo, señala los parámetros de la distribución. Solución: Se trata de una distribución binomial de parámetros n = 12 y p = 0,4; es decir, B (12; 0,4). Ejercicio 11: En un grupo de 16 personas, 10 son varones, y 6, mujeres. Se eligen al azar 3 personas del grupo. Comprueba si la variable aleatoria que expresa el número de varones elegidos sigue una distribución binomial. En caso afirmativo, señala los parámetros de la distribución. Solución: No se trata de una distribución binomial. La razón es que una vez elegida una persona, la selección de la segunda no se puede repetir en las mismas condiciones que la primera vez ya que hay una persona menos en el grupo. 4.3 Función de probabilidad de la distribución binomial Se considera un experimento aleatorio cuyos resultados únicamente pueden ser el suceso A = “éxito” y el suceso A = “fracaso”, con probabilidades p y q = 1 – p, respectivamente. Se realizan n pruebas del experimento y se quiere saber la probabilidad de obtener k éxitos en las n pruebas. 1. Uno de los casos en los que se obtienen k éxitos en las n pruebas es el suceso: n − k fracasos k éxitos B = A ∩ A ∩ ... ∩ A ∩ A ∩ A ∩ ... ∩ A La probabilidad de B, teniendo en cuenta la independencia en pruebas sucesivas, será: n − k veces k veces P (B) = P ( A) ∩ P ( A) ∩ ... ∩ P ( A) ∩ P ( A) ∩ P ( A) ∩ ... ∩ P ( A) 2. Ahora bien, hay que considerar todas las maneras posibles de obtener k éxitos y n – k fracasos, y esta cantidad viene dada por: n n! = P nk , n − k = k !·(n − k )! k 3. Si x es la variable aleatoria binomial que representa el número de éxitos obtenidos en n pruebas, resulta: n P (obtener k éxitos) = P (X = k) = · p k · q (n – k) k Esta expresión recibe el nombre de función de probabilidad de la distribución binomial. Nota: Observar que las probabilidades de éxito y fracaso son complementarias, es decir, q = 1 – p y p = 1 – q, por lo que basta saber una de ellas para calcular la otra. Ejemplo: Retomemos el ejemplo anterior: Tiramos un dado 7 veces y contamos el número de cincos que obtenemos. ¿Cuál es la probabilidad de obtener tres cincos? 9 / 28 Estadística Aplicada Tema 6 La variable aleatoria X, que cuenta el número de cincos obtenidos sigue una distribución binomial 1 B 7, 6 Para calcular la probabilidad que nos piden, fijémonos en que nos dicen que sacamos 3 cincos y por lo tanto tenemos 3 éxitos y 4 fracasos, entonces: 3 7 −3 3 4 7 1 5 7 1 5 P (X = 3) = · · = · · = 0,0781 3 6 6 3 6 6 Ejemplo: Supongamos que la probabilidad de que una pareja tenga un hijo o una hija es igual. Calcular la probabilidad de que una familia con 6 descendientes tenga 2 hijas. − Estamos repitiendo 6 veces el “experimento” de tener un descendiente. Como resultado del mismo nos fijamos en los sucesos: Éxito = A = “tener una hija” Fracaso = A = “tener un hijo” − El sexo del desecendiente en cada nacimiento es independiente del sexo de los descendientes anteriores. − La probabilidad del suceso éxito es constante en cada lanzamiento: 1 1 Éxito = A = “tener una hija” ⇒ P (A) = ; Fracaso = A = “tener un hijo” ⇒ P ( A ) = 2 2 1 . En consecuencia, la variable 2 1 aleatoria X, que cuenta el número de hijas sigue una distribución binomial B 6, . 2 Por tanto, los parámetros de la distribución son n = 6 y p = Nos piden la probabilidad de que una familia con 6 descendientes tenga 2 hijas, esto es, P (X = 2). Si aplicamos la fórmula tenemos: 2 4 6 1 1 P (X = 2) = · · = 0,2344 2 2 2 Nota: La elección de éxito o fracaso es subjetiva y queda a elección de la persona que resuelve el problema, pero teniendo cuidado de plantear correctamente lo que se pide. En el caso concreto del ejemplo anterior, si consideramos como éxito = “tener hijo”, como nos piden la probabilidad de que una familia con 6 descendientes tenga 2 hijas, si el éxito es tener hijo hemos de plantearnos cuál es la probabilidad de tener 4 éxitos (4 hijos), es decir: 4 2 6 1 1 P (X = 4) = · · = 0,2344 4 2 2 Evidentemente sale lo mismo, pero hay que ser consecuente a la hora de elegir el éxito y el fracaso y la pregunta que nos hagan. Ejercicio 12: La probabilidad de que un esquiador debutante se caiga en la pista es de 0,4. Si lo intenta 5 veces, calcula la probabilidad de que se caiga 3 veces. Solución: 0,2304 10 / 28 Estadística Aplicada Tema 6 Ejercicio 13: La probabilidad de que un cazador novato cobre una pieza es 0,35. Si lo intenta 8 veces, calcula la probabilidad de que cobre 4 piezas. Solución: 0,1875 4.4 El uso de las tablas de la distribución binomial La distribución binomial se encuentra tabulada por lo que es fácil calcular probabilidades sin necesidad de hacer demasiadas cuentas. Para usar las tablas de la distribución binomial es necesario conocer: − El número de veces que se realiza el experimento, n. − La probabilidad de éxito, p. − El número de éxitos, k. La probabilidad p se busca en la primera fila (valores desde 0,01 hasta 0,5). El número de veces que se realiza el experimento, en la primera columna (valores desde 2 a 10) y el número de éxitos, k, a su lado (2ª columna). La probabilidad buscada es el número que aparece en la intersección de la fila y la columna buscadas. Ejemplo: En el caso anterior, B (6; 0,5), P (X = 2), la columna p = 0,5 es la última, y cuando n = 6 y k = 2 encontramos 0,2344, el valor que habíamos calculado. Nota importante: Para calcular probabilidades donde p > 0,5, basta intercambiar los papeles de éxito y fracaso para que podamos utilizar la tabla. La explicación es bien sencilla, pues si p > 0,5, entonces q < 0,5, esto es, si X es una variable B (n, p), entonces P (X = k) = P (Y = n – k), donde y es una variable B (n, q), pero ahora q < 0,5 y sí está tabulada. Ejemplo: La probabilidad de que un alumno de 2º de Bachillerato apruebe las Matemáticas es de 0,7. Si consideramos un grupo de 8 alumnos, ¿cuál es la probabilidad de que cinco de ellos aprueben las Matemáticas? Si consideramos los sucesos éxito = “aprobar” y fracaso = “suspender”, entonces p = 0,7 y q = 0,3. Tenemos, por tanto, que la variable aleatoria, X, que cuenta el número de aprobados sigue una distribución binomial B (8; 0,7). Nos piden calcular P (X = 5), que no se puede calcular mediante las tablas porque p = 0,7 y sólo aparecen probabilidades hasta p = 0,5. Por tanto si intercambiamos los papeles y consideramos como éxito = “suspender” y fracaso =“aprobar” entonces tenemos que p = 0,3, q = 0,7, es decir la nueva variable aleatoria, Y, que cuenta el número de suspensos sigue una distribución binomial B (8; 0,3). Como nos piden que aprueben 5 de 8, es decir que suspendan 3 de 8 o lo que es lo mismo, que tengamos 3 suspensos, ahora éxitos, debemos calcular P (Y = 3), y buscando en la tabla se tiene que P (X = 3) = 0,2541. También, desde luego podríamos haber utilizado la fórmula desde el principio, usar la calculadora, y calcular directamente la probabilidad P (X = 5) mediante la distribución B (8; 0,7) y olvidarnos de tablas: 8 P (X = 5) = · (0,7)5 · (0,3)3 = 0,2541 5 Ejercicio 14: Supongamos que el porcentaje de estudiantes que han repetido curso alguna vez es del 35 %. Si se toman 8 estudiantes al azar, ¿cuál es la probabilidad de que 2 de ellos hayan repetido curso? Solución: 0,2587 11 / 28 Estadística Aplicada Tema 6 4.5 Probabilidades acumuladas Es posible que nos pidan no sólo la probabilidad de que ocurran un cierto número de éxitos en concreto, sino que ocurran como mucho “k” éxitos o preguntas similares. En el ejemplo anterior, por ejemplo, podrían pedirnos, ¿cuál es la probabilidad de que aprueben como mucho 2 alumnos? Si éxito = “aprobar” y fracaso = “suspender”, p = 0,7 y q = 0,3, entonces nos piden P (X ≤ 2). En este caso, basta pensar en que para que aprueben 2 alumnos como mucho, puede que aprueben 2, 1 o ninguno, es decir: P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0,0001 + 0,0012 + 0,01 = 0,1013 O también nos podrían pedir, ¿cuál es la probabilidad de que aprueben entre 3 y 6 alumnos (inclusive)? Del mismo modo: P (3 ≤ X ≤ 6) = P (X = 3) + P (X = 4) + P (X = 5) + P (X = 6) = = 0,0467 + 0,1361 + 0,2541 + 0,2965 = 0,7334 Hemos de tener en cuenta que para la distribución binomial, en las tablas sólo se admiten valores hasta n = 10 (10 repeticiones del experimento). Para valores de n > 10, inevitablemente debemos utilizar la fórmula y la calculadora. Ejemplo: Los alumnos de cierta clase se encuentran en una proporción del 67 % que estudian inglés y el resto francés. Tomamos una muestra de 15 alumnos de la clase, calcular: a) Probabilidad de que al menos encontremos tres alumnos de inglés. b) Probabilidad de que los 15 alumnos estudien inglés. c) Probabilidad de que estudien inglés entre 7 y 10 alumnos. Si éxito = “estudiar inglés”, (p = 0,67) y fracaso = “estudiar francés”, (q = 1 – 0,67 = 0,33). Manejamos por tanto una variable aleatoria X = “nº de alumnos que estudian inglés”, que sigue una distribución binomial B (15; 0,67). a) P (X ≥ 3) = P (X = 3) + P (X = 4) + P (X = 5) + P (X = 6) + ··· + P (X = 15). Una opción es calcular estas 13 probabilidades y sumarlas. Como hay que aplicar la fórmula para calcular cada una, la tarea se puede hacer bastante larga. Otra opción, más sencilla, es pasar al complementario. El complementario de encontrar al menos 3 alumnos de inglés es encontrar como mucho 2 alumnos de inglés, P (X ≤ 2). Es decir, P (X ≥ 3) = 1 − P (X < 3) = 1 − P (X ≤ 2) = 1 − (P (X = 0) + P (X = 1) + P (X = 2)) y sólo tenemos que calcular 3 probabilidades: P (X = 0) ≈ 0, P (X = 1) = 0,000001, P (X = 2) = 0,000026 Por lo cual, P (X ≥ 3) = 1 − (0 + 0,000001 + 0,000026) = 1 − 0,000027 = 0,999973 b) c) P (X = 15) = 0,0025 (aplica la fórmula). P (7 ≤ X ≤ 10) = P (X = 7) + P (X = 8) + P (X = 9) + P (X = 10) = = 0,0549 + 0,1114 + 0,1759 + 0,2142 = 0,5564 12 / 28 Estadística Aplicada Tema 6 Ejercicio 15: En 1992 el 20 % de las películas de cine proyectadas en España eran de nacionalidad española. Si tomamos una muestra de 6 películas, calcula la probabilidad de que haya: a) Una película española. b) Tres o más películas españolas. Solución: a) 0,3932; b) 0,0989 4.6 Media y desviación típica en una distribución binomial Aunque no se demostrará, en una distribución binomial B (n, p), el número esperado de éxitos o media, viene dado por µ = n · p. (Recordemos que la media es una medida de centralización). La desviación típica, σ, que es una medida de dispersión y mide lo alejados que están los datos de la media, viene dada por σ = n · p · q . La varianza es σ2 = n · p · q. 5. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD: LA DISTRIBUCIÓN DE POISSON 5.1 Definición de distribución de Poisson: La distribución de Poisson se aplica en situaciones en que se tiene una distribución binomial con p muy pequeño (p → 0) y n (número de pruebas u observaciones de 1a muestra) grande (n → ∞) y el producto n · p se mantiene constante, e igual a un número pequeño, λ (np → λ). Suele recibir el nombre de ley de los sucesos raros. La distribución de probabilidad se obtiene tomando límite cuando n tiende a infinito en la distribución de probabilidad de la binomial, es decir, n P (X = k)= Lim p k (1 − p ) n − k x →∞ k Ejemplos de experimentos en que se aplicaría la distribución de Poisson: • Número de emisiones radiactivas. • Número de piezas defectuosas en una muestra suficientemente grande donde la proporción de piezas defectuosas es pequeña. • Número de partos triples por año. Ejemplo: Supongamos que tenemos una urna que contiene 1000 bolas, de las cuales una es blanca y 999 son negras. La probabilidad de extraer una bola blanca es muy pequeña: (1 / 1000= 0,001). Si se sacan n bolas de la urna, con devolución (volviéndose a meter una vez sacadas), es necesario repetir esta prueba muchas veces para que la probabilidad de sacar la bola blanca sea apreciable. Por tanto, n será muy grande y p es pequeño. En un caso como este utilizaremos por su mayor sencillez la distribución de Poisson. 5.2 Función de probabilidad de una distribución de Poisson: Se demuestra que la distribución de probabilidad es: e− λ · λ k P (X = k) = donde k = 0, 1, 2, 3, 4, ... k! Ejemplo: Supóngase que estamos investigando la seguridad de un crucero muy peligroso. Los archivos de la policía indican una media de cinco accidentes por mes en él. Si el número de accidentes está distribuido conforme a la distribución de Poisson, y la división de seguridad en carreteras quiere calcular la probabilidad de exactamente 0, 1 y 3 accidentes en un mes determinado, aplicando la fórmula anterior tenemos que: 13 / 28 Estadística Aplicada P (0) = e −5 ·50 = 0,00674 0! Tema 6 ; P (1) = e −5 ·51 = 0,03370 1! ; P (3) = e −5 ·53 = 0,14042 3! Notas: 1. Cuando hablemos de una distribución de Poisson, la denotaremos por P (r, λ), siendo λ el parámetro de la distribución, donde λ es la media. 2. La distribución de Poisson P (r, λ) se considera una buena aproximación a 1a distribución binomial, B (n, p), en el caso que n · p ≤ 5 y p < 0,1 o n ≥ 100 y p ≤ 0,05 y en ese caso λ = n · p. El interés por sustituir la distribución binomial por una distribución de Poisson se debe a que esta última depende únicamente de un solo parámetro, λ, y la binomial de dos, n y p. 3. Existe una tabla tabulada de la distribución de Poisson, y representa la distribución de probabilidad. Ejemplo: Se lanzan cuatro monedas 48 veces y se desea saber la probabilidad de obtener 4 caras dos veces. En principio se trata de una distribución binomial de parámetros n = 48 y p = 1/16 (Usando la fórmula y la calculadora podemos decir que: P(X = 2) = 0,2263). Ahora bien, como p = 1/16 y n · p = 48 · 1/16 = 3 si se aproxima por una P (r, λ), con λ = n · p = 3, buscando en la tabla de la distribución de Poisson, tendremos que: e −3 ·32 = 0,2240 P (X = 2) = 2! Ejercicio 16: Por ejemplo, si 2 % de los libros encuadernados en cierto taller tiene encuadernación defectuosa, obtener, mediante la distribución de Poisson, la probabilidad de que 5 de 400 libros encuadernados en este taller tengan encuadernaciones defectuosas. Solución: 0,092 Ejercicio 17: La probabilidad de tener un accidente de tráfico es de 0,02 cada vez que se viaja, si se realizan 300 viajes, ¿cual es la probabilidad de tener 3 accidentes? Solución: 0,0892 Ejercicio 18: La probabilidad de que una persona muera debido a un cierto virus es de 0,001. ¿Cuál es la probabilidad de que mueran al menos tres personas en una población de 3000 personas afectadas por dicho virus? Solución: 0,5768 5.3 Media y desviación típica en una distribución de Poisson Toda variable aleatoria discreta que sigue una ley de Poisson tiene como características: − La media µ = E[X] = λ. − La varianza σ2 = λ. − Desviación típica: σ = λ A pesar de lo comentado anteriormente, la distribución de Poisson aparece de una forma natural al tratar de encontrar una ley de probabilidades de una variable aleatoria que nos da en número medio de sucesos por unidad de tiempo, de longitud, área, volumen, etc, ... en determinados fenómenos. Por ejemplo: número de bacterias en un cierto área del microscopio. 14 / 28 Estadística Aplicada Tema 6 6. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD: LA DISTRIBUCIÓN NORMAL 6.1 La distribución Normal Al estudiar aspectos tan cotidianos como: − Caracteres morfológicos de individuos (personas, animales, plantas) de una misma raza como tallas, pesos, envergaduras, etc. − Caracteres fisiológicos, como el efecto de una misma dosis de un fármaco, o de una misma cantidad de abono. − Caracteres sociológicos, como el consumo de ciertos productos por individuos de un mismo grupo humano. − Caracteres psicológicos, como el cociente intelectual, grado de adaptación a un medio. − Caracteres físicos, como la resistencia a la rotura de ciertas piezas... Todos ellos tienen en común que se distribuyen “normalmente”. ¿Qué quiere decir esta expresión? Experimentalmente se ha podido comprobar que en casos como los anteriores el histograma de frecuencias relativas adopta una forma muy parecida a la de una campana cuando el número de datos es muy grande. Así, por ejemplo, si hacemos una estadística para conocer la altura de 1400 mujeres y representamos los resultados en un diagrama de barras, obtenemos: Muestra de tamaño grande Las gráficas de este tipo son muy corrientes: hay pocos individuos en los extremos y un aumento paulatino hasta llegar a la parte central del recorrido, donde está la mayoría de ellos. La distribución normal fue introducida por primera vez por Abraham de Moivre en 1733 como límite de la distribución binomial. Posteriormente Carl Friedrich Gauss, en su estudio de los errores de medida en datos de observaciones astronómicas, indicó la expresión de la función de densidad de la distribución normal. Por ello esta distribución también se conoce con el nombre de curva o campana de Gauss. Variable aleatoria de la distribución normal: Una variable aleatoria continua X sigue una distribución normal de media µ y desviación típica σ, y se designa por N (µ, σ), si se cumplen las siguientes condiciones: • La variable puede tomar cualquier valor real, es decir, x ∈ (–∞, +∞). • La función de densidad, que es la expresión en términos de ecuación matemática de la curva de Gauss, es: 1 x −µ σ 2 − 1 f (x) = · e 2 σ 2π La representación gráfica de la misma es una curva positiva continua, simétrica respecto a la recta x = µ media, con un máximo en la abscisa x = µ, y que tiene 2 puntos de inflexión, situados a ambos lados de la media (µ − σ y µ + σ respectivamente) y a distancia de σ ella, y que tiene por asíntota horizontal al eje de abscisas, es decir de la forma: 15 / 28 Estadística Aplicada Tema 6 1 Distribución normal N (µ, σ). El máximo está en µ, 2πσ2 Dependiendo de los valores que tomen µ y σ, la gráfica de esta función puede ser más o menos alargada, achatada, etc..., pero en cualquier caso siempre tiene las mismas condiciones de simetría, continuidad, etc reseñadas anteriormente. Propiedad: El área encerrada bajo la curva normal N (µ, σ) siempre es 1. (La demostración de este resultado no es nada sencilla e implica el uso de resultados matemáticos que exceden el nivel de este curso) 6.2 Distribución normal estándar De entre todas las curvas normales N (µ, σ), la más sencilla, usada y conocida es aquella que tiene por media 0 y por desviación típica 1, N (0, 1). Esta normal estándar, o tipificada, se suele representar por Z. La gráfica de esta curva se puede observar en la figura: Su función de densidad será: 2 x − 1 f (x) = ·e 2 2π Para un valor cualquiera k, definimos la probabilidad de que la distribución Z, N (0, 1), sea menor o igual que k como: P (Z ≤ k) = “área encerrada bajo la curva normal N (0,1) desde −∞ hasta k” Área encerrada por la curva normal desde −∞ hasta k Ahora bien, ¿cómo calcular dicha área? Fácil: dichas áreas o probabilidades se encuentran tabuladas. 16 / 28 Estadística Aplicada Tema 6 6.3. Uso de las tablas de la distribución normal N (0, 1) La normal N (0, 1) se encuentra tabulada, para valores a partir de 0 y hasta 3,69. Si por ejemplo queremos calcular P (Z ≤ 2,78), hemos de realizar los pasos: 1. Buscar la parte entera y las décimas en la primera columna (en este caso 2,7) 2. Buscar las centésimas en la primera fila (en este caso 0,08) 3. En el punto común a la fila y la columna que hemos encontrado, tenemos la probabilidad buscada, en este caso 0,9973. Por tanto: P (Z ≤ 2,78) = 0,9973. Si queremos calcular una probabilidad de un valor mayor que 3,69, basta fijarse en que las probabilidades correspondientes a valores tales como 3,62 y mayores ya valen 0,9999 (prácticamente 1). Por eso, para estos valores mayores que 3,99, diremos que la probabilidad es aproximadamente 1. Así: P (Z ≤ 5,62) ≈ 1 aunque no aparezca en la tabla. Por otra parte, fijémonos en que en este tipo de distribuciones no tiene sentido plantearse probabilidades del tipo P (Z = k), ya que siempre valen 0, al no encerrar ningún área. Por tanto, si nos pidiesen P (Z = 3,2), basta decir que P (Z = 3,2) = 0. Recordemos que en este tipo de distribuciones en las cuales la probabilidad de tomar un valor concreto es 0 se denominan distribuciones continuas, para diferenciarlas de otras en las que esto no ocurre, como por ejemplo la binomial, que es una distribución discreta. Ejercicio 19: Buscar en la tabla de la normal estándar N (0, 1) las probabilidades: a) P (Z ≤ 1,15) b) P (Z ≤ 0,5) c) P (Z ≤ 0,82) d) P (Z ≤ 1,5) e) P (Z ≤ 4,27) f) P (Z ≤ 18,19) Solución: a) 0,8749 b) 0,6915 c) 0,7939 d) 0,9332 e) 1 f) 1 6.4 Cálculo de otras probabilidades 1. Si k es positivo y queremos calcular P (Z ≥ k), es decir el área rayada: P (Z ≥ k) Basta pasar al complementario. Así, al pasar al complementario, si tenemos Z ≥ k, su complementario será Z < k, pero como incluir k no influye en la probabilidad, al calcular probabilidades podemos escribir: P (Z ≥ k) = 1 − P (Z < k) = 1 − P (Z ≤ k) Esta última probabilidad ya se encuentra tabulada. 17 / 28 Estadística Aplicada Tema 6 Sólo se puede hacer esto en distribuciones continuas, en el caso de la binomial esto no se puede hacer y hay que ser cuidadosos con el paso al complementario. Ejercicio 20: Calcular P (Z ≥ 0,3) y P (Z ≥ 2,07) Solución: P (Z ≥ 0,3) = 0,3821 ; P (Z ≥ 2,07) = 0,0192 2. Si k es positivo y queremos calcular P (Z ≤ −k), es decir el área: P (Z ≤ −k) Por simetría, P (Z ≤ −k) = P (Z ≥ k) = 1 – P (Z ≤ k) Las probabilidades de valores negativos no están tabuladas, pero por las propiedades de la función de densidad, dicha área es igual a la mostrada en la siguiente figura: ⇒ Por las propiedades de la distribución de probabilidad tendremos entonces que: P (Z ≤ −k) = P (Z ≥ k) = 1 – P (Z ≤ k) La simetría permite reducir este caso al anterior. Ejercicio 21: Calcular P (Z ≤ −0,78) y P (Z ≤ −3,2). Solución: P (Z ≤ −0,78) = 0,2177 ; P (Z ≤ −3,2) = 0,0007 3. Si k es positivo y queremos calcular P (Z ≥ −k), es decir el área rayada: P (Z ≥ −k) Igual que en el caso anterior, teniendo en cuenta las propiedades de la función de densidad, dicha área es igual a la mostrada en la siguiente figura: 18 / 28 Estadística Aplicada Tema 6 ⇒ Entonces, por simetría: P (Z ≥ −k) = P (Z ≤ k): La simetría permite reducir este caso al que ya está tabulado. Ejercicio 22: Calcular P (Z ≥ −0,96) y P (Z ≥ –1,01). Solución: P (Z ≥ −0,96) = 0,8315 ; P (Z ≥ –1,01) = 0,8438 4. Probabilidades comprendidas entre dos valores, P (k1 ≤ Z ≤ k2), es decir el área rayada: P (k1≤ Z ≤ k2) Probabilidad comprendida entre dos valores se calcula restando las áreas: – P (Z ≤ k2) en la primera imagen P (Z ≤ k1) en la segunda. Al restar obtenemos el área pedida, es decir: P (k1≤ Z ≤ k2) = P (Z ≤ k2) − P (Z ≤ k1) Ejercicio 23: Calcular P (−0,96 ≤ Z ≤ 1,49) y P (−1,32 ≤ Z ≤ −0,57). Solución: P (−0,96 ≤ Z ≤ 1,49) = 0,7634 ; P (−1,32 ≤ Z ≤ −0,57) = 0,1909 Ejercicio 24: Calcular P (Z = 2), P (Z ≤ 2), P (Z ≥ 2), P (Z ≤ −2), P (Z ≥ −2), P (−2 ≤ Z ≤ 2) y P (0,81 ≤ Z ≤ 1,33) Solución: P (Z = 2) = 0 ; P (Z ≤ 2) = 0,9772 ; P (Z ≥ 2) = 0,0228 ; P (Z ≤ −2) = 0,0228 ; P (Z ≥ −2) = 0,9772 P (−2 ≤ Z ≤ 2) = 0,9544 ; P (0,81 ≤ Z ≤ 1,33) = 0,1172 6.5Uso inverso de la tabla: conocidas las probabilidades, hallar los valores de la variable Hasta ahora nos han dado la distribución normal N (0, 1) y nos pedían P (Z ≤ k) siendo k un cierto número, y nos pedían calcular dicha probabilidad. Ahora bien, otra pregunta puede ser: Dado que en una normal N (0, 1) sabemos que P (Z ≤ k) = 0,9099, ¿cuánto vale k? 19 / 28 Estadística Aplicada Tema 6 Vamos a distinguir dos casos: 1. La probabilidad aparece en las tablas (está entre 0,5 y 1). En este caso basta con mirar la fila y la columna en que aparece. Ejemplo: Calcula el valor de z0 si P (Z ≤ z0) = 0,9099. Como 0,9099 aparece en la fila de 1,3 y la columna de 0,04, el valor buscado es z0 = 1,34. Nota: En caso de que el valor a buscar no aparezca exactamente dentro de la tabla de la distribución normal, tomaremos el valor más próximo a él por exceso. 2. La probabilidad no está en las tablas, es decir, es menor de 0,5; luego el número buscado es negativo. Entonces buscamos y0 con la condición de que P (Z ≤ y0) = 1 – α (siendo α la probabilidad dada) y entonces z0 = 1 – y0. Ejemplo: Calcula el valor de z0 si P (Z ≤ z0) = 0,4562. Como 0,4562 no aparece en la tabla por ser menor que 0,5, entonces buscamos: P (Z ≤ y0) = 1 – 0,4562 = 0,5438 Dicha probabilidad aparece en la fila de 0,1 y la columna de 0,01, luego y0 = 0,11 y entonces el valor buscado es z0 = –y0 = –0,11. Ejercicio 25: Calcular k si: a) P (Z ≤ k) = 0,8078. b) P (Z ≥ k) = 0,0028. Solución: a) k = 0,87 ; b) k = 2,77 6.6 Cálculo de probabilidades en normales N (µ µ, σ). Tipificación de la variable Si no tenemos una distribución N (0, 1), sino una N (µ, σ) cualquiera, ¿cómo calcular probabilidades, si no tenemos tabla salvo para N (0, 1)? El siguiente resultado nos da la respuesta. Propiedad: X −µ sigue una distribución N (0, 1). σ El paso de la variable X → N (µ, σ) a la Z → N (0, 1) se denomina tipificación de la variable X. Si X sigue una distribución N (µ, σ), entonces la variable Z = Ejemplo: Las estaturas de 600 soldados se distribuyen de acuerdo a una distribución normal de media 168 y desviación típica 8 cm. ¿Cuántos soldados miden entre 166 y 170 cm? Sea X la distribución de los soldados, X es una N (168, 8). Nos piden P (166 ≤ X ≤ 170). Utilizando el resultado anterior, tipificamos la variable y obtenemos: 166 − 168 X − 168 170 − 168 −2 X − 168 2 P (166 ≤ X ≤ 170) = P ≤ ≤ ≤ ≤ = = = P 8 8 8 8 8 8 = P (−0,25 ≤ Z ≤ 0,25) = P (Z ≤ 0,25) − P (Z ≤ −0,25) = P (Z ≤ 0,25) − P (Z ≥ 0,25) = = P (Z ≤ 0,25) − [1 − P (Z ≤ 0,25)] = 2 P (Z ≤ 0,25) − 1 = 0,1974 Ejercicio 26: En una distribución N (22, 5), calcula: P (X ≤ 27), P (X ≥ 27), P (X ≥ 125), P (15 ≤ X ≤ 20), P (17 ≤ X ≤ 30). Solución: P (X ≤ 27) = 0,8413 ; P (X ≥ 27) = 0,1587 ; P (X ≥ 125) = 0 ; P (15 ≤ X ≤ 20) = 0,2638 P (17 ≤ X ≤ 30) = 0,7865 20 / 28 Estadística Aplicada Tema 6 Ejercicio 27: Los pesos de 60 soldados siguen una distribución N (67, 5). Calcula la probabilidad de que el peso sea: a) mayor de 80 kg. b) 50 kg. o menos c) menos de 60 kg. d) 70 kg. e) Entre 60 y 70 kg inclusive. Solución: a) 0,0047 ; b) 0,0003 ; c) 0,9192 ; d) 0 ; e) 0,6449 Ejemplo: Si X sigue una normal N (6, 3) y P (X ≤ k) = 0,9082, calcula k. Tipificando: X −6 k −6 P (X ≤ k) = P ≤ = 0,9082 3 3 ⇒ k −6 P Z ≤ = 0,9082 3 Y buscando en la tabla el valor correspondiente de la variable, se tiene que: k −6 = 1,33 ⇒ k – 6 = 3,33 ⇒ k = 9,99 3 Ejercicio 28: Calcular k si P (X ≤ k) = 0,6141 y X sigue una N (15, 4). Solución: k = 16,16 Ejercicio 29: De una variable normal N (µ, σ) se sabe que: P (X ≤ 7) = 0,9772 y P (X ≤ 6,5) = 0,8413 Calcular: a) µ y σ. b) P (5,65 ≤ X ≤ 6,25) c) El número k tal que P (X > k) = 0,3 Solución: a) µ = 6 y σ = 0,5 ; b) 0,4495 ; c) k ≈ 6,27 7. RELACIÓN ENTRE LA DISTRIBUCIÓN BINOMIAL Y LA DISTRIBUCIÓN NORMAL Es un hecho comprobado que cuando tenemos una distribución B (n, p), a medida que n crece, es difícil hacer uso de las fórmulas y/o tablas. Por ejemplo, tiramos un dado 100 veces, calcular la probabilidad de obtener entre 20 y 33 cincos (inclusive). 1 5 Si éxito = “obtener cinco”, entonces p = y fracaso = “no obtener cinco” y q = . Tenemos una 6 6 1 distribución B 100, , y nos piden P (20 ≤ X ≤ 33). Es inviable aplicar las tablas (pues repetimos 6 el experimento 100 veces) y tampoco la fórmula pues es inviable calcular, por ejemplo, 32 68 100 1 5 P (X = 32) = · · 32 6 6 ¿Cómo resolver el problema? Del siguiente modo: Teorema Central del Límite: La distribución binomial B (n, p) se aproxima a una curva normal N (µ, σ), de media µ = n · p y desviación típica σ = n · p · q, cuando n → ∞, es decir, cuando n se hace muy grande. n grandes B (n, p) → N (µ, σ) = N (n · p, n · p · q ), La aproximación se puede aplicar (es una buena aproximación) sólo si n es grande, en concreto n ≥ 30 (y p no está muy próximo ni a 0 ni a 1), aunque, en general, consideraremos que la aproximación es buena si n · p ≥ 5 y n · q ≥ 5. Si no se cumplen estas condiciones NO podemos 21 / 28 Estadística Aplicada Tema 6 aproximar la binomial que tengamos por una distribución normal. En caso de que podamos aproximar, debemos tener en cuenta que estamos pasando de una variable discreta (binomial) a una continua (normal), y por tanto son distribuciones diferentes. El “precio” que hay que pagar por pasar de una a otra se denomina “corrección por continuidad” y consiste en hacer determinados ajustes para que la aproximación realizada sea lo más precisa posible. El paso siguiente consiste en aproximar las áreas en el histograma por las áreas bajo la curva normal que lo aproxime. Para facilitar la comprensión del proceso utilizamos el símbolo Pb para probabilidades calculadas con una distribución binomial y el símbolo Pn para el caso de probabilidades calculadas con distribuciones normales: Pb (X = x) = Altura del rectángulo ≈ ≈ Imagen de x mediante la función de densidad de la normal N (µ, σ) ≈ ≈ Área del rectángulo ≈ ≈ Área bajo la función de densidad de la normal N (µ, σ) entre x – 0,5 y x + 0,5 = Pn (X = x) Así, si nos piden P (X = k) en una distribución binomial X, y aproximamos X por una distribución normal Y, no podemos calcular directamente P (Y = k) porque, como ya se ha comentado anteriormente, en una distribución continua todas estas probabilidades puntuales valen 0. La corrección por continuidad consiste en tomar un pequeño intervalo de longitud 1 alrededor del punto k. De otro modo, si nos piden P (X = k) con X binomial, con la aproximación normal Y deberemos calcular P (k − 0,5 ≤ Y ≤ k + 0,5). Del mismo modo se razona en el caso de probabilidades acumuladas en la binomial. Algunos ejemplos: Si nos piden P (X < k) con X binomial, aproximando por Y normal calcularemos P (Y ≤ k − 0,5). La explicación de que haya que restar 0,5 y no sumarlo es que queremos que X sea menor estrictamente que k, con lo cuál, si sumase 0,5, el propio k aparecería en la probabilidad a calcular y NO debe aparecer. Por contra, si debiésemos calcular P (X ≤ k), con X binomial, fijémonos que ahora k SÍ está incluido en la probabilidad y por tanto al aproximar por la normal Y deberíamos calcular P (Y ≤ k + 0,5). Comprender estos dos hechos es fundamental para realizar bien la corrección por continuidad al aproximar una distribución binomial por una normal. De lo anterior se deduce que debemos aplicar las siguientes aproximaciones: Binomial P (X = a) P (X > a) P (X < a) P (X ≥ a) P (X ≤ a) P (a < X < b) P (a ≤ X ≤ b) Normal P (a – 0,5 < Y < a + 0,5) P (Y ≥ a + 0,5) P (Y < a – 0,5) P (Y ≥ a – 0,5) P (Y < a + 0,5) P (a + 0,5 ≤ Y ≤ b – 0,5) P (a – 0,5 < Y < b + 0,5) 22 / 28 Estadística Aplicada Tema 6 500 100 = 16,67 y σ = n · p · q = = 3,73. De modo que, 6 36 como n ≥ 30, n · p = 16,67 ≥ 5 y n · q = 83,33 ≥ 5, se pude aproximar la binomial por la normal, es decir: 1 X → B 100, ≈ Y → N (16,67; 3,73) 6 En el caso anterior, µ = n · p = Entonces: 19, 5 − 16, 67 Y − 16, 67 33, 5 − 16, 67 P (20 ≤ X ≤ 33) ≈ P (20 − 0,5 ≤ Y ≤ 33 + 0,5) = P ≤ ≤ = * 3, 73 3, 73 3, 73 = P (0,89 ≤ Z ≤ 4,51) = P (Z ≤ 4,51) − P (Z ≤ 0,89) ≈ 1 − 0,8133 = 0,1867 Notemos que en el paso señalado por (*) hemos cambiado X (binomial) por Y (normal) y se ha realizado la corrección por continuidad. Ejercicio 30: Suponiendo que la probabilidad de que una persona sufra un resfriado es 0,3, ¿qué probabilidad hay de que en un grupo de 200 personas haya 50 resfriadas? Solución: 0,0182 23 / 28 Estadística Aplicada Tema 6 EJERCICIOS 1. La función de probabilidad de una variable aleatoria X viene dada por la tabla: X 1 2 3 4 5 P (X) 0,18 0,25 0,3 0,12 0,15 Calcula las siguientes probabilidades: P (X ≤ 1); P (X ≤ 2); P (X ≤ 3); P (X ≤ 4); Solución: a) P (X ≤ 1) = 0,18; P (X ≤ 2) = 0,43; P (X ≤ 3) = 0,73; P (X ≤ 4) = 0,85; P (X ≤ 5) = 1 P (X ≤ 5) 2. Completa la siguiente tabla de probabilidades y calcula sus parámetros: xi 0 1 2 3 pi 0,1 0,3 ··· 0,1 Solución: P (2) = 0,5; µ = 1,6; σ = 0,8 si x < 14 0 0,185 si 14 ≤ x < 15 0, 458 si 15 ≤ x < 16 0, 683 si 16 ≤ x < 17 3. Dada la función de distribución F (x) = . 0,891 si 17 ≤ x < 18 0,966 si 18 ≤ x < 19 0,985 si 19 ≤ x < 20 1 si 20 ≤ x Calcula las siguientes probabilidades: P (X ≤ 17); P (X < 17); P (X ≥ 19); P (X > 15); P (16 < X ≤ 18); P (16 ≤ X ≤ 18); P (16 ≤ X < 18) Solución: P (X ≤ 17) = 0,891; P (X < 17) = 0,683; P (X ≥ 19) = 0,034; P (X > 15) = 0,542; P (16 < X ≤ 18) = 0,283; P (16 ≤ X ≤ 18) = 0,508; P (16 ≤ X < 18) = 0,403 4. La función de distribución de una variable aleatoria discreta X = {0, 1, 2, 3, 4} es: si x<0 0 1/16 si 0 ≤ x < 1 5 /16 si 1 ≤ x < 2 F (X) = 11/16 si 2 ≤ x < 3 15 /16 si 3 ≤ x < 4 si 4≤ x 1 a) Halla la distribución de probabilidad. b) Calcula la media y la desviación típica. Solución: a) P (X = 0) = 1/16; P (X = 1) = 1/4; P (X = 2) = 3/8; P (X = 3) = 1/4; P (X = 4) = 1/16; b) µ = 2; σ = 1 5. Una variable aleatoria discreta tiene la siguiente distribución de probabilidad: X 14 15 16 17 18 19 20 P (X) 0,185 0,273 15m 0,208 5m 0,019 m a) Calcula el valor de m para que efectivamente se trate de una distribución de probabilidad. b) Halla la media y la desviación típica. Solución: a) m = 0,015; b) µ = 15,832; σ = 1,38 24 / 28 Estadística Aplicada Tema 6 6. La función de densidad de una variable aleatoria continua X es: x+k si −1 ≤ x ≤ 3 f (x) = 8 0 si x < −1 o x > 3 a) Calcula el valor de k. b) Halla P (0 < X ≤ 5) c) Si P (a – 1 ≤ X ≤ a) = 0,1, ¿cuánto vale a? Solución: a) k = 1; b) 0,9375; c) a = 0,3 0 x 4 7. Sea la función de distribución de una variable aleatoria continua X, F (X) = 2 x 4 1 3 1 Calcula: a) P (X ≤ 1) y b) P ≤ X ≤ 2 2 si x<0 si 0 ≤ x < 1 si 1 ≤ x < 2 si x>3 Solución: a) 0,25; b) 0,4375 8. Una variable aleatoria X sigue una B (5; 0,2). Calcula: a) P (X ≤ 3) b) P (X > 1) c) P (X ≥ 2) 9. En una distribución binomial B (9; 0,2) calcula: a) P (x < 3) b) P (x ≥ 7) c) P (x ≠ 0) d) P (x ≤ 9) Solución: a) P (X ≤ 3) = 0,9933; b) P (X > 1) = 0,2627; c) P (X ≥ 2) = 0,2627 Solución: a) 0,738; b) 0,000314; c) 0,866; d) 1 10. En una distribución binomial B (10; 0,4), halla P (x = 0), P (x = 3), P (x = 5), P (x = 10) y el valor de los parámetros µ y σ. Solución: P (x = 0) = 0,006047; P (x = 3) = 0,215; P (x = 5) = 0,201; P (x = 10) = 0,000105; µ = 4; σ = 1,55 11. La probabilidad de que un jugador de baloncesto haga una canasta de tres puntos es 0,15. a) Si efectúa 9 lanzamientos de tres puntos, ¿cuál es la probabilidad de que acierte al menos tres lanzamientos?. ¿Y la probabilidad de fallar 7? b) ¿Cuántos lanzamientos tiene que realizar para que la probabilidad de meter al menos una canasta sea mayor que 0,9? Solución: a) 0,1408; 0,2597; b) 15 lanzamientos como mínimo. 12. Una colección de libros consta de 100 volúmenes, de los cuales 36 son de autores españoles y 64 de autores extranjeros. Se cogen 8 libros al azar y se observa cuántos de ellos son de autores españoles. Halla: a) La función de probabilidad. b) La probabilidad de coger 6 libros de autor español. c) La media y la desviación típica. Solución: a) B (8; 9/25); b) 0,025; c) µ = 2,88; σ = 1,36 13. La variable aleatoria descrita en el problema anterior es una B (8, 9/25): a) ¿Cuál es la probabilidad de coger 6 o más libros de autor español? b) ¿Cuál es la probabilidad de coger los 8 libros de autor español? c) ¿Cuál es la probabilidad de coger dos o más libros de autor extranjero? Solución: a) 0,029; b) 0,00028; c) 0,845 25 / 28 Estadística Aplicada Tema 6 14. Se escogen al azar 10 fichas de un juego completo de dominó, con reemplazamiento, y se anota el número de ellas en las que la suma de puntos sea múltiplo de tres. Halla: a) La función de distribución. b) La probabilidad de coger 5 fichas cuya suma de puntos sea múltiplo de 3. c) La media y la desviación típica. Solución: a) B (10, 9/28); b) 0,124; c) µ = 3,2; σ = 1,48 15. La probabilidad de nacimiento de una niña es 0,48. Si sabemos que en una clínica se han producido 9 nacimientos, ¿cuál es la probabilidad de que todos hayan sido del mismo sexo? Solución: 0,0041 16. Un examen consta de 10 preguntas de tipo test. Para cada pregunta se ofrecen cuatro posibles respuestas, de las que solamente una es correcta. Si un estudiante responde todas las preguntas al azar: a) ¿Cuál es la probabilidad de que apruebe el examen, es decir, de contestar correctamente a cinco o más preguntas? b) ¿Cuál es la probabilidad de que falle todas las preguntas? c) ¿Cuál es la probabilidad de obtener una calificación de notable, es decir, siete u ocho respuestas correctas? d) ¿Cuál será el número medio de respuestas correctas? Solución: a) 0,0782; b) 0,0563; c) 0,0035; d) 2,5 17. Sabemos que el 30 % de las familias de la Unión Europea están formadas por dos personas. Si elegimos al azar diez familias, se pide: a) La probabilidad de que haya una familia formada por dos personas. b) La probabilidad de que haya al menos tres familias con dos personas. c) Si se seleccionan 60 familias, ¿cuántas estarán formadas por dos personas? Solución: 0,1211; b) 0,6172; c) 18 18. Un sistema de protección contra cohetes está construido con 6 unidades de radar que funcionan independientemente, cada una con una probabilidad de 0,8 de detectar un cohete que ingresa en la zona que abarcan todas las unidades: a) Halla la probabilidad de que tres radares detecten un cohete. b) ¿Cuántos radares debe haber para que la probabilidad de detectar un cohete que entre en la zona sea de 0,999? Solución: a) 0,0819; b) 5 19. Se observa durante ocho días la última cifra del número premiado en el sorteo de la ONCE. Calcula la probabilidad de que la última cifra del número premiado sea impar: a) En seis sorteos al menos. b) En todos los sorteos. c) En menos de cuatro sorteos. d) En más de tres y menos de seis sorteos. Solución: a) 0,1446; b) 0,0039; c) 0,3634; d) 0,4922 20. La probabilidad de que un niño nazca pelirrojo es de 0,012. ¿Cuál es la probabilidad de que entre 800 recién nacidos haya 5 pelirrojos? Solución: 0,0460 21. La probabilidad de tener un accidente de tráfico es de 0,02 cada vez que se viaja, si se realizan 300 viajes, ¿cual es la probabilidad de tener 3 accidentes? Solución: 0,0892 26 / 28 Estadística Aplicada Tema 6 22. Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles es la probabilidad de que reciba cuatro cheques sin fondo en un día dado? Solución: 0,1339 Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p =1/100000. Calcular la probabilidad de que en una ciudad con 500.000 habitantes haya más de 3 personas con dicha enfermedad. Calcular el número esperado de habitantes que la padecen. 23. Solución: 0,735; 5 24. En una distribución N (0, 1), calcula las siguientes probabilidades: a) P (z = 2) b) P (z ≤ 2) c) P (z ≥ 2) d) P (z ≤ –2) e) P (z ≥ –2) f ) P (–2 ≤ z ≤ 2) Solución: a) 0; b) 0,9772; c) 0,0228; d) 0,0228; e) 0,9772; f) 0,9544 25. En una distribución N (0, 1), calcula: a) P (z ≤ 1,83) b) P (z ≥ 0,27) c) P (z ≤ –0,78) d) P (z ≥ 2,5) Solución: a) 0,9664; b) 0,3935; c) 0,2177; d) 0,0062 26. En una distribución N (0, 1), calcula las siguientes probabilidades: a) P (z = 1,6) b) P (–2,71 ≤ z ≤ –1,83) c) P (1,5 ≤ z ≤ 2,5) d) P (–1,87 ≤ z ≤ 1,25) Solución: a) 0; b) 0,0302; c) 0,0606; d) 0,8637 27. En un examen tipo test, los resultados se distribuyen según una N (28, 10). Calcula la puntuación tipificada de los alumnos que obtuvieron: a) 38 puntos. b) 14 puntos. c) 45 puntos. d) 10 puntos. Solución: a) 1; b) –1,4; c) 1,7; d) –1,8 28. Si en el mismo examen del problema anterior la puntuación tipificada de un alumno fue 0,8, ¿cuántos puntos obtuvo? ¿Cuántos puntos corresponden a un valor tipificado de –0,2? Solución: 36; 26 29. Las puntuaciones tipificadas de dos estudiantes fueron 0,8 y –0,4 y sus notas reales fueron 88 y 64 puntos. ¿Cuál es la media y la desviación típica de las puntuaciones del examen? Solución: µ = 72; σ = 20 30. En una distribución N (173, 6), halla las siguientes probabilidades: a) P (x ≤ 173) b) P (x ≥ 180,5) c) P (174 ≤ x ≤ 180,5) d) P (161 ≤ x ≤ 180,5) e) P (161 ≤ x ≤ 170 ) f) P (x = 174) g) P (x > 191) h) P (x < 155) Solución: a) 0,5 b) 0,1056 c) 0,3269 d) 0,8716 e) 0,2857 f) 0 31. Calcula k en cada uno de los siguientes casos: a) P (z < k) = 0,8365 b) P (z > k) = 0,8365 g) 0,0013 h) 0,0013 c) P (z < k) = 0,1894 Solución: a) k = 0,98 b) k = –0,98 c) k = –0,88 32. Di el valor de k en cada caso: a) P (z ≤ k) = 0,7019 b) P (z < k) = 0,8997 Solución: a) k = 0,53; b) k = 1,28; c) k = 0,01; c) P (z ≤ k) = 0,5040 d) P (z < k) = 0,7054 d) k = 0,54 33. La talla media de los 200 alumnos de un centro escolar es de 165 cm y la desviación típica, 10 cm. Si las tallas se distribuyen normalmente, calcula la probabilidad de que un alumno elegido al azar mida más de 180 cm. ¿Cuántos alumnos puede esperarse que midan más de 180 cm? Solución: 13 alumnos. 27 / 28 Estadística Aplicada Tema 6 34. Los pesos de 2000 soldados presentan una distribución normal de media 65 kg y desviación típica 8 kg. Calcula la probabilidad de que un soldado elegido al azar pese: a) Más de 61 kg. b) Entre 63 y 69 kg. c) Menos de 70 kg. d) Más de 75 kg. Solución: a) 0,6915; b) 0,2902; c) 0,7357; d) 0,1056 35. Para aprobar un examen de ingreso en una escuela, se necesita obtener 50 puntos o más. Por experiencia de años anteriores, sabemos que la distribución de puntos obtenidos por los alumnos es normal, con media 55 puntos y desviación típica 10. a) ¿Qué probabilidad hay de que un alumno apruebe? b) Si se presentan al examen 400 alumnos, ¿cuántos cabe esperar que ingresen en esa escuela? Solución: a) 0,6915; b) 277 alumnos. 36. En una ciudad, las temperaturas máximas diarias durante el mes de julio se distribuyen normalmente con una media de 26°C y una desviación típica de 4°C. ¿Cuántos días se puede esperar que tengan una temperatura máxima comprendida entre 22°C y 28°C? Solución: 17 días. 37. El peso de las 100 vacas de una ganadería se distribuye según una normal de media 600 kg y una desviación típica de 50 kg. Se pide: a) ¿Cuántas vacas pesan más de 570 kilos? b) ¿Cuántas pesan menos de 750 kilos? c) ¿Cuántas pesan entre 500 y 700 kilos? Solución: a) 0,7258; b) 0,9987; c) 0,9544 38. Un estudio de un fabricante de televisores indica que la duración media de un televisor es de 10 años, con una desviación típica de 0,7 años. Suponiendo que la duración de los televisores sigue una distribución normal. a) Calcula la probabilidad de que un televisor dure más de 9 años. b) Calcula la probabilidad de que dure entre 9 y 11 años. Solución: a) 0,9236; b) 0,8472 39. En un país en el que la estatura de sus habitantes sigue una distribución normal de media 1,75 m, los individuos que miden más de 1,90 representan el 6,68 % del total. ¿Cuál es la desviación típica? ¿Cuál es la proporción de individuos con estatura superior a 1,60 m? Solución: σ = 0,1; 0,9332 40. Calcula las probabilidades de las siguientes distribuciones binomiales mediante aproximación a la normal correspondiente (en todas ellas, ten en cuenta el ajuste de media unidad que hay que hacer al pasar de una variable discreta a una continua). a) X es B (100; 0,1). Calcula P (x = 10), P (x < 2) y P (5 < x < 15). b) X es B (1 000; 0,02). Calcula P (x > 30) y P (x < 80). c) X es B (50; 0,9). Calcula P (x > 45) y P (x ≤ 30). Solución: a) P (x = 10) = 0,135; P (x < 2) = 0,0023; P (5 < x < 15) = 0,8664; b) P (x > 30) = 0,0089; P (x < 80) = 1; c) P (x > 45) = 0,4052; P (x ≤ 30) = 0 41. Una moneda se lanza 400 veces. Calcula la probabilidad de que el número de caras: a) Sea mayor que 200. b) Esté entre 180 y 220. Solución: a) 0,4801; b) 0,9488 28 / 28