TEMA II. VARIABLES ALEATORIAS. DISTRIBUCIÓN BINOMIAL Y NORMAL I.- Variable aleatoria. Concepto. Antes de definir el concepto de varibale aleatoria, veamos algunos ejemplos (ya estás empezando a comprobar que en estadística sin ejemplos andamos algo perdidos). Ejemplos: Supongamos el experimento consistente en el lanzamiento de tres monedas, y consideremos la variable x = número de caras del experimento. Los valores que puede tomar la variable son x = 0, 1, 2, 3 . Sea ahora el experimento consistente en lanzar dos dados y consideremos la varibale x = suma de la cara superior de los dos dados . x = 2, 3, 4, 5, 6, 7, 8, , 9, 10, 11, 12 . Los valores posible son: Elijamos un alumno de la clase y preguntémonos por la varibable x = {tiempo invertido por el alumno en cubrir el trayecto que va desde su casa al instituto}. En este caso la variable x no puede tomar valores discretos, ya que el rango de tiempos es infinito y la distancia entre un tiempo dado y el “siguiente” es infinitamente próxima y por tanto no podemos numerarlos. Pues bien, todas las variables de los ejemplos anteriores son variables aleatorias. Así, Una variable aleatoria es una función x que hace corresponder un número real a cada resultado de un experimento aleatorio. También de los ejemplos anteriores ya habrás podido deducir que existen dos tipos de variables aleatorias: Discretas, cuando la variable aleatoria toma como valores números enteros. Continua, cuando la variable aleatoria puede tomar cualquier valor dentro de un intervalo y no es posible asignar un valor entero a un resultado cualquiera del experimento. A los valores que puede tomar una variable aleatoria se le llama recorrido. En el caso de las tres monedas, por ejemplo, el recorrido son los números 0, 1, 2, 3 . En el caso del tiempo invertido por el alumno sería el intervalo t 1, t 2 entre el mínimo valor y el máximo. Observación. Hay variables discretas que pueden tomar infinitos valores, pero siempre es posible contarlos o numerarlos. Por ejemplo, en el lanzamiento de un dado, podemos preguntarnos por el la variable x = número de lanzamientos hasta que salga un . En principio, el número de lanzamientos hasta que salga el resultado esperado puede infinito, pero es posible contarlos. Es, por tanto, una variable discreta. - 19 - II. Variables discretas. Función de Probabilidad y Función de Distribución. Lo que viene a continuación es válido sólo para variables discretas. Y referidas a éstas pueden definirse dos funciones que con posterioridad nos servirán para calcular parámetros tales como la media y la desviación típica de una variable aleatoria. Tales funciones son: la función de probabilidad y la función de distribución. Se define función de probabilidad, f(x) , de una variable aleatoria discreta x a toda función que asocia a cada resultado del experimento su probabilidad de ocurrencia. Es decir: f(x) = p(x) Nuevamente confiemos en los ejemplos para entender las ideas. Supongamos el lanzamiento de las tres monedas y la variable x = número de la variable x es x = 0, 1, 2, 3 y los resultados posibles del experimento son : de caras . El recorrido E = CCC, CCX, CXC, CXX, XCC, XCX, XXXC, XXX . Si llamamos f(x) a probabilidad de que el número de caras sea Laplace, es fácil ver que estas probabilidades son: x , entonces, aplicando la regla de f(1) = p(1 cara ) = 38 f(3) = p(3 caras ) = 1 8 f(0) = p(0 caras ) = 1 8 f(2) = p(2 caras ) = 38 Supongamos ahora que un tirador tira dos veces seguidas a una diana y sabemos que la probabilidad de que acierte de cada vez es de 0.6. Consideremos para este experimento la variable aleatoria x = número de aciertos del tirador en los dos disparos, cuyo recorrido es x = 0, 1, 2 Sea ahora f(x) la función que asocia a cada valor de la variable su probabilidad de ocurrencia. Veamos, diagrama de arbol: 1er disparo 2º disparo 0,6 0,6 0,4 0,6 0,4 0,4 Acierto Fallo f(0) = p(0 aciertos ) = 0.4 2 = 0.16 - 20 - f(1) = p(1 acierto ) = 2 $ 0.6 $ 0.4 = 0.48 f(2) = p(2 aciertos ) = 0.6 2 = 0.36 En ambos casos la función f(x) es la función de probabilidad asociada a la variable x para cada uno de los experimentos aleatorios. Gráficamente: 4/8 0,48 3/8 0,36 2/8 0,16 1/8 0 1 2 3 caras 0 1 2 aciertos Se define función de distribución F(x) de una variable aleatoria discreta x a toda función que asocia a cada valor de la variable su probabilidad de que ésta tome todos los valores menores o iguales que x. Es decir: F(x) = p(todos los valores menores o iguales que x Para el caso de las tres monedas, y siendo la variable aleatoria x = toma los valores: número de caras , esta función F(0) = p(x [ 0 ) = 1/8 F(1) = p(x [ 1) = p(0) + p(1) = 1/8 + 3/8 = 4/8 F(2) = p(x [ 2) = p(0) + p(1) + p(2) = 1/8 + 3/8 + 3/8 = 7/8 F(3) = p(x [ 3 ) = p(0 ) + p1) + p(2) + p(3) = 1/8 + 3/8 + 3/8 + 1/8 = 8/8 = 1 Para el caso del tirador, y siendo x = número de aciertos , la función F(x) queda: F(0) = p(x [ 0) = 0.16 F(1) = p(x [ 1 ) = p(0) + p(1) = 0.16 + 0.48 = 0.64 F(2) = p(x [ 2 ) = p(0) + p(1) + p(2) = 0.16 + 0.48 + 0.36 = 1 Por último, cuando para una variable aleatoria discreta hemos obtenido su función de probabilidad y su función de distribución se dice que ha quedado determinada su distribución de probabilidad. Ejercicios: - 21 - Determinar la distribución de probabilidad (función de probabilidad y función de distribución) en cada uno de los siguientes casos. Representar mediante un diagrama de barras y un polígono de frecuencias los resultados obtenidos. (a) En una urna hay siete bolas, de las cuales tres son blancas y cuatro negras. Se extraen tres bolas sin reemplazamiento y consideramos la variable aleatoria x = ”número de bolas negras obtenidas entre las tres extraídas” (b) Lanzamos dos dados y analizamos la variable aleatoria x = ”suma de las puntuaciones de los dos dados”. (c) En el lanzamiento de 5 chichetas idénticas sea x = ”número de ellas que quedaron con la punta hacia abajo”. Supongamos que p( )=0.70 y p( ) =0.30 (d) Supongamos un dado de quinielas (tres unos, dos equis y un dos) y estudiamos la variable aleatoria x = ”número de veces que se lanza el dado hasta obtener una equis” III. Parámetros estadísticos: Media, Varianza y Desviación Típica En primer lugar, se entiende por parámetro estadístico a toda cantidad que puede obtenerse de los datos de una distribución y que son representativos de alguna propiedad de la misma. Muchos de estos parámetros te suenan ya: media, moda, mediana, varianza , desviación típica; de otros, en cambio, seguramente no has oido hablar: momentos ordinarios y centrales, coeficientes de asimetría, de Kurtosis. Pues bien, de todos los parámetros que pueden determinarse de una distribución, dos de ellos resumen una gran parte de la información necesaria para su interpretación. Son: su media, como una medida del valor central de los datos, y su desviación típica, como medida de lo dispersos que están éstos respecto del valor medio. Por cierto, lo de media, varianza y desviación típica, tal vez, te suene raro aquí. Estos términos suelen asociarse con la estadística descriptiva: media de altura, de pesos, de calificaciones. Verás, sin embargo, que estos conceptos aplicados a un conjunto de datos y a una distribución estadística están ligados de manera muy cercana. Para mostrarlo, un ejemplo: Supongamos que hacemos un estudio sobre el número de hijos de 15 familias, obteníendose los resultados de la tabla: x i =número de hijos n i =número de familias 0 5 1 6 2 2 3 1 4 1 Si llamamos N al número total de datos (en nuestro caso 15 ), el cálculo del número medio de hijos de las 15 familias se realiza, como sabes, de la siguiente manera: - 22 - x = x i $ n i 0 $ 5 + 1 $ 6 + 2 $ 2 + 3 $ 1 + 4 $ 1 17 = = 1, 13 hijos, de media N = 15 15 Sin embargo, el cálculo de la media puede verse también de otro modo. Supongamos que definimos la variable aleatoria x =”número de hijos de una de las familias del estudio . El recorrido de esta variable es x = la tabla toma los valores: 0, 1, 2, 3, 4 . y su función de probabilidad, según los datos de f(0) = p(0 hijos ) = 5/15 = 0.33 f(1) = p(1 hijo ) = 6/15 = 0.40 f(2 ) = p(2 hijos ) = 2/15 = 0.13 f(3) = p(3 hijos ) = 1/15 = 0.07 f(4) = p(4 hijos ) = 1/15 = 0.07 Ahora, la expresión que nos da el número medio de hijos puede expresarse en términos de probabilidad, ya que: x = xi $ ni ni ( ) N = x i $ N = x i $ f x i = x i $ p(x i ) = 1, 13 hijos, de media Resumiendo, la media de un conjunto de datos y de una distribución de probabilidad tiene un significado equivalente y su valor es el mismo. Así: Llamamos media o esperanza matemática de una distribución estadística a la suma de los productos de cada valor de la variable por su probabilidad de ocurrencia. Se denota por la letra griega . = x i $ p(x i ) (1) Lo de esperanza matemática proviene de los juegos de azar, ya que la media de una distribución estadística también puede interpretarse como el promedio de ganancia esperado por un jugador al apostar. Llamamos varianza, 2 , de una distribución estadística al valor obtenido a través de la fórmula 2 = (x i − ) 2 $ p(x i ) (2) O en su versión más práctica para el cálculo -que no demostraremos-: 2 = x 2i $ p(x i ) − 2 - 23 - Por último Llamamos desviación típica de una distribución estadística, , a la raíz cuadrada de la varianza: = varianza = x 2i $ p(x i ) − 2 Sobre la media nada que decir. La varianza, en cambio, merece un comentario. Observa que su cálculo depende del valor de la diferencia al cuadrado entre cada valor de la variable y la media de la distribución. Así pues, cuanto más alejados estén los elementos individuales de la media mayor es la varianza. Por tanto, esta es una medida de lo dispersos que están los datos respecto del valor medio. La varianza, sin embargo, presenta un problema de interpretación, ya que se mide en cm 2 , segundos 2 , hijos 2 , etc Para evitar esto y poder dar los resultados en términos de cm, segundos, hijos, etc se introduce la desviación típica como la raíz cuadrada de la varianza. Así, todo cuadra. Ejercicios. 1. Calcular la media y la varianza de las distribuciones de probabilidad de ejercicio del apartado anterior. Interpretar los resultados. IV. Distribución Binomial. En ejercicios anteriores ya has descrito casos de distribución de probabilidad de variables discretas. Algunas de estas distribuciones, por su importancia, tienen nombres propios -Distribución dicotómica, binomial, geométrica, hipergeométrica, de PoissonPor ejemplo, la distribución del ejercicio (d) del apartado II, en la que nos preguntamos por el número de veces que debemos realizar un experimento hasta obtener el resultado esperado corresponde al tipo geométrica. Pues bien, probablemente sea la distribución binomial, la que por su relación con el estudio de las proporciones (proporción de jóvenes que acceden a la universidad frente a los que no, proporción de personas que en vacaciones viajan al extranjero frente a las que no, proporción de los que invierten en bolsa frente a los que no, etc) tiene mayor importancia en el ámbito social. Una distribución de probabilidad se ajusta a los parámetros de una binomial si verifica los siguientes requisistos: El experimento consiste en un número determinado de ensayos idénticos e independientes, n, cada una de ellos con sólo dos resultados posibles (éxito o fracaso, a favor o en contra, cara o cruz). La probabilidad de éxito se designa por p y la de fracaso por q. Y dadas sus características, se verifica - 24 - p+q=1oq=1−p La variable aleatoria es x = número de éxitos en los n ensayos Pues bien, su función de probabilidad, es decir, la que da la probabilidad de obtener x éxitos de n ensayos viene determinada por la siguiente fórmula: n x n−x f(x) = p(x éxitos de n ensayos) = p $q x n n! donde el término es el llamadao número combinatorio. = ( x x! n − x )! El número medio de éxitos, , y la varianza y desviación típica, , se calculan aplicando las fórmula (1) y (2) -que omitiremos, por resultar los cálculos algo engorrosos- , llegándose a los siguientes resultados: Media Varianza Desv. típica =n$p 2 = n $ p $ q = n$p$q Abreviadamente, a las distribuciones binomiales se las designa por B(n, p). Una observación muy importante es que en cada uno de los ensayos de una distribución binomial la probabilidad de éxito y de fracaso no debe cambiar. Por ejemplo, si extraemos 10 estudiantes al azar de una universidad para preguntarles si utilizan el comedor universitario, siendo esta proporción, antes de extraer ningún estudiante, del 35 % que sí (éxito) y del 65 % que no (fracaso) y su respuesta ha sido afirmativa, entonces la proporción de estudiantes de esa universidad que sí y que no utilizan el comedor universitario ha variado ligeramente como consecuencia de la extracción de un estudiante. Siendo rigurosos y, para que pueda hacerse el estudio a través de un distribución binomial, el individuo extraído debe ser reinsertado nuevamente a la población para que tenga la posibilidad de ser ¡elegido nuevamente!... No obstante, cuando la población es muy grande, como es el caso que nos ocupa, la variación que se produce al extraer un número reducido de individuos es tan pequeña que apenas tiene incidencia en los resultados que se obtienen y puede omitirse este “rebuscado” procedimiento. Sacamos a los 10 individuos, y ya está. Ejercicios. 1. Indica si cada una de las siguientes situaciones se ajustan a distribuciones binomiales... Descríbelas y calcula en cada caso su valor medio y su desviación típica. Interpreta los resultados. (a) Un cazador acierta en el 65 % de los disparos que realiza. Definimos la variable aleatoria x = ”número de aciertos en los próximos cinco disparos”. (b) Un medicamento contra la gripe es efectivo en 8 de cada 10 enfermos. Definimos la variable aleatoria x = ”número de enfermos curados en un grupo de 10 enfermos” - 25 - (c) Consideremos éxito obtener cara al lanzar una moneda. Lanzamos la moneda 7 veces y consideramos la variable aleatoria: x = ”número de caras obtenidas en los 7 lanzamientos” (d) En una urna en la que hay 7 bolas rojas y 5 negras, extraemos de una vez 3 bolas y consideramos la variable aleatoria x = ”número de bolas rojas de las 3 extraídas” (e) La probabilidad de nacimiento de niños varones en España es del 51,7 %, mientras que la de niñas es del 48,3 %. Consideramos la variable aleatoria x = ”número de varones en una familia con 5 hijos” (f) En la primera evaluación -sin contar la recuperación- aprobasteis la asignatura de matemáticas 12 alumnos de un total de 22 que estáis en clase. Sea la variable aleatoria x = ”número de alumnos que aprobaron que las matemáticas de un grupo de 4 alumnos”. 2.- a) ¿Cuál es la probabilidad de que el cazador del ejercicio (a) cace al menos una pieza si un día efectuó cinco disparos? b) ¿Y de que cace exactamente 2 piezas? ¿Y ninguna? -que también puede ser-. 3.- a) ¿Cuál es la probabilidad de que un grupo de diez enfermos del ejercicio (b) a los que se les suministró el medicamento todos estén curados? b) ¿Cuál es la probabilidad de que estén curados más de la mitad de los enfermos? 4.- a) ¿Cuántos niños y niñas (ejercicio (e)) se espera habrá entre los 1500 bebés que nacieron en cierta ciudad el año pasado? b) ¿Cuál es la probabilidad de que en una familia con cinco hijos sólo haya niñas? 5.- Y finalmente... a) ¿Cuál es la probabilidad de que cuatro de vosotros elegidos al azar por Adolfo hayáis aprobado todos las matemáticas en la primera evaluación? ¿Y al menos uno? b) ¿Podrías hacer previsiones para la segunda evaluación con los datos disponibles? V. Variables estadísticas continuas. Función Densidad. Al principio del tema, al introducir el concepto de variable aleatoria, distinguiamos entre variable discreta y continua. Hasta ahora sólo hemos tratado las primeras, las que sólo pueden tomar valores discretos (generalmente números enteros), pero no ha aparecido ninguna que pueda tomar cualquier valor dentro de un rango. Y esto es porque el tratamiento para este tipo de variables -tiempos, pesos, alturas, cantidades, etc- es completamente distinto. Un nuevo ejemplo para ilustrar lo dicho: Supongamos nuevamente a nuestro alumno, compañero y amigo que con gran perseverancia mide y anota cada dia el tiempo que invierte en el trayecto desde su casa al instituo. Fruto de sus anotaciones observa que este tiempo se encuentra comprendido entre 7 y 12 minutos, es decir en el intervalo 7, 12 .Ahora bien, ¿cuántos tiempos son posibles en ese intervalo?... Te habrás percatado de que la respuesta es: ¡infinitos!. Así pues, a priori, la probabilidad de que se de uno solo de ellos es cero (aplica la regla de Laplace: divide tu resultado favorable entre los infinitos posibles y observa que el resultado es cero). Por tanto para la variable - 26 - aleatoria x = ”tiempo invertido en realizar el trayecto desde casa al instituto” no es posible construir una función de probabilidad, puesto que la probabilidad de que ocurra cada uno de los valores posibles de la variable es siempre nula. Pensarás con razón que algunos de los resultados sí ocurren, los que tiene anotados en su cuaderno de tiempos. Y esto es cierto, pero a priori, incluso para esos tiempos la probabilidad de ocurrencia es cero -no me preguntes, entonces, cómo ocurrieron, podriamos entrar en una interminable discusión sobre el infinito, tal vez interesante, pero de la misma utilidad que los claustros y reuniones de tutores de este instituto: ninguna, y con el pernicioso efecto secundario de agrandar el ego de quienes las presiden y disminuir en la misma proporción su capacidad de síntesis-. ¿Cómo obtener entonces los parámetros que caracterizan la distribución, media y desviación típica, si no disponemos de una función de probabilidad a través de la cuál realizar los cálculos? Nuestro amigo diria: ¡fácil!, sumo todos los tiempos que tengo anotados , los divido por el número de anotaciones y ya tengo la media. Y para la desviación típica, elevo al cuadrado cada dato, los sumo, divido el resultado entre el número de anotaciones y le resto el cuadrado de la media; hallo su raíz cuadrada, y ya está. es decir aplico la fórmula: = x 2i $ n i − 2 n i en todos los casos vale uno, pues es muy raro que se repita un resultado. Bien, esta forma de proceder es la correcta y sin duda es la única que conduce a los verdaderos resultados de los parámetros media y desviación típica. Pero presenta dos problemas: Si el número de anotaciones fuera muy grande (como suele ocurrir cuando se tratan problemas reales) el procedimiento no es operativo (imagina por ejemplo sumar las alturas de todos los habitantes de un pais y dividir por el número de habitantes para determinar su altura media). Aunque fuera posible determinar sus parámetros, media y desviación típica, no podríamos utilizarlos para hacer predicciones ni hipótesis sobre sus posibles cambios en el tiempo (este será el tema del próximo capítulo de la estadística) Así pues se hace necesario construir “algo parecido” a una función de probabilidad. Razonamos de la siguiente manera: puesto que para un resultado cualquiera de la variable aleatoria existen infinitos que están muy próximos a él, no tiene sentido tratarlos como si fueran distintos y así, lo más razonable es meter dentro de un intervalo de la variable todos aquellos cuyos valores se encuentran entre sus límites. Esto es un histograma. Por ejemplo, puede que para nuestro compañero y alumno no represente mucha diferencia tardar medio minuto más o menos en realizar el trayecto desde su casa al instituto, así es que decide partir el intervalo que va de los 7 a los 12 minutos en subintervalos de longitud medio minuto y contar el número de veces cuyos tiempos se encuentran en los intervalos construidos. Como valor representativo de cada intervalo puede tomar su valor central. Supongamos que el resultado es el siguiente: - 27 - n 7 7,5 8 8,5 9 9,5 10 10,5 11 11,5 12 t La línea que une las barras verticales se llama polígono de frecuencias y como verás más adelante tiene su importancia. El proceso iniciado puede acabar aquí o continuar. Si el número de datos es muy grande ello nos permite estrechar los intervalos. Podemos, además, sustituir la frecuencia absoluta en el eje vertical por la relativa o, su equivalente, por la probabilidad de que ocurra un resultado en un intervalo determinado. f f x x Observar que f en el eje vertical no hace referencia a la probabilidad de un resultado concreto, como ocurria para variable discreta, -esta probabilidad como se dijo al principio es cero- sino a la probabilidad por intervalo de la variable. Se trata pues de una densidad de probabilidad, de la misma manera que hablamos de habitantes por km 2 de un país, de kg de grano por hectárea de una explotación agrícola o de nacimientos por cada 1000 habitantes como índice de crecimiento. Aquí se habla de probababilidad por amplitud de intervalo. Cuando el número de intervalos es muy grande, y por tanto muy estrechos, el polígono de frecuencias adopta la forma de una curva que representa en cada punto la altura de la barra correspondiente. Si quitamos estas barras, que ya no son necesarias queda una curva como la siguiente: - 28 - A esta y otras curvas obtenidas de esta manera se las llama funciones densidad para variables continuas, y como tales funciones se las denota por f(x) . Una aclaración ya mencionada. Las funciones dendisad no representan la probabilidad de ocurrencia de un valor concreto de la variable, como ya se ha mencionado esta probabilidad es cero, pero a partir de su forma es posible determinar la probabilidad de que un valor se encuentre entre dos dados, puesto que todas las funciones densidad cumplen las siguientes dos propiedades: El área bajo la curva y el eje X entre dos valores x 1 y x 2 nos da la probabilidad de que la variable se encuentre entre x 1 y x 2 . probabilidad de x entre x 1 y x 2 = p(x 1 [ x [ x 2 ) = A El área total bajo la curva entre los extremos de la función es 1. VI. Distribución Normal. Aunque existen funciones densidad de muy distintas formas, lo cierto es que muchos fenómenos sociales acaban adoptando la forma de funciones teóricas conocidas. Esto es una ventaja, pues al ser conocidas es posible determinar sus parámetros, cuantificar probabilidades y hacer predicciones. Entre estas funciones densidad cuya fórmula teórica es conocida, la más importante de todas es la llamada distribución Normal o Campana de Gauss. Su importancia se debe no sólo al gran número de fenómenos reales para los que es posible tomar como modelo esta distribución (especialmente cualquier variable de carácter cuantitativo de casi todas las grandes poblaciones) sino al hecho de que otras distribuciones de uso frecuente bajo ciertas condiciones tienden a distribuirse según una normal. Veamos sus características más importantes: Su forma es la de una “campana” en la que el valor medio de la varible, , ocupa su valor central. Para este valor la función toma el máximo valor. es la desviación típica de la variable. Las dos “colas” de la función se aproximan a cero (eje X) cuanto más nos alejamos del valor central. - 29 - x− − 12 1 (Otra vez el número e = 2, 718...) e Su fórmula matemática es f(x) = 2 El área total bajo su curva es 1 -como para cualquier función densidad-, pero además se verifica que: En el intervalo − , + se encuentra el 68,4 % de los datos. En el intervalo − 2, + 2 se encuentran el 95,4 % de los datos En el intervalo − 3, + 3 se encuentran el 99,7 % de los datos. Abreviadamente a las distribuciones normales se las designa por N , . Bien. ¿Y para qué sirve?... Vamos a ello. Supongamos que hacemos un estudio sobre el peso de los niños recién nacidos, y que dichos pesos se distribuyen según una normal de media y desviación típica (es lógico que así sea: habrá un número muy grande de niños cuyos pesos estén próximos al valor medio y a medida que nos alejamos de ese valor, tanto por exceso como por defecto el número irá disminuyendo). Pues bien, a partir de la curva podemos asegurar que el 68,4 % de los recién nacidos tendrá un peso comprendido entre − y + , y que, por ejemplo, un niño cuyo peso haya sido superior a + 3 es “anormalmente gordo”, puesto que más del 99,7 % de los niños dan un peso inferior a esa cantidad. Más aún -y esto es lo más importante- dado el peso de un niño, podemos calcular la proporción de ellos con un peso superior -inferior- al obtenido: para ello, basta dividir el área que queda por encima -por debajo- de ese peso entre el área total de la curva, que como se ha dicho es 1. Pero esto no podemos hacerlo directamente, antes hay que tipificar la variable. Un niño da un peso de 4,200 kg, el valor medio establecido en estudios previos fue de 3,750 kg () y la desviación típica de 0,420 kg (), ajustándose los datos a una distribución normal N(3, 750; 0, 420 ). ¿Son muchos los niños con un peso igual o superior a 4,200 kg? Para saberlo situamos este valor en la curva y señalamos el área que queda a su derecha. La razón entre esta área y la total bajo la curva -que es 1- es precisamente esa proporción. - 30 - Sin embargo, estos cálculos no pueden hacerse sobre la distribución de los recién nacidos pues desconocemos el área a la derecha del valor x = 4, 200 kg. Don’t worry!, existe una distribución normal de media = 0 y = 1, idéntica a cualquier otra distribución normal pero cuyas áreas están calculadas y recogidas en una tabla para cualquier valor de x . Así es que lo único que debemos hacer es determinar sobre esa distribución N(0, 1), el valor equivalente a nuestro 4,200 kg, y buscar en la tabla el valor del área correspondiente (hay unas reglas de cálculo que vistes el año pasado y que repasaremos este año). A este proceso se le denomina tipificar la variable. Si x = 4, 200 kg es el valor que queremos tipificar y llamamos z al valor de su equivalente en la distribución N(0, 1), entonces z= nos da el valor de: z = x− (fórmula que tipifica a x ) 4, 200 − 3, 750 = 1, 07 0, 420 el cuál, buscado en la tabla, y aplicando las reglas de cálculo da una proporción de: p(z m 1, 07) = 1 − 0.8577 = 0.1423 Es decir, el 14,23 % de los niños tendrán un peso igual o superior a 4,200 kg - 31 - Ejercicios. 1. Las puntuaciones obtenidas en un test de aptitudes aplicado cada año a estudiantes universitarios siguen una distribución N(500, 100) a) ¿Qué porcentaje de estudiantes universitarios se espera que obtengan puntuaciones entre 500 y 675? b) ¿Qué porcentaje de etudiantes se espera que logran puntuaciones superiores a 630? c) ¿Qué probabilidad hay de que un estudiante elgido al azar tenga una puntuación superior a 700? 2. Supongamos que la altura de las personas con edades comprendidas entre 20 y 30 años se distribuye normalmente con media 1,65 metros y desviación típica 0,15 metros. Si consideramos que una persona es alta si mide más de 1,80 metros, ¿qué número de personas altas se espera que haya en un grupo de 2.000 individuos con edades comprendidas entre los 20 y 30 años? 3. Si se multiplica una variable con distribución normal por una constante, se obtiene otra variable con distribución normal, cuyas medias y desviación típica quedan multiplicadas por dicha constante. x d N , entonces kx d N(k, k) Según esto, calcula la probabilidad que tiene una empresa de ingresar por ventas más de 20.000 euros, cuyo producto tiene una demanda que sigue una distribución normal N(5.000, 250) si el precio de venta al públco de cada unidad es de 3,6 euros. 4. Si se suman o restan dos variables aleatorias que presentan distribución normal, se obtiene otra variable aleatoria con distribución normal cuya media es la suma o resta de las medias y cuya varianza es la suma de las varianzas: x d N 1 , 1 d x + y d N( 1 ! 2 , 21 + 22 ) y d N 2 , 2 Una tienda vende dos productos. El primero de ellos tiene una demanda diaria que se distribuye según una ley normal de media 200 unidades y desviación típica 30, y se vende a 5 euros la unidad. El segundo producto tiene una demanda diaria de 60 unidades, con una desviación típica de 4 unidades, y se vende a 20 euros la unidad. a) Halla la probabilidad de que un día, las ventas de ambos productos superen los 2.370 euros. b) Halla la probabilidad de que un día las ventas del primer producto sean superiores a las del segundo producto. - 32 - VII. Convergencia de la distribución binomial hacia la normal Son muchas las distribuciones de probabilidad de variable discreta en las que al aumentar el número de ensayos se comportan como una distribución normal. Así, se puede comprobar que las distribuciones binomiales B(n, p) si n es los suficientemente grande y p no está próximo a 0 ni a 1, se aproximan a una normal de media = np y desviación típica = npq . Es decir: B n, p d N np, npq Generalmente se n m 30 , np m 5 y np m 5 admite que la aproximación es aceptable cuando La aproximación es tanto mejor cuanto mayor es el número de pruebas n y cuanto más próximos a 0.5 sea el valor de la probabilidad p. En las gráficas siguientes se muestra esta aproximación para algunas binomiales. Las lineas verticales son los resultados de la distribución binomial y la curva continua la aproximación de la correspondiente distribución normal. De ellas se observa que el mejor ajuste se da para la binomial B(30, 0.5), cuyo ajuste a la normal de media = 30 $ 0.5 = 15 y desviación típica = 30 $ 0.5 $ 0.5 = 2, 72 es casi perfecto. Ejercicios - 33 - 1. El cinco por ciento de las bombillas fabricadas salen defectuosas. Si se extrae una muestra de 2.000 bombillas, halla la probabilidad de que dicha muestra contenga más de 120 bombillas defectuosas. 2. Durante cierta epidemia de gripe enferma el 20 % de la población. En un centro escolar con 350 alumnos, a) ¿Cuál es la probabilidad de haya exactamente 50 alumnos que pasen la gripe? b) ¿Y la probabilidad de que haya al menos 40 alumnos? c) ¿Y la probabilidad de que haya entre 40 y 60 alumnos? 3. En un país, la tasa de paro de la población es de 8,5 %. Si se toma una muestra de 50 individuos, ¿cuál es la probabilidad de que en la muestra haya un número de parados menor o igual que 4? Efectúa los cálculos mediante la distribución binomial y aproximando mediante la normal. Compara los resultados. En la misma muestra cuál es la probabilidad de que el número de parados sea superior a 10. - 34 - - 35 -