Estrategia didáctica 3.3.2.1. La Distribución Normal En este texto solo estudiaremos la distribución normal por ser la distribución con una mayor gama de aplicaciones y usos. Como ya se vio en el boletín anterior, la curva normal tiene la siguiente forma: En la gráfica anterior se puede observar que el rango de valores que tomó la variable continua es de aproximadamente 0 hasta 40. La distribución es simétrica alrededor de 20, que también es el valor de la media y los extremos de la curva se les llama colas de la distribución. Las colas no tocan el eje horizontal como podría verse en la gráfica, sino que se acercan asintóticamente a dicho eje cuando la curva tiende a tomar valores cada vez más alejados de la media. Esta función matemática se le llama función de densidad y tiene la siguiente expresión: f ( x) 1 x 2 1 e 2 2 1 Donde x es la variable aleatoria, σ es la desviación estándar y μ es la media poblacional. Aunque la expresión parece bastante complicada, en realidad se debe hacer notar que la gráfica se obtuvo sustituyendo el valor de la media y de la desviación estándar conocidas de una población en la función de densidad. Por ejemplo, en la gráfica que se dibujó la distribución considerando que σ = 5 y μ = 20. Sustituyendo estos valores en la fórmula, se procedió a graficar la siguiente función: f ( x) 1 2 5 e 1 x 20 2 5 2 Lo que significa que la variable x tiene una media de 20 y una desviación estándar de 5. De hecho puede observarse que la media de la distribución ha sido localizada en la gráfica y también debe remarcarse que la gráfica es simétrica en ese punto. Dibujemos, por ejemplo otra gráfica normal, en la que σ = 7 y μ = 20: Observemos que el rango de la distribución es un poco mayor al rango de la primer distribución y además esta última distribución está más “achatada”. Comparemos ambas distribuciones para que se vea la importancia de conocer los valores de la media y de la desviación estándar. 2 Notemos que aunque las dos distribuciones normales tienen la misma media, su desviación estándar cambia. Estos valores, por lo tanto, le dan la forma a la curva normal. Y con esto completamos el comentario inicial en el boletín 0. Allí decíamos que para hacer predicciones de una variable aleatoria continua, debemos conocer su distribución, su media y su desviación estándar. Puede verse que cuando una variable aleatoria continua es normal y se conoce su media y su desviación estándar (ambos valores los llamaremos conjuntamente parámetros), entonces se puede realizar su gráfica. Desde luego que todavía no hacemos predicciones con ella como las hacíamos en las variables aleatorias discretas, pero estamos, como se verá en el siguiente boletín, muy cerca de hacerlo. Debemos anotar, porque es muy importante aclararlo, que si sabemos que el peso de un bebé es normal, entonces para realizar la gráfica del peso de los bebés con la función de densidad, es necesario conocer la media y la desviación estándar del peso de los bebés. Estos datos sólo pueden conocerse de manera práctica cuando se realizan muestras o se llevan estudios para calcular estos dos parámetros a partir de la población de interés tal y como se señaló en el boletín 0. Por ejemplo, supongamos que en cierto hospital de Iztapalapa, las mujeres embarazadas y próximas a dar a luz, aseguradas, que viven en la colonia Ejército de Oriente, con nivel de vida medio bajo, etcétera, el personal del hospital lleva historial de cada mujer que ha dado a luz, luego se ha pesado al bebé y se ha encontrado que el peso medio es de 2.4 kilogramos con una desviación de 0.5 kilogramos. 3 Si se sabe que el peso es normal (y ya vimos cómo podemos garantizar esto), entonces la distribución normal de los pesos de los bebés al nacer está descrito por la siguiente gráfica: La gráfica anterior es la distribución normal de los pesos de los bebés al nacer con peso medio de 2.4 kg y desviación estándar de 0.5 kg, (en la población respectiva). Por lo tanto debemos concluir que para realizar la gráfica de una variable continua, debemos saber si es normal y conocer también su media y su desviación estándar que generalmente se calculan de manera empírica realizando mediciones en la población de interés. Una nota: En todos los problemas que seguirán a continuación, para simplificar la explicación dada, se debe sobre entender que la población a la que se refiere una variable continua que sea normal, está claramente especificada. En cualquier caso, de ser necesario, se especificará la población en cuestión. Antes debemos ver una última propiedad de la curva normal. Recordemos que una distribución discreta tenía la característica de que la suma de las probabilidades de todos los valores de la variable era 1. Como esperamos análogamente que la distribución de una variable continua normal también describa las probabilidades de que ella ocurra, entonces de manera semejante consideraremos que la suma de las probabilidades de todos los valores posibles de una variable continua deberá valer 1. Por ejemplo, si el peso de un bebé al nacer es una variable normal, tiene una media de 2.5 kilogramos y una desviación estándar de 0.5 kilogramos, entonces si sumamos todas las probabilidades de que un bebé pese al nacer en el rango conocido de pesos, la suma deberá ser 1. Pero, ¿cuál es el rango conocido de pesos de un bebé en la población de interés? 4 En una variable continua, la manera de calcular probabilidades (por ejemplo, ¿cómo calcular la probabilidad de que un bebé pese al nacer entre 2 y 3 kilogramos? Tendríamos que calcular las probabilidades de cada peso posible de un bebé entre los valores 2 y 3 y sumarlos, ¡lo que sería una tarea imposible!), consiste de una manera más práctica en sumar áreas. Así, la probabilidad de que un bebé pese al nacer entre 2 y 3 kilogramos equivale a calcular el área entre 2 y 3 bajo la curva normal. Es decir Probabilidad (el peso de un bebé esté entre 2 y 3 kg.) = Área bajo la curva entre 2 y 3. Lo que si escribimos de manera un poco más matemática será: P2 x 3 Area entre 2,3 bajo la curva normal Donde x es la variable “peso de un bebé al nacer” Aunque el problema de calcular probabilidades parece resuelto, en realidad, si lo pensamos un poco más aún es muy complicado. La razón es que ¿cómo vamos a calcular áreas de regiones donde uno de los lados de la figura es una curva? Y es que para calcular la probabilidad de que un bebé pese entre 2 y 3 kilogramos al nacer debemos calcular el área de un cuadrilátero donde el lado superior es una curva, lo cual complica el cálculo, como se ve a continuación: 5 Hay sin embargo, un par de métodos que nos ayudarán a calcular el área en cualquier región de interés. El primero es aproximado y el segundo es exacto. Comenzaremos por explicar el método aproximado porque su comprensión nos ayudará a que se entienda el método exacto para calcular áreas debajo de la distribución normal. Método 1: Regla Empírica ¿Se puede dibujar la curva normal a mano sin tener un software graficador?, desde luego que sí, pero para hacerlo con la mayor precisión, es necesario conocer la llamada regla empírica. Ella indica lo siguiente: “Si una variable aleatoria continua es normal, y se conoce su media y su desviación estándar, entonces se cumplen las siguientes condiciones: a) si se suma y se resta una desviación estándar a la media, entonces el intervalo que se forma en el eje horizontal, contiene al 68% del área bajo la curva.” b) si se suman y se restan dos desviaciones estándar a la media, entonces el intervalo que se forma en el eje horizontal, contiene al 95% del área bajo la curva.” c) si se suman y se restan tres desviaciones estándar a la media, entonces el intervalo que se forma en el eje horizontal, contiene al 99% del área bajo la curva.” Apliquemos la regla empírica al problema de los bebés. Dado que el peso de los bebés es normal, entonces se le puede aplicar la regla empírica a esta variable puesto que además conocemos la media y la desviación estándar del peso, que son de 2.5 kg y 0.5 kg respectivamente. A continuación se mostrará el uso de la regla empírica calculando el intervalo y se hará un dibujo que apoye la explicación de cada inciso de la regla empírica: a) Calculamos, 2.5 ± 0.5 se tiene el intervalo [2,3]. Lo que significa que el 68% de los bebés pesarán entre 2 y 3 kg. al nacer. 6 b) Calculamos, 2.5 ± (2)(0.5) se tiene el intervalo [1.5, 3.5]. Lo que significa que el 95% de los bebés pesarán entre 1.5 y 2.5 kg. al nacer. c) Calculamos, 2.5 ± (3)(0.5) se tiene el intervalo [1, 4]. Lo que significa que el 99% de los bebés pesarán entre 1.5 y 2.5 kg. al nacer. 7 Es muy importante recalcar que siempre que se dibuje una curva normal, se debe especificar la variable continua en el eje horizontal tal y como se representa en las 3 gráficas anteriores. Si se ven atentamente las 3 gráficas anteriores, obsérvese que la regla empírica resuelve en parte el problema de calcular probabilidades bajo la curva, pero sólo parcialmente porque lo hace únicamente para algunos valores del peso que ya están establecidos por los valores de la media y de la desviación. Pero es evidente que si se nos preguntara ¿cuál es la probabilidad de que un bebé pese, al nacer, entre 2.3 y 4.4 kilogramos?, para esta pregunta no tendríamos respuesta porque la regla empírica no nos ayuda a calcular el área entre esos valores. Sin embargo, a pesar de esa dificultad, la regla empírica nos ayuda a dibujar fácilmente a mano la curva normal porque nos dice cuál es el rango de valores de la variable donde debe dibujarse la curva normal. Por ejemplo, si el tiempo de traslado de la casa a la escuela de un alumno es normal con media de 60 minutos y desviación estándar de 10 minutos, entonces el rango donde deberán estar el 99% de todos los tiempos de traslado (aplicando el inciso c) de la regla empírica), estará entre 30 y 90 minutos. Esto quiere decir que cuando este alumno se traslade de su casa a la escuela, empleará mínimamente 30 minutos y como máximo 90 minutos. Si se dibuja este intervalo graduando en el eje horizontal los valores de la variable “X: tiempo de traslado” desde 30, 40, 50, 60, 70, 80 y 90, se podrá dibujar fácilmente la distribución normal cuidando que sea simétrica en 60, que es le punto donde está la media. Véase la siguiente gráfica: 8 Método 2: Estandarización. La regla empírica sirve básicamente para plantear un problema cuya variable continua sea normal. Para resolverlo es necesario usar la estandarización. Quienes hayan seguido atentamente toda la explicación anterior, se habrán dado cuenta que el problema de calcular la probabilidad de una variable continua está lejos de resolverse a pesar de la regla empírica. La razón es muy sencilla. Aunque la regla se aplica a variables normales, que son las que usaremos en este texto, realmente hay tantas curvas normales como poblaciones existan cuya variable sea normal. Por ejemplo, los bebés de los que hablamos eran de una población específica y ellos tenían una media de 2.4 y una desviación estándar de 0.5. Pero si cambiamos tan solo una de las características que sirvieron para determinar la población de interés (por ejemplo ahora decimos que las mujeres que darán a luz son de la delegación Cuajimalpa), es claro que la media y la desviación estándar de los bebés al nacer, ya no tendrán esos valores. Prácticamente podemos concluir que cada población tendrá una media y una desviación estándar particulares. Eso complica muchísimo el cálculo del área para hallar la probabilidad deseada, porque tendríamos que buscar procedimientos para hallar áreas para cada curva de cada población, lo que haría bastante engorroso el cálculo de probabilidades de una variable continua. Sin embargo, la regla empírica servirá para resolver el problema. 9 Consideremos el mismo problema de los bebés cuya variable continua “X: peso al nacer” es normal con una media de 2.5 y una desviación de 0.5. Propondremos una ecuación nueva que seguramente parecerá extraña al principio, pero que seguramente con la explicación que se dará, pronto se entenderá porqué se propuso de esa manera. Definamos la siguiente ecuación, que llamaremos “ecuación de transformación” o “ecuación de estandarización”: z x (1) Donde x es la variable normal, μ es la media y σ es la desviación estándar de la variable. Pero ¿qué es z?. Lo explicaremos a continuación con la gráfica y la tabla siguientes que describen el peso de los bebés al nacer con los parámetros ya conocidos: 10 B En primer lugar, x es la variable normal que puede tomar los valores desde 1 a 4 (y cualquier otro valor intermedio por ser continua), como se muestra en la curva normal superior en la gráfica anterior (ambas curvas normales tienen exactamente la misma forma). Obsérvese que a los valores obtenidos por la regla empírica 1, 1.5, 2, 2.5, 3, 3.5 y 4 que están marcados en la curva normal superior, coinciden con los valores -3, -2, -1, 0, 1, 2 y 3 que aparecen en la curva normal inferior de la gráfica anterior (llamada curva normal estándar). ¿Porqué ocurre esta coincidencia? Para comprenderlo, veamos la siguiente tabla donde se transformarán mediante la ecuación (1), los valores conocidos de x por la regla empírica, que son 1, 1.5, 2, 2.5, 3, 3.5 y 4 y que se encuentran en la primer columna de la tabla: 11 Valores de X Transformación de los valores de X Valores de z (usando la ecuación (1)) 1 1 2 .5 0 .5 -3 1.5 1 . 5 2 .5 0.5 -2 2 2 2.5 0.5 -1 2.5 2.5 2.5 0.5 0 3 3 2 .5 0 .5 1 3.5 3 .5 2 .5 0 .5 2 4 4 2.5 0.5 3 La tabla indica que la ecuación de estandarización, transforma los valores conocidos de x por los nuevos valores de z. Esto se observa en cada fila de la tabla anterior, y esto se ha graficado mostrando la coincidencia entre las dos curvas normales mediante líneas punteadas. Además, se sabe que si x es una variable normal, entonces z también lo es, por eso se ha dibujado una curva normal para z. Pero la gran ventaja que tiene la variable z es que ahora ya no importa qué población describa la variable x, siempre que sea normal, aunque tenga media y desviación diferente a los valores de 2.5 y 0.5 respectivamente, porque si en otra población de pesos de bebés al nacer, la media es, por ejemplo, de 2.7 kg y la desviación estándar es de 0.4, al construir la tabla anterior para transformar los valores de x usando la regla empírica (que serían 1.5, 1.9, 2.3, 2.7, 3.1, 3.5 y 3.9) , coincidirían con los mismos valores de z que están en la tabla anterior. Esto significa que ya no importa a 12 qué población normal se le quiera calcular la probabilidad o área en alguna región determinada, pues ahora basta con que se calcule el área con la curva normal estándar, y como ambas curvas coinciden, su área también será la misma y el problema estará resuelto. Por lo tanto, en lugar de calcular áreas para cada curva normal de cada población de interés, bastará con calcular el área para la curva normal estándar. Desde luego que el problema, aunque se ha simplificado todavía muestra una dificultad. Es necesario hallar una manera para calcular las áreas en la curva normal estándar. Sin embargo, esa tarea ya se realizó mediante métodos de Cálculo y por tal razón existen tablas que dan las áreas que se cubren por debajo de los valores de z de -4 hasta 4, generalmente variando z en centésimas. Estas tablas se encuentran en cualquier libro de estadística pero también cualquier software de estadística puede calcular las áreas bajo la curva normal estándar, por lo que el problema ya está resuelto. Bastará ejemplificar este método para que sea bien comprendido. Por último, si en la tabla anterior observamos la tercer columna y la comparamos con la manera en que los valores de x de la primer columna fueron obtenidos, se comprenderá el significado de z: z es el número de desviaciones estándar con que el valor de x transformado se aleja de la media. Por ejemplo, el valor del peso de un bebé de 3.5 se calculó multiplicando la desviación estándar, 0.5, por 2, y luego se le sumó a la media de 2.5. Observemos que en la tabla anterior, el valor de x de 3.5 que está en la fila 7, coincide con el valor de 2 de z que está en la misma fila. Esto significa que el valor de 3.5 está a dos desviaciones estándar a la derecha de la media de 2.5. Por lo tanto z es el número de desviaciones estándar que se deben sumar a la media para hallar el valor de x, cualquiera que este sea. EJERCICIOS 1. Usando un software graficador, escribe la función de distribución del modelo normal y dibuja las 3 curvas siguientes superpuestas con una media de 20 y una desviación estándar de a) 2; b) 4; c) 10. ¿Qué observas en las gráficas? 2. Usando un software graficador, escribe la función de distribución del modelo normal y dibuja las 3 curvas siguientes superpuestas con una desviación estándar de 5 y una media de a) 25; b) 30; c) 40. ¿Qué observas en las gráficas? 3. Dibuja las curvas explicadas en esta práctica. 13 4. Dibuja la distribución de la variable continua “tiempo de estudio de los alumnos antes de un examen” utilizando un software graficador. Define la población de interés y determina según tu experiencia el valor de la media y de la desviación estándar. 5. Construye la tabla que relaciona x con z mediante la ecuación de estandarización para el peso de los bebés al nacer cuando es normal y la media y la desviación valen 2.7 y 0.4 respectivamente. Dibuja las dos curvas normales, la del peso de los bebés y la estándar y verifica que los valores de z y x coinciden. Guardar con el nombre nombre-apellido.E3.3.2.1.Dist.normal-grupo.doc LECTURA En el libro “Carnaval matemático” de Martin Gardner, hay un artículo escrito por él mismo, en el que habla de los número aleatorios. Estos números los empleamos en clase para seleccionar una muestra de 30 datos de la serie de 250 datos. Como recordarán, no se seleccionaron de manera voluntaria porque esto sesga la muestra al existir una pauta sicológica que cada uno de nosotros introduce al seleccionar una serie de datos. A veces porque tenemos preferencia por ciertos números o ciertas secuencias que creemos debe aparecer en la selección de una muestra. Todo ello implica que al haber seleccionado y examinado la muestra, ella no sea representativa porque no tiene proporcionalmente los elementos tal y como aparecen en la población. Por ello, se debe enumerar, siempre que sea posible, cada elemento de la población y “tirando dados” (o generando números aleatorios por computadora), seleccionarlos al azar. El principal problema de este método que empleamos en el salón, es que en realidad, los números generados por computadora no son “totalmente” aleatorios, porque tarde o temprano empiezan a aparecer algunos dígitos con mayor frecuencia que otros o bien, aparece una pauta, es decir aparecen secuencias de dígitos que propician que los mismos datos, o un grupo de datos, se seleccionen frecuentemente y otros jamás sean seleccionados, lo cual sesga la información. En suma, los números que genera la calculadora no son desordenados, y por ello se les llama seudoaleatorios. Es necesario que los número aleatorios se generen de secuencias desordenadas que no tengan pautas para que no puedan ser predecibles, pues de serlo, esto hecha al traste con la aleatoriedad. A continuación seleccionaré algunos párrafos del artículo para que comprendan acaso brevemente, la importancia de la aleatoriedad: 14 “...(Los números aleatorios) son indispensables en el diseño de experimentos en agricultura, medicina y en otros campos en los que ciertas variables tienen que ser aleatorias para eliminar sesgos. Se usan también en los juegos y en las situaciones conflictivas en las que el mejor movimiento se consigue mezclando aleatoriamente las estrategias. Pero por encima de todo son esenciales para resolver y simular gran variedad de difíciles problemas que entrañan procesos físicos complejos en los que los sucesos aleatorios tienen un papel importante. . . La mayoría de los matemáticos coinciden actualmente en que una sucesión de dígitos absolutamente desordenada es un concepto lógicamente contradictorio. El motivo es que una serie de dígitos... a medida que satisface más y más los requisitos de aleatoriedad, comienza a mostrar un tipo raro e infrecuente de regularidad estadística que permite a veces predecir los elementos que faltan. (Por ejemplo, la serie 10200300040000500000 tiene regularidad y es posible determinar cuáles son los dígitos siguientes; de la misma manera la serie 6540381792 también tiene una regularidad, sólo que es más complicado hallarla, ¿cuál es esta regularidad?, como sugerencia, la secuencia es cíclica, considera que la serie está unida como si estuvieran los dígitos alrededor de una mesa redonda. La regla los ordena automáticamente.) Una manera de conseguir una serie de dígitos aleatorios consiste en utilizar algún proceso físico cuyo número de variables sea tan grande que jamás quepa predecir el siguiente número con una probabilidad mayor que 1/n. Lanzando una moneda al aire se puede generar una secuencia aleatoria de números binarios. Con un dado perfecto se obtienen series aleatorias de 6 símbolos. Un dodecaedro regular es un magnífico generador para un sistema de base 12. Cuando una computadora necesita emplear números aleatorios para resolver un problema, resulta menos costoso hacer que la máquina genere su propia serie que ocupar una parte de su memoria con tablas preestablecidas. La máquina puede generar lo que se denomina dígitos seudo aleatorios de cientos de maneras. El cálculo de un número irracional tal como o la raíz de 3 no es un buen método porque lleva demasiado tiempo y ocupa demasiado espacio de memoria. El método del “centro del cuadrado” es un procedimiento antiguo que propuso von Neumann. La computadora comienza con un número de n dígitos, lo eleva al cuadrado, toma los n o n+1 dígitos centrales, los eleva al cuadrado, vuelve a tomar los dígitos centrales, y así sucesivamente, generando grupos de n dígitos. Este procedimiento no se emplea actualmente por dar lugar a secuencias demasiado cortas y por introducir demasiados sesgos... Por ejemplo, si se comienza con el 3792 y se eleva al cuadrado se obtiene 14379264, de manera que la serie “aleatoria” es 3792 3792 3792... Lo mismo pasa si se parte de números de 6 dígitos tales como 495475 y 971582. Las técnicas modernas de generar números 15 seudo aleatorios con computadoras son muy superiores y bastante rápidas, variando de una máquina a otra.” En el libro de Gardner hay más referencias bibliográficas, para quien tenga interés, acerca del concepto de aleatoriedad En el punto anterior mencioné que no es aconsejable hacer una selección de una muestra sin usar números aleatorios, porque sicológicamente tenemos prejuicios o tendencias a elegir números o secuencias que según creemos debe representar necesariamente a cualquier sucesión aleatoria de números. En la mayoría de los casos introducimos sesgos de manera involuntaria sin caer en la cuenta acerca de qué clase de sesgo hemos admitido porque ello depende de nuestras preferencias subjetivas, las cuales desconocemos casi completamente. Incluso a veces creemos comportarnos de manera racional en la selección de una muestra, pero basta un sicólogo profesional o un matemático, para que nos demuestre cuál fue la razón de nuestra selección. A manera de ejemplo, he seleccionado esta anécdota, que espero apoye la afirmación que les menciono, y que he tomado del libro “La bella del dragón” de Alvaro Cunqueiro: “... La corte de Lisboa era muy jaranera, con muchas serenatas y ligues, y las parejas escuchaban música en una cámara a oscuras. Y en esto llegó doña Felipa, veintinueve años, rubia, de ojos azules. Y todos los cortesanos se dijeron que iba a aumentar el jolgorio, porque la princesa de Lancaster no venía educada con buenos ejemplos: su padre vivía al mismo tiempo, en la misma casa, con su mujer y su amante... Pero los que tal pensaban se equivocaron, porque quizá los malos ejemplos paternos habían dado a Felipa como un cierto asco a los desórdenes amorosos y puso orden en la corte. De entrada hace casar a un centenar de mujeres, y no tolera ninguna relación ilícita. Y además, exige el casamiento inmediato de todos los solteros de la corte. -El rey os manda decir que estéis dispuestos a casaros mañana. -¿Con quién? -¡En la iglesia lo sabréis! Y todos los matrimonios salieron bien. No se supo de adulterios en esa época. Se acabaron las serenatas, las músicas en salones oscuros y el regalar ligas bordadas y adornadas con pompón...” Y tal vez el método de selección aleatoria de Felipa de Lancaster sea mejor que la búsqueda de afinidades con el método de ensayo-error. Quizá por la intervención del azar... 16 17