Distribución normal CAPÍTULO 16 DISTRIBUCIÓN NORMAL Cuando los datos están distribuidos con frecuencias ascendentes-descendentes aproximadamente simétricas, se le llama distribución normal. Cuando se trata de una variable discreta, o sea que solamente puede tomar valores como 1, 2, 3, 4, etc., pero no 2.04 ó 5.6, el histograma correspondiente está formado por un conjunto de barras como se muestra en la figura 16.1 a). Si, en cambio, la variable es continua, el histograma es una curva como la mostrada en la figura 16.1 b), llamada curva normal. figura 16.1 185 Distribución normal En una curva normal lo que se utiliza es el área bajo la curva entre dos valores x1 y x 2 , ver figura 16.1b, cuyo valor se emplea para obtener diferentes informaciones de los datos que conforman dicha curva. El procedimiento para obtener esa área es la que se va a estudiar en este tema. Además, en una curva normal las tres medidas de tendencia central coinciden en el centro: la media, la moda la mediana; si acaso, puede haber una escasa diferencia entre algunas de ellas. También es simétrica respecto de la media, que es el punto más elevado de la curva y, por lo tanto, el área bajo la curva hacia la izquierda de la media es del 50% y el otro 50% se localiza a la derecha. Ver figura 16.2. figura 16.2 Una característica muy importante de la curva normal es que a partir de su eje de simetría se puede dividir como lo muestra la figura 16.3, de tal manera que el valor igual a cero de la gráfica corresponda siempre a la media aritmética de la distribución normal de datos, y luego los datos nominales se pueden transformar a uno equivalente de la escala de − 3 a + 3 de la figura 16.3. Por eso, a los datos comprendidos en la escala de - 3 a + 3 se les llama dato estándar. figura 16.3 En esa escala estandarizada, el 1 representa una desviación estándar, el 2 representa dos desviaciones estándares, y así sucesivamente. El signo positivo solamente indica que está a la derecha del cero y el signo negativo significa que está a la izquierda. Con los ejemplos venideros se aclararán esos significados. 186 Distribución normal 16.1 ESTANDARIZACIÓN DE DATOS Por lo dicho en el párrafo anterior, los datos pertenecientes a una distribución normal se pueden estandarizar o normalizar, lo cual se consigue utilizando la fórmula z= x−x s en donde: z x x s = = = = dato estandarizado o normalizado valor nominal del dato a estandarizar media aritmética del conjunto de datos desviación estándar. Ejemplo 1: Convertir cada uno de los datos nominales de la siguiente tabla a datos estandarizados. Solución: Para transformar un dato nominal en dato estándar, también llamado dato z, se requiere calcular la media de todo el conjunto. Para este caso ya se da por hecho que se sabe calcular la media y la desviación estándar, por lo que se omiten sus cálculos. La media es x = 12 y la desviación estándar es s = 2.2994 . Se tienen ya todos los datos para utilizar la fórmula del dato z: x−x z= . s x f 6 1 7 2 8 3 9 5 10 9 11 15 12 18 13 15 14 9 15 5 16 3 17 2 18 1 88 187 Distribución normal dato nominal x sustituyendo dato z 6 z= 6 − 12 2.2994 z = - 2.6093 7 z= 7 − 12 2.2994 z = - 2.1744 8 z= 8 − 12 2.2994 z = - 1.7395 9 z= 9 − 12 2.2994 z = - 1.3046 10 z= 10 − 12 2.2994 z = - 0.8697 11 z= 11 − 12 2.2994 z = - 0.4348 12 z= 12 − 12 2.2994 0 13 z= 13 − 12 2.2994 z = 0.4348 14 z= 14 − 12 2.2994 z = 0.8697 15 z= 15 − 12 2.2994 z = 1.3046 16 z= 16 − 12 2.2994 z = 1.7395 17 z= 17 − 12 2.2994 z = 2.1744 18 z= 18 − 12 2.2994 z = 2. 6093 188 Distribución normal El significado, a partir de que la media aritmética del conjunto es x = 12 y la desviación estándar es s = 2.2994 , es el siguiente: Un valor estandarizado z = 1 significa una distancia a partir de la media aritmética igual a una desviación estándar a la derecha, es decir una distancia de 2.2994. Un valor estandarizado z = − 2 significa una distancia a partir de la media aritmética igual a dos desviaciones estándar a la izquierda, es decir, una distancia de 4.5988. Ahora bien, si al dato nominal x = 6 le corresponde un dato estándar z = - 2.609, significa que ese 6 se alejó de la media 2.609 desviaciones estándares a la izquierda. Y así con cada uno de los datos nominales. Gráficamente: figura 16.4 189 Distribución normal C U E S T I O N A R I O 15 1) Convertir a datos estándar o dato z cada uno de los datos nominales de las siguientes tablas con distribución normal: a) x 4 5 6 7 8 9 10 f 20 21 27 35 27 21 20 b) x 9 11 13 15 17 19 21 f 1 3 8 10 8 3 1 c) x 14 15 16 17 18 19 20 f 10 11 17 19 17 11 10 d) x 2 4 6 8 10 12 14 f 100 300 800 900 800 300 100 e) x 40 45 50 55 60 65 70 f 200 210 245 265 245 210 200 f) x 39 40 41 42 43 44 45 f 10 13 16 20 16 13 10 190 Distribución normal 16.2 AÉREAS BAJO LA CURVA NORMAL En una curva normal, el área bajo la curva desde el extremo izquierdo hasta la media, es decir, hasta el eje de simetría, es del 50% y, obviamente, el otro 50% está en la parte derecha. Una característica importante de la curva normal y de los datos normalizados es que el área bajo la curva desde la media hasta una desviación estándar, es decir desde z = 0 hasta z = 1, ya sea a la izquierda o a la derecha, siempre es del 34.13% respecto del área total que puede haber bajo la curva. Ver parte superior de la figura 16.5. De la misma forma, el área bajo la curva desde la media hasta dos desviaciones estándar, es decir desde z = 0 hasta z = 2 , ya sea a la izquierda o a la derecha, es del 47.72%. Ver parte inferior de la figura 16.5. figura 16.5 191 Distribución normal Como la curva normal sale de graficar los datos recolectados, es obvio que esos porcentajes de áreas bajo la curva también lo son para dichos datos, es decir, para una desviación estándar, el porcentaje de datos entre la media y z = 1 es de 34.13% aproximadamente; para dos desviaciones estándar el porcentaje de datos entre la media y z = 2 es también aproximadamente de 47.72%. Por lo tanto, es posible obtener el porcentaje de área bajo la curva entre la media y cualquier valor estandarizado z, lo cual se ha concentrado en una tabla. La tabla de la siguiente página expresa el porcentaje de área desde la media hasta cada correspondiente valor z. Esto último es muy importante: Debe tomarse en cuenta que los valores mostrados en la tabla son siempre desde la media hasta el valor estandarizado z. Ejemplo 1: Al recolectar 250 datos, se obtuvo que la media es x = 7.65 y la desviación estándar s = 2.24 . Calcular el número de datos aproximados que hay entre la media y el dato nominal x = 8.1 . Solución: En este caso el enunciado proporciona los valores de la media y de la desviación estándar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces, continuando con el inciso c), hay que convertir a dato z el valor nominal x = 8.1 . con la fórmula dada en la página 185, o sea: z= x−x s z= 8.1 − 7.65 = 0.20 2.24 Se toman solamente dos decimales porque así vienen en las tablas. A continuación, conforme a lo establecido en el inciso d) se busca en las tablas (ver página siguiente) el valor de z = 0.20 , para lo cual se localiza en la columna z de la izquierda el valor 0.2 y en la primera fila de la tabla el 0. La celda intersección de lo anterior es el valor buscado para z = 0.20 . 192 Distribución normal PORCENTAJES DE AÉREAS BAJO LA CURVA NORMAL DESDE Z = 0 HASTA Z = 3.99 z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 0 0 3.98 7.93 11.79 15.54 19.15 22.58 25.80 28.81 31.59 34.13 36.43 38.49 40.32 41.92 43.32 44.52 45.54 46.41 47.13 47.72 48.21 48.61 48.93 49.18 49.38 49.53 49.65 49.74 49.81 49.87 49.90 49.93 49.95 49.97 49.98 49.98 49.99 49.99 50.00 1 0.40 4.38 8.32 12.17 15.91 19.50 22.91 26.12 29.10 31.86 34.38 36.65 38.69 40.49 42.07 43.45 44.63 45.64 46.49 47.19 47.78 48.26 48.64 48.96 49.20 49.40 49.55 49.66 49.75 49.82 49.87 49.91 49.93 49.95 49.97 49.98 49.98 49.99 49.99 50.00 2 0.80 4.78 8.71 12.55 16.28 19.85 23.24 26.42 29.39 32.12 34.61 36.86 38.88 40.66 42.22 43.57 44.74 45.73 46.56 47.26 47.83 48.30 48.68 48.98 49.22 49.41 49.56 49.67 49.76 49.82 49.87 49.91 49.94 49.95 49.97 49.98 49.99 49.99 49.99 50.00 3 1.20 5.17 9.10 12.93 16.64 20.19 23.57 26.73 29.67 32.38 34.85 37.08 39.07 40.82 42.36 43.70 44.84 45.82 46.64 47.32 47.88 48.34 48.71 49.01 49.25 49.43 49.57 49.68 49.77 49.83 49.88 49.91 49.94 49.96 49.97 49.98 49.99 49.99 49.99 50.00 4 1.60 5.57 9.48 13.31 17.00 20.54 23.89 27.04 29.96 32.64 35.08 37.29 39.25 40.99 42.51 43.82 44.95 45.91 46.71 47.38 47.93 48.38 48.75 49.04 49.27 49.45 49.59 49.69 49.77 49.84 49.88 49.92 49.94 49.96 49.97 49.98 49.99 49.99 49.99 50.00 193 5 1.99 5.96 9.87 13.68 17.36 20.88 24.22 27.34 30.23 32.89 35.31 37.49 39.44 41.15 42.65 43.94 45.05 45.99 46.78 47.44 47.98 48.42 48.78 49.06 49.29 49.46 49.60 49.70 49.78 49.84 49.89 49.92 49.94 49.96 49.97 49.98 49.99 49.99 49.99 50.00 6 2.39 6..36 10.26 14.06 17.72 21.23 24.54 27.64 30.51 33.15 35.54 37.70 39.62 41.31 42.79 44.06 45.15 46.08 46.86 47.50 48.03 48.46 48.81 49.09 49.31 49.48 49.61 49.71 49.79 49.85 49.89 49.92 49.94 49.96 49.97 49.98 49.99 49.99 49.99 50.00 7 2.79 6.75 10.64 14.43 18.08 21.57 24.86 27.94 30.78 33.40 35.77 37.90 39.80 41.47 42.92 44.18 45.25 46.16 46.93 47.56 48.08 48.50 48.84 49.11 49.32 49.49 49.62 49.72 49.79 49.85 49.89 49.92 49.95 49.96 49.97 49.98 49.99 49.99 49.99 50.00 8 3.19 7.14 11.03 14.80 18.44 21.90 25.18 28.23 31.06 33.65 35.99 38.10 39.97 41.62 43.06 44.29 45.35 46.25 46.99 47.61 48.12 48.54 48.87 49.13 49.34 49.51 49.63 49.73 49.80 49.86 49.90 49.93 49.95 49.96 49.97 49.98 49.99 49.99 49.99 50.00 9 3.59 7.54 11.41 15.17 18.79 22.24 25.49 28.52 31.33 33.89 36.21 38.30 40.15 41.77 43.19 44.41 45.45 46.33 47.06 47.67 48.17 48.57 48.90 49.16 49.36 49.52 49.64 49.74 49.81 49.86 49.90 49.93 49.95 49.97 49.98 49.98 49.99 49.99 49.99 50.00 Distribución normal El valor que le corresponde de 7.93% es el porcentaje de área bajo la curva entre la media y el dato z = 0.20 , pero como ese porcentaje también corresponde a los datos recolectados, entonces puede obtenerse por una simple regla de tres el número de datos nominales comprendidos en esa región: figura 16.6 250 nd = 100% 7.93% de donde el número de datos nd es nd = 250 × 7.93 100 nd = 19.82 El número datos en forma calculada es nd = 19.82, pero ese valor carece de sentido ya que los datos recolectados siempre son números enteros, porque se recolectan 200 datos, o 220 datos, o 300 datos, pero jamás 291.8. Entonces entre la media aritmética y el dato z = 0.20 no pueden haber 19.82 datos nominales, o hay 19 o hay 20, pero no una fracción de ellos. De manera que lo correcto es redondear y expresarlo no como que “es igual”, sino como “aproximadamente”. La solución entonces se expresa así: Hay aproximadamente 20 datos entre la media x = 7.65 y el dato nominal x = 8.1 . 194 Distribución normal Ejemplo 2: Al recolectar 850 datos con una distribución normal, se obtuvo una media de x = 27 y una desviación estándar s = 5.34 . Calcular el número de datos aproximados que hay entre la media y el dato nominal x = 20 . Solución: En este caso el enunciado proporciona los valores de la media y de la desviación estándar, por lo que los incisos a) y b) del proceso quedan sin efecto. Entonces, continuando con el inciso c), hay que convertir a dato z el valor nominal x = 20, con la fórmula: z= x−x s z= 20 − 27 = −1.31 5.34 En este caso el valor de z es negativo, lo que significa que el dato nominal x = 20 está a la izquierda de la media aritmética, pero en las tablas se busca simplemente como z = 1.31 ; le corresponde un porcentaje de área de 40.49%. Ver figura 16.7. figura 16.7 Entonces puede obtenerse por una simple regla de tres el número aproximado de datos nominales comprendidos en esa región: 195 Distribución normal 850 nd = 100% 40.49% de donde el número de datos nd es nd = 850 × 40.49 100 nd = 344.16 El número datos en forma calculada es nd = 344.16, pero ese valor carece de sentido ya que los datos recolectados, como se explicó en el ejemplo anterior, siempre son números enteros. De tal manera que entre la media aritmética y el dato z = − 1.31 no pueden haber 344.16 datos nominales, o hay 344 o hay 345 aproximadamente, pero no una fracción de ellos. De manera que lo correcto es redondear y expresarlo no como que “es igual”, sino como “aproximadamente”. La solución entonces se expresa así: Hay aproximadamente 344 datos entre la media x = 27 y el dato nominal x = 20 . 16.3 PORCENTAJE ENTRE DOS DATOS NOMINALES Otra problema que puede presentarse es cómo obtener el porcentaje de área bajo la curva ya no a partir de la media, sino entre dos datos nominales. Hay dos opciones: La primera es que los datos estandarizados z1 y z 2 se localicen uno a la izquierda y el otro a la derecha de la media. La solución a éste nuevo problema es muy simple, pues por una lógica muy elemental se puede deducir que el área total es igual a la suma del área 1 más el área 2, como se ve en la figura 16.8, en donde A1 es el área desde la media hasta el dato estanda- 196 Distribución normal rizado z1 , la que se obtiene en tablas siguiendo el mismo procedimiento del apartado anterior, A2 es el área desde la media hasta el dato estandarizado z 2 . figura 16.8 Otra opción que puede presentarse es la que se muestra en la figura 16.9, consistente en que ambos valores estandarizados z1 y z 2 se encuentren del mismo lado respecto de la media, en la que también por una lógica muy elemental puede deducirse que el área total es simplemente la resta del área 1 menos el área 2, ver figura 16.9, en donde A1 es el área desde la media hasta el dato estandarizado z1 , la que se obtiene en tablas siguiendo el mismo procedimiento del apartado anterior; A2 es el área desde la media hasta el dato estandarizado z 2 . De tal manera que el porcentaje de datos entre z1 y z2 es la resta de porcentajes bajo la curva de cada uno. figura 5.9 Ejemplo 3: De un conjunto de datos con una distribución normal, se obtuvo una media de x = 33.2 y una desviación estándar s = 9.4. Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x1 = 14 y el dato nominal x 2 = 45 . Solución: Estandarizando ambos datos nominales y localizando en las tablas el porcentaje de área bajo la curva que a cada uno le corresponde se obtiene que 197 Distribución normal z1 = x−x s z2 = x−x s z1 = 14 − 33.2 = −2.04 9.4 z2 = 45 − 33.2 = 1.25 9 .4 A1 = 47.93% A2 = 39.44% Como z1 es negativo significa que su región o porcentaje de área está a la izquierda de la media y como z2 es positivo, su porcentaje de área está a la derecha de la media. Por lo tanto, el porcentaje total de área bajo la curva es la suma de ambas, como se muestra en la figura 16.10: figura 16.10 La suma de los porcentajes de áreas es el porcentaje total de área buscado: A = 47.93% + 39.44% A = 87.37% 198 Distribución normal Ejemplo 4: De un conjunto de datos con una distribución normal, se obtuvo una media de x = 43.2 y una desviación estándar s = 8.9 . Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x1 = 53 y el dato nominal x 2 = 68 . Solución: Estandarizando ambos datos nominales y localizando en las tablas el porcentaje de área bajo la curva que a cada uno le corresponde se obtiene que z1 = x−x s z2 = x−x s z1 = 53 − 43.2 = 1.10 8 .9 z2 = 68 − 43.2 = 2.78 8 .9 A1 = 36.43% A2 = 49.73% El porcentaje total de área bajo la curva es la resta de ambas (ver la figura 16.11): figura 16.11 A = 49.73% − 36.43% A = 13.3% 199 Distribución normal Ejemplo 5: De un conjunto de datos con una distribución normal, se obtuvo una media de x = 20.4 y una desviación estándar s = 8.9 . Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x1 = 5 y el dato nominal x 2 = 25 . Solución: Estandarizando ambos datos nominales y localizando en las tablas el porcentaje de área bajo la curva que a cada uno le corresponde se obtiene que z1 = 5 − 20.4 = − 6.16 2.5 z2 = A1 = 50% 25 − 20.4 = 1.84 2 .5 A2 = 46.71% En este caso el porcentaje de área bajo la curva para z1 = − 6.16 es del 50% porque en las tablas a partir de z = 3.99 ya está abarcada toda la mitad, o sea ya le corresponde el 50% de área bajo la curva. Significa que de z = 3.99 en adelante está considerada ya toda la mitad de la curva. En casos como el de este ejemplo debe interpretarse que el dato nominal x1 = 5 no existe, lo que no impide que se proponga en el enunciado. Es el equivalente a que se preguntara: ¿cuántos alumnos de la preparatoria tienen menos de 185 años de edad? Una cosa es que nadie tenga 185 años y otra cosa es que todos los alumnos de la preparatoria tengan menos de 185 años de edad. El 100% de los estudiantes están por debajo de 185 años, aunque no existe el dato de 1 persona con 185 años. Entonces el porcentaje total de área bajo la curva es la suma de ambas por estar a ambos lados de la media, como se muestra en la figura 16.12: figura 16.12 200 Distribución normal A = A2 + A1 A = 50% + 46.71% A = 96.71% Ejemplo 6: De un conjunto de datos con una distribución normal, se obtuvo una media de x = 33 y una desviación estándar s = 4.5 . Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x = 38 y el dato nominal más grande. Solución: Estandarizando el dato nominal x = 38 : z1 = 38 − 33 = 1.11 4.5 que le corresponde un porcentaje de área desde la media de A1 = 36.65 %, mientras que al dato nominal más grande le corresponde A2 = 50% de área bajo la curva a partir de la media. Por lo tanto, el porcentaje de área pedido es la resta: A = A2 − A1 A = 50% − 36.65% A = 13.35% La figura 16.13 muestra la lógica de las operaciones anteriores: figura 16.13 201 Distribución normal C U E S T I O N A R I O 16 1) Al recolectar 450 datos con una distribución normal se obtuvo una media de x = 50 y una desviación estándar s = 17.4 . Calcular el número de datos aproximados que hay entre el dato nominal x1 = 34 y el dato nominal x 2 = 62 . 2) Al recolectar 270 datos con una distribución normal se obtuvo una media de x = 400 y una desviación estándar s = 14 . Calcular el número de datos aproximados que hay entre el dato nominal x1 = 387 y el dato nominal x 2 = 430 . 3) Al recolectar 500 datos con una distribución normal se obtuvo una media de x = 225 y una desviación estándar s = 12 . Calcular el número de datos aproximados que hay entre el dato nominal x1 = 203 y el dato nominal x 2 = 221 . 4) Al recolectar 940 datos con una distribución normal se obtuvo una media de x = 120 y una desviación estándar s = 16 . Calcular el número de datos aproximados que hay entre el dato nominal x1 = 128 y el dato nominal x 2 = 160 .OJO 5) Al recolectar 873 datos con una distribución normal se obtuvo una media de x = 220.1 y una desviación estándar s = 15 . Calcular el número de datos aproximados que hay entre el dato nominal x1 = 229 y el dato nominal x 2 = 296.6 . 6) De un conjunto de datos con una distribución normal se obtuvo una media de x = 99 y una desviación estándar s = 5.42 . Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x1 = 71.9 y el dato nominal x 2 = 96 . 202 Distribución normal 7) De un conjunto de datos con una distribución normal se obtuvo una media de x = 809 y una desviación estándar s = 21.8 . Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x1 = 787.2 y el dato nominal x 2 = 809 . 8) De un conjunto de datos con una distribución normal se obtuvo una media de x = 120 y una desviación estándar s = 19 . Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x1 = 120 y el dato nominal x 2 = 253 . 9) De un conjunto de datos con una distribución normal se obtuvo una media de x = 252 y una desviación estándar s = 31.9 . Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x1 = 41.2 y el dato nominal x 2 = 475 . 10) De un conjunto de datos con una distribución normal se obtuvo una media de x = 109.6 y una desviación estándar s = 10.2 . Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x1 = 125 y el dato nominal x 2 = 154 . 11) De un conjunto de datos con una distribución normal se obtuvo una media de x = 33 y una desviación estándar s = 8.5 . Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x1 = 25 y el dato nominal más grande. 12) De un conjunto de datos con una distribución normal se obtuvo una media de x = 33 y una desviación estándar s = 8.5 . Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x1 = 25 y el dato nominal más chico. 13) De un conjunto de datos con una distribución normal se obtuvo una media de x = 55.5 y una desviación estándar s = 2.5 . Calcular el porcentaje de área bajo la curva que hay entre el dato nominal x1 = 25 y el dato nominal x 2 = 80 . 203 Distribución normal 14) El área bajo la curva desde el dato nominal x1 = 10 hasta otro dato nominal x 2 es del 40.15% dentro de un conjunto de datos con una distribución normal cuya media es de x = 39 y su desviación estándar de s = 14.5 . Calcular el valor del dato nominal x 2 . 15) El área bajo la curva desde el dato nominal x1 = 10 hasta otro dato nominal x 2 es del 80.15% dentro de un conjunto de datos con una distribución normal cuya media es de x = 39 y su desviación estándar de s = 14.5 . Calcular el valor del dato nominal x 2 . 16) El área bajo la curva desde el dato nominal más pequeño hasta otro dato nominal x 2 es del 33% dentro de un conjunto de datos con una distribución normal cuya media es de x = 39 y su desviación estándar de s = 14.5 . Calcular el valor del dato nominal x 2 . 17) El área bajo la curva desde el dato nominal más pequeño hasta otro dato nominal x 2 es del 93.7% dentro de un conjunto de datos con una distribución normal cuya media es de x = 39 y su desviación estándar de s = 14.5 . Calcular el valor del dato nominal x 2 . 204