La Distribución Normal y su uso en la Inferencia Estadística Los conceptos básicos de Probabilidad y de Distribuciones Muestrales sirven como introducción al método de Inferencia Estadística; esta se compone en dos áreas: • Estimación • Pruebas de Hipótesis La estimación busca evaluar los valores de los parámetros de la población (por ejemplo la media y la desviación estándar) basados en una muestra. Las pruebas de Hipótesis constituyen un proceso relacionado con aceptar o rechazar alguna afirmación acerca de los parámetros de la población. Ejemplo. Supóngase que un fabricante de lápices compra a un proveedor borradores para pegarlos a los lápices. El fabricante tiene que decidir si cada lote de borradores del proveedor es de calidad aceptable. Para ello necesita que contenga el 15% o menos de borradores defectuosos. Desde luego, no puede inspeccionar cada borrador del lote. Debido a esto, obtiene una muestra de 20 borradores de cada lote y la inspecciona. Decide que si hay 3 o menos borradores defectuosos en la muestra, aceptará un lote; si hay más de 3 defectuoso rechazará el lote y lo de volverá al proveedor. Sin embargo, si acepta un lote cuando éste contiene más del 15% de borradores defectuosos, ha cometido un error. Por otra parte si rechaza un lote cuando contiene menos del 15% de borradores defectuosos, también ha cometido un error. Con base en la evidencia proporcionada por la muestra, el fabricante ha tratado de responder a la pregunta ¿tiene el lote una proporción de lápices defectuoso tan grande que sea necesario rechazarlo? Al responder a lo anterior, el fabricante de lápices ha tomado una decisión acerca de la proporción de defectos en la población general, ya que la proporción en la población es un parámetro de la población y las decisiones acerca de los parámetros de la población constituyen el proceso de pruebas de hipótesis, en realidad el fabricante ha realizado la tarea de probar una hipótesis. Si el fabricante está interesado en estimar la verdadera proporción de defectos con base a su información muestral, tendrá que intentar responder a la pregunta Con base en la muestra ¿Qué afirmación puedo hacer acerca de la proporción de la población que es defectuosa ? Esta pregunta corresponde a lo que se llama Estimación. ¿Porqué es normal la distribución Normal? Al hacer mediciones de cualquier tipo y distribuir nuestros resultados bajo algún criterio, es muy común encontrar que los datos se agrupen de manera muy característica. En muchos de estos casos veremos que dichas distribuciones siguen una forma muy particular en la que tenemos un mayor número de observaciones para cierto valor, disminuyendo la cantidad de observaciones a ambos lados de la observación más frecuente. Un ejemplo es al dejar caer canicas por entre una serie clavos como lo muestra la figura, al final del experimento con muchas canicas tendremos que las canicas se han agrupado como se ve en la figura. Ejercicio interactivo: Máquina de Galton A este tipo de distribución se le conoce como Distribución Gaussiana, ya que el matemático alemán Karl F. Gauss (1799-1830) fue quien la describió de manera analítica. La forma de ésthttp://www.geociencias.unam.mx/~ramon/EstInf/ Sesiones.htmla función es parecida a la de una campana, por eso también se conoce como “campana de Gauss”. Los parámetros que caracterizan esta distribución son su media (µ) y su desviación estándar (σ) que es una medida de qué tan ancha es la curva. Es tan común encontrar esta distribución en tan diversas ramas del conocimiento, que también se le da el nombre de Distribución Normal. La aportación de Gauss se honraba en los billetes de los marcos alemanes (antes de los Euros) como uno de sus descubrimientos más trascendentales. La distribución Gaussiana se aplica a una gran gama de observaciones en ramas como la biología, la geografía, la astronomía y por supuesto la economía. Muchos ejemplos de la naturaleza se pueden aproximar con una distribución normal. En general esto se puede pensar como resultado de la interacción de muchos (o un gran número) efectos aleatorios en la variable que se estudia. Por ejemplo, si medimos el tamaño de las hojas de un árbol, veremos que tienden a distribuirse en forma gaussiana. Ejercicio interactivo: Jugando con la distribución normal Pero ¿a qué se debe esta aparentemente sorprendente resultado? Estas distribuciones son el resultado del agregado de muchos procesos azarosos o fortuitos que podrían no ser observables individualmente. Matemáticamente esta distribución obedece a lo que se conoce como el Teorema del Límite Central. Este teorema estipula que si tomamos muestras de una población que tenga cualquier tipo de distribución, pero una media y varianza finitas, entonces, la distribución de las medias tiende a la distribución normal. Entre mayor sea el número de muestras mejor será la aproximación a una distribución normal. Por ejemplo, si nos tiramos un dado la probabilidad de que caiga cualquier número es 1/6. Esto implica una distribución de posibilidades de la siguiente forma (x es el número o cara): P 1/6 1 2 3 4 5 6 x Esta es una Distribución de Probabilidad Uniforme que, como se ve, es la misma probabilidad para todos los valores que toma la variable Ahora imaginemos que tiramos un dado 500 veces y tomamos el número total de puntos de cada tirada, entonces decimos que N = 1, y las sumas de cada tirada las distribuimos como en la figura. Ahora lo hacemos con 4 dados (N = 4), y luego con 7 y con 10. Al final tendremos las siguientes distribuciones: Notemos que conforme vamos aumentando el número de muestras la distribución se acerca más a una distribución normal. Ejemplo interactivo: distribución muestral Otro motivo por el cual as distribuciones normales son muy utilizadas es que tienen muchas propiedades muy convenientes. Por eso, si las variables aleatorias que nos interesan tienen distribuciones desconocidas, podemos hacer inferencias iniciales suponiendo distribuciones normales. Entre las propiedades agradables de la distribución normal, está el hecho de que • La distribución normal de una suma o diferencia (que en general es lo mismo) de distribuciones normales es también normal. Si tenemos que: y Y la correlación entre x1 y x2 es ρ, entonces: Y también: Debido a todo lo anterior esta distribución es muchas veces el modelo de partida de los análisis de los datos. Aunque cuando no podemos generalizar, muchas veces la podremos utilizar como una buena aproximación a la realidad. Distribución Normal Estándar o tipificada. Calificación Z. Una de las consecuencias del Teorema del Límite Central es que dada una población con media µ y para n lo bastante grande, la distribución de la variable es una distribución normal, a esta se le llama la distribución normal estándar o tipificada. donde: xi µ es la observación que estamos queriendo analizar es el valor de la media de la población (puede ser estimada de la muestra) σ es el valor de la desviación estándar de la población (puede ser estimada de la muestra si n es muy grande) Si nos fijamos en la fórmula el valor de Z es la distancia de la observación a la media en unidades de desviación estándar, es decir, a cuántas desviaciones estándar está alejada nuestra observación de la media. Veamos qué significa esto en una gráfica: Dos desviaciones estándar Una desviación estándar Actividad 1 Si nos dicen que una población tiene una media de 23 y una desviación estándar de 3.5, encontrar la calificación Z de a)26.6, b) 16, c)19.5 d) 29: a) lo que significa que 26.6 está a 1.03 desviaciones estándar a la derecha de la media (porque es positivo). b) lo que significa que la observación está a 2 desviaciones estándar a la izquierda de la media (porque es negativo). c) d) ¿Qué significa este resultado? Z= 29 − 23 = 1.72 3.5 ¿Qué significa este resultado? Si cambiamos todos los valores observados a calificaciones Z, entonces podemos crear una distribución normal genérica llamada distribución normal estándar o tipificada en donde • la media, que está en el centro de la curva, nos queda en el valor 0 • la desviación estándar es ahora igual a 1 y • el área bajo la curva también es igual a la unidad lo que equivale al total de los casos de la población estudiada, es decir, El área total = 1 corresponde al 100% de los casos, y porciones del área son proporcionales a porcentajes parciales de la muestra. De este modo, la porción de área bajo la curva, limitada por dos ordenadas o perpendiculares levantadas en puntos del eje X, expresan el porcentaje de casos que quedan comprendidos entre las calificaciones Z correspondientes a los puntos sobre los que se trazan las ordenadas. Veámoslo en el siguiente diagrama. La Regla del 68 – 95 - 99.7% Todas las curvas o distribuciones de densidad normal satisfacen la siguiente propiedad a la cual comúnmente se le refiere como la Regla Empírica. 68% de las observaciones caen dentro de 1 desviación estándar de la media, o sea, entre µ - σ y µ + σ . 95% de las observaciones caen dentro de 2 desviaciones estándar de la media, o sea, entre µ - 2σ y µ + 2σ . 99.7% de las observaciones caen dentro de 3 desviaciones estándar de la media, o sea, entre µ - 3σ y µ + 3σ . Podemos ver que casi todas las observaciones caen dentro de 3 desviaciones estándar de la media y más del 95% caerían a 2 desviaciones estándar de la media Porcentajes del Área total o porcentajes de la población o probabilidad 2.15% 13.59% 34.13% -3 -2 -1 Valores o calificaciones z 0 34.13% 13.59% 2.15% 1 2 3 El área correspondiente a una distancia de 1 desviación estándar de la media (a ambos lados) es de aproximadamente 68% De acuerdo a lo especificado anteriormente entonces entre 0 y 1 se encuentra el 34.13% de los casos, es decir que el área bajo la curva es 0.3413, o lo que significa que el 68.26% de la población está alejada de la media a lo más una desviación estándar. O que solamente el 4.30% de los casos están más allá de dos desviaciones estándar de la media. Existen tablas que nos ayudan a obtener los porcentajes de casos entre diferentes calificaciones Z y la media. Sin embargo se debe tener mucho cuidado de ver cuál es el área bajo la curva que nos dan, porque se tabula de forma diferente en los libros, ∞. R e g l a e m p ír i c a f( z ) algunos la dan a partir de 0 y otros a partir de - -4 -3 -2 -1 0 1 2 3 4 z Ejemplos: 1.Si queremos encontrar el área bajo la curva comprendida entre las calificaciones estándar de los incisos a) y d) anteriores, buscamos en la tabla los valores que corresponden: para Z = 1.03 el área bajo la curva es 0.8485 para Z = 1.72 el área bajo la curva es 0.9564 lo que nos da un área de 0.9564-0.8485 = 0.1079 Esto quiere decir que el 10.79% está entre los valores 26.6 y 29 (recordar que el área total =1 equivale al 100% de los casos). z Que porcentaje de datos podríamos esperar con valores mayores a 29? para Z = 1.72 el área bajo la curva es 0.9564 lo que nos da 1 – 0.9564 = 0.0436 o sea 4.36% 10.79% 95.64% z 2. Encontrar el área bajo la curva entre las calificaciones Z = -2 y Z = -1 Como en unas tablas no nos dan el área del lado izquierdo podemos usar los valores del lado derecho y el área es la misma porque la curva es simétrica. Para Z = 2 el área bajo la curva es 0.9772 para Z = 1 el área bajo la curva es 0.8413 lo que nos da un área entre medio de ellas de 0.9772-0.8413 = 0.1359 z Cálculo de Probabilidades Antes de pasar a usar los conceptos anteriores tenemos que definir qué es la probabilidad. Podemos pensar en este concepto de dos maneras: 1. Si conocemos todos los resultados posibles de un experimento u observación, y queremos saber el porcentaje de que ocurra un cierto tipo de resultado, entonces llamamos probabilidad a: Actividad No. 1: Al tirar dos dados queremos ver la probabilidad de que salga el número 4 al sumar los puntos. En este caso el número total de resultados es 36, por lo tanto N=36 El número de resultados que cumplen el criterio es 1+3, 2+2, 3+1, n=3 n 3 1 P( A) = = = N 36 12 Es la probabilidad de que la suma de los puntos de dos dados sea = 4 Si embargo, algunas de estas sumas se repiten, por lo que podemos hacer una tabla como la siguiente Valores de la suma (x) Número Probabilidad de P(x) casos 2 1 1/36 3 2 2/36 4 3 3/36 5 4 4/36 6 5 5/36 7 6 6/36 8 5 5/36 9 4 4/36 10 3 3/36 11 2 2/36 12 1 1/26 Total 36 1.0 Si ahora hacemos un histograma con los valores de las sumas y sus probabilidades, tendremos lo siguiente Esto es lo que llamaríamos a una distribución de probabilidad para la suma de dos dados. La cual, por cierto, en este caso se aproxima a una distribución normal. 2. La otra manera de pensar en el concepto de probabilidad es por medio de la idea de frecuencia. Si realizamos un experimento muchas veces (tantas como sea posible) entonces La diferencia con la forma anterior es que ahora no conocemos todos los posibles casos, sino que los “medimos” con base en una serie de experimentos. Como puede pensarse, en esta situación tendremos una “aproximación” a la probabilidad buscada, la cual es mejor mientras mayor sea el número de experimentos. Tarea 3. Si se tiene una media de 156 y una desviación estándar de 15, encontrar las calificaciones Z para: a) 144 b) 167 c) 173 d) 136 Encontrar el área bajo la curva entre las calificaciones Z de: a) y b) b) y c) b) y d) Nota: se puede consultar cualquier tabla de calificaciones Z en un libro de estadística pero hay que fijarse si se tabula la curva completa o sólo la mitad. El concepto de calificación Z estudiado nos va a ayudar para calcular probabilidades de que ocurra un cierto caso referido a la media de la población, como veremos a continuación. Actividad 2. Resolver los siguientes problemas El promedio de estudiantes inscritos en jardines de niños es de 500 con una desviación estándar de 100. El número de alumnos tiene una distribución aproximadamente normal. ¿Cuál es la probabilidad de que el número de alumnos inscritos en una escuela elegida al azar esté: a) entre 450 y 500 b) entre 400 y 640 µ = 500, σ = 100 Distribution Plot Normal, Mean=0, StDev=1 0.4 0.191 Área = 0.1915 Density 0.3 0.2 0.1 0.0 -0.5 0 X Respuesta: la probabilidad es de 19.15% b) entre 400 y 640 µ = 500, σ = 100 Área = 0.7605 Distribution Plot Normal, Mean=0, StDev=1 0.761 0.4 Density 0.3 0.2 0.1 0.0 -1 0 X 1.4 Respuesta: la probabilidad es de 76.05% Se ha determinado que la vida útil de cierta marca de llantas radiales tienen una distribución normal con un promedio de 38,000 kilómetros y desviación estándar de 3,000 kilómetros a)¿Cuál es la probabilidad de que una llanta elegida al azar tenga una vida útil de cuando menos 30,000 kilómetros? b)¿Cuál es la probabilidad de que dure 40,000 kilómetros o más? µ = 38,000 , σ = 3000 Distribution Plot Normal, Mean=0, StDev=1 0.996 0.4 Área = 0.9962 Density 0.3 0.2 0.1 0.0 -2.666 0 X Respuesta: la probabilidad es de 99.62% b)¿Cuál es la probabilidad de que dure 40,000 kilómetros o más? Distribution Plot Normal, Mean=0, StDev=1 0.4 Density 0.3 Área = 0.2514 0.2 0.1 0.0 0.253 0 X 0.666 Respuesta: la probabilidad es de 25.14% Un distribuidor hace un pedido de 500 de las llantas especificadas en el problema anterior. Aproximadamente cuántas llantas durarán a) entre 30,000 y 40,000 kilómetros b) 38,000 kilómetros o más Distribution Plot Normal, Mean=0, StDev=1 0.4 Área = 0.7486 Density 0.3 0.743 0.2 0.1 0.0 74.86% de 500, 0.7486x500 = 374.3 -2.666 0 X 0.666 Actividad 3. La producción de tomates por planta tiene una media de 12 kg y una desviación estándar (o típica) de 2 kg. Se considera que la producción de tomates tiene una distribución normal. a) Si se selecciona al azar una planta de tomate ¿ Cuál es la probabilidad de que rinda 15 kg o más? Distribution Plot Normal, Mean=0, StDev=1 0.4 Density 0.3 Área = 0.0668 0.2 0.1 0.0668 0.0 0 X 1.5 b) Si en una granja hay 10000 plantas de tomate ¿Cuántas rendirán más de 11 kg? Distribution Plot Normal, Mean=0, StDev=1 0.4 Density 0.3 Área = 0.6915 0.2 0.691 0.1 0.0 -0.5 0 X TAREA 4 Supóngase que la duración promedio de las estancias de los pacientes en un hospital es de 10 días con una desviación estándar de 2 días. Considérese que la distribución de las duraciones está normalmente distribuida. a) ¿Cuál es la probabilidad de que el próximo paciente que se reciba permanezca más de 11 días? b) Si el día de hoy se admitieran 200 pacientes ¿Cuántos continuarán en el hospital después de 2 semanas?