Distribución normal estándar Juan José Hernández Ocaña Tipos de variables [email protected] Tipos de variables • Cualitativas • Son las variables que expresan distintas cualidades, características o modalidades . Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Las variables cualitativas pueden ser ordinales y nominales • Por ejemplo • Colores : rojo, azul , blanco … • Profesiones : Ingeniería, Médico, Administrador • Genero : Hombre o mujer [email protected] Variables Cuantitativas • Discretas • Son aquellas que toman normalmente valores enteros positivos . • Por ejemplo número de alumnos de FACS; número de autos en el estacionamiento; número de reactivos en un examen … • Asociadas con el proceso de contar • Continuas. • Son aquellas que pueden tomar numero enteros o fracciones de éstos • Peso, volumen • Asociadas con el proceso de medir [email protected] Variable aleatoria • Una variable aleatoria es una variable con un valor numérico único, que se determina al azar, para cada resultado de algún procedimiento. • Podemos clasificar a las variables aleatorias como: • Discretas • Continuas Tipos de variables Las Variables aleatorias continuas pueden tomar un número infinito de posibles valores y los valores pueden diferir unos de otros de manera infinitesimal Por ejemplo: el peso, la estatura… Distribución Probabilística teórica • Una distribución probabilística es una distribución de probabilidades y sí cada una de las cuales está asociada con cada uno de los posibles valores diferentes de la variable aleatoria, entonces podemos decir que es una distribución teórica • La probabilidad de cualquier valor particular de x es una “proporción en la población” Propiedades 1. ∑ P(x) = 1 la suma de las probabilidades de todos los valores posibles de la variable aleatoria debe ser igual a 1 2. 0 ≤P(x) ≤1 P(x) debe estar entre 0 y 1 para cualquier valor de x 0.18 0.16 0.14 Título del eje 0.12 0.1 0.08 0.06 0.04 0.02 0 1 2 3 4 5 6 7 8 9 10 11 0.0277778 0.0555556 0.0833333 0.1111111 0.1388889 0.1666667 0.1388889 0.1111111 0.0833333 0.0555556 0.0277778 Al tirar dos dados la probabilidad de obtener la suma de 7 es de 0.166, ya que implica todas las siguientes posibilidades 1+6; 6+1; 2+5; 5+2; 3+4 y 4+3 La probabilidad de obtener la suma de 12 al tirar dos dados es sólo de 0.277 Distribución uniforme • Distribución uniforme • Una variable aleatoria continua tiene una distribución uniforme sí sus valores se dispersan uniformemente a través del rango de posibilidades • Podemos tener en el caso de una distribución uniforme las siguientes funciones : • una distribución exponencial • una distribución uniforme • una distribución normal uniforme Distribución exponencial Distribución uniforme Distribución normal uniforme Si la distribución de los datos sigue una distribución normal uniforme entonces podríamos calcular el área bajo la curva de una curva que se distribuye simétricamente Todas las distribuciones de los datos siguen un patrón de una distribución normal uniforme? 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 1 2 3 4 5 6 7 8 9 60 PORCENTAJE PORCENTAJE 11 FINLANDIA 2006 CIENCIAS MEXICO 2006 CIENCIAS 35 30 25 20 15 10 5 0 10 MENOS 334 A 409 409 A 484 484 A 558 MAYOR A DE 334 558 DISTRIBUCIÓN DE RESULTADOS 50 40 30 20 10 0 MENOS 334 A 409 409 A 484 484 A 558 MAYOR DE 334 A 558 DISTRIBUCIÓN DE RESULTADOS TEOREMA DEL LIMITE CENTRAL Cómo estandarizar las mediciones sí para cada distribución de datos tendríamos un tipo diferente de distribución? DISTRIBUCION PROBABILISTICA NORMAL ( usual o típica) • La variable aleatoria normal es de naturaleza continua debido a que su espacio muestral consiste en un número infinitamente grande de valores reales que pueden arreglarse de acuerdo a una escala continua. • El TEOREMA CENTRAL DEL LIMITE ( video) • Nos dice que la distribución de las medias muestrales es aproximadamente normal sin importar la formar de distribución de la población, siempre y cuando el tamaño de la población sea relativamente grande. Teorema del límite central • Si empleamos valores de medias muestrales • 1.- La dispersión de los datos es relativamente pequeña, esto es, los datos individuales tienen una mayor dispersión que los datos de medias muestrales. • 2.- Cuando el tamaño de las muestras de las medias es grande, la distribución de los datos seguirá una distribución normal La distribución normal es una distribución de datos continuos que produce una curva simétrica en forma de campana Si un histograma de eventos al azar se divide en clases cada vez más pequeñas y sí se tiene un número grande de eventos tendríamos una curva como la que vemos Sí una curva de densidad satisface las siguientes propiedades: 1.- El área total bajo la curva es igual a 100% 2.- Cada punto de la curva tiene una altura vertical superior a 0 Entonces hay una correspondencia entre área y probabilidad La gráfica de una distribución de probabilidad continua se llama curva de densidad Una distribución de probabilidad normal es simétrica . La desviación estándar determina el ancho de la curva La curva se extiende desde menos infinito a mas infinito Consideremos que la mayoría de los valores se encuentran cerca del valor medio Una distribución normal estándar es una distribución normal de probabilidad con una media de cero y una desviación estándar de 1. Sí consideramos que el área total debajo de la curva es igual al 100% entonces en términos de probabilidad podemos afirmar que la probabilidad de encontrar un valor bajo la curva es mayor a cero y su sumatoria de 1 Curva normal estándar Hay que considerar que en el punto más alto de la curva normal se tiene la media, la moda y la mediana En ese punto el valor de la puntación z es igual a cero Las puntuaciones Z son las distancias a lo largo de la escala horizontal de un punto en particular respecto a la media en términos de desviación estándar La base está dada en unidades de desviación estándar (puntuaciones “Z”) y es la coordenada sobre el eje horizontal entre el promedio y el valor observado en un elemento de la población Aplicaciones de las distribuciones normales MEDIDAS DE POSICIÓN RELATIVA Relación entre Tendencia Central y la Simetría de la distribución Debido a que la curva normal presenta la distribución probabilística de una variable aleatoria continua es imposible referirse a un punto en particular, sólo se puede calcular la probabilidad cuando se hace referencia al cálculo de intervalos Podemos medir el área bajo la curva siempre y cuando se emplee un intervalo Si una variable aleatoria continua tiene una distribución con una gráfica simétrica en forma de campana y puede ser descrita por la siguiente ecuación, entonces decimos que tiene una distribución normal y podemos calcular el área mediante la siguiente ecuación f(x)= Afortunadamente para una curva normal estandarizada ya se han realizado los cálculos para una infinidad de valores y los podemos encontrar empleando tablas o mediante el empleo de software como SPSS ,EXCEL MINITAB Calculo del área bajo la curva Uso de tablas http://www.stat.berkeley.edu/~stark/Java/Html/NormHiLite.htm Ejercicios USO DE TABLA puntuación z 1.- Cuál es la probabilidad de encontrar un valor entre el intervalo de valores de z de: z= – 1.98, y de z = + 1.2. Realice la gráfica correspondiente. 2.- Cuál es la probabilidad de encontrar un valor entre el intervalo de los valores de z = - 1.0 y z= + 1.7 3.-¿ Cuál es la probabilidad de encontrar un valor menor a Z= - 2.0 Ejercicios USO DE TABLA puntuación z 4.- Cuál es la probabilidad de encontrar un valor de z menor o igual a 1.20. Realice la gráfica correspondiente. 5.- Cuál es la probabilidad de un encontrar un valor de z mayor o igual a z= -1. 4 6.- Cuál es la probabilidad de encontrar un valor entre el intervalo de valores de z de : z = +0.52 y de . z =+ 1.22. Realice la gráfica correspondiente 7.- Cuál es la probabilidad de encontrar un valor entre el intervalo de valores de z de: z = - 1.75 .y z= - 1.04 Todas las curvas normales tienen la misma forma? F(x)= Dado que ∏ y e son constantes, para cada combinación de la media y la desviación estándar tendríamos una curva diferente por lo que es necesario estandarizar Distribución normal estándar Si consideramos que los datos de una variable aleatoria tienen una media igual a cero y una desviación estándar igual a uno , entonces podríamos estandarizar las mediciones para una curva que tiene una distribución normal Utilidad de la curva normal estándar • Hay que considerar que las distribuciones normales reales no tienen una desviación estándar de 1 y una media de 0. • Por lo que se hace necesario transformar cualquier distribución normal en una distribución estándar para poder seguir realizando los cálculos relacionando área bajo la curva con probabilidad • Esta formula nos permite convertir una distribución normal no estándar de una variable a una distribución estándar • Esencialmente lo que hacemos es transformar un valor de una variable x en una puntuación z equivalente. • La ecuación nos dice que tanto se aleja un valor de x respecto a su media en términos de desviación estándar EJERCICIOS PARA RESOLVER EN CLASE Ejercicio Z1 • Según una encuesta sobre adicción al empleo de medios electrónicos, los estudiantes a nivel universitario emplean la computadora para actividades no escolares en un promedio de 27 horas por semana. Suponga que aplica la distribución normal y que la desviación estándar es de 8 horas. • Cuál es el porcentaje de la población estudiantil que utiliza la computadora MENOS de 11 horas. • Cuál es el porcentaje de la población estudiantil que usa la computadora entre 25 y 35 horas. • Cuál es el porcentaje de población estudiantil que usa la computadora entre 30 y 35 horas. • Cual es el porcentaje de la población estudiantil que utiliza mas de 28 horas la computadora. Z2 • EL profesor de estadística ha determinado que el tiempo necesario para que los estudiantes concluyan un examen final se distribuye normalmente con una media de 100 minutos y una desviación típica de 10 minutos. • ¿Cuál es la probabilidad de que un estudiante elegido al aleatoriamente concluya el examen en menos de dos horas? • ¿Cuál es la probabilidad de que un estudiante elegido aleatoriamente concluya el examen en 125 minutos o más? • Si hay 50 estudiantes en la clase, ¿cuántos de ellos concluirán el examen antes de una hora y 50 minutos? Z3 • El salario semanal para un obrero no calificado en Estados Unidos fue de $ 440 el año anterior. Suponga que los datos disponibles indican que los salarios tienen una distribución normal con una desviación estándar de 90 dólares. • 1.- ¿ cuál es la probabilidad de que gane entre 400 y 500? • 2.- ¿Cuánto tiene ganar un obrero para ser considerado entre el 20% de los que ganan más’ • 3.- ¿ cuánto tiene que ganar para que le den un bono para vivienda. Se da a los obreros que están en el 5% de los que menos ganan? Z4 • Una persona debe tener una puntuación en el 2% superior de la población en un prueba de CI para calificar como miembro de MITAL. Si las puntuaciones de CI tienen un distribución normal con una media de 100 y una desviación estándar de 15 ¿ qué puntación debe obtener una persona para ser miembro de MITAL? Un estudio de investigación de mercado revela que una familia típica en la zona norte de la ciudad de México, gasta en promedio 490 pesos cuando acude al cine en los fines de semana. Si los datos siguen una distribución normal y considerando que los datos tienen una desviación estándar de 90 pesos . Cuál es el porcentaje de las familia que gastan más de 200 pesos y menos de 490 pesos? Cuál es el porcentaje de familias que gastan menos de 430 pesos Cuál es el porcentaje de familias que gastan entre 500 y 600 pesos? Cuál es el porcentaje de las familias que gastan más de 550 pesos? Cómo estrategia de mercadotecnia, Cinevamos está pensando ofrecer un par de boletos de regalo para aquellas familias que se encuentran en el 2% de las que más gastan en sus visitas al cine. Cuál sería el consumo mínimo en la visita al cine para poder aspirar a dicho beneficio? Dudas ?? • .- Estudios realizados en la Universidad revelan que el promedio general obtenido por los alumnos (as) de las carreras de Psicología , Pedagogía Y Administración en las asignaturas cursadas en el año 2009 fue de 8.00, y presentan una desviación estándar de 1.5. Si consideramos que la población de LAS TRES carreras es de 480 alumnos (as) y consideramos que los datos se distribuyen normalmente. • Que porcentaje de la población obtuvo calificaciones menores a 8.5 • Si se otorga una beca al 10% de los alumnos con mejores calificaciones, cuál es el promedio mínimo que debieron obtener para conseguir dicha beca?. • Si el CADE está considerando implementar un plan de apoyo para aquellos alumnos que obtuvieron un promedio de 7 o menor, a cuántos alumnos atenderá? • La universidad ha decidido que los alumnos que se encuentren dentro del 5% con los peores resultados, cursen programas de recuperación en clases sabatinas. Cuál sería la calificación promedio mínima que se requiere para evitar ser enviado a dichos cursos? Bibliografía empleada • • Triola,Mario: Estadística Pearson Education. Novena edición. México, 2004.