UNIVERSIDAD DE COSTA RICA ESCUELA DE ESTADÍSTICA Prof. Olman Ramírez Moreira DISTRIBUCIÓN DE FRECUENCIAS FUENTE: Gómez, Elementos de Estadística Descriptiva Levin & Rubin. Estadística para Administradores DEFINICIÓN Y USO Necesidad de resumir la información. Para que los datos sean útiles deben organizarse para distinguir patrones y tendencias y llegar así a conclusiones lógicas Una forma de organizar un conjunto de datos es clasificarlos en categorías o clases y luego contar cuántas observaciones quedan dentro de cada categoría. Para el análisis e interpretación de datos es valioso conocer: La forma o patrón de distribución de los datos La posición de la distribución: alrededor de qué valor se tienden a concentrar los datos Variabilidad: la dispersión de los datos alrededor de los valores centrales Ordenamiento o arreglo de los datos en clases o categorías indicando para cada una de ellas, el número de elementos que contiene o frecuencia VISITAS DIARIAS HECHAS AL SITIO WEB DE ESTUDIOS SOBRE DIVERSIDAD CULTURAL EN EL PRIMER CUATRIMESTRE DEL 2007 22 22 23 24 25 26 26 26 27 27 27 28 28 28 29 30 30 30 30 30 30 30 31 31 31 31 31 32 32 33 33 33 33 34 34 34 34 35 35 35 35 35 35 35 35 35 35 35 35 36 36 36 37 37 37 37 38 38 38 38 38 38 38 38 38 38 39 39 39 40 40 40 40 40 40 40 41 41 42 42 42 42 43 43 43 44 44 45 45 45 45 45 45 46 46 47 47 47 47 47 48 48 48 49 49 49 50 50 52 52 52 52 53 53 54 55 61 62 64 72 MANIPULACIÓN DE LOS DATOS Conclusiones obtenidas de estos datos: Edad máxima: 72 Edad mínima: 22 Amplitud general: 50 Mayoría de valores está entre 30 y 50 Una visión más clara se puede obtener construyendo una distribución de frecuencias. Requiere definir: Valor de inicio de la primer clase Amplitud o intervalo a usar Conociendo ambas queda definida la cantidad de clases a contruir EL NÚMERO DE CLASES Depende de la cantidad de datos u observaciones y de la amplitud general Muchas observaciones permiten un mayor número de clases Pocos datos no conviene hacer muchas clases Buscar un balance entre necesidad de resumir la información y mantener suficientes detalles para apreciar las características de los datos Partir de la amplitud general y probar con diferente número de clases hasta alcanzar un número de clases y un intervalo adecuado (rango / # clases) Decidir si usar clases iguales o desiguales El número de clases recomendable está asociado con la cantidad de datos. Clases abiertas: Ubicadas al principio o al final de la distribución de frecuencias, Necesarias cuando unos pocos datos se alejan mucho de la mayoría (hacia arriba o hacia abajo), Evitar construir clases intermedias vacías (para clases de igual amplitud) Recomendaciones: Las clases deben ser exhaustivas y mutuamente excluyentes Procurar que el número de clases oscile entre 5 y 10 Evitar, hasta donde sea posible, clases de diferente amplitud COMPONENTES DE LA DISTRIBUCIÓN DE FRECUENCIAS FRECUENCIAS ABSOLUTAS: Número de elementos u observaciones pertenecientes a una misma clase. FRECUENCIA RELATIVA: Se obtiene dividiendo la frecuencia absoluta por el número de observaciones Denota la importancia de la clase, al expresarse en términos porcentuales Facilitan el análisis de los datos, en especial para comparar distribuciones de frecuencias basadas en diferentes número de observaciones FRECUENCIA ACUMULADA Número de observaciones que son menores que el límite superior de la clase Se obtiene sumando las frecuencias (absolutas o relativas) en sentido descendente PUNTO MEDIO: Valor central de la clase Promedio entre el límite inferior de entre dos clases sucesivas Es el valor representativo de la clase CLASIFICACIÓN VISITAS DIARIAS AL SITIO WEB ESTUDIOS SOBRE DIVERSIDAD. PRIMER CUATRIMESTRE 2007. VISITAS DIARIAS Punto medio FRECUENCIA ACUMULADA Absoluta Relativa Absoluta Relativa 20 - 29 25 15 12,5 15 12,5 30 - 39 35 54 45,0 69 57,5 40 - 49 45 37 30,8 106 88,3 50 - 59 55 10 8,3 116 96,7 60 - 69 65 3 2,5 119 99,2 70 - 79 75 1 0,8 120 100,0 120 100,0 Total Interpretación: f3: en 37 días del primer cuatrimestre del 2007 las visitas diarias al sitio WEB estuvieron entre 40 y 49 f%3: el 30.8% de los días del primer cuatrimestre de 2007 las visitas diarias al sitio WEB oscilaron entre 40 y 49 años F3: 106 días del primer cuatrimestre del 2007 las visitas diarias al sitio WEB fueron 59 visitas o menos F%3: el 88.3% de los días del primer cuatrimestre del 2007 las visitas diarias al sitio WEB fueron 59 visitas o menos REPRESENTACIÓN GRÁFICA La representación gráfica contribuye a un mejor análisis de los datos Facilita la comprensión del fenómeno considerado Pierde detalle de información pero se obtiene otro tipo de información Gráficos utilizados: histograma, polígono de frecuencia y ojiva son útiles pues resaltan los patrones de los datos y atraen la atención HISTOGRAMA Gráfico de barras verticales, las barras no guardan separación entre sí Definidas las escalas en el eje cartesiano se dibuja un rectángulo acorde a la frecuencia de la clase (altura) En clases de igual amplitud las barras son proporcionales a la frecuencia de la clase POLÍGONO DE FRECUENCIAS La altura de cada punto la determina el punto medio (abscisa) y la frecuencia simple (ordenada) de la clase Los puntos se unen con secciones de rectas Se procede como si existiera una clase adicional al principio y al final, ambas con frecuencia cero Útiles para representar dos distribuciones de frecuencia en un mismo gráfico OJIVAS Para representar la frecuencia acumulada La ordenada se levanta sobre el límite superior Tiene forma de S alargada TENGA PRESENTE QUE: HISTOGRAMA: La altura debe ser proporcional al número de elementos de la clase En ocasiones puede resultar más útil el histograma elaborado con la frecuencia relativa porque permite comparar conjuntos de datos de tamaño diferente POLIGONO DE FRECUENCIAS Es más sencillo que el histograma correspondiente Traza con mayor claridad el perfil del patrón de los datos Se vuelve cada vez más liso y parecido a una curva al agregar cada vez más y más datos SUGERENCIA Añadir siempre dos clases en los gráficos: una al inicio y otra al final con frecuencia cero EJERCICIO PRÁCTICO En el Hospital de la Mujer se dispone de los siguientes datos del peso en libras de 200 bebés prematuros nacidos en 2006. 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 - 0,9 1,4 1,9 2,4 2,9 3,4 3,9 4,4 10 19 24 27 29 34 40 17 Construya una distribución de frecuencias completa: ¿Cuál es el valor medio aproximado del conjunto de datos original? Si los bebés prematuros que pesan menos de 3.0 libras se les suele mantener en incubadora durante varios días como medida precautoria, ¿aproximadamente qué porcentaje de bebés prematuros nacidos en el Hospital de la Mujer en 2006 necesitaron incubadora? ¿Qué forma (patrón) tiene la distribución de los datos? DISTRIBUCIÓN DE LOS PESOS DE LOS 200 BEBES PREMATUROS NACIDOS EN EL HOSPITAL DE LA MUJER EN 2006 PESO (lbs) 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 - 0,9 1,4 1,9 2,4 2,9 3,4 3,9 4,4 TOTAL Promedio: P unt o m e d io 0,8 1,3 1,8 2,3 2,8 3,3 3,8 4,3 FRECUENCIA A b s o lut a R e la t i v a 10 19 24 27 29 34 40 17 5,0 9,5 12,0 13,5 14,5 17,0 20,0 8,5 200 100,0 547,35 / 200 = 2,74 ACUMULADA A b s o lut a 10 29 53 80 109 143 183 200 R e lat iv a 5,0 14,5 26,5 40,0 54,5 71,5 91,5 100,0 PESO EN LIBRAS DE LOS 200 BEBES PREMATUROS NACIDOS EN EL HOSPITAL DE LA MUJER EN 2006 25 FRECUENCIA 20 15 10 5 0 0,3 0,8 1,3 1,8 2,3 2,8 PESO EN LIBRAS 3,3 3,8 4,3 5,3