Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila CAPITULO 2 DISTRIBUCION DE FRECUENCIAS CONTENIDO: 2.1 INTRODUCCIÓN. ANALISIS DE GRANDES CONJUNTOS DE DATOS 2.2 DISTRIBUCION DE FRECUENCIAS 2.3 MEDIDAS DE TENDENCIA CENTRAL 2.4 MEDIDAS DE DISPERSIÓN 2.1 ANALISIS DE GRANDES CONJUNTOS DE DATOS Los seres humanos requieren que en su vida haya un alto grado de estructura u organización, para desenvolverse en forma adecuada. Considere el caso de que su capacidad para localizar un libro en la biblioteca dependa de la organización que presenta el fichero bibliográfico de la biblioteca en orden alfabético, por materia, autor y título, y por números que indican su ubicación en los estantes Imagínese cuán materialmente imposible sería localizar un libro si estuvieran colocados en cualquier lugar donde hubiera espacio, sin número de estante ni ficha bibliográfica .En forma similar, la confusión que existiría si no hubiera leyes o señales de tránsito, y la única regla fuera “ que cada quien se las arregle como pueda”. Los números telefónicos están organizados en directorios en forma alfabética por ciudad; la programación de cursos indica cuándo y donde se efectuaran estos; hay horarios de salida y de llegada de autobuses, trenes y líneas aéreas: todo esto nos es de utilidad, debido a que organizan la información Los métodos principales para organizar los datos estadísticos comprenden el ordenamiento de elementos en subconjuntos que presenten cualidades semejantes ( por ejemplo, misma edad, misma finalidad, misma escuela, misma ciudad, etc.) Los datos agrupados se pueden resumir gráficamente o en tablas, mediante el uso de medidas numéricas, como la media, la amplitud, la desviación estándar, y otras más. El nombre que reciben los datos ordenados o en grupos o categoría es el de distribución de frecuencias. EJEMPLO 1.Considérense los datos de la siguiente tabla, los cuales representan los rendimientos (por ejemplo en Kilogramos por árbol) de cuarenta naranjos. La cantidad de datos se mantiene pequeña deliberadamente parta simplificar este estudio, no obstante todavía resulta difícil obtener una idea global de los rendimientos a partir de los datos en forma común. Elaborar una distribución de frecuencia puede destacar los datos considerablemente. Producción anual (en Kilogramos por árbol) de 40 Naranjos 11.1 12.5 32.4 7.8 21 16.4 11.2 4.4 6.1 27.5 32.8 18.5 16.4 15.1 10.7 15.8 25 18.2 12.2 12.6 4.7 14.8 22.6 16 19.1 7.4 9.2 10 3.5 16.2 14.5 3.2 8.1 12.9 19.1 22.3 6 23.5 26.2 13.7 12 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila 2.2 DISTRIBUCIÓN DE FRECUENCIAS Una distribución de frecuencias es un método de clasificación de datos en clase o intervalos, de manera tal que se pueda establecer el número o porcentaje (es decir, la frecuencia) de cada clase. Esto proporciona una forma de observar un conjunto de números sin que se tenga que considerar cada número, y puede ser extremadamente útil al manejar grandes cantidades de datos. El número o porcentaje en una clase se denomina frecuencia de clase. Una distribución de frecuencias es un agrupamiento de datos en intervalos, que muestra el número o porcentaje de observaciones de cada una de ellas. Una distribución de frecuencia se puede presentar en forma tabular y gráfica. El procedimiento para elaborar realmente una distribución de frecuencias para un conjunto de datos dado, depende del tipo de datos particulares(esto es, continuos, discretos, nominales o jerarquizados).Se supone que la producción de fruta(en Kilogramos por árbol) se mide en una escala continua, por lo que consideraremos primeramente este caso. 2.2.1 Elaboración de una distribución de frecuencias para datos continuos Los pasos a seguir son: 1. Establecer los intervalos o clases en los que se agruparan los datos. a). Determinar la amplitud de variación de los datos ó rango, es decir la diferencia entre el dato mayor y el dato menor. Para el ejemplo anterior, el mayor rendimiento es 32.8 y el menor es 3.2, por lo que la amplitud de variación es : 32.8 -3.2 = 29.6 b). Decidir el número de intervalos que se vaya a emplear.. Se recomienda utilizar entre 5 y 15, con menos de 5 no se podrían observar características importantes de los datos en tanto que con 15 proporcionarían demasiados detalles. Una regla empírica es calcular la raíz cuadrada de n y ajustarla para adaptarla a (si es necesario) los límites 5 a 15. Por ejemplo, para 400 observaciones, 400 20 , resultado que se de be ajustar a 15. En el caso de los 40 árboles de naranjas, tendríamos 40 6.32 que se deberá redondear ya sea a 6 ó 7. Nota:Este cálculo es aproximado, pueden salir más, ó pueden salir menos,solo hay que cuidar que los intervalos contengan la totalidad de datos obtenidos. c). Dividir la amplitud de variación entre el número de intervalos, para obtener una amplitud de intervalo : 29.6 / 6 = 4.93 5. d). Considerar los intervalos, empezando con un entero que se encuentra justamente por debajo del valor más pequeño. Por ejemplo, el primer intervalo en el ejemplo anterior sería 3. 13 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila De aquí que los intervalos quedarían de la siguiente manera para el ejemplo de los naranjos: 3a8 8 a 13 De 3 a < 8 13 a 18 De 8 a <13 18 a 23 De 13 a < 18 ,. etc 23 a 28 28 a 33 2. Ordenarlos en intervalos mediante conteo por marcas. 3. Contar el número de cada clase. 4. Presentar los resultados en una tabla o gráfica. Ejemplo 40 naranjos Clase 3a8 8 a 13 13 a18 18 a 23 23 a 28 28 a 33 Marcas IIIII III IIIII IIIII IIIII IIII IIIII II IIII II Conteo 8 10 9 7 4 2 40 Después de que se cuentan las marcas por intervalo (ver tabla anterior), las frecuencias se indican ya sea en forma de tabla o de gráfica, y pueden ser reales o relativas. De este modo, se podría elaborar una tabla de frecuencia como la siguiente: Distribución de frecuencia del rendimiento por árboles de naranjo Intervalo o clase Cantidad de Kilogramos 3a<8 frecuencia Número de árboles 8 8 a < 13 10 13 a < 18 9 18 a < 23 7 23 a < 28 4 28 a < 33 2 Frecuencia relativa Porcentaje de árboles 8 0.20 40 10 0.25 40 9 0.225 40 7 0.175 40 4 0.100 40 2 0.050 40 Frecuencia acumulada 0.20 0.45 0.675 0.85 0.95 1.00 14 Estadística. Distribución de Frecuencias 40 Ing. Hernán Trujillo Avila Total : 1.000 El gerente de la compañía naranjera obtuvo los costos de producción y determinó que para que el negocio sea rentable, cada árbol debe dar cuando menos una cantidad de 22 Kg de Naranjas. ¿ Qué opinas acerca de la rentabilidad del negocio? También se puede presentar la misma información mediante un histograma de frecuencias, que muestra los intervalos en el eje horizontal y las frecuencias (reales o relativas) en el eje vertical. Los límites de las” barras” coinciden con los puntos extremos de los intervalos de clase. Al unir mediante rectas, los puntos medios de las clases o intervalos del histograma se construyen un polígono de frecuencias. (Valiéndose de los datos de los naranjos) SPSS arroja los siguientes resultados: 15 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila 16 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila El procedimiento para calcular es el siguiente: Primero introducimos los datos de la siguientes manera: Introducimos Los datos clasificando los intervalos como Intervalo 3a8 8 a 13 13 a18 18 a 23 23 a 28 28 a 33 Producción A(ESCASA) B(POCA) C(REGULAR D(NORMAL) E(MUCHA) F(BASTANTE) Es importante clasificar la variable nominal en orden alfabético pues es la única manera de que el diagrama que nos arroje aparezca en orden.. Por ejemplo si, destináramos la letra E para la producción ESCASA, B para BASTANTE, etc., entonces el diagrama aparecería ordenado en ese mismo orden alfabético, primero aparecería BASTANTE y después ESCASA. Nos vamos al menú: Statistics-Summarize- Frecuencies… 17 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila Aparece el siguiente recuadro, donde seleccionamos la variable producc y nos da opción de elegir el diagrama( Chart) donde escogemos diagrama de barras(Bar Charts) , o la opción que deseamos. damos OK y obtenemos los resultados que se presentaron anteriormente 18 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila MINITAB SPSS no proporciona la información que deseamos en un Histograma, por lo cual es más conveniente presentar la información en un diagrama de barras, si n embargo, Minitab presenta un manera más sencilla de procesar los datos y una información gráfica más precisa en la indicación de los intervalos de clase determinados. Primero se introducen los datos de la manera acostumbrada en una columna, rotulando el nombre de la variable, en este caso KgNar. A continuación nos vamos al menú Graphs, seleccionamos Histogram-Simple, damos OK Aparecerá el siguiente Histograma ordenado por el software de la siguiente manera: 19 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila Sin embargo, a nosotros nos interesa ordenado en función del número de intervalos que escogimos, para los cual nos posicionaremos sobre el Histograma y daremos clic con el botón derecho del ratón en Edit Bars, aparecerá el siguiente recuadro, donde escogeremos la pestaña Binning. Seleccionaremos ya sea Midpoint o Cutpoint. el número de intervalos que deseamos, en este caso 6 Si elegimos Midpoint, en el recuadro en blanco, teclearemos los puntos medios de los intervalos. Si elegimos Cutpoints, teclearemos los intervalos tal como los definimos, empezando del menor al mayor, procurando involucrar todos los valores que presentan nuestros datos. En el recuadro, se teclearan tales intervalos, dando un espacio entre cada intervalo. El resultado, será el siguiente: 20 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila 21 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila EJERCICIO 2.2 1. Los siguientes datos pertenecen a las precipitaciones pluviales anuales en centímetros de los últimos 50 años, registradas en una zona del estado de Ohio (EU). Elabore una tabla de distribución de frecuencias 15 14 27 24 20 43 30 30 35 40 .2 .6 .9 .9 .5 .7 .7 .9 23 17 26 30 19 36 33 19 29 38 .4 .8 .9 .8 .9 .8 .4 .8 .6 .2 25 42 35 15 25 29 27 14 22 24 .1 .2 .6 .5 .7 .8 .6 .1 .3 30 30 22 24 28 35 26 28 19 28 .1 .1 .1 .4 .7 .1 .2 .4 .7 28 25 31 31 28 13 32 25 26 36 .3 .8 .3 .5 .1 .4 .7 .8 Solución: a) Calculamos la amplitud de variación: 43.5 - 13.5 = 30 b) Decidimos el número de intervalos 50 7.071 , tomamos 7 intervalos (o clases) c) Calculamos la amplitud de intervalo: 30/ 7 = 4.12 , tomaremos 5 de este modo elaboramos la siguiente tabla: Clase 13-18 18-23 Marcas Conteo frecuencia 111111 111111 11111111111 11 1111111 11111111 13 0.26 15 0.3 33-38 111111 6 0.12 38-43 43-48 111 1 3 1 50 0.06 0.02 1.0 23-28 28-33 6 6 ó Frecuencia relativa ó porcentaje 6/50=0.12 0.12 22 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila 23 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila USANDO MINITAB Siguiendo el procedimiento anterior, se obtiene: 24 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila DIAGRAMAS DE TRONCO Y HOJAS En el caso de datos continuos se recomienda ignorar los decimales. Las unidades sin decimales se colocan del lado derecho, por ejemplo, el valor 7.8 se toma como 7(se ignora la décima 8)y se coloca en la fila correspondiente a Cero, ya que no llega a 10. Así, fíjese como los valores 32.4, y 32.8 se convierten en 32, y se colocan en la fila de los valores 3, indican así que existen dos valores con 32 0 1 2 3 7466479338 126186505822469064293 1275326 22 25 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila Los siguientes resultados se presentan utilizando 2 incrementos: Stem-and-Leaf Display: Naranjos Stem-and-leaf of Naranjos Leaf Unit = 1.0 2 4 8 10 14 19 (4) 17 13 9 8 5 4 2 2 2 0 0 0 0 1 1 1 1 1 2 2 2 2 2 3 3 N = 40 33 44 6677 89 0011 22223 4455 6666 8899 1 223 5 67 22 Los siguientes resultados se presentan utilizando 4 incrementos: Stem-and-Leaf Display: Naranjos Stem-and-leaf of Naranjos Leaf Unit = 1.0 4 10 (11) 19 0 0 1 1 N = 40 3344 667789 00112222344 5566668899 26 Estadística. Distribución de Frecuencias 9 5 2 2 2 3 Ing. Hernán Trujillo Avila 1223 567 22 Los siguientes resultados se presentan utilizando 6 incrementos: Stem-and-Leaf Display: Naranjos Stem-and-leaf of Naranjos Leaf Unit = 1.0 10 (21) 9 2 0 1 2 3 N = 40 3344667789 001122223445566668899 1223567 22 Este diagrama nos da una mejor idea del comportamiento de los datos. EJERCICIO 2.3 .DISTRIBUCIÓN DE FRECUENCIAS 1. Un conjunto de datos consta de 28 observaciones, cuantas clase o intervalos recomendaría para la distribución de frecuencias?. 2. Un conjunto de datos consta de 45 observaciones entre entre $0 y $ 29, que tamaño recomendaría para la amplitud del intervalo? 3. La proporción precio- garantía de 21 acciones de la categoría menudeo son: 8.3 10.2 9.6 8.0 9.5 8.4 9.1 8.1 8.8 11.6 11.2 9.6 7.7 8.8 10.1 8.0 9.9 10.4 10.8 9.8 9.2 Organice esta información en una distribución de frecuencias. a) ¿ Cuál es el Rango? b) Cuál es el intervalo que más se presenta, es decir, cual es la mayor proporción precio garantía?. c) Elabora un histograma de frecuencias d) Elabora un diagrama de tallo y hojas Cuál de los dos es más representativo?. 27 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila 2.2.2 Elaboración de una distribución de frecuencias para datos discretos Al elaborar una distribución de frecuencias que utiliza datos continuos, se pierde información debido a que los valores individuales pierden su identidad cuando se agrupan en clase o intervalos. Esto puede o no suceder en el caso de datos discretos, dependiendo de la naturaleza de los mismos, y de los objetivos del analista. Considérese los datos siguientes acerca del numero de accidentes que ocurren diariamente(durante 50 días) en un enorme estacionamiento. 6 5 3 4 5 9 4 8 7 1 2 4 8 5 2 7 4 4 3 3 0 4 4 7 6 8 2 4 1 0 2 5 7 3 5 5 6 7 8 6 4 3 6 0 6 2 7 5 6 3 Obsérvese que los datos constan de enteros que van del 0 al 9. Se puede elaborar una distribución de frecuencias sin que haya pérdida de valores originales, utilizando como clases números enteros que van de 0 a 9 Clase Número de datos Porcentaje de Accidentes por día 0 1 2 3 4 5 6 7 8 9 3 2 5 6 9 7 7 6 4 1 50 0.06 0.04 0.10 0.12 0.18 0.14 0.14 0.12 0.08 0.02 1.00 Se dice que no hay pérdida de información, ya que es evidente que los datos originales contienen tres números 0, dos números 1, etc. Es decir, los datos originales puede crearse en una distribución de frecuencia cuando como en este caso no son muchos valores. Por otro lado, se puede utilizar como clase por ejemplo 0-1, 2-3, 4-5,6-7,8-9. El resultado sería una distribución igual a la que se utiliza para datos continuos. Clase Número de datos Porcentaje de Accidentes por día 0-1 2-3 4-5 6-7 5 11 16 13 0.10 0.22 0.32 0.26 28 Estadística. Distribución de Frecuencias 8-9 5 50 Ing. Hernán Trujillo Avila 0.10 1.00 2.2.3 Distribuciones de frecuencias para datos nominales y jerarquizados Quizá las distribuciones de frecuencia más fáciles sean las que se utilizan para datos nominales y jerarquizados. Esta simplicidad radica en el hecho en que las clases se ponen de manifiesto con más facilidad, de modo que los cálculos son mínimos. Por ejemplo, considerar los datos nominales de la tabla , que representan las ventas de refrescos, ordenados en una tabla de frecuencia. Las categorías son los diversos sabores de los refrescos. Obsérvese la última categoría. Otros. Puede haber algunos sabores que se vendan poco, como: fresa, tamarindo y toronja, los cuales ase agruparán en una sola categoría para simplificar la comprensión de los datos. Como se hizo antes, dicha información se presentará mediante una gráfica. Por ahora es más acertado utilizar líneas o barras en vez de un histograma, lo que significa que las categorías no se tocan, o son nominales ( ver figura ). La gráfica se puede mostrar en forma horizontal o vertical, como puede ocurrir con cualquier gráfica de una distribución de frecuencias. TABLA . Venta de refrescos en un día Frecuencia Sabor Ventas reales Ventas relativas Cola 600 60% Limón 200 20% Naranja 100 10% Uva 50 5% Fresa 40 4% Otros 10 1% 1000 100% EJERCICIO 2.4. Treinta alumnos fueron sometidos a un examen de biología, obteniendo los siguientes resultados: 84 88 90 78 80 89 94 95 77 81 83 87 91 83 92 90 92 77 86 86 99 93 83 94 76 98 70 81 76 87 Elabore la distribución de frecuencias de estas calificaciones. 29 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila TAREA 2.2 DISTRIBUCION DE FRECUENCIAS 1. La Harris Corporation y la University of Florida emprendieron un estudio para determinar si un proceso de fabricación efectuado en un lugar lejano se podría establecer localmente. Se instalaron dispositivos de prueba (pilotos) tanto en la ubicación antigua como en la nueva y se tomaron lecturas de voltaje del proceso. Se considera que un proceso “bueno” produce lecturas de por lo menos 9.2 volts( y las lecturas mayores son mejores que las menores).La tabla contiene lecturas de voltaje para 30 series de producción en cada lugar. Ubicación antigua 9.98 10.12 9.84 10.26 10.05 10.15 10.05 9.80 10.02 10.29 10.15 9.80 10.03 10.00 9.73 8.05 9.87 10.01 10.55 9.55 9.98 10.26 9.95 8.72 9.97 9.70 8.80 9.87 8.82 9.84 Nueva ubicación 9.19 10.01 8.82 9.63 8.82 8.65 10.10 9.43 8.51 9.70 10.03 9.14 10.09 9.85 9.75 9.60 9.27 8.78 10.05 8.83 9.35 10.12 9.39 9.54 9.49 9.48 9.36 9.37 9.64 8.68 Fuente: Harris Corporation Melbourne Fla. a) Construya un Histograma de frecuencia relativa para las lecturas del voltaje del proceso antiguo. b) Construya un diagrama de tronco y hojas para las lecturas del voltaje del proceso antiguo.¿Cuál de las dos gráficas de los incisos ay b es más informativa? c) Construya un Histograma de frecuencia relativa para las lecturas del voltaje del proceso nuevo. d) Compare las gráficas de los incisos a y c.(Tal vez prefiera dibujar los dos histogramas en la misma gráfica).¿Cree factible que el proceso de fabricación se pueda establecer localmente(es decir, el nuevo proceso es tan bueno como el anterior o mejor? 2. A continuación se transcriben las edades de 50 miembros de un programa de servicio social de un condado de 81 53 67 60 80 64 56 54 91 61 USA. 66 88 67 65 52 72 74 65 73 69 43 54 76 70 97 68 82 75 79 60 39 87 76 97 86 45 60 43 65 76 92 72 82 80 70 65 50 58 70 56 30 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila Con los datos anteriores construya las distribuciones de frecuencia relativa usando 7 y 12 intervalos iguales. Las políticas estatales de los programas de servicio social exigen que aproximadamente 40% de los participantes del programa sean mayores de 50 años. a) se ajusta el programa a esa política? b) ¿le ayuda la distribución de frecuencia relativa con 12 intervalos a contestar mejor la parte a) de la respuesta que la distribución con 7 intervalos? c) Suponga que el director de los servicios sociales quiere conocer la proporción de participantes en el programa cuya edad fluctúa entre 45 y 80 años.¿Podría estimar la respuesta con una distribución de frecuencia relativa que tenga 7 intervalos o con una que tenga 12? 3.Los tiempos de CPU que se indican en la tabla, representan el tiempo en segundos que 25 trabajos estuvieron en control de la unidad central de procesos de una computadora mainframe grande Muestra de n=25 tiempos de CPU de trabajos (en segundos 1.17 1.23 .13 .19 .92 1.61 3.76 2.41 .82 .75 1.16 1.94 .71 .47 2.59 1.38 .96 .02 2.16 3.07 3.53 4.75 1.59 2.01 1.40 a) Elabore un Histograma de frecuencias utilizando 7 intervalos(40 pts) b) Cuál es la probabilidad (frecuencia) de que la información se procese en menos de 2 segundos.(20pts) c) Proponga un diagrama de tallo y hojas para los datos anteriores.(40 pts) 31 Estadística. Distribución de Frecuencias 2.3 PRESENTACIÓN FRECUENCIAS GRÁFICA Ing. Hernán Trujillo Avila DE UNA DISTRIBUCIÓN DE HISTOGRAMA: Grafica en la que los intervalos se indican en el eje horizontal y las frecuencias de clase en el eje vertical. Las frecuencias de clase se representan por la altura de las barras, y las barras se trazan adyacentes una a la otra. También se acostumbra colocar las frecuencias relativas en el eje vertical. POLIGONO DE FRECUENCIA. es semejante a un histograma. consiste en segmentos de línea que conectan los puntos formados por la intersección del punto medio del intervalo o clase y la frecuencia de clase En el ejemplo 1 de la página 15 se muestra un ejemplo de estos tipos de gráficos. En SPSS Los histogramas no tienen las posibilidades gráficas que ofrecen los diagramas de barras. Además, no es posible obtener el histograma de frecuencias acumuladas ni los polígonos de frecuencias con datos agrupados en intervalos. Para realizar un histograma se selecciona la opción Gráficos-)Histograma. Entonces aparece el cuadro de dialogo . Tras seleccionar una sola variable (cuantitativa) en el recuadro Variable, con sólo hacer clic en Aceptar se obtienen los resultados por defecto. se presenta de una manera mejor ordenada los datos en diagramas de barras los cuales ya se explicó el procedimiento para su creación en los ejemplos anteriores. GRAFICAS DE PASTEL. Utilizando nuestro ejemplo 1 ( 40 naranjos)En SPSS para su creación vamos a Graphs-Pie…Summaries for groups of cases 32 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila después de dar formato al recuadro anterior damos OK y aparece el siguiente resultado al recuadro anterior le damos la opción de presentarnos opción de los porcentajes dando doble click sobre el diagrama aparece el recuadro SPSS Chart editor. ahí nos vamos la menú: Chart - Pie options, en el recuadro que aparece a continuación seleccionamos Percents y damos OK. Nota: Las opciones para clasificar la producción de naranjas en Poco, normal, bastante, etc, aparecen por defaul cuando definimos la variable en el SPSS Data editor 33 Estadística. Distribución de Frecuencias Ing. Hernán Trujillo Avila 34