Organización y resumen de datos cuantitativos Contenidos Organización de datos cuantitativos: diagrama de tallos y hojas, tablas de frecuencias. Histogramas. Polígonos. Ojivas ORGANIZACIÓN Y RESUMEN DE DATOS CUANTITATIVOS Los siguientes datos son las edades de una muestra aleatoria de 50 personas jubiladas entrevistadas durante el mes de noviembre de 2008 en Mendoza. 71 73 76 65 65 65 73 68 62 65 66 55 53 90 61 61 63 58 69 56 54 56 80 76 63 93 62 85 79 80 60 76 56 77 56 86 54 61 54 71 70 82 61 64 79 70 79 64 74 84 v Tablas de frecuencias Una tabla de frecuencias para variables numéricas es una tabla que asocia a cada valor de la variable con i) la cantidad de veces que aparece frecuencia absoluta ii) la proporción de veces que aparece frecuencia relativa fi fr = fi n iii) el porcentaje de aparición frecuencia relativa porcentual f r % = fi .100% n Otras frecuencias importantes para describir datos cuantitativos son las frecuencias absolutas, relativas y porcentuales acumuladas. La frecuencia acumulada para un valor dado de la variable es la suma de las frecuencias ( absolutas, relativas o porcentuales) de los valores menores o iguales al valor que se está considerando Frecuencia acumulada absoluta : Frecuencia acumulada relativa Frecuencia relativa porcentual Fi F Fr = i n F Fr % = i .100% n Autores: Liliana Marconi / Adriana D´Amelio Una manera de obtener una mejor idea de la forma de la distribución de los datos sin aumentar el tamaño de la muestra es agrupando los datos en intervalos de igual tamaño denominados intervalos de clase En algunas ocasiones, se usa un intervalo abierto del tipo "menos de..." o "mayores que...", en el caso de que haya pocos casos muy abajo o muy arriba de la gran mayoría de los casos. Construcción de una distribución de frecuencias: 1) Determinar el rango de los datos. El rango es la diferencia entre la máxima y la mínima observación En el ejemplo de las edades el rango es: R = 93 - 53 = 40 2) Determinar la cantidad de intervalos de clases (k) El número de intervalos depende de la cantidad de datos y del rango. En general se utilizan entre 5 y 20 clases en función de la cantidad de datos. Una regla práctica que vamos a utilizar para determinar el número de intervalos es: Cantidad de intervalos de clase = k » n Elegimos el número entero menor entre los que está comprendida la raíz. En nuestro ejemplo tenemos 50 datos, k » 50 » 7 Ø Esta cantidad de intervalos, en realidad depende de las unidades en que medimos las variables. En muchas ocasiones es más adecuado utilizar múltiplos de 5. Ø No conviene dejar intervalos vacíos, o sea con frecuencia cero. 3) Determinar el ancho o amplitud de los intervalos de clase (h) h³ R k Elegimos un número un poquito mayor que el cociente para que todos los datos queden en alguna de las clases. En el ejemplo: h = 50 = 5,71 » 6 7 Los intervalos serán: [53, 59) ; [59, 65) ; [65, 71) ; [71, 77) ; [77, 83) ; [83, 89) ; [89, 95) Si hubiéramos decidido tomar menos intervalos, por ejemplo 6 intervalos, h> 50 = 8 » 10 5 Autores: Liliana Marconi / Adriana D´Amelio Los intervalos serán: [50, 60) ; [60, 70) ; [70,80) ; [80, 90) ; [90, 100) Como la variable es edad es bastante adecuado medirla cada 10 años. Además no queda ningún intervalo con frecuencia 0 4) Determinar las frecuencias en cada intervalo EDADES DE LAS PERSONAS JUBILADAS EDAD mi [50,60) [60, 70) [70, 80) [80, 90) [90,100) fi 55 65 75 85 95 10 18 14 6 2 f ri 0,20 0,36 0,28 0,12 0,04 f ri % Fi 20 36 28 12 4 10 28 42 48 50 Fri Fri % 0,20 0,56 0,84 0,96 1 20 56 84 96 100 Fte: elaboración propia.Nov 2008 Leeremos un intervalo: Entre 60 y menos de 70 años, se entrevistaron 18 personas, que corresponden al 36% de los entrevistados. De menos de 70 años fueron entrevistadas 28 personas que corresponden a un 56% del total. Ø Observe que cada dato entra en un única clase. Si nos quedan clases con frecuencia 0, se trata de distribuir los datos en menos cantidad de intervalos. Ø La cantidad y el ancho de los intervalos de clase queda, en general, a criterio del investigador. Algunos paquetes de sofware tienen estos valores como sugeridos y otros le solicitan que usted ingrese los valores. REPRESENTACIÓN GRÁFICA DE DATOS NUMÉRICOS v Diagrama de tallos y hojas: Si tenemos un conjunto de datos x1 , x 2 ,..., x n donde cada número está formado al menos por 2 dígitos, el diagrama de tallos y hojas es una buena presentación visual informativa del conjunto de datos y nos permite una manera relativamente fácil de ordenarlos Los siguientes datos son las edades de una muestra aleatoria de 50 personas jubiladas entrevistadas durante el mes noviembre de 2008. 71 73 76 65 65 65 73 68 62 65 66 55 53 90 61 61 63 58 69 56 54 56 80 76 63 93 62 85 79 80 60 76 56 77 56 86 54 61 54 71 70 82 61 64 79 70 79 64 74 84 Consideraremos como tallos a las decenas y como hojas a las unidades: Autores: Liliana Marconi / Adriana D´Amelio TALLO HOJAS FRECUENCIA fi 5 6 7 8 9 4 5 1 6 3 5 6 0 2 0 6 1 0 0 4 0 3 5 3 3 3 0 8 6 4 6 6 2 8 1 1 4 5 2 9 4 5 51 3 6 9 6 6 9 7 4 1 9 4 10 18 14 6 2 Si ordenamos las hojas, los datos nos quedan ordenados de menor a mayor 5 6 7 8 9 3 0 0 0 0 4 1 0 0 3 4 1 1 2 4 1 1 4 5 1 3 5 6 6 6 6 8 2 2 3 3 4 4 5 5 5 5 6 8 9 3 4 6 6 6 7 9 9 9 6 Actividad con R > edad1<c(71,65,66,61,54,93,60,86,70,70,73,73,55,63,56,62,76,54,82,79,76,68,53,58,80,85, 56,61,61,64,62,90,69,76,79,77,54,64,74,65,65,61,56,63,80,56,71,79,84) > stem(edad1) 5 | 3444 5 | 566668 6 | 01111223344 6 | 555689 7 | 0011334 7 | 6667999 8 | 0024 8 | 56 9 | 03 El diagrama de tallos y hojas tiene dos ventajas fundamentales: 1. El diagrama de tallos y hojas es más fácil de construir a mano 2. En cada intervalote clase proporciona más información que un histograma debido a que el tallo y la hoja proporcionan el dato. Una manera de graficar los datos sencilla es el Diagrama de puntos. con R Se pide en R > edad1<-c(71,65,66,61,54,93,60,86,70,70,73,73,55,63,56,62,76,54,82,79,76,68,53,58,80,85, 56,61,61,64,62,90,69,76,79,77,54,64,74,65,65,61,56,63,80,56,71,79,84) Autores: Liliana Marconi / Adriana D´Amelio > stripchart(edad1,method="stack", offset=1, at=0) frecuencia Edad de los jubilados encuestados en Mendoza nov/2008 60 70 80 90 edad Fte: elaboración propia.Nov 2008 v HISTOGRAMAS · La variable de interés se representa a lo largo del eje horizontal. El eje vertical representa el número, proporción o porcentaje de observaciones por intervalo de clase. · Los histogramas son gráficas de barras verticales, en los cuales se construyen las barras rectangulares en las fronteras de cada clase. · No se pueden utilizar histogramas para comparar distintos grupos de datos, porque la superposición de las barras verticales dificultaría la interpretación. HISTOGRAMA DE FRECUENCIA ABSOLUTA PORCENTUAL Frecuencia absoluta Edad de los jubilados encuestados en Mendoza.Nov 2008 20 15 10 5 0 55 65 75 85 95 marca de clase Fte: elaboración propia.Nov 2008 Autores: Liliana Marconi / Adriana D´Amelio Para realizar este gráfico en Excel se siguen los siguientes pasos: Paso 1: En la barra de menú se hace clic en asistente para gráficos y se selecciona en Tipos de gráficos - Subtipo de gráfico – columna luego abajo se hace clic en siguiente. Paso 2: En la parte superior se selecciona Serie abajo en Rótulos de ejes de categorías (x) se seleccionan las celdas de la marca de clase. Paso3: Luego en siguiente se va a títulos y se escriben los títulos correspondientes. Luego finalizar Paso4: Hasta ahora el gráfico tiene las barras separadas lo cuál es un error ya que el tipo de variable es cuantitativa. Para lograr que las barras se junten hay que pararse en las barras hacer doble clic aparece formato en serie de datos - Opciones ancho de rango -0 Paso 5: Observando el gráfico hay otro error que larga Excel por defecto y es la amplitud en el eje x de los intervalos, este no debe tomarse como eje de abcisas ya que entre el cero absoluto y la primera marca de clase hay una distancia mayor al resto de los intervalos. Para solucionar esto se anexan dos intervalos uno antes del primer intervalo y otro después del último con frecuencia 0. Entonces se hace una doble ralla entre el 0 del eje y el 45 para mostrar que la distancia es diferente. Fte: elaboración propia.Nov 2008 Autores: Liliana Marconi / Adriana D´Amelio A ctivi dad con R Paso1: Se cargan los datos > edad1<c(71,65,66,61,54,93,60,86,70,70,73,73,55,63,56,62,76,54,82,79,76,68,53,58,80,85, 56,61,61,64,62,90,69,76,79,77,54,64,74,65,65,61,56,63,80,56,71,79,84) Paso 2: Se pide el H istograma >hist(edad1) Si se quiere ponerle título y nombrar los ejes >hist(edad1,ylab="frecuencia",main="E dadde los jubilados encuestados en Mendoza nov/2008") Si se quiere dar color se coloca col=” green” >hist(edad1,ylab="frecuencia",main="E dadde los jubilados encuestados en Mendoza nov/2008",col=”green”) F te: elaboración propia.Nov 2008 A utores: L iliana Marconi / A driana D´A melio HISTOGRAMA PORCENTUAL ACUMULADO Frecuencias acumuladas Edad de las personas jubiladas 60 50 40 30 20 10 0 55 65 75 85 95 Edad Fte: elaboración propia.Nov 2008 POLÍGONOS · La variable de interés se representa a lo largo del eje horizontal. En el eje vertical se representa el número, proporción o porcentaje de observaciones por intervalo de clase. · La marca de clase, o sea el punto medio del intervalo de clase, representa los datos de esa clase. En estos puntos se marca la frecuencia (absoluta, relativa o porcentual) y luego se unen con líneas rectas. · El polígono es una representación de la forma de distribución de los datos. En el caso de que no se utilicen las frecuencias acumuladas, y dado que el área debajo de la curva debe corresponder al 100% , es necesario conectar el primero y el último puntos medios con el eje horizontal. Esto se logra conectando el primer punto medio con el punto medio de una clase “precedente ficticia” que tenga 0 (o 0%) de observaciones y de manera similar en el último punto medio observado, se conecta con una clase “sucesiva ficticia” con 0 (o 0%) de observaciones. · Cuando se construyen polígonos, el eje vertical debe mostrar el cero real (origen) a fin de no deformar o representar en forma incorrecta el carácter de los Autores: Liliana Marconi / Adriana D´Amelio datos. El eje horizontal no necesita especificar el punto cero para la variable de interés. (Se suele indicar una interrupción //) HISTOGRAMA Y POLÍGONO frecuencia absoluta Edad de los jubilados encuestados en Mendoza. Nov 2008 20 15 10 5 0 45 55 65 75 85 95 105 marca de clase Fte: elaboración propia.Nov 2008 Paso: Al gráfico del Histograma se le agrega una serie igual a la anterior van a aparecer dos barras de distinto color se hace doble clic en ellas y se elige la opción de cambiar el gráfico por el tipo líneas y aparece el polígono de frecuencias. Histograma y Polígono de frecuencia acumulado · El polígono de frecuencia acumulada se llama OJIVA. La ojiva no se une con el eje horizontal. HISTOGRAMA ACUMULADO Y OJIVA Edad de los jubilados encuestados en Mendoza. Nov 150% 2008 100% 50% 0% 55 65 75 85 95 Autores: Liliana Marconi / Adriana D´Amelio HISTOGRAMA ACUMULADO Y OJIVA “MENOR QUE” Vamos a hacer algunas lecturas en la ojiva “menor que”: La línea punteada la trazamos desde el 50% hasta que corta a la ojiva. Desde allí bajamos y lo leemos de la siguiente manera: El 50% de las personas entrevistadas tiene 68 años o menos y el otro 50% tiene 68 años o más Autores: Liliana Marconi / Adriana D´Amelio PROBLEMAS SOBRE LA PRESENTACIÓN DE DATOS 1- SUBJETIVIDAD EN LA SELECCIÓN DEL NÚMERO Y TAMAÑO DE LOS INTERVALOS DE CLASES Para conjuntos de datos que no son muy grandes, la selección particular de un número determinado de clases o determinados límites en relación a otros, podría presentar una imagen totalmente distinta al lector, ya que se pueden ocasionar desplazamientos en la concentración de los datos. Afortunadamente, cuando se aumenta el número de datos, estas alteraciones afectan cada vez menos la concentración de datos. 2- COMPARACIONES DE DATOS SOBRE UNA BASE RELATIVA El uso de frecuencias absolutas en los gráficos comparativos, en general, sería engañosa. Para estos gráficos se utilizan las frecuencias relativas o porcentuales. 3- DISTRIBUCIONES CON INTERVALOS DE CLASE ABIERTAS Las clases abiertas presentan dificultad para formar la gráfica y para calcular las medidas de resumen descriptivas que son útiles para analizar los datos Ejemplo: SALARIOS INICIALES ESPERADOS PARA GRADUADOS SALARIO (EN $) Menos de 300$ [300, 600) [600, 900) [900, 1200) 1200 ó más N° DE GRADUADOS 1 16 20 9 4 3) FRONTERAS DE CLASE En la bibliografía se utiliza a veces distintas maneras de expresar los límites de clase Por ejemplo el intervalo [300, 600) se puede hallar como 300-599 300 a menos de 600 Lo importante es que cada dato entre en una sola clase y no haya ninguna duda. Autores: Liliana Marconi / Adriana D´Amelio