UNIDAD 2: Gráficos estadísticos Los gráficos muestran visualmente y de forma rápida la distribución de los datos y sus principales características, constituyen un importante complemento en la presentación de la información. Podemos emplear distintos gráficos estadísticos según el tipo de variable que representan, por el tipo de información que ofrece, o por el énfasis que quiera poner el informador en los datos. Los más habituales son los siguientes: Diagrama de barras, Histograma, Polígono de frecuencias, Diagrama lineal, Diagrama de sectores, Pictograma y Cartograma. Se describen a continuación cada uno de ellos: 2.1. Diagrama de tallo y hojas El diagrama de tallo y hojas es una intersección entre una representación gráfica y una tabla de frecuencias. Es una variación de la tabla de frecuencias que ofrece información visual de la distribución de los datos conservando los datos originales y añadiendo una información adicional. Para construir un diagrama de tallo y hoja seguimos los siguientes pasos: 1. Examinar los datos para decidir cuantos dígitos van a formar el tallo. Todos los dígitos, salvo el último, forman el tronco de la observación, el último dígito es la hoja. El lugar de truncamiento, que podemos hacer con o sin redondeo, dependerá del tipo de datos. 2. Escribir la lista de posibles troncos ordenados de menor a mayor. El tallo se coloca a la izquierda de una línea vertical y los valores de las hojas a la derecha. 3. En la primera fila informar sobre la unidad utilizada y como están representados los valores sobre el diagrama. Si hay valores extremos, se representan en la fila siguiente, indicando si son superiores o inferiores. La observación de un diagrama de tallo y hoja revela propiedades y características tales como, Rango de valores de los datos, así como concentración y simetría de los mismos. Valores que se separan marcadamente del resto, y valores poco observados o lagunas. A veces, cuando los dígitos correspondientes a las hojas son unidades, se originan diagramas con pocos troncos, pero si se toman décimas, aparecen demasiados. En estos casos, se puede dividir un tronco en dos partes. Ejemplo. Preguntamos la altura a los 100 alumnos del colegio anterior que vamos a representar mediante un gráfico de tallo y hojas: 135 150 158 161 164 169 176 140 151 159 162 164 170 176 145 152 159 162 164 170 176 146 152 159 162 165 170 177 146 153 160 162 165 170 178 147 155 160 163 165 170 179 147 155 160 163 165 170 180 149 155 160 163 165 172 182 149 156 160 163 165 172 185 149 156 160 163 165 173 190 150 156 160 163 165 174 192 150 157 160 164 166 174 192 150 157 160 164 168 175 195 150 157 161 164 168 175 Vamos a tomar 2 cifras significativas para formar el tallo, las centenas y las decenas, y con las unidades formamos las hojas, así el diagrama de tallo y hojas quedaría: Con este gráfico podemos ver una cierta simetría y la presencia de valores extremos que más adelante se podrá confirmar, o no, con los cuartiles. 2.2. Diagrama de columnas Para representar datos de variables cualitativas y cuantitativas discretas, y en general para distribuciones de frecuencias de datos sin agrupar, se utiliza el diagrama de columnas. Este diagrama representa los valores de la variable en el eje de abscisas levantando en cada punto una barra de longitud proporcional a la frecuencia de ese valor. El ancho de los rectángulos de las columnas ha de ser el mismo y las divisiones de la escala, equitativas. Es indiferente si se construyen con los valores de las frecuencias absolutas o relativas, pero si los usamos para comparar datos de diferentes conjuntos hay que utilizar las frecuencias relativas pues el total de datos puede influir de manera indirecta en la representación. Ejemplo. Variable cualitativa Preguntamos a los mismos alumnos del colegio por el empleo que hacen del tiempo libre con las siguientes opciones: A: deporte B: mantenimiento C: música D: cine E: lectura F: otros obteniendo los siguientes datos que representamos debajo medinte un diagrama de columnas: ACE CDF E BC CEF AC ABF CDE ACD C AF ACE ADF ACF ACE A AEF A AC ACEF ABF ABCDEF D DEF CE ACDE CF CE F ACF F ACF AB ACF ABCDEF CF AC ACD ACD E BCF DF AF D CEF DE ABCF BE ADE AF ACF CE AC ACF AB BDE A ABD BF AF BEF CF EF DEF ADF CD DE AF CEF D BCE CD AF CF D AF C EF ACF BDF F ACF AB AC EF F ACDF AC BCE AF ABCDEF E DE F CD AC Al ser una pregunta de respuesta múltiple la suma de las frecuencias no da como resultado el número total de datos. 2.3. Diagrama de barras El diagrama de barras es un gráfico idéntico al de columnas en el que los rectángulos se colocan horizontalmente. Se emplea para el mismo tipo de variables y su construcción es análoga. (En algunos textos llaman diagramas de barras tanto a las verticales como a las horizontales). Ejemplo. Variable cuantitativa discreta Usamos los datos de la edad de los alumnos cuya tabla de frecuencias construimos anteriormente y que reflejaba los siguientes datos: Valores Frecuencia absoluta 12 9 13 25 14 27 15 16 16 12 17 8 18 3 TOTAL N=100 Su representación mediante un diagrama de barras es Edades de los alumnos entrevistados 18 17 edad 16 15 14 13 12 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 núm ero de alum nos 2.4. Diagrama de sectores El diagrama de sectores consiste en dividir un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un sector circular proporcional a su frecuencia absoluta o relativa. Se utiliza para cualquier tipo de variable, especialmente cuando las frecuencias están expresadas en porcentajes. Siempre va acompañado de una leyenda. Para calcular la amplitud de los sectores supongamos que a la modalidad xi le corresponde una amplitud de α i grados. Como podemos emplear frecuencias absolutas o relativas, empleamos las relativas, entonces se tiene que: α i = c ⋅ fri , siendo c la constante de proporcionalidad, por lo que: 360º = ∑ α i = ∑ c ⋅ fri = c ⋅ ∑ fri = c ⋅ 1 ⇒ α i = 360º⋅ fri i i i Y de esta forma se calculan las correspondientes amplitudes de cada modalidad, en grados sexagesimales. Ejemplo. Variable cualitativa Se le pide a los alumnos cuál es la actividad preferida de entre sus actividades de ocio, obtenidendo los datos que vaciamos en la siguiente tabla de frecuencias: Frecuencia Frecuencia Porcentaje absoluta relativa Deportes 51 0,5258 52,58% Mantenimiento 8 0,0825 8,25% Música 17 0,1753 17,53% Cine 10 0,1031 10,31% Lectura 6 0,0691 6,19% Otros 5 0,0515 5,15% Valores 100 % 1 Caculamos la amplitud de los sectores para cada uno de los valores de la variable con sus frecuencias dadas en forma porcentual: α i = 360º⋅ fri TOTAL Valores Deportes N=97 Frecuencia Frecuencia absoluta relativa 51 0,5258 Ángulo correspondiente α deportes = 360º⋅0,5258 = 189,3º Mantenimiento 8 Música 17 0,0825 α matenimiento = 360º⋅0,0825 = 29,7 º α música = 360º⋅0,1753 = 63,1º 0,1753 Cine 10 0,1031 α cine = 360º⋅0,1031 = 37,1º Lectura 6 0,0691 Otros 5 0,0515 α lectura = 360º⋅0,0691 = 24,9º α otros = 360º⋅0,0515 = 18,5º Dividiendo la superficie circular en los sectores con la amplitud calculada obtenemos el siguiente gráfico circular. 2.5. Histograma Es un gráfico similar a los diagramas de barras y se utilizan para representar distribuciones de variables cuantitativas continuas, es decir, agrupadas en intervalos. Consiste en dibujar rectángulos adosados, cuyas bases coinciden con la amplitud de los intervalos y sobre cada uno de estos intervalos se levanta un rectángulo de área igual o proporcional, a la frecuencia del mismo, que en principio puede ser absoluta o relativa. Para determinar la altura hi del rectángulo correspondiente al intervalo (ai −1 , ai ] de amplitud ci , para que su área coincida con las frecuencias absolutas será tal que: f i = ci ⋅ hi ⇒ despejando obtenemos la expresión para el cáclulo de f las alturas ⇒ hi = i , i = 1,....k ci Observemos que en un histograma, cuanto mayor es la amplitud del intervalo menor será la altura del rectángulo, pues el elemento del gráfico representativo es la superficie. De esta manera podemos obtener gráficos pocos estéticos, si fuera así, podemos usar alturas proporcionales que produzcan gráficos más armoniosos. En el caso particular de que todos los intervalos tuvieran la misma amplitud, las alturas pueden tomar el valor de las frecuencias. Ejemplo. Con los datos del peso y la altura de los alumnos hemos calculado el IMC (Índice de Masa Corporal) que están reflejados en la siguiente tabla de frecuencias: Valores Frecuencia absoluta [14.5, 16) [16, 18.5) [18.5, 25) [25, 30) [30, 30.5) 4 22 61 5 1 N=93 Si los intervalos tuvieran igual amplitud podrías dibujar los rectángulos del histograma con la altura igual a la frecuencia absoluta, pero al no ser igual tenemos que calcular la altura de cada rectángulo para que tengan la superficie proporcional a la frecuencia. Valores Amplitud [14.5, 16) [16, 18.5) [18.5, 25) Frecuencia absoluta 1.5 4 2.5 22 6.5 61 [25, 30) 5 5 [30, 30.5) 0.5 1 Altura 4 = 2.67 1 .5 22 h2 = = 8 .8 2 .5 61 h3 = = 9 .4 6 .5 5 h4 = = 1 5 1 h2 = =2 0 .5 h1 = N=93 Construyendo los rectángulos de base la amplitud de los intervalos y altura las calculadas obtenemos el siguiente histograma en el que el área de los rectángulos que lo forman es igual a las frecuencias absolutas de cada uno: 2.6. Polígonos de frecuencias Este diagrama consiste en una serie de segmentos de recta que unen los puntos cuyas abscisas son los valores de la variable, o las marcas de clase, en el caso de variables continuas, y cuyas ordenadas son proporcionales a sus frecuencias respectivas. Este gráfico se puede construir tanto para variables no agrupadas como agrupadas en intervalos, y tanto con frecuencias absolutas como relativas. Muchas veces este tipo de gráfico se superpone a un diagrama de barras o a un histograma. Variables no agrupadas Un polígono de frecuencias se forma uniendo los extremos de las barras de un diagrama de barras mediante segmentos. También se puede realizar trazando los puntos que representan las frecuencias y uniéndolos mediante segmentos. Variables agrupadas En el caso de variables agrupadas en intervalos para construir el polígono de frecuencia se toma la marca de clase que coincide con el punto medio de cada rectángulo de un histograma. Ejemplo. Variable discreta Vamos a construir el polígono de frecuencias de la variable edad de los alumnos sobre el diagrama de barras construido en un ejercicio anterior. 12 13 14 15 16 17 18 Frecuencia absoluta 9 25 27 16 12 8 3 TOTAL N=100 Valores Edades de los alumnos entrevistados 30 25 20 15 10 5 0 12 13 14 15 16 17 18 Ejemplo. Variable continua Vamos a construir el polígono de frecuencias de la variable altura de los alumnos sobre el histograma. Al ser los intervalos de igual amplitud podemos establecer la altura de los rectángulos como el valor de la frecuencia, en este caso trabajaremos con la frecuencia relativa expresada en porcentajes. Valores (134, (143, (152, (161, (170, (179, (188, 143] 152] 161] 170] 179] 188] 197] Frecuencia absoluta 2 16 25 34 13 3 4 Frecuencia Porcentajes relativa 0,0206 2,06% 0,1649 16,49% 0,2577 25,77% 0,3505 35,05% 0,1340 13,40% 0,0309 3,09% 0,0412 4,12% Altura de los estudiantes de 12 a 18 años 40% 35% 30% 25% 20% 15% 10% 5% 0% (134, 143] (143, 152] (152, 161] (161, 170] (170, 179] (179, 188] (188, 197] Para construir el polígono de frecuencias sobre el histograma seguimos los siguientes pasa: - hallamos la marca de clase de cada intervalo - marcamos sobre el gráfico los puntos de intersección de cada punto medio de clase con su frecuencia respectiva - finalmente unimos con segmentos los puntos de intersección. 2.7. Otros gráficos PICTOGRAMA Son gráficos que utilizan dibujos que hacen referencia a la variable que se está estudiando. El tamaño o cantidad de cada dibujo es proporcional al valor de la frecuencia de cada modalidad. Ejemplo. La siguiente tabla muestra el número de horas semanales que pasan los alumnos del centro anterior viendo la televisión Frecuencia Valores absoluta [0,4) 4 [4,8) 28 [8,12) 21 [12,16) 15 [16,20) 9 [20,24) 5 TOTAL N=82 Con estos datos construimos un histograma sustituyendo los rectángulos por el dibujo de una televisión y conviertiendo así el gráfico en un pictograma Número de horas de televisión semanales Número de alumnos 30 25 20 15 10 5 0 [0,4) [4,8) [8,12) [12,16) [16,20) [20,24) Horas de televisión CARTOGRAMA Es un gráfico que se utiliza cuando nos interesa conocer la distribución geográfica de una variable, por ello se construye sobre un mapa en el que las zonas aparecen coloreadas según los valores de la variable que se está estudiando. Va acompañado de una leyenda en la que, por colores, se indica la interpretación. Ejemplo. La siguiente tabla muestra la distribución de habitantes de Gran Canaria por municipios. Le acompaña un cartograma que refleja los datos. Siempre debes consultar la leyenda que acompaña al gráfico para su correcta interpretación. Extraído de Canarias en Cifras 2008. Instituto Canario de Estadística