UNIVERSIDAD DE BUENOS AIRES FACULTAD DE CIENCIAS SOCIALES CARRERA DE SOCIOLOGIA Cátedra: Infesta Domínguez 1º CUATRIMESTRE 2007 Elaboración de la Ficha: Carolina J. Peterlini METODOLOGIA Y TECNICAS DE LA INVESTIGACION SOCIAL II Ficha de GRAFICOS Otra forma de presentar los datos, además de los vistos, es presentarlos en forma gráfica. La función de los gráficos es la presentación ilustrativa – visual de los datos de los cuadros correspondientes. Los gráficos nos permiten acercarnos a los datos de una formas más intuitiva y directa. Existe una gran variedad de gráficos, de los cuales sólo veremos los más usuales. Un buen gráfico debe ser: * Sencillo: destacar las relaciones entre los datos sin exponer todos los detalles del cuadro original. * Se debe adaptar al tipo de variable presentada (nominal, ordinal, intervalar) En toda representación gráfica hay subyacente un sistema de referencia o sistema de coordenadas. El más usual en las representaciones gráficas consiste en dos líneas o dimensiones perpendiculares que forman el sistema de Coordenadas Cartesianas. La linea o eje vertical se llama ordenada o eje de las Y, y la línea o eje horizontal se denomina abscisa o eje de las X. Ambos ejes dividen el plano en cuatro cuadrantes que se cruzan en el origen o punto cero. Las puntuaciones que parten del origen hacia arriba por el eje Y y la derecha por el eje X son positivas; las que parten del origen hacia abajo por el eje Y y a la izquierda por el eje X son negativas. Por lo general en sociología se utiliza el cuadrante positivo (primer cuadrante: derecha, arrriba). Podemos clasificar los gráficos en función del nivel de medición de la variable a la cual los datos pertenecen, según sean variables cualitativas o variables cuantitativas: A. VARIABLES CUALITATIVAS: 1) Pictograma 2) Sector circular 3) Barras simples o bastones 4) Barras compuestas (superpuestas o adyacentes) B. VARIABLES CUANTITATIVAS: 5) Histograma de Pearson – Pirámide 6) Polígono de frecuencias 7) Gráfico de concentración (Lorentz- Gini) 8) Box- Plot o Diagrama de caja múltiple C. VARIABLE CONTEXTUAL: 9) Gráfico de tendencia 1 A. GRAFICOS PARA VARIABLES CUALITATIVAS 1) PICTOGRAMA Es un gráfico para variables cualitativas. Su nivel de ilustración es muy simple, consistente en un gráfico de dibujos. Su aplicación está condicionada por el hecho de que los valores de la variable deben ser susceptibles de adecuarse a formas gráficas simbólicas. Ejemplo: Distribución por sexo de la población de la Ciudad de Buenos Aires. Año 2001 X f Varones 1.258.458 Mujeres 1.517.680 Total 2.776.138 Fuente: INDEC, Censo Nacional de Población, Hogares y Viviendas 2001. Escala: 100.000 personas Referencias: Varones Mujeres 2 2) SECTOR CIRCULAR (*También llamado Pastel o Torta, Diagrama circular o Gráfico de Sectores) Este gráfico (al igual que el anterior) es de tipo unidimensional, dado que trabaja con un solo plano o dimensión del espacio. En este gráfico, el círculo representa el total de una característica. Se usa especialmente con variables nominales, pues no implica ningún orden. Este gráfico trabaja con el giro de un radio que recorre 360º y deja una superficie, el círculo. Es una representación sectorial dado que el círculo se divide en sectores cuyo ángulo refleja el porcentaje del total para cada categoría. Como los cuadros estadísticos vienen dados generalmente en frecuencias absolutas, y el gráfico de sectores circulares trabaja con grados, se deben transformar las frecuencias a grados mediante una regla de tres simple Si N ......360º f ...... x = 360 x f / N Si la sumatoria de las frecuencias es igual a N, la sumatoria de los grados da igual a 360º. El resultado de esta transformación nos permitirá expresar las “f” de cada categoría en términos de apertura de ángulos. Distribución por sexo de la población de la Ciudad de Buenos Aires. Año 2001 x f Grados Varones 1.258.458 163 Mujeres 1.517.680 197 Total 2.776.138 360 Fuente: INDEC, Censo Nacional de Población, Hogares y Viviendas 2001. Varones Mujeres Cuando se trata de graficar la distribución de dos poblaciones diferentes, se pueden hacer los gráficos en escala, es decir, con superficies proporcionales a poblaciones, donde r2 = r1 . N2 / N1 3) BARRAS SIMPLES O BASTONES Es un tipo de gráfico más rico que los anteriores, pues es bidimensional. Trabaja en un sistema de ejes cartesianos (primer cuadrante) con abscisa positiva y ordenada positiva, 3 donde en la absisa (eje horizontal de las X) se representan las categorías de la variable y en la ordenada (eje vertical de las Y) las frecuencias. El principio de construcción de este gráfico reside en elevar las barras o bastones de cada categoría de la variable con una altura proporcional a la frecuencia correspondiente. Como recomendación general de gráficos bidimensionales se suele respetar la regla del 75%, esto es, mantener las proporciones entre absisa y ordenada de tal modo que la ordenada sea aproximadamente el 75% de la longitud de la absisa, de forma tal que el gráfico quede apaisado. La determinación del segmento de base de cada barra de cada categoría se define por la regla del 75%, por el número de categorías de la variable, y por el espacio que debe quedar entre barras, que por lo general es la mitad del ancho de las barras. Cuando existen muchas categorías y las barras son muy angostas se pueden hacer bastones. En cuanto a la ordenada para determinar la escala para las frecuencias, se debe determinar la mayor frecuencia y a partir de allí subdividir dicho eje en partes iguales. No es conveniente cortar este eje, pues da lugar a interpretaciones erróneas. Dado que las barras van de izquierda a derecha, llevan un orden implícito y por ello es muy adecuado para variables ordinales. Ejemplo: Distribución de la población de 15 años y más según máximo nivel educativo alcanzado. Ciudad de Buenos Aires. Año 2001 x f Primario incompleto 96.941 Primario completo 419.479 Secundario incompleto 389.333 Secundario completo 552.914 Sup. o universitario incompleto 347.489 Sup. o universitario completo 459.423 Total 2.265.579 Fuente: INDEC, Censo Nacional de Población, Hogares y Viviendas 2001. 600000 500000 400000 300000 200000 100000 0 PI PC SI SC UI UC 4 El mismo gráfico (y todos los gráficos de barras -simples o compuestos-) también puede representarse con las barras ubicadas de forma horizontal: UC UI SC SI PC PI - 100,000 200,000 300,000 400,000 500,000 600,000 4) BARRAS COMPUESTAS y BARRAS ADYACENTES Estos tipos de gráfico son un subtipo del gráfico de barras, usados específicamente para cuadros bivariados. Para su construcción se hace primero un gráfico de barras simples con las frecuencias marginales de una de las variables. A continuación se subdividen esas barras proporcionalmente a las frecuencias condicionales de cada uno de los marginales graficados (barras superpuestas). Si los segmentos de barras que corresponden a las frecuencias condicionales en vez de ubicarse en forma superpuesta se ubicaran una al lado de la otra, el gráfico sería “de barras adyacentes” (ver ejemplos). Distribución de la población de 15 años y más según máximo nivel educativo alcanzado por sexo. Ciudad de Buenos Aires. Año 2001 Varones Mujeres Total 197.418 319.002 516.420 Primaria inc. y comp. 437.945 504.302 942.247 Secundaria inc. y comp. 369.452 437.460 806.912 Univ. Inc. y comp. Fuente: INDEC, Censo Nacional de Población, Hogares y Viviendas 2001. 5 Ejemplo de Gráfico de barras compuestas: 1000000 900000 800000 700000 600000 Mujeres 500000 400000 Varones 300000 200000 100000 0 P S U Ejemplo de Gráfico de barras adyacentes (para el mismo cuadro): 600000 500000 400000 Varones 300000 Mujeres 200000 100000 0 P S U 6 B. GRAFICOS PARA VARIABLES CUANTITATIVAS 5) HISTOGRAMA DE PEARSON Su técnica de construcción es similar al gráfico de barras. Sin embargo, al ser la variable cuantitativa, el ancho de cada barra no es arbitrario sino que guarda proporción con los valores de la variable. De este modo, el ancho de cada barra está determinado por los límites reales inferior y superior de cada intervalo y la altura por la frecuencia correspondiente. El área del rectángulo resultante será proporcional a la correspondiente frecuencia (absoluta o relativa). Algunos software específicos para estadística grafican la Curva de Gauss superpuesta con el histograma Esto es válido sólo para intervalos regulares; si se trabaja con intervalos irregulares la técnica es otra. Este gráfico, al igual que el de barras, es útil para cuadros univariados y bivariados. Ejemplo: Ciudad de Buenos Aires. Población por sexo según edad agrupada. Año 2001 Sexo Edad Total Varones Mujeres 0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99 Total 156,313 151,351 307,664 171,526 170,096 341,622 226,167 242,487 468,654 181,874 199,156 381,030 157,276 188,939 346,215 140,021 181,466 321,487 105,106 149,427 254,533 84,900 144,291 229,191 31,334 75,477 106,811 3,885 14,705 18,590 1,258,402 1,517,395 2,775,797 Fuente: INDEC, Censo Nacional de Población, Hogares y Viviendas 2001. 7 500.000 450.000 400.000 350.000 300.000 Mujeres 250.000 Varones 200.000 150.000 100.000 50.000 0 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99 Las pirámides de edades son variaciones del histograma. Las barras en este caso no se hacen verticalmente sino horizontalmente, y los segmentos de cada sexo no se superponen sino que se representan a la izquierda (varones) y derecha (mujeres) de la ordenada. Ejemplo: Ciudad de Buenos Aires. Población por sexo según edad en años simples. Año 2001 Sexo Edad Total Varones Mujeres Total 1,258,458 1,517,680 2,776,138 0-4 80,279 77,328 157,607 5-9 76,034 74,023 150,057 10-14 81,594 79,703 161,297 15-19 89,932 90,393 180,325 20-24 113,660 120,636 234,296 25-29 112,507 121,851 234,358 30-34 97,062 104,543 201,605 35-39 84,812 94,613 179,425 40-44 81,800 95,036 176,836 45-49 75,476 93,903 169,379 50-54 75,156 95,630 170,786 55-59 64,865 85,836 150,701 60-64 54,896 76,125 131,021 65-69 50,210 73,302 123,512 70-74 47,777 77,635 125,412 75-79 37,123 66,656 103,779 80-84 21,112 46,633 67,745 85-89 10,222 28,844 39,066 90-94 3,274 12,099 15,373 95-99 611 2,606 3,217 100 y más 56 285 341 Fuente: INDEC. Censo Nacional de Población, Hogares y Viviendas 2001. 8 Ciudad de Buenos Aires 2001 100 y mas 90 80 70 60 50 40 30 20 10 0 -6 -5 -4 -3 -2 -1 0 1 varones 2 3 4 5 6 mujeres Cuando hay intervalos desiguales, se deben igualar para poder graficar. Una forma de hacerlo es transformar toda la distribución a módulo 1 (uno) y dividir cada frecuencia por el módulo original. Luego se grafica esa nueva distribución. Ejemplo: Sea la siguiente distribución de edades: x 5-14 15-24 25-34 35-39 40-42 43-44 45-49 50-54 55-64 65-74 Total f 20 40 80 60 30 30 50 40 60 30 440 x f 5 6 7 8 x 2 2 2 2 f 29 30 31 32 x 8 8 8 8 f 53 54 55 56 8 8 6 6 9 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 2 2 2 2 2 2 4 4 4 4 4 4 4 4 4 4 8 8 8 8 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 8 8 12 12 12 12 12 10 10 10 15 15 10 10 10 10 10 8 8 8 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 6 6 6 6 6 6 6 6 3 3 3 3 3 3 3 3 3 3 440 TOTAL 16 14 12 10 8 6 4 2 69 65 61 57 53 49 45 41 37 33 29 25 21 17 13 9 5 1 0 6) POLÍGONO DE FRECUENCIAS Los polígonos de frecuencias son propios de un nivel de medición por intervalos o razón. El polígono de frecuencias (o porcentajes) es una figura que se cierra al unir los puntos medios de cada intervalo, a una altura proporcional a la frecuencia (o porcentaje) de dicho intervalo. La unión de tales puntos conforma un segmento rectilíneo que, al prolongarse por los extremos hasta cortar el eje X, constituye un polígono de frecuencias. Se usa en los mismos casos que el histograma. Su técnica de construcción es análoga, con la diferencia que trabaja con los puntos medios de cada intervalo. La forma de construir un polígono de frecuencias es la siguiente: a. En el eje horizontal (X) se colocan las categorías o los intervalos 10 b. En el eje vertical (Y) se colocan las frecuencias, dependiendo de cuál es el mayor número posible de frecuencia c. Se determinan los puntos medios (PM) de cada categoría o intervalo. Por ejemplo, para el intervalo de 15-19 el PM es 17, y para el intervalo de 20-39 el PM es 29,5. d. Se ve cuántas frecuencias tiene cada categoría y se traza un punto en la intersección de las frecuencias y los puntos medios de las categorías o los intervalos. e. Se unen los puntos trazados en las intersecciones Estos gráficos deben ser cerrados a la absisa, o sea, ubicando los puntos medios anterior al primero y posterior al último intervalo con la frecuencia 0 (cero). Con ello queda delimitada una superficie entre el polígono de frecuencias y la absisa. El área de dicha superficie representa al total de la población y coincide con el área del histograma para los mismos datos Ejemplo: Distribución por sexo y edad de la población de 15 años o más de la Ciudad de Aires. Año 2001 (en miles de habitantes) Edad (categoría o Puntos Medios Varones Mujeres Total intervalo) 15-19 17 89.932 90.393 20- 39 29,5 408.041 441.643 40- 59 49,5 297.297 370.405 60- 79 69,5 190.006 293.718 Buenos 180,325 849,684 667,702 483,724 Fuente: INDEC, Encuesta Permanente de Hogares (datos extraídos de www.indec.gov.ar) Nota: se excluyó la categoría 80 y más dado que no se puede calcular el punto medio de la misma 900000 800000 700000 600000 500000 mujeres varones 400000 300000 200000 100000 0 0 17 29.5 49.5 69.5 100 Nota: Observar que la suma de las áreas de mujeres y varones representa el área correspondiente al total. 11 7) GRAFICO DE CONCENTRACIÓN (Lorentz – Gini) Ejemplo: Se quiere observar la distribución de 661 propietarios de explotaciones agropecuarias clasificadas por su tamaño. En primer lugar se calculan las frecuencias relativas acumuladas que se graficarán en el eje vertical (ordenada). Luego se calcula la superficie total para cada intervalo (si este dato no se tiene se lo puede estimar multiplicando cada punto medio por su respectiva frecuencia). Estas superficies se relativizan y se acumulan para graficarlas sobre el eje horizontal (abscisa). Concentración de la tierra 100 Propietarios 80 60 40 20 0 0 10 20 30 40 50 60 70 80 90 100 Superficie Observando el gráfico se puede decir por ejemplo que el 50% de propietarios de explotaciones más pequeñas apenas alcanza al 18% de la superficie, y por lo tanto el 50% restante tiene mas del 82%. También se puede decir que el 80% de propietarios de explotaciones más pequeñas tiene el 50% de la superficie y por lo tanto el 20% restante tiene el 50% de la superficie, o que el 90% tiene el 70%, etc. 8) BOX PLOT (*También llamado Diagrama de caja múltiple o Caja de Tukey) El “boxplot” es una herramienta gráfica que permite visualizar fácilmente los más importantes aspectos de la distribución de un conjunto de datos. El diagrama gráfico tiene un eje sobre el que se encuentran los puntos que representan los valores de la variable a analizar (en el ejemplo, las tasas de fecundidad adolescente precoz de las jurisdicciones). El valor de la mediana, o sea el valor que ocupa la posición central dentro de un conjunto ordenado de valores, es indicado por una barra horizontal. Los valores de los cuartos primero (el que acumula el 25 por ciento de los datos) y tercero (el que acumula el 75 por ciento de los datos) se indican, asimismo, con dos barras horizontales que unidas dan origen a una caja. La longitud de esta caja es el rango dentro del cual se concentra aproximadamente la mitad central de los datos observados. Los tramos del eje inferior y superior a la caja se denominan cola inferior y superior, respectivamente. También se indica, con barras horizontales al final de las colas, la posición de los dos puntos que bajo la hipótesis de una distribución normal determinan el 12 rango en el que debería concentrarse el 95 por ciento de los datos. Estos puntos se encuentran graficados a una distancia de 1,5 veces la longitud de la caja hacia la abajo y hacia arriba del primer y tercer cuartos, respectivamente. Cuando no se observan datos inferiores o superiores a estos puntos, las barras representan al mínimo y máximo valor del conjunto. Si en cambio, existen datos inferiores o superiores a dichos puntos, ellos se ubican entre la barra y el círculo o asterisco que a su vez representan el mínimo o máximo respectivamente. Estos valores son llamados valores extremos bajo la definición de hallarse en el 2,5 por ciento extremo de una distribución normal con mediana y rango intercuartos iguales a los calculados. Así, el “boxplot” brinda ideas claras respecto a los siguientes aspectos: 1. La posición del conjunto de datos a través de la mediana 2. La concentración de conjunto de puntos a través de la longitud de la caja 3. Los valores extremos bajo la hipótesis de una distribución normal 4. Los valores mínimo y máximo 5. La longitud de las colas Gráfico 2.2 Evolución del conjunto de las tasas jurisdiccionales de fecundidad adolescente precoz. Años censales entre 1960 y 2001 6 Chaco Chaco Tasa (por mil) 5 4 3 2 1 0 N= 23 23 23 23 23 1960 1970 1980 1991 2001 Año C. GRAFICO PARA VARIABLES CONTEXTUALES (temporales) 9) GRAFICO DE TENDENCIA (*También llamado Línea de Grafos) Es un gráfico donde se muestra la variación de una variable a través del tiempo. Se trata de un análisis diacrónico de la o las variables de la población, vinculando a una variable contextual (tiempo) para observar evolutivamente su tendencia general y las oscilaciones específicas. 13 La técnica de construcción es análoga a las ya señaladas para los otros gráficos: en la absisa se ubica la variable contextual (en términos por ejemplo: de días, semanas, meses, años, etc.) respetando el continuo temporal, y en la ordenada las frecuencias de cada categoría a través de los distintos momentos temporales. Lo que interesa es la forma que adopta la pendiente al crecer o decrecer la línea. Es usual representar en un mismo gráfico diversas tendencias para efectuar comparaciones. En este caso, interesa analizar las semejanzas o diferencias entre las líneas. Ejemplo: Evolución de las tasas de actividad y desocupación. Total de aglomerados urbanos desde 1974 a 2002 (Octubre) Tasa de Tasa de Actividad Desocupación 1974 40.1 3.4 1975 39.7 3.8 1976 38.7 4.4 1977 38.6 2.7 1978 39.0 2.3 1979 38.4 2.4 1980 38.5 2.5 1981 38.3 5.3 1982 38.5 4.6 1983 37.3 3.9 1984 37.9 4.4 1985 38.2 5.9 1986 38.7 5.2 1987 38.9 5.7 1988 39.4 6.1 1989 39.3 7.1 1990 39.0 6.3 1991 39.5 6.0 1992 40.2 7.0 1993 41.0 9.3 1994 40.8 12.1 1995 41.4 16.6 1996 41.9 17.3 1997 42.3 13.7 1998 42.1 12.4 1999 42.7 13.8 2000 42.7 14.7 2001 42.2 18.3 2002 42.9 17.8 Fuente: Encuesta Permanente de Hogares, datos extraidos de www.indec.gov.ar Año 14 50 45 40 Tasa de Actividad 35 30 Tasa de Desocupación 25 20 15 10 5 20 02 20 00 19 98 19 96 19 94 19 92 19 90 19 88 19 86 19 84 19 82 19 80 19 78 19 76 19 74 0 Bibliografía consultada para la elaboración de la Ficha: Binstock, Georgina, E. A. Pantelides (2004). Fecundidad adolescente. Diagnóstico sociodemográfico, Informe final Estudio Colaborativo Multicéntrico sobre Embarazo Adolescente coordinado, Becas Carrillo-Oñativia, Ministerio de Salud (Anexo Metodológico), disponible en: http://www.msal.gov.ar/htm/site/salud_investiga/pdf/informes/Binstock%20inf%20final%20f ec%20adolescente.zip Benson, O. (1974). El laboratorio de ciencia política, Buenos Aires, Amorrortu, Buenos Aires, Cap. 2 (Cómo leer un cuadro: variedad de las variables) y 3 (Gráficos y diagramas. Graficación de los datos. Punto: Barras compuestas), pp. 33-60 y 70-74 García Ferrando, M. (1995). Socioestadística. Introducción a la estadística en Sociología, Madrid, Alianza Editorial, 2º Edición ampliada, Cap. 2 (Puntos 2.4.4. Línea de grafos y 2.5. Otras técnicas de representación gráfica), pp. 71-79 Hernández Sampieri, R.; C. Fernández Collado y P. Baptista Lucio (2004). Metodología de la investigación, México D.F., Mc. Graw Hill (3era edición) INDEC, datos extraídos de http://www.indec.gov.ar Peña, D. y J. Romo (1997). Introducción a la Estadística para las Ciencias Sociales, Madrid, McGraw-Hill, Cap. 10 (Punto 10.3: Gráficos de medias y desviaciones. Diagrama de caja múltiple), pp. 152-154. Sautú, R. (1989) Ficha de Gráficos, Material de cátedra. 15