FICHA DE GRAFICOS - Cátedras - Universidad de Buenos Aires

Anuncio
UNIVERSIDAD DE BUENOS AIRES
FACULTAD DE CIENCIAS SOCIALES
CARRERA DE SOCIOLOGIA
Cátedra: Infesta Domínguez
1º CUATRIMESTRE 2007
Elaboración de la Ficha: Carolina J. Peterlini
METODOLOGIA Y TECNICAS DE LA INVESTIGACION SOCIAL II
Ficha de GRAFICOS
Otra forma de presentar los datos, además de los vistos, es presentarlos en forma gráfica.
La función de los gráficos es la presentación ilustrativa – visual de los datos de los
cuadros correspondientes. Los gráficos nos permiten acercarnos a los datos de una
formas más intuitiva y directa. Existe una gran variedad de gráficos, de los cuales sólo
veremos los más usuales.
Un buen gráfico debe ser:
* Sencillo: destacar las relaciones entre los datos sin exponer todos los detalles del
cuadro original.
* Se debe adaptar al tipo de variable presentada (nominal, ordinal, intervalar)
En toda representación gráfica hay subyacente un sistema de referencia o sistema de
coordenadas. El más usual en las representaciones gráficas consiste en dos líneas o
dimensiones perpendiculares que forman el sistema de Coordenadas Cartesianas. La
linea o eje vertical se llama ordenada o eje de las Y, y la línea o eje horizontal se
denomina abscisa o eje de las X. Ambos ejes dividen el plano en cuatro cuadrantes que
se cruzan en el origen o punto cero. Las puntuaciones que parten del origen hacia arriba
por el eje Y y la derecha por el eje X son positivas; las que parten del origen hacia abajo
por el eje Y y a la izquierda por el eje X son negativas. Por lo general en sociología se
utiliza el cuadrante positivo (primer cuadrante: derecha, arrriba).
Podemos clasificar los gráficos en función del nivel de medición de la variable a la cual los
datos pertenecen, según sean variables cualitativas o variables cuantitativas:
A. VARIABLES CUALITATIVAS:
1) Pictograma
2) Sector circular
3) Barras simples o bastones
4) Barras compuestas (superpuestas o adyacentes)
B. VARIABLES CUANTITATIVAS:
5) Histograma de Pearson – Pirámide
6) Polígono de frecuencias
7) Gráfico de concentración (Lorentz- Gini)
8) Box- Plot o Diagrama de caja múltiple
C. VARIABLE CONTEXTUAL:
9) Gráfico de tendencia
1
A. GRAFICOS PARA VARIABLES CUALITATIVAS
1) PICTOGRAMA
Es un gráfico para variables cualitativas. Su nivel de ilustración es muy simple,
consistente en un gráfico de dibujos. Su aplicación está condicionada por el hecho de que
los valores de la variable deben ser susceptibles de adecuarse a formas gráficas
simbólicas.
Ejemplo:
Distribución por sexo de la población de la Ciudad de Buenos Aires. Año 2001
X
f
Varones
1.258.458
Mujeres
1.517.680
Total
2.776.138
Fuente: INDEC, Censo Nacional de Población, Hogares y Viviendas 2001.
Escala: 100.000 personas
Referencias:
Varones
Mujeres
2
2) SECTOR CIRCULAR (*También llamado Pastel o Torta, Diagrama circular o Gráfico de
Sectores)
Este gráfico (al igual que el anterior) es de tipo unidimensional, dado que trabaja con un
solo plano o dimensión del espacio. En este gráfico, el círculo representa el total de una
característica. Se usa especialmente con variables nominales, pues no implica ningún
orden.
Este gráfico trabaja con el giro de un radio que recorre 360º y deja una superficie, el
círculo. Es una representación sectorial dado que el círculo se divide en sectores cuyo
ángulo refleja el porcentaje del total para cada categoría.
Como los cuadros estadísticos vienen dados generalmente en frecuencias absolutas, y el
gráfico de sectores circulares trabaja con grados, se deben transformar las frecuencias a
grados mediante una regla de tres simple
Si N ......360º
f ...... x = 360 x f / N
Si la sumatoria de las frecuencias es igual a N, la sumatoria de los grados da igual a 360º.
El resultado de esta transformación nos permitirá expresar las “f” de cada categoría en
términos de apertura de ángulos.
Distribución por sexo de la población de la Ciudad de Buenos Aires. Año 2001
x
f
Grados
Varones
1.258.458
163
Mujeres
1.517.680
197
Total
2.776.138
360
Fuente: INDEC, Censo Nacional de Población, Hogares y Viviendas 2001.
Varones
Mujeres
Cuando se trata de graficar la distribución de dos poblaciones diferentes, se pueden hacer
los gráficos en escala, es decir, con superficies proporcionales a poblaciones, donde
r2 = r1 .
N2 / N1
3) BARRAS SIMPLES O BASTONES
Es un tipo de gráfico más rico que los anteriores, pues es bidimensional. Trabaja en un
sistema de ejes cartesianos (primer cuadrante) con abscisa positiva y ordenada positiva,
3
donde en la absisa (eje horizontal de las X) se representan las categorías de la variable y
en la ordenada (eje vertical de las Y) las frecuencias.
El principio de construcción de este gráfico reside en elevar las barras o bastones de cada
categoría de la variable con una altura proporcional a la frecuencia correspondiente.
Como recomendación general de gráficos bidimensionales se suele respetar la regla del
75%, esto es, mantener las proporciones entre absisa y ordenada de tal modo que la
ordenada sea aproximadamente el 75% de la longitud de la absisa, de forma tal que el
gráfico quede apaisado.
La determinación del segmento de base de cada barra de cada categoría se define por la
regla del 75%, por el número de categorías de la variable, y por el espacio que debe
quedar entre barras, que por lo general es la mitad del ancho de las barras. Cuando
existen muchas categorías y las barras son muy angostas se pueden hacer bastones.
En cuanto a la ordenada para determinar la escala para las frecuencias, se debe
determinar la mayor frecuencia y a partir de allí subdividir dicho eje en partes iguales. No
es conveniente cortar este eje, pues da lugar a interpretaciones erróneas.
Dado que las barras van de izquierda a derecha, llevan un orden implícito y por ello es
muy adecuado para variables ordinales.
Ejemplo:
Distribución de la población de 15 años y más según máximo nivel educativo alcanzado.
Ciudad de Buenos Aires. Año 2001
x
f
Primario incompleto
96.941
Primario completo
419.479
Secundario incompleto
389.333
Secundario completo
552.914
Sup. o universitario incompleto
347.489
Sup. o universitario completo
459.423
Total
2.265.579
Fuente: INDEC, Censo Nacional de Población, Hogares y Viviendas 2001.
600000
500000
400000
300000
200000
100000
0
PI
PC
SI
SC
UI
UC
4
El mismo gráfico (y todos los gráficos de barras -simples o compuestos-) también puede
representarse con las barras ubicadas de forma horizontal:
UC
UI
SC
SI
PC
PI
-
100,000
200,000
300,000
400,000
500,000
600,000
4) BARRAS COMPUESTAS y BARRAS ADYACENTES
Estos tipos de gráfico son un subtipo del gráfico de barras, usados específicamente para
cuadros bivariados.
Para su construcción se hace primero un gráfico de barras simples con las frecuencias
marginales de una de las variables. A continuación se subdividen esas barras
proporcionalmente a las frecuencias condicionales de cada uno de los marginales
graficados (barras superpuestas).
Si los segmentos de barras que corresponden a las frecuencias condicionales en vez de
ubicarse en forma superpuesta se ubicaran una al lado de la otra, el gráfico sería “de
barras adyacentes” (ver ejemplos).
Distribución de la población de 15 años y más según máximo nivel educativo alcanzado
por sexo. Ciudad de Buenos Aires. Año 2001
Varones
Mujeres
Total
197.418
319.002
516.420
Primaria inc. y comp.
437.945
504.302
942.247
Secundaria inc. y comp.
369.452
437.460
806.912
Univ. Inc. y comp.
Fuente: INDEC, Censo Nacional de Población, Hogares y Viviendas 2001.
5
Ejemplo de Gráfico de barras compuestas:
1000000
900000
800000
700000
600000
Mujeres
500000
400000
Varones
300000
200000
100000
0
P
S
U
Ejemplo de Gráfico de barras adyacentes (para el mismo cuadro):
600000
500000
400000
Varones
300000
Mujeres
200000
100000
0
P
S
U
6
B. GRAFICOS PARA VARIABLES CUANTITATIVAS
5) HISTOGRAMA DE PEARSON
Su técnica de construcción es similar al gráfico de barras. Sin embargo, al ser la variable
cuantitativa, el ancho de cada barra no es arbitrario sino que guarda proporción con los
valores de la variable. De este modo, el ancho de cada barra está determinado por los
límites reales inferior y superior de cada intervalo y la altura por la frecuencia
correspondiente. El área del rectángulo resultante será proporcional a la correspondiente
frecuencia (absoluta o relativa). Algunos software específicos para estadística grafican la
Curva de Gauss superpuesta con el histograma
Esto es válido sólo para intervalos regulares; si se trabaja con intervalos irregulares la
técnica es otra.
Este gráfico, al igual que el de barras, es útil para cuadros univariados y bivariados.
Ejemplo:
Ciudad de Buenos Aires. Población por sexo según edad agrupada. Año 2001
Sexo
Edad
Total
Varones
Mujeres
0-9
10-19
20-29
30-39
40-49
50-59
60-69
70-79
80-89
90-99
Total
156,313
151,351
307,664
171,526
170,096
341,622
226,167
242,487
468,654
181,874
199,156
381,030
157,276
188,939
346,215
140,021
181,466
321,487
105,106
149,427
254,533
84,900
144,291
229,191
31,334
75,477
106,811
3,885
14,705
18,590
1,258,402
1,517,395
2,775,797
Fuente: INDEC, Censo Nacional de Población, Hogares y Viviendas 2001.
7
500.000
450.000
400.000
350.000
300.000
Mujeres
250.000
Varones
200.000
150.000
100.000
50.000
0
20-29
30-39
40-49
50-59
60-69
70-79
80-89
90-99
Las pirámides de edades son variaciones del histograma. Las barras en este caso no se
hacen verticalmente sino horizontalmente, y los segmentos de cada sexo no se
superponen sino que se representan a la izquierda (varones) y derecha (mujeres) de la
ordenada.
Ejemplo:
Ciudad de Buenos Aires. Población por sexo según edad en años simples. Año 2001
Sexo
Edad
Total
Varones
Mujeres
Total
1,258,458
1,517,680
2,776,138
0-4
80,279
77,328
157,607
5-9
76,034
74,023
150,057
10-14
81,594
79,703
161,297
15-19
89,932
90,393
180,325
20-24
113,660
120,636
234,296
25-29
112,507
121,851
234,358
30-34
97,062
104,543
201,605
35-39
84,812
94,613
179,425
40-44
81,800
95,036
176,836
45-49
75,476
93,903
169,379
50-54
75,156
95,630
170,786
55-59
64,865
85,836
150,701
60-64
54,896
76,125
131,021
65-69
50,210
73,302
123,512
70-74
47,777
77,635
125,412
75-79
37,123
66,656
103,779
80-84
21,112
46,633
67,745
85-89
10,222
28,844
39,066
90-94
3,274
12,099
15,373
95-99
611
2,606
3,217
100 y más
56
285
341
Fuente: INDEC. Censo Nacional de Población, Hogares y Viviendas 2001.
8
Ciudad de Buenos Aires 2001
100 y mas
90
80
70
60
50
40
30
20
10
0
-6
-5
-4
-3
-2
-1
0
1
varones
2
3
4
5
6
mujeres
Cuando hay intervalos desiguales, se deben igualar para poder graficar. Una forma de
hacerlo es transformar toda la distribución a módulo 1 (uno) y dividir cada frecuencia por
el módulo original. Luego se grafica esa nueva distribución.
Ejemplo:
Sea la siguiente distribución de edades:
x
5-14
15-24
25-34
35-39
40-42
43-44
45-49
50-54
55-64
65-74
Total
f
20
40
80
60
30
30
50
40
60
30
440
x
f
5
6
7
8
x
2
2
2
2
f
29
30
31
32
x
8
8
8
8
f
53
54
55
56
8
8
6
6
9
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
2
2
2
2
2
2
4
4
4
4
4
4
4
4
4
4
8
8
8
8
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
8
8
12
12
12
12
12
10
10
10
15
15
10
10
10
10
10
8
8
8
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
6
6
6
6
6
6
6
6
3
3
3
3
3
3
3
3
3
3
440
TOTAL
16
14
12
10
8
6
4
2
69
65
61
57
53
49
45
41
37
33
29
25
21
17
13
9
5
1
0
6) POLÍGONO DE FRECUENCIAS
Los polígonos de frecuencias son propios de un nivel de medición por intervalos o razón.
El polígono de frecuencias (o porcentajes) es una figura que se cierra al unir los puntos
medios de cada intervalo, a una altura proporcional a la frecuencia (o porcentaje) de dicho
intervalo. La unión de tales puntos conforma un segmento rectilíneo que, al prolongarse
por los extremos hasta cortar el eje X, constituye un polígono de frecuencias.
Se usa en los mismos casos que el histograma. Su técnica de construcción es análoga,
con la diferencia que trabaja con los puntos medios de cada intervalo.
La forma de construir un polígono de frecuencias es la siguiente:
a. En el eje horizontal (X) se colocan las categorías o los intervalos
10
b. En el eje vertical (Y) se colocan las frecuencias, dependiendo de cuál es el mayor
número posible de frecuencia
c. Se determinan los puntos medios (PM) de cada categoría o intervalo. Por ejemplo,
para el intervalo de 15-19 el PM es 17, y para el intervalo de 20-39 el PM es 29,5.
d. Se ve cuántas frecuencias tiene cada categoría y se traza un punto en la
intersección de las frecuencias y los puntos medios de las categorías o los
intervalos.
e. Se unen los puntos trazados en las intersecciones
Estos gráficos deben ser cerrados a la absisa, o sea, ubicando los puntos medios anterior
al primero y posterior al último intervalo con la frecuencia 0 (cero). Con ello queda
delimitada una superficie entre el polígono de frecuencias y la absisa. El área de dicha
superficie representa al total de la población y coincide con el área del histograma para
los mismos datos
Ejemplo:
Distribución por sexo y edad de la población de 15 años o más de la Ciudad de
Aires. Año 2001 (en miles de habitantes)
Edad (categoría o Puntos Medios Varones
Mujeres
Total
intervalo)
15-19
17
89.932
90.393
20- 39
29,5
408.041
441.643
40- 59
49,5
297.297
370.405
60- 79
69,5
190.006
293.718
Buenos
180,325
849,684
667,702
483,724
Fuente: INDEC, Encuesta Permanente de Hogares (datos extraídos de www.indec.gov.ar)
Nota: se excluyó la categoría 80 y más dado que no se puede calcular el punto medio de la misma
900000
800000
700000
600000
500000
mujeres
varones
400000
300000
200000
100000
0
0
17
29.5
49.5
69.5
100
Nota: Observar que la suma de las áreas de mujeres y varones representa el área correspondiente
al total.
11
7) GRAFICO DE CONCENTRACIÓN (Lorentz – Gini)
Ejemplo:
Se quiere observar la distribución de 661 propietarios de explotaciones agropecuarias
clasificadas por su tamaño. En primer lugar se calculan las frecuencias relativas
acumuladas que se graficarán en el eje vertical (ordenada). Luego se calcula la superficie
total para cada intervalo (si este dato no se tiene se lo puede estimar multiplicando cada
punto medio por su respectiva frecuencia). Estas superficies se relativizan y se acumulan
para graficarlas sobre el eje horizontal (abscisa).
Concentración de la tierra
100
Propietarios
80
60
40
20
0
0
10
20
30
40
50
60
70
80
90
100
Superficie
Observando el gráfico se puede decir por ejemplo que el 50% de propietarios de
explotaciones más pequeñas apenas alcanza al 18% de la superficie, y por lo tanto el
50% restante tiene mas del 82%. También se puede decir que el 80% de propietarios de
explotaciones más pequeñas tiene el 50% de la superficie y por lo tanto el 20% restante
tiene el 50% de la superficie, o que el 90% tiene el 70%, etc.
8) BOX PLOT (*También llamado Diagrama de caja múltiple o Caja de Tukey)
El “boxplot” es una herramienta gráfica que permite visualizar fácilmente los más
importantes aspectos de la distribución de un conjunto de datos.
El diagrama gráfico tiene un eje sobre el que se encuentran los puntos que representan
los valores de la variable a analizar (en el ejemplo, las tasas de fecundidad adolescente
precoz de las jurisdicciones). El valor de la mediana, o sea el valor que ocupa la posición
central dentro de un conjunto ordenado de valores, es indicado por una barra horizontal.
Los valores de los cuartos primero (el que acumula el 25 por ciento de los datos) y tercero
(el que acumula el 75 por ciento de los datos) se indican, asimismo, con dos barras
horizontales que unidas dan origen a una caja. La longitud de esta caja es el rango dentro
del cual se concentra aproximadamente la mitad central de los datos observados. Los
tramos del eje inferior y superior a la caja se denominan cola inferior y superior,
respectivamente. También se indica, con barras horizontales al final de las colas, la
posición de los dos puntos que bajo la hipótesis de una distribución normal determinan el
12
rango en el que debería concentrarse el 95 por ciento de los datos. Estos puntos se
encuentran graficados a una distancia de 1,5 veces la longitud de la caja hacia la abajo y
hacia arriba del primer y tercer cuartos, respectivamente. Cuando no se observan datos
inferiores o superiores a estos puntos, las barras representan al mínimo y máximo valor
del conjunto. Si en cambio, existen datos inferiores o superiores a dichos puntos, ellos se
ubican entre la barra y el círculo o asterisco que a su vez representan el mínimo o máximo
respectivamente. Estos valores son llamados valores extremos bajo la definición de
hallarse en el 2,5 por ciento extremo de una distribución normal con mediana y rango
intercuartos iguales a los calculados.
Así, el “boxplot” brinda ideas claras respecto a los siguientes aspectos:
1. La posición del conjunto de datos a través de la mediana
2. La concentración de conjunto de puntos a través de la longitud de la caja
3. Los valores extremos bajo la hipótesis de una distribución normal
4. Los valores mínimo y máximo
5. La longitud de las colas
Gráfico 2.2 Evolución del conjunto de las tasas jurisdiccionales de fecundidad adolescente
precoz. Años censales entre 1960 y 2001
6
Chaco
Chaco
Tasa (por mil)
5
4
3
2
1
0
N=
23
23
23
23
23
1960
1970
1980
1991
2001
Año
C. GRAFICO PARA VARIABLES CONTEXTUALES (temporales)
9) GRAFICO DE TENDENCIA (*También llamado Línea de Grafos)
Es un gráfico donde se muestra la variación de una variable a través del tiempo. Se trata
de un análisis diacrónico de la o las variables de la población, vinculando a una variable
contextual (tiempo) para observar evolutivamente su tendencia general y las oscilaciones
específicas.
13
La técnica de construcción es análoga a las ya señaladas para los otros gráficos: en la
absisa se ubica la variable contextual (en términos por ejemplo: de días, semanas, meses,
años, etc.) respetando el continuo temporal, y en la ordenada las frecuencias de cada
categoría a través de los distintos momentos temporales.
Lo que interesa es la forma que adopta la pendiente al crecer o decrecer la línea. Es usual
representar en un mismo gráfico diversas tendencias para efectuar comparaciones. En
este caso, interesa analizar las semejanzas o diferencias entre las líneas.
Ejemplo:
Evolución de las tasas de actividad y desocupación. Total de aglomerados urbanos desde
1974 a 2002 (Octubre)
Tasa de
Tasa de
Actividad
Desocupación
1974
40.1
3.4
1975
39.7
3.8
1976
38.7
4.4
1977
38.6
2.7
1978
39.0
2.3
1979
38.4
2.4
1980
38.5
2.5
1981
38.3
5.3
1982
38.5
4.6
1983
37.3
3.9
1984
37.9
4.4
1985
38.2
5.9
1986
38.7
5.2
1987
38.9
5.7
1988
39.4
6.1
1989
39.3
7.1
1990
39.0
6.3
1991
39.5
6.0
1992
40.2
7.0
1993
41.0
9.3
1994
40.8
12.1
1995
41.4
16.6
1996
41.9
17.3
1997
42.3
13.7
1998
42.1
12.4
1999
42.7
13.8
2000
42.7
14.7
2001
42.2
18.3
2002
42.9
17.8
Fuente: Encuesta Permanente de Hogares, datos extraidos de www.indec.gov.ar
Año
14
50
45
40
Tasa de
Actividad
35
30
Tasa de
Desocupación
25
20
15
10
5
20
02
20
00
19
98
19
96
19
94
19
92
19
90
19
88
19
86
19
84
19
82
19
80
19
78
19
76
19
74
0
Bibliografía consultada para la elaboración de la Ficha:
Binstock, Georgina, E. A. Pantelides (2004). Fecundidad adolescente. Diagnóstico
sociodemográfico, Informe final Estudio Colaborativo Multicéntrico sobre Embarazo
Adolescente coordinado, Becas Carrillo-Oñativia, Ministerio de Salud (Anexo
Metodológico), disponible en:
http://www.msal.gov.ar/htm/site/salud_investiga/pdf/informes/Binstock%20inf%20final%20f
ec%20adolescente.zip
Benson, O. (1974). El laboratorio de ciencia política, Buenos Aires, Amorrortu, Buenos Aires,
Cap. 2 (Cómo leer un cuadro: variedad de las variables) y 3 (Gráficos y diagramas.
Graficación de los datos. Punto: Barras compuestas), pp. 33-60 y 70-74
García Ferrando, M. (1995). Socioestadística. Introducción a la estadística en Sociología,
Madrid, Alianza Editorial, 2º Edición ampliada, Cap. 2 (Puntos 2.4.4. Línea de grafos y 2.5.
Otras técnicas de representación gráfica), pp. 71-79
Hernández Sampieri, R.; C. Fernández Collado y P. Baptista Lucio (2004). Metodología de
la investigación, México D.F., Mc. Graw Hill (3era edición)
INDEC, datos extraídos de http://www.indec.gov.ar
Peña, D. y J. Romo (1997). Introducción a la Estadística para las Ciencias Sociales,
Madrid, McGraw-Hill, Cap. 10 (Punto 10.3: Gráficos de medias y desviaciones. Diagrama
de caja múltiple), pp. 152-154.
Sautú, R. (1989) Ficha de Gráficos, Material de cátedra.
15
Descargar