distribución de frecuencias y representación gráfica

Anuncio
TEMA 2: DESCRIPCIÓN DE VARIABLES CUANTITATIVAS:
DISTRIBUCIÓN DE FRECUENCIAS Y REPRESENTACIÓN
GRÁFICA
● La naturaleza numérica de las variables cuantitativas
permite un tratamiento estadístico más elaborado que con
las variables cualitativas.
● Con
las
variables
cuantitativas
pueden
realizarse
operaciones matemáticas, lo que permite una descripción
más precisa y completa.
● En este tema estudiaremos la distribución de frecuencias y
su representación gráfica (como hemos hecho para las
variables cualitativas en el Tema 1) y en los siguientes
temas veremos otras formas de describir una variable
cuantitativa.
1
A) Variables Discretas
● La distribución de frecuencias para las variables discretas
es semejante a lo que hemos visto para el caso de las
variables cualitativas, ya que las categorías en que se
agrupan los datos vienen dadas de forma natural por los
valores que toma la variable.
Ejemplo 1:
Cien familias se han clasificado según el número de hijos,
resultando los siguientes datos:
Nº de Hijos
0
1
2
3
4
5
6
7
8
Nº de familias
11
13
20
25
14
10
4
2
1
N=100; k=9
2
Frecuencias absolutas:
n1=11; n2=13; n3=20; n4=25; n5=14; n6=10; n7=4; n8=2; n9=1
Frecuencias relativas:
f1 
11
13
20
 0,11; f 2 
 0,13; f 3 
 0,2
100
100
100
f4 
25
14
10
 0,25; f 5 
 0,14; f 6 
 0,1
100
100
100
f7 
4
2
1
 0,04; f 8 
 0,02; f 9 
 0,01
100
100
100
3
Distribución de frecuencias:
Categorías
ni
fi
0
11
0,11
1
13
0,13
2
20
0,2
3
25
0,25
4
14
0,14
5
10
0,1
6
4
0,04
7
2
0,02
8
1
0,01
N=100
1
La categoría más numerosa es la de familias con 3 hijos y la
menos frecuente es la de familias con 8 hijos
4
Diagrama de barras
Frecuencias relativas fi
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0
3
2
1
4
5
6
7
8
Frecuencias absolutas ni
30
25
20
15
10
5
0
0
1
2
3
4
5
5
6
7
8
● En general, las clases vienen ordenadas de forma
natural de menor a mayor por lo que tiene sentido
definir la distribución de frecuencias acumulada.
● Para
construir
la
distribución
de
frecuencias
acumulada hay que sumar a la frecuencia de cada
clase (absoluta o relativa) la de las clases anteriores.
● Los valores de la distribución de frecuencias
acumulada no decrecen.
● La información sobre los datos que proporcionan la
distribución de frecuencias y la distribución de
frecuencias acumulada es equivalente. Cada una
puede obtenerse a partir de la otra.
6
Ejemplo: Nº de hijos
Frecuencias
Frecuencias absolutas
Frecuencias
Frecuencias relativas
absolutas
acumuladas
relativas
acumuladas
ni
Ni
fi
Fi
0
11
11
0,11
0,11
1
13
24
0,13
0,24
2
20
44
0,2
0,44
3
25
69
0,25
0,69
4
14
83
0,14
0,83
5
10
93
0,1
0,93
6
4
97
0,04
0,97
7
2
99
0,02
0,99
8
1
100
0,01
1
Categorías
N=100
1
● El último valor de la distribución de frecuencias
absolutas acumuladas coincide con N.
● El último valor de la distribución de frecuencias
relativas acumuladas es 1 (salvo error de redondeo).
7
● La distribución de frecuencias acumulada nos
permite conocer la proporción (o el número) de
observaciones por debajo de cierto valor, entre dos
valores o por encima de una cantidad.
Ejemplo: Nº de hijos
- ¿Qué proporción de familias tiene menos de 2 hijos?
0,24
- ¿Cuántas familias tienen menos de 4 hijos? 69
- ¿Qué proporción de familias tiene más de 6 hijos?
0,03=1-0,97=0,01+0,02
- ¿Qué proporción de familias tiene más de 3 hijos pero
menos de 7? 0,28=0,14+0,1+0,04=0,97-0,69
8
Representación gráfica de la distribución de frecuencias
acumulada
Frecuencias relativas Fi
1.0
0.8
0.6
0.4
0.2
0.0
0
1
2
3
4
9
5
6
7
8
Ejercicio 3.2 de Peña y Romo
Los siguientes datos corresponden al número de
bibliotecarios en las bibliotecas públicas de las diferentes
provincias españolas:
4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2 5 3 2 2 5 3 3 8
12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7 12
(a)
Hallar la distribución de frecuencias relativas y
representarla mediante un diagrama de barras
(b)
Obtener
y
representar
la
distribución
de
frecuencias relativas acumuladas
(c)
¿Qué proporción de provincias tiene más de 7
bibliotecarios?
10
Frecuencias
Frecuencias absolutas
Frecuencias
Frecuencias relativas
absolutas
acumuladas
relativas
acumuladas
ni
Ni
fi
Fi
1
3
3
0,06
0,06
2
7
10
0,14
0,2
3
9
19
0,18
0,38
4
10
29
0,2
0,58
5
6
35
0,12
0,7
6
4
39
0,08
0,78
7
4
43
0,08
0,86
8
2
45
0,04
0,9
10
1
46
0,02
0,92
12
2
48
0,04
0,96
15
1
49
0,02
0,98
16
1
50
0,02
1
Bibliotecarios
11
Frecuencias relativas: fi
0.25
0.20
0.15
0.10
0.05
0.00
1
2
3
4
5
6
7
8
10 12 15 16
Frecuencias relativas acumuladas: Fi
1.0
0.8
0.6
0.4
0.2
0.0
1
2
3
4
5
6
7
8 10 12 15 16
12
- La
proporción
de
provincias
con
más
de
7
bibliotecarios es de 0,14
0,14=1-0,86=0,04+0,02+0,04+0,02+0,02
- La mayoría de las provincias
(62%) tiene 4
bibliotecarios o más: 0,62=1-0,38=
=0,2+0,12+0,08+0,08+0,04+0,02+0,04+0,02+0,02
- 4 es la clase más frecuente con una frecuencia relativa
de 0,2
- Más de la mitad de las provincias españolas (F4=0,58)
tiene menos de 5 bibliotecarios
- La proporción de provincias españolas que tienen
entre 5 y 7 bibliotecarios es de 0,28
0,28=0,12+0,08+0,08=0,86-0,58
13
B) Variables Continuas
● El análisis de la distribución de frecuencias de las variables
cuantitativas continuas es más complejo que el de las
variables cualitativas o discretas.
● Las categorías o clases no vienen dadas de forma natural
sino que deben elegirse.
● Tendremos que dividir el recorrido (o conjunto de posibles
valores de la variable) en intervalos que no se solapen.
● El punto central de cada intervalo se llama marca de clase
(ci).
● El resto de los elementos y conceptos de la distribución de
frecuencias de una variable continua es equivalente a lo
visto en las cualitativas y discretas.
14
Ejemplo:
La variable GTINE representa el gasto total. Los datos
correspondientes a 75 hogares son:
81.861 105.628 110.690 134.246 226.177 273.870 142.376 309.964 101.431
276.273 662.803 493.728 308.787 254.420 172.928 142.678 510.223 158.829
278.854 168.620 176.204 179.108 113.074 876.161 64.425 112.352 255.465
321.307 434.375 707.444 90.460 89.498 466.862 87.112 309.829 247.425
427.812 195.740 257.638 176.656 285.935 450.571 56.292 306.488 156.772
531.099 475.760 316.500 279.586 48.586 96.670 256.548 514.330 161.595
228.368 638.366 442.162 65.060 160.580 197.390 152.077 228.808 76.920
255.196 241.986 417.103 752.436 352.708 259.472 225.388 174.341 308.705
455.125 122.696 479.791
- Tomando intervalos o clases iguales y de tamaño
100.000 pesetas, vamos a calcular la distribución de
frecuencias.
- Por
ejemplo,
el
primer
intervalo
0<GTINE≤100.000 y la marca de clase c1=50.000.
- El número de intervalos o clases será k=9.
15
será:
Gasto Total (GTINE ó G)
Frecuencias
Frecuencias absolutas
Frecuencias
Frecuencias relativas
absolutas
acumuladas
relativas
acumuladas
(en miles de ptas.)
ni
Ni
fi
Fi
0<G≤100
10
10
0,13
0,13
100<G≤200
22
32
0,29
0,42
200<G≤300
17
49
0,23
0,65
300<G≤400
8
57
0,11
0,76
400<G≤500
10
67
0,13
0,89
500<G≤600
3
70
0,04
0,93
600<G≤700
2
72
0,03
0,96
700<G≤800
2
74
0,03
0,99
800<G≤900
1
75
0,01
1
Gasto
N=75
1
16
- La proporción de familias que gasta 200.000 pesetas o
menos es de 0,42.
- La proporción de familias que gasta más de 600.000
pesetas es 0,07=1-0,93=0,03+0,03+0,01.
- La proporción de familias que gasta más de 100.000
pero no más de 300.000 es 0,52=0,29+0,23=0,65-0,13
17
Representación gráfica de la distribución de frecuencias
1) El Histograma
● El histograma es un gráfico que representa las
frecuencias mediante áreas. Sobre cada clase (o rango
de valores) se dibuja un rectángulo cuyo área
representa la frecuencia (absoluta o relativa) de esa
clase.
● Cuando las clases (o intervalos) en que dividimos los
datos son de distinta longitud el eje vertical no tiene
sentido. Como la frecuencia es el área de cada
rectángulo, si dibujamos rectángulos con distinta base
su mayor o menor altura no nos da información.
(Ver Ejemplo de GTINE en Figura 3.4 de Peña y
Romo)
18
● Cuando las clases (o intervalos) son de la misma
longitud, las frecuencias son proporcionales a las
alturas de los rectángulos. La altura nos informa
sobre la densidad o concentración de datos en ese
intervalo:
- donde los rectángulos son más altos hay más datos de
la variable
- donde los rectángulos son más bajos los datos de la
variable son más escasos
Ejemplo: GTINE (distribución frecuencias pag.16)
Frecuencias relativas (%)
Histograma de GTINE
30
25
20
15
10
5
0
0
0,2
0,4
0,6
GTINE
19
0,8
1
(X 1,E6)
● Los rectángulos se dibujan contiguos (a diferencia del
diagrama de barras o de Pareto) para transmitir la
idea de variable continua.
● La
forma
del
histograma
es
la
misma
si
representamos frecuencias absolutas o relativas, sólo
cambia la escala del eje vertical.
Ejemplo: GTINE
Frecuencias absolutas
Histograma de GTINE
24
20
16
12
8
4
0
0
0,2
0,4
0,6
GTINE
0,8
1
(X 1,E6)
Comparar con el histograma de frecuencias relativas
de la página anterior.
20
● La forma del histograma sí que depende de:
- anchura de las clases o tamaño de los intervalos
- elección del punto donde empieza la primera clase
Ejemplo: GTINE
Frecuencias relativas (%)
Histograma de GTINE
18
15
12
9
6
3
0
0
0,2
0,4
0,6
0,8
GTINE
1
(X 1,E6)
● ¿Cómo elegimos los intervalos (o el número de clases)?
- Empezar con pocas clases y ver (en el histograma) si
con más clases tenemos más información (ver Figura
3.6 de Peña y Romo de la variable NOTAS)
- Si tenemos N observaciones elegir el número de clases
igual al entero más próximo a
GTINE como N=75 entonces
21
N (En el ejemplo de
N  75  8,6  9 )
● ¿Por
qué
nos
preocupa
tanto
la
forma
del
histograma? Porque la forma del histograma refleja
propiedades importantes de la variable.
●
El histograma (al igual que el diagrama de barras)
nos muestran características de una variable que
pueden apreciarse visualmente:
- Se puede ver si la distribución es simétrica alrededor
de un eje central o si es asimétrica
Ejemplo:
GTINE es asimétrica a la derecha (ver pag. 19)
NOTAS es simétrica alrededor del 5 (ver Figura 3.6
de Peña y Romo)
- Se puede ver si presenta un solo máximo o pico o
moda y es, por tanto, unimodal o si presenta varias
modas
22
- Algunas de las formas más frecuentes de histogramas
son (ver Figura 3.8 de Peña y Romo):
o Unimodal simétrico: se suele dar en variables en
las que hay una gran cantidad de observaciones
con valores intermedios y algunos valores en
ambos extremos (notas, peso, altura…)
o Unimodal asimétrico a la derecha: se da en
variables que tienen una gran cantidad de
observaciones pequeñas o intermedias y algunos
datos grandes (gasto, ingreso…)
o Unimodal asimétrico a la izquierda: variables
con muchas observaciones de valor alto o
intermedio (esperanza de vida en los distintos
países)
o Bimodal simétrico: suele aparecer cuando los
datos son de 2 grupos heterogéneos y conviene
estudiarlos por separado (un objeto que se
hiciera en dos tamaños distintos en cantidades
iguales)
23
● El
histograma
representar
se
puede
frecuencias
emplear
acumuladas
también
(absolutas
relativas)
Ejemplo: GTINE
Histograma de GTINE
100
F (%)
80
60
40
20
0
0
0,2
0,4
0,6
GTINE
24
0,8
para
1
(X 1,E6)
o
2) El polígono de frecuencias
● El polígono de frecuencias es una representación
gráfica de las frecuencias equivalente al histograma.
● Se obtiene a partir del histograma uniendo los centros
de la base superior de sus rectángulos.
Ejemplo: GTINE
Frecuencias relativas (%)
Histograma de GTINE
30
25
20
15
10
5
0
0
0,2
0,4
0,6
0,8
GTINE
1
(X 1,E6)
Frecuencias relativas (%)
Polígono de frecuencias de GTINE
30
25
20
15
10
5
0
0
0,2
0,4
0,6
GTINE
25
0,8
1
(X 1,E6)
● Se puede obtener para frecuencias acumuladas a
partir del histograma de frecuencias acumuladas.
● La diferencia fundamental entre el histograma y el
polígono es que éste proporciona una representación
más suavizada de la distribución de frecuencias.
3) El diagrama de tallos y hojas
● Nos permite obtener simultáneamente la distribución
de frecuencias de la variable y su representación
gráfica.
● Para construirlo hay que separar en cada dato el
último dígito de la derecha (la hoja) del resto de las
cifras (el tallo).
● Los tallos aparecen a la izquierda de una línea
vertical y a la derecha de cada uno anotamos las
cifras finales (hojas) de todos los datos de cada clase.
26
Ejemplo:
Se tienen datos del rendimiento anual (en %) de unas
acciones a lo largo de 30 años:
-3
17
-13 -10 20
15
3
-2
41
-22
21
53
10 15
25
31
-1
10
17
4
26
-13 11
21
6
-14 -35
-1 28
18
-3
5
-2
2
-1
4
3
3
-0
3
2
1
0
3
4
6
1
0
0
1
2
0
1
1
3
1
4
1
5
3
27
0
1
5
5
5
8
7
6
7
8
● Al igual que el histograma o el polígono, el diagrama nos
proporciona una impresión visual del número de
observaciones de cada clase.
● Tiene la ventaja de que al darnos un mayor detalle nos
permite recuperar los datos, lo que no puede hacerse
con el histograma o el polígono.
● Con conjuntos de datos muy grandes puede no resultar
informativo porque las clases tengan demasiados datos,
aunque siempre se pueden subdividir
En el ejemplo en lugar de poner los valores de 10 en 10,
podemos cogerlos de 5 en 5, es decir, cada línea
podemos dividirla en 2 (en vez de 10 a 19, hacer de 10 a
14 y de 15 a 19).
28
Ejemplo: GTINE
Stem-and-Leaf Display for GTINE: unit = 10000,0
represents 120000,0
10
32
(17)
26
18
8
5
3
1
1|2
0|4566788899
1|0011123445556667777799
2|22224455555577778
3|00000125
4|1234556779
5|113
6|36
7|05
8|7
La columna situada a la izquierda nos da las
frecuencias absolutas acumuladas de arriba hacia
abajo y de abajo hacia arriba hasta llegar al valor
entre paréntesis que es frecuencia de la clase que
contiene el dato central.
29
Ejercicio 3.6 (Peña y Romo)
Los datos de la variable G4 (Tabla 2.1) miden el gasto en
menaje de 75 hogares:
a,b) Construir la distribución de frecuencias y representarla
con un histograma.
Frequency Tabulation for G4
-------------------------------------------------------Lower
Upper
Class Limit
Limit
ci
ni
fi
Ni
Fi
-------------------------------------------------------at or below
0
6
0,0800
6
0,0800
1
0
14000
7000 40
0,5333
46
0,6133
2
14000
28000
21000
9
0,1200
55
0,7333
3
28000
42000
35000
8
0,1067
63
0,8400
4
42000
56000
49000
6
0,0800
69
0,9200
5
56000
70000
63000
2
0,0267
71
0,9467
6
70000
84000
77000
1
0,0133
72
0,9600
7
84000
98000
91000
1
0,0133
73
0,9733
8
98000 112000 105000
1
0,0133
74
0,9867
9 112000 126000 119000
1
0,0133
75
1,0000
Histogram for G4
percentage
80
60
40
20
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
(X 10000)
G4
30
Histogram for G4
percentage
100
80
60
40
20
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
(X 10000)
G4
c) Marque en el histograma la proporción de valores de G4
menores que 40.000 pesetas ¿Qué porcentaje de las
observaciones suponen esos datos?
Algo más del 80% (el 84%)
---------------------------------------------------Lower
Upper
Class Limit
Limit
ci
ni
fi
Ni
Fi
---------------------------------------------------at or below
0
6
0,0800
6 0,0800
1
0
10000
5000 32
0,4267 38 0,5067
2
10000
20000
15000 13
0,1733 51 0,6800
3
20000
30000
25000 7
0,0933 58 0,7733
4
30000
40000
35000 5
0,0667 63 0,8400
5
40000
50000
45000 2
0,0267 65 0,8667
6
50000
60000
55000 5
0,0667 70 0,9333
7
60000
70000
65000 1
0,0133 71 0,9467
8
70000
80000
75000 1
0,0133 72 0,9600
9
80000
90000
85000 0
0,0000 72 0,9600
10
90000 100000
95000 1
0,0133 73 0,9733
11 100000 110000 105000 1
0,0133 74 0,9867
12 110000 120000 115000 0
0,0000 74 0,9867
13 120000 130000 125000 1
0,0133 75 1,0000
31
frecuencias relativas (%)
Histograma de G4
60
50
40
30
20
10
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
(X 10000)
G4
Histograma de G4
100
F (%)
80
60
40
20
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
(X 10000)
G4
32
e) Marcar en el histograma el área correspondiente a las
observaciones entre 50.000 y 70.000 pesetas. ¿Qué proporción
representan? ¿Cómo obtendría a partir de las frecuencias
acumuladas esa proporción?
Son el 8% (0,08=0,0667+0,0133=0,9467-0,8667)
f) ¿Qué porcentaje de hogares tiene un gasto en menaje
superior a 80.000 pesetas?
El 4% (0,04=1-0,96=0,0133x3)
g) ¿Cómo es la distribución de G4?
Es asimétrica a la derecha
h) Dibuje el diagrama de tallos y hojas
33
Stem-and-Leaf Display for G4: unit = 1000,0 1|2 = 12000,0
(38)
37
24
17
12
10
5
0|00000000000011122222333344456667888889
1|0001233356689
2|0444889
3|33355
4|69
5|02249
6|7
HI|79828,0 91068,0 104452,0 120444,0
Datos de G4:
780 4296 3044 52016 13128 2392 8536 35800 4000 0
28432 16856 50800 6188 8544 24441 33012 28999 16440
360 2268 0 10764 0 0 1960 91068 24000 35136 46000
2144 3524 104452 2480 1528 19516 0 0 18191 3172 13936
8300 8660 4524 6256 10346 11820 20468 33496 192 9000
29856 24685 3848 54228 120444 67379 10048 288 216
8099 7620 5428 15360 2028 33220 12212 52768 49896
6752 840 79828 59280 1692 13782
34
Ejercicio 3.14 (Peña y Romo)
La variable TMUN (Tabla 2.1) expresa el tamaño del
municipio: 1 menos de 2000 habitantes, 2 entre 2000 y 10000,
3 entre 10000 y 50000 y 4 capitales de provincia o con más de
50000.
a, b) Obtener la distribución de frecuencias absolutas,
relativas y acumuladas.
TMUN
ni
Ni
fi
Fi
1
4
4
0,0533
0,0533
2
9
13
0,12
0,1733
3
14
27
0,1867
0,36
4
48
75
0,64
1
4
n
i
4

 N  75
i 1
i 1
35
fi  1
frecuencias relativas (%)
c) Dibujar el histograma de la distribución
Histograma de TMUN
80
60
40
20
0
0
1
2
3
4
TMUN
d) ¿Qué tipo de simetría o asimetría presenta?
Asimetría a la izquierda
Datos de TMUN:
4 4 4 4 4 4 2 4 4 4 4 3 3 4 1 4 4 3 4 2 3 4 3 4 3 4 2
4 4 1 2 3 4 2 4 4 2 4 4 4 4 4 2 4 4 3 4 4 4 3 4 3 4 4
3 4 4 4 2 1 4 3 1 3 4 4 2 4 3 4 4 4 4 4 4
36
Documentos relacionados
Descargar