Tema 2: Representaciones Gráficas.

Anuncio
Métodos Estadı́sticos de la Ingenierı́a
Tema 2: Representaciones Gráficas
Grupo B
Área de Estadı́stica e Investigación Operativa
Licesio J. Rodrı́guez-Aragón
Enero 2010
Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Gráficos para un Carácter Cualitativo
Diagrama de Rectángulos, Bar Plot . . . .
Diagramas de Rectángulos con R . . . . .
Diagrama de Sectores, Pie Chart. . . . . .
Diagrama de Sectores con R . . . . . . . . .
Pictograma . . . . . . . . . . . . . . . . . . . . .
Cartograma . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
4
5
6
7
8
9
Ordenación de datos de Carácter Cuantitativo
10
Intervalos y Marcas de Clase. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Ejemplo: Ingresos Anuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Gráficos para un Carácter Cuantitativo
Diagrama de Barras, Bar Plot. . . . . . . . . . . .
Diagrama de Barras con R . . . . . . . . . . . . . .
Histograma, Histogram. . . . . . . . . . . . . . . . .
Histograma con R . . . . . . . . . . . . . . . . . . . .
Polı́gonos de Frecuencias, Frequency Polygon .
Frecuencias Acumuladas, Ogive. . . . . . . . . . .
Tallo y Hojas, Stem and Leaf . . . . . . . . . . . .
Tallo y Hojas con R . . . . . . . . . . . . . . . . . . .
Box Plot . . . . . . . . . . . . . . . . . . . . . . . . . . .
Box Plot con R . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
14
15
16
17
18
19
20
21
22
23
Contenidos
Representaciones Gráficas para un Carácter Cualitativo.
– Rectángulos, Sectores, Pictogramas y Cartogramas.
– Bar Plot, Pie Chart, Pictograph and Cartograph.
Ordenación de datos de un Carácter Cuantitativo.
Representaciones Gráficas para un Carácter Cuantitativo.
– Diagrama de barras, tallo y hojas, histograma, polı́gono de frecuencias, diagramas de
frecuencias acumuladas, polı́gonos de frecuencias acumuladas y Box Plot.
– Bar Plot, Stem-and-leaf, Histogram, Frequency Polygon, Ogive, Box Plot
La Representación Gráfica de los datos contribuye a facilitar su “lectura” una vez
ordenados y agrupados.
Once the data have been sorted and grouped together, Plots and Charts makes it
easier to read them.
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 2 / 23
3 / 23
Gráficos para un Carácter Cualitativo
Diagrama de Rectángulos, Bar Plot
0.2
Frecuencia
0
0.0
0.1
5
Frecuencia
10
0.3
0.4
15
Sobre el eje de Abcisas se representan las distintas modalidades de un carácter cualitativo y se
levantan sobre ellos rectángulos de bases iguales, no solapados y cuya altura es proporcional a la
frecuencia Absoluta o Relativa de cada modalidad.
nd
Pr
Se
Su
nd
Formación
Pr
Se
Su
Formación
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 4 / 23
2
Diagramas de Rectángulos con R
Datos referentes a la formación de trabajadores de una empresa:
>
+
+
+
+
>
>
+
form<-c('nd','Pr','Pr','Se','Su','Pr','Pr','Se',
'Su','Se','Su','Se','Su','Se','Su','Pr','Pr',
'Pr','Pr','Se','Su','Se','Su','Se','Su','Se',
'Su','Pr','Pr','Pr','Pr','Pr','Pr','Pr','Pr',
'Se','Se')
barplot(table(form),xlab="Formación",ylab="Frecuencia")
barplot(table(form)/length(form),xlab="Formación",
ylab="Frecuencia")
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 5 / 23
Diagrama de Sectores, Pie Chart
Sobre un cı́rculo, se asigna a cada una de las modalidades un sector circular con amplitud
proporcional a la frecuencia (absoluta o relativa).
Amplitudi = 360◦ ×
ni
= 360◦ × fi
n
Pr
nd
Se
Su
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 6 / 23
3
Diagrama de Sectores con R
A chart made by plotting the numeric values of a set of quantities as a set of adjacent circular
wedges with arc lengths proportional to the total amount.
> pie(table(form))
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 7 / 23
Pictograma
Cada modalidad se representa mediante un dibujo de tamaño proporcional a la frecuencia
de la misma.
Todos los dibujos empleados son del mismo tamaño, a cada modalidad se le asignan tantos
dibujos o partes del mismo según su frecuencia.
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 8 / 23
4
Cartograma
Representación por medio de un mapa.
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 9 / 23
5
10 / 23
Ordenación de datos de Carácter Cuantitativo
Intervalos y Marcas de Clase
En las observaciones de un Carácter Cuantitativo puede ocurrir:
La variable estadı́stica tome pocos valores diferentes.
The statistical variable takes few different values.
Confeccionar la tabla de frecuencias ordenando los valores del carácter de menor a mayor:
Carácter Ci
C1
C2
..
.
Cm
Total
P
ni
n1
n2
..
.
Ni
N1 = n1
N2
..
.
nm
ni = n
Nm = n
P
fi
f1
f2
..
.
Fi
F1 = f1
F2
..
.
fm
fi = 1
Fm = 1
La variable estadı́stica tome muchos valores diferentes, caracteres cuantitativos continuos y
muestras de gran tamaño.
Agrupar los valores de la variable estadı́stica en Intervalos de Clase, Class Interval or Bin,
contiguos y elegidos convenientemente para perder la mı́nima información posible.
Los extremos de los intervalos de clase se denominan Extremos de Clase, bi , Class Limits, y
sus puntos medios Marcas de Clase, xi , Class Mark.
El número de Intervalos de Clase se elige entre 4 y 15 de forma que en cada intervalo haya al
menos 5 observaciones.
Los Intervalos de Clase no pueden solaparse, Class Intervals shouldn’t overlap.
Intervalo de Clase: [bi−1 , bi ).
Marca de Clase: xi =
bi−1 +bi
.
2
[b1 , b2 )
[b2 , b3 )
..
.
[bm−1 , bm ]
Total
xi
x1
x2
..
.
xm
P
ni
n1
n2
..
.
Ni
N1 = n1
N2
..
.
nm
ni = n
Nm = n
Licesio J. Rodrı́guez-Aragón
P
fi
f1
f2
..
.
Fi
F1 = f1
F2
..
.
fm
fi = 1
Fm = 1
Tema 2, M.E.I. – 11 / 23
6
Ejemplo: Ingresos Anuales
66814.19
61674.64
78121.21
69897.92
59618.82
42144.33
53451.35
28781.49
58590.90
25697.76
25697.76
16446.57
12334.92
52423.44
26725.67
35976.87 39060.60 13362.83
9867.94 35976.87 7195.37
45947.61 54479.26 43172.24
25697.76 51395.53 87372.40
71953.74 48311.80 6475.83
[bi−1 , bi )
[0, 20000)
[20000, 40000)
[40000, 60000)
[60000, 80000)
[80000, 100000]
Total
xi
10000
90000
ni
P
Ni
fi
30
P
ni = 30
Fi
1
fi = 1
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 12 / 23
13 / 23
Gráficos para un Carácter Cuantitativo
Diagrama de Barras, Bar Plot
0.3
Frecuencia
0.2
6
2
0.1
4
Frecuencia
8
0.4
10
0.5
Se utiliza para representar variables estadı́sticas no agrupadas, las alturas de las barras deben
ser proporcionales a las frecuencias, absolutas o relativas.
La suma de la altura de las barras deberá ser n o 1.
119.0
119.5
120.0
120.5
121.0
121.5
122.0
119.0
Nº Vueltas
119.5
120.0
120.5
121.0
121.5
122.0
Nº Vueltas
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 14 / 23
7
Diagrama de Barras con R
Número de vueltas completas en 1 m de barra roscada.
> pvuelta<-c(120, 121, 120, 119, 121, 120, 120, 119,
+ 120, 121,120, 120, 122, 120, 121, 120, 119,
+ 122, 120, 119)
> barplot(table(pvuelta),space=c(100,2))
> barplot(table(pvuelta)/length(pvuelta),space=c(100,2))
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 15 / 23
Histograma, Histogram
Se utiliza para representar las frecuencias absolutas o relativas cuando los datos están
agrupados, el área de los rectángulos será proporcional a las frecuencias.
La suma de las áreas deberá ser n o 1.
Densidades de Frecuencias: altura de los rectángulos.
hi =
ni
fi
, o bien hi =
bi+1 − bi
bi+1 − bi
Cuidado cuando la amplitud de los Intervalos de Clase no sean del mismo tamaño.
Histogram: The grouping of data into bins (spaced apart by the so-called class interval)
plotting the number of members in each bin versus the bin number.
1.0e−05
Densidad de Frecuencia
0.0e+00
5.0e−06
1.0e−05
5.0e−06
0.0e+00
Densidad de Frecuencia
1.5e−05
Histograma de Ingresos
1.5e−05
Histograma de Ingresos
0e+00
2e+04
4e+04
6e+04
8e+04
1e+05
0
Ingresos
20000
40000
60000
80000
Ingresos
Histogramas de los Ingresos Anuales. El área de cada rectángulo, es proporcional a la frecuencia
relativa, fi .
La suma de las áreas de los rectángulos es 1.
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 16 / 23
8
Histograma con R
>
+
+
+
+
+
>
+
+
>
>
>
>
>
Ingresos<-c(66814.195,42144.338,25697.767,35976.874,39060.606,
13362.839,61674.641,53451.356,16446.571,9867.943,35976.874,
7195.375,78121.212,28781.499,12334.928,459476.077,54479.266,
43172.249,69897.927,58590.909,52423.445,25697.767,51395.534,
87372.408,59618.820,25697.767,26725.678,71953.748,48311.802,
6475.837)
histograma<-hist(Ingresos,breaks=seq(0,100000,by=20000),
freq=FALSE,main="Histograma de Ingresos",
ylab="Densidad de Frecuencia")
histograma
histograma$breaks
histograma$counts
histograma$intensities
histograma$mids
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 17 / 23
9
Polı́gonos de Frecuencias, Frequency Polygon
Si los datos están sin agrupar, se obtienen uniendo los extremos de las barras.
6
2
4
Frecuencia
8
10
119.0
119.5
120.0
120.5
121.0
121.5
122.0
Nº Vueltas
Si los datos están agrupados, se obtiene uniendo los puntos medios superiores de los
rectángulos y en los extremos con los puntos medios de las alturas de los rectángulos. Área
bajo el polı́gono n o 1.
1.0e−05
5.0e−06
0.0e+00
Densidad de Frecuencia
1.5e−05
Histograma de Ingresos
−20000
0
20000
40000
60000
80000
100000
120000
Ingresos
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 18 / 23
10
Frecuencias Acumuladas, Ogive
0.6
0.4
Frecuencia Acumulada
10
0
0.0
0.2
5
Frecuencia Acumulada
15
0.8
20
1.0
En el caso de datos sin agrupar se utiliza el Diagrama de Frecuencias Acumuladas.
118
119
120
121
122
123
118
119
120
Nº Vueltas
121
122
123
Nº Vueltas
0.6
0.8
0
0.0
5
0.2
0.4
Frecuencia Acumulada
20
15
10
Frecuencia Acumulada
25
30
1.0
Si los datos están agrupados se utiliza el Polı́gono de Frecuencias Acumuladas.
−20000
0
20000
40000
60000
80000
100000
120000
−20000
Ingresos
0
20000
40000
60000
80000
100000
120000
Ingresos
Ogive: Any continuous cumulative frequency curve, such as the ones illustrated above in the
figures.
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 19 / 23
11
Tallo y Hojas, Stem and Leaf
Procedimiento semigráfico útil con menos de 50 datos.
Redondear los datos a dos o tres cifras significativas. Disponerlos en una tabla con dos columnas,
tallo y hojas.
Cada tallo se escribe sólo una vez. El número de hojas representa la frecuencia de cada clase.
0|67
1|0236
2|66679
3|669
4|2368
Ingresos Anuales
5|12349
6|027
7|028
8|7
El punto decimal se sitúa 4 posiciones a la derecha de |.
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 20 / 23
12
Tallo y Hojas con R
Menú Paquetes, Instalar Paquetes..., elegir Mirror e instalar UsingR.
> library(UsingR)
> ingresos <- cfb$INCOME[1:15]
> stem(ingresos)
The decimal point is 4 digit(s) to the right of the |
0
2
4
6
|
|
|
|
70236
69669
23
278
> ingresos
[1] 66814.195 42144.338 25697.767 35976.874 39060.606 13362.839 61674.641
[8] 53451.356 16446.571 9867.943 35976.874 7195.375 78121.212 28781.499
[15] 12334.928
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 21 / 23
13
Box Plot
Permite mostrar la distribución de los datos de una muestra. Está especialmente indicado para
detectar valores atı́picos, outliers.
Mediana, Median , lı́nea central, Q2 .
Primer y Tercer Cuartiles, Quartiles , lı́mites de la caja, Q1 , Q2 .
Ingresos Anuales Modificado
0e+00
20000
1e+05
40000
2e+05
3e+05
60000
4e+05
80000
Ingresos Anuales
Lı́mites superior e Inferior, LI = Q1 − 1.5(Q3 − Q1 ), LS = Q3 + 1.5(Q3 − Q1 ).
Se considerarán como valores atı́picos los valores fuera del intervalo (LI, LS).
Dibujar las lı́neas que van desde los extremos de la caja hasta el valor más extremo, no
atı́pico.
Ingresos Anuales Modificado
0e+00
20000
1e+05
40000
2e+05
3e+05
60000
4e+05
80000
Ingresos Anuales
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 22 / 23
14
Box Plot con R
library(UsingR)
ingresos <- cfb$INCOME[1:15]
boxplot(ingresos)
ingresos <- cfb$INCOME[1:16]
boxplot(ingresos)
0e+00
10000
1e+05
30000
2e+05
50000
3e+05
4e+05
70000
>
>
>
>
>
Licesio J. Rodrı́guez-Aragón
Tema 2, M.E.I. – 23 / 23
15
Descargar