español

Anuncio
Grado en Ingeniería.
Asignatura: Estadística.
Tema 1: Estadística Descriptiva.
Estadística Descriptiva. Índice
Introducción.
Tipos de datos.
Tabla de frecuencias.
Análisis gráficos.
Variables cualitativas:
Diagrama de barras, diagrama de tarta o pastel.
Diagrama de Pareto.
Variables cuantitativas:
Transversales: histograma, diagrama de caja.
Temporales: gráfico de la serie.
Medidas analíticas:
Medidas de centralización: media, mediana.
Medidas de dispersión: varianza, desviación típica, coeficiente de variación,
rango intercuartílico
Medidas de forma: coeficiente de asimetría y coeficiente de curtosis.
Cuartiles, percentiles.
Transformaciones.
Dos variables.
Número de transparencia: 2
Ingeniería de grado. Estadística. Tema 1
Introducción
Fuente Imagen: LA ESTADISTICA EN COMIC de GONICK, LARRY y SMITH, WOOLLCOTT
Número de transparencia: 3
Ingeniería de grado. Estadística. Tema 1
Introducción
La siguiente tabla presenta la nota de estadística de 400 personas.
7,5
5,1
5,2
6,1
6,6
6,0
3,2
1,6
3,4
3,3
5,9
5,6
7,1
9,2
5,3
4,4
3,9
6,2
4,4
2,9
2,2
5,8
3,1
5,3
4,4
7,4
3,0
6,3
6,3
7,0
5,2
4,7
4,3
5,1
5,1
6,8
3,0
4,1
6,4
5,1
4,5
6,7
5,5
8,3
5,3
2,7
5,5
3,2
5,3
4,6
5,1
3,1
6,4
3,8
4,3
4,4
5,1
3,4
5,7
7,0
6,3
6,0
4,0
2,4
6,1
7,4
2,7
5,4
7,0
5,8
3,3
7,8
4,3
5,5
5,4
3,1
2,7
7,7
5,6
5,6
Número de transparencia: 4
6,6
2,1
6,3
3,8
6,3
6,8
6,0
4,9
6,6
6,1
3,1
3,7
7,1
5,2
6,1
5,3
4,6
6,8
5,6
5,6
7,0
3,0
4,4
5,3
3,4
7,7
4,3
3,3
4,3
4,8
5,9
7,3
7,1
6,3
5,2
5,1
2,7
4,4
5,9
7,5
7,8
6,9
6,3
5,7
5,8
5,9
4,0
3,2
4,1
5,0
4,5
3,1
5,3
3,2
6,6
2,9
5,9
5,8
4,5
3,6
6,4
7,6
6,4
7,5
3,4
4,2
2,9
7,4
3,6
4,0
5,9
2,3
3,3
6,9
5,2
6,4
4,4
4,4
3,8
4,6
3,7
3,9
6,0
6,7
3,8
5,5
7,3
4,8
4,6
4,3
4,7
6,5
3,1
3,7
8,8
5,6
4,9
3,8
5,0
3,0
2,9
5,7
6,0
5,4
4,9
3,5
3,5
7,4
6,7
8,8
7,1
6,6
4,2
4,3
8,4
5,4
5,3
8,0
5,8
6,9
7,6
5,5
4,5
4,6
6,2
5,0
6,7
4,5
4,2
6,3
3,6
5,2
2,7
3,2
4,1
5,6
3,1
6,4
5,5
5,7
3,5
2,4
5,1
5,0
3,8
9,3
4,8
4,5
3,8
5,7
7,1
4,2
2,5
7,0
4,1
6,0
7,5
1,5
4,2
4,0
4,5
5,7
7,2
5,2
5,4
4,0
3,3
5,7
4,5
4,2
3,2
5,2
6,6
2,1
3,2
6,2
5,6
4,2
3,6
4,8
7,1
5,5
5,2
5,2
6,2
6,7
6,8
6,0
5,5
5,1
4,5
3,7
3,9
7,4
4,9
5,0
6,1
3,9
6,7
3,4
5,8
3,3
1,6
5,6
3,6
4,8
3,2
5,7
6,4
3,7
3,8
7,7
2,1
5,1
4,1
3,6
7,6
7,7
5,8
3,9
3,8
4,3
4,6
4,1
6,5
7,1
4,1
2,8
7,8
5,0
6,5
5,5
6,1
5,7
6,7
6,4
5,1
5,8
4,9
3,7
4,0
6,3
6,2
3,5
7,2
4,5
1,9
4,9
4,0
6,5
5,5
5,1
5,7
5,5
4,4
4,2
5,5
7,3
6,5
4,3
3,2
4,8
5,2
4,0
4,0
2,6
5,3
4,6
4,1
7,5
3,3
5,7
3,7
6,3
6,0
6,3
4,5
7,4
5,6
4,9
5,9
4,2
3,7
4,4
5,3
6,1
9,3
6,0
5,3
6,0
5,8
7,4
3,3
6,0
1,8
8,7
5,9
3,0
4,3
2,7
4,5
5,5
2,5
4,7
5,5
4,7
5,9
1,5
6,5
6,4
4,7
5,4
5,3
3,9
5,3
5,7
6,1
5,9
3,8
4,4
La observación de esta lista de
datos no permite extraer ninguna
información fácilmente, siendo
difícil detectar cualquier patrón de
variabilidad o estructura de los
datos.
La Estadística Descriptiva
proporciona las herramientas
para resumir, analizar y sacar
conclusiones de un conjunto de
datos.
La Estadística Descriptiva utiliza,
tablas, gráficos y resúmenes
numéricos.
Ingeniería de grado. Estadística. Tema 1
Introducción
La Estadística Descriptiva utiliza, tablas, gráficos y resúmenes
numéricos.
Frequency Tabulation for Edades
22
13
50
25
15
48
57
49
38
69
64
41
39
44
4
1
22
52
78
4
14
24
60
17
31
80
19
6
43
29
56
29
61
9
9
37
21
28
48
0
53
72
52
30
34
59
2
6
70
15
62
0
56
81
59
26
29
17
46
36
37
79
3
19
64
5
70
80
80
28
65
70
20
59
32
81
67
29
14
17
1
1
45
59
8
32
61
50
13
5
35
8
39
35
78
27
14
17
71
82
7
49
51
58
15
29
46
23
56
54
18
43
14
38
20
81
52
27
71
12
81
30
72
77
42
18
52
37
77
18
66
63
29
79
22
63
18
13
24
60
12
68
52
70
0
67
42
21
44
22
72
48
17
70
52
16
31
2
48
70
66
1
78
80
19
56
23
80
14
8
73
36
3
60
51
19
33
77
50
57
11
12
79
0
79
69
82
19
44
18
30
75
74
82
44
78
23
59
78
77
38
19
4
55
77
36
63
18
64
10
17
20
81
18
40
50
31
11
56
53
48
20
61
52
6
12
33
56
20
46
71
36
68
12
8
69
4
51
42
78
55
15
56
43
76
14
21
56
46
73
44
40
46
45
52
18
62
56
60
45
7
37
67
41
56
13
1
53
66
76
0
74
16
12
55
42
2
65
2
38
12
75
56
7
75
62
36
70
26
22
77
5
10
46
28
53
63
43
8
47
77
62
60
11
76
9
45
82
45
73
6
44
70
35
4
39
1
30
14
60
75
9
33
0
35
6
16
74
38
31
62
72
60
48
35
34
17
81
42
51
46
30
25
10
26
23
28
65
26
18
74
-------------------------------------------------------------------------------Lower
Upper
Relative
Cumulative Cum. Rel.
Class
Limit
Limit
Midpoint
Frequency Frequency Frequency
Frequency
-------------------------------------------------------------------------------at or below
0,0
0
0,0000
0
0,0000
1
0,0
10,0
5,0
0
0,0000
0
0,0000
2
10,0
20,0
15,0
0
0,0000
0
0,0000
3
20,0
30,0
25,0
1
0,0025
1
0,0025
4
30,0
40,0
35,0
158
0,3950
159
0,3975
5
40,0
50,0
45,0
233
0,5825
392
0,9800
6
50,0
60,0
55,0
8
0,0200
400
1,0000
7
60,0
70,0
65,0
0
0,0000
400
1,0000
8
70,0
80,0
75,0
0
0,0000
400
1,0000
9
80,0
90,0
85,0
0
0,0000
400
1,0000
10
90,0
100,0
95,0
0
0,0000
400
1,0000
above
100,0
0
0,0000
400
1,0000
-------------------------------------------------------------------------------Mean = 41,51
Standard deviation = 4,23908
24
8
24
58
78
30
39
80
32
27
1
50
13
26
59
79
64
5
43
27
64
18
74
43
55
3
82
64
59
3
12
21
69
31
58
46
24
0
24
Summary Statistics for Edades
Count = 400
Average = 41,51
Median = 42,0
Variance = 17,9698
Standard deviation = 4,23908
Minimum = 28,0
Maximum = 57,0
Range = 29,0
Lower quartile = 39,0
Upper quartile = 44,0
Interquartile range = 5,0
Skewness = 0,137057
Kurtosis = 0,181614
Resumen numérico
Edades
150
Frecuencia
120
Número de transparencia: 5
90
60
30
0
26
36
46
Años
Ingeniería de grado. Estadística. Tema 1
56
66
Software
Numeroso software a tu disposición para realizarlo de una forma
sencilla: Statgraphics, SPSS, R, SAS,...
Número de transparencia: 6
Ingeniería de grado. Estadística. Tema 1
Algunas Definiciones
A la hora de realizar cualquier estudio estadístico, hay que tener en
cuenta:
Población: es el conjunto de individuos (personas, animales o
cosas) sobre el cual estamos interesados en sacar conclusiones.
Normalmente este conjunto es demasiado grande para poder
abarcarlo.
Muestra: es un subconjunto de la población al que tenemos acceso y
sobre el que realmente hacemos las observaciones.
Variable: es la característica observable que varía entre los
individuos de la población:
Tiempo de vida de las piezas.
Número de piezas fabricadas en un día.
Calidad de las piezas (buena, regular, mala)
Datos: valores observados de la variable.
Número de transparencia: 7
Ingeniería de grado. Estadística. Tema 1
Tipos de datos
Podemos clasificar las variables como:
Cualitativas. Si sus valores no son números.
Cuantitativas. Sus valores son numéricos (tiene sentido hacer
operaciones algebraicas con ellos):
Transversales: Tomadas en el mismo instante de tiempo o en tiempos
equivalentes.
Temporales: Evolución de una variable a lo largo del tiempo.
Necesitamos conocer el tipo de variable para poder
utilizar la herramienta estadística adecuada.
Número de transparencia: 8
Ingeniería de grado. Estadística. Tema 1
Estadística Descriptiva. Índice
Introducción.
Tipos de datos.
Tabla de frecuencias.
Análisis gráficos.
Variables cualitativas:
Diagrama de barras, diagrama de tarta o pastel.
Diagrama de Pareto.
Variables cuantitativas:
Transversales: histograma, diagrama de caja.
Temporales: gráfico de la serie.
Medidas analíticas:
Medidas de centralización: media, mediana.
Medidas de dispersión: varianza, desviación típica, coeficiente de variación,
rango intercuartílico.
Medidas de forma: coeficiente de asimetría y coeficiente de curtosis.
Cuartiles, percentiles.
Transformaciones.
Dos variables.
Número de transparencia: 9
Ingeniería de grado. Estadística. Tema 1
Tabla de frecuencias: Variables cualitativas
Se pregunta a 1000 clientes de un hotel sobre su grado de satisfacción.
Satisfacción
Bastante satisfecho
Bastante satisfecho
Bastante satisfecho
Muy Satifecho
Bastante satisfecho
Muy Satifecho
Medianamente satisfecho
Bastante satisfecho
Bastante satisfecho
Medianamente satisfecho
Bastante satisfecho
Bastante satisfecho
Bastante satisfecho
Muy Satifecho
Bastante satisfecho
Bastante satisfecho
Bastante satisfecho
Descontento
Bastante satisfecho
Bastante satisfecho
Bastante satisfecho
Muy Satifecho
Bastante satisfecho
Bastante satisfecho
Bastante satisfecho
….
Número de transparencia: 10
Muy Satifecho
Bastante satisfecho
Medianamente satisfecho
Bastante satisfecho
Muy Satifecho
Descontento
Descontento
Bastante satisfecho
Bastante satisfecho
Bastante satisfecho
Descontento
Muy Satifecho
Bastante satisfecho
Descontento
Bastante satisfecho
Bastante satisfecho
Muy Satifecho
Medianamente satisfecho
Bastante satisfecho
Bastante satisfecho
Bastante satisfecho
Bastante satisfecho
Medianamente satisfecho
Medianamente satisfecho
Medianamente satisfecho
….
Bastante satisfecho
Medianamente satisfecho
Medianamente satisfecho
Medianamente satisfecho
Muy Satifecho
Bastante satisfecho
Bastante satisfecho
Descontento
Muy Satifecho
Bastante satisfecho
Descontento
Medianamente satisfecho
Descontento
Muy Satifecho
Descontento
Bastante satisfecho
Muy Satifecho
Bastante satisfecho
Medianamente satisfecho
Bastante satisfecho
Muy Satifecho
Medianamente satisfecho
Descontento
Medianamente satisfecho
Bastante satisfecho
….
Bastante satisfecho
Bastante satisfecho
Bastante satisfecho
Bastante satisfecho
Muy Satifecho
Bastante satisfecho
Medianamente satisfecho
Bastante satisfecho
Bastante satisfecho
Bastante satisfecho
Descontento
Bastante satisfecho
Bastante satisfecho
Descontento
Muy Satifecho
Bastante satisfecho
Bastante satisfecho
Bastante satisfecho
Muy Satifecho
Muy Satifecho
Bastante satisfecho
Muy Satifecho
Bastante satisfecho
Bastante satisfecho
Medianamente satisfecho
….
Ingeniería de grado. Estadística. Tema 1
Variables Cualitativas. Tabla de frecuencias
Los valores que puede tomar la variable son denominados clases.
La tabla de frecuencia asocia a cada clase o valor de la variable
su:
Frecuencia absoluta. Número de individuos en la clase.
Frecuencia relativa. Es la proporción de individuos que
pertenecen a cada clase sobre el total de la muestra.
Frequency Table for Satisfaccion
----------------------------------------------------------------------------------------------Relative
Cumulative Cum. Rel.
Value
Frequency Frequency Frequency
Frequency
----------------------------------------------------------------------------------------------Descontento
120
0,1200
120
0,1200
Medianamente contento
160
0,1600
280
0,2800
Bastante contento
540
0,5400
820
0,8200
Muy contento
180
0,1800
1000
1,0000
-----------------------------------------------------------------------------------------------
¿Cuántos individuos están descontentos?
¿Cuál es la clase más observada?
Número de transparencia: 11
Ingeniería de grado. Estadística. Tema 1
Tabla de frecuencias. Variables cualitativas
Supongamos que se observa el retraso en destino de 219 autobuses,
medido en minutos.
Retraso autobuses
4,71
4,76
5,08
3,42
1,38
3,53
6,8
6,17
5
5,21
4,54
4,9
5,36
6,58
6,83
5,98
4,7
4,34
4,14
4,74
4,4
5,83
1,86
3,08
4,94
Número de transparencia: 12
6,42
5,48
1,96
6,06
2,33
6,81
6,24
4,26
3,55
4,81
6,07
4,77
2,84
4,89
4,68
5,27
5,41
6,97
4,16
6,05
5,9
8,08
3,55
5,93
6,21
3,45
1,95
5,12
5,53
3,68
5,41
4,12
6,92
5,26
3,19
6,54
4,23
5,41
4,83
6,1
4,19
5,98
4,38
6,05
6,49
5,26
4,58
4,24
6,27
3,4
5,55
3,53
5,08
5,64
3,18
6,32
4,49
3,05
2,48
4,43
4,31
3,6
6,69
8,04
2,84
4,95
4,94
1,04
5,17
1,95
1,99
4,69
3,37
5,86
6,65
14,06
13,68
13,16
16,27
12,57
14,87
14,45
18,05
12,14
18,58
13,57
17,82
17,13
15,66
18,2
16,55
14,57
14,15
18,5
15,02
15,04
21,32
13,85
11,84
17,14
14,5
11,52
11,76
19,25
15,77
13,35
14,81
19,31
15,61
13,65
14,3
14,23
12,84
14,84
15,06
12,61
13,1
14,53
10,6
12,69
14,55
11,73
14,72
20,86
13,63
15,3
20,98
14,84
13,12
14,22
14,57
15,43
13,72
16,91
12,67
16,87
17,35
18,4
20,37
14,32
14,07
20,22
22,4
14,73
13,39
13,33
22,1
17,22
20,26
19,03
14,12
9,07
14,68
12,74
15,71
15,54
11,25
13,46
12
10,71
16,09
15,41
15,95
15,97
16,62
14,66
14,8
15,09
19,04
11,55
15,4
9,46
16,02
8,07
16,69
8,83
9,25
9
8,62
8,49
8,52
8,66
9,05
8,66
8,63
8,7
9,16
9,45
8,68
8,92
9,07
8,39
8,54
8,99
Ingeniería de grado. Estadística. Tema 1
Variables cuantitativas. Tabla de frecuencia
Retrasos
4,71
4,76
5,08
3,42
1,38
3,53
6,8
6,17
5
5,21
4,54
4,9
5,36
6,58
6,83
5,98
4,7
4,34
4,14
4,74
4,4
5,83
1,86
3,08
4,94
….
Dividimos el recorrido (valor máximo-valor mínimo) en
clases.
A cada clase le asociamos frecuencia absoluta y frecuencia
relativa.
También el orden lógico de las clases permite definir la
frecuencia acumulada absoluta y frecuencia acumulada
relativa.
Clases
(0,4]
(4,8]
(8,12]
(12,16]
(16,20]
(20,24]
Número de transparencia: 13
Marca de
clase
2
6
10
14
18
22
Frecuencia Frecuencia Frec. Acum. Frec. Acum.
Absoluta
Relativa
Absoluta
Relativa
25
0,1142
25
0,1142
73
0,3333
98
0,4475
33
0,1507
131
0,5982
58
0,2648
189
0,863
22
0,1005
211
0,9635
8
0,0365
219
1
219
1
Ingeniería de grado. Estadística. Tema 1
Variables cuantitativas. Tabla de frecuencia
¿Cuántos autobuses se retrasan menos de 8 minutos?
Retrasos
4,71
4,76
5,08
3,42
1,38
3,53
6,8
6,17
5
5,21
4,54
4,9
5,36
6,58
6,83
5,98
4,7
4,34
4,14
4,74
4,4
5,83
1,86
3,08
4,94
….
Clases
(0,4]
(4,8]
(8,12]
(12,16]
(16,20]
(20,24]
Marca de
clase
2
6
10
14
18
22
Frecuencia Frecuencia Frec. Acum. Frec. Acum.
Absoluta
Relativa
Absoluta
Relativa
25
0,1142
25
0,1142
73
0,3333
98
0,4475
33
0,1507
131
0,5982
58
0,2648
189
0,863
22
0,1005
211
0,9635
8
0,0365
219
1
219
1
¿Qué porcentaje de autobuses se retrasa menos de 12
minutos?
Clases
(0,4]
(4,8]
(8,12]
(12,16]
(16,20]
(20,24]
Número de transparencia: 14
Marca de
clase
2
6
10
14
18
22
Frecuencia Frecuencia Frec. Acum. Frec. Acum.
Absoluta
Relativa
Absoluta
Relativa
25
0,1142
25
0,1142
73
0,3333
98
0,4475
33
0,1507
131
0,5982
58
0,2648
189
0,863
22
0,1005
211
0,9635
8
0,0365
219
1
219
1
Ingeniería de grado. Estadística. Tema 1
Estadística Descriptiva. Índice
Introducción.
Tipos de datos.
Tabla de frecuencias.
Análisis gráficos.
Variables cualitativas:
Diagrama de barras, diagrama de tarta o pastel.
Diagrama de Pareto.
Variables cuantitativas:
Transversales: histograma, diagrama de caja.
Temporales: gráfico de la serie.
Medidas analíticas:
Medidas de centralización: media, mediana.
Medidas de dispersión: varianza, desviación típica, coeficiente de variación,
rango intercuartílico
Medidas de forma: coeficiente asimetría y coeficiente de curtosis
Cuartiles, percentiles.
Transformaciones.
Dos variables.
Número de transparencia: 15
Ingeniería de grado. Estadística. Tema 1
Diagrama de pastel y diagrama de barras
La idea de la representación gráfica de un conjunto de datos es
representar frecuencias mediante áreas:
Frequency Table for Satisfaccion
--------------------------------------------------------------------------------------------Relative
Cumulative Cum. Rel.
Value
Frequency Frequency Frequency
Frequency
--------------------------------------------------------------------------------------------Descontento
120
0,1200
120
0,1200
Medianamente contento
160
0,1600
280
0,2800
Bastante contento
540
0,5400
820
0,8200
Muy contento
180
0,1800
1000
1,0000
---------------------------------------------------------------------------------------------
Diagramas de pastel
Diagrama de barras
Piechart for Satisfaccion
Barchart for Satisfaccion
60
12,00%
50
16,00%
percentage
18,00%
40
30
20
10
0
54,00%
Número de transparencia: 16
Sa tis fa cc ion
De sc onte nto
M ode ra dam e nte c onte nto
Ba sta nte c onte nto
M uy c onte nto
Descontento
M oderadam ente cont.
Bastente cont.
Si la base de los rectángulos tiene la misma longitud, solo
nos tenemos que preocupar de que la altura sea
proporcional a la frecuencia
Ingeniería de grado. Estadística. Tema 1
M uy contento
Análisis gráficos. Variables cualitativas
Encuesta en EE.UU. sobre preferencias de la revista semanal.
1056
Time
NewSweek
U.S. News
Frec. Abs
Frec. Relativa
1.056
0,51
642
0,31
373
0,18
2.071
642
373
1200
frequency
1000
800
600
400
200
0
1
Número de transparencia: 17
2
3
Ingeniería de grado. Estadística. Tema 1
Diagrama de Pareto
Herramienta básica de la mejora de calidad. Muy útil para priorizar
los problemas o las causas que los generan.
Su fundamento parte de considerar que un pequeño porcentaje de
las causas producen la mayoría de los efectos. Se trataría, pues,
de identificar ese pequeño porcentaje de causas “vitales” para
actuar prioritariamente sobre él.
Un fabricante de
envases de plástico
desea analizar cuáles
son las causas que
generan los envases
defectuosos que se
producen. Observa 248
envases defectuosos
obteniendo
Número de transparencia: 18
Ingeniería de grado. Estadística. Tema 1
Análisis gráficos. Variables cuantitativas
Histograma
Histograma. La idea es representar frecuencias mediante áreas. A
cada clase le asociamos un rectángulo cuya área sea
proporcional a la frecuencia. Podemos usar frecuencias o
frecuencias acumuladas.
Retrasos
4,71
4,76
5,08
3,42
1,38
3,53
6,8
6,17
5
5,21
4,54
4,9
5,36
6,58
6,83
5,98
4,7
4,34
4,14
4,74
4,4
5,83
1,86
3,08
4,94
Marca de
clase
2
6
10
14
18
22
Clases
(0,4]
(4,8]
(8,12]
(12,16]
(16,20]
(20,24]
Frecuencia Frecuencia Frec. Acum. Frec. Acum.
Absoluta
Relativa
Absoluta
Relativa
25
0,1142
25
0,1142
73
0,3333
98
0,4475
33
0,1507
131
0,5982
58
0,2648
189
0,863
22
0,1005
211
0,9635
8
0,0365
219
1
219
1
Histograma
Histograma
240
200
60
Frecuencia
Frecuencia
80
40
20
160
120
80
40
0
0
0
4
8
12
16
20
0
24
4
8
12
16
20
24
Minutos
Minutos
Polígono de frecuencias. Se unen los vértices superiores de los
rectángulos del histograma mediante líneas.
….
Histograma
Histograma
80
240
Frecuencia
Frecuencia
200
60
40
20
160
120
80
40
0
0
0
4
8
12
Minutos
Número de transparencia: 19
16
20
24
0
4
8
12
16
20
24
Minutos
Ingeniería de grado. Estadística. Tema 1
Interpretación histogramas
Interpretación de histogramas. ¿Cuál es la distribución de los datos?
altura
Histograma
80
40
60
Frecu encia
frecuencia
50
30
20
40
20
10
0
0
160
163
166
169
172
0
175
4
8
12
16
20
24
20
24
Minutos
simétrico
Bimodal
población
resistencia
400
120
frecuencia
frecuencia
150
90
60
30
300
200
100
0
0
0
300
600
900
1200
Asimétrico
1500
0
4
8
12
16
Con datos atípicos
¿Forma; simétrico, asimétrico?, ¿modas?, ¿hay datos atípicos?,…
Número de transparencia: 20
Ingeniería de grado. Estadística. Tema 1
Histograma bimodal
Distribución bimodal.
El motivo por el cual aparece una distribución multimodal (bimodal,
trimodal,…) suele se porque se están mezclando datos de diferentes
poblaciones
Ejemplo: retraso de los autobuses, se están mezclando autobuses de
corto y largo recorrido. Para comprender mejor el fenómeno conviene
separar los datos y estudiarlos por separado.
Histograma
80
Frecuencia
60
40
20
0
0
4
8
12
16
20
24
Minutos
Histograma retraso - largo recorrido
Histograma retraso - corto recorrido
40
30
frequency
frequency
25
20
15
10
30
20
10
5
0
0
0
2
4
6
8
10
12
14
16
retraso
Autobuses de corto
recorrido
Número de transparencia: 21
18
20
22
24
0
3
6
9
12
15
18
21
24
retraso
Autobuses de largo
recorrido
Ingeniería de grado. Estadística. Tema 1
Datos atípicos
Los datos atípicos en ocasiones son de gran importancia, pues pueden
aportar mucha información sobre el fenómeno estudiado.
resistencia
frecuencia
400
300
200
100
0
0
4
8
12
16
20
24
Supongamos que el diagrama de caja representa la duración de un tipo
de bombillas. El dato atípico, si comprobamos que no se trata de un error
de medida o de trascripción de los datos, representa la
SUPERBOMBILLA.
Número de transparencia: 22
Ingeniería de grado. Estadística. Tema 1
Análisis gráficos. Variables cuantitativas
Diagrama de caja (Box Plot)
Los cuartiles son tres valores que dividen el conjunto de datos en cuatro
grupos con el mismo número de individuos.
Se define el Rango
Intercuartílico: RI = Q3-Q1
Número de transparencia: 23
Ingeniería de grado. Estadística. Tema 1
Análisis gráficos. Diagrama de caja
Realizamos 20 mediciones del caudal de agua que pasa por una tubería en
una central térmica (media = 2.52; mediana =2.5; cuartil inferior =2.25; cuartil superior=2.6).
Pasos para realizar el diagrama de caja:
Caudal
2,2
2,5
2,6
2,2
2,3
2,6
2,7
2,8
2,3
2,4
2,5
2,4
2,5
2,6
2,2
2,1
2,9
3,9
2,2
2,5
1. Se representa con líneas verticales los cuartiles. Se cierra la caja.
2. A una distancia de 1.5 veces el RI desde el cuartil inferior y superior se representa con una línea
vertical discontinua la barrera interior.
3. A una distancia de 3 veces el RI desde el cuartil inferior y superior se representa con una línea
vertical discontinua la barrera interior.
4. Se representan los bigotes de la caja, que llegarán hasta el último dato dentro de la barrera
interior.
5. Los datos que quedan fuera de las barreras son datos atípicos, se representan mediante
estrellas.
1.5 RI
Número de transparencia: 24
1.5 RI
2
RI
1.5 RI
1.5 RI
3Ingeniería de grado.
Estadística. Tema 1
4
Diagrama de caja e histograma
Histograma - Caudal
6
frequency
5
Caudal
2,2
2,5
2,6
2,2
2,3
2,6
2,7
2,8
2,3
2,4
2,5
2,4
2,5
2,6
2,2
2,1
2,9
3,9
2,2
2,5
Número de transparencia: 25
4
3
2
1
0
2
2,4
2,8
3,2
3,6
4
Diagrama de caja - caudal
2,1
2,4
2,7
3
3,3
3,6
3,9
Ingeniería de grado. Estadística. Tema 1
Interpretación diagrama de caja
Diagrama de caja, ingresos
0
2
4
Diagrama de caja, extensión
6
8
(X 100000)
ITOTAL
Diagrama de caja, ahorro
0
0.4
0.8
1.2
AHRR
Número de transparencia: 26
0
3
6
9
12
15
Col_4
18
(X 1000)
Diagrama de caja, notas
1.6
2
(X 100000)
0
0.2
0.4
0.6
Col_4
0.8
1
(X 1000)
Ingeniería de grado. Estadística. Tema 1
Análisis gráfico de series temporales
Datos de evolución de variables en el tiempo:
Periodicidad: frecuencia de recogida de datos (anual, mensual,…).
Tendencia: si aumenta o disminuye con el tiempo.
Variabilidad - volatilidad: su variación (grosor).
Ciclo estacional: se observa un ciclo ligado al momento del año en que
se ha recogido el dato.
Número de transparencia: 27
Ingeniería de grado. Estadística. Tema 1
Interpretación series temporales
Periodicidad mensual – Ciclo estacional
Periodicidad mensual -Tendencia – Ciclo estacional
Número de transparencia: 28
Ingeniería de grado. Estadística. Tema 1
Estadística Descriptiva. Índice
Introducción.
Tipos de datos.
Tabla de frecuencias.
Análisis gráficos.
Variables cualitativas:
Diagrama de barras, diagrama de tarta o pastel.
Diagrama de Pareto.
Variables cuantitativas:
Transversales: histograma, diagrama de caja.
Temporales: gráfico de la serie.
Medidas analíticas:
Medidas de centralización: media, mediana.
Medidas de dispersión: varianza, desviación típica, coeficiente de variación,
rango intercuartílico.
Medidas de forma: coeficiente de asimetría y coeficiente de curtosis.
Cuartiles, percentiles.
Transformaciones.
Dos variables.
Número de transparencia: 29
Ingeniería de grado. Estadística. Tema 1
Medidas analíticas. Variables cuantitativas
Parámetro: es un cantidad numérica calculada sobre la población.
La idea es resumir la información que hay en la población en unos
pocos números (parámetros).
La media de las bombillas de 60 W.
La mediana de los niños de 3 meses.
Estadístico: es una cantidad numérica calculada sobre la muestra.
La vida media de las bombillas de 60 W de mi casa.
La mediana de los niños de 3 meses observados en un estudio clínico.
Normalmente, nos interesa conocer un parámetro, pero por la
dificultad que conlleva estudiar TODA la población, calculamos
un estimador sobre la muestra y “confiamos” en que sean
próximos.
Número de transparencia: 30
Ingeniería de grado. Estadística. Tema 1
Medidas analíticas
Medidas de centralización.
Indican valores respecto a los que los datos parecen agruparse: media,
mediana.
Medidas de dispersión.
Indican la mayor o menor concentración de los datos con respecto a las
medidas de centralización: varianza, desviación típica, rango
intercuartílico.
Medidas de forma.
Indican la forma de la distribución de los datos:
Medidas de asimetría: coeficiente de asimetría.
Medidas de apuntamiento: coeficiente de apuntamiento o curtosis.
Cuartiles, Percentiles.
Dividen un conjunto ordenado de datos en grupos con la misma cantidad
de individuos: cuartiles, percentiles,…
Número de transparencia: 31
Ingeniería de grado. Estadística. Tema 1
Medidas de centralización
Proporcionan un valor simple y representativo, que resume un gran
volumen de información.
Media: es la media aritmética de los valores de una variable.
Mediana: es un valor que divide a los datos en dos grupos con el
mismo número de individuos.
Número de transparencia: 32
Ingeniería de grado. Estadística. Tema 1
La media
Interpretación: la media es el centro de gravedad de la distribución de los
datos.
Histograma
Frecuencia
80
60
40
20
0
0
4
8
12
16
20
24
Minutos
Cálculo:
4,71
4,76
5,08
3,42
1,38
3,53
Retrasos
5,21
4,54
4,9
5,36
6,58
6,83 …
4,14
4,74
4,4
5,83
1,86
n
X
Número de transparencia: 33
x
i 1
n
i

4.71  4.76  ...
 9.86
219
Ingeniería de grado. Estadística. Tema 1
La mediana
Divide el conjunto de datos en dos con el mismo número de datos.
Una vez ordenados los datos de mayor a
menor:
Si n es impar. Dato que ocupa el lugar
central.
Si n es par. Es la media de los datos
centrales .
Número de transparencia: 34
Ingeniería de grado. Estadística. Tema 1
Media ponderada
En un hotel se pregunta a los clientes por su valoración de : Limpieza
de la habitación, Rapidez en los trámites de la entrada, Iluminación
del Bar.
Variable – atributo de
calidad
Valor medio- Hotel 1
Valor Medio – Hotel 2
Limpieza habitación
3
8
Rapidez tramites entrada
5
7
Iluminación
Bar media:
Valoración
10
3
Satisfacción media:
Hotel 1= 6.
Hotel 2= 6.
Número de transparencia: 35
Ingeniería de grado. Estadística. Tema 1
Media ponderada
Si pensáramos que la importancia es:
Limpieza habitación: 50%.
Recepción: 40%.
Iluminación del Bar:10%.
La media de la satisfacción ponderada por la importancia es:
Hotel 1: 0.5 x 3 + 0.4 x 5 + 0.1 x 10 = 4.5.
Hotel 2: 0.5 x 8 + 0.4 x 7 + 0.1 x 3 = 7.1.
Número de transparencia: 36
Ingeniería de grado. Estadística. Tema 1
Medidas de dispersión
Supongamos dos grupos de alumnos, cuyas notas son:
1º grupo: 5,5,5,5,5,5.
2º grupo: 2,2,2,8,8,8.
Los dos grupos tienen la misma media, pero parece evidente que los grupos
son muy distintos.
Conviene acompañar la medida de centralización con otros
valores que aporten más información sobre el conjunto de datos:
medidas de dispersión y medidas de forma.
Número de transparencia: 37
Ingeniería de grado. Estadística. Tema 1
Medidas de dispersión
Para cada medida de centralización se define una medida de dispersión,
que indica lo agrupado que están los datos entorno a la medida de
centralización.
Acompañando a la media definimos la varianza o la desviación típica o el
coeficiente de variación.
Acompañando a la mediana definimos el rango intercuartílico.
300
250
200
X  0 ; S2  4.2
150
100
50
0
-8
-4
0
4
8
600
500
400
X  0 ; S2  0.89
300
200
100
0
-8
Número de transparencia: 38
-4
0
4
8
Ingeniería de grado. Estadística. Tema 1
Medidas de dispersión: asociadas a la media
Miden la “dispersión” de los datos respecto de la media.
Varianza (S2): mide el promedio de las desviaciones (al cuadrado) de las
observaciones respecto de la media.
n
n
1
1
2
S 2   ( xi  x ) 2   xi  x 2
n i 1
n i 1
Es muy sensible
a datos atípicos.
Datos no agrupados
I
S 2   f i ( xi  x ) 2
i 1
Datos agrupados
Desviación típica (S): es la raíz cuadrada de la varianza. S 
Coeficiente de variación (CV):
Número de transparencia: 39
CV 
S
x
S2
Es una medida
adimensional.
Ingeniería de grado. Estadística. Tema 1
Medidas de dispersión: asociadas a la media
Ejemplo
La siguiente tabla contiene la altura y el peso de 13 individuos.
Altura
1
(150  162  ...  167)  166.6 cm
13
1
1

(150  166.6) 2  ...  (167  166.6) 2  150 2  ...  167 2  166.6 2  131.7 cm 2
13
13
xA 
altura Peso
150
56
162
65
159
48
185
79
156
61
186
80
175
76
156
50
180
85
162
65
165
63
163
59
167
74
SA
2




Peso
1
(56  65  ...  74)  66.2 Kg
13
1
1

(56  66.2) 2  ...  (74  66.2) 2 
56 2  ...  74 2  66.2 2  137.8 Kg 2
13
13
xP 
SP
2




¿Qué conjunto está más disperso en torno a la media?
No podemos comparar las varianzas puesto que están dadas en
unidades distintas. Por ello necesitamos una medida adimensional:
el coeficiente de variación.
CVA  0.06
Número de transparencia: 40
CVP  0.17
Ingeniería de grado. Estadística. Tema 1
Medidas de dispersión asociadas a la mediana
Rango Intercuartílico (RI): la diferencia entre el cuartil superior y el cuartil
inferior.
RI=Q3-Q1
Box-and-Whisker Plot
8
11
14
17
20
23
retraso
Número de transparencia: 41
Ingeniería de grado. Estadística. Tema 1
Medidas de forma – coeficiente de simetría
Coeficiente de asimetría
(x  x)

CA 
nS
3
i
3
4
0,4
0,16
3
0,3
0,12
2
0,2
0,08
1
0,1
0,04
0
0
0
0,2
0,4
0,6
CA<0
Número de transparencia: 42
0,8
1
0
-5
-3
-1
1
CA=0
3
5
0
4
8
12
16
20
CA>0
Ingeniería de grado. Estadística. Tema 1
24
Medidas de forma – coeficiente de apuntamiento
Coeficiente de Apuntamiento o curtosis
(x  x)

CAp 
i
nS
4
4
3
0,8
C. Ap = 0
C. Ap < 0
C. Ap > 0
0,6
0,4
0,2
0
-10
Número de transparencia: 43
-6
-2
2
x
6
10
Ingeniería de grado. Estadística. Tema 1
Robustez
¿Qué medida de centralización representa mejor los datos: la media o la
mediana?
4
0,4
0,16
3
0,3
0,12
2
0,2
0,08
1
0,1
0,04
x
0
0
0
0,2
0,4
0,6
x
0,8
me
1
-5
-3
-1
x
me
0
1
3
5
0
4
me
8
12
16
20
x
Cuando la distribución de los datos es simétrica, la media y la mediana
coinciden.
Cuando la distribución de los datos es asimétrica, la media tiende a
desplazarse hacia los datos extremos de las colas. No representa
adecuadamente el conjunto de datos.
En caso de distribuciones asimétricas, la mediana
representa mejor el conjunto de datos.
Número de transparencia: 44
Ingeniería de grado. Estadística. Tema 1
24
Robustez
A continuación se observan el histograma y diagrama de caja de los ingresos anuales de
1000 individuos que trabajan en la cadena de producción de una organización.
Summary Statistics par ingresos
Box-and-Whisker Plot
Count = 100
Average = 17750,3
Median = 17773,1
Variance = 899548,0
Standard deviation = 948,445
Minimum = 15287,9
Maximum = 20634,1
Range = 5346,2
Lower quartile = 17130,1
Upper quartile = 18377,7
Interquartile range = 1247,6
fr equency
40
30
20
10
0
15
16
17
18
19
20
21
(X 10 00)
15
16
17
18
19
20
RAND1
21
(X 1000)
Supongamos que introducimos un dato más: los ingresos del director general de la
compañía (250000€).
Summary Statistics for Ingresos - con director
influenciada, pasando a ser un valor poco significativo
Box-and-Whisker Plot
100
80
frequency
Count = 101
Average = 20049,8
Median = 17785,9
Variance = 5,34949E8
Standard deviation = 23129,0
Minimum = 15287,9
Maximum = 250000,0
Range = 234712,0
Lower quartile = 17132,6
Upper quartile = 18396,2
Interquartile
range45= 1263,6
Número
de transparencia:
La mediana no ha variado. La media se ha visto muy
60
40
20
0
0
0,4
0,8
1,2
1,6
2
(X 100000)
Ingeniería
0
5
10
15
de grado. Estadística. Tema 1
20
25
(X 10 000 )
Robustez
La media representa adecuadamente el conjunto de datos
cuando la distribución es homogénea
(simétrica y sin datos atípicos).
0,4
0,3
0,2
0,1
0
-5
Número de transparencia: 46
-3
-1
1
3
5
Ingeniería de grado. Estadística. Tema 1
Percentil
Percentil de orden X, se define como el valor que divide un
conjunto ordenado de datos estadísticos de forma que el porcentaje
de tales datos inferior a dicho valor es del X%.
Ejemplo: En el caso de
los bebés, el percentil se
utiliza para hacer una
valoración del
crecimiento del recién
nacido.
Cuando nos dicen que
nuestro hijo está en el
percentil 25 del peso
significa que, de cada
100 bebés, 75 pesan
más que nuestro hijo.
Número de transparencia: 47
Ingeniería de grado. Estadística. Tema 1
Estadística Descriptiva. Índice
Introducción.
Tipos de datos.
Tabla de frecuencias.
Análisis gráficos.
Variables cualitativas:
Diagrama de barras, diagrama de tarta o pastel.
Diagrama de Pareto.
Variables cuantitativas:
Transversales: histograma, diagrama de caja.
Temporales: gráfico de la serie.
Medidas analíticas:
Medidas de centralización: media, mediana.
Medidas de dispersión: varianza, desviación típica, coeficiente de variación,
rango intercuartílico.
Medidas de forma: coeficiente de asimetría y coeficiente de curtosis.
Cuartiles, percentiles.
Transformaciones.
Dos variables.
Número de transparencia: 48
Ingeniería de grado. Estadística. Tema 1
Transformaciones
En algunas ocasiones, es útil transformar los datos o expresarlos
en otras unidades:
Transformaciones lineales: Y=a+bX.
Transformaciones no lineales:
Y=Log X.
Y=Xa .
…
Número de transparencia: 49
Ingeniería de grado. Estadística. Tema 1
Transformaciones lineales
Y= a + b X
Box-and-Whisker Plot
700
1100
1500
Celsius
Número de transparencia: 50
Box-and-Whisker Plot
1900
2300
1300
1800
2300
2800
3300
3800
4300
Fahrenheit= 32 + 1.8*Celsius
Ingeniería de grado. Estadística. Tema 1
Transformaciones lineales
La transformación lineal más importante es la tipificación:
xi  x
yi 
sX
Expresa el número de desviaciones que cada dato dista de la media.
Es útil para comparar individuos de poblaciones diferentes, por ejemplo:
Se observa un perro que pesa 18 kgs. Y un gato que pesa 5. ¿Cuál pesa
más dentro de los de su especie? Los perros en media pesan 15 kgs, con
una desviación típica de 3 kgs, y los gatos pesan en media 3 kilos, con
una desviación típica de 0.5 kilos.
Número de transparencia: 51
Ingeniería de grado. Estadística. Tema 1
Transformaciones no lineales
Dentro de las transformaciones no lineales, destacan las
transformaciones utilizadas para conseguir simetría.
Y = log X ó Y=Xa.
30
40
fr equency
fr equency
25
30
20
20
15
10
10
5
0
0
0
4
8
X
Número de transparencia: 52
12
16
20
24
1,1
1,5
1,9
2,3
2,7
3,1
3,5
Y = log X
Ingeniería de grado. Estadística. Tema 1
Estadística Descriptiva. Índice
Introducción.
Tipos de datos.
Tabla de frecuencias.
Análisis gráficos.
Variables cualitativas:
Diagrama de barras, diagrama de tarta o pastel.
Diagrama de Pareto.
Variables cuantitativas:
Transversales: histograma, diagrama de caja.
Temporales: gráfico de la serie.
Medidas analíticas:
Medidas de centralización: media, mediana.
Medidas de dispersión: varianza, desviación típica, coeficiente de variación,
rango intercuartílico.
Medidas de forma: coeficiente de asimetría y coeficiente de curtosis.
Cuartiles, percentiles.
Transformaciones.
Dos variables.
Número de transparencia: 53
Ingeniería de grado. Estadística. Tema 1
Diagrama de dispersión
La representación gráfica más útil para dos variables continuas es el
diagrama de dispersión.
Se representa cada individuo mediante un punto en el plano cartesiano.
Ejemplo: se quiere estudiar la relación entre la velocidad del viento y la
energía producida por una central eólica.
5
6
3,4
2,7
10
9,7
9,55
3,05
8,15
6,2
2,9
6,35
4,6
5,8
7,4
3,6
7,85
8,8
7
5,45
9,1
10,2
4,1
3,95
2,45
Energia
1,582
1,822
1,057
0,5
2,236
2,386
2,294
0,558
2,16
1,866
0,653
1,93
1,562
1,737
2,088
1,137
2,179
2,112
1,8
1,501
2,303
2,31
1,194
1,144
0,123
Número de transparencia: 54
2,4
2
energi a
Velocidad
1,6
1,2
0,8
Energía = 0.5
0,4
Velocidad = 2.7
0
0
2
4
6
8
10
12
Velocidad_viento
Ingeniería de grado. Estadística. Tema 1
Diagrama de dispersión
Número de transparencia: 55
Ingeniería de grado. Estadística. Tema 1
Medidas de dependencia lineal
Las medidas más utilizadas para cuantificar el grado y el sentido de la
dependencia lineal son:
Covarianza.
Correlación.
Covarianza:
S XY
1 n
  ( xi  x )( yi  y )
n i 1
Correlación:
rXY
Número de transparencia: 56
S XY

SY  SY
Ingeniería de grado. Estadística. Tema 1
Correlación
Propiedades de la correlación:
-1≤ rxy ≤1.
Se dice que las variables son incorreladas si rxy=0.
Si existe relación lineal perfecta (Y=a+bX): rxy=1 (si b>0) o rxy=-1 (si b<0).
Cuanto más cerca esté rxy de 1 ó -1, mayor será el grado de relación lineal.
Observación: rxy=0 no implica independencia.
Número de transparencia: 57
Ingeniería de grado. Estadística. Tema 1
Correlación
Correlation Coefficient = -0,889122
Correlation Coefficient = 0,340985
Número de transparencia: 58
Correlation Coefficient = 0,994278
Correlation Coefficient = 0,0417867
Ingeniería de grado. Estadística. Tema 1
Diagrama de dispersión múltiple
Cuando tenemos muchas variables es latoso realizar todos los diagramas de dispersión
necesarios para ver la relación entre cada par de variables. Los gráficos de dispersión múltiple
hacen de golpe todos los gráficos.
Ejemplo: gráfico de dispersión múltiple de 7 variables observadas en países del mundo.
Número de transparencia: 59
Ingeniería de grado. Estadística. Tema 1
Estudio conjunto: cualitativa / cuantitativa
Se realiza el análisis de la
variable cuantitativa en cada una
de las poblaciones definidas por
la variable cuantitativa. Y se
comparan ambos análisis.
El grafico más útil para realizar
este análisis es el diagrama de
caja múltiple.
Ejemplo: en 1000 amortiguadores
se observa:
la resistencia,
el proveedor.
Número de transparencia: 60
Box-and-Whisker Plot
Tipo_a mortigua dor=0
Tipo_a mortigua dor=1
21
23
25
27
29
resistencia
Summary Statistics for resistencia
Tipo_amortiguador=0 Tipo_amortiguador=1
-----------------------------------------------------------Count
497
503
Average
24,9763
24,9461
Median
24,9626
24,9081
Variance
0,988781
1,02343
Standard deviation 0,994375
1,01165
Minimum
22,0217
21,8718
Maximum
28,1087
28,2504
Range
6,087
6,3786
Lower quartile
24,3536
24,2126
Upper quartile
25,6517
25,6126
Interquartile range 1,2981
1,4
Coeff. of variation 3,98128%
4,05534%
------------------------------------------------------------
Ingeniería de grado. Estadística. Tema 1
Estudio conjunto de cualitativa-cuantitativa
Gasto anual en educación.
Box-and-Whisker Plot
0
Summary Statistics for GTINE
2
4
6
GTINE
8
10
(X 100000)
Count = 105
Average = 284658,0
Median = 255807,0
Standard deviation = 161675,0
Minimum = 33713,2
Maximum = 930000,0
Lower quartile = 178112,0
Upper quartile = 350043,0
Skewness = 1,83719
Kurtosis = 4,84436
Coeff. of variation = 56,7962%
Número de transparencia: 61
Ingeniería de grado. Estadística. Tema 1
Estudio conjunto cualitativa-cuantitativa
Gasto anual en educación según el nivel de estudio (estudios primarios,
estudios secundarios, estudios superiores).
Box-and-Whisker Plot
Estudios
1
2
3
0
2
4
6
GTINE
8
10
(X 100000)
Summary Statistics for GTINE
Estudios
Count
Average
Median
Standard deviation
---------------------------------------------------------------------------------------------------1
20
148929,0
151376,0
78300,3
2
50
237291,0
248045,0
62997,3
3
35
429884,0
381672,0
186979,0
----------------------------------------------------------------------------------------------------Total
105
284658,0
255807,0
161675,0
Número de transparencia: 62
Ingeniería de grado. Estadística. Tema 1
Descargar