Ejemplo detallado

Anuncio
2o E.T.S.Ingenierı́a de Caminos
Estadı́stica Aplicada
Estadı́stica Descriptiva
1.
El porcentaje de algodón en una tela utilizada para elaborar camisas para hombre se presenta
en la siguiente tabla. Calcular los estadı́sticos más importantes y realı́cese el histograma de
frecuencias.
32.1
33.4
33.8
34.4
34.7
35
35.5
36.8
32.5
33.5
34
34.5
34.7
35.1
35.6
36.8
porcentaje
32.6 32.7
33.6 33.6
34.1 34.1
34.5 34.6
34.7 34.7
35.1 35.1
35.7 35.8
36.8 37.1
de algodón
32.8 32.9
33.6 33.6
34.1 34.2
34.6 34.6
34.7 34.7
35.2 35.3
35.9 36.2
37.3 37.6
33.1
33.6
34.3
34.6
34.9
35.4
36.4
37.8
33.1
33.8
34.3
34.6
35
35.4
36.6
37.9
(a) Diseñar la distribución de frecuencias con un cambio de variable.
(b) Calcular los estadı́sticos: media, moda, mediana, Q1 , Q3 , c0.6 , varianza y desviación tı́pica.
(c) A partir del diagrama anterior determinar la mediana, el primer cuartil y el tercer cuartil
y compárese los resultados con los obtenidos a partir de la distribución de frecuencias.
(d) Representar los histogramas de frecuencias absolutas y acumuladas.
(e) Representar el diagrama de caja y determinar los valores extremos.
2.
La siguiente tabla registra en diferentes horas la temperatura (T) del agua de un rı́o y su
contenido en oxı́geno disuelto (DO):
T
29,57
29,99
30,58
31,00
31,34
31,26
31,17
30,96
30,50
29,99
DO
9,88
12,14
13,66
14,19
14,50
13,72
12,54
11,48
9,92
8,32
T
29,48
29,06
28,81
28,60
28,51
28,51
28,43
28,34
28,34
28,26
DO
6,67
5,29
4,23
3,56
2,98
2,58
2,32
2,14
2,09
2,27
T
28,43
28,64
29,02
29,52
30,07
30,67
31,17
31,55
31,76
31,81
DO
2,90
3,94
5,52
7,83
10,68
12,98
14,26
14,93
14,91
14,61
T
31,68
31,34
31,00
30,79
30,45
30,07
29,69
29,36
29,02
28,76
DO
13,80
12,32
11,00
10,00
8,45
6,48
4,91
3,89
3,21
2,83
T
28,51
28,30
28,09
28,00
28,13
28,30
28,72
29,14
29,74
30,37
DO
2,58
2,41
2,51
2,71
3,48
4,36
5,71
7,91
10,61
12,66
Se pide:
(a) Construir una distribución conjunta de frecuencias para las dos variables T y DO tomando
5 intervalos.
(b) Dibujar un diagrama de dispersión conjunto de las dos variables.
(c) Hacer un estudio de las distribuciones marginales.
(d) Calcular la matriz de varianzas-covarianzas.
1
2o E.T.S.Ingenierı́a de Caminos
Estadı́stica Aplicada
Estadı́stica Descriptiva
3.
En diferentes dias se ha observado el número de veces que ha sonado la alarma en un servicio
de bomberos, obteniéndose los siguientes datos:
{5, 3, 1, 5, 3, 6, 4, 2, 5, 6, 3, 6, 5, 2, 6, 7, 3}
Se pide:
(a) Obtener la moda, la mediana, Q1 , Q3 y el cuantil 0.40.
(b) Obtener la media y la desviación tı́pica.
(c) Efectuar un diagrama apropiado.
Solución ◮
(a) Para las medidas de posición conviene ordenar los datos
{1, 2, 2, 3, 3, 3, 3, 4, 5, 5, 5, 5, 6, 6, 6, 6, 7, }
• La moda corresponde al valor mas repetido, este caso corresponde a los tres valores
Mo = 3, 5, 6. Decimos que es multimodal.
• La mediana acumula el 50% de los datos N = 17. Como
0.5 · (N + 1) = 9
Me = 5
• El primer cuartile Q1 acumula el 25% de los datos N = 17. Como
0.25 · (N + 1) = 4.5
Q1 = 3 + 0.5(3 − 3) = 3
• El tercer cuartile Q3 acumula el 75% de los datos N = 17. Como
0.75 · (N + 1) = 13.5
Q3 = 6 + 0.5(6 − 6) = 6
• El cuantil c0.40 acumula el 40% de los datos N = 17. Como
0.40 · (N + 1) = 7.2
c0.40 = 3 + 0.2(4 − 3) = 3.2
(b) Cálculo de la media, varianza y la desviación tı́pica.
•
Pn
i=1 xi fi
72
= 4.235
N
17
• Para el cáculo de la varianza se aconseja el método abreviado
Pn
x2 fi
354
2
− 4.2352 = 2.89
Sx = i=1 i − x2 =
N
17
•
p
√
Sx = Sx2 = 2.89 = 1.70
x̄ =
(c) Efectuar un diagrama apropiado.
2
=
2o E.T.S.Ingenierı́a de Caminos
Estadı́stica Aplicada
Número de avisos
4
3
2
1
0
1
2
3
4
avisos
3
5
6
7
2o E.T.S.Ingenierı́a de Caminos
4.
Estadı́stica Aplicada
El porcentaje de algodón en una tela utilizada para elaborar camisas para hombre se presenta
en la siguiente tabla. Calcular los estadı́sticos más importantes y realı́cese el histograma de
frecuencias.
32.1
33.4
33.8
34.4
34.7
35
35.5
36.8
32.5
33.5
34
34.5
34.7
35.1
35.6
36.8
porcentaje
32.6 32.7
33.6 33.6
34.1 34.1
34.5 34.6
34.7 34.7
35.1 35.1
35.7 35.8
36.8 37.1
de algodón
32.8 32.9
33.6 33.6
34.1 34.2
34.6 34.6
34.7 34.7
35.2 35.3
35.9 36.2
37.3 37.6
33.1
33.6
34.3
34.6
34.9
35.4
36.4
37.8
33.1
33.8
34.3
34.6
35
35.4
36.6
37.9
(a) Diseñar la distribución de frecuencias con un cambio de variable.
(b) Calcular los estadı́sticos: media, moda, mediana, Q1 , Q3 , c0.6 , varianza y desviación tı́pica.
(c) Representar el diagrama de tallo y hojas.
(d) A partir del diagrama anterior determinar la mediana, el primer cuartil y el tercer cuartil
y compárese los resultados con los obtenidos a partir de la distribución de frecuencias.
(e) Representar los histogramas de frecuencias absolutas y acumuladas.
(f) Representar el diagrama de caja y determinar los valores extremos.
Solución ◮
(a) Tomamos 7 intervalos de longitud 1. Como xmax − xmin = 37.9 − 32.1 = 5.8 y 7-5.8=1.2,
desplazamos el extremo inferior a 32.1-0.6=31.5 y el extremo superior a 37.9+0.6=38.5.
Efectuamos el cambio de variable yi = xi − 35 para realizar los cálculos con la variable y.
Algodón
[31.5, 32.5)
[32.5, 33.5)
[33.5, 34.5)
[34.5, 35.5)
[35.5, 36.5)
[36.5, 37.5)
[37.5, 38.5)
xi
32
33
34
35
36
37
38
fi
1
8
16
23
7
6
3
64
Fi
2
10
27
49
55
61
64
yi
-3
-2
-1
0
1
2
3
yi fi
-3
-16
-16
0
7
12
9
-7
yi2 fi
9
32
16
0
7
24
27
113
Tabla 1: Distribución de frecuencias
(b) Cálculo de los estadı́sticos:
P
yi fi
7
• ȳ =
= − = −0.11
N
64
P
2f
115
y
i
i
− ȳ 2 =
− 0.112 = 1.78
• Sy2 =
N
64
4
2o E.T.S.Ingenierı́a de Caminos
Estadı́stica Aplicada
• x̄ = ȳ + 35 = 34.89 y Sx = Sy =
√
1.78 = 1.336
A continuación se explica cómo calcular la Moda, y los cuartiles Q1 y Q3 . Con el mismo
método se hallan los deciles y los cuantiles. Aunque hay fórmulas explı́citas para ello,
dichas expresiones se obtienen por interpolación de los histogramas de frecuencias. Dicha
interpolación se basa en la comparación de triángulos semejantes.
23
23
16
7
• La Moda Mo, se calcula por interpolación en el
intervalo modal. Por semejanza de triángulos se
tiene
1−x
7
x
=
⇒x=
23 − 16
23 − 7
23
Luego y Mo = 34.5 + x = 34.8
x
34.5
35.5
Figure 1: Cáculo de la Moda
25
16
• El primer cuartil Q1 acumula N/4 = 16, luego
9
x
34.5 − 33.5 = 1 → 16
Q1 − 33.5 = x → 7
Q1 = 33.5 +
7
= 33.94
16
33.5
Q1
34.5
(c) Gráfico de tallo y hojas. Obsérvese el diagrama de este tipo que se obtiene a partir del
paquete estadı́stico Minitab. Es interesante y fácil de calcular a partir del mismo la Mediana
y los cuartiles Q1 y Q3 . Comparar los resultados, con los obtenidos por interpolación de la
distribución de frecuencias en el apartado anterior.
Diagrama de árbol
5
2o E.T.S.Ingenierı́a de Caminos
Estadı́stica Aplicada
48
38,4
25
34.5
• El tercer cuartil Q3 acumula 48, luego Q3 = 35.5. El
cuantil c0.60 acumula 0.6 N = 38.4, por interpolación de
los triángulos semejantes de la figura se tiene
x
c
0.6
35.5 − 34.5 = 1 → 23
c0.60 − 34.5 = x → 13.4
35.5
c0.60 = 34.5 +
32
33
33
34
35
36
37
1
1
6
0
0
2
1
5
1
6
1
0
4
3
6
4
6
1
1
6
6
7
5
6
1
1
8
8
8
6
8
2
1
8
9
13.4
= 35.08
23
9
8
23355666667777779
234456789
8
6
5
6
22
14
6
5
(d) Con el gráfico de tallos y hojas, donde los datos están ordenados y sin agrupar determinamos:
• La mediana acumula el 50% de los datos N = 64. Como
0.5 · (N + 1) = 32.5
M e = 34.6 + 0.5(34.7 − 34.6) = 34.65
• El primer cuartile Q1 acumula el 25% de los datos N = 64. Como
0.25 · (N + 1) = 16.25
Q1 = 33.8 + 0.25(0) = 33.8
• El tercer cuartile Q3 acumula el 75% de los datos N = 64. Como
0.75 · (N + 1) = 48.75
Q3 = 35.4 + 0.75(0.1) = 35.475
(e) A continuación se muestran los Histogramas de frecuencias absolutas y acumuladas. El lector puede detallar sobre los mismos, los poligonos de frecuencias, tanto para las frecuencias
absolutas como las acumuladas.
(f) Salida de estadı́sticos con Minitab.
Variable
Algodon
N
64
Minimum
2,100
Mean
34,770
Maximum
37,900
Median
34,650
Q1
33,800
TrMean
34,738
Q3
35,47
StDev
1,351
SE Mean
0,169
(g) Mostramos el diagrama de caja (Boxplot) para el cálculo del rango intercuartil. La medida
de variabilidad amplitud intercuartil AIC = Q3 − Q1 = 1.67. Si queremos detectar valores
extremos en un sentido u otro, se calculan los valores de referencia dados por
Q1 − 1.5 AIC = 31.295
6
Q3 + 1.5 AIC = 37.975
2o E.T.S.Ingenierı́a de Caminos
Estadı́stica Aplicada
Frecuencias acumuladas
70
Frecuencias absolutas
20
10
0
60
50
40
30
20
10
0
32
33
34
35
36
37
38
31,5
32,5
33,5
34,5
Algodón
35,5
36,5
37,5
38,5
Algodón
Figure 2: Histogramas de frecuencias absolutas y acumuladas
y apreciamos que en nuestra distribución no hay valores extremos en ninguno de los sentidos.
La siguiente tabla registra en diferentes horas la temperatura (T) del agua de un rı́o y su
contenido en oxı́geno disuelto (DO):
T
29,57
29,99
30,58
31,00
31,34
31,26
31,17
30,96
30,50
29,99
DO
9,88
12,14
13,66
14,19
14,50
13,72
12,54
11,48
9,92
8,32
T
29,48
29,06
28,81
28,60
28,51
28,51
28,43
28,34
28,34
28,26
DO
6,67
5,29
4,23
3,56
2,98
2,58
2,32
2,14
2,09
2,27
T
28,43
28,64
29,02
29,52
30,07
30,67
31,17
31,55
31,76
31,81
DO
2,90
3,94
5,52
7,83
10,68
12,98
14,26
14,93
14,91
14,61
T
31,68
31,34
31,00
30,79
30,45
30,07
29,69
29,36
29,02
28,76
DO
13,80
12,32
11,00
10,00
8,45
6,48
4,91
3,89
3,21
2,83
T
28,51
28,30
28,09
28,00
28,13
28,30
28,72
29,14
29,74
30,37
DO
2,58
2,41
2,51
2,71
3,48
4,36
5,71
7,91
10,61
12,66
Se pide:
(a) Construir una distribución conjunta de frecuencias para las dos variables T y DO tomando
5 intervalos.
(b) Dibujar un diagrama de dispersión conjunto de las dos variables.
(c) Hacer un estudio de las distribuciones marginales.
(d) Calcular la matriz de varianzas-covarianzas.
7
2o E.T.S.Ingenierı́a de Caminos
Estadı́stica Aplicada
38
37
Algodón
Figure 3: Diagrama de
Caja.
Es un artificio
que muestra la mediana,
los cuartiles y la amplitud, todo en el mismo
gráfico. Muestra que la
mayor parte de los datos
es menor que 35.47, y que
el 50% de los datos estan
comprendidos entre 33.8
y 35.47
36
Q3=35.47
35
Me=34.65
34
Q1=33.8
33
32
T—DO
27.90-28.70
28.71-29.50
29.51-30.30
30.31-31.10
31.11-31.90
2.00-4.59
15
4
0
0
0
19
T
27.90-28.70
28.71-29.50
29.51-30.30
30.31-31.10
31.11-31.90
4.60-7.19
0
4
2
0
0
6
fi
15
9
8
9
9
50
7.20-9.79
0
1
2
1
0
4
9.80-12.39
0
0
4
4
1
9
12.40-15
0
0
0
4
8
12
15
9
8
9
9
50
Estadı́sticos de T

T
29.70




M
e

T 29.55
ŜT
1.20



Q
28.00
1


Q3 30.83
DO
2.00- 4.59
4.60- 7.19
7.20- 9.79
9.80-12.39
12.40-15.00
gi
Estadı́sticos de DO
19

DO
7.78

6



 M eDO 7.25
4
ŜDO
4.57
9



Q1
3.15

12

Q
12.37
3
50
P
Se tiene que
xi yi = 11806. La matriz de varianzas-covarianzas y coeficiente de correlación:
8
2o E.T.S.Ingenierı́a de Caminos
Estadı́stica Aplicada
19
12
9
6
4
31,9
9
31,1
Temperatura
Figure 4: Diagrama bivariado.
En la parte
superior aparece el histograma de la variable
DO y en la parte lateral
el histograma de la variable temperatura T
9
30,3
8
29,5
9
28,7
15
27,9
2,0
4,6
7,2
9,8
12,4
Contenido en oxígeno
La matriz de varianzas-covarianzas y coeficiente de correlación:
µ
¶ µ
¶
ST2
Cov(T, DO)
1.43 5.16
=
2
Cov(T, DO)
SDO
5.16 20.85
rT,DO =
Cov(T, DO)
= 0.944
ST SDO
9
15,0
Descargar