CapituloIEjercicios resueltos - Universidad Politécnica de Madrid

Anuncio
Cálculo y EstadísTICa. Primer Semestre.
EstadísTICa
Curso Primero
Graduado en Geomática y Topografía
Escuela Técnica Superior de Ingenieros en Topografía, Geodesia y Cartografía.
Universidad Politécnica de Madrid
Capítulo I
Ejercicios resueltos
ESTADÍSTICA DESCRIPTIVA
Manuel Barrero Ripoll.
Mª Ángeles Castejón Solanas.
Mª Luisa Casado Fuente.
Luis Sebastián Lorente.
Departamento de Ingeniería Topográfica y Cartografía
Universidad Politécnica de Madrid
2
Ejercicios resueltos
ESTADÍSTICA DESCRIPTIVA
Ejercicio 1. Se ha medido dieciséis veces la longitud en metros que separa dos puntos,
Los resultados obtenidos se muestran en la siguiente tabla 1.1:
13,404 13,443
13,457 13,460
13,445
13,460
13,447
13,465
13,449
13,455
13,450
13,453
13,453
13,445
13,455
13,455
Tabla 1.1
Calcular la moda, la mediana, los cuartiles y el percentil 90.
a) Para realizar este apartado, ordenamos los datos utilizando la tabla de distribución de
frecuencias absolutas acumuladas. (Tabla 1.2).
xi
13.404
13.443
13.445
13.447
13.449
13.450
13,453
13.455
13.457
13.460
13.465
La moda es el valor de máxima frecuencia. La distancia 13.455 se
repite tres veces y es la distancia de mayor frecuencia, por tanto
Ni
1
2
4
5
6
7
9
12
13
15
16
M0=13.455 metros s
n
es un valor entero, la mediana (M) es el valor medio de las
2
n
n
observaciones que ocupen los lugares = 8 y + 1 = 9 , de modo que
2
2
Por ser
-M=
13.453 + 13.453
=13.453 metros s
2
Tabla 1.2
n
es un valor entero, el primer cuartil Q1 es el valor medio de
4
n
n
los valores situados entre el cuarto y el quinto dato, = 4 y + 1 = 5 , así pues,
4
4
Ya que
- Q1 = P25 =
13.445 + 13.447
= 13.446 metros s
2
El 75 % del total de las observaciones es 12, el tercer cuartil Q3 estará entre los valores que
n
n
ocupan los lugares 3 = 12 y 3 + 1 = 13 , es decir,
4
4
- Q3= P75 =
13.455 + 13.457
= 13.456 metros s
2
Los nueve décimos de 16 es 14.4, por tanto el percentil 90 ocupará el lugar 15,
D9=P90 = 13,460 metros s
manuel.barrero@topografía.upm.es
3-I
A continuación exponemos el procedimiento para calcular los parámetros anteriores utilizando
las funciones específicas de las que EXCEL dispone para ello.
Para nuestro ejemplo supondremos que los valores están situados en el rango de datos A2:A17
y escribiremos en la columna E las funciones de Excel como se muestran en la columna G de
la figura 1.1:
Figura 1.1
[email protected]
4
Ejercicios resueltos
ESTADÍSTICA DESCRIPTIVA
Ejercicio 2. De los datos del ejercicio anterior, calcular: la media, varianza, desviación
típica, cuasivarianza, desviación típica de la muestra y los coeficientes de asimetría de
Pearson, de Fisher y de apuntamiento.
Para calcular los parámetros pedidos necesitamos hallar los momentos no centrales hasta el
orden cuarto. Para ello utilizamos una tabla como la que se muestra a continuación:
xi
ni
13.404
1
13.443
1
13.445
2
13.447
1
13.449
1
13.450
1
13.453
2
13.455
3
13.457
1
13.460
2
13.465
1
Sumas 16
(
xi − X
ni xi
13.404
13.443
26.890
13.447
13.449
13.450
26.906
40.365
13.457
26.920
13.465
215.196
ni xi − X
-0.045750
-0.006750
-0.004750
-0.002750
-0.000750
0.000250
0.003250
0.005250
0.007250
0.010250
0.015250
)
(
2
ni xi − X
0.00209
0.00005
0.00005
0.00001
0.00000
0.00000
0.00002
0.00008
0.00005
0.00021
0.00023
0.00279
)
-0.000096
0.000000
0.000000
0.000000
0.000000
0.000000
0.000000
0.000000
0.000000
0.000002
0.000004
-0.000090
3
(
ni xi − X
)
4
0.000004
0.000000
0.000000
0.000000
0.000000
0.000000
0.000000
0.000000
0.000000
0.000000
0.000000
0.000004
Tabla 2.1
Media aritmética:
Varianza:
σ2
X=∑
∑ n (x
=
i
i
n
n i x i 215.196
=
16
n
−X
)
Media = 13.4498 metros s
2
=
0.00279
= 0.00019
16
Varianza = 0.00019 7
Desviación típica:
σ = Varianza =
0.00017 ≈ 0.01321
Desviación típica = 0.01321 1
n 2
Cuasivarianza o varianza muestral: S2 =
σ =
n −1
∑ n (x
i
i
−X
n −1
)
2
=
0.002791
= 0.00018
15
Cuasivarianza = 0.00018 8
manuel.barrero@topografía.upm.es
5-I
∑n (x
n
S=
σ=
n −1
Desviación típica muestral:
i
i
−X
)
2
n −1
=
0.00279
≈ 0.01364
15
Desviación típica muestral = 0.01364 8
Coeficiente de asimetría de Pearson:
As =
X − Mo 13.44975 − 13.455
=
≈ −0.39743
0.01321
σ
Coeficiente de asimetría de Pearson As=-0.39743 3
Coeficiente de asimetría de Fisher:
(
1
∑ ni xi − X
g1 = n
σ3
)
3
−0.000090
16
= −2.5047
=
0.013213
Coeficiente de asimetría de Fisher g1=-2.504 7
Coeficiente de apuntamiento:
(
1
∑ ni xi − X
n
g2 =
σ4
)
4
0.000004
16
− 3 = 5.65051
−3 =
0.013214
Coeficiente de apuntamiento g2 = 5.6505 1
En la figura 2.2 exponemos el procedimiento para calcular los parámetros anteriores utilizando
algunas de las funciones específicas
de las que EXCEL dispone.
Para terminar este apartado,
advertimos que algunas fórmulas
empleadas por EXCEL pueden
producir resultados distintos que
con las utilizadas en clase. Por
ejemplo los coeficientes de
asimetría y apuntamiento de Fisher
producen resultados distintos, ello
es debido a que nosotros
calculamos los coeficientes de
asimetría y curtosis de la población
o del conjunto de datos, mientras
que EXCEL calcula los estimadores
o valores muestrales.
[email protected]
6
Ejercicios resueltos
Ejercicio 4 Dada la distribución de frecuencias absolutas mostrada en la tabla 4.1:
Intervalos
ni
10 - 15
48
15 - 20
60
20 - 25
80
25 - 30
30
30 - 35
13
35 - 40
10
40 - 45
6
45 - 50
3
Tabla 4.1
Calcular la moda, mediana, cuartiles y el percentil 10.
En este caso los datos están agrupados en intervalos, así pues, para el cálculo de los
parámetros pedidos, formamos la tabla de distribución de frecuencias y procedemos de la
forma siguiente:
Intervalo
10-15
15-20
20-25
25-30
30-35
35-40
40-45
45-50
Marca de
Frecuencia
Frecuencia ni
clase xi
Ni
12.5
48
48
17.5
60
108
22.5
80
188
27.5
30
218
32.5
13
231
37.5
10
241
42.5
6
247
47.5
3
250
Moda:
El intervalo modal es [20, 25) y
tomamos como moda, M0, el punto
medio del intervalo.
M0 =22.5 5
Mediana: El valor de n/2 es 125,
por tanto, el intervalo mediano es
[20, 25) y el valor de la mediana
Tabla 4.2
M = 20 +
Primer cuartil: El valor de
(125 − 108) 5 = 21.06
80
n
es 62.5, por tanto, el primer cuartil estará en el
4
intervalo [15, 20) y su valor es:
Q1 = 15 +
( 62.5 − 48) 5 = 16.21
60
3
n es 187.5, así pues el tercer cuartil Q3 está en el intervalo [20, 25) y su valor es:
4
Q3 = 20 +
(187.5 − 108) 5 = 24.97
80
El percentil 10 estará en el intervalo [10, 15) y su valor es:
P10 = 10 +
( 25 − 0 ) 5 = 12.60
48
[email protected]
8
Ejercicios resueltos
ESTADÍSTICA DESCRIPTIVA
Ejercicio 5. Representar el histograma de frecuencias y los polígonos de frecuencias
absolutas y absolutas acumuladas del ejercicio 4.
Para representar el histograma y el polígono de frecuencias absolutas acumuladas, utilizamos
la tabla 5.1 de distribución de frecuencias absolutas ni.
Histograma de frecuencias absolutas
100
80
Intervalos
ni
10-15
48
15-20
60
20-25
80
25-30
30
30-35
13
35-40
10
100
40-45
6
80
45-50
3
60
40
20
0
10 -
15 -
20 -
25 -
30 -
35 -
40 -
45 -
50
Poligono de fre cue ncias absolutas
60
40
Tabla 5.1
20
0
7.5
12.5
17.5
22.5
27.5
32.5
37.5
42.5
47.5
52.5
Figura 5.1
Para representar el polígono de frecuencias absolutas acumuladas, utilizamos la distribución
de frecuencias absolutas acumuladas Ni.
Intervalos
10 - 15
15 - 20
20 - 25
25 - 30
30 - 35
35 - 40
40 - 45
45 - 50
Ni
48
108
188
218
231
241
247
250
Polígono de fre cue ncias absolutas acumuladas
300
250
200
150
100
50
0
10
15
20
25
30
35
40
45
50
Tabla 5.2
manuel.barrero@topografía.upm.es
9-I
Ejercicio 6. Del ejercicio 4 hallar la media, varianza, desviación típica, cuasivarianza,
desviación típica muestral y los coeficientes de asimetría y apuntamiento de Fisher.
Para el cálculo de los parámetros estadísticos pedidos, utilizamos la tabla 6.1 y las fórmulas de
la tabla 6.1.
Intervalos
10-15
15-20
20-25
25-30
30-35
35-40
40-45
45-50
Marca de Frecuencia
ni xi
clase xi absoluta ni
12.5
48
600
17.5
60
1050
22.5
80
1800
27.5
30
825
32.5
13
422.5
37.5
10
375
42.5
6
255
47.5
3
142.5
250
5470
(x − X)
(
ni xi − X
i
-9.38
-4.38
0.62
5.62
10.62
15.62
20.62
25.62
64.96
)
2
(
ni xi − X
)
3
(
ni xi − X
Parámetro estadístico.
Varianza
Fórmula. Valor.
X=
∑n x
i
i
Desviación típica muestral
Coef. de asimetría de Fisher
Coeficiente de apuntamiento
−X
)
5470
=21.88
250
2
=
14778.90
=59.11
250
σ = σ2 = 7.69
2
S
∑ n (x
=
i
i
−X
)
n −1
2
=
n 2
σ =59.34
n −1
n 2
σ = 7.7
n −1
3
117423.34
1
ni x − X
∑
250
=
g1 = n
=1.03
σ3
454.55
4
3561461.88
1
ni x − X
∑
250
−3 =
− 3 =1.06
g2 = n
σ4
59.112
S = S2 =
(
(
Tabla 6.2
[email protected]
10
i
=
n
Desviación típica
Cuasivarianza
i
n
∑ n (x
=
σ2
4
4223.25 -39614.10
371580.22
1151.06
-5041.66
22082.47
30.75
19.07
11.82
947.53
5325.13
29927.23
1466.20
15571.01
165364.17
2439.84
38110.36
595283.87
2551.11
52603.81 1084690.64
1969.15
50449.70 1292521.44
14778.90 117423.34 3561461.88
Tabla 6.1
Media
)
Ejercicios resueltos
)
)
ESTADÍSTICA DESCRIPTIVA
Ejercicio 7. Los siguientes valores corresponden a la temperatura máxima diaria (ºF) de
36 días, obtenidos a las 14 horas en una cierta estación meteorológica.
84, 49, 61, 40, 83, 67, 45, 66, 70, 69, 80, 58, 68, 60, 67, 72, 75, 76,
73, 70, 63, 70, 78, 52, 67, 53, 67, 75, 61, 70, 81, 76, 79, 58, 57, 21.
a) Calcular: media, desviación típica muestral, cuartiles superior e inferior y la
mediana.
b) Estudiar la existencia de datos atípicos. Si existe algún valor atípico omitir, dicho
valor y calcular de nuevo el apartado a).
c) Con los datos de los apartados a y b construir un gráfico con el diagrama de caja, de
ambos apartados.
x i n i Ni n i xi n i xi2
Para el cálculo del apartado a) utilizaremos la tabla 7.1.
a) - Media: X =
2361
≈ 65.58
36
- Varianza de la población: σ 2 =
2
160811
− X ≈ 165,80
36
- Desviación típica de la población:
σ = σ2 = 165,8 ≈ 12.88
- Varianza muestral o cuasivarianza:
36
S2 = 165,8 ≈ 170.54
35
- Desviación típica muestral: S = S2 = 170.536 ≈ 13.06 .
- Primer cuartil:
n
n
58 + 60
= 59 .
= 9 y + 1=10 ⇒ Q1 =
4
4
2
- Tercer cuartil:
3
3
75 + 75
= 75 .
n = 27 y n + 1 = 28 ⇒ Q3 =
4
4
2
- Mediana:
2
2
67 + 68
n = 18 y n + 1 = 19 ⇒ M =
= 67.5 .
4
4
2
b) El rango intercuatílico y las barreras del gráfico son:
LS =mín[ xmáx, Q3+1.5·16]=mín[84, 99]=84.
IQR=75-59=16
LI =máx[ xmin, Q1-1.5·16]=máx[21, 35]=35.
21
40
45
49
52
53
57
58
60
61
63
66
67
68
69
70
72
73
75
76
78
79
80
81
83
84
1
1
1
1
1
1
1
2
1
2
1
1
4
1
1
4
1
1
2
2
1
1
1
1
1
1
1
2
3
4
5
6
7
9
10
12
13
14
18
19
20
24
25
26
28
30
31
32
33
34
35
36
21
40
45
49
52
53
57
116
60
122
63
66
268
68
69
280
72
73
150
152
78
79
80
81
83
84
2361
441
1600
2025
2401
2704
2809
3249
6728
3600
7442
3969
4356
17956
4624
4761
19600
5184
5329
11250
11552
6084
6241
6400
6561
6889
7056
160811
Tabla 7.1
El valor x=21 ºF es una temperatura atípica del conjunto de datos.
manuel.barrero@topografía.upm.es
11 - I
c) Si omitimos la observación 21ºF y procedemos de forma análoga al apartado a) se tiene:
ni
xi
40
45
49
52
53
57
58
60
61
63
66
67
68
69
70
72
73
75
76
78
79
80
81
83
84
1
1
1
1
1
1
2
1
2
1
1
4
1
1
4
1
1
2
2
1
1
1
1
1
1
Ni
n i xi
1
2
3
4
5
6
8
9
11
12
13
17
18
19
23
24
25
27
29
30
31
32
33
34
35
40
45
49
52
53
57
116
60
122
63
66
268
68
69
280
72
73
150
152
78
79
80
81
83
84
2340
n i x i2
1600
2025
2401
2704
2809
3249
6728
3600
7442
3969
4356
17956
4624
4761
19600
5184
5329
11250
11552
6084
6241
6400
6561
6889
7056
160370
- Media: X =
2340
= 66.86
35
- Varianza de la población: σ 2 =
- Varianza muestral: S2 =
2
160370
− X = 112.12
35
35
112.122 = 115.42
34
- Desviación típica de la población: σ = σ 2 = 10.59
- Desviación típica de la muestra:
S = S2 = 10.74 .
n
= 8.75 ⇒ Q1 = 60
4
3
- Tercer cuartil: n = 26.25 ⇒ Q3 = 75
4
2
- Mediana: n = 17.5 ⇒ M = 68
4
-
Primer cuartil:
Los valores del rango intercuartílco y de las barreras son:
Rango intercuartílico: IQR=75-59=15.
LI =máx[ xmin, Q1-1.5·16] = máx[40, 37.5]=40.
LS =mín[ xmáx, Q3+1.5·15] = mín[84, 97.5] = 84.
Con los datos calculados anteriormente, obtenemos
el diagrama de cajas de ambas series de datos
Realizado el diagrama de cajas en ambos casos, una
lectura de este gráfico sería que la dispersión y la
Tabla 7.2
5
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0
20
40
60
80
[email protected]
12
Ejercicios resueltos
100
asimetría son mayores en el
apartado a) que en el apartado
b). En a) la caja es algo más
ancha y, por tanto, mayor la
dispersión.
También
observamos que en b) la
media está más próxima a la
mediana que en a) y por ello
es más simétrica y más
significativa en b) al ser
menor la dispersión.
Descargar