MEDIDAS DE DISPERSIÓN

Anuncio
MEDIDAS DE DISPERSIÓN.
Las medidas de tendencia central solamente dan una medida de la localización del centro de
los datos. Con mucha frecuencia, es igualmente importante describir la forma en que las
observaciones están dispersas, a cada lado del centro. A esto por lo general se le conoce
como dispersión o variación. Las medidas de dispersión que analizaremos serán: La
amplitud, la desviación media, la varianza y la desviación estándar (desviación típica).
Cuando determinamos una medida de dispersión es posible evaluar la confiabilidad del
promedio que se está utilizando. Una dispersión pequeña indica que los datos se encuentran
muy cercanos entre si, por ejemplo al rededor de la de la media aritmética. En caso inverso
una dispersión grande indica que la medida de la media no es muy confiable.
La medida de la dispersión es muy importante debido a que dos muestras de observaciones
pueden tener el mismo valor central paro tener una dispersión distinta. Por ejemplo, las
calificaciones de dos alumnos son las siguientes.
Alumno
Matemáticas Física
Antonio
6
9
Alejandra
8
8
Química Español Inglés
10
7
8
9
10
9
Historia Sociales promedio
9
9
8.28
8
7
8.28
En las siguientes gráficas se muestran las calificaciones de cada alumno, la línea punteada
indica la media aritmética de sus calificaciones.
La calificación promedio de cada alumno es la misma (8.28), pero se puede observar en las
calificaciones de Antonio que hay mayor variación con respecto a su media aritmética, En las
calificaciones de Alejandra se puede observar menor variación con respecto a su media
aritmética. Por lo que las dispersiones para los dos alumnos son distintas. La medida más
importante es la desviación estándar.
AMPLITUD.
La amplitud también llamada rango de variación de una muestra x1, x2, x3...xn, es la diferencia
entre el dato mayor y el dato menor.
A= Xmáx – Xmin.
Para el caso de las calificaciones de Antonio y Alejandra la amplitud es:
A Antonio = 10-6= 4 puntos.
A Alejandra= 10-7=3 puntos.
Un inconveniente de la amplitud es que sólo depende de los datos extremos y no toma en
cuenta los datos restantes.
DESVIACIÓN MEDIA.
La desviación media, denominada también como desviación promedio, mide el promedio de
las distancias de una muestra o población respecto a su media aritmética y la podemos
definir como “El promedio de todas las distancias absolutas, medidas con respecto a la
media aritmética”, y se calcula con la siguiente fórmula.
Donde:
n
DM =
∑ xi − x
I =1
n
DM es la desviación media.
xi es el valor de cada observación.
x es la media aritmética.
n es el número de observaciones.
es el valor absoluto.
Si tomamos en cuenta las calificaciones de Antonio, su desviación media se determina de la
siguiente manera.
i
xi
x
xi- x
xi − x
1
2
3
4
5
6
7
total
6
9
10
7
8
9
9
58
8.28
8.28
8.28
8.28
8.28
8.28
8.28
-2.28
0.72
1.72
-1.28
-0.28
0.72
0.72
2.28
0.72
1.72
1.28
0.28
0.72
0.72
7.72
n
DM =
∑ xi − x
I =1
=
n
7.72
= 1.10
7
Se puede interpretar que en promedio las calificaciones de Antonio varían 1.10 puntos
respecto a su media aritmética.
VARIANZA Y DESVIACIÓN ESTÁNDAR.
La varianza de una serie de observaciones x1, x2, x3...xn, es el promedio de las
dispersiones cuadráticas con respecto a la media aritmética, la varianza se determina de
la siguiente manera:
n
S2 =
∑ (xi − x )
i =1
2
Si se trata de una muestra.
n −1
Nota. Si n es grande los resultados son similares a los de la varianza poblacional, pero si n
es pequeña conviene utilizar entre n-1 para obtener un mejor acercamiento a los datos de la
varianza muestral
n
σ2 =
∑ (xi − µ)
i =1
N
2
Si se trata de una población.
Donde:
µ es la media aritmética de la población
N es el tamaño de la población.
n es el tamaño de la muestra.
xi valor de la observación.
x = es la media aritmética de la muestra.
Como la varianza presenta la desventaja de estar en unidades cuadráticas es conveniente
definir la desviación estándar.
La desviación estándar es la raíz cuadrada positiva de la varianza.
Para una muestra la desviación estándar se obtiene.
n
∑ (xi − x)
S=+
2
i =1
n
Para una población la desviación estándar se obtiene.
n
σ=
∑ ( xi − µ)
2
i =1
N
Varianza y desviación estándar para una tabla de distribución de frecuencias está dada
por:
n
n
S2 =
∑ fi(mi − x)
i =1
n
2
S=+
∑ fi(mi − x)
Donde:
fi es la frecuencia de la clase.
mi es la marca de clase.
x es la media aritmética.
n= tamaño de la muestra.
i =1
n
2
Ejemplos resueltos.
Varianza y desviación estándar para datos no agrupados.
Ejemplo 1. Suponga que el número de materias reprobadas por diez estudiantes de un
grupo son las siguientes:
3, 4, 2, 1, 2, 3, 5, 0, 3 y 2 materias, determinar su varianza y su desviación estándar.
Primero calculamos la media.
n
_
x=
∑ xi
i =1
n
x1 + x 2 + x 3 + x 4 + x 5 3 + 4 + 2 + 1 + 2 + 3 + 5 + 0 + 3 + 2 25
=
=
= 2.5
n
10
10
=
Ahora calculamos la varianza y la desviación estándar.
n
S =
2
∑ ( xi − x )
2
i =1
n −1
2
2
2
2
2
2
2
2
2
2
(3 − 2.5) + (4 − 2.5) + (2 − 2.5) + (1 − 2.5) + (2 − 2.5) + (3 − 2.5) + (5 − 2.5) + (0 − 2.5) + (3 − 2.5) + (2 − 2.5)
10 − 1
0.25 + 2.25 + 0.25 + 2.25 + 0.25 + 0.25 + 6.25 + 6.25 + 0.25 + 0.25
9
=
18.5
= 2.05
9
S 2 = 2.05
Para la desviación estándar se extrae la raíz cuadrada de la varianza.
2
S= S
S=
2.05 = 1.43
Materias.
Ejemplo 2. La siguiente tabla muestra el número de horas diarias que dedican 50 niños de
primaria a ver la televisión. Con estos datos obtenga la varianza y la desviación estándar.
Horas
2
3
4
5
6
7
8
9
10
total
x =
54
54
9
= 6
Frecuencia
fi
4
11
10
14
5
3
2
1
0
50
xi − x
2-6=-4
3-6=-3
4-6=-2
5-6=-1
6-6=0
7-6=1
8-6=2
9-6=3
10-6=4
( xi − x ) 2
16
9
4
1
0
1
4
9
16
fi ( xi − x ) 2
64
99
40
14
0
3
8
9
0
237
n
S2 =
S2 =
∑ fi(mi − x )
2
i =1
Por lo que la varianza es:
n
237
= 4.74
50
La desviación estándar es:
S = 4.74 = 2.17 horas.
Varianza y desviación estándar para datos agrupados.
Ejemplo 3. La siguiente tabla muestra las edades de las personas que asisten a una
conferencia de las reformas a la ley del ISSSTE. Con estos datos obtenga la varianza y la
desviación estándar
Clase
N°
1
2
3
4
5
6
suma
Límites de clase
Li
Ls
20
29
30
39
40
49
50
59
60
69
70
79
Frecuencia
fi
16
25
51
80
20
8
200
n
∑ (fi )( mi )
_
9977
i
=
1
x =
=
= 49.88
n
200
marca de
clase
mi
24.5
34.5
44.5
54.5
64.5
74.5
(mi − x)2 fi(mi− x)2
(fi)(mi)
392
862.5
2269.5
4360
1290
596
9770
644.14
236.54
28.94
21.34
213.74
606.14
n
S2 =
∑fi(mi − x)
i =1
n
2
=
28527.68
= 142.63
200
n
S=
∑ fi ( mi − x )
i =1
n
2
=
142 .63 = 11 .94 años
Existe otra forma de obtener la varianza sin que se obtenga la media.
 n

 ∑ (fi)(mi) 
n

(fi)(mi) 2 −  i =1
∑
n
S 2 = i =1
n −1
S = S2
2
10306.31
5913.61
1476.16
1707.55
4274.89
4849.16
28527.68
Determinemos la varianza y la desviación estándar empleando el modelo matemático
anterior.
Clase
N°
1
2
3
4
5
6
suma
Límites de clase
Li
Ls
20
29
30
39
40
49
50
59
60
69
70
79
Frecuencia
fi
16
25
51
80
20
8
200
marca de
clase
mi
24.5
34.5
44.5
54.5
64.5
74.5
(fi)(mi)
392
862.5
2269.5
4360
1290
596
9770
95452900
( fi )( mi ) 2
9604.00
29756.25
100992.75
237620.00
83205.00
44402.00
505580.00
2
n

 ∑(fi)(mi) 
n

95452900
(fi)(mi) 2 −  i=1
505580−
∑
n
200 = 505580− 477264.5 = 28315.5 = 142.28
S2 = i=1
=
n −1
199
199
199
S =
S2 =
142 . 28 = 11 . 92 Años
Sabemos que una desviación estándar pequeña, para un conjunto de valores indica que
éstos se encuentran localizados cerca de su media aritmética. Por el contrario, una
desviación estándar grande, indica que las observaciones están muy dispersas con respecto
a la media aritmética.
De nuestro problema anterior sabemos que su media aritmética es de x =49.88 años y su
desviación estándar es de S = 11.92 años, pero ¿Qué porción de los datos se encuentran
alrededor de la media aritmética y el valor de su desviación estándar? Para contestar
esta interrogante utilizaremos el teorema de Chebysheff.
Descargar