MEDIDAS DE DISPERSIÓN

Anuncio
MEDIDAS DE DISPERSIÓN
A pesar de la gran importancia de las medidas de tendencia central y de la
cantidad de información que aportan individualmente, no hay que dejar de señalar
que en muchas ocasiones esa información, no sólo no es completa, sino que
puede inducir a errores en su interpretación. Veamos algunos ejemplos.
Consideremos dos grupos de personas extraídos como muestras respectivas de
dos poblaciones distintas: el primero está compuesto por 100 personas que
asisten a la proyección de una película para niños, y el segundo por 100 personas
elegidas entre los asistentes a una discoteca juvenil. Pudiera ocurrir que, aun
siendo las distribuciones de las edades de ambos grupos muy distinta, la media y
la mediana coincidieran para ambas. (Da un ejemplo concreto en que esto ocurra).
Igualmente ocurre en este otro ejemplo. La caja de un kiosco registra las
siguientes entradas en miles de pesos, a lo largo de dos semanas
correspondientes a épocas distintas del año
1ª semana
10
20
30
50
60
80
100
350
2ª semana
30
40
50
50
60
60
60
350
La media y la mediana de ambas distribuciones coinciden (el valor de ambas es
50 en los dos casos) y, sin embargo, las consecuencias que se podrían derivar de
una y otra tabla son bien distintas.
Comprendemos pues, a la vista de estos ejemplos, la necesidad de conocer otras
medidas, aparte de los valores de centralización, que nos indiquen la mayor o
menor desviación de cada observación respecto de aquellos valores.
Las medidas de desviación, variación o dispersión que estudiaremos a
continuación son: Rango o amplitud, desviación media y desviación típica.
RANGO, AMPLITUD TOTAL O RECORRIDO
El rango se suele definir como la diferencia entre los dos valores extremos que
toma la variable. Es la medida de dispersión más sencilla y también, por tanto, la
que proporciona menos información. Además, esta información puede ser errónea,
pues el hecho de que no influyan más de dos valores del total de la serie puede
provocar una deformación de la realidad.
Comparemos, por ejemplo, estas dos series:
Serie 1: 1 5 7 7 8 9 9 10 17
Serie 2: 2 4 6 8 10 12 14 16 18
Ambas series tienen rango 16, pero están desigualmente agrupadas, pues
mientras la primera tiene una mayor concentración en el centro, la segunda se
distribuye uniformemente a lo largo de todo el recorrido.
El uso de esta medida de dispersión, será pues, bastante restringido.
DESVIACIÓN MEDIA
En teoría, la desviación puede referirse a cada una de las medidas de tendencia
central: media, mediana o moda; pero el interés se suele centrar en la medida de
la desviación con respecto a la media, que llamaremos desviación media.
Puede definirse como la media aritmética de las desviaciones de cada uno de los
valores con respecto a la media aritmética de la distribución, y de indica así:
DM 
 xx
N
Nótese que se toman las desviaciones en valor absoluto, es decir, que la fórmula
no distingue si la diferencia de cada valor de la variable con la media es en más o
en menos.
Ya se habrá advertido que esta expresión sirve para calcular la desviación media
en el caso de datos sin agrupar. Veamos un ejemplo:
Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviación media de estos
valores.
x
2
2
4
4
4
5
6
7
8
8
xx
x
-3
3
-1
-1
-1
0
1
2
3
3
3
3
1
1
1
0
1
2
3
3
DM = 1,8
Veamos ahora cómo se calcula la desviación media en el caso de datos
agrupados en intervalos.
DM 
 n x
i
N
donde observamos que ahora las desviaciones van multiplicadas por las
frecuencias de los intervalos correspondientes.
Además, las desviaciones son de cada centro, o marca de clase, a la media
aritmética. Es decir,
DM 
 n (x
i
m
 x)
N
Ejemplo: Para hallar la desviación media de la siguiente tabla referida a las
edades de los 100 empleados de una cierta empresa:
Clase
16-20
20-24
24-28
28-32
32-36
36-40
40-44
44-48
48-52
ni
2
8
8
18
20
18
15
8
3
veamos cómo se procede:
Clase
ni
xm
ni  xm
xx
ni  x  x
16-20
20-24
24-28
28-32
32-36
36-40
40-44
44-48
2
8
8
18
20
18
18
8
18
22
36
176
16,72
33,44
48-52
3
100
DM = 6,09
La desviación media viene a indicar el grado de concentración o de dispersión de
los valores de la variable. Si es muy alta, indica gran dispersión; si es muy baja
refleja un buen agrupamiento y que los valores son parecidos entre sí.
La desviación media se puede utilizar como medida de dispersión en todas
aquellas distribuciones en las que la medida de tendencia central
más
significativas haya sido la media. Sin embargo, para las mismas distribuciones es
mucho más significativa la desviación típica, que estudiaremos a continuación, y
eso hace que el uso de la desviación media sea cada vez más restringido.
DESVIACIÓN TÍPICA
Es sin duda la medida de dispersión más importante, ya que además sirve como
medida previa al cálculo de otros valores estadísticos.
La desviación típica se define como la raíz cuadrada de la media de los cuadrados
de las desviaciones con respecto a la media de la distribución. Es decir,
S
 x  x
S
 xx
2
N
para datos sin agrupar, o bien:
2
N
Cálculo de la desviación típica para datos no agrupados en clases
Veamos la fórmula anterior aplicada a un caso concreto.
Hallar la desviación típica de la serie: 5, 8, 10, 12, 16.
x
xx
xx
5
8
10
12
16
-5,2
-2,2
-0,2
1,8
5,8
27,04
4,84
0,04
3,24
33,64
2
Primero hallamos x = 10,2
luego S = 13,76  3,71
Cálculo de la desviación típica para datos agrupados en clases y agrupados
por frecuencias
Método largo: Se aplica la siguiente fórmula
S
 fx
2
N
donde x  xm  x y f es la frecuencia absoluta de cada intervalo.
Método abreviado o corto: La fórmula a utilizar es:
SI
 fd
N
2
  fd 


 N 


2
donde:
I: amplitud de la clase
D: distancia en clases desde cada una en concreto a la clase que contiene a la
media supuesta A.
Ejemplo: Las alturas en cm de un grupo de 103 personas se distribuyen así:
Clases
150 – 155
155 – 160
160 – 165
165 – 170
170 – 175
175 – 180
180 – 185
185 – 190
190 – 195
195 – 200
Resp: S = 9,56
f
3
6
12
18
25
17
10
7
4
1
103
Coeficiente de variación
Las medidas de dispersión anteriores son todas medidas de variación absolutas.
Una medida de dispersión relativa de los datos, que toma en cuenta su magnitud,
está dada por el coeficiente de variación.
El Coeficiente de variación (CV) es una medida de la dispersión relativa de un
conjunto de datos, que se obtiene dividiendo la desviación estándar del conjunto
entre su media aritmética y se expresa como
para una muestra y
para la población.
Los coeficientes de variación tienen las siguientes características:

Puesto que tanto la desviación estándar como la media se miden en las
unidades originales, el CV es una medida independiente de las unidades de
medición.

Debido a la propiedad anterior el CV es la cantidad más adecuada para
comparar la variabilidad de dos conjuntos de datos.

En áreas de investigación donde se tienen datos de experimentos previos,
el CV es muy usado para evaluar la precisión de un experimento,
comparando en CV del experimento en cuestión con los valores del mismo
en experiencias anteriores.
Desviación media, desviación estándar y varianza
Para presentar la desviación estándar, que es por mucho la medida
generalmente más útil de la dispersión, obsérvese que la dispersión de un
conjunto de datos es pequeña si los valores se agrupan en forma cerrada en torno
a su media y es grande si los valores se dispersan ampliamente en torno a su
media. Por tanto, parecería razonable medir la dispersión de un conjunto de datos
en términos de las cantidades en las cuales difieren los valores individuales de su
media. Si se tiene un conjunto de números:
que constituyen una población con una media
, las diferencias entre:
se denominan las desviaciones de la media y esto sugiere que se podría usar el
promedio de estas desviaciones como medida de dispersión en la población. A
menos que las X sean todas iguales, algunas de las desviaciones serán positivas
y otras negativas, la suma de todas las desviaciones de la media
y en consecuencia también su promedio es siempre cero.
Como realmente se está interesado en la magnitud de las desviaciones, y no si
son positivas o negativas, se pueden ignorar simplemente los signos y definir una
medida de variación en términos de los valores absolutos de las desviaciones de
la media. En realidad, si se suman las desviaciones de la media como si fueran
todas positivas o cero y las dividiéramos entre N, se obtendría la media estadística
que se denomina desviación media y se representa por:
Esta medida tiene una apariencia intuitiva, pero debido al valor absoluto, lleva a
encontrar dificultades teóricas en problemas de inferencia y rara vez se usa.
Un método alternativo consiste en trabajar con los cuadrados de las desviaciones
de la media, ya que también esto eliminará el efecto de los signos. Los cuadrados
de números reales no pueden ser negativos y pueden tomar el valor de cero.
Por consiguiente, si se promedia las desviaciones cuadradas de la media y se
toma la raíz cuadrada del resultado (para compensar el hecho de que las
desviaciones fuesen cuadradas), se obtiene la Desviación estándar de la
población.
Ésta medida de variación se representa por medio de sigma minúscula ( ) y al
expresar literalmente lo que se ha hecho aquí de manera matemática, también se
conoce como la raíz de la desviación cuadrada media. A su cuadrado de se le
llama Varianza de la población.
Quizá parezca lógico utilizar la misma fórmula con n y
sustituidas por N y ,
para la desviación estándar de una muestra; pero, esto no es realmente lo que se
hace. En lugar de dividir la suma de las desviaciones entre n, se divide entre (n-1)
y se define como desviación estándar de la muestra, que se denota con s como
Su cuadrado s2, se llama la Varianza de la muestra.
Al dividir entre n-1 en vez de hacerlo entre n, tiene una buena razón. Si se
dividiera entre n y se utilizara s2 como estimación de
es decir, se utilizaría la
varianza de una muestra para determinar la varianza de la población de la cual
provino, el resultado sería demasiado pequeño y esto se corrige al dividir entre n-1
en lugar de hacerlo entre n. Si el valor de n es muy grande no importa hacerlo
entre n-1 sino que es práctico para definir s como se hizo.
Rango Intercuartil
Es la diferencia entre el tercer cuartil y el primero.
Q = Q3 – Q1
Rango o amplitud Semi-intercuartil
Es la mitad del rango intercuartilico (Q). Tiene la ventaja sobre el rango de que
elimina el influjo de las puntuacioens extremas, porque se calcula mediante los
cuartiles primero y tercero y su fórmula es:
Qd = Q3 – Q1
2
Rango Interpercentil
Es la diferencia entre el percentil noventa y el percentil diez.
P = P90 – P10
Rango o amplitud Semi-interpercentil
Es la mitad del rango interpercentil (P). Tiene la ventaja sobre el rango de que
elimina el influjo de las puntuacioens extremas, porque se calcula mediante los
percentiles noventavo y decimo su fórmula es:
Pd = P90 – P10
2
.
Bibliografía
 Estadística Descriptiva, Zantmaró Ediciones, Licda. Iris C. Rodas de López
 Estadistica, Kamar,Karen de Alvarado.
E grafia
 http://colposfesz.galeon.com/est501/distfrec/meddisp/meddisp.htm
 http://www.aulafacil.com/CursoEstadistica/Lecc-6-est.htm
Universidad Panamericana
Licda. Aura Marina Ventura
Estadística Inferencial
Segundo Trimestre
Medidas de Dispersión
Robin Alexander Montalvo Hernández
Carné: 201300279
Guatemala, 15 de Junio de 2013.
Documentos relacionados
Descargar