MEDIDAS DE DISPERSIÓN A pesar de la gran importancia de las medidas de tendencia central y de la cantidad de información que aportan individualmente, no hay que dejar de señalar que en muchas ocasiones esa información, no sólo no es completa, sino que puede inducir a errores en su interpretación. Veamos algunos ejemplos. Consideremos dos grupos de personas extraídos como muestras respectivas de dos poblaciones distintas: el primero está compuesto por 100 personas que asisten a la proyección de una película para niños, y el segundo por 100 personas elegidas entre los asistentes a una discoteca juvenil. Pudiera ocurrir que, aun siendo las distribuciones de las edades de ambos grupos muy distinta, la media y la mediana coincidieran para ambas. (Da un ejemplo concreto en que esto ocurra). Igualmente ocurre en este otro ejemplo. La caja de un kiosco registra las siguientes entradas en miles de pesos, a lo largo de dos semanas correspondientes a épocas distintas del año 1ª semana 10 20 30 50 60 80 100 350 2ª semana 30 40 50 50 60 60 60 350 La media y la mediana de ambas distribuciones coinciden (el valor de ambas es 50 en los dos casos) y, sin embargo, las consecuencias que se podrían derivar de una y otra tabla son bien distintas. Comprendemos pues, a la vista de estos ejemplos, la necesidad de conocer otras medidas, aparte de los valores de centralización, que nos indiquen la mayor o menor desviación de cada observación respecto de aquellos valores. Las medidas de desviación, variación o dispersión que estudiaremos a continuación son: Rango o amplitud, desviación media y desviación típica. RANGO, AMPLITUD TOTAL O RECORRIDO El rango se suele definir como la diferencia entre los dos valores extremos que toma la variable. Es la medida de dispersión más sencilla y también, por tanto, la que proporciona menos información. Además, esta información puede ser errónea, pues el hecho de que no influyan más de dos valores del total de la serie puede provocar una deformación de la realidad. Comparemos, por ejemplo, estas dos series: Serie 1: 1 5 7 7 8 9 9 10 17 Serie 2: 2 4 6 8 10 12 14 16 18 Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mientras la primera tiene una mayor concentración en el centro, la segunda se distribuye uniformemente a lo largo de todo el recorrido. El uso de esta medida de dispersión, será pues, bastante restringido. DESVIACIÓN MEDIA En teoría, la desviación puede referirse a cada una de las medidas de tendencia central: media, mediana o moda; pero el interés se suele centrar en la medida de la desviación con respecto a la media, que llamaremos desviación media. Puede definirse como la media aritmética de las desviaciones de cada uno de los valores con respecto a la media aritmética de la distribución, y de indica así: DM xx N Nótese que se toman las desviaciones en valor absoluto, es decir, que la fórmula no distingue si la diferencia de cada valor de la variable con la media es en más o en menos. Ya se habrá advertido que esta expresión sirve para calcular la desviación media en el caso de datos sin agrupar. Veamos un ejemplo: Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviación media de estos valores. x 2 2 4 4 4 5 6 7 8 8 xx x -3 3 -1 -1 -1 0 1 2 3 3 3 3 1 1 1 0 1 2 3 3 DM = 1,8 Veamos ahora cómo se calcula la desviación media en el caso de datos agrupados en intervalos. DM n x i N donde observamos que ahora las desviaciones van multiplicadas por las frecuencias de los intervalos correspondientes. Además, las desviaciones son de cada centro, o marca de clase, a la media aritmética. Es decir, DM n (x i m x) N Ejemplo: Para hallar la desviación media de la siguiente tabla referida a las edades de los 100 empleados de una cierta empresa: Clase 16-20 20-24 24-28 28-32 32-36 36-40 40-44 44-48 48-52 ni 2 8 8 18 20 18 15 8 3 veamos cómo se procede: Clase ni xm ni xm xx ni x x 16-20 20-24 24-28 28-32 32-36 36-40 40-44 44-48 2 8 8 18 20 18 18 8 18 22 36 176 16,72 33,44 48-52 3 100 DM = 6,09 La desviación media viene a indicar el grado de concentración o de dispersión de los valores de la variable. Si es muy alta, indica gran dispersión; si es muy baja refleja un buen agrupamiento y que los valores son parecidos entre sí. La desviación media se puede utilizar como medida de dispersión en todas aquellas distribuciones en las que la medida de tendencia central más significativas haya sido la media. Sin embargo, para las mismas distribuciones es mucho más significativa la desviación típica, que estudiaremos a continuación, y eso hace que el uso de la desviación media sea cada vez más restringido. DESVIACIÓN TÍPICA Es sin duda la medida de dispersión más importante, ya que además sirve como medida previa al cálculo de otros valores estadísticos. La desviación típica se define como la raíz cuadrada de la media de los cuadrados de las desviaciones con respecto a la media de la distribución. Es decir, S x x S xx 2 N para datos sin agrupar, o bien: 2 N Cálculo de la desviación típica para datos no agrupados en clases Veamos la fórmula anterior aplicada a un caso concreto. Hallar la desviación típica de la serie: 5, 8, 10, 12, 16. x xx xx 5 8 10 12 16 -5,2 -2,2 -0,2 1,8 5,8 27,04 4,84 0,04 3,24 33,64 2 Primero hallamos x = 10,2 luego S = 13,76 3,71 Cálculo de la desviación típica para datos agrupados en clases y agrupados por frecuencias Método largo: Se aplica la siguiente fórmula S fx 2 N donde x xm x y f es la frecuencia absoluta de cada intervalo. Método abreviado o corto: La fórmula a utilizar es: SI fd N 2 fd N 2 donde: I: amplitud de la clase D: distancia en clases desde cada una en concreto a la clase que contiene a la media supuesta A. Ejemplo: Las alturas en cm de un grupo de 103 personas se distribuyen así: Clases 150 – 155 155 – 160 160 – 165 165 – 170 170 – 175 175 – 180 180 – 185 185 – 190 190 – 195 195 – 200 Resp: S = 9,56 f 3 6 12 18 25 17 10 7 4 1 103 Coeficiente de variación Las medidas de dispersión anteriores son todas medidas de variación absolutas. Una medida de dispersión relativa de los datos, que toma en cuenta su magnitud, está dada por el coeficiente de variación. El Coeficiente de variación (CV) es una medida de la dispersión relativa de un conjunto de datos, que se obtiene dividiendo la desviación estándar del conjunto entre su media aritmética y se expresa como para una muestra y para la población. Los coeficientes de variación tienen las siguientes características: Puesto que tanto la desviación estándar como la media se miden en las unidades originales, el CV es una medida independiente de las unidades de medición. Debido a la propiedad anterior el CV es la cantidad más adecuada para comparar la variabilidad de dos conjuntos de datos. En áreas de investigación donde se tienen datos de experimentos previos, el CV es muy usado para evaluar la precisión de un experimento, comparando en CV del experimento en cuestión con los valores del mismo en experiencias anteriores. Desviación media, desviación estándar y varianza Para presentar la desviación estándar, que es por mucho la medida generalmente más útil de la dispersión, obsérvese que la dispersión de un conjunto de datos es pequeña si los valores se agrupan en forma cerrada en torno a su media y es grande si los valores se dispersan ampliamente en torno a su media. Por tanto, parecería razonable medir la dispersión de un conjunto de datos en términos de las cantidades en las cuales difieren los valores individuales de su media. Si se tiene un conjunto de números: que constituyen una población con una media , las diferencias entre: se denominan las desviaciones de la media y esto sugiere que se podría usar el promedio de estas desviaciones como medida de dispersión en la población. A menos que las X sean todas iguales, algunas de las desviaciones serán positivas y otras negativas, la suma de todas las desviaciones de la media y en consecuencia también su promedio es siempre cero. Como realmente se está interesado en la magnitud de las desviaciones, y no si son positivas o negativas, se pueden ignorar simplemente los signos y definir una medida de variación en términos de los valores absolutos de las desviaciones de la media. En realidad, si se suman las desviaciones de la media como si fueran todas positivas o cero y las dividiéramos entre N, se obtendría la media estadística que se denomina desviación media y se representa por: Esta medida tiene una apariencia intuitiva, pero debido al valor absoluto, lleva a encontrar dificultades teóricas en problemas de inferencia y rara vez se usa. Un método alternativo consiste en trabajar con los cuadrados de las desviaciones de la media, ya que también esto eliminará el efecto de los signos. Los cuadrados de números reales no pueden ser negativos y pueden tomar el valor de cero. Por consiguiente, si se promedia las desviaciones cuadradas de la media y se toma la raíz cuadrada del resultado (para compensar el hecho de que las desviaciones fuesen cuadradas), se obtiene la Desviación estándar de la población. Ésta medida de variación se representa por medio de sigma minúscula ( ) y al expresar literalmente lo que se ha hecho aquí de manera matemática, también se conoce como la raíz de la desviación cuadrada media. A su cuadrado de se le llama Varianza de la población. Quizá parezca lógico utilizar la misma fórmula con n y sustituidas por N y , para la desviación estándar de una muestra; pero, esto no es realmente lo que se hace. En lugar de dividir la suma de las desviaciones entre n, se divide entre (n-1) y se define como desviación estándar de la muestra, que se denota con s como Su cuadrado s2, se llama la Varianza de la muestra. Al dividir entre n-1 en vez de hacerlo entre n, tiene una buena razón. Si se dividiera entre n y se utilizara s2 como estimación de es decir, se utilizaría la varianza de una muestra para determinar la varianza de la población de la cual provino, el resultado sería demasiado pequeño y esto se corrige al dividir entre n-1 en lugar de hacerlo entre n. Si el valor de n es muy grande no importa hacerlo entre n-1 sino que es práctico para definir s como se hizo. Rango Intercuartil Es la diferencia entre el tercer cuartil y el primero. Q = Q3 – Q1 Rango o amplitud Semi-intercuartil Es la mitad del rango intercuartilico (Q). Tiene la ventaja sobre el rango de que elimina el influjo de las puntuacioens extremas, porque se calcula mediante los cuartiles primero y tercero y su fórmula es: Qd = Q3 – Q1 2 Rango Interpercentil Es la diferencia entre el percentil noventa y el percentil diez. P = P90 – P10 Rango o amplitud Semi-interpercentil Es la mitad del rango interpercentil (P). Tiene la ventaja sobre el rango de que elimina el influjo de las puntuacioens extremas, porque se calcula mediante los percentiles noventavo y decimo su fórmula es: Pd = P90 – P10 2 . Bibliografía Estadística Descriptiva, Zantmaró Ediciones, Licda. Iris C. Rodas de López Estadistica, Kamar,Karen de Alvarado. E grafia http://colposfesz.galeon.com/est501/distfrec/meddisp/meddisp.htm http://www.aulafacil.com/CursoEstadistica/Lecc-6-est.htm Universidad Panamericana Licda. Aura Marina Ventura Estadística Inferencial Segundo Trimestre Medidas de Dispersión Robin Alexander Montalvo Hernández Carné: 201300279 Guatemala, 15 de Junio de 2013.