UNIDAD 4: MEDIDAS DESCRIPTIVAS: Medidas de dispersión

Anuncio
Escuela de Economía – UTPL Estadistica I Autor: Econ. Carlos Correa Granda UNIDAD 4: MEDIDAS DESCRIPTIVAS: Medidas de dispersión
Para el desarrollo de este capítulo, vaya revisando conjuntamente con esta guía el
y capítulo 4 en las páginas 99 a 122.
capítulo 3 del texto básico, págs. 71 – 86
4.1. INTRODUCCIÓN Una vez que se han analizado las medidas que permiten determinar características puntuales sobre un conjunto de datos y dependiendo de las necesidades del investigador, es preciso también abordar el estudio de otras medidas que nos permiten llegar a mayores conclusiones al respecto. Estas medidas se denominan medidas de dispersión, ya que podemos identificar la variación o la distancia existente entre cada valor con respecto a aquel que nos sirve como referencia. Las medidas de variación son de gran utilidad porque a través de ellas se puede además llegar a tomar decisiones adecuadas porque si bien las medidas de tendencia central nos permiten tener un valor referencial, a través de las medidas de dispersión podemos llegar a conocer la variabilidad del conjunto de datos. Veamos entonces cuáles son estas medidas y en qué consiste cada una de ellas. 4.2. MEDIDAS DE DISPERSIÓN ¿Qué entiende por dispersión?, vamos a leer el texto en la página 71 y determinemos además la importancia de este tipo de medidas en el tratamiento de datos. Ahora puede usted expresar su propia definición sobre lo que es una medida de dispersión. Según la necesidad de la investigación, encontramos varios tipos de medidas que tienen su aplicabilidad específica, las mismas que, entre las de mayor uso, se pueden resumir de la siguiente manera, complete usted las medidas que faltan: Esta obra ha sido licenciada con Creative Commons Ecuador 3.0 de Reconocimiento ‐ No comercial ‐ Compartir igual (http://creativecommons.org/licenses/by‐nc‐sa/3.0/ec/). Escuela de Economía – UTPL Estadistica I Autor: Econ. Carlos Correa Granda
Amplitud de variación o rrango
Desviación M
Media
Medid
das de disp
persión
Varianza
Dessviación Tíípica o estándar
Cuartiles, decciles y percentilees
das. Desarrrollemos ahorra cada una de estas medid
4.2.1. A
AMPLITUD DE VARIACIÓN
N Este ess un conceptto que ya see lo abordó cuando c
trabaajamos las distribuciones de frecuenccia, recordemos que el rango o tamb
bién conocido
o como recorrido o amplitud de variació
ón, nos ayudaa a o de puestos o lugares qu
ue recorre la variable dessde el menorr valor hasta el conoceer el número
mayor. Despuéés de la lectura sobre el teema en el textto, usted pueede expresar ssu propia deffinición. Al ranggo lo determinamos a travvés de la diferrencia entre eel valor máxim
mo y el valor m
mínimo: Y lo qu
ue nos explicaa es el númerro de puestoss que recorre la variable desde el valor menor hastaa el valor m
mayor. 4.2.2. D
DESVIACIÓN MEDIA 4.2.2.1
1. Definición: Usted puede enuncciar su propiaa definición después de la lectura en ell texto básico
o, y puede deecir media, es: ___________________________________________________________. que la desviación m
Esta obrra ha sido licenciad
da con Creative Commons Ecuador 3.0 de Reconocim
miento ‐ No comerrcial ‐ Compartir iggual (http://crreativecommons.o
org/licenses/by‐ncc‐sa/3.0/ec/). Escuela de Economía – UTPL Estadistica I Autor: Econ. Carlos Correa Granda 4.2.2.2. Características: La desviación media posee ciertas características que la diferencian de las demás. Estas características las podemos llegar a escribir en las siguientes líneas, pues, como toda medida tiene sus ventajas y tiene también sus limitaciones. Citemos ahora las ventajas e inconvenientes que hemos podido detectar después de haber leído los temas (complete las que faltan): 1. __________________________________________________________________________
_____________________________________________________________________. 2. Considera todos los valores del conjunto a diferencia del rango que solamente toma los dos valores extremos. 3. __________________________________________________________________________
_____________________________________________________________________. 4. Toma en cuenta los valores absolutos de las diferencias entre cada uno de los valores registrados y la media aritmética. 4.2.2.3. Formas de cálculo: El cálculo de esta medida no reviste mayor dificultad, pues no es más que determinar el promedio de las diferencias entre cada valor con respecto a la media aritmética, pero cada una de estas diferencias se encuentra expresada en términos o valores absolutos 1 . Si se trata de valores no agrupados o simples: DM
∑|X‐ X|
n
Ejemplo: Si tenemos los siguientes datos: 4, 6, 3, 6, 7, 4, 5, 8, 4, 5 Determinamos primero la media aritmética, usted puede calcularla y obtendrá que la misma es: 5,2 1
Un valor absoluto es aquel que no considera el signo de la operación matemático y se lo denota entre ||, por ejemplo el ‐3 en valor absoluto será |‐3|= 3. Esta obra ha sido licenciada con Creative Commons Ecuador 3.0 de Reconocimiento ‐ No comercial ‐ Compartir igual (http://creativecommons.org/licenses/by‐nc‐sa/3.0/ec/). Escuela de Economía – UTPL Estadistica I Autor: Econ. Carlos Correa Granda Luego identificamos las diferencias en términos absolutos entre cada valor con respecto a la media de la siguiente manera: Esta obra ha sido licenciada con Creative Commons Ecuador 3.0 de Reconocimiento ‐ No comercial ‐ Compartir igual (http://creativecommons.org/licenses/by‐nc‐sa/3.0/ec/). Escuela de Economía – UTPL Estadistica I Autor: Econ. Carlos Correa Granda |4 – 5,2|= 1,2 |6 – 5,2| = 0,8 |3 – 5,2| = 2,2 |6 – 5,2| = 0,8 |7 ‐ 5,2|= 1,8 |4 – 5,2| = 1,2 |5 – 5,2| = 0,2 |8 – 5,2| = 2,8 |4 – 5,2| = 1,2 |5 – 5,2| = 0,2 Finalmente aplicamos la fórmula correspondiente y tenemos el valor: 12,4
10
DM
DM
1,24 Este resultado significa entonces que, en promedio, la distancia entre cada uno de los valores con respecto a la media aritmética es de 1,24. Si se trata de datos agrupados en una distribución de frecuencias, debemos considerar las frecuencias que afectan a cada una de las marcas de clase, por lo que la fórmula quedaría definida de la siguiente manera: DM
∑|X i ‐ X|ni
n
Desarrollemos un ejemplo: Vamos a tomar los datos del ejercicio que hemos venido trabajando anteriormente: Esta obra ha sido licenciada con Creative Commons Ecuador 3.0 de Reconocimiento ‐ No comercial ‐ Compartir igual (http://creativecommons.org/licenses/by‐nc‐sa/3.0/ec/). Escuela de Economía – UTPL Estadistica I Autor: Econ. Carlos Correa Granda Marcas Número de Frecuencia | de clase |
solicitudes absoluta (ni) (Xi) 0 – 6 27 3 5,16 |
139,32 |
6 – 12 11 9 0,84 9,24 12 – 18 7 15 6,84 47,88 18 – 24 3 21 12,84 38,52 24 – 30 1 27 18,84 18,84 30 – 36 1 33 24,84 24,84 Total 50 278,64 Diferencia entre la marca de clase y la media aritmética que, como sabemos, es 8,16 DM 278,64
50
DM
5,57 Interprete ahora este resultado. Puede revisar adicionalmente el ejemplo resuelto que se encuentra en el texto básico. 4.2.3. VARIANZA Y DESVIACIÓN ESTÁNDAR 4.2.3.1. DEFINICIÓN: Remítase ahora a la página 76 del texto básico, allí puede encontrar las definiciones de estas dos medidas de dispersión que son complementarias, pues partimos de la varianza y luego llegamos a la desviación típica o estándar. Con la lectura realizada, ahora establezca su propia definición respecto a la varianza y a la desviación típica, escríbalas en forma resumida en su cuaderno de trabajo. 4.2.3.2. CARACTERÍSTICAS: Después de haber definido estas medidas, también se pueden establecer las características de cada una de ellas y comparar con la desviación media. Esta obra ha sido licenciada con Creative Commons Ecuador 3.0 de Reconocimiento ‐ No comercial ‐ Compartir igual (http://creativecommons.org/licenses/by‐nc‐sa/3.0/ec/). Escuela de Economía – UTPL Estadistica I Autor: Econ. Carlos Correa Granda ¿Puede enumerar estas características? Inténtelo luego de la lectura. Coincidirá usted conmigo, que a diferencia de la desviación media, en donde se toman en cuenta las diferencias absolutas entre cada valor con respecto a la media aritmética, en la desviación típica o estándar no hace falta tomar los valores absolutos sino que se parte de la determinación de la varianza para llegar a la desviación típica. También coincidiremos si usted indica que una de las dificultades para la interpretación del valor obtenido como varianza es que las unidades de medida de la variable vendrían expresadas en forma cuadrática, y que por ello se considera a la desviación típica o estándar. Pasemos ahora a determinar las formas de cálculo de estas medidas. 4.2. 3.3. FORMAS DE CÁLCULO: Revise en el texto básico este acápite, allí va a encontrar que hacemos una diferenciación en el cálculo cuando se trata de trabajar una muestra y una población. También consideraremos el caso de trabajar con datos no agrupados y datos agrupados. Identifique los pasos que se sugieren para calcular el valor de la varianza, ¿puede completarlos? 1. Determine la media aritmética. 2. _____________________________________________________ 3. _____________________________________________________ 4. Divida la suma de las diferencias elevadas al cuadrado para el número de datos. Existe una diferencia cuando se tratan datos poblacionales y datos muestrales, como denominador en un caso se utiliza el total N y en el otro caso se utiliza el denominador (n – 1), con la lectura puede conocer el porqué de esta situación. Cuando se trata de calcular cualquier medida, es necesario realizar ejercicios de aplicación. Observe los ejemplos y la solución que se han desarrollado en el texto en las páginas 77 y 79 y practique con los ejercicios propuestos de las páginas 78 y 81. 4.2.4. COEFICIENTE DE VARIACIÓN: Este tema no se encuentra desarrollado específicamente en el texto, por lo que vamos a abordarlo aquí. Cuando se requiere hacer comparaciones entre dos o más conjuntos de datos, es útil hacerlo a través del coeficiente de variación ya que no interesa aquí la unidad de medida, pues es adimensional. Esta obra ha sido licenciada con Creative Commons Ecuador 3.0 de Reconocimiento ‐ No comercial ‐ Compartir igual (http://creativecommons.org/licenses/by‐nc‐sa/3.0/ec/). Escuela de Economía – UTPL Estadistica I Autor: Econ. Carlos Correa Granda Para su cálculo se debe utilizar la desviación típica o estándar y la media aritmética de cada uno de los conjuntos de datos y lo expresamos en forma porcentual. Trabajando con la muestra o la población tendremos las siguientes fórmulas a aplicar: 100 Coeficiente de variación de la muestra
100 Coeficiente de variación de la población
Revisemos su aplicación a través de un ejemplo: Un estudio sobre el monto de bonos pagados y los años de servicio de varios empleados, dio
como resultado los siguientes datos estadísticos: la media de los bonos pagados fue de $200 y
la desviación estándar fue de $40. La media del número de años de servicio fue 20 años y la
desviación estándar 2 años. Compare las dispersiones relativas de las dos distribuciones
empleando el coeficiente de variación.
Como observamos, tenemos dos grupos de datos: los primeros expresados en dólares y los segundos expresados en años. Necesitamos comparar estos dos grupos, entonces procedemos a aplicar el coeficiente de variación. Para los bonos
CV
CV
s
X
Para los años de servicio * 100 40
* 100 200
CV 20% CV
CV
s
X
* 100 2
* 100 20
CV 10% En este caso podemos observar que existe mayor dispersión relativa con respecto a la media aritmética en los bonos pagados en comparación con el conjunto de datos de los años de servicio. 4.2.5. ASIMETRÍA: Otra de las medidas que permiten caracterizar un conjunto de datos es la determinación del tipo de asimetría o sesgo que tiene el conjunto de datos, de manera que con ello podemos determinar si la tendencia es a distribuirse de manera similar o de pronto la mayoría de los datos se ubican en los valores mayores o menores. Esta obra ha sido licenciada con Creative Commons Ecuador 3.0 de Reconocimiento ‐ No comercial ‐ Compartir igual (http://creativecommons.org/licenses/by‐nc‐sa/3.0/ec/). Escuela de Economía – UTPL Estadistica I Autor: Econ. Carlos Correa Granda Este tema se encuentra desarrollado en el texto con el título SESGO, a partir de la página 113. Allí encuentra los tipos de sesgo y la forma de calcularlo. Podemos encontrar tres tipos de conjuntos de datos: •
•
•
Simétricos, aquellos que como su nombre lo indica se encuentran distribuidos simétricamente, es decir existe igual número de datos a partir de un valor central. Si comparamos los valores de la media, mediana y moda, veremos que es igual. Sesgados positivamente, o denominados también sesgados a la derecha, son aquellos que se encuentran más acumulados hacia los valores mayores, es decir en este caso la media aritmética es menor a la mediana y menor a la moda. Sesgados negativamente, o sesgados a la izquierda, son aquellos que se encuentran acumulados en mayor cantidad hacia los valores menores. En este caso al comparar la media es mayor a la mediana y mayor a la moda. Para determinar la magnitud de la simetría en un conjunto de datos, se lo puede hacer a través del cálculo de: ™ Coeficiente de sesgo de Pearson ™ Coeficiente de sesgo calculado con software. Para conocer las fórmulas que se deben aplicar, remítase al texto en su capítulo 4, página 113 y con la lectura, determine cuáles son las características y aplicaciones que se realiza a cada uno de ellos. Puede usted identificar además que en el caso del coeficiente de sesgo de Pearson, sus resultados van a estar entre ‐3 y 3, de manera que con ello podemos llegar a identificar el tipo de sesgo que tiene el conjunto de datos. Para reafirmar el uso de estas medidas examine el ejemplo resuelto que se encuentra en el texto al finalizar este tema. 4.2.6. OTRAS MEDIDAS DE DISPERSIÓN: Existen otras medidas que nos permiten también identificar la posición de determinados valores, entre ellas encontramos a los cuartiles, los deciles y los percentiles. Volvemos al texto y usted puede encontrar el desarrollo de estas medidas a partir de la página 106. 4.2.6.1. CUARTILES Los cuartiles, por definición, serían aquellas medidas que dividen en cuatro partes iguales al conjunto de datos y por ello encontraremos 3 cuartiles. Gráficamente podríamos representar de la siguiente manera esta definición: Xmin
Q1 Q2 Q3 Xmáx Esta obra ha sido licenciada con Creative Commons Ecuador 3.0 de Reconocimiento ‐ No comercial ‐ Compartir igual (http://creativecommons.org/licenses/by‐nc‐sa/3.0/ec/). Escuela de Economía – UTPL Estadistica I Autor: Econ. Carlos Correa Granda El cálculo de estas medidas lleva el mismo procedimiento que para la mediana, tanto para datos agrupados como para datos no agrupados, la única diferencia es que en lugar de dividir el conjunto de datos para 2, ahora lo dividimos para 4. ¿Cómo las vamos a interpretar? Vamos a decir que: Q1, nos indica que el 25% de datos se encuentran por debajo de ese valor y que el 75% supera dicho valor. Q2, al igual que el valor de la mediana, es el valor que se encuentra ocupando la posición central y que por tanto por debajo y sobre él se encuentra el 50% de datos. Q3, significa que este valor supera al 75% de datos analizados y es superado por el 25% restante. Revisemos ahora, lo concerniente a los deciles. 4.2.6.2. DECILES Llevando el mismo sentido que la medida anteriormente analizada, los deciles son aquellos que dividen al conjunto de datos en 10 partes iguales y que por tanto tendremos 9 deciles. Cada uno de los deciles, corresponde a la décima parte correspondiente. Su cálculo será similar a los cuartiles, con la diferencia que al dividir al conjunto de datos para determinar la posición del valor ya no dividimos para 2 ni para 4 sino que ahora lo hacemos para 10. Si tenemos por ejemplo el decil 1 (D1), significa que es el valor que supera a la décima parte de los datos y es superado por las nueve décimas partes del conjunto de datos. Si calculamos el decil 7 (D7), significará que es aquel valor que supera las siete décimas (7/10) partes del conjunto de datos y es superado por las restantes tres décimas (3/10) partes de dicho conjunto. Pasemos a revisar ahora los percentiles, que algunos autores también los denominan como centiles. 4.2.6.3. PERCENTILES Seguimos con los mismos procedimientos anteriores y ahora dividimos el conjunto en 100 partes iguales de manera que tendremos 99 percentiles. Esta obra ha sido licenciada con Creative Commons Ecuador 3.0 de Reconocimiento ‐ No comercial ‐ Compartir igual (http://creativecommons.org/licenses/by‐nc‐sa/3.0/ec/). Escuela de Economía – UTPL Estadistica I Autor: Econ. Carlos Correa Granda Este tipo de medida nos permite entonces llegar a identificar un valor en una posición que sea de nuestro interés como investigadores. Generalmente cuando se realizan análisis en el ámbito económico sobre la distribución del ingreso se utilizan estas medidas. Para calcular y ejercitar sobre estas medidas le recomiendo primero revisar el ejercicio resuelto y también desarrollar los otros ejercicios que se encuentran propuestos. Concluyendo con este tema, como usted ha observado, llevamos el mismo procedimiento para calcular estas medidas conjuntamente con el cálculo de la mediana, de ahí que podemos establecer algunas medidas que se relacionan, por ejemplo: D1 = P10 D2 = P20 D3 = P30 Q1 = P25 D4 = P40 D5 = P50 = Q2 = Me ¿Puede seguir estableciendo las demás relaciones? D6, D7, D8, D9, Q3 Muy bien, ahora que ha cumplido con estas relaciones usted puede comprender que es indistinto si queremos calcular el D9 y el P90. Será el mismo resultado. O, si debemos calcular el P70, será igual al D7, y así sucesivamente. En el texto se encuentran desarrollados otros temas que puede usted revisarlos aunque no se encuentran contemplados en nuestro plan de estudio, sin embargo le van a aportar conocimientos que le pueden ser de utilidad posterior. Esta obra ha sido licenciada con Creative Commons Ecuador 3.0 de Reconocimiento ‐ No comercial ‐ Compartir igual (http://creativecommons.org/licenses/by‐nc‐sa/3.0/ec/). 
Descargar