UNIDAD 8: INTERPRETEMOS LA VARIABILIDAD DE LA INFORMACION. Introducción a las medidas de dispersión. Como su nombre lo indica, las medidas de dispersión son parámetros que nos indican qué tan dispersos están los datos. Cuanto más dispersos estén, mayor será el valor de la medida. Consideremos las series siguientes. a. 10, 10, 10, 10. b. 2, 5, 6, 7, 9, 13. c. 1, 7. 8, 14, 20 En la serie a, la dispersión es cero; y la serie c es la más dispersa. De hecho, para la serie a la desviación típica, que es una medida de dispersión, es CERO. Las medidas de dispersión tienen su importancia. El caso siguiente ilustrará esta importancia. Se tienen 2 empresas. La empresa A paga un salario promedio de $265; mientras que la empresa B paga un salario promedio de $240. A juzgar por la media aritmética (el promedio), podría afirmarse que los empleados de la empresa A están mejor económicamente. Pero No es cierto que los de A están mejor que los de B. Analicemos los salarios de cada empleado por empresa. Salarios de los empleados de la empresa A. 174 180 173 190 200 183 500 220 450 175 185 550 225 290 215 235 240 255 Salarios de los empleados de la empresa B. 220 210 200 230 310 250 Podemos observar que en la empresa A hay salarios muy bajos: el más bajo es $173. En cambio en la empresa B, el salario más bajo es de $210. Definitivamente que en B se tienen los mejores salarios individuales. Lo que ocurre es que en A, los salarios son más heterogéneos; es decir, están más dispersos. En cambio en B, los salarios son más homogéneos; es decir, menos dispersos. En conclusión: la media aritmética no es el parámetro adecuado para estimar el bienestar económico de los empleados. En cambio, el grado de dispersión de los salarios sí nos aproxima de mejor manera al estado económico individual de cada empleado. 6 Amplitud y desviación media. Tanto la amplitud como la desviación media son medidas de dispersión. 6.1 Amplitud: definición y cálculo. Entre las medidas de dispersión, la amplitud o rango es la más elemental y fácil de calcular. Definición. La amplitud o rango es la diferencia entre el mayor valor y el menor de un grupo de datos. De la definición, se ve que su cálculo es sencillo. Para el caso de 15, 20, 10, 30, 40, 25; la amplitud A es: A = 40 – 10 = 30. Ocurre que 2 valores extremos (uno muy grande y uno muy pequeño) conducen a estimaciones erróneas. 6.2 Desviación media: definición y cálculo. Definición. La desviación media, DM, es el promedio del valor absoluto de las desviaciones de cada dato respecto de la media. La desviación media se calcula con la fórmula: DM = ∑ I – xiI n Cuanto mayor es la desviación media, mayor es la desviación de los datos. Ejemplo. Calcular la desviación media en los casos siguientes: 1. 10, 15, 12, 9, 14. 2. 12, 4, 15, 7, 3. Solución. 10, 15, 12, 9, 14. Calculemos 60/5 = 12. para esta serie. = (10 + 15 + 12 + 9 +14)/5 = Calculemos la sumatoria de las desviaciones de cada valor respecto de la media. ∑ I – xiI = I12 – 10I + I12 – 15I + I12 – 12I + I12 – 9I + I12 – 14I = I2I + I– 3I + I0I + I3I + I–2I = 2 + 3 + 3 + 2 = 10 Por lo tanto: DM = ∑ I – xiI = 10/5 = 2. n 12, 4, 15, 7, 3. Para esta serie 4.24 = 8.2 Y DM = (3.8 + 4.2 + 6.8 + 1.2 + 5.2)/5 = Podemos observar que la DM es mayor que en el caso anterior. Es el resultado lógico, ya que los datos están más dispersos. Actividad 4. En cada caso, calcular la amplitud y la desviación media. Comparen las DM. 1. 5, 5, 5, 5, 5, 5, 5. ________________________________ 2. 3, 5, 2, 4, 2, 5, 3, 6, 5, 6 ________________________________ ________________________________ ________________________________ 3. 2, 5, 3, 7, 9, 4, 7, 3, 8, 9, 10, 7, 5, 8. 4. 10, 15, 5, 10, 20, 25, 20 ________________________________ ________________________________ 5. 2, 8, 4, 20, 10, 15, 25, 6, 4, 15, 20. ________________________________ ________________________________ _______________________________ ________________________________ 7. Varianza. Si en la desviación media se trabaja con los cuadrados de las desviaciones, se obtiene la varianza. 7.1 Definición y notación. Definición y notación. La varianza, denotada σ2, es la media aritmética de los cuadrados de las desviaciones de los datos con respecto a su media. La varianza puede ser poblacional o muestral. σ2 = ∑ ( – xi)2 n σ2 = ∑ ( – xi)2 n -1 La poblacional se calcula así: La muestral se calcula así: No olvidemos que el cuadrado de un número es SIEMPRE positivo. Ejemplo. Calcular la varianza para los grupos de datos del ejemplo anterior. Solución. Consideraremos datos poblacionales en ambos casos. 10, 15, 12, 9, 14. Para esta serie = (10 + 15 + 12 + 9 +14)/5 = 60/5 = 12. ∑ ( – xi)2 = (12 – 10)2 + (12 – 15)2 + (12 – 12)2 + (12 – 9)2 + (12 – 14)2 ∑ ( – xi)2 = (2)2 + (-3)2 + (0)2 + (3)2 + (-2)2 = 4 + 9 + 0 + 9 + 4 = 26 Por lo tanto: σ2 = ∑ ( – xi)2 = 26/5 = 5.2 n [Si fuesen datos muestrales, tendríamos: σ2 = 26/(5-1) = 26/4 = 6.5] 12, 4, 15, 7, 3. Para esta serie = 8.2 ∑ ( – xi)2 = (-3.8)2 + (4.2)2 + (-6.8)2 + (1.2)2 + (5.2)2 = 14.44 + 17.64 + 46.24 + 1.44 + 27.04 = 106.8 Por lo tanto: σ2 = 106.8/5 = 21.36 [Si fuesen datos muestrales, tendríamos: σ2 = 106.85/(5-1) = 26.7125] Podemos observar que la varianza es mayor que en el caso anterior. Es el resultado lógico, ya que los datos están más dispersos. Actividad 5. En cada caso (datos poblacionales), calcular la varianza. 1. 2, 4, 6, 8, 10 σ2 = ____ 2. 4, 6, 8, 10, 12 σ2 = ____ 3. 6, 8, 10, 12, 14. ____ 4. 8, 10, 12, 14, 16. ____ 7. 2, 5, 8, 11, 14 ____________ σ2 = σ2 = ____ σ2 = ___________ ___________ ______________ σ2 = ____ __________ σ2 = ____ 5. 11, 13, 15, 17, 19 6. 2, 4, 6, 8, 10 ___________ ______________ 8. 2, 6, 10, 14, 18 ____ σ2 = ______________ 9. 2, 7, 12, 17, 22 ____ σ2 = ______________ 10. 2, 4, 6, 8, 10 ____ σ2 = 11. 2, 4, 6, 8, 10, 12 ____ 12. 2, 4, 6, 8, 10, 12, 14 ______________ σ2 = ____ 13. 2, 4, 6, 8, 10, 12, 14, 16 _____________ σ2 = ____ ______________ σ2 = ______________ 14. 2, 4, 6, 8, 10, 12, 14, 16, 18 ____ σ2 = ______________ 15. 2, 4, 6, 8, 10, 12, 14, 16, 18, 20 ____ σ2 = ______________ discusión 3 . Discutan las respuestas obtenidas en cada uno de los 3 grupos anteriores. discusión 4 . Discutan y traten de llegar a la respuesta en cada caso. 1. Se toman 10 términos consecutivos de la serie f(n) = 3n + 1; también 10 términos consecutivos de la serie f(n) = 3n + 5. ¿En qué caso la varianza es mayor? 2. Se toman 10 términos consecutivos de la serie f(n) = 2n + 1; posteriormente se toman 12 de la misma serie. ¿En qué caso la varianza es mayor? 3. Se toman 10 términos consecutivos de la serie f(n) = 2n + 1; también 10 términos consecutivos de la serie f(n) = 3n + 1. ¿En qué caso la varianza es mayor? Cálculo de la varianza para datos agrupados. Cuando se tienen datos agrupados, la fórmula σ2 = ∑ Se convierte en σ2 = frecuencias. Y se convierte en frecuencias. ∑fi ( – n Xi)2 σ2 = ∑fi ( – Pmi)2 n ( – xi)2 n para datos agrupados sólo en para datos agrupados en clases y Recordemos que: 1. para datos agrupados en frecuencias = ∑ fi Xi n 2. para datos agrupados en clases y frecuencias = ∑ fi Pmi n Ejemplo. Calcular la varianza para los datos de la tabla. Datos 5 10 15 20 25 f 2 4 8 3 4 Solución. Los datos están agrupados en frecuencias. Calculemos . Recordemos que n es la suma de las frecuencias. Para nuestro caso n = 2 + 4 + 8 + 3 + 4 = 21. = ∑ fi Xi = (2x5 + 4x10 + 8x15 + 3x20 + 4x25)/21 = (10 + 40 + 120 + 60 + 100)/21 = 330/21 n = 15.71 σ2 = ∑fi ( – Xi)2 n = [2(15.71–5)2 + 4(15.71–10)2 + 8(15.71–15)2 + 3(15.71–20)2 + 4(15.71–25)2]/21 = [2(10.71)2 + 4(5.71)2 + 8(0.71)2 + 3(-4.29)2 + 4(-9.29)2]/21 = [2(114.7) + 4(32.6) + 8(0.5) + 3(18.4) + 4(86.3)]/21 = [229.4 + 130.4 + 4 + 55.2 + 345.2]/21 = 764.2/21 = 36.4. Ejemplo. Calcular la varianza para los datos de la tabla. Puntos Corredores (f) Pm 17 7 7 11 5 9 9 13 13 17 3 15 17 21 22 19 21 25 15 23 Solución. Los datos están agrupados en clases y frecuencias. Para este caso, la fórmula a utilizar es: σ2 = ∑fi ( – Pmi)2 n El total de datos es n = 17 + 7 + 3 + 22 + 15 = 64. La media aritmética es = ∑ fi Pmi . = (17x7 + 7x11 + 3x15 + 22x19 + 15x23)/64 = n 15.69 Agreguemos a la tabla las columnas de Pm, Puntos Corredores (f) Pm – Pmi, ( – Pmi)2 y fi( – Pmi ( – Pmi)2 – Pmi)2 fi( – Pmi)2 17 7 8.69 75.52 1283.84 7 11 4.69 22 154 13 17 3 15 0.69 0.48 1.44 17 21 22 19 -3.31 10.96 241.12 21 25 15 23 -7.31 53.44 801.6 5 9 9 13 Suma = 64 Suma = 2482 σ2 = 2482/64 = 38.78 Actividad 6. Calcular la varianza en cada caso. Datos 10 F 2 20 30 40 50 4 8 3 4 40 60 80 100 4 8 3 4 50 75 100 125 σ2 = _________________ σ2 = _________________ σ2 = _________________ 2 Datos 20 F 2 3 Datos 25 F 2 4 8 3 4 4 σ2 = _________________ 5 Clases 5 7 7 9 9 11 11 13 13 15 frecuencia 2 4 8 3 4 5 10 15 20 25 σ2 = _________________ Clases frecuencia 10 15 20 25 30 2 4 8 3 4 8. Desviación típica. Definición. la desviación típica, llamada también estándar, es la raíz cuadrada de la varianza. desviación Por lo anterior, se tiene que la desviación típica se calcula de la siguiente manera: σ= ∑( – Xi)2 Para datos no agrupados. n ∑fi ( – Pmi)2 σ= Para datos agrupados en clases y frecuencias. n Ejemplo. Calcular la desviación típica para la serie 5, 10, 15, 20, 25. Solución. 5, 10, 15, 20, 25. Para esta serie = 15 y n = 5 Calculemos ∑( – Xi)2 ∑( – Xi)2 = (15 – 5)2 + (15 – 10)2 + (15 – 15)2 + (15 – 20)2 + (15 – 25)2 = (10)2 + (5)2 + (0)2 + (-5)2 + (-10)2 = 100 + 25 + 25 + 100 = 250 Dividamos la sumatoria entre n: 250/5 = 50. Por lo tanto σ = √ 50 = 7.07 Ejemplo. Calcular la desviación típica para los datos de la tabla. Puntos 5 9 9 13 13 – Pmi ( – Pmi)2 fi( – Corredores (f) Pm 17 7 8.69 75.52 1283.84 7 11 4.69 22 154 3 15 0.69 0.48 1.44 Pmi)2 17 17 21 22 19 -3.31 10.96 241.12 21 25 15 23 -7.31 53.44 801.6 Suma = 64 Suma = 2482 Los datos están agrupados en clases y frecuencias. Los cálculos necesarios ya están hechos. Por lo tanto: σ= ∑fi ( – Pmi)2 = 2482/64 = 38.78 = 6.23 n Actividad 7. Calcular la desviación típica en los casos siguientes. 1. 2, 4, 6, 8, 10 σ= ____ 2. 4, 6, 8, 10, 12 σ= ____ 3. 6, 8, 10, 12, 14. 7. 2, 5, 8, 11, 14 ____ σ= ____ σ= ____________ σ= ____ 5. 11, 13, 15, 17, 19 ____ __________ σ= ____ 4. 8, 10, 12, 14, 16. 6. 2, 4, 6, 8, 10 ___________ ___________ ___________ ______________ σ= ______________ 8. 2, 6, 10, 14, 18 ____ σ= ______________ 9. 2, 7, 12, 17, 22 ____ σ= ______________ 10. 2, 4, 6, 8, 10 ____ 11. 2, 4, 6, 8, 10, 12 σ= ____ 12. 2, 4, 6, 8, 10, 12, 14 ______________ σ= ____ 13. 2, 4, 6, 8, 10, 12, 14, 16 _____________ σ= ____ ______________ σ= ______________ 14. 2, 4, 6, 8, 10, 12, 14, 16, 18 ____ σ = ______________ 15. 2, 4, 6, 8, 10, 12, 14, 16, 18, 20 ____ σ = ______________ Actividad 8. Calcular la desviación típica en los casos siguientes. 1. Clases 5 7 7 9 2 9 11 4 11 13 8 13 15 3 4 frecuencia 2. Clases 5 10 frecuencia 10 15 2 15 20 4 20 25 8 25 30 3 4 9. Propiedades de la desviación típica. Propiedad 1. La desviación típica nunca es negativa. Propiedad 2. La desviación típica de un dato constante es cero. Propiedad 3. Si la desviación típica de un grupo de datos es D, al multiplicar cada dato por K obtendremos una desviación típica igual a KD. Propiedad 4. La desviación típica de un grupo de datos no varía si a cada dato se le suma una constante. Esta propiedad aparece en las primeras cinco series de la actividad 7. Comprobemos la propiedad 3. Para 2, 4, 6; la desviación típica es 1.63 Multipliquemos cada valor por 2, obtenemos: 4, 8, 12. Para estos datos, la desviación típica es: 3.26 Pero 3.26 = 2(1.63) Comprobemos la propiedad 4. Para 2, 4, 6; la desviación típica es 1.63 Sumémosle 5 a cada dato. Obtenemos: 7, 9, 11. Para estos datos, la desviación típica es 1.63 No varía. 10. Coeficiente de variabilidad. El coeficiente de variabilidad, desviación típica entre la media. CV, es el cociente de la CV = σ/ Puede verse que su cálculo es sencillo, pero requiere calcular antes la desviación típica. Para el caso de la serie 2, 4, 6; el coeficiente de variabilidad es: CV = 1.63/4 = 0.4. Soluciones. Actividad 1. Resolver los casos siguientes. 1. = 5.17 2. a. = 16.175 b. = 10.09 c. 4.45 d. = 5.06 Pm f Pmf 2.9 10 29 74 3.7 15 55.5 25 112.5 4.5 20 90 5.3 5 26.5 5.3 25 132.5 6.1 15 91.5 6.1 15 91.5 6.9 10 69 7.7 5 38.5 Pm f Pmf 2.9 10 29 3.7 20 4.5 75 C 333.5 100 506 discusión 1. 1. K = 7. Aquí se plantea la ecuación (10 + 8 + 14 + 6 + k)/5 = 9. Al resolver la ecuación, se obtiene que k = 7. 2. K = 5 y m = 40 Aquí se deben plantear las siguientes ecuaciones: (10 + 3k + 30 + 20 + m)/5 = 23 y (20 + k + 10 + m + 15)/5 = 18. al resolver el sistema, se llega a que K = 5 y m = 40 3. m = 6. La ecuación que se debe plantear es: (10 + 3m + 20 + 80)/(5 + m + 5 + 16) = 4. 4. K = 20 De acuerdo con la propiedad 4, si al sumar 10 a cada valor la media es 35; significa que para los datos originales la media es 35 – 10 = 25. Sabiendo esto se plantea la ecuación: (30 + 15 + 10 + k + 50)/5 = 25. De aquí resulta que k = 20. 5. = 13.84 6. = 120 La media inicial es 500/5 = 100. Se agregan 20 libras. Según la propiedad 4, la media final es 100 + 20 = 120. 7. = 35. Para 200 la media es 200/5 = 40. Pero a lo recibido hay que restarle 5 libras a cada uno. Resulta que la media real es 40 – 5 = 35. 8. = 16 años. Aquí se plantea la ecuación de media de medias. 9. 15 personas. discusión 2. 1. 99 2. P50 3. P75 4. Al decil 5 5. NO Actividad 2. 1. a. Cuartil 3: 41 Decil 6: 30 Percentil 75: 41. b. Cuartil 3: 51.25 Decil 6: 37 Percentil 75: 51.25 2. a. Cuartil 2: 112 Decil 5: 112 Decil 8: 178 Percentil 80: 178 Percentil 90: 200. b. Cuartil 2: 94 Decil 5: 94 Decil 8: 156.4 Percentil 80: 156.4 Percentil 90: 177.2 3. Mediana: 242.5 Cuartil 2: 242.5 Decil 5: 242.5 Decil 6: 293 Percentil 60: 293 Percentil 80: 394 Percentil 85: 419.25 Decil 8: 394 Actividad 3. Calcular las escalas percentilar y decilar para los grupos de datos siguientes: 1. Dato 12 13 16 17 18 19 21 22 23 25 27 28 29 f . 5 fa . 5 faa . cero 2 E. Per. E. Dec. 5 0.5 Dato 3 8 5 13 1.3 20 4 12 8 20 2.0 22 4 16 12 28 2.8 25 6 22 16 38 3.8 30 6 28 22 50 5.0 35 3 31 28 59 5.9 40 5 36 31 67 6.7 42 3 39 36 75 7.5 45 2 41 39 80 8.0 50 2 43 41 84 8.4 52 3 46 43 89 8.9 54 4 50 46 96 9.6 f . fa . faa E. Per. E. Dci. . 4 4 cero 3.39 0.339 7 11 4 12.71 1.271 6 17 11 23.73 2.373 5 22 17 33.05 3.305 7 29 22 43.22 4.322 6 35 29 54.24 5.424 4 39 35 62.71 6.271 3 42 39 68.64 6.864 7 49 42 77.12 7.712 6 55 49 88.13 8.813 4 59 55 96.61 9.661 Actividad 4. 1. A = 0 DM = 0 2. A = 4 DM = 1.3 3. A = 8 DM = 2.18 4. A = 20 DM = 5.71 5. A = 23 DM = 6.6 Actividad 5. Del 1 al 6, σ2 = 8. 7. 12. σ2 = 16 13. σ2 = 18 σ2 = 21 14. 8. σ2 = 32 σ2 = 26.7 9. 15. σ2 = 50 σ2 = 33. 10. σ2 = 8 11. σ2 = 11.7 . f(x) = √ X + 5 discusión 3. En el primer grupo es bueno notar que al no variar el número de datos y la diferencia entre uno y el anterior, la varianza no cambia. En el segundo grupo debe notarse que al aumentar la diferencia entre un dato y el anterior en cada serie, aunque el número de datos permanezca constante, la varianza aumenta de una serie a la otra. En el tercer grupo debe notarse que, aunque la diferencia entre un dato y el anterior es igual para todas las series, la varianza aumenta al aumentar el número de datos. discusión 4. 1. ¿En qué caso la varianza es mayor? En ambos casos es la misma: igual número de datos y la misma diferencia entre uno y el anterior. 2. En el segundo caso, pues se aumentó el número de datos. 3. En el segundo caso. Aunque no se aumentó el número de datos, la diferencia entre un dato y el anterior es mayor en el segundo caso: 3 es mayor que 2. Actividad 6. 1. 45.57 2. 582.3