Varianza y desviación estándar La desviación sólo significa qué tan lejos de lo normal Desviación estándar La desviación estándar (σ) mide cuánto se separan los datos. La fórmula es fácil: es la raíz cuadrada de la varianza. Así que, "¿qué es la varianza?" Varianza La varianza (que es el cuadrado de la desviación estándar: σ2) se define así: Es la media de las diferencias con la media elevadas al cuadrado. En otras palabras, sigue estos pasos: 1. Calcula la media (el promedio de los números) 2. Ahora, por cada número resta la media y eleva el resultado al cuadrado (la diferencia elevada al cuadrado). 3. Ahora calcula la media de esas diferencias al cuadrado. (¿Por qué al cuadrado?) Ejemplo: Imagina que medimos las alturas de vuestros perros (en milímetros): Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm. Calcula la media, la varianza y la desviación estándar. Respuesta: Media = 600 + 470 + 170 + 430 + 300 = 5 Así que la altura media es 394 mm. Vamos a dibujar esto en el gráfico: 1 1970 5 = 394 Ahora calculamos la diferencia de cada altura con la media: Para calcular la varianza, toma cada diferencia, elévala al cuadrado, y haz la media: Varianza: σ2 = 2062 + 762 + (-224)2 + 362 + (-94)2 108520 = = 21704 5 5 Así que la varianza es 21704. Y la desviación estándar es la raíz de la varianza, así que: Desviación estándar: σ = 21704 147 y lo bueno de la desviación estándar es que es útil: ahora veremos qué alturas están a distancia menos de la desviación estándar (147mm) de la media: Así que usando la desviación estándar tenemos una manera "estándar" de saber qué es normal, o extra grande o extra pequeño. Los Rottweilers son perros grandes. Y los Dachsunds son un poco menudos... ¡pero que no se enteren! *Nota: ¿por qué al cuadrado? Elevar cada diferencia al cuadrado hace que todos los números sean positivos (para evitar que los números negativos reduzcan la varianza) 2 Varianza y desviación estándar En los ejercicios anteriores, una vez tabulados los datos hemos pasado a analizarlos. Observamos que generalmente los datos tienden a agruparse alrededor de ciertos valores centrales llamados medidas de centralización. Los más conocidos son los que hemos considerado: media aritmética (promedio), moda, mediana Ejemplo: El entrenador de natación debe elegir a uno de sus integrantes para la próxima competencia de estilo libre. Según los tiempos en segundos que obtuvieron los postulantes en las últimas 5 carreras de 100 m estilo libre, ¿qué nadador le conviene elegir? Diego 61.7 61.7 62.3 62.9 63.1 Tomás 61.5 62.9 62.9 63.7 63.7 Sergio 60.7 62.4 62.7 62.7 63.2 Para poder decidir, calculemos las medidas de centralización de cada uno: Media Moda Mediana Diego Tomás Sergio En promedio, los nadadores más rápidos son…………………………., pero esto no significa que hayan tenido el mismo rendimiento; por eso necesitamos las otras medidas de centralización. Tanto la moda como la mediana indican que ………………. fue el más veloz. Sin embargo, para elegir el nadador adecuado, no basta con considerar las medidas anteriores, ya que también es necesario que su rendimiento sea parejo, es decir, que los tiempos de sus 100 m no tengan mucha dispersión. Con estos ejemplos vemos que para tener idea más completa de una distribución de frecuencias, además de los valores centrales, es necesario conocer la forma de dispersión de los datos, es decir, la desviación con respecto a los valores centrales. Como el valor central más usado es el promedio ( x ), los desvíos se miden con respecto a él, o sea pensamos en “qué tan lejos de lo normal”. Las medidas de desviación que analizaremos son: I) Desvío: (1) Si los datos no están agrupados, es la diferencia entre el valor de la variable y el promedio. (2) Si los datos están agrupados el desvío es la diferencia entre la marca de clase y el promedio. II) Varianza: se llama así al promedio de los cuadrados de los desvíos; por lo que para calcular la varianza se suman los productos de los desvíos al cuadrado de cada intervalo por la frecuencia del intervalo y se divide la suma entre el número de observaciones. Usaremos la v para simbolizar la varianza. III) Desviación estándar: es la raíz cuadrada de la varianza. Simbolizaremos con . Si la desviación estándar es muy pequeña, indica que los valores se concentran en torno del valor medio. Si es muy grande, indica que los valores están muy dispersos. 3 Volvamos al ejemplo: Diego x fr Desvío= x- x 61.7 62.3 62.9 63.1 _ x x 2 Sergio x fr 2 _ x x . fr Desvío= x- x 60.7 62.4 62.7 63.2 _ x x 2 2 _ x x . fr Varianza = v = v ¿Cómo utilizarías la información para seleccionar a uno de los dos nadadores? Ejercicios 1) La siguiente tabla muestra las alturas aproximadas (en centímetros) de 80 alumnos. Complétala x fr 150,154 154,158 158,162 162,166 166,170 170,174 174,178 178,182 182,188 178,182 3 10 13 15 17 12 6 3 1 mC x Desvío= mC - x _ mC x 2 2 _ mC x . fr a) Calcula la varianza y la desviación estándar. b) Diremos que los alumnos que tienen alturas en el intervalo ( x + , x + 2 ) “son altos” y los que tienen sus alturas en el intervalo ( x -2 , x - ) “son bajos”. Calcula el porcentaje de alumnos altos y de alumnos bajos. 2) Los siguientes datos corresponden a los salarios de dos empresas de diseño de software. Las franjas están expresadas en salarios mínimos. Empresa A Empresa B Franjas Frecuencia salariales (número de personas) 56 0,3 54 3,6 55 6,9 30 9,12 Franjas Frecuencia salariales (número de personas) 30 0,3 96 3,6 62 6,9 12 9,12 a) Calcula la marca de clase, el promedio de salarios, los desvíos, la varianza y la desviación estándar del conjunto de datos para cada empresa. b) ¿En cuál de las dos empresas se distribuyen los salarios en forma más equitativa? 4