Estadística

Anuncio
Varianza y desviación estándar
La desviación sólo significa qué tan lejos de lo normal
Desviación estándar
La desviación estándar (σ) mide cuánto se separan los datos.
La fórmula es fácil: es la raíz cuadrada de la varianza. Así que, "¿qué es la varianza?"
Varianza
La varianza (que es el cuadrado de la desviación estándar: σ2) se define así:
Es la media de las diferencias con la media elevadas al cuadrado.
En otras palabras, sigue estos pasos:
1. Calcula la media (el promedio de los números)
2. Ahora, por cada número resta la media y eleva el resultado al cuadrado (la diferencia elevada al
cuadrado).
3. Ahora calcula la media de esas diferencias al cuadrado. (¿Por qué al cuadrado?)
Ejemplo: Imagina que medimos las alturas de vuestros perros (en milímetros):
Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm.
Calcula la media, la varianza y la desviación estándar.
Respuesta: Media = 600 + 470 + 170 + 430 + 300
=
5
Así que la altura media es 394 mm. Vamos a dibujar esto en el gráfico:
1
1970
5
= 394
Ahora calculamos la diferencia de cada altura con la media:
Para calcular la varianza, toma cada diferencia, elévala al cuadrado, y haz la media:
Varianza: σ2 =
2062 + 762 + (-224)2 + 362 + (-94)2
108520
=
= 21704
5
5
Así que la varianza es 21704.
Y la desviación estándar es la raíz de la varianza, así que:
Desviación estándar: σ = 21704  147 y lo bueno de la desviación estándar es que es útil: ahora
veremos qué alturas están a distancia menos de la desviación estándar (147mm) de la media:
Así que usando la desviación estándar tenemos una manera "estándar" de saber qué es normal, o extra
grande o extra pequeño. Los Rottweilers son perros grandes. Y los Dachsunds son un poco menudos...
¡pero que no se enteren!
*Nota: ¿por qué al cuadrado?
Elevar cada diferencia al cuadrado hace que todos los números sean positivos (para evitar que los
números negativos reduzcan la varianza)
2
Varianza y desviación estándar
En los ejercicios anteriores, una vez tabulados los datos hemos pasado a analizarlos. Observamos
que generalmente los datos tienden a agruparse alrededor de ciertos valores centrales llamados medidas
de centralización. Los más conocidos son los que hemos considerado: media aritmética (promedio),
moda, mediana
Ejemplo:
El entrenador de natación debe elegir a uno de sus integrantes para la próxima competencia de estilo libre.
Según los tiempos en segundos que obtuvieron los postulantes en las últimas 5 carreras de 100 m estilo
libre, ¿qué nadador le conviene elegir?
Diego 61.7 61.7 62.3 62.9 63.1
Tomás 61.5 62.9 62.9 63.7 63.7
Sergio 60.7 62.4 62.7 62.7 63.2
Para poder decidir, calculemos las medidas de centralización de cada uno:
Media Moda Mediana
Diego
Tomás
Sergio
En promedio, los nadadores más rápidos son…………………………., pero esto no significa que hayan
tenido el mismo rendimiento; por eso necesitamos las otras medidas de centralización. Tanto la moda
como la mediana indican que ………………. fue el más veloz. Sin embargo, para elegir el nadador
adecuado, no basta con considerar las medidas anteriores, ya que también es necesario que su rendimiento
sea parejo, es decir, que los tiempos de sus 100 m no tengan mucha dispersión.
Con estos ejemplos vemos que para tener idea más completa de una distribución de frecuencias, además
de los valores centrales, es necesario conocer la forma de dispersión de los datos, es decir, la desviación
con respecto a los valores centrales.

Como el valor central más usado es el promedio ( x ), los desvíos se miden con respecto a él, o sea
pensamos en “qué tan lejos de lo normal”.
Las medidas de desviación que analizaremos son:
I)
Desvío:
(1) Si los datos no están agrupados, es la diferencia entre el valor de la variable y el promedio.
(2) Si los datos están agrupados el desvío es la diferencia entre la marca de clase y el
promedio.
II)
Varianza: se llama así al promedio de los cuadrados de los desvíos; por lo que para calcular la
varianza se suman los productos de los desvíos al cuadrado de cada intervalo por la frecuencia
del intervalo y se divide la suma entre el número de observaciones.
Usaremos la v para simbolizar la varianza.
III)
Desviación estándar: es la raíz cuadrada de la varianza. Simbolizaremos con  .
Si la desviación estándar es muy pequeña, indica que los valores se concentran en torno del valor
medio.
Si es muy grande, indica que los valores están muy dispersos.
3
Volvamos al ejemplo:
Diego

x
fr
Desvío= x- x
61.7
62.3
62.9
63.1
_


 x  x


2
Sergio
x
fr
2
_


 x  x  . fr



Desvío= x- x
60.7
62.4
62.7
63.2
_


 x  x


2
2
_


 x  x  . fr


Varianza = v =
 v
¿Cómo utilizarías la información para seleccionar a uno de los dos nadadores?
Ejercicios
1) La siguiente tabla muestra las alturas aproximadas (en centímetros) de 80 alumnos. Complétala
x
fr
150,154
154,158
158,162
162,166
166,170
170,174
174,178
178,182
182,188
178,182
3
10
13
15
17
12
6
3
1
mC


x
Desvío= mC - x
_


 mC  x 


2
2
_


 mC  x  . fr


a) Calcula la varianza y la desviación estándar.


b) Diremos que los alumnos que tienen alturas en el intervalo ( x +  , x + 2  ) “son altos” y los


que tienen sus alturas en el intervalo ( x -2  , x -  ) “son bajos”. Calcula el porcentaje de
alumnos altos y de alumnos bajos.
2) Los siguientes datos corresponden a los salarios de dos empresas de diseño de software. Las franjas
están expresadas en salarios mínimos.
Empresa A
Empresa B
Franjas
Frecuencia
salariales (número de personas)
56
0,3
54
3,6
55
6,9
30
9,12
Franjas
Frecuencia
salariales (número de personas)
30
0,3
96
3,6
62
6,9
12
9,12
a) Calcula la marca de clase, el promedio de salarios, los desvíos, la varianza y la desviación
estándar del conjunto de datos para cada empresa.
b) ¿En cuál de las dos empresas se distribuyen los salarios en forma más equitativa?
4
Descargar