medidas de dispersion - ASIGNATURAS CIENCIAS BASICAS

Anuncio
MEDIDAS DE DISPERSION
La dispersión es la segunda característica más importante que describe un conjunto de datos,
miden la cantidad de variación o diseminación de los datos. Dos conjuntos de datos pueden diferir
tanto en tendencia central como en dispersión, o bien pueden tener la misma tendencia central y
diferir en la variabilidad.

El Rango (R)
Para un conjunto de datos el recorrido o rango es la diferencia entre el dato mayor y el
dato menor de dicho grupo de datos.
R = ΧM - Xm
Siendo
XM = Dato mayor
Xm = Dato menor
Una de las desventajas del rango es que no proporciona información sobre los datos que
están entre el dato mayor y el menor.
Ejemplo:
Calcular el rango para los datos de tiempo de arranque del motor.
R = 3.15 1.75 = 1.4segundos

La Varianza (S2) y la Desviación Estándar (S)
Estas son las medidas de dispersión más utilizadas y toman en cuenta como están distribuidos los
datos. La varianza (S2) de un conjunto de datos se define como el promedio del cuadrado de las
diferencias entre cada dato individual con respecto a la media de éstos.
n
(
∑ Χi
S2 =
Χ
)2
i =1
n 1
Siendo
Xi = los datos individuales i = 1, 2, 3,…..n
Χ = media de los datos
n = número total de datos
Las unidades en que viene expresada la varianza son el cuadrado de las unidades de la
variable que se está estudiando, resultando difícil de interpretar. Por esta razón se prefiere
trabajar con la Desviación Estándar, que es la raíz positiva de la Varianza y se expresa en las
mismas unidades de la variable que se está estudiando.
S = + S2
La Varianza y la Desviación Estándar miden la dispersión promedio en torno a la media, es
decir, como fluctúan los datos por encima o por debajo de la media. Mientras mayor sea la
extensión de los datos mayor será el Rango, la Varianza y la Desviación Estándar.
Ejemplo:
Calcular la Varianza y la Desviación Estándar para los datos de tiempo de arranque del motor.
Se tiene que para los datos de arranque del motor
Χ = 2.42segundos
n=8
(Χ i
Χi
Χ
)2
1.75
(1.75-2.42)2= 0.45
1.92
0.25
2.62
0.04
2.35
0.0049
3.09
0.45
3.15
0.53
2.53
0.01
1.91
0.26
∑= 2
n
(
∑ Χi
S2 =
Χ
i =1
n 1
)2
=
2
= 0.29segundos2
7
S = + 0.29 = 0.53segundos
MEDIDAS DE ASIMETRÍA (SESGO)
El sesgo se define como el grado de asimetría de una distribución con respecto a su media.
Se dice que la distribución es asimétrica positiva cuando tiene una cola más larga a la derecha del
máximo central que a la izquierda, si es al contrario se dice que tiene una asimetría negativa.
Coeficiente de Asimetría (a3): puede estimarse a partir de un conjunto de n observaciones,
usando la siguiente ecuación:
 X
3
n
i 1
a3 
i
 X
n
S3
Siendo:
n = número total de observaciones
Χ = media de los datos
 
2
n
S
i 1
i

n
Para distribuciones simétricas a3 = 0, para distribuciones asimétricas positivas a3 > 0 y para
distribuciones asimétricas negativas a3 < 0.
MEDIDAS DE APUNTAMIENTO (KURTOSIS)
La kurtosis se refiere al grado de apuntamiento de una distribución tomando como
referencia la distribución normal. Si el apuntamiento es relativamente alto se dice que la
distribución es leptokúrtica, mientras que si el apuntamiento es relativamente bajo se dice que es
platikurtica. La distribución normal es denominada mesokúrtica.
Coeficiente de Kurtosis (a4): puede estimarse a partir de un conjunto de n observaciones, usando
la siguiente ecuación:
 X
4
n
i 1
a3 
Siendo:
n = número total de observaciones
Χ = media de los datos
i
X
n
S4
 
2
n
S
i 1
i

n
Para distribuciones mesokurticas a4 = 0, para distribuciones leptokurticas a3 > 0 y para
distribuciones platikurticas a3 < 0.
COEFICIENTE DE VARIACION
El coeficiente de variación representa la variación del conjunto de datos respecto a
la media, es equivalente a la desviación estándar. El coeficiente de variación es
utilizado generalmente para comparar conjuntos de datos que poseen unidades de
medidas diferentes puesto que el CV es adimensional y es expresando en
porcentaje.
CV= S/x * 100 = %
Ejemplo:
Los siguientes resultados corresponden a 2 muestras formadas por varones. El
propósito es conocer cual de las dos muestras presenta mayor variabilidad.
EDAD
PESO MEDIO
DESVIACION
ESTANDAR
MUESTRA 1
25 AÑOS
145 Lb
10Lb
MUESTRA 2
11 AÑOS
80Lb
10Lb
CV1 = 10Lb / 145Lb * 100 = 0,89%
CV2 = 10Lb / 80Lb * 100 = 12,5%
La muestra 2 tiene mayor porcentaje de variación o lo que es igual la muestra 2 es
mas heterogénea.
EJEMPLO
De las tres muestra siguientes. ¿Cual representa mayor variabilidad?
MUESTRA
Xi
Si
I
II
III
800
635483.7
95
150
2455.34
5
UNIDAD DE
MEDIDA
Frutos x planta
$
Kg
CV1 = 150 / 800 * 100 = 18.75%
CV2 = 2455.34 / 635483.7 * 100 = 0.38%
CV3 = 5 / 95 * 100 = 13.62%
La muestra que representa mayor variabilidad es la numero 1 con un 18.75%.
SIMETRIA Y ASIMETRIA DE UN CONJUNTO DE DATOS O DISTRIBUCION DE
DATOS
Cuando una distribución o conjunto de datos se encuentra que la media x=
Me=Mo se dice que la distribución es simétrica respecto a la media aritmética, se
puede observar en un histograma de frecuencia Vs. Variable en estudio.
Si trazamos sobre este histograma un polígono de frecuencias y luego suavizamos
el polígono en una curva nos daría forma de campana. Es decir una curva normal.
Características de una curva normal:
 Tiene forma de campana
 Es simétrica respecto al eje que marca la X=Me=Mo
 -∞ < x < ∞
 La curva es asintótica respecto al eje x.
Cuando X  Me  Mo se dice que la distribución es asimétrica.
Tipos de asimetría

Asimetría negativa se da cuando la x<Me<Mo se llama también sesgo a la
izquierda y su grafica es:

Asimetría positiva se da cuando x>Me>Mo, se dice que hay sesgo a la
derecha o asimetría positiva.
Formula para calcular el sesgo
P= coeficiente de sesgo
P= 0 simétrica, no hay sesgo
P<0 asimétrica negativa sesgo a la izquierda
P>0 asimetría positiva, sesgo a la derecha
P= 3(X-Me) / S
Descargar