MEDIDAS DE DISPERSION La dispersión es la segunda característica más importante que describe un conjunto de datos, miden la cantidad de variación o diseminación de los datos. Dos conjuntos de datos pueden diferir tanto en tendencia central como en dispersión, o bien pueden tener la misma tendencia central y diferir en la variabilidad. El Rango (R) Para un conjunto de datos el recorrido o rango es la diferencia entre el dato mayor y el dato menor de dicho grupo de datos. R = ΧM - Xm Siendo XM = Dato mayor Xm = Dato menor Una de las desventajas del rango es que no proporciona información sobre los datos que están entre el dato mayor y el menor. Ejemplo: Calcular el rango para los datos de tiempo de arranque del motor. R = 3.15 1.75 = 1.4segundos La Varianza (S2) y la Desviación Estándar (S) Estas son las medidas de dispersión más utilizadas y toman en cuenta como están distribuidos los datos. La varianza (S2) de un conjunto de datos se define como el promedio del cuadrado de las diferencias entre cada dato individual con respecto a la media de éstos. n ( ∑ Χi S2 = Χ )2 i =1 n 1 Siendo Xi = los datos individuales i = 1, 2, 3,…..n Χ = media de los datos n = número total de datos Las unidades en que viene expresada la varianza son el cuadrado de las unidades de la variable que se está estudiando, resultando difícil de interpretar. Por esta razón se prefiere trabajar con la Desviación Estándar, que es la raíz positiva de la Varianza y se expresa en las mismas unidades de la variable que se está estudiando. S = + S2 La Varianza y la Desviación Estándar miden la dispersión promedio en torno a la media, es decir, como fluctúan los datos por encima o por debajo de la media. Mientras mayor sea la extensión de los datos mayor será el Rango, la Varianza y la Desviación Estándar. Ejemplo: Calcular la Varianza y la Desviación Estándar para los datos de tiempo de arranque del motor. Se tiene que para los datos de arranque del motor Χ = 2.42segundos n=8 (Χ i Χi Χ )2 1.75 (1.75-2.42)2= 0.45 1.92 0.25 2.62 0.04 2.35 0.0049 3.09 0.45 3.15 0.53 2.53 0.01 1.91 0.26 ∑= 2 n ( ∑ Χi S2 = Χ i =1 n 1 )2 = 2 = 0.29segundos2 7 S = + 0.29 = 0.53segundos MEDIDAS DE ASIMETRÍA (SESGO) El sesgo se define como el grado de asimetría de una distribución con respecto a su media. Se dice que la distribución es asimétrica positiva cuando tiene una cola más larga a la derecha del máximo central que a la izquierda, si es al contrario se dice que tiene una asimetría negativa. Coeficiente de Asimetría (a3): puede estimarse a partir de un conjunto de n observaciones, usando la siguiente ecuación: X 3 n i 1 a3 i X n S3 Siendo: n = número total de observaciones Χ = media de los datos 2 n S i 1 i n Para distribuciones simétricas a3 = 0, para distribuciones asimétricas positivas a3 > 0 y para distribuciones asimétricas negativas a3 < 0. MEDIDAS DE APUNTAMIENTO (KURTOSIS) La kurtosis se refiere al grado de apuntamiento de una distribución tomando como referencia la distribución normal. Si el apuntamiento es relativamente alto se dice que la distribución es leptokúrtica, mientras que si el apuntamiento es relativamente bajo se dice que es platikurtica. La distribución normal es denominada mesokúrtica. Coeficiente de Kurtosis (a4): puede estimarse a partir de un conjunto de n observaciones, usando la siguiente ecuación: X 4 n i 1 a3 Siendo: n = número total de observaciones Χ = media de los datos i X n S4 2 n S i 1 i n Para distribuciones mesokurticas a4 = 0, para distribuciones leptokurticas a3 > 0 y para distribuciones platikurticas a3 < 0. COEFICIENTE DE VARIACION El coeficiente de variación representa la variación del conjunto de datos respecto a la media, es equivalente a la desviación estándar. El coeficiente de variación es utilizado generalmente para comparar conjuntos de datos que poseen unidades de medidas diferentes puesto que el CV es adimensional y es expresando en porcentaje. CV= S/x * 100 = % Ejemplo: Los siguientes resultados corresponden a 2 muestras formadas por varones. El propósito es conocer cual de las dos muestras presenta mayor variabilidad. EDAD PESO MEDIO DESVIACION ESTANDAR MUESTRA 1 25 AÑOS 145 Lb 10Lb MUESTRA 2 11 AÑOS 80Lb 10Lb CV1 = 10Lb / 145Lb * 100 = 0,89% CV2 = 10Lb / 80Lb * 100 = 12,5% La muestra 2 tiene mayor porcentaje de variación o lo que es igual la muestra 2 es mas heterogénea. EJEMPLO De las tres muestra siguientes. ¿Cual representa mayor variabilidad? MUESTRA Xi Si I II III 800 635483.7 95 150 2455.34 5 UNIDAD DE MEDIDA Frutos x planta $ Kg CV1 = 150 / 800 * 100 = 18.75% CV2 = 2455.34 / 635483.7 * 100 = 0.38% CV3 = 5 / 95 * 100 = 13.62% La muestra que representa mayor variabilidad es la numero 1 con un 18.75%. SIMETRIA Y ASIMETRIA DE UN CONJUNTO DE DATOS O DISTRIBUCION DE DATOS Cuando una distribución o conjunto de datos se encuentra que la media x= Me=Mo se dice que la distribución es simétrica respecto a la media aritmética, se puede observar en un histograma de frecuencia Vs. Variable en estudio. Si trazamos sobre este histograma un polígono de frecuencias y luego suavizamos el polígono en una curva nos daría forma de campana. Es decir una curva normal. Características de una curva normal: Tiene forma de campana Es simétrica respecto al eje que marca la X=Me=Mo -∞ < x < ∞ La curva es asintótica respecto al eje x. Cuando X Me Mo se dice que la distribución es asimétrica. Tipos de asimetría Asimetría negativa se da cuando la x<Me<Mo se llama también sesgo a la izquierda y su grafica es: Asimetría positiva se da cuando x>Me>Mo, se dice que hay sesgo a la derecha o asimetría positiva. Formula para calcular el sesgo P= coeficiente de sesgo P= 0 simétrica, no hay sesgo P<0 asimétrica negativa sesgo a la izquierda P>0 asimetría positiva, sesgo a la derecha P= 3(X-Me) / S