AUPSJB Laboratorio de Bioestadística, Ciclo 2013-I Facultad de Ciencias de la Salud Escuela Profesional de Medicina Humana Curso: Bioestadística LABORATORIO Nº 06 Medidas de Dispersión Capacidad: Resuelve y crea problemas referidos a las medidas de dispersión y al tipo de distribución de datos, utilizando los conceptos de asimetría y curtosis Indicadores de logro: Aplica la varianza para determinar la dispersión de un conjunto de datos. Conoce y aplica las propiedades de la desviación estándar. Aplica los conceptos de asimetría para determinar el tipo de distribución en un conjunto de datos. Docentes: Toledo Méndez Gialina, Huamaní Alhuay Edward, Mamani Callo Jorge, Mattos Marreros Mirian, Aquino Dolorier Sara, Vera Nuñes Gladis, Guillen Guillen Elsa, Alicia Bustamante, Bazan Rodriguez Elsi, Alcantara Ramirez Roland. Coordinadora: Gialina Toledo Méndez, Año 2013 1 AUPSJB Laboratorio de Bioestadística, Ciclo 2013-I I. DEFINICION MEDIDAS DE DISPERSIÓN Una de las características más importantes de un conjunto de datos es que, por lo general, los valores no son iguales; en realidad, el grado exacto en que no son iguales o en que varían entre sí es muy importante en la estadística. Las medidas de tendencia central describen un aspecto importante de los conjuntos de datos (su centro o su promedio) pero no nos dice nada acerca de esta otra característica básica. Por lo tanto se necesitan métodos para medir el grado en que los datos se dispersan o se diseminan, las medidas estadísticas que proporcionan esta información se llaman medidas de dispersión o de variación. La medida de dispersión más utilizada es el desvío standart ( o desviación standart o desviación típica), aunque también dan bastante información el rango, el recorrido intercuartil, y la desviación cuartílica. Estas medidas son las que indican la diferencia en la intensidad con que se dispersan o concentran los valores observados con respecto a una medida de tendencia central. fi Las medidas de asimetría son aquellas que tomando como eje de simetría la ordenada correspondiente a un valor central, clasificaremos las distribuciones en simétricas, asimétrica a la derecha y asimétrica a la izquierda. 1.1. MEDIDAS DE DISPERSION PARA DATOS NO AGRUPADOS Cuando la cantidad de observaciones (n) es pequeña, entonces disponemos de una serie simple de datos, no es necesario organizarlos en una tabla de frecuencias. Supongamos una serie simple de observaciones unidimensionales : x1, x2, ......, xn, En dicha serie podemos calcular todas las medidas de posición (salvo el modo), y todas las medidas de dispersión. Coordinadora: Gialina Toledo Méndez, Año 2013 2 AUPSJB Laboratorio de Bioestadística, Ciclo 2013-I Medidas de dispersión Entre las más simples se encuentran el rango, el recorrido intercuartil y la desviación cuartílica, simples porque para su cálculo sólo intervienen dos valores. Rango : Es la diferencia entre los valores extremos : el máximo valor observado menos el mínimo valor observado : R = xmáx - xmín Recorrido Intercuartil : Es la diferencia entre los cuartiles: cuartil superior menos cuartil inferior, su ventaja frente al Rango es que elimina el 50% de los valores extremos. El recorrido intercuartil cubre el 50% de las observaciones centrales : RQ Qs Qi Variancia : Se la define y calcula como el promedio de los cuadrados de los desvíos respecto de la media aritmética. n V ( x) n ( xi x ) 2 i 1 n xi2 i 1 n x2 Propiedades de la variancia : - 1 - V(x) > 0 para X variable - 2 - V(k) = 0 para k constante - 3 - V(x ± k) = V(x) para k constante - 4 - V(k.x) = k2.V(x) para k constante - 5 - V(a.x ± b) = a2.V(x) para a y b constantes - 6 - V( x ± y ) = V(x) + V(y) para x, y variables independientes - 7 - V( x ± y ) = V(x) + V(y) 2 cov (x,y) para x, y variables no independientes Observaciones: Si V(x) = 0 entonces X es una constante (no es variable) Dadas dos poblaciones existe mayor dispersión en aquella que posee mayor variancia. Desvío Standart : El desvío standart es la medida de dispersión más utilizada. En su cálculo intervienen todas las observaciones. Se lo define como la raíz cuadrada de la variancia. n S ( x) (x i x )2 i 1 n Observe que el desvío standart está expresado en la misma unidad de medida que la variable y su media; en cambio la variancia lo está en términos de "cuadrados de unidades". Propiedades del desvío standart : - 1 - S(x) > 0 para X variable - 2 - S(k) = 0 para k constante - 3 - S(x ± k) = S(x) para k constante - 4 - S(k.x) = k.S(x) para k constante - 5 - S(a.x ± b) = a.S(x) para a y b constantes Valen las observaciones hechas para la variancia : S(x) = 0 X es una constante. Coordinadora: Gialina Toledo Méndez, Año 2013 3 AUPSJB Laboratorio de Bioestadística, Ciclo 2013-I mayor S(x) mayor dispersión. El desvío standart es una medida de dispersión muy útil, sobre todo para comparar dos poblaciones en las cuales se está estudiando la misma variable y se la expresa en la misma unidad de medida. Si las unidades de medidas no son las mismas; para poder realizar comparaciones nos valdremos de un coeficiente a dimensional que se define a continuación. 1.2. MEDIDAS DE DISPERSION PARA DATOS AGRUPADOS Si los datos (por ser grande la cantidad de observaciones) ya están organizados en una tabla de frecuencias, existen fórmulas (o métodos) para calcular las medidas de posición y de dispersión, según sea la variable discreta o continua. Para variables unidimensionales, según como se originen, tendremos una distribución de frecuencias para datos sin agrupar (discreta) o una distribución de frecuencias para datos agrupados (continua). Varianza : En su cálculo intervienen todas las observaciones. Al igual que en el cálculo de los promedios, se toman los distintos valores observados tantas veces como lo indican sus respectivas frecuencias. La variancia es el promedio de los cuadrados de los desvíos respecto de la media aritmética. m (x i V ( x) x ) . fi m 2 i 1 m f x 2 i i 1 n . fi x2 i i 1 Desvío Standart m (x x) . f 2 i S ( x) i i 1 n Variancia : m ( x x ) . f m 2 V ( x) i 1 i i m f i 1 x . f i 1 2 i n i x2 i Desvío Standart : m ( x x ) . f 2 S ( x) i 1 i i n Coordinadora: Gialina Toledo Méndez, Año 2013 4 AUPSJB Laboratorio de Bioestadística, Ciclo 2013-I Para distribuciones simétricas, se verifica que aproximadamente: el intervalo ( x S ( x ) , x S ( x )) contiene al 68% de las observaciones. el intervalo ( x 2 . S ( x ) , x 2 . S ( x )) contiene al 95% de las observaciones. el intervalo ( x 3. S ( x ) , x 3. S ( x )) contiene al 99% de las observaciones. Dispersión Relativa - Coeficiente de Variación Se lo define como el cociente entre el desvío standart y la media de la variable. De esta manera se elimina la unidad de medida, resultando un coeficiente adimensional , por lo cual suele estar expresado en porcentajes. C.V . S ( x) .100 X Cuándo se lo utiliza ? - Cuando es necesario comparar dos poblaciones en las cuales se estudia variables diferentes, y por lo tanto se está utilizando unidades de medida diferentes. - Cuando es necesario comparar dos poblaciones en las cuales se estudia la misma variable pero con medias diferentes, ya que una misma dispersión no significa tanto si la media de la variable es mayor. MEDIDAS DE FORMA (ASIMETRÍA Y CURTOSIS) A través de las medidas de posición y de dispersión, podemos hacernos una idea de por donde se sitúan los valores de la variable y cuánto se dispersan en términos globales .Pero si queremos conocer algo más de la forma en que se distribuye los valores necesitamos otros indicadores. Los indicadores de SIMETRÍA/ ASIMETRÍA deberán informarnos de si los valores de la distribución se disponen simétricamente alrededor de la media, o bien si se decantan en mayor medida hacia la derecha (asimetría a derechas, o positiva) o hacia la izquierda (asimetría a izquierdas, o negativa), sin necesidad de representar gráficamente la distribución de frecuencias. Coordinadora: Gialina Toledo Méndez, Año 2013 5 AUPSJB Laboratorio de Bioestadística, Ciclo 2013-I Como se trata de determinar si la disposición se decanta hacia un lado u otro de la media será necesario trabajar con un indicador que nos considere las diferencias de los de valores y de la media (con su signo).Por tanto habrá que considerar un momento central de orden impar. El de orden uno no es útil porque siempre se anula. Pero si estamos interesados en encontrar un indicador la simetría/ asimetría, que no dependa de las unidades (del cubo de las unidades) y que nos permita hacer comparaciones de carácter universal, m3 no nos es útil. Por esta razón se define el coeficiente de asimetría como: AS 3 X Me S As 0 asimetría positiva As As 0 distribucion simetrica A 0 asimetría negativa s MEDIDAS DE CURTOSIS.( COEFICIENTE DE CURTOSIS) Dependiendo del número de observaciones que haya en la zona central de la distribución y del que haya en las zonas alejadas dos distribuciones con la misma varianza pueden tener dos perfiles distintos, con mayor o menor forma " de punta ".Al mayor o menor "apuntamiento" que puede tener una distribución con independencia del valor que tome su varianza se le llama CURTOSIS (o APUNTAMIENTO). [ver gráfico] Pero si queremos disponer de una medida valida para la comparación universal, deberemos considerar como indicador de la curtosis: P75 P25 K 2 P90 P10 K 0.263 curva leptocurtica K K 0.263 curva mesocurtica K 0.263 curva platicurtica Coordinadora: Gialina Toledo Méndez, Año 2013 6 AUPSJB Laboratorio de Bioestadística, Ciclo 2013-I Coordinadora: Gialina Toledo Méndez, Año 2013 7 AUPSJB Laboratorio de Bioestadística, Ciclo 2013-I TAREA ACADEMICA DE SESION 6 1. En un hospital en la ciudad de Arequipa se registra el siguiente número de intervenciones quirúrgicas mensuales durante los años 2007-2012. 151 143 156 160 152 156 160 149 151 160 158 156 154 152 159 157 155 153 153 151 142 152 161 142 155 152 143 144 162 148 149 144 150 148 152 149 162 158 154 150 146 147 160 159 158 155 154 153 152 149 147 145 148 152 147 146 148 150 147 146 150 148 147 152 162 153 152 156 160 152 149 144 a) Calcula la media, Varianza, Desviación Estándar e interprete b) Determine el coeficiente de variación e interprete 2. Una empresa comercializadora de productos farmacéuticos del distrito de Lince, realiza un pequeño sondeo de opinión sobre el gasto semanal promedio en medicamentos por familia en soles, obteniendo los siguientes resultados: 27 25 20 44 42 25 45 25 25 10 25 30 10 10 18 35 18 31 15 28 20 28 26 30 23 22 15 20 29 16 28 23 28 16 26 26 42 33 21 21 38 42 21 42 12 39 39 12 21 14 37 24 39 10 39 20 40 43 10 19 17 45 14 34 12 34 Construya una tabla de Frecuencias con intervalos y Calcule: a) Calcula la media, Varianza, Desviación Estándar e interprete b) Calcule el Coeficiente de Asimetría y la Curtosis, grafique e interprete c) Determine el coeficiente de variación e interprete. Luego compare con el CV de la pregunta 1(intervenciones quirúrgicas) e indique cual distribución es más homogénea. Coordinadora: Gialina Toledo Méndez, Año 2013 8 AUPSJB Laboratorio de Bioestadística, Ciclo 2013-I 3. Las ganancias diarias de los médicos de un centro hospitalario se presentan en una tabla de frecuencias con 6 intervalos de clase constante. Se sabe que la mínima ganancia es $ 6 el rango es 36, el 50% de los médicos ganan más de 25,58 Dólares americanos diarios. Además se conocen los siguientes datos. f4=304; h3=0,25; F2=120; H2=0,15; H5= 0,93; f2=2f1 a) Determine el coeficiente de variación e interprete b) El tipo de asimetría mediante cuartiles c) ¿El grado de apuntamiento de esta distribución es de una PLATICURTICA? (comente sus resultados). Coordinadora: Gialina Toledo Méndez, Año 2013 9