Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL MEDIDAS DE POSICIÓN Y DISPERSIÓN En la clase anterior vimos como resumir la información contenida en un conjunto de datos mediante tablas y gráficos. En esta clase vamos a ver como resumirlos mediante medidas numéricas. Estos “números” se denominan medidas estadísticas de resumen y los podemos calcular a partir de los datos de una muestra o de una población. Para distinguirlos entre sí tenemos las siguientes definiciones: 1. Una medida descriptiva calculada a partir de los datos de una muestra se llama estadístico. 2. Una medida descriptiva calculada a partir de los datos de una población se llama parámetro. En esta clase sólo vamos a trabajar con las primeras. Además podemos considerar diferentes tipos de medidas de resumen. Entre ellas tenemos: • • De posición: si la información que proveen se refiere a la ubicación del conjunto de datos. De variabilidad o dispersión: es el caso en el que se trata de proporcionar una idea acerca de la distribución de los datos. MEDIDAS DE POSICIÓN Dentro de ellas se encuentran las medidas de tendencia central que las denominamos así porque indican la ubicación del centro del conjunto de datos. De acuerdo al criterio usado para determinar el centro, las tres medidas de tendencia central de uso más frecuente son: la media aritmética, la mediana y el modo. A continuación desarrollaremos el concepto, características y forma de cálculo de cada una de ellas. Media aritmética ( x ) Es la medida de tendencia central más conocida. La mayoría de la gente tiene en mente esta medida cuando hablamos de promedio. La obtenemos sumando todos los valores de la muestra y dividiendo el valor obtenido por el número de valores sumados. n ∑x Su fórmula es: x = i i =1 n Donde: Σ (letra griega sigma mayúscula): significa que todos los valores para la variable se suman desde el primero (i=1) hasta el último (i=n). xi es cada dato, el subíndice “ i ” varía de 1 a n, cantidad de datos de la muestra. Ejemplo: Tenemos una muestra de n = 10 edades de pacientes que ingresan a una sala de emergencia. Valor Xi x1 10 x2 20 x3 24 x4 12 x5 25 x6 23 x7 14 x8 15 x9 18 x10 9 Entonces, la media aritmética o promedio es: Notas de clase 2- 2011 1 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL 10 x= ∑ xi i =1 10 = 10 + 20 + 24 + 12 + 25 + 23 + 14 + 15 + 18 + 9 170 = = 17 años 10 10 La media aritmética tiene, entre otras, las siguientes propiedades: * Para un conjunto de datos hay una y sólo una media aritmética. * Su cálculo es sencillo. * Es sensible a los valores extremos porque en su cálculo se utilizan todos los valores de la muestra. Ejercicio 7 Retomemos el problema 5 de las superficies de las lesiones al inicio y a los 25 días de tratamiento. Este último consistió en curas diarias con el polvo de colágeno. Superficie inicial Superficie a 25 días (cm2) Paciente (cm2) 1 22.8 15.3 2 22.7 19.3 3 25.6 17.5 4 21.2 21.2 5 25.9 20.3 6 23.9 14.3 7 22.9 18.3 8 19.5 16.7 9 26.2 22.1 10 25.2 17.3 a) Calcular la superficie inicial promedio de la lesión en estos 10 pacientes. b) Calcular la superficie promedio de la lesión a los 25 días en estos 10 pacientes. Ejercicio 8 En el Ejercicio 1 calcular el % de desnutrición promedio de los niños allí estudiados. Mediana ( ~ x) Es aquel valor de la variable que divide al conjunto de datos, ordenado en forma creciente, en dos partes iguales. De manera tal que el número de datos mayor o igual a la mediana es igual al número de datos menores o iguales a ésta. - Si el número de valores es impar, la mediana es el valor ubicado en el centro. - Si el número de valores es par, entonces la mediana corresponde a la media aritmética de los dos valores centrales. Ejemplo (n impar) Calcular la mediana en la siguiente serie de datos que corresponde a años de antigüedad de 7 empleados 23 , 12 , 14 , 21 , 7, 29 , 24 En primer término se ordenan de manera creciente los datos de la serie 7, 12, 14, 21, 23, 24, 29 Entonces la mediana que se denota ( ~ x ) es: ……………………… Ejemplo (n par) Calcular la mediana en la siguiente serie de datos que corresponde a años de antigüedad de 6 empleados 23 , 12 , 14 , 22 , 7, 26 En primer término se ordenan de manera creciente los datos de la serie 7, 12, 14, 22, 23, 26 Entonces la mediana en este caso va a ser el promedio entre los dos valores centrales (….. y ……). Notas de clase 2- 2011 2 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Por lo tanto la mediana es: ……………………….. Modo (Mo o x̂ ) Es aquel valor de la variable que ocurre con mayor frecuencia. Si todos los valores son diferentes, decimos que la serie no tiene modo. Por otro lado, puede ocurrir que haya más de un modo. Ejemplo: Calcular el modo en la siguiente serie de datos que corresponde a edades de 9 pacientes xi : 23 , 12 , 14 , 21 , 7, 32 , 24, 21, 21 En este caso el Modo es 21 años ya que su frecuencia es 3. Mo = 21 años Ejercicio 9 Calcular la mediana y el modo de las siguientes variables: a) Superficie inicial de la lesión b) Superficie de la lesión a los 25 días c) Reducción porcentual de la lesión d) Porcentaje de desnutrición Que corresponden al problema 5 (a, b y c) y al ejercicio 1 (d) que desarrollamos en la primer clase. OTRAS MEDIDAS DE POSICIÓN Otras medidas de posición pero no necesariamente de tendencia central lo constituyen los cuartiles, deciles y percentiles. Los cuartiles son tres valores: Q1 : primer cuartil, Q2 : segundo cuartil, Q3 : tercer cuartil, Estos valores dividen al conjunto de datos, después de haber sido ordenados de forma creciente, en 4 partes iguales de manera tal que: • • • Por debajo de Q1 se encuentra el 25 % de los datos y por arriba del mismo el 75 % de la serie. Por debajo de Q2 se encuentra el 50 % de los datos y por arriba del mismo el otro 50 % de la serie. Es decir Q2 coincide con la mediana. Q3 deja por debajo del mismo el 75 % de los datos y por arriba de él queda el 25 % de la serie. Cuando queremos calcular los cuartiles de una serie de datos primero tenemos que calcular sus posiciones o ubicaciones. Primero ordenamos los datos de manera creciente y utilizamos las siguientes fórmulas: n +1 ésima observación ordenada 4 2(n + 1) n + 1 Posición de Q 2 : = ésima observación ordenada 4 2 3(n + 1) Posición de Q3 : ésima observación ordenada 4 Posición de Q1 : Luego, identificamos en la serie de datos ordenados qué valor le corresponde a cada uno de ellos. Para entenderlo mejor hagamos los siguientes ejemplos. Notas de clase 2- 2011 3 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Ejemplo: A continuación presentamos las edades de 25 pacientes que ingresan en una sala de espera a una determinada hora: 4, 24, 35, 2, 8, 17, 19, 7, 12, 33, 14, 37, 7, 14, 18, 31, 28, 18, 6, 36, 41, 9, 7, 27, 30 Primero debemos ordenar los datos de manera creciente: 2, 4, 6, 7, 7, 7, 8, 9, 12, 14, 14, 17, 18, 18, 19, 24, 27, 28, 30, 31, 33, 35, 36, 37, 41 A continuación aplicamos las fórmulas establecidas previamente para calcular las posiciones o ubicaciones n + 1 25 + 1 Posición de Q : = = 6.5 1 4 4 2(n + 1) n + 1 25 + 1 Posición de Q : = = = 13 2 4 2 2 Posición de Q : 3 3(n + 1) 4 = 3(25 + 1) 4 = 19.5 Cuando la ubicación del cuartil no corresponde a un valor exacto realizamos el promedio de los dos valores entre los cuales se encontraría el cuartil que estamos calculando. En el ejemplo que estamos analizando, la posición del primer cuartil, Q1, nos dio 6.5. Esto significa que Q1 se encuentra ubicado entre la sexta y la séptima observación, entonces Q1 resulta de hacer el promedio de estas dos observaciones. Q1 = 7+8 = 7.5 años 2 De la misma manera procedemos para el tercer cuartil, Q3, en este caso consideramos el promedio entre la decimonovena y vigésima observación. Q3 = 30 + 31 = 30.5 años 2 Como la posición de Q2 dio un valor exacto, “13”, buscamos en la serie de datos ordenados el valor que le corresponde al dato que está en esta ubicación. En el ejemplo que estamos analizando corresponde al valor 18 años, por lo tanto: Q 2 = 18 años Ejercicio 10 a) Calcular los cuartiles para las variables Reducción porcentual de la lesión y Porcentaje de desnutrición del ejercicio 9. En cada uno de los casos interprete los valores obtenidos Los deciles son nueve valores y dividen a la serie de datos en 10 partes iguales. Los denota como D1 , D2 , D3 , D4 , D5 , D6 , D7 , D8 , D9 Los interpretamos de la siguiente manera: • D1 es un valor que la variable que deja por debajo de él el 10 % de los datos y por encima el 90 % de la serie. • D2 es un valor de la variable que deja por debajo de él el 20 % de los datos y por encima el 80 % de la serie. y así sucesivamente con los siguientes deciles. De esta forma el D5 coincide con la mediana. Los percentiles son 99 y dividen a la serie de datos en 100 partes iguales. Se los denota como Pi , con i = 1,2,3,,,,,99. Notas de clase 2- 2011 4 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL La interpretación es semejante a la de los deciles. Por ejemplo • P1 es un valor de la variable que debajo de él se encuentra el 1 % de los datos y por encima el 99 % de la serie. ……… • P50 es un valor de la variable que debajo de él se encuentra el 50 % de los datos y por encima el 50 % de la serie. Este valor coincide con Q2, que como vimos es también la mediana. MEDIDAS DE DISPERSIÓN La dispersión de un conjunto de observaciones se refiere a la variabilidad que muestran estos valores. La magnitud de la dispersión es “pequeña” cuando los valores son cercanos entre sí. Por el contrario, si los valores están ampliamente esparcidos, decimos que la dispersión es “grande”. Como medidas de dispersión tenemos: la amplitud o rango, la varianza y la desviación estándar. Que son medidas de variabilidad absoluta. Como medida de variabilidad relativa está el coeficiente de variación. Rango o amplitud (R). A esta medida la calculamos como la diferencia entre el valor más grande y el valor más pequeño de una serie de datos. R = x max − xmin Donde: xmax es el valor máximo o más grande de los datos. x min es el valor mínimo o más pequeño de los datos. Su utilidad es limitada ya que solamente depende de los valores extremos y, puedemos tener dos series de datos con el mismo rango pero diferente variabilidad ya que en el centro de la serie los datos se comportan de diferente manera. Su ventaja reside en la simplicidad de su cálculo. Ejemplo: Tenemos disponible una muestra compuesta por n =10 edades de pacientes que ingresan a una sala de emergencia. 12 , 28 , 74 , 15 , 3 , 16 , 7 , 58 , 8 , 45 Los datos ordenados son: 3 , 7 , 8 , 12 , 15 , 16 , 28 , 45 , 58 , 74 Por lo tanto el rango está dado por: R = x max − x min = 74 − 3 = 71 años Varianza (s2) Cuando los valores de un grupo de datos se encuentran ubicados cerca de la media, la dispersión es menor que cuando están más alejados de la media. Esta idea permite considerar una medida de dispersión que tenga en cuenta la variabilidad alrededor de la media. Esta medida se conoce como varianza o variancia. Para calcularla se resta la media de cada uno de los valores individuales y a estas diferencias se elevan al cuadrado y se suman. Luego a esta suma se la divide por la cantidad de datos menos 1. n Su fórmula es: s = 2 ∑ (x i =1 i − x )2 n −1 Por suerte, a la varianza la podemos calcular con una calculadora científica, pero, para entender cómo se la calcula, hagamos el siguiente ejemplo: Ejemplo: Consideremos el mismo ejemplo donde calculamos la media. Recordemos que en él x = 17 años . Como vamos a calcular la varianza “a mano”, construyamos la siguiente tabla: Notas de clase 2- 2011 5 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL xi 10 20 24 12 25 23 14 15 18 9 (x i − x) ( x i − x )2 -7 3 7 -5 8 6 -3 -2 1 -8 0 49 9 49 25 64 36 9 4 1 64 310 Entonces: n ∑ (x − x) 2 s2 = i =1 i n −1 = 49 + 9 + 49 + 25 + 64 + 36 + 9 + 4 + 1 + 64 310 = = 34.44 años2 10 − 1 9 Desviación estándar (s) n ∑ (x − x) 2 Es la raíz cuadrada de la variancia, s = s2 = i =1 i n −1 Para la serie de datos del ejemplo que usamos para calcular la variancia tenemos: s= ∑ (x i − x )2 n −1 = 310 = 5.87 años 9 Observación: las unidades en las que se expresa la desviación estándar son las unidades originales de la variable (años, en este caso en particular). Coeficiente de variación (CV) Cuando queremos comparar la variabilidad de dos conjuntos de datos, la comparación directa de las dos desviaciones estándar puede dar resultados equivocados. Esto ocurre si las dos variables involucradas tienen medidas en diferentes unidades (por ejemplo si comparamos estatura y peso) o si utilizando las mismas unidades de medición, las dos medias pueden ser diferentes (por ejemplo si comparamos pesos de niños y de adultos). En estos casos necesitamos una medida que exprese la desviación estándar como porcentaje de la media. S La expresión es: C .V . = 100 x La desviación estándar y la media se expresan en las mismas unidades y por lo tanto obtenemos una medida adimensional que al multiplicarla por cien da el valor en porcentaje. Veamos el siguiente ejemplo: Edad media Peso medio Desviación estándar de los pesos Notas de clase 2- 2011 Muestra I 32 75 7 Muestra II 12 36 7 6 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Si comparamos las desviaciones estándar de las dos muestras referida a los pesos, parecería indicar que presentan ambas muestras la misma variabilidad. Pero calculamos los CV para ambas muestras obtenemos: Muestra I Coeficiente de Variación 7 C.V. = 100 = 9.3% 75 Muestra II 7 C.V. = 100 = 19.44% 36 Si observamos los valores obtenidos entonces la conclusión es diferente. La muestra I presenta menor variabilidad que la muestra II. Ejercicio 11 a) Interprete las siguientes expresiones que leímos en el artículo “Estudio comparativo de dos protocolos de control de glucemia en el postoperatorio de cirugía cardiaca” (Enfermería en Cardiología Nº 37/2006) en la primera clase: …“el número de glucemias en el PE fue de 11.80±3.3 y de 6.50±2.85 en el PS”… …“La media de glucemia (laboratorio) en el PE fue de 108.20±21.96 y de 135.92±34.22”… b) Calcule los coeficientes de variación (CV) en cada uno de los casos e interprételos. c) Más adelante el artículo dice: …Nuestro estudio demuestra que tenemos un mejor control de la glucemia de nuestros pacientes, con una menor dispersión de los resultados (fig 6)”… Con lo que hemos visto hasta ahora, está de acuerdo con esta afirmación. ¿Cómo serán las desviaciones estándar de cada grupo? Problema 9 En un artículo sobre el “Conocimiento que poseen las enfermeras intensivistas sobre el cuidado al paciente politraumatizado con soporte ventilatorio antes y después de participar en un programa educativo teórico – práctico” (http://www.portalesmedicos.com/publicaciones) los autores presentan la siguiente tabla sobre los valores medios y desviación estándar del puntaje obtenido por el Personal de Enfermería en el Manejo del Equipo de Ventilación Mecánica (VM) Antes y Después del Programa. Grupo Antes Después x ± s Manejo del Equipo de VM (Máximo Posible: 68 Puntos) 38.7 ± 9.3 55.0 ± 5.3 ¿El puntaje promedio aumentó después de la aplicación del Programa? ¿Qué efecto pudo haber producido el Programa sobre la variabilidad de los puntajes obtenidos? Una forma de resumir los datos del cuadro es a través de gráficos de barra de error. Gráfico de barra de error Estos gráficos nos permiten identificar la variabilidad de los datos. La estructura del mismo se basa en una línea con un punto central que identifica el valor de la media aritmética o promedio. Siendo la longitud de esta línea (barra de error) la que indica el número específico de desviaciones estándares (s, 2⋅s ó 3⋅s). ¿Cómo lo construimos? 1. Calculamos la media y la desviación estándar de un conjunto de datos. 2. Dibujamos una línea, vertical u horizontal, en ella ubicamos un punto. Éste representa el valor de la media. A ambos lados del punto, a una separación de un desvío estándar, por ejemplo, hacemos un guión perpendicular a la línea, y ya está terminado. Podemos usarlos para comparar la “variabilidad” de varios conjuntos de datos. Notas de clase 2- 2011 7 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Una aplicación de la desviación estándar Cuando los datos se concentran de manera que sea posible suponer que provienen de una distribución con la siguiente forma de campana (conocida como distribución normal) es posible utilizar una regla que indica el porcentaje de observaciones aproximado que caen en un determinado intervalo de valores. Esta forma de distribución de datos con forma de campana se presenta frecuentemente en la naturaleza y es por eso que la aplicación de la regla resulta muchas veces práctica. Regla empírica Si la distribución de mediciones tiene una forma aproximada de campana: El intervalo x ± s contiene aproximadamente 68% de las mediciones El intervalo x ± 2 ⋅s contiene aproximadamente 95% de las mediciones El intervalo x ± 3 ⋅s contiene a todas o casi todas las mediciones (99%) Así, si supiésemos que los puntajes en la Prueba de Manejo del Equipo de VM antes y después del Programa tienen una distribución con forma de campana, la información que nos brinda el cuadro va más allá de la información de la media y el desvío estándar calculados para los puntajes obtenidos. Por ejemplo, suponiendo que los puntajes en la Prueba de Manejo del Equipo de VM antes del Programa tienen distribución “acampanada”, podemos afirmar que (a partir solo del cálculo de x y s) aproximadamente el 95% de los puntajes obtenidos son valores del intervalo (38.7 − 2 ⋅ 9.3, 38.7 + 2 ⋅ 9.3) = (20.1, 57.3). Ejercicio 12 En relación al Problema 9 responda las siguientes preguntas: a) ¿Cuál es el intervalo que contiene aproximadamente todos los puntajes obtenidos por los enfermeros antes del Programa? b) ¿Cuál es el intervalo que contiene aproximadamente el 68% de los puntajes obtenidos por los enfermeros después del Programa? Ejercicio 13 Notas de clase 2- 2011 8 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL Como sabemos, los histogramas nos permiten obtener a través de los datos una aproximación de la distribución de la variable en estudio. El histograma que mostramos a continuación corresponde a los días que llevaba cada uno de 152 pacientes de Asistencia Respiratoria Mecánica a los que se les realizó una broncoendoscopía. ¿Es adecuado aplicar para este conjunto de datos la regla empírica? ¿Por qué? Rango intercuartílico (RI) Es una medida de dispersión, que mide la amplitud existente entre el 50 % de los datos centrados en la mediana. Numéricamente es la diferencia entre los valores del tercer y primer cuartil dando una idea de la distancia entre estos cuartiles. Su implementación ha sido de gran utilidad, dado que refleja claramente cuan concentrada está la mitad de los datos respecto del valor del segundo cuartil. Su fórmula es: RI = Q3 - Q1 Con esta distancia quedan dos colas una a la izquierda del primer cuartil y otra a la derecha del tercer cuartil y ambas contienen el 25 % de los datos. Gráfico de cajas Este gráfico sirve para representar datos numéricos se basa en los cuartiles. Suministra información sobre los valores mínimo y máximo, los cuartiles (Q1, Q2 o mediana y Q3), sobre la existencia de valores atípicos y la simetría de la distribución. Es especialmente útil para comparar distribuciones de varios conjuntos de observaciones. Para construir un diagrama de caja seguimos los siguientes pasos: 1. Construimos una escala de referencia (horizontal o vertical). 2. Calculamos los cuartiles (Q1, Q2 y Q3) y el rango intercuartílico (RI = Q3 - Q1). 3. Calculamos dos valores f1 y f3 que llamaremos barreras interiores, de la siguiente manera: f1= Q1 – 1,5 RI y f3 = Q3 + 1,5 RI 4. Identificamos en el conjunto de datos los valores a1 y a3 que llamaremos valores adyacentes. El punto a1es el dato más cercano a f1 sin menor que él. El punto a3 es el dato más cercano a f3 sin ser mayor que él. Notas de clase 2- 2011 9 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL 5. Localizamos todos los puntos (Q1, Q2 y Q3, f1, f2, a1 y a3) en la escala horizontal o vertical, según hayamos elegido. 6. Dibujamos una caja con los extremos en el primer y tercer cuartil. Marcamos la mediana (Q2) con una línea interior en el lugar adecuado. 7. Unimos los valores adyacentes a la caja por medio de líneas, generando así los “bigotes” de la caja. 8. Si existen datos que queden fuera de las barreras interiores, los dibujamos con círculos abiertos. A estos datos los conocemos como datos atípicos. Ejemplo. Los siguientes datos (ordenados de menor a mayor) corresponden a los tiempos de hospitalización, en días, después de una cirugía de cráneo. 8, 9, 9, 12, 13, 15, 15, 17, 23, 24, 21, 28, 33, 36, 37, 26, 38, 21, 45, 44, 78 Calculamos los cuartiles, que para estos datos son: Q1=14, Q2=23, Q3= 36; El rango intercuatílico es RI= Q3 – Q1 = 36 – 14 = 22. Las barreras interiores son: f1 = 14 - 1.5 (22) = -19, f3= 36 + 1.5 (22) = 69 En este caso a1 = 8 y a3 = 44 Solamente tenemos un dato que cae fuera las barreras interiores, en el lado derecho, que es el 78. Ahora podemos construir el diagrama que nos queda: Volvamos ahora al ejemplo de los días de ARM de pacientes a los que se les realiza una Broncoendoscopía. Los mismos datos que están representados en el histograma anterior ahora los muestramos en el siguiente gráfico. ¿Qué observamos en él? Notas de clase 2- 2011 10 Estadística Licenciatura en Enfermería Departamento de Matemática- FBCB/UNL - En el eje vertical está indicada la escala de medición utilizada para los datos, en este caso, los días de ARM. La caja central (el rectángulo más grande) representa a la mitad de las observaciones centrales, está delimitada por el cuartil 1 y el cuartel 3. La línea del centro representa a la mediana de los datos. Las líneas y los puntos por fuera de la caja representan la otra mitad de los datos. La línea inferior, el cuarto de los datos más chicos. La línea superior y los puntos (en este caso), el cuarto de los datos más grandes. Los puntos representan datos que están alejados de la mayoría y son identificados como datos atípicos. ¿Qué características de la distribución de los datos encontramos en un diagrama de caja? - Muestra los cinco números resúmenes: mínimo, cuartil inferior, mediana, cuartil superior, máximo. Permite estudiar la simetría de la distribución. Nos da un criterio de detección de datos atípicos. Como ya dijimos, estos gráficos son muy útiles para comparar varias distribuciones. Los siguientes gráficos corresponde a la misma variable de antes (Día ARM) pero según el tratamiento que reciben al momento de realizar la broncoendoscopía (Con Antibiótico (C/A) o Sin Antibiótico (S/A)). Ejercicio 14 Describir ambos gráficos y compararlos. Notas de clase 2- 2011 11