MEDIDAD DE DISPERSIÓN Otra manera que tenemos para describir la desviación o la dispersión de un conjunto de datos o que nos permite determinar la localización de valores que dividen al conjunto de observaciones en partes iguales, son los cuarteles, los deciles y los percentiles.. Los cuarteles dividen a un conjunto de observaciones en cuatro partes iguales. Para explicarlo un poco mejor, piense en cualquier conjunto de observaciones ordenadas de menor a mayor. Al valor de en medio de un conjunto de datos ordenados de menor a mayor le llamamos la mediana. Esto es 50% de las observaciones son mayores que la mediana y 50% son menores. La mediana es una medida de posición porque indica precisamente el centro de los datos. De manera similar los cuarteles dividen a un conjunto de observaciones en cuatro partes iguales. El primer cuartel, al que se le llama Q1; es valor por debajo del cual se encuentra 25% de las observaciones, y el tercer cuartel, usualmente llamado Q3 es el valor por debajo del cual se encuentran 75% de las observaciones Q2 es la mediana. Los valores correspondientes a Q1, Q2 y Q3, dividen al conjunto de datos en cuatro partes iguales, Q1 se puede entender como la “mediana” de la mitad inferior de los datos y Q3 como la “mediana” de la mitad superior de los datos. De manera similar los deciles dividen a un conjunto de observaciones en 10 partes iguales, y los perceptiles en 100 partes iguales. Entonces, si usted encuentra que su promedio en Carretera Magisterial estuvo en el 8°, decil de su Centro de Maestros puede usted concluir que 80% de los maestros tuvieron un promedio inferior al suyo e indudablemente 20% tuvieron un promedio superior. Un promedio en el 33er. Percentil significa que 33% de los maestros tienen un promedio inferior y 67% tienen un promedio superior: los percentiles se usan con frecuencia para dar los resultados de exámenes estandarizados a nivel nacional, exámenes de admisión, entre otros. Cuartiles, deciles y percentiles Para formalizar el procedimiento de cálculo, sea Lp la posición del percentil deseado. Si queremos encontrar el 33er, percentil, por ejemplo, usaremos L33 y si quisiéramos la mediana, el 50°. Percentil, L50 El número de observaciones en n, así es que si queremos localizar la observación central, su posición será (n+1) /2, o podemos escribir esto como (n+1)p100, donde P es el perceptil deseado.. POSICIÓN DE UN PERCENTIL Un ejemplo nos ayudará a entender esto mejor. L p = (n+1) p 100 Es la lista se dan los gastos realizados durante los últimos 15 meses en la asignatura de matemáticas como son: transporte, copias fotostáticas, engargolados, etc., para las Escuelas PEI y en las Escuelas de la Generalización. $2 038 $1 940 $1 758 $2 311 $1 721 $2 054 $1 637 $2 406 $2 097 $1 471 $2 047 $1 406 $2 205 $1 787 $2 287 Localice la mediana, el primer cuartil y el tercer cuartil de los gastos realizados. Solución: El primer paso es ordenar los datos de menor a mayor. $1 460 $1 471 $1 721 $1 721 $1 758 $1 787 $1 940 $2 047 $2 054 $2 097 $2 205 $2 287 $2 311 $2 406 $2 038 El valor mediano es la observación en el centro. El valor central es el valor en la posición (n+1)/2, donde n es número de observaciones. En este caso ésta es la posición número 8, que se obtiene de (15+1)/1. El octavo gasto es $2 038. Por lo que concluimos que ésta es la mediana y que la mitad de los otros meses se ha gastado más $2 038 y la otra mitad se ha gastado menos de $2 038. Recuerde la definición de cuartil. Los cuarteles dividen al conjunto de observaciones en cuatro partes iguales. Entonces. 25% de las observaciones serán menores al primer cuartil. 75% de las observaciones serán menores que el tercer cuartil. Para localizar el primer cuartil empleamos la fórmula: Lp = (n+1) p 100 donde n =15 y P= 25. L p = (n+1) p 100 = (15+1) 25 100 = 4 Y para localizar el tercer cuartil; n=15 y P= 75 Ñ Lp = (n+1) p 100 = (15+1) 75 100 = 12 Así que los valores del primer y tercer cuartil se localizan en las posiciones 4 y 12. El cuarto dato de los valores ordenados es $ 1 721, y 3el valor 12 es $2 205. Estos son el primer y tercer cuartil respectivamente En los casos anteriores la fórmula nos dio un número entero. Esto es buscábamos el primer cuartil y teníamos 15 observaciones, la fórmula indicó que éste era el cuarto de los valores ordenados. ¿Qué hubiera pasado si hubiéramos tenido 20 valores en la muestra, esto en n=20, y hubiéramos buscado el primer cuartil? Según nuestra fórmula: L p = (n+1) p 100 = (20+1) 25 100 = 5.25 Hubiéramos localizado el quinto valor de los datos ordenados y después nos hubiéramos movido una distancia de 0.25 entre el quinto y el sexto valor y hubiéramos reportado que éste era primer cuartil. Como la mediana, el cuartil no necesitas ser uno de los valores del conjunto de datos. Para explicarlo mejor, suponga que un conjunto de datos contiene los seis valores: 91, 75, 61, 101, 43 y 104. Queremos localizar el primer cuartil. Ordenamos los valores de menor a mayor 43, 61, 75, 91, 101, y 104. El primer cuartil se localiza en L p = (n+1) p 100 = (6+1) 25 100 = 1.75 La fórmula nos dice que el primer cuartil se localiza entre el primer y el segundo valor y que está a 7.5 de distancia entre el primer y el segundo valor. El primer valor es 43 y el segundo es 61. Así esa que la distancia entre estos dos valores es 18. Para localizar el primer cuartil nos movemos. 75 de la distancia entre el primer y el segundo valor, esto es. 75 (18)= 13.5. Para terminar sumamos 13.5 al primer valor y reportamos que el primer cuartil se localiza en 56.5. Podemos extender esta idea a deciles y percentiles. Si quisiéramos localizar el 23er percentil en una muestra de 80 observaciones, tendríamos que buscar la posición L p = (n+1) p 100 = (80+1) 23 100 = 18.63 Para encontrar el valor correspondiente al 23er. Percentil tendríamos que localizar la 18ª y la 19ª observaciones y determinar la distancia entre estos dos valores. Después multiplicaríamos esta diferencia por. 63 y sumaríamos este resultado al valor más pequeño. El resultado sería el 23er. Percentil. DIAGRAMADECAJA-BRAZO. Un diagrama de caja- brazo es una representación gráfica, basada en los cuarteles, que ayuda a describir un conjunto de datos. Para construir un diagrama de caja necesitamos únicamente cinco estadísticos, el mínimo, Q1 (el primer cuartil), la mediana, Q3 (el tercer cuartil) y el valor máximo. Un ejemplo nos ayudará a explicarlo. Maravillas Pizza ofrece la entrega gratis de sus pizzas en un área de 15 Kilómetros, Alex, el dueño, requiere tener alguna información de los tiempos de entrega. ¿Cuánto tiempo necesita una entrega típica? ¿En qué rango de tiempo se realizan la mayoría de las entregas? De una muestra de 20 entregas obtuvo la información siguiente: Valor mínimo =13 minutos Q1= 15 minutos Mediana = 18 minutos Q3 0 22 minutos Valor máximo = 30 minutos Desarrolle un diagrama de caja para los tiempos de entrega. ¿ Qué conclusión puede sacar acerca de los tiempos de entrega? Solución: El primer paso para dibujar un diagrama de caja es crear una escala apropiada a lo largo del eje horizontal. Después, dibujamos una caja que empieza en Q1 (15minutos) y terminar en Q3 ( 22 minutos). Dentro de la caja trazamos una línea vertical que representa a la mediana (18 minutos). Finalmente, trazamos líneas horizontales de la caja de la caja hasta el valor mínimo (13 minutos) y de la caja hasta el valor máximo (30 minutos). A esta línea horizontales fuera de la caja se les llama algunas veces “bigotes” porque4 se parecen a unos bigotes de gato. Valor Mínimo Valor Máximo Mediana Q2 Q1 12 14 16 18 20 22 24 26 28 30 32 El diagrama de caja –brazo muestra que el 50% central de las entregas se hace en un tiempo entre 15 y 22 minutos. La distancia entre los extremos de la caja, 7 minutos, es el rango intercuartil es la distancia entre el primer y el tercer cuartil. El diagrama de caja también muestra que la distribución de los tiempos de entrega es positivamente sesgada. ¿ Cómo sabemos esto?. En este caso hay dos cosas que Sugieren que la distribución es positivamente sesgada. Primero, la línea sesgada a la derecha de la caja desde 22 minutos (Q3) hasta el tiempo máximo de 30 minutos es más larga que la línea punteada desde la izquierda de 15 minutos (Q1) hasta el valor mínimo de 13 minutos. Para decirlo de otra manera, el 25% de los datos mayores al tercer cuartil está más disperso que el 258 % de los menores al primer cuartil. Un segundo indicador del sesgo positivo es que la mediana no está en el centro de la caja. La distancia del primer cuartil a la mediana es menor que la distancia de la mediana al tercer es el mismo que el número de tiempo de entrega entre 18 y 22 minutos.