Probabilidad y Estadística http://web.frm.utn.edu.ar/estadistica Gráfico de Caja Gráfico de Caja – Notas de clase El gráfico de caja fue descrito por Tukey, denominándolo box and whiskers. Para su construcción se utilizan cinco estadísticos de la distribución de frecuencias: el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo; también se indica la posición de la media. Construcción 1. Para su construcción, es necesario conocer o calcular los siguientes valores: xmín ; xmáx ; Q1 ; Q2 ; Q3 ; REF1 = Q1 – 3 RI ; REF2 = Q1 – 1,5 RI ; REF3 = Q3 + 1,5 RI ; REF4 = Q3 + 3 RI. 2. Se traza una línea horizontal de longitud proporcional al recorrido de la variable, que llamaremos eje. Los extremos del eje serán el mínimo y el máximo de la distribución. El eje se gradúa según la escala conveniente y se señalan los valores referenciales REF1, REF2, REF3 y REF4 (en realidad estas marcas referenciales no aparecerán en el gráfico final). 3. Paralelamente al eje se construye una caja rectangular con altura arbitraria y cuya base abarca desde el primer cuartil hasta el tercer cuartil. Como vemos, esta caja indica gráficamente el intervalo de variación del 50% de valores centrales de la distribución. 4. La caja se divide en dos partes, trazando una línea en la posición de la mediana. Así, cada una de las partes en que ha quedado dividida la caja encierra una cuarta (25%) parte de las observaciones. 5. Una vez dibujada la caja, se añaden dos líneas paralelas al eje, que llamaremos bigotes o extensiones, una de cada lado. Si el xmín es igual o mayor que la REF2, la extensión se prolonga desde el Q1 hasta el xmín. Si el xmín es menor que la REF2, la extensión se prolonga hasta el valor observado inmediato mayor que la REF2. Si el xmáx es igual o menor que la REF3, la extensión se prolonga desde el Q3 hasta el xmáx. Si el xmáx es mayor que la REF3, la extensión se prolonga hasta el valor observado inmediato menor que la REF3. 6. Si hay datos observados que quedan por debajo de la REF2 o por encima de la REF3, se señalan en el gráfico de modo particular, por ejemplo, con un cuadradito o cualquier otro símbolo que lo represente. A estos datos, genéricamente, los denominamos DATOS APARTADOS o VALORES EXTREMOS del conjunto al cual pertenecen. En ocasiones se hace distinción entre los datos apartados ATÍPICOS y ANÓMALOS. Los datos atípicos son los que quedan comprendidos entre la REF1 y la REF2, y los que quedan comprendidos entre la REF3 y la REF4. Los datos anómalos son los que quedan por debajo de la REF1 y también los que quedan por encima de la REF4. Para diferenciarlos se utilizan marcas diferentes, por ejemplo, Statgraphics utiliza un cuadradito para los atípicos y un cuadradito con una cruz para los anómalos. 7. Finalmente, se indica con otro signo la posición de la media aritmética. Statgraphics, por ejemplo, utiliza el signo +. Algunas utilidades del gráfico de caja § El gráfico de caja nos proporciona la posición relativa de la mediana, los cuartiles y extremos de la § § § distribución. El gráfico de caja nos proporciona información sobre los datos apartados, sugiriendo la necesidad o no de utilizar determinados estadísticos. El gráfico de caja nos informa de la simetría o asimetría de la distribución. El gráfico de caja se puede utilizar para comparar la misma variable en dos muestras distintas. GraficoCaja – 2004 1 Probabilidad y Estadística Gráfico de Caja http://web.frm.utn.edu.ar/estadistica Ejemplo: toda la muestra sin distinguir por sexo Para verificar las utilidades analizaremos una serie estadística con el peso, en kilogramos, de un grupo de sesenta personas: 55 64 70 74 75 70 62 93 60 62 70 71 70 80 61 60 62 68 65 65 66 68 71 72 60 49 52 54 56 66 45 52 48 54 56 61 46 50 52 53 56 68 47 50 53 57 60 64 47 50 53 57 60 64 55 52 54 44 65 60 Varones Mujeres En primer lugar, tomaremos la muestra en su conjunto, sin distinguir por sexo: xmín = 44 xmáx = 93 Q1 = 53 Q2 = 60 Q3 = 53 RI = 13 REF1 = Q1 – 3 RI = 14 ; REF2 = Q1 – 1,5 RI = 33,5 REF3 = Q3 + 1,5 RI = 85,5 ; REF4 = Q3 + 3 RI = 92 Dado que xmín = 44 es mayor que la REF2 = 33,5 la extensión izquierda la prolongaremos hasta el xmín = 44. Por otra parte, dado que el xmáx = 93 es mayor que la REF 3 = 85,5, hay datos apartados. En este caso la extensión derecha la prolongaremos hasta la observación inmediata anterior a los 85,5 kg. Esta resulta ser 80 kg. Como el valor máximo está por encima de la REF4, el dato apartado es un dato anómalo. Box-and-Whisker Plot 40 45 50 55 60 65 70 75 80 85 90 95 PESO Histogram percentage 40 30 20 10 0 40 45 50 55 60 65 70 75 80 85 90 95 100 PESO GraficoCaja – 2004 2 Probabilidad y Estadística Gráfico de Caja http://web.frm.utn.edu.ar/estadistica Ejemplo: consideración de las muestras clasificadas por sexo A continuación, tomaremos la muestra por sexo, construyendo un gráfico de caja para cada categoría, a fin de comparar ambas distribuciones: Varones xmín = 55 ; xmáx = 93 ; Q1 = 62 ; Q2 = 68 ; Q3 = 71 ; RI = 9 REF1 = Q1 – 3 RI = 35 REF2 = Q1 – 1,5 RI = 48,5 REF3 = Q3 + 1,5 RI = 84,5 REF4 = Q3 + 3 RI = 98 Dado que xmín = 55 es mayor que la REF2 = 48,5 la extensión izquierda la prolongaremos hasta el xmín = 55. Por otra parte, dado que el xmáx = 93 es mayor que la REF 3 = 84,5, hay datos apartados. En este caso la extensión derecha la prolongaremos hasta la observación inmediata anterior a los 84,5 kg. Esta resulta ser 80 kg. Como el valor máximo está entre la REF3 = 84,5 y la REF4 = 98, el dato apartado es un dato atípico. Por lo anterior, vemos que en la muestra de varones, se presenta un valor atípico en el extremo superior. Mujeres xmín = 44 ; xmáx = 68 ; Q1 = 50 ; Q2 = 54 ; Q3 = 60 ; RI = 10 REF 1 = Q1 – 3 RI = 20 REF2 = Q1 – 1,5 RI = 35 REF3 = Q3 + 1,5.RI = 75 REF4 = Q3 + 3 RI = 90 Dado que xmín = 44 es mayor que la REF2 = 35, la extensión izquierda la prolongaremos hasta el xmín = 44. Por otra parte, dado que el xmáx = 68 es menor que la REF 3 = 73 NO hay datos apartados. Prolongaremos entonces la extensión derecha hasta la observación máxima. Por lo anterior, vemos que en la muestra de mujeres, no se presentan valores atípicos ni valores anómalos. Box-and-Whisker Plot HOM MUJ 40 45 50 55 60 65 70 75 80 85 90 95 PESO HOM percentage 58 38 18 2 22 42 40 50 60 70 80 90 100 MUJ GraficoCaja – 2004 3