Caja y Bigote (Probabilidad y Estadistica)

Anuncio
Probabilidad y Estadística
http://web.frm.utn.edu.ar/estadistica
Gráfico de Caja
Gráfico de Caja – Notas de clase
El gráfico de caja fue descrito por Tukey, denominándolo box and whiskers. Para su construcción se utilizan
cinco estadísticos de la distribución de frecuencias: el mínimo, el primer cuartil, la mediana, el tercer cuartil y el
máximo; también se indica la posición de la media.
Construcción
1.
Para su construcción, es necesario conocer o calcular los siguientes valores: xmín ; xmáx ; Q1 ; Q2 ; Q3 ;
REF1 = Q1 – 3 RI ; REF2 = Q1 – 1,5 RI ; REF3 = Q3 + 1,5 RI ; REF4 = Q3 + 3 RI.
2.
Se traza una línea horizontal de longitud proporcional al recorrido de la variable, que llamaremos eje.
Los extremos del eje serán el mínimo y el máximo de la distribución. El eje se gradúa según la escala
conveniente y se señalan los valores referenciales REF1, REF2, REF3 y REF4 (en realidad estas
marcas referenciales no aparecerán en el gráfico final).
3.
Paralelamente al eje se construye una caja rectangular con altura arbitraria y cuya base abarca desde el
primer cuartil hasta el tercer cuartil. Como vemos, esta caja indica gráficamente el intervalo de
variación del 50% de valores centrales de la distribución.
4.
La caja se divide en dos partes, trazando una línea en la posición de la mediana. Así, cada una de las
partes en que ha quedado dividida la caja encierra una cuarta (25%) parte de las observaciones.
5.
Una vez dibujada la caja, se añaden dos líneas paralelas al eje, que llamaremos bigotes o extensiones,
una de cada lado. Si el xmín es igual o mayor que la REF2, la extensión se prolonga desde el Q1 hasta el
xmín. Si el xmín es menor que la REF2, la extensión se prolonga hasta el valor observado inmediato
mayor que la REF2. Si el xmáx es igual o menor que la REF3, la extensión se prolonga desde el Q3 hasta
el xmáx. Si el xmáx es mayor que la REF3, la extensión se prolonga hasta el valor observado inmediato
menor que la REF3.
6.
Si hay datos observados que quedan por debajo de la REF2 o por encima de la REF3, se señalan en el
gráfico de modo particular, por ejemplo, con un cuadradito o cualquier otro símbolo que lo represente.
A estos datos, genéricamente, los denominamos DATOS APARTADOS o VALORES EXTREMOS del
conjunto al cual pertenecen. En ocasiones se hace distinción entre los datos apartados ATÍPICOS y
ANÓMALOS. Los datos atípicos son los que quedan comprendidos entre la REF1 y la REF2, y los que
quedan comprendidos entre la REF3 y la REF4. Los datos anómalos son los que quedan por debajo de
la REF1 y también los que quedan por encima de la REF4. Para diferenciarlos se utilizan marcas
diferentes, por ejemplo, Statgraphics utiliza un cuadradito para los atípicos y un cuadradito con una cruz
para los anómalos.
7.
Finalmente, se indica con otro signo la posición de la media aritmética. Statgraphics, por ejemplo,
utiliza el signo +.
Algunas utilidades del gráfico de caja
§ El gráfico de caja nos proporciona la posición relativa de la mediana, los cuartiles y extremos de la
§
§
§
distribución.
El gráfico de caja nos proporciona información sobre los datos apartados, sugiriendo la necesidad o no
de utilizar determinados estadísticos.
El gráfico de caja nos informa de la simetría o asimetría de la distribución.
El gráfico de caja se puede utilizar para comparar la misma variable en dos muestras distintas.
GraficoCaja – 2004
1
Probabilidad y Estadística
Gráfico de Caja
http://web.frm.utn.edu.ar/estadistica
Ejemplo: toda la muestra sin distinguir por sexo
Para verificar las utilidades analizaremos una serie estadística con el peso, en kilogramos, de un grupo de sesenta
personas:
55
64
70
74
75
70
62
93
60
62
70
71
70
80
61
60
62
68
65
65
66
68
71
72
60
49
52
54
56
66
45
52
48
54
56
61
46
50
52
53
56
68
47
50
53
57
60
64
47
50
53
57
60
64
55
52
54
44
65
60
Varones
Mujeres
En primer lugar, tomaremos la muestra en su conjunto, sin distinguir por sexo:
xmín = 44
xmáx = 93
Q1 = 53
Q2 = 60 Q3 = 53 RI = 13
REF1 = Q1 – 3 RI = 14
; REF2 = Q1 – 1,5 RI = 33,5
REF3 = Q3 + 1,5 RI = 85,5 ; REF4 = Q3 + 3 RI = 92
Dado que xmín = 44 es mayor que la REF2 = 33,5 la extensión izquierda la prolongaremos hasta el xmín = 44.
Por otra parte, dado que el xmáx = 93 es mayor que la REF 3 = 85,5, hay datos apartados. En este caso la
extensión derecha la prolongaremos hasta la observación inmediata anterior a los 85,5 kg. Esta resulta ser 80 kg.
Como el valor máximo está por encima de la REF4, el dato apartado es un dato anómalo.
Box-and-Whisker Plot
40
45
50
55
60
65
70
75
80
85
90
95
PESO
Histogram
percentage
40
30
20
10
0
40
45
50
55
60
65
70
75
80
85
90
95 100
PESO
GraficoCaja – 2004
2
Probabilidad y Estadística
Gráfico de Caja
http://web.frm.utn.edu.ar/estadistica
Ejemplo: consideración de las muestras clasificadas por sexo
A continuación, tomaremos la muestra por sexo, construyendo un gráfico de caja para cada categoría, a fin de
comparar ambas distribuciones:
Varones
xmín = 55 ; xmáx = 93 ; Q1 = 62 ; Q2 = 68 ; Q3 = 71 ; RI = 9
REF1 = Q1 – 3 RI = 35
REF2 = Q1 – 1,5 RI = 48,5
REF3 = Q3 + 1,5 RI = 84,5
REF4 = Q3 + 3 RI = 98
Dado que xmín = 55 es mayor que la REF2 = 48,5 la extensión izquierda la prolongaremos hasta el xmín = 55.
Por otra parte, dado que el xmáx = 93 es mayor que la REF 3 = 84,5, hay datos apartados. En este caso la
extensión derecha la prolongaremos hasta la observación inmediata anterior a los 84,5 kg. Esta resulta ser 80 kg.
Como el valor máximo está entre la REF3 = 84,5 y la REF4 = 98, el dato apartado es un dato atípico.
Por lo anterior, vemos que en la muestra de varones, se presenta un valor atípico en el extremo superior.
Mujeres
xmín = 44 ; xmáx = 68 ; Q1 = 50 ; Q2 = 54 ; Q3 = 60 ; RI = 10
REF 1 = Q1 – 3 RI = 20
REF2 = Q1 – 1,5 RI = 35
REF3 = Q3 + 1,5.RI = 75
REF4 = Q3 + 3 RI = 90
Dado que xmín = 44 es mayor que la REF2 = 35, la extensión izquierda la prolongaremos hasta el xmín = 44.
Por otra parte, dado que el xmáx = 68 es menor que la REF 3 = 73 NO hay datos apartados. Prolongaremos
entonces la extensión derecha hasta la observación máxima.
Por lo anterior, vemos que en la muestra de mujeres, no se presentan valores atípicos ni valores anómalos.
Box-and-Whisker Plot
HOM
MUJ
40
45
50
55
60
65
70
75
80
85
90
95
PESO
HOM
percentage
58
38
18
2
22
42
40
50
60
70
80
90
100
MUJ
GraficoCaja – 2004
3
Descargar