Grafico_de_cajas

Anuncio
Gráfico de cajas (Box-Plot)
El diagrama de cajas (Box-plot) es un gráfico basado en el empleo de los cuartiles, que
permite representar cómo está distribuido un conjunto de datos. En este gráfico podemos detectar la
presencia (si los hubiere) de valores extremos, y además podemos utilizarlo para visualizar la forma
(simetría o asimetría) de la distribución.
Para construirlo, se grafica un rectángulo (caja) cuyos extremos son el primer cuartil (Q1) y
el tercer cuartil (Q3) respectivamente, que tiene a la mediana (Q2) representada dentro de la caja, y
cuyo largo se denomina rango intercuartil (RI). Este rectángulo muestra dónde está ubicado el 50%
central de los datos. Además de la caja se prolongan extensiones (brazos), representando al otro
50% de los datos, el inferior muestra la cuarta parte de los datos con valores más bajos y el superior
la cuarta parte de los datos con valores más altos.
La información visual que proporciona este tipo de gráfico no es una prueba formal acerca
de la presencia de datos atípicos, sino más bien una herramienta de diagnóstico. Si bien la
determinación de cuáles observaciones pueden ser consideradas datos extremos varía según el
software considerado, un criterio comúnmente utilizado es considerar como un dato extremo aquel
que esté a más de 1,5 veces el rango intercuartil (desde el Q1 hacia abajo y desde el Q3 hacia
arriba).
Entonces, para trazar un diagrama de caja necesitamos básicamente determinar lo siguiente:
El 1º cuartil
La mediana (2º cuartil)
El 3º cuartil
Rango Intercuartil
El valor mínimo
El valor máximo
Q1
Me
Q3
RI = (Q3 - Q1)
Mín. (dentro de 1,5 veces RI)
Máx. (dentro de 1,5 veces RI)
*
Q1
1,5*RI
Me
Q3
RI
1
1,5*RI
Este diagrama es útil para realizar el análisis exploratorio de los datos (especialmente
cuando se dispone de pocas observaciones), y muy apropiado cuando se estratifican los datos y se
desean comparar las principales propiedades de los datos dentro de cada estrato.
Por ejemplo vamos a suponer que estratificamos las calificaciones obtenidas en la
evaluación de una asignatura en dos grupos, en los cuales se usaron estrategias pedagógicas
diferentes. Los resultados (previamente ordenados de menor a mayor) fueron:
Grupo 1:
30
40
45
50
55
60
70
Grupo 2:
50
65
75
80
83
85
90
7
Media Mín
Máx Mediana
50,00 30,00 70,00
50,00
Q1
Q3
40,00 60,00
7
75,43 50,00 90,00
65,00 85,00
Grupo
Variable
1
Calificación
2
Calificación
n
80,00
Calificación
100
75
50
25
1
2
Grupo
Como se puede apreciar a simple vista, la dispersión de los datos es similar en ambos
grupos, el Grupo 2 tuvo mejores calificaciones en general que el 1, y mientras que en el Grupo 1 la
distribución es simétrica, en el Grupo 2 la distribución de las calificaciones es asimétrica con sesgo
a la izquierda.
2
Descargar