Gráfico de cajas (Box-Plot) El diagrama de cajas (Box-plot) es un gráfico basado en el empleo de los cuartiles, que permite representar cómo está distribuido un conjunto de datos. En este gráfico podemos detectar la presencia (si los hubiere) de valores extremos, y además podemos utilizarlo para visualizar la forma (simetría o asimetría) de la distribución. Para construirlo, se grafica un rectángulo (caja) cuyos extremos son el primer cuartil (Q1) y el tercer cuartil (Q3) respectivamente, que tiene a la mediana (Q2) representada dentro de la caja, y cuyo largo se denomina rango intercuartil (RI). Este rectángulo muestra dónde está ubicado el 50% central de los datos. Además de la caja se prolongan extensiones (brazos), representando al otro 50% de los datos, el inferior muestra la cuarta parte de los datos con valores más bajos y el superior la cuarta parte de los datos con valores más altos. La información visual que proporciona este tipo de gráfico no es una prueba formal acerca de la presencia de datos atípicos, sino más bien una herramienta de diagnóstico. Si bien la determinación de cuáles observaciones pueden ser consideradas datos extremos varía según el software considerado, un criterio comúnmente utilizado es considerar como un dato extremo aquel que esté a más de 1,5 veces el rango intercuartil (desde el Q1 hacia abajo y desde el Q3 hacia arriba). Entonces, para trazar un diagrama de caja necesitamos básicamente determinar lo siguiente: El 1º cuartil La mediana (2º cuartil) El 3º cuartil Rango Intercuartil El valor mínimo El valor máximo Q1 Me Q3 RI = (Q3 - Q1) Mín. (dentro de 1,5 veces RI) Máx. (dentro de 1,5 veces RI) * Q1 1,5*RI Me Q3 RI 1 1,5*RI Este diagrama es útil para realizar el análisis exploratorio de los datos (especialmente cuando se dispone de pocas observaciones), y muy apropiado cuando se estratifican los datos y se desean comparar las principales propiedades de los datos dentro de cada estrato. Por ejemplo vamos a suponer que estratificamos las calificaciones obtenidas en la evaluación de una asignatura en dos grupos, en los cuales se usaron estrategias pedagógicas diferentes. Los resultados (previamente ordenados de menor a mayor) fueron: Grupo 1: 30 40 45 50 55 60 70 Grupo 2: 50 65 75 80 83 85 90 7 Media Mín Máx Mediana 50,00 30,00 70,00 50,00 Q1 Q3 40,00 60,00 7 75,43 50,00 90,00 65,00 85,00 Grupo Variable 1 Calificación 2 Calificación n 80,00 Calificación 100 75 50 25 1 2 Grupo Como se puede apreciar a simple vista, la dispersión de los datos es similar en ambos grupos, el Grupo 2 tuvo mejores calificaciones en general que el 1, y mientras que en el Grupo 1 la distribución es simétrica, en el Grupo 2 la distribución de las calificaciones es asimétrica con sesgo a la izquierda. 2