Subido por jalbgomez

El Análisis Exploratorio de Datos

Anuncio
EL ANÁLISIS EXPLORATORIO DE DATOS
Durante mucho tiempo, el análisis de datos ha tenido diversidad de papeles que podrían
ser resumidos o clasificados en dos tipos: el Confirmatorio y el Exploratorio. Sin
embargo, para poder implementar el paradigma confirmatorio se requiere, sin duda,
realizar una gran cantidad de trabajo exploratorio. Por lo tanto, ninguno de los dos tipos
de análisis son suficientes por si solos para contribuir al avance del conocimiento. El
Análisis Exploratorio de Datos es un modo de análisis de los datos que utiliza el
resumen numérico y visual para explorar datos en busca de patrones no anticipados.
Autores clásicos como John Tukey, Frederick Hartwig y Brian Dearing lo catologan
como un “estado mental” ante el conocimiento. Es así como el primero lo define como
una actitud, una flexibilidad y “algunas hojas con gráficos” (o transparencias, o ambos).
Esto último como un reconocimiento de que el ojo que mira al horizonte es el mejor
instrumento que tenemos para observar, de manera completa, lo no anticipado (Tukey,
1980). Por su parte, Hartwig y Dearing argumentan que el investigador debe aprender
todo lo posible acerca de una variable o conjunto de variables antes de utilizar los datos
para probar hipótesis o teorías acerca de las relaciones sociales (Hartwig y Dearing,
1979). Más recientemente, Eugene Horber y Dominique Ladiray plantean que el
“razonamiento” exploratorio es un esquema de análisis que enriquece las posibilidades
del investigador para hallar nuevas respuestas a los problemas que se plantee (Horber y
Ladiray, 1995). En general, el análisis exploratorio de datos se caracteriza por el uso de
herramientas o técnicas con mucha carga visual o gráfica, con énfasis en revelar
información vital sobre la data examinada. El arsenal correspondiente está compuesto,
entre otros, por instrumentos como:
Diagrama de dispersión (Scatter plot): gráfico que muestra la relación entre variables.
Es útil para examinar la dirección, fuerza y forma de la relación.
Diagrama de tallo y hojas (Stem-and-leaf): es una muestra visual de la distribución de
una variable. Se asemeja a un histograma y “... se usa mucho para mostrar tanto el orden
de rangos como la forma de un conjunto de datos en forma simultánea”. (Anderson y
otros, 1999: 40). Cada caso es representado por uno o más dígitos colocados a la
derecha de una línea vertical y en la fila correspondiente al primer dígito del valor
observado.
Diagrama de caja y bigotes (Box-and-whisker): un resumen visual de la distribución
(comportamiento) de una variable que provee detalles acerca de si uno o ambos
extremos de la distribución contienen valores inusualmente grandes o pequeños.
Literatura citada:
ANDERSON, David; SWEENEY, Dennis y WILLIAMS, Thomas (1999) Estadística
para Administración y Economía. México: International Thomson Editores.
HARTWIG, Frederick y DEARING, Brian (1979)Exploratory Data Analysis,
California: Sage Publications.
HORBER, Eugene y LADIRAY, Dominique (1995) Análisis Exploratorio de los datos,
II Seminario de Capacitación de docentes en “Producción y tratamiento de datos de
Investigación en ciencias humanas”, Caracas, Venezuela.
TUKEY, John (1980) “We need both Exploratory and Confirmatory” The American
Statistician, Vol. 34, No. 1.
¿Qué es el diagrama de dispersión?
El diagrama de dispersión es una herramienta de análisis la cual representa en forma gráfica
la relación existente entre dos variables pudiendo observar la dependencia o influencia que
tiene una variable sobre la otra, permitiendo visualizar de forma gráfica su posible
correlación. Conocidos también como gráficos XY es una herramienta de análisis utilizado
generalmente en el área de la gestión de calidad con el objeto de encontrar las relaciones de
las causas que producen un efecto.
Tal y como hemos citado en la definición anterior el diagrama de dispersión nos indica la
relación existente entre dos variables, y por lo tanto si traducimos estas dos variables a
grupos de datos, podemos relacionar grupos de datos con el objeto de verificar o averiguar
que existe una relación entre ambos y como es esta relación de forma aproximada.
Los diagramas de dispersión se emplean para:
Observar el grado de intensidad en la relación entre dos variables, esta relación
puede ser entre un efecto y una de las supuestas causas que lo producen o para ver
la relación entre dos causas que provocan un mismo efecto.
Visualizar rápidamente cambios anómalos.
Analizar determinadas cuestiones mediante comparaciones.
Modo de aplicación
Los pasos a seguir para construir un diagrama de dispersión son:
1. Seleccionar las 2 variables que se van relacionar.
2. Establecer una hipótesis de la posible relación entre ambas.
3. Construir una tabla que nos relacione los valores de ambas variables por parejas. Si
no disponemos de dichos datos será necesario realizar una toma.
4. Dibujar el diagrama poniendo una variable en cada uno de los ejes cartesianos (x,y)
con una escala de valores que se ajuste a los datos que se dispone.
5. Representar en el gráfico cada par de valores por un punto.
6. Encontrar la correlación analizando la tendencia de la nube de puntos y la
correlación entre las variables.
Hoy en día gracias a la informática disponemos de programas basados en hojas de cálculo
como Excel que te permiten realizar rápidamente un diagrama de dispersión con solo
introducir los datos de las variables.
Interpretación del diagrama de dispersión
Una vez que hemos realizado el diagrama de dispersión la forma que adquiera la nube de
puntos nos permitirá analizar la relación entre las 2 variables o grupos de datos, pudiendo
obtener las siguientes figuras e interpretaciones:
Correlación positiva - Se observa como la nube de puntos obtenida adquiere una
forma de recta creciente, cuando los puntos de la nube se encuentra próximos a la
recta se le conoce como fuerte, en el caso que se encuentren distantes a la recta es
conocida como débil. Por ejemplo la relación existente entre la altura y el peso de
una persona es positiva a mayor altura mayor peso.
Correlación negativa - Al contrario del caso anterior se observa como la nube de
puntos obtenida adquiere una forma de recta decreciente, cuando los puntos de la
nube se encuentra próximos a la recta se le conoce como fuerte, en el caso que se
encuentren distantes a la recta es conocida como débil. Por ejemplo la relación
existente para los fumadores entre el número de paquetes de tabaco al mes y los
años de vida es negativa dado que a mayor cantidad de tabaco fumado menor
esperanza de vida.
Correlación nula - Se observa una distribución de la nube de puntos con una forma
circular, indicándonos la no existencia de relación entre ambas variables. Por
ejemplo la relación existente entre el color de los ojos y el tamaño del pie es nula.
EL DIAGRAMA DE TALLOS Y HOJAS (Stem-and-Leaf Display)
El diagrama de tallos y hojas es un dispositivo gráfico similar al histograma, que aporta mayor
información que éste, ya que sustituye las barras por los datos mismos.
Se tiene un conjunto de datos formado por
mediante
n
observaciones, las cuales pueden ser representadas
y donde cada
tiene por lo menos dos dígitos.
Una forma rápida de obtener una representación visual del conjunto de datos es construir un diagrama
de tallos y hojas. Este diagrama es usado cuando hay un número no muy pequeño de datos.
Los siguientes son los pasos para construir un diagrama de tallos y hojas:
1.
Se ordenan los datos de menor a mayor.
2.
Cada valor observado es dividido en dos componentes: los dígitos iniciales (tallo) y los dígitos
restantes (hoja). Esta separación debe ser tal que permita destacar las diferencias entre los
datos. Para facilitar la determinación de la forma de la distribución de los datos se necesitan al
menos 5 tallos.
3.
Hacer una lista de valores de tallo en una columna vertical. En una primera columna se colocan
los tallos. A la derecha de cada tallo se representa una fila que contiene las hojas
correspondientes.
4.
Registrar las hojas por cada observación junto al valor correspondiente del tallo.
5.
Indicar las unidades para tallos y hojas en algún lugar del diagrama.
Los diagramas de tallos y hojas nos dan una idea de la localización de los datos y de la forma de la
distribución. Esta técnica funciona bien para los conjuntos de datos que no tienen una dispersión muy
grande.
EJEMPLO 1
La siguiente tabla representa el porcentaje de algodón en un material utilizado para la fabricación de
camisas para caballeros.
Tabla 1. Datos del porcentaje de algodón
33.1
35.3
34.2
33.6
33.6
33.1
37.6
33.6
34.5
34.7
33.4
32.5
35.4
34.6
37.3
34.1
35.6
35.0
34.7
34.1
34.6
35.9
34.6
34.7
36.3
35.4
34.6
35.1
33.8
34.7
35.5
35.7
35.1
36.2
35.2
36.8
37.1
33.6
32.8
36.8
34.7
36.8
35.0
37.9
34.0
32.9
32.1
34.3
33.6
35.1
34.9
36.4
34.1
33.5
34.5
32.7
32.6
33.6
33.8
34.2
34.6
34.7
35.8
37.8
El diagrama de tallos y hojas para los anteriores datos aparece a continuación.
Stem-and-leaf of PORCENTAJE DE ALGODON N = 64 Leaf Unit = 0.10 (el número 1 después del punto
significa que se usa una sola cifra decimal).
Tallo Hojas
32
156789
33
114566666688
34
011122355666667777779
35
00111234456789
36
234888
37
13689
EJEMPLO 2
Los siguientes datos representan la acidez (PH) de 26 muestras de precipitaciones recogidas en una
ciudad de Pensilvania entre diciembre de 1973 y junio de 1974:
4.57
4.39
5.62
4.45
4.12
5.67
5.29
4.39
4.64
4.52
4.31
4.26
4.30
4.26
4.40
5.78
4.73
4.56
5.08
4.41
4.12
5.51
4.82
4.63
4.29
4.60
Datos Unidad: 0.01
Ordenados
Unidad: 0.1
Tallo
Hojas
4.12
4.12
41
42
22
669
4.26
43
0199
44
44
015
4.29
45
267
4.30
46
034
4.31
47
3
4.39
48
2
4.39
49
4.40
50
4.41
51
4.45
52
4.52
53
8
9
4.56
54
4.57
55
1
4.60
56
27
4.63
57
8
4.64
4.73
4.82
5.08
5.29
5.51
5.62
5.67
5.78
Ejemplo del diagrama de tallo y hojas:
Supongamos que durante el presente mes del año corriente, se mide el Tiempo en
minutos que tardan un grupo de estudiantes para llegar a la Facultad de Medicina,
Universidad de Los Andes (ULA).
Datos de Tiempo (minutos):
12, 13, 13, 14, 14, 15, 15, 20, 21, 22, 22, 22, 25, 27, 28, 29, 31, 31, 33, 34, 36, 38, 39,
40, 41, 41, 42, 44, 45, 50, 51, 52.
Diagrama 1. Estudiantes de la Facultad de Medicina según Tiempo en minutos para
llegar a la Facultad de Medicina. ULA, Mérida. Agosto, 2012.
Tallo
1
2
3
4
5
Fuente: Datos supuestos.
Hoja
Frecuencia absoluta
2,3,3,4,4,5,5
7
0,1,2,2,2,5,7,8,9
9
1,1,3,4,6,8,9
7
0,1,1,2,4,5
6
0,1,2
3
Interpretación:
A través del Diagrama se puede observar que la distribución de datos de Tiempo
(minutos) es asimétrica positiva (las frecuencias más altas se encuentran en el lado
izquierdo de la mediana, mientras que en el lado derecho hay frecuencias más pequeñas
(hacia la cola)), con la mayor concentración de datos en el segundo tallo, también se
puede determinar la moda, que en este caso es 22 minutos. Además se puede hallar la
mediana, considerando que la cantidad de datos son pares, se tiene que los elementos
centrales son 29 y 31 minutos, por lo tanto la mediana=(29+31)/2=30 minutos, es el
Tiempo que divide la distribución en dos partes iguales. Asimismo se pueden calcular
los cuartiles, usando Q1=n/4 y para el Q3=3n/4, por ejemplo: Q1=32/4=8, el valor
obtenido determina la posición, la cual arroja que 20 minutos es el Tiempo que deja el
25% de los datos por debajo, y el 75% de los datos de la distribución por encima.
Planteado de otro modo, el 75% de los datos de la distribución corresponde a Q3=3n/4=
(3*32)/4=24 (determina la posición) la cual arroja que 40 es el Tiempo que deja el 75 %
de los datos por debajo.
Recomendaciones:
Es importante tomar en cuenta que este tipo de diagramas, no es aconsejable en
informes anuales o en algún tipo de medios de difusión para un público en general,
porque se convierten en una ayuda básica para que investigadores y tomadores de
decisiones comprendan la naturaleza de los datos.
LOS DIAGRAMAS DE CAJA
Los diagramas de caja proporcionan información completa
visual sobre cómo se distribuyen los datos. Pueden ser de
gran utilidad como técnica de análisis exploratorio de datos.
¿Cómo se dibuja un diagrama de caja?
Un diagrama de caja se construye como sigue:
1) Ordenar los datos de la muestra y obtener el valor mínimo,
el máximo, y los tres cuartiles Q1, Q2 y Q3.
2) Dibujar un rectángulo cuyos extremos son Q1 y Q3 e indicar
la posición de la mediana, Q2, mediante una línea.
3) Calcular los límites admisibles superior e inferior, LI y
LS, que identifiquen a los valores atípicos, mediante la
siguiente expresión:
LI = Q1 - 1,5*(Q3-Q1)
LS = Q3 + 1,5*(Q3-Q1)
siendo Qi los valores de los tres cuartiles, que contienen el
25%, 50% y 75% de los datos respectivamente. Aquellos valores
que no están dentro del intervalo (LI,LS) se consideran
atípicos.
4) Considerar como valores atípicos los situados fuera del
intervalo (LI, LS).
5) Dibujar una línea que va desde cada extremo del rectángulo
central hasta el valor más alejado no atípico, es decir, que
está dentro del intervalo (LI, LS).
6) Identificar todos los datos que están fuera del intervalo
(LI, LS), marcándolos como atípicos.
La figura 1 describe los detalles de un diagrama de caja. El
diagrama incluye la mediana, los percentiles 25 y 75, y una
serie de valores (atípicos, extremos) que junto con la
mediana y la propia caja, proporcionan información bastante
completa sobre, entre otras cosas, el grado de dispersión de
los datos y el grado de asimetría de la distribución.
LS
1,5*(Q3-Q1)
1,5*(Q3-Q1)
LI
Figura Nº1. Detalles de un diagrama de caja.
Ejemplo de diagrama de caja (boxplot):
Daniel (2010) (*) menciona que en la Revista American Journal of Clinical Pathology,
Pitts y otros, asegura que "los carcinomas con metaplasia y sarcomas producidos dentro
del seno son difíciles de diagnosticar y clasificar con precisión debido a sus variados
patrones histológicos y a su rareza". En un intento por estudiar más detalles de las
características biológicas, los autores investigaron una serie de sarcomas puros y
carcinomas que exhibían metaplasia, a continuación se muestran los datos para la
construcción de la gráfica de caja.
Diámetros (cm) de sarcomas puros extirpados de los senos de 20 mujeres.
0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5
5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0
Construcción de la gráfica:
Se calculan los cuartiles en el programa SPSS para Windows versión 19, se hace clic en
el menú Analizar, se selecciona Estadísticos descriptivos y luego Frecuencias; en el
cuadro diálogo que arroja se selecciona la variable en estudio, se hace clic en el botón
Estadísticos... (ubicado en la parte superior derecha), se selecciona Cuartiles (ubicado
en la parte superior izquierda), se hace clic en el botón Continuar y finalmente
en Aceptar.
Los resultados obtenidos fueron los siguientes:
Q1=2,625 cm
Q2=4,75 cm
Q3=6,5 cm
Se calcula la Rango intercuartilar (RQ):
RQ = Q3 - Q1= 6,5 cm - 2,625 cm = 3,875 cm
El bigote superior va a quedar determinado por el mayor de los datos comprendidos
entre Q3 y Q3 + 1,5.RQ. Entonces se tiene que:
Q3 + 1,5.RQ = 6,5 cm + 1,5 (3,875 cm) = 6,5 cm + 5,8125 cm = 12,3125 cm
Por lo tanto el bigote superior llegará hasta el mayor de los datos entre 6,5 cm y 12,3125
cm, el cual es 9,5 cm.
El bigote inferior va a quedar determinado por el menor de los datos comprendidos
entre Q1 y Q1 - 1,5.RQ. Entonces se tiene que:
Q1 - 1,5.RQ = 2,625 cm - 1,5 (3,875 cm) = 2,625 cm - 5,8125 cm = -3,1875 cm
Por lo tanto el bigote inferior llegará hasta el menor de los datos entre 2,625 cm y 3,1875 cm, el cual es 0,5 cm.
También se tiene que el sarcoma de 13 cm de diámetro es un valor o punto atípico.
Para hallar esta gráfica en el paquete estadístico SPSS para Windows versión 19, se
realiza el siguiente procedimiento:
Se hace clic en el menú Gráficos, se selecciona Cuadro de diálogos antiguos y luego
Diagramas de caja...; en el cuadro diálogo que arroja se selecciona el Diagrama simple y
Resúmenes para distintas variables, se hace clic en el botón Definir, se coloca la
variable en estudio en el recuadro Las cajas representan y finalmente se hace clic en el
botón Aceptar.
El resultado es el siguiente luego de la edición de escala:
Gráfico 1. Diámetros (cm) de sarcomas puros extirpados de los senos de 20 mujeres.
Fuente: Daniel (2010) (*).
Al examinar la gráfica se puede ver que el 50% central se encuentra entre 2,6 y 6,5 cm,
además se puede observar que la Mediana está cercana a 4,5 cm. La línea o bigote más
alargada en la parte superior indica que la distribución de diámetros está inclinada hacia
la derecha o es asimétrica positiva. Asimismo, se puede notar que el programa
estadístico indica cual es el dato extremo con un circulo y dice cuál es el número del
mismo en la base de datos.
(*) Daniel, W. (2010). Bioestadística. Base para el análisis de las ciencias de la salud (4a. Ed.).
México: Limusa Wiley.
Valor atípico
Valor inusualmente grande o pequeño. Los valores atípicos pueden tener una influencia
desproporcionada sobre los resultados estadísticos, como la media, lo que puede generar
interpretaciones engañosas. Por ejemplo, un conjunto de datos incluye los valores: 1, 2,
3 y 34. El valor medio, 10, que es mayor que la mayoría de los datos (1, 2, 3), es
influenciado considerablemente por el punto de dato extremo, 34. En este caso, el valor
medio da la impresión de que los valores de los datos son superiores de lo que
realmente son. Es necesario investigar los valores atípicos, porque pueden proporcionar
información útil sobre sus datos o proceso. Existen varias explicaciones de los valores
atípicos:
Error de entrada de datos: Corrija el error y vuelva a analizar los datos
Problema del proceso: Investigue el proceso para determinar la causa del
valor atípico
Factor faltante: Determine si no consideró un factor que tiene influencia
sobre el proceso
Probabilidad aleatoria: Investigue el proceso y el valor atípico para
determinar si éste ocurrió por casualidad; realice el análisis con y sin el valor
atípico para ver su impacto sobre los resultados
A menudo es más fácil identificar gráficamente los valores atípicos. Se identifican los
valores atípicos en gráficas de cajas, al etiquetar las observaciones que son por lo menos
1.5 veces el rango intercuartil (Q3 – Q1) desde el borde de la caja. Por ejemplo, una
compañía rastrea los pagos atrasados sobre la base de la fecha de vencimiento en
número de días. La gráfica de caja siguiente muestra dos valores atípicos, indicando dos
cuentas que tienen un atraso exagerado. Un analista investiga las cuentas y descubre que
los clientes se mudaron y nunca recibieron sus estados de cuenta.
Gráfica de caja
En procedimientos de ajuste de modelo, tales como regresión y ANOVA, los valores
atípicos son puntos que no se explican bien mediante el modelo ajustado. Estos puntos
están distantes en el eje Y en relación con la línea de regresión ajustada y tienen valores
residuales extremos. Las observaciones con valores residuales extremos (+ 2) con una R
en la tabla de observaciones inusuales. También puede identificar estos valores atípicos
gráficamente, utilizando gráficas de dispersión y gráficas de residuos, tal como se
muestra a continuación.
Gráfica de dispersión
Descargar