(AEDE): Técnicas básicas - Universidad Autónoma de Madrid

Anuncio
Sesión 3: Análisis Exploratorio de
Datos Espaciales (AEDE):
Técnicas básicas
Profesora: Coro Chasco Yrigoyen
Universidad Autónoma de Madrid
17 a 21 de mayo, 2010
2010, Coro Chasco Yrigoyen
All Rights Reserved
Índice del Curso













S1: Introducción a la Econometría Espacial
SP1: Introducción al programa GeoDa
S2: Efectos espaciales: dependencia espacial
S3: Análisis Exploratorio de Datos Espaciales (AEDE): técnicas básicas
SP2: AEDE en GeoDa: técnicas básicas
S4: Contrastes de dependencia espacial: técnicas avanzadas de AEDE
S5: Análisis confirmatorio de datos espaciales: especificación de los
modelos de dependencia espacial
SP3: AEDE en GeoDa: técnicas avanzadas
S6: Estimación y contrastes de un modelo de regresión espacial por el
método de Mínimos Cuadrados Ordinarios
S7: Estimación y contraste de los modelos de dependencia espacial
SP4: El módulo de regresión espacial en el programa GeoDa
S8: Estimación y contraste del modelo del error espacial y estrategias
de modelización espacial.
SP5: Aplicación de la estrategia de modelización clásica a
casos prácticos con el programa GeoDa
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
2
. CHASCO, C. y Rodríguez-Avilés (2009), “Análisis de datos
Sesión 3
espacio-temporales para la economía y el geomarketing”.
NetBiblo, pp. 31-45.
Esquema general:


Introducción al AEDE
Análisis univariante de datos
espaciales
1. Representación de la tendencia central
2. Representación de puntos atípicos

Análisis multivariante de datos
espaciales
1. Diagramas de dispersión
2. Gráfico de coordenadas paralelas
3. Gráficos condicionales
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
3
Sesión 3
1. Introducción al AEDE (I)



El AEDE forma parte del más
amplio campo del AED.
El AED (o minería de datos) es un
conjunto de técnicas estadísticográficas diseñadas para detectar
patrones y tendencias en los
datos, con objeto de formular
hipótesis sobre los mismos.
El AED permite al usuario
manipular diversas “vistas” de los
datos: histogramas, diagramas de
caja, gráficos q-q, matrices
ydiagramas de dispersión, etc.
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Statistica (StatSoft)
4
Sesión 3
1. Introducción al AEDE (II)

Mapas: una forma de
representar los datos
geográficos.

AEDE: consideración
explícita del mapa como
una vista más, integrada
en el esquema general
junto con el resto de
gráficos dinámicos.
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
5
. ANSELIN, L. (1998),“Exploratory spatial data analysis in a
geocomputational environment”. Conference in
GeoComputation’98, Bristol (UK), pp. 17-19.
Sesión 3
1. Introducción al AEDE (III)
Técnicas del AEDE:
1. Describen y visualizan
distribuciones
espaciales.
2. Linking & brushing:
permiten la selección de
localizaciones en
diferentes vistas o
pantallas.
3. Identifican localizaciones
atípicas o “spatial
outliers”.
4. Detectan patrones de
asociación espacial,
clusters o zonas
calientes/frías. Etc.

@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
6
Sesión 3
2. Análisis univariante espacial
2.1. Representación de la tendencia central
2.1.1. Mapas temáticos (cuantiles)
2.1.2. Histograma de frecuencias
2.1.3. Mapa de la desviación típica
2.2. Representación de puntos atípicos
2.2.1. Mapa de percentiles
2.2.2. Diagrama/mapa de caja
2.2.3. Cartograma
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
7
Sesión 3
2.1. Representación de la tendencia central
2.1.1. Mapas temáticos (cuantiles)




Mapa temático: representación cartográfica de una variable
de datos espaciales mediante símbolos y colores que pongan
de manifiesto las diferencias de valores.
Mapas de cuantiles: mapas temáticos que representan la
tendencia espacial global de una variable.
Los datos se dividen y agrupan en una serie de categorías
(cuantiles) con igual número de observaciones
Los cuantiles son valores que dividen una muestra de datos
en un determinado número de categorías de modo que cada
una de ellas (en la medida de lo posible) contenga igual
número de observaciones (cuando el número de categorías es
de 4, 5 ó 6, se habla de cuartiles, quintiles o sextiles,
respectivamente).
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
8
Sesión 3
2.1. Representación de la tendencia central
2.1.1. Mapas temáticos (cuantiles)
QUANTILE MAPS
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
9
Sesión 3
2.1. Representación de la tendencia central
2.1.2. Histograma de frecuencias



Representación gráfica de una variable en forma de barras,
donde la altura de cada barra es proporcional a la frecuencia
de los valores representados.
En el eje vertical se representan las frecuencias y en el eje
horizontal, los valores de la variable divididos en intervalos.
Este gráfico resulta de especial utilidad en variables de
naturaleza continua, pues hace posible una más fácil
visualización de su distribución al agrupar estos valores en
categorías o clases diferentes.
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
10
Sesión 3
2.1. Representación de la tendencia central
2.1.2. Histograma de frecuencias
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
11
Sesión 3
2.1. Representación de la tendencia central
2.1.2. Histograma de frecuencias
El mapa de cuantiles
no resulta de utilidad
en casos en los que la
variable en cuestión
tenga una distribución
muy alejada de la
distribución normal.
No es útil cuando la variable sea muy
asimétrica o contenga un gran número de
observaciones con valores parecidos pues
habrá cuantiles que no podrán ser definidos
al no poder asignar un mismo número de
observaciones a los diferentes grupos.
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
12
Sesión 3
2.1. Representación de la tendencia central
2.1.3. Mapa de la desviación típica




Agrupa las observaciones según que sus valores caigan dentro
de un rango estandarizado
Rango estandarizado: un número determinado de unidades
de la desviación típica a partir de la media.
Las categorías en las que se divide la variable se corresponden
con múltiplos de la desviación típica de la variable.
En el ejemplo de la Diapositiva siguiente: este mapa clasifica
las secciones censales según la diferencia en términos de la
tasa de extranjeros que tengan del nivel medio de secciones
en la “Almendra Central” de Madrid.
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
13
Sesión 3
2.1.4. Mapa de la desviación típica
STANDARD
DEVIATION
MAP
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
14
Sesión 3
2.2. Representación de puntos
atípicos
PERCENTILE MAP




Puntos atípicos (elementos de discontinuidad en una variable):
son valores de la variable excepcionalmente bajos/altos que pueden
no ser representativos de la distribución general y afectar al
comportamiento de los contrastes estadísticos.
Están retratando un segmento interesante de la población (por
ejemplo, zonas calientes o frías de negocio).
El AEDo suele detectar, como atípicos, valores que son simplemente
errores en la entrada de datos o acontecimientos extraños,
para los que no existe explicación, en cuyo caso se aconseja
eliminarlos, para evitar distorsiones inútiles en el análisis posterior.
Técnicas: Mapa de percentiles, diagrama/mapa de caja y
cartograma.
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
15
Sesión 3
2.2. Representación de puntos
atípicos
PERCENTILE
MAP
2.2.1. Mapa de percentiles




Caso particular del mapa de cuantiles: se realiza una agrupación de
valores destinada a acentuar los valores extremos.
Una vez ordenada la variable de menor a mayor, se crean seis
grupos o categorías, que son los correspondientes a los
percentiles: <1, [1,10), [10,50), [50,90), [90,99), >99.
Las regiones que se encuentren en los percentiles 1º y 99º, serán
las que tienen los valores más bajos/altos de la distribución.
Los percentiles son valores que dividen una variable en 100 partes
de forma que cada una contenga (en la medida de lo posible) igual
número de observaciones.
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
16
Sesión 3
2.2. Representación de puntos atípicos
2.2.1. Mapa de percentiles
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
PERCENTILE MAP
17
Sesión 3
2.2. Representación de puntos atípicos
2.2.2. Diagrama/mapa de caja




PERCENTILE MAP
Método de representación basado en el cálculo de los cuartiles y la
mediana de una variable, así como la obtención de las llamadas
cotas o valores adyacentes superior e inferior.
La “caja” es un rectángulo que se construye de forma que el valor
inferior de la misma es el primer cuartil (que contiene el 25% de las
observaciones) y el valor superior, el tercer cuartil (que contiene el
75% de las observaciones). La mediana queda destacada en mitad
de la caja con un círculo y una línea horizontal que la atraviesa.
Las cotas se obtienen sumando/restando a la mediana el producto
de los valores del tercer (primer) cuartil por 1,5 veces (ó 3 veces) el
recorrido intercuartílico.
Valores atípicos: situados por encima (o por debajo) de dichas
cotas, pudiendo no existir dichos valores (cuando la variable tenga
valores muy concentrados en torno a la media).
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
18
2.2. Representación de puntos atípicos
2.2.2. Diagrama/mapa de caja
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
Sesión 3
19
2.2. Representación de puntos atípicos
2.2.3. Cartograma
Sesión 3
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
20
4.2. Spatial distributions plots
4.2.3. Cartogram
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
21
Sesión 3
Sesión 3
3. Análisis multivariante de datos
espaciales
3.1. Diagramas de dispersión
3.1.1. Diagrama de dispersión bivariante
3.1.2. Diagrama de dispersión espacio-temporal
3.2. Diagrama de coordenadas paralelas
3.3. Gráficos condicionales
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
22
Sesión 3
3.1. Diagramas de dispersión
PERCENTILE MAP
3.1.1. Diagrama de dispersión bivariante




Diagrama de dispersión o nube de puntos: descripción de la
relación o dependencia existente entre dos variables X-Y.
La forma que presenta este nube de puntos refleja el grado de
correlación entre las dos variables, que puede ser nula (si los
puntos forman un círculo), lineal (si los puntos representan una
elipse) o no lineal (si los puntos toman cualquier otra forma.
La función más sencilla y útil en la mayoría de los casos, por su
simplicidad, es la recta. En este caso, la dependencia entre las
variables es medida a través del coeficiente de correlación linea
Significatividad de este coeficiente: si la relación entre ambas
variables sea o no lineal, y existan ciertos puntos atípicos que le
resten representatividad.
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
23
Sesión 3
3.1. Diagramas de dispersión
PERCENTILE MAP
3.1.1. Diagrama de dispersión bivariante
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
24
Sesión 3
3.1. Diagramas de dispersión
PERCENTILE MAP
3.1.1. Diagrama de dispersión bivariante
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
25
Sesión 3
3.1. Diagramas de dispersión
3.1.2. Diagrama de dispersión espacio-temporal
PERCENTILE MAP
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
26
Sesión 3
3.2. Gráfico de coordenadas paralelas





Alternativa al diagrama de dispersión: permite un análisis
multivariante (superior a dos variables).
Los valores de las variables se representan en ejes horizontales
paralelos, desde los inferiores (a la izquierda del eje) a los
superiores (a la derecha).
Las observaciones se representan en forma de múltiples segmentos
que van uniendo su posición en cada eje según los valores de las
variables que adoptan.
Cada variable es re-escalada de forma que el valor mínimo se
encuentre en el extremo izquierdo y el máximo en el extremo
derecho.
Principal utilidad de este gráfico consiste en la identificación de
agrupamientos de valores en ciertas observaciones que pueden ser
también de naturaleza espacial.
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
27
Sesión 3
3.2. Gráfico de coordenadas paralelas
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
28
Sesión 3
3.3. Gráficos condicionales




Utilización de 2 variables condicionales que dividen a la muestra
de datos en diferentes grupos o categorías.
El objetivo de este gráfico consiste en representar, para una tercera
variable continua, un gráfico (o mapa) con aquellas observaciones
que estén comprendidas dentro de cada categoría.
GeoDa considera, para cada una de las variables condicionales, 3
categorías, con lo que se producirá un total de 9 gráficos o
mapas.
Cuatro tipos de gráficos condicionales: mapas, diagramas de
caja, histogramas condicionales y diagramas de dispersión
condicionales.
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
29
@ 2010, Coro Chasco Yrigoyen
All Rights Reserved
30
Descargar