LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER OBJETIVOS DE LA LECCIÓN: Conocer la base de datos espacial del un sistema raster. Comprender la estructuración de los datos y una aproximación a su manejo Aprender distintos tipos de organización de la base de datos espacial, y sus ventajas o inconvenientes para la realización de diversas funciones. 1.- INTRODUCCIÓN En esta lección se pretende estudiar cómo es y cómo se trabaja con la base de datos gráfica de los SIG raster. La diferencia entre los dos modelos conceptuales principales, el raster y el vector, se fundamenta precisamente en la concepción del espacio. Según Couclelis (1992), existen dos perspectivas distintas desde las que concebir el mundo, y son: • enfoque basado en objetos: existen entes en el espacio y en el tiempo que tienen atributos asociados: “un pinar es un ente del espacio que posee unas características determinadas, entre otras una densidad determinada de una especie de pino concreta”. • enfoque basado en propiedades: cuando un conjunto de lugares del espacio posee una propiedad determinada este conjunto forma un ente real: “aquellos lugares del espacio que poseen una densidad determinada de una especie de pino concreta dan lugar a un pinar” El modelo conceptual raster se apoya en esta segunda perspectiva, y como ya se ha indicado anteriormente (ver Lección 13) en el se fracciona el espacio en unidades espaciales homogéneas llamadas celdillas o teselas, cuya UNIDAD II: Estructuración de la información. 1 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER forma y tamaño está previamente definido, que forman una retícula que cubre la totalidad del espacio y que van adquiriendo distintos valores para un determinado atributo en función de la posición que ocupan en el espacio. Figura 29.1. Representación raster de dos lagos unidos por un canal de agua En la figura 29.1. se representa según un modelo raster una zona de estudio en la que se identifican dos lagos unidos por un canal de agua y rodeados por una zona de tierra. Así pues, el modelo raster propone una aproximación basada en objetos elementales (celdas), que pueden agruparse para constituir entidades complejas que representan objetos del mundo real. (Gutierrez y Gould 1994). Como se deduce fácilmente de la explicación anterior, en el modelo raster la base de datos temática o de atributos está íntimamente ligada a la espacial, siendo necesario definir el atributo o característica que se está valorando para que queden definidas las entidades que representan objetos reales. Así en el ejemplo de la figura 29.1., el atributo o característica recogida sería presencia o ausencia de agua, las celdas cuyo valor contiene presencia de agua definen el canal y los lagos. 2.- MODELO LÓGICO DE LA BASE DE DATOS RASTER UNIDAD II: Estructuración de la información. 2 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER En la lección anterior se ha explicado el paso de la realidad territorial al modelo conceptual, y una vez en él se ha descrito la base de datos geográfica con sus componentes. Pero la construcción del modelo lógico implica ir un poco más allá en las definiciones, y concretar un poco más, (aunque sin llegar al detalle del sistema informático concreto), de que forma y con que convencionalismos, es decir, cual es “el lenguaje”, que se usa para traducir los datos geográficos al sistema. Aunque en la citada lección se realiza un avance de la construcción de este modelo lógico, este no puede concretarse para un sistema genérico, precisamente por las peculiaridades que presenta en función de que el modelo conceptual sea raster o vector. Una de estas particularidades se ha expresado ya y consiste justamente en que se deberá realizar una capa de datos raster para cada “atributo o característica a recoger”. ATRIBUTOS 1 1 1 1 3 1 1 1 3 3 1 1 1 3 2 1 3 2 2 2 3 3 3 2 2 CODIGO USO 1 Cereal 2 Erial a pastos 3 Pinar Figura 29.2. Representación raster de usos del suelo en teselación regular Así, el modelo lógico que deberemos construir para un SIG raster genérico sería: UNIDAD II: Estructuración de la información. 3 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER • Base de datos temática o de atributo: se almacena un valor de un determinado atributo contenido en cada celdilla, en la Figura 29.2. se representa el uso del suelo mediante un código numérico. El valor se asigna a la celdilla de tres formas: • • Modal: se asigna el valor más representativo en la celda • Punto medio: se asigna el valor encontrado en el punto central de celda • Lógico: si una entidad en cuestión aparece o no. Base de datos gráfica o espacial: a su vez se distinguen varios componentes que son: o Localización: se realiza para cada elemento gráfico del sistema a representar, es decir, para cada celdilla se hace en función de la posición dada por el cruce de fila-columna dentro de la retícula. (Figura 29.3.) Por lo que, por la simple posición se conoce su localización relativa, para conocer su localización absoluta sólo es necesario aportar las coordenadas de algún punto significativo de la cuadricula. o Propiedades de la entidad: con las salvedades que luego se estudiarán, las celdillas son rectangulares o cuadradas del mismo tamaño y distribución uniforme. (Figura 29.3.) o Relaciones espaciales: entre celdillas se definen fácilmente en función de la posición de la celdilla. (Figura 29.4.) LOCALIZACIÓN PROPIEDADES 1-1 1-2 1-3 1-4 1-5 2-1 2-2 2-3 2-4 2-5 3-1 3-2 3-3 3-4 3-5 4-1 4-2 4-3 4-4 4-5 5-1 5-2 5-3 5-4 5-5 La entidad espacial es una celdilla, por lo que la definición de su forma, tamaño, superficie etc. es única para todo el espacio, se almacena el valor una sola vez en un fichero de datos. Figura 29.3. Numeración de celdillas en una representación raster y características espaciales de una celdilla. UNIDAD II: Estructuración de la información. 4 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER RELACIONES ESPACIALES E L E L x L E L E Figura 29.4. Expresión de la vecindad respecto a la celdilla 3-3. Supongamos que se pretende identificar la relación de vecindad de la celdilla que ocupa la posición 3-3 (ver figura 29.3.) con sus vecinas. Por el simple hecho de su posición, dada por su numeración, se sabe que las celdillas 2-3 y 4-3 y las 3-2 y 3-4 comparten un lado con la celdilla en cuestión, incluso se conoce en que dirección se encuentra el lado que comparten (Norte, Sur, Este u oeste), también sabemos que las celdillas 2-2, 2-4, 4-2 y 4-4 ocupan una posición vecina compartiendo la esquina. Como puede observarse, se trata de un modelo muy sencillo, no sólo las propiedades de las entidades gráficas (celdillas), sino su localización en el espacio se realiza de forma simple (conocimiento de la numeración de la celda) y lo que es más importante, sus relaciones espaciales con otras entidades, es decir, sus relaciones topológicas se deducen muy fácilmente en este modelo. Se trata de un buen modelo para representar objetos del mundo real que tengan carácter superficial, no adaptándose bien a otro tipo de elementos como los lineales. Así, en el modelo raster no quedan registrados de forma explícita los límites entre los elementos geográficos (como ocurre en el vectorial), aunque estos se UNIDAD II: Estructuración de la información. 5 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER puedan inferir aproximadamente a partir de los valores que toman las celdas. (Gutiérrez y Gould 1994). Y esa aproximación suele ser una de las desventajas del sistema, ya que, sabemos que un río o canal de agua pasa por una determinada celda, pero no sabemos el lugar exacto por el que discurre el agua; y sabemos por que celda continúa el río, aunque tampoco se sepa con exactitud por que lugar de ella se prolonga. Por otra parte, y también incidiendo en la capacidad de representación de elementos “superficiales” este modelo se adapta muy bien a la descripción de fenómenos de variación continua en el espacio: tipo de suelo, altitud, precipitación media, concentración de contaminantes, etc. Es decir, aquellas variables que no generan unos límites nítidos, sino transiciones difusas de unos valores a otros, o lo que es lo mismo, que no se asocian fácilmente con objetos reales definidos: una tubería, una línea eléctrica, una parcela catastral etc. Las principales características asociadas a un SIG raster son los siguientes (NCGIA, 1990): • Resolución: es la unidad mínima en la que se están tomando datos, en modelos con las celdillas homogéneas coincide con la dimensión mínima de la celdilla. A menor superficie representada, mayor resolución. La resolución depende del nivel de detalle con el que se quiera realizar la representación del mundo real; es muy importante considerar adecuadamente este factor, ya que un pequeño aumento en la resolución produce aumentos exponenciales en la capacidad de almacenamiento necesaria, la velocidad de tratamiento de datos y obtención de resultados. • Orientación: es el ángulo entre la dirección Norte y la dirección establecida por la columna de la retícula. Normalmente este ángulo suele ser cero, sin embargo la forma y dimensión del área de estudio puede hacer aconsejable otra orientación. • Zona o clase: conjunto de celdillas que presentan el mismo valor. En la figura 29.2. UNIDAD II: Estructuración de la información. el sistema es capaz de reconocer las distintas 6 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER superficies generadas, y realizar cálculos sobre sus propiedades espaciales (área, perímetro etc.), además puede almacenar información sobre otros atributos no espaciales (estado de conservación, densidad, otras tipologías dentro de cada superficie etc.) la gestión de estos atributos puede realizarse desde un gestor externo, realizando una conexión a Oracle o dBase etc. • Valor: es el atributo principal de información recogido en cada celdilla, y cuya recopilación ha dado origen a la capa de información. Así en el ejemplo de la figura 29.2. se trata de los usos del suelo. Aunque algunos sistemas permiten el almacenamiento de valores alfabéticos, por la complejidad de las operaciones (normalmente de comparación celda a celda y otras muchas) que se van a realizar después estos valores se convierten en numéricos. • Localización: como ya se ha indicado se realiza la localización relativa por conocimiento de la fila y la columna de cada celda. La localización absoluta se obtiene referenciando algunos puntos significativos de la retícula de acuerdo a un sistema de coordenadas geográfico. Como se ha indicado también, con el sólo conocimiento de la fila y columna, se pueden conocer además ciertas relaciones topológicas como contigüidad, proximidad, etc. Los SIG raster suelen almacenar toda la información a la que se ha hecho referencia para cada capa temática (capa1= usos del suelo; capa 2: parcelas catastrales; capa3= clase agrológica etc.), y crean dos ficheros diferentes, el de valores y el de documentación. En el primero se almacenan los valores contenidos en las celdas, en el segundo todo lo relativo a localización, información sobre la retícula etc. 3.- MEJORÍA DE RENDIMIENTO RASTER: TIPOS DE ORGANIZACIÓN Como se ha indicado ya, una de las mayores dificultades o inconvenientes del modelo raster se presenta cuando, por unas u otras razones se necesita aumentar la precisión. UNIDAD II: Estructuración de la información. 7 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER Supongamos por ejemplo, que en el supuesto de la figura 29.2. la precisión de la celda es de 200 * 200 mts.; y que por alguna razón fuese necesario recoger información individualizada sobre una parcela cuyas dimensiones son 100*100 mts. La única forma de poder realizarlo es aumentar la precisión, de manera que la parcela quede representada por una o varias celdillas. Así, si decidimos que la celdilla va a ser de 100*100 mts., aumentamos muy considerablemente el número de celdillas, y como consecuencia la capacidad de almacenaje, de gestión y de velocidad para el tratamiento de los datos, en el ejemplo: PRECISIÓN 200 * 200 m. PRECISIÓN 100 * 100 m. 1 1 1 1 3 1 1 1 3 3 1 1 1 3 2 1 3 2 2 2 3 3 3 2 2 25 celdillas 100 celdillas Figura 29.5. Aumento de precisión en una capa raster. 3.1.- Tipos de almacenamiento de datos: Para el almacenamiento de los valores de las celdas en un fichero se han desarrollado varios tipos de estructuras de datos, algunas de las más usadas son: 1. Enumeración exhaustiva: consiste en almacenar uno a uno el valor de cada celda. Se puede realizar en forma matricial, pero también todo seguido, por columnas o filas. En el ejemplo de la figura 29.5. si se eligiese la forma de fila continua sería: 1111311133111321322233322 UNIDAD II: Estructuración de la información. 8 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER en cualquier caso el sistema puede reorganizar los valores porque conoce mediante un fichero de información el número de filas y columnas 2. Codificación por grupos de longitud variable o run length encoding: se codifica a través de dos cifras: la primera indica el número de veces que se repite un determinado valor y la segunda cifra es el valor que se repite. Así, en el ejemplo de la figura 29.5. el fichero podría tener este aspecto: 41 13 31 23 31 13 12 12 11 13 32 33 22 con la secuencia habitual (leyendo de izquierda a derecha y pasando del final de una fila a la izquierda de la siguiente), otra modalidad (modalidad de punto de valor) puede ser la primera cifra el valor del grupo y la segunda la posición donde dicho grupo termina; en el ejemplo de antes: hay unos hasta la posición número cuatro, treses hasta la posición cinco, de nuevo unos hasta la posición 8, treses hasta la posición diez, y así sucesivamente, de forma que el fichero sería 14 35 18 3 10 1 13 UNIDAD II: Estructuración de la información. 9 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER 3 14 2 15 1 16 3 17 2 20 3 23 2 25 Este tipo de codificación se realiza para aumentar la compresión de los datos raster, es decir, que ocupen menos espacio y que las búsquedas se realicen de una forma mucho más rápida. Hay que considerar como muy importante para este tema la “autocorrelación espacial de los datos” (ver Lección 3) ya que con el orden convencional se mejora la situación, pero mejora mucho si consideramos por ejemplo el orden de greca, consistente en leer la primera fila de izquierda a derecha y la siguiente fila de derecha a izquierda. Así, con esta forma de lectura y la primera codificación, el aspecto del fichero de datos sería: 41 33 61 13 42 13 11 33 22 Es decir, describimos la información con un conjunto de 18 cifras, mientras que con la primera codificación necesitábamos 26. Este tipo de codificación en ficheros reales es mucho más eficaz debido a la dimensión de los ficheros y a la repetición de los valores en fenómenos geográficos. Además del orden convencional y en greca, otros muy usados son el “orden N de Morton” y el “orden pi”. UNIDAD II: Estructuración de la información. 10 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER 3.2.- Otros tipos de estructuras raster. En algunas ocasiones no es necesario ampliar la precisión en toda la superficie del ámbito a tratar, sino únicamente de forma selectiva en algunas zonas, es ejemplo clásico la representación del borde de grandes polígonos; mientras que en la zona central del polígono la resolución o tamaño de la celdilla no tiene que ser muy pequeña, para describir el borde es conveniente aumentar la precisión. Lo dicho se ilustra en la figura 29.6, que representa una estructura jerárquica en árboles cuaternarios. En la práctica representa una resolución variable (Burrough, 1986) los bloques son más pequeños allí donde se requiere más detalle. Figura 29.6. Estructura de árboles cuaternarios El sistema realiza el proceso de partición en cuadrantes hasta que obtiene un valor homogéneo en cada celdilla o en caso de no encontrarlo se detiene para un valor prefijado de la precisión. Después se sigue un sistema de numeración e identificación de los cuadrantes de distinto rango, generalmente el “número matricial de Morton” (NCGIA, 1990). UNIDAD II: Estructuración de la información. 11 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER 322 323 320 321 33 2 30 0 31 1 Figura 29.7. Identificación de celdas según el número matricial de Morton Este sistema se ilustra en la figura 29.7. , donde se han dividido las celdas dos veces consecutivas hasta obtener un valor homogéneo, es decir, hasta identificar la coloreada de rosa cuya numeración resultante es la 322. Este sistema de numeración consiste en la codificación de las celdas de 0 a 3, cada vez que es necesario subdividir una celda, el código comienza por el número que dicha celda tenía y se vuelve a numerar añadiendo la cifra correspondiente por la derecha (ver figura 29.7.) El sistema presenta grandes ventajas: • Aumento de la velocidad de acceso • Reducción del tamaño de los ficheros • Dirección de las celdas se conoce mediante un único número: el número matricial de Morton y no con fila y columna o latitud longitud • La resolución se conoce automáticamente por el número de dígitos de la dirección de la celda. UNIDAD II: Estructuración de la información. 12 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER RESUMEN El modelo raster propone una aproximación basada en objetos elementales (celdas), que pueden agruparse para constituir entidades complejas que representan objetos del mundo real. En el modelo raster la base de datos temática o de atributos está íntimamente ligada a la espacial, siendo necesario definir el atributo o característica que se está valorando para que queden definidas las entidades que representan objetos reales. BASE DATOS GEOGRÁFICA: • Temática o de Atributos • Gráfica o Espacial o Localización o Propiedades o Topología o Geometría Base de datos de atributo: Se asignan valores a la celdilla, y existen varias formas de hacerlo: Modal: se asigna el valor más representativo en la celda. Punto medio: se asigna el valor encontrado en el punto central de celda. Lógico: si una entidad en cuestión aparece o no. Base de datos gráfica o espacial: a su vez se distinguen varios componentes que son: o Localización: según los sistemas, el más simple cruce de filacolumna dentro de la retícula o Propiedades de la entidad: con las salvedades estudiadas, las celdillas son rectangulares o cuadradas del mismo tamaño y distribución uniforme. o Relaciones espaciales: entre celdillas se definen fácilmente en función de la posición de la celdilla. (Figura 29.4.) UNIDAD II: Estructuración de la información. 13 de 14 LECCIÓN 29: BASES DE DATOS ESPACIAL EN EL MODELO RASTER Uno de los mayores problemas en el modelo raster es el aumento de precisión que complica mucho el trabajo por el aumento considerable de los ficheros y los tiempos de acceso. Se pueden mejorar considerablemente el rendimiento de un sistema raster mediante los Métodos de almacenamiento y las Estructuras raster como la de árboles cuaternarios con el número de Morton. UNIDAD II: Estructuración de la información. 14 de 14