BASE DE DATOS DE IMÁGENES SATELITALES PARA INVESTIGACIONES SOBRE PREDICICION DE RENDIMIENTO DE CULTIVOS Yolanda Fernández-Ordóñez1, Jesús Soria-Ruiz2 1 Colegio de Postgraduados en Ciencias Agrícolas. Montecillo, México. [email protected] 2Instituto Nacional de Investigaciones Forestales y Agropecuarias (INIFAP).Toluca, México. [email protected] Resumen Este trabajo se ubica dentro de las aplicaciones de la teledetección (percepción remota) a la predicción del rendimiento de cultivos. Se propone un enfoque hacia la construcción de bases de imágenes satelitales. La predicción de rendimiento de cultivos, como muchas otras investigaciones, requiere que las imágenes de un ciclo sean almacenadas para reutilizarlas en ciclos agrícolas posteriores. Esto con objeto de refinar paulatinamente la metodología de predicción para un cultivo en particular, y además, generar conocimiento para predicciones de otros cultivos. Una cantidad considerable de tiempo y dinero se invierte en obtener imágenes satelitales y en procesarlas con diversos fines en investigaciones sobre agricultura, medio ambiente y protección civil, entre otras. Una base de imágenes con diferentes coberturas ya sean regionales o incluso a nivel nacional, puede facilitar y hacer rentables las investigaciones. La propuesta del trabajo se basa en el análisis de los requerimientos de investigadores para hacer búsquedas rápidas y consultas avanzadas a bases de imágenes. Palabras claves: bases de datos, imágenes de satélite, percepción remota, agricultura de precisión. III Congreso Internacional Geomática 2002, La Habana, Cuba. 1 1. INTRODUCCIÓN Las tecnologías de SIG y de los Sistemas Manejadores de Bases de Datos (SMBD) históricamente se desarrollaron de manera independiente. Los SMBD, productos relevantes del campo informático de bases de datos, se interesaron de manera genérica por los problemas del manejo eficiente de grandes volúmenes de datos basándose en el principio de independencia de los datos. Recientemente hay interés por adecuar los SMBD para manejar datos espaciales, permitiendo tratar con propiedades de localidad y relaciones topológicas de los objetos. Por otro lado los SIG se han venido preocupando más por ofrecer herramientas para el análisis que por manejar adecuadamente bases de objetos de cuerdo a los cánones de independencia, seguridad y uso conjunto eficiente por muchos usuarios. Con los avances recientes de ambas tecnologías, la brecha entre ambos enfoques se va estrechando. En muchas investigaciones como las relacionadas con agricultura y manejo de recursos naturales, se recurre actualmente a imágenes de satélite. Su costo, aunque ha disminuido, es elevado sobre todo para aquellos estudios que requerirían de analizar muchas imágenes. En países con recursos económicos insuficientes, el investigador se contenta con analizar unas cuantas imágenes, aun cuando el proyecto requeriría de muchas más para un seguimiento adecuado o para la calibración de modelos. Este trabajo propone un enfoque para construir bases de datos de imágenes reutilizables. Concretamente, proponemos mecanismos para diseñar bases de imágenes satelitales con base en funcionalidades de consultas o query que un usuario esperaría tener a su disposición. El trabajo está organizado como sigue. En la sección 2 hacemos una somera revisión de los enfoques que siguen los SMBD y los SIG para el manejo de objetos espaciales. En la sección 3 consideramos las facilidades de acceso a bases de imágenes que facilitarían las investigaciones a usuarios investigadores. En la sección 4 proponemos el enfoque de nuestras investigaciones para crear bases de imágenes para uso de percepción remota en la predicción del rendimiento de cultivos en el ámbito mexicano. La sección 5 es de las conclusiones. Finaliza el trabajo la sección 6 de referencias. III Congreso Internacional Geomática 2002, La Habana, Cuba. 2 2. EL MANEJO DE DATOS ESPACIALES EN LOS SIG Y EN LOS SMBD Las tecnologías de SIG y de manejo de bases de datos a través de los SMBD históricamente se desarrollaron de manera independiente. La razón fue la adopción desde el inicio, de dos puntos de vista distintos hacia los datos. Los SMBD se preocuparon inicialmente por datos homogéneos pero muy voluminosos, a ser compartidos por comunidades de usuarios en las empresas. No había consideración de ubicación de esos datos en un espacio ni de sus relaciones topológicas. El manejo eficiente y los aspectos de seguridad fueron el motor que impulsó a los SMBD relacionales que son los más populares actualmente. La formalidad matemática del modelo relacional (Codd, 1970) permitió un desarrollo estandarizado de los mecanismos para consulta de este tipo de bases. Recientemente, conservando los mismos principios de uso compartido, seguridad y sobre todo independencia de los datos, el campo de los SMBD empieza a preocuparse por datos de naturaleza espacial como los que surgen en aplicaciones de diseño y manufactura asistidos por computadora o CAD/CAM, informática médica, integración a gran escala de microcircuitos, robótica y procesamiento de imágenes. Los datos geográficos son un caso de los datos espaciales. Conciernen a fenómenos que ocurren por encima, sobre y debajo de la superficie terrestre. Para su manejo en computadora, estos datos e informaciones se representan dentro de mapas, produciendo una estructura mucho más compleja que un mapa en papel. Un mapa es un objeto complejo porque contiene a otros objetos. Por ejemplo, contiene distintos tópicos o temas, como son: parcelas de terreno, ríos, vías de comunicación, etc. Los temas tienen a su vez un componente geográfico y un componente descriptivo. Estos componentes se definen con base en atributos de dos tipos: Espaciales o geométricos, que describen localidad, forma, orientación y tamaño del objeto en un espacio 2D o 3D, y proporcionan el ámbito o contexto espacial del III Congreso Internacional Geomática 2002, La Habana, Cuba. 3 objeto. Permiten la creación de algoritmos para trabajar con las relaciones (topología) entre los objetos en los procesos de producción de información. Descriptivos o temáticos, no espaciales, que proporcionan datos del tema registrado para el objeto. La independencia de los datos mencionada arriba se refiere a la posibilidad que ofrecen los SMBD a los usuarios de trabajar con representaciones lógicas de los datos sin preocuparse de los detalles internos de almacenamiento y recuperación. Esto permite lograr gran eficiencia en el manejo de datos compartidos, pues todos los complejos algoritmos mediante los cuales opera el SMBD son independientes de la visión simplificada que de ellos tiene el usuario. Por ejemplo, mediante el lenguaje SQL para bases relacionales estándar, el usuario puede formular una solicitud de recopilación o consulta de acuerdo a propiedades de los datos. Internamente se está refiriendo a datos elementales dispersos en muchos archivos, pero él no necesita preocuparse de cómo están construidas las ligas que permiten al sistema relacionarlos y presentarlos. Los SMBD relacionales estándar no se ocupan de manejar componentes espaciales. Por otro lado, los SIG han desarrollado manejadores propios de bases de datos para los atributos no espaciales, ofreciendo algunas funcionalidades similares a las de almacenamiento y recuperación de los SMBD, pero sin las ventajas derivadas de la independencia de datos. Para un SIG, el manejo de los atributos no espaciales es sólo una más de las herramientas incorporadas en su toolbox para una variedad de posibles aplicaciones. La toolbox ofrece facilidades para análisis, permitiendo al usuario realizar un tipo de álgebra de objetos-mapas, mediante la aplicación de operaciones a la componente espacial, tales como la sobreposición punto por punto, por regiones, la unión e intersección de los temas contenidos en los mapas. El SIG ofrece además operaciones relacionadas con la topología de los objetos, con cálculo de distancias entre ellos, interpolaciones, etc. Pero generalmente son dos sistemas distintos dentro de un SIG: uno que maneja la componente espacial de los objetos y otro la componente puramente descriptiva, con consecuencias de ineficiencia y complejidad para los III Congreso Internacional Geomática 2002, La Habana, Cuba. 4 usuarios. Al no respetarse la independencia de datos, el usuario resulta responsable de conocer detalles de las estructuras internas. Con los avances de las tecnologías SMBD y SIG, la brecha abierta por sus muy distintos enfoques se va estrechando: los SIG descubren la necesidad de que las soluciones al manejo de grandes y complejos volúmenes de datos espaciales sean eficientes. Y en el campo de las bases de datos se perciben las particularidades del tratamiento especializado de objetos espaciales complejos. En un primer paso, los grandes SMBD comerciales, como Oracle™ e Informix™, se están orientando hacia las arquitecturas extensibles como una solución. El enfoque de los SMBD extensibles parece promisorio para lograr simultáneamente los beneficios de las bases de datos y de los SIG. Para incluir datos espaciales en un SMBD relacional extensible, se ofrecen mecanismos para creación de nuevos tipos de datos. Un tipo construido tiene estructura y operaciones asociadas de acuerdo a las necesidades de un usuario (Stonebraker et al, 1990). Si imaginamos un verdadero SMBD para datos espaciales, éste debería permitir crear bases donde pudieran expresarse las consultas y operaciones relacionadas con la geometría y topología de los objetos a un nivel cercano al usuario (lógico). Adicionalmente, exclusivamente el SMBD sin intervención del usuario, debería encargarse del almacenaje y recopilación eficiente. En resumen, los SIG consideran a las imágenes como parte de las capas de datos de objetos geográficos, que normalmente se descartan al final de un análisis. Los SMBD relacionales que se han caracterizado por la efectividad y flexibilidad de manejo de datos, proponen el mecanismo de extensibilidad que admite la adición de nuevos tipos de datos que el usuario construye conforme sea necesario. En la actualidad, la construcción y uso de tipos extensibles son complicados para usuarios no informáticos. III Congreso Internacional Geomática 2002, La Habana, Cuba. 5 3. ACCESO A BASES DE IMÁGENES En la sección anterior discutimos los enfoques divergentes de las dos principales tecnologías que se han ocupado del manejo de datos espaciales. En este trabajo son de interés las bases de imágenes de satélite, que claramente tienen una relación estrecha con las bases geográficas. Ninguna de estas dos tecnologías SIG o SMBD ofrecen facilidades para la conservación y uso compartido de imágenes satelitales, para su recopilación y consulta transparente con base en sus propiedades, para su almacenaje masivo y posterior reutilización. Las bases de imágenes dentro de la informática responden a necesidades de grupos de intereses diversos. Un primer grupo es el de las mediatecas y bibliotecas electrónicas accesibles en Internet. En la actualidad los museos, universidades y otros organismos que generan y conservan imágenes requieren mantener y distribuir el acceso a sus colecciones de material escaneado en distintos formatos digitales. Las clearinghouses o distribuidoras de imágenes como la de la Universidad de Arizona (U. Arizona, 2001) ejemplifican este grupo. Hay situaciones aún por resolver que se asemejan a las de las bases de datos espaciales: falta de criterios de selección para constituir las listas de materiales, falta de estándares de nomenclatura y de metadatos, control de acceso entre otros. Si bien existen también sitios en Internet donde puede tenerse acceso a imágenes de satélite, la búsqueda es primordialmente sobre palabras clave. Ver por ejemplo el sitio GSFC (NASA, 2001). Grupos como los de informática médica, ejemplifican la necesidad de crear bases de imágenes donde la recopilación se haga con base en patrones eventualmente reconocibles contenidos en ellas. Por ejemplo, en una bases de imágenes del cuerpo humano (radiografías, escaneos, modelos tridimensionales) se buscarían ciertos patrones indicativos de anomalías, con fines de diagnóstico y tratamiento. El usuario de imágenes satelitales también requiere de tipos especiales de búsqueda de patrones. Las imágenes de satélite son más complejas que otras III Congreso Internacional Geomática 2002, La Habana, Cuba. 6 imágenes visuales. Están constituidas por conjuntos de datos captados en distintas bandas del espectro electromagnético, visible o invisible al ojo humano, que pueden visualizarse de distintas maneras mediante procesos computarizados al combinar los valores de las bandas. Estos conjuntos de datos de tipo raster, son un caso de discretización de valores continuos captados por los sensores y de discretización en puntos o pixeles de zonas del espacio terrestre. Pero como muchas de las facilidades de consulta y análisis interconstruidas en los SIG están orientadas al manejo de datos en formato vector, la manipulación de imágenes (consulta, recopilación y análisis) la realiza el usuario en un proceso más bien artesanal, si bien con cierta ayuda de los SIG. Una propuesta como la nuestra hacia la construcción de una base de imágenes de satélite reutilizables debe considerar los siguientes aspectos: Resolver quiénes son los usuarios y que funcionalidades necesitan o desean. Establecer las funcionalidades de revisión rápida o browsing del contenido de la base. Proponer mecanismos de coordinación con otros grupos desarrolladores de bases que tengan intereses de investigación similares. Para este trabajo hemos considerado requerimientos de consulta que facilitarían las investigaciones a usuarios noveles y avanzados. El caso de uso de la percepción remota en la predicción del rendimiento de cultivos ha sido tomado como la motivación principal de nuestra propuesta (Soria, 1999) ya que el tema es de interés en varias instituciones de investigación en México. Imágenes de satélite y la predicción de rendimiento de cultivos Las imágenes de satélite son una fuente de información masiva sobre lo que ocurre en el entorno de la superficie terrestre, sobre ella y aún en el subsuelo. Los sensores montados en un satélite captan energía emitida (sensores pasivos) o reflejada (sensores activos) por todos los objetos en la ruta de barrido. III Congreso Internacional Geomática 2002, La Habana, Cuba. 7 Una vez creadas las imágenes y disponibles comercialmente como imágenes crudas, pueden ser referidas de acuerdo a sus propiedades descriptivas, tales como satélite que la ha captado, zona terrestre que cubren, fecha de la toma, etc. Cuando ya han sido sometidas al proceso de georeferenciación, tienen asociada además una componente espacial. En el curso de una aplicación, una imagen geo-referenciada es sometida a otros procesos como el de clasificación, que la transforman con objeto de extraer informaciones sobre los fenómenos del estudio. De esta manera una imagen es susceptible de ser considerada como un objeto informático con una sola componente inicial (imagen cruda) pero que produce otros objetos hijos (imágenes tratadas). La idea es la conservación en un sistema de estos objetos a manera de poder recuperarlos y utilizarlos mediante funcionalidades de interrogación análogas a las de las bases de datos. Nuestro trabajo pretende aportar al área de investigación de bases de objetos complejos (Abiteboul et al, 1995), discutiendo las necesidades de trabajos científicos con imágenes satelitales para el ámbito agronómico y proponiendo un enfoque de desarrollo para los sistemas manejadores. Consideremos el objetivo de predecir el volumen de producción de un cultivo con previa anticipación a la cosecha. Para ello es necesario identificar y cuantificar la distribución espacial de las zonas sembradas a través de imágenes de satélites de alta resolución espacial y espectral. Además, debe tenerse la capacidad de identificar las especies de cultivos y ciertas variables agronómicas como madurez, densidad de población de las plantas, vigor y enfermedades. El proceso común consiste en averiguar con los proveedores de imágenes las características de resolución, fechas disponibles y zonas de cobertura. De acuerdo a los recursos monetarios disponibles, se adquieren las imágenes (completas o recortes) que cubren las zonas de interés en las fechas consideradas como pertinentes por el investigador. Enseguida se ubican geográficamente sobre el terreno los polígonos que constituirán los campos de entrenamiento para los procesos, es decir, los que contienen las parcelas piloto para los muestreos y las verificaciones a posteriori. Luego se determinan en la imagen las áreas de siembra mediante los valores de la firma III Congreso Internacional Geomática 2002, La Habana, Cuba. 8 espectral del cultivo de interés. La firma espectral es un valor o rango de valores basado en el principio de que cada objeto sobre la superficie terrestre puede ser caracterizado en términos de la distribución única de radiación que refleja, emite y absorbe, y que ha sido captada en la imagen. A partir de estos datos pueden determinarse, en teoría, la forma, tamaño, distribución geográfica y otras propiedades de los objetos. Este es el principio de la percepción remota (Campbell, 1996). Para la predicción de rendimiento se considera que el estado de un cultivo, mismo que depende de variables agronómicas y de otras condiciones como genotipo, clima reciente, características pedológicas y topográficas del terreno, es un indicador anticipativo de la producción que se obtendrá. En los países avanzados se han desarrollado modelos de crecimiento de cultivos (EPIC, SWAP, etc.) que permiten proponer predicciones acertadas y que consideran datos colectados en campo como el índice de área foliar de las plantas. La determinación acertada de las condiciones reales en que se desarrollará un cultivo son la base de la agricultura de precisión (figura 1). Muchas condiciones locales específicas afectan la predicción del rendimiento de cultivos en México, por lo que se requiere de investigaciones continuas. Los estudios indagatorios deben realizarse durante varios ciclos agrícolas, y en la actualidad pueden recurrir al análisis intensivo de imágenes. En este momento sólo se utilizan unas cuantas imágenes por su excesivo costo y en muchos casos sólo se realizan en un ciclo productivo por la misma razón. En efecto, en investigaciones recientes sobre predicción de rendimiento de maíz se obtuvieron resultados no totalmente satisfactorios que debieran mejorarse con otros análisis en ciclos subsecuentes (Pérez, 2001). Las razones de la insatisfactoria predicción se han atribuido a diferencias de horario en las tomas de lectura de índices de áreas foliares en campo y a la nubosidad y ruido en las imágenes utilizadas, que alteraron valores de los datos. Estas investigaciones son importantes porque aportan elementos para planificar la producción agrícola en años subsecuentes, así como para dar mayor certidumbre a las condiciones de abasto locales de un estado y a la distribución de excedentes al mercado nacional. III Congreso Internacional Geomática 2002, La Habana, Cuba. 9 Figura 1. Esquema Metodológico para la Predicción de Cosechas Debido a los muchos factores cambiantes e incontrolables de clima, ruido en las imágenes, cambio de uso del suelo, prácticas de siembra y manejo, incremento en la contaminación de aguas de riego entre otros que influyen en el rendimiento, es necesario refinar las herramientas de predicción. Aunque el cultivo de maíz bajo condiciones de temporal es de primordial importancia en el ámbito nacional, las investigaciones realizadas pueden potencialmente contribuir a generar conocimiento para predicciones de otros cultivos. 4. CREACIÓN DE BASES DE IMÁGENES DE SATÉLITE La función de revisión rápida o browsing requiere principalmente de los metadatos. Una parte de ellos están incrustados en los archivos de las imágenes satelitales como encabezados. Otra parte es externa al archivo y el usuario la conoce entrando en contacto con el proveedor o consultando sus catálogos. Los principales metadatos son: III Congreso Internacional Geomática 2002, La Habana, Cuba. 10 Resolución temporal (periodicidad con la que un satélite capta datos de una misma zona de la Tierra) Resolución espectral o numero y ancho de las bandas Clave de la ruta de barrido, conocida como path/ row A partir de los metadatos el investigador conoce el cubrimiento de una escena, que puede ser por ejemplo de 185 x 185 kilómetros en los satélites Landsat hasta las que cubren grandes extensiones continentales como las de los satélites NOAA. Se proponen cinco niveles o etapas para la integración de las bases: (i) Uniformidad de los metadatos provenientes de los principales satélites como Landsat y NOAA. (ii) Diseño y construcción de una base relacional de metadatos. (iii) Implementación de mecanismos de browsing sobre la base relacional. (iv) Investigación de los patrones útiles para investigaciones sobre cultivos. (v) Implementación de mecanismos para consulta por patrones. El presente trabajo se ubica en los primeros tres niveles, incorporando las experiencias de las investigaciones realizadas en México durante los ciclos 2000 y 2001 para predicción del rendimiento de maíz en el Estado de México (Soria et al, 2001). Una vez logrado esto, se procede a analizar los requerimientos de las consultas avanzadas, niveles iv) y v). 5. CONCLUSIONES Una base de imágenes que incorpore diferentes coberturas ya sea regionales o incluso a nivel nacional, puede facilitar y hacer rentables las investigaciones, siempre y cuando sea factible su acceso de forma rápida de acuerdo a criterios que satisfagan las necesidades reales de los usuarios. Es necesario derivar estos criterios de experiencias de investigación sobre temas específicos. En México se ha establecido una red de usuarios y desarrolladores de aplicaciones geográficas, a partir de cuyas experiencias III Congreso Internacional Geomática 2002, La Habana, Cuba. 11 el enfoque propuesto puede materializarse y rendir frutos importantes en apoyo a la investigación científica. 6. REFERENCIAS Abiteboul, S., R. Hull, V. Vianu 1994. Foundations of Databases. Ed. Addison Wesley. Reading, Mass., EUA. Campbell, J. B. 1996. Introduction to Remote Sensing. 2nd Ed. Guilford Press, New York, EUA. Codd, E. F. 1970. A relational model of data. For large shared data banks. Comm. of the ACM 13(6), New York, EUA. pp. 377-387. NASA. 2001. http://xtreme.gsfc.nasa.gov/ Pérez, V. M. 2001. Técnicas computacionales para la planeación, ejecución y documentación del procesamiento de imágenes de satélite: caso de estudio: sitios de ocurrencia y estimación de cosechas de maíz. Tesis de Maestría en Ciencias, Colegio de Postgraduados en Ciencias Agrícolas. Montecillo, México Soria, R. J. 1999. Determinación de sitios de ocurrencia y estimación de rendimientos de maíz a través de sensores remotos. Tesis de Doctorado en Ciencias, Colegio de Postgraduados en Ciencias Agrícolas. Montecillo, México. Soria, R. J., Y. Fernández, M. Escalona y M. Pérez. 2001. Predicción de cosechas de maíz a través de tecnología satelital y modelos matemáticos en el Valle de Atlacomulco, Estado de México. CD de ponencias del Ier Congreso Nacional de Geomática. Universidad de Guanajuato, México. Sept. 19-21. Stonebraker M., L. Rowe, M. Hirohama. 1990. The implementation of postgress. IEEE Transactions on Knowledge and Data Engineering 2(1), EUA. pp. 125-142. U. Arizona. 2001. http://www.library.arizona.edu/images/image_projects.html III Congreso Internacional Geomática 2002, La Habana, Cuba. 12