3. MARCO TEÓRICO ______________________________________________________________________________ CAPÍTULO 3. MARCO TEÓRICO La formulación de una metodología que permita el diseño óptimo de la red de monitoreo de parámetros de calidad de agua en un río, centrándose en la localización de las estaciones de muestreo, requiere el desarrollo de un marco teórico en el cual la propuesta metodológica encuentre el sustento adecuado de cada una de sus componentes, en este capítulo, se presentan los cuatro elementos sobre los cuales se fundamenta la metodología de localización de puntos de muestreo propuesta, siendo estos: Una herramienta de optimización, que en este caso es un algoritmo genético simple. Una metodología de análisis multiobjetivo, escogiéndose el método de los promedios ponderados. Algunos elementos de análisis espacial de información usando campos continuos, mediante sistemas de información geográfica. Un modelo unidimensional de calidad del agua en estado permanente (modelo QUAL2K ) Los pormenores de cada uno de los elementos antes expuestos, se presentan a continuación. 3.1 ALGORITMOS GENÉTICOS De forma general, un algoritmo genético es un sistema de búsqueda a través de un espacio de decisión, usando un proceso análogo al de la teoría de la “selección natural” de Darwin, que busca la supervivencia, en mayor número, de los individuos más aptos. Las variables de decisión asociadas con el proceso de optimización se codifican como 0 ó 1, en cadenas llamadas cromosomas. El sistema de optimización se basa en la aplicación de una serie de operadores genéticos (selección, cruce y mutación) que modelan el mecanismo de búsqueda (Reed et al, 2000). Dado que los algoritmos genéticos emplean una representación binaria y unos operadores de variación independientes del problema, se consideran un método muy robusto, puesto que pueden aplicarse a gran variedad de casos sin tener que adaptarse a cada problema en concreto (Sánchez, 2002). 3-1 3. MARCO TEÓRICO ______________________________________________________________________________ 3.1.1 Conceptos básicos 3.1.1.1 Definición Sea AG un algoritmo genético, éste está definido por un conjunto de ocho elementos (octupla, ecuación 3.1) (Reyes, 2002) como: AG = (I , φ , λ , μ , Ω,ψ , s, i ) (3.1) donde: I es el espacio de individuos. φ : I → ℜ denota una función de aptitud que asigna valores reales a los individuos. λ y μ son enteros positivos; λ ≠ μ está permitido. Ω es un conjunto de funciones aleatorias ω : I μ → I λ , llamadas “operadores genéticos”, que obtienen λ individuos a partir de μ . Cada elemento ω ∈ Ω está controlado por algún parámetro φ ∈ ℜ . s : I λ → I μ denota el operador de selección que obtiene μ individuos a partir de λ . La función de transición ψ : I μ → I μ describe el proceso de transformación completo de una población P mediante la aplicación de los operadores genéticos y la selección, por ejemplo, para n fijo: ψ (P ) = s (ω1 (...(ω n (P )))) (3.2) i : I μ → { falso, cierto} es un criterio de terminación para el algoritmo genético. Generalmente la función de aptitud φ corresponde a la función objetivo del problema en cuestión. Por otra parte, mientras los operadores genéticos son siempre probabilísticos, la selección puede ser probabilística o completamente determinística. El criterio de terminación puede variar desde algo arbitrariamente complejo, hasta algo tan simple como complementar un cierto número preestablecido de generaciones. 3-2 3. MARCO TEÓRICO ______________________________________________________________________________ 3.1.1.2 Fundamentos biológicos Todo ser vivo está conformado por ADN (Ácido Desoxirribunocléico). Dentro las células existen cadenas de ADN que son responsables de la transmisión genética de ciertas características desde los padres hacia su descendencia, estas cadenas se denominan cromosomas. Un gen es una sección de ADN que codifica una cierta función, y solo puede ocupar un lugar determinado dentro del cromosoma. A los distintos valores que puede tomar un gen se les denomina alelos. El conjunto de genes de un organismo determinado se conoce como genoma. La reproducción consiste de forma general en la recombinación o cruce de los genes de uno (asexual) o dos (sexual) padres, para dar lugar a genoma de un individuo nuevo. Durante este proceso, eventualmente, ocurren errores de copiado conocidos como mutaciones. Un individuo es el elemento básico de una población. Así, una población es un conjunto de individuos con la capacidad de relacionarse e interactuar entre sí. Cada individuo está determinado por su composición genética, la cual recibe el nombre de genotipo, el cual da lugar a los rasgos específicos u observables del individuo, los cuales reciben el nombre de fenotipo. Un individuo se desarrolla dentro de cierto ambiente, y este último a su vez actúa sobre el individuo alterando su capacidad de reproducirse, mejor conocida como aptitud. Con base en la aptitud de cada individuo, el proceso de selección determinará cuáles son los individuos que se reproducirán y avanzarán a la siguiente generación (Sánchez, 2002). 3.1.2 Estructura de un algoritmo genético Aunque los detalles de implementación varían entre diferentes algoritmos genéticos simples, todos comparten en general la estructura que se presenta en la Figura 3-1 (Hernández, 2004); cada uno de los elementos que ahí se exponen se describen en los numerales siguientes. 3.1.2.1 Representación En la solución de un problema mediante algoritmos genéticos, un cromosoma se representa con una estructura de datos que codifica los parámetros de una posible solución de dicho problema. Cada cromosoma corresponde a un individuo de la población. Los cromosomas usualmente se representan por cadenas binarias conformadas por genes, y un gen es una subsección de un 3-3 3. MARCO TEÓRICO ______________________________________________________________________________ cromosoma que codifica el valor de un solo parámetro. De esta manera, el genotipo corresponde a la codificación (la cual puede ser o no binaria) del cromosoma, y el fenotipo es la decodificación de este. Los alelos son los posibles valores que puede tomar cada posición genética. La aptitud de un individuo es un valor que se le asigna y que denota la calidad de éste con respecto a los demás, esta corresponde en la solución de un problema, a la función objetivo. INICIO POBLACIÓN INICIAL Generación=0 Evaluación Generación=Generación+1 Selección Criterio finalización? Cruce NO Mutación SI FIN Figura 3-1. Esquema general algoritmo genético simple (adaptado de Hernández, 2004) Se llamará generación a la creación de una nueva población a partir de la existente, previo cálculo de aptitudes (Sánchez, 2002). 3.1.2.2 Población inicial La población P en un algoritmo genético está conformada por J individuos, donde el número J (tamaño de la población) es un parámetro de entrada del algoritmo. Para obtener la población inicial t se deben generar J individuos, los cuales se crean típicamente de manera aleatoria a partir de funciones que generan números distribuidos uniformemente; estos generadores de números aleatorios requieren de la entrada de un valor semilla, que determina la secuencia de los 3-4 3. MARCO TEÓRICO ______________________________________________________________________________ números generados (Osyczka, 2002). Dado que estos números no son realmente aleatorios (números seudoaleatorios), el papel del valor semilla en la calidad de la solución final ha sido ampliamente discutido en la literatura especializada, encontrándose en estudios recientes (Ng y Perera, 2003) que dicho valor semilla no juega un papel primordial en el buen desempeño de los algoritmos genéticos. 3.1.2.3 Función de adecuación o de aptitud, y manejo de restricciones La escogencia de una adecuada función de aptitud es vital en el desempeño del algoritmo genético durante el proceso de optimización; ya que es la única conexión entre el problema a solucionar y el método de optimización seleccionado para resolverlo. La función de aptitud o función objetivo del problema, se emplea en cada generación t para determinar que tan “apto” es un individuo para proseguir a la próxima generación t + 1 (supervivencia de los individuos más fuertes o aptos). En general, los problemas de optimización tienen restricciones impuestas por el entorno físico y económico en que se desarrollan, estas restricciones describen la dependencia entre las variables de decisión y los parámetros estudiados (Osyczka, 2002); por lo deben incluirse como parte fundamental del proceso de optimización, puesto que acotan el espacio de soluciones factibles a explorar. Así mismo, la dinámica del método de optimización puede ocasionar soluciones o individuos no factibles, que violen total o parcialmente las restricciones del problema; para afrontar este problema, se han introducido en la evaluación de la función de aptitud una serie de propuestas que permiten manejar dichas restricciones al interior de los problemas de optimización con algoritmos genéticos. Estas propuestas se pueden clasificar dentro de los siguientes grupos (Pulgarín A., 2001): Métodos basados en funciones de penalización. Métodos basados en la memoria del comportamiento. Métodos basados en algoritmos de reparación. Técnicas basadas en optimización multiobjetivo. 3-5 3. MARCO TEÓRICO ______________________________________________________________________________ Dentro del grupo anterior, las funciones de penalización son las más empleadas, estas a su vez se pueden dividir en dos tipos: Penalización estática: donde la penalización es función del grado de violación de las restricciones. Penalización dinámica: donde la penalización es función tanto del grado de violación de las restricciones, así como del número de la generación. La forma de la penalización no es trivial y depende del problema, pero autores como Osyczka (2002) reportan que la penalización constante es menos efectiva que la penalización dinámica o variable. Diversos autores han centrado sus estudios en generar propuestas generales para aplicar la penalización variable, las cuales se basan en las violaciones de la cadena no factible respecto a cada restricción, dichas propuestas se tratan con mayor detalle en Smith et al (2000) y Pulgarín (2001) y Osyczka (2002). 3.1.2.4 Operadores de variación El objetivo de los operadores de variación es el de guiar a la población de una forma probabilística hacia la solución óptima del problema, de forma que las soluciones de la población en la generación última se encuentren, en su conjunto, más “cerca” de la solución óptima que las soluciones de la generación anterior. En un esquema básico de funcionamiento, el proceso de optimización se guía por los siguientes tres operadores de variación (u operadores genéticos) como reglas de transición probabilísticas. Selección: El papel de la selección dentro del proceso de optimización es el de escoger los mejores individuos de la población actual para continuar en el proceso de optimización. Las técnicas de selección empleadas en algoritmos genéticos son de tipo probabilístico (de acuerdo con la aptitud de cada individuo, como la rueda de ruleta, el sobrante estocástico y el método universal 3-6 3. MARCO TEÓRICO ______________________________________________________________________________ estocástico), de tipo torneo (comparaciones directas de individuos, como la selección por torneo), y de tipo estado uniforme (se usa en los algoritmos genéticos en los cuales solo unos cuantos individuos se reemplazan en cada generación). A continuación se hará mención especial de la selección tipo torneo, ya que fue el método escogido en las aplicaciones realizadas en esta tesis y, además, se reporta como el método más eficiente y menos propenso a convergencias prematuras (Goldberg y Deb, 1991). La selección tipo torneo consiste en escoger los mejores individuos mediante una competencia entre ellos (dos o más individuos), competencia de la cual se escoge el mejor (según la función objetivo evaluada). Para ello la población se divide en subgrupos, y el mejor individuo de cada subgrupo se escoge para la próxima generación. Los subgrupos pueden contener 2, 3 o más individuos siendo el método más popular el llamado torneo binario, en el cual dos individuos escogidos aleatoriamente se comparan entre si y el mejor pasa a la siguiente generación. En la selección por torneo binario hay dos posibles esquemas para escoger las soluciones que pasarán desde la generación t a la generación t + 1 (Osyczka, 2002). Esquema 1: Paso 1. Seleccionar j = 1 , donde j es el número de un cromosoma. Paso 2. Generar dos números enteros aleatorios a y b tal que 1 ≤ a ≤ J y 1 ≤ b ≤ J , donde J es el tamaño de la población. Paso 3. Comparar los cromosomas a y b de la generación t . Si el cromosoma a es mejor que el cromosoma b , colocar el cromosoma a en el lugar del j -ésimo cromosoma en la generación t + 1 . En caso contrario se colocará el cromosoma b . Paso 4. Hacer j = j + 1 y si j ≤ J volver al paso 2 Esquema 2: Paso 1. Seleccionar j = 1 , donde j es el número de un cromosoma. Paso 2. Generar un número entero aleatorio a tal que 1 ≤ a ≤ J . 3-7 3. MARCO TEÓRICO ______________________________________________________________________________ Paso 3. Comparar el cromosoma j con el cromosoma a desde la generación t . Si el cromosoma j es mejor que el cromosoma a reemplazar el cromosoma j en el j -ésimo cromosoma en la generación t + 1 ; en caso contrario colocar el cromosoma a en dicho lugar. Paso 4. Hacer j = j + 1 y si j ≤ J volver al paso 2. Contrario al primer esquema, el segundo asegura que el mejor individuo de la generación considerada será copiado por lo menos una vez en la generación siguiente, atribuyendo con esto un carácter elitista al segundo esquema. La selección por torneo se considera el método más efectivo cuando se resuelven problemas de programación no lineal restringidos, además, presenta una menor sensibilidad a la escogencia de la función de penalización, así, en la mayoría de los casos, el uso del método de la penalización constante junto con un valor grande del coeficiente de penalización proporciona buenos resultados. Por las razones antes expuestas, se eligió la selección por torneo empleando el esquema 2; como el método de selección a implementarse en esta tesis. Cruce El cruce es el principal operador en los algoritmos genéticos, y se aplica sobre la población actual t ya seleccionada, este forma un nuevo individuo combinando los cromosomas de dos padres. El parámetro que controla este operador de variación es la probabilidad de cruce ( Pcruce ), este es uno de los parámetros de entrada que usa un algoritmo genético y proporciona el número esperado de individuos (Pcruce × J ) a los cuales se les aplicaría el operador de cruce en cada generación. El esquema de selección de los individuos sobre los cuales se aplicará el cruce es: Paso 1. Generar un número real aleatorio α ∈ [0,1] Paso 2. Si α < Pcruce entonces seleccionar dicho individuo para el cruce. Paso 3. Repetir los pasos 1 y 2 para los J individuos de la generación t . Existen varias metodologías para realizar el cruce entre los individuos seleccionados, el cruce uniforme (los padres aportan cada uno de sus alelos con una probabilidad dada para dar lugar a 3-8 3. MARCO TEÓRICO ______________________________________________________________________________ una nueva cadena), y el cruce en n puntos (los padres intercambian parte de su cadena cromosómica para generar una nueva alternándose según los puntos de cruce). El esquema de cruce en un único punto ( n = 1 ) el más empleado (Sastry, Goldberg y Kendall, 2005). Mutación El operador mutación produce cambios aleatorios espontáneos en varios cromosomas, introduciendo alguna variabilidad extra en la población con el principal objetivo de escapar a óptimos locales. El parámetro que controla dichos cambios es la probabilidad de mutación (Pmutación ) , este es un parámetro de entrada del algoritmo genético que proporciona el número esperado de genes a ser mutados. Entre los esquemas de mutación existentes cabe mencionar la mutación binaria no uniforme (llamada también mutación dinámica) y la mutación uniforme (o mutación aleatoria simple), siendo esta última el método más empleado y se describe de la siguiente manera (Sastry et al, 2005): Para cada individuo j de la población en la generación t Paso 1. Generar un número real aleatorio α ∈ [0,1] Paso 2. Si α < Pmutación , entonces mutar dicho gen. 3.1.2.5 Criterios de finalización Como lo muestra la Figura 3-1; el proceso de optimización llevado a cabo por un algoritmo genético es iterativo; entre los criterios reportados en la literatura para terminar el proceso se tienen: – Número máximo de generaciones (Osyczka, 2002) – Dominio de una solución en la nueva población, se determinada la finalización del proceso iterativo cuando un porcentaje de los individuos que conforman la nueva población tienen los mismos genes de la solución dominante (Reed P et. al, 2000). 3-9 3. MARCO TEÓRICO ______________________________________________________________________________ 3.1.2.6 Parámetros de entrada Los parámetros de entrada más significativos que el algoritmo genético utiliza son los siguientes: – Tamaño de la población ( J ) – Número de generaciones (N generaciones ) – Probabilidad de cruce (Pcruce ) – Probabilidad de mutación (Pmutación ) La correcta combinación de los parámetros anteriores guiará al algoritmo genético en la consecución de soluciones de alta calidad cercanas al óptimo global buscado. Para obtener los valores de los parámetros más adecuados, se reportan básicamente dos procedimientos: Mediante experimentación. Consta de un análisis de sensibilidad del desempeño de la función objetivo ante la variación del grupo de parámetros antes expuesto; basándose en resultados obtenidos empíricamente como los encontrados por De Jong en 1975 y Schaffer en 1989, y reportados por Lobo (2000). De Jong encontró un funcionamiento aceptable del algoritmo genético por él evaluado con una Pcruce de 0.6, un J entre 50-100, y una Pmutación del orden de 0.001. Schaffer por su lado encontró como parámetros óptimos una Pcruce entre 0.75-0.95, un J entre 20-30, y una Pmutación entre 0.005-0.01. Además, se deben tener en cuenta algunos criterios fundamentales como (Reyes, 2002): – Tamaños de población grandes aseguran un buen rendimiento del algoritmo, ya que convergen de una mejor manera debido a la mayor diversidad que se logra en la población. – El número de generaciones está condicionado principalmente por el tiempo de cálculo necesario para realizar el proceso de optimización, especialmente si este se emplea como criterio principal de finalización. – La probabilidad de cruce es el parámetro que más presión ejerce sobre la optimización, ya que es la encargada de guiar la exploración del campo de soluciones factibles mediante pequeños movimientos en dirección de las soluciones más promisorias. Porcentajes 3-10 3. MARCO TEÓRICO ______________________________________________________________________________ demasiado elevados ocasionan fluctuaciones en la optimización y convergencia prematura a una solución no óptima o la no convergencia. – La probabilidad de mutación es tal vez el parámetro que menor impacto reviste en el funcionamiento de los algoritmos genéticos, su valor comparado con la probabilidad de cruce es bastante bajo pero de necesaria inclusión, ya que ocasiona que el algoritmo de saltos hacia regiones tal ves no exploradas, escapando con ello a posibles óptimos locales. Relaciones teóricas Dependiendo del caso; el procedimiento anterior puede ser demorado, convirtiendo el método en poco atractivo para la solución de algunos problemas. Para obviar esta dificultad, diversos autores han trabajado en los llamados algoritmos genéticos competentes; los cuales buscan mediante la implementación de relaciones teóricas, acercar a los algoritmos genéticos de la teoría a la práctica, disminuyendo las iteraciones necesarias para estimar la combinación más adecuada de los operadores genéticos (Sastry, Goldberg y Kendall, 2005), tanto para algoritmos genéticos multiobjetivo (Lobo, 2000), como para algoritmos genéticos simples (Reed et al., 2000). La teoría de los algoritmos genéticos competentes se basa en la conservación de los llamados bloques constituyentes, los cuales se definen como fragmentos de información de los mejores individuos de la población que deben tratar de conservarse para lograr un procedimiento de optimización que converja a un punto cercano al óptimo global del problema (Lobo, 2000). En esta tesis se implementó el esquema de diseño de un algoritmo genético competente simple desarrollado por Reed et al (2000), el cual fue empleado de manera satisfactoria en el diseño de redes de monitoreo en aguas subterráneas. El método parte de la evaluación de la siguiente expresión: ( J ≥ −2 K −1 ln(β ) σ bb π (m − 1) / d ) (3.3) donde K es el orden de los bloques constituyentes el cual representa el número mínimo de dígitos binarios que tienen significado físico en la solución del problema; dado que en este caso cada dígito binario representa una posición factible de muestreo, y que el mínimo número de estaciones posibles para constituir una red de muestreo es 1, el orden de los bloques constituyentes puede considerarse como K = 1 . El parámetro J representa el tamaño de la población inicial, β representa la probabilidad de falla de no encontrar el óptimo, que por lo 3-11 3. MARCO TEÓRICO ______________________________________________________________________________ general se toma menor o igual a 5%; σ bb representa la desviación estándar del comportamiento de los bloques constituyentes medido en términos de la función objetivo; d es la diferencia entre el mejor y el segundo mejor bloque de trabajo; y m representa el máximo número de bloques constituyentes en un cromosoma. Para aplicaciones prácticas el término σ bb π (m − 1) de la ecuación (3.3) puede aproximarse de la siguiente forma. σ bb π (m −1) ≈ σ ajuste (3.4) donde el valor de σ ajuste se estima como la desviación estándar del valor de la función objetivo de un grupo de individuos de la población inicial (1000 individuos generalmente). El parámetro d se evalúa como el menor valor de la diferencia de funciones objetivos entre individuos que compitan en el algoritmo genético. Con estas simplificaciones se completan los elementos necesarios para resolver la expresión (3.3) y estimar de esa forma un tamaño adecuado de la población inicial. El número de generaciones necesaria para lograr una convergencia hacia un óptimo cercano al global se puede aproximar mediante la expresión (3.5). N generaciones ≈ 2 × l (3.5) donde N generaciones es el número de generaciones definidos por el usuario (criterio de parada), y l es número de estaciones factibles de muestreo. La ecuación (3.5) fue diseñada para evitar el efecto “dominó” en un proceso de optimización, el cual sucede cuando diferentes bloques constituyentes convergen secuencialmente y no al mismo tiempo, lo que ocasiona la caída en óptimos locales. Para la selección por torneo, la probabilidad de cruce se estima a partir de la expresión (3.6): Pcruce ≤ (s − 1) s (3.6) 3-12 3. MARCO TEÓRICO ______________________________________________________________________________ donde el parámetro s representa el número total de individuos que compiten en la selección por torneo, para torneo binario s = 2, y por lo tanto Pcruce ≤ 0.5 (50%). La probabilidad de mutación se estima mediante la ecuación (3.7), donde J es el tamaño de la población inicial: Pmutación ≈ 1 J (3.7) A manera de chequeo de los parámetros antes estimados, se realiza un control de la llamada “deriva genética”, la cual se refiere a la fluctuación de la solución sin encontrar convergencia al verdadero óptimo debida a una combinación poco adecuada de los parámetros del algoritmo genético, en especial la probabilidad de cruce y de mutación. En la expresión (3.8) se calcula el parámetro de control como: N deriva ≈ 1.4 × J (3.8) donde N deriva representa el número de generaciones a la cual se presentaría deriva genética, para un tamaño de población inicial J determinado. Se dice que la deriva genética no afecta el proceso de optimización cuando se cumple la condición expuesta en la ecuación (3.9). N generaciones < N deriva (3.9) Las expresiones (3.8) y (3.9) se emplean para refinar la estimación del tamaño de la población inicial obtenido de la ecuación (3.3). 3.2 MÉTODO DE LOS PROMEDIOS PONDERADOS El método de los promedios ponderados es uno de los métodos discretos de análisis multiobjetivo más simple y difundido (Smith, Espinal y Aristizabal, 2004). Consiste básicamente en considerar 3-13 3. MARCO TEÓRICO ______________________________________________________________________________ funciones de valor indiferente para todos los objetivos y una regla de agregación tipo sumatoria. Dado que los criterios a emplear pueden tener escalas y unidades diferentes, el primer paso es llevar los datos involucrados a una escala común, para ello se normalizan cada uno de los criterios u objetivos, de manera que todos queden expresados en términos del porcentaje del logro, asignándose así el 100% del logro al mayor valor del criterio u objetivo, y 0% al menor valor (la escala transformada queda representada por valores entre 0 y 1), mediante el uso de expresiones como la (3.10): ' kz = k z − Min z Max z − Min z (3.10) ' Donde k z es el valor transformado del parámetro z , k z el valor a escalar del parámetro z , Min z el valor mínimo del parámetro z y Max z el valor máximo del parámetro z . Las preferencias del decisor se asignan mediante factores de ponderación a cada criterio, luego la función de valor o de criterio de decisión puede expresarse como: ⎡ NP w z ⎤ k ' g,z ⎥ U g = ⎢∑ ⎣ z =1 wtotal ⎦ (3.11) Donde wz es el peso de importancia del parámetro z , wtotal la sumatoria de los wk , y NP el número de parámetros o criterios considerados. La determinación de los pesos de importancia (o factores de ponderación) significan de manera general, que si wz1 es el peso asignado por el decisor al objetivo z1 , y wz 2 es el peso asignado por el decisor al objetivo z 2 , podría decirse que z1 es wz1 wz 2 veces más importante que z 2 (Smith et al, 2000). Por lo general, los parámetros empleados dentro de un proceso de decisión provienen del desempeño de distintas disciplinas, por lo que seleccionar los valores más adecuados de los pesos 3-14 3. MARCO TEÓRICO ______________________________________________________________________________ de importancia de cada parámetro no es una labor trivial. Diversas metodologías han sido desarrolladas para tal fin, algunas con un planteamiento simple como el método de clasificación (solicita al decisor ordenar, de acuerdo con sus preferencias, los diferentes criterios), o el método de valoración (solicita al decisor asignar valores numéricos a los pesos de importancia en una escala definida ) presentados por Smith et al (2000), y otros métodos más elaborados que emplean un análisis mediante programación por metas para extraer los pesos de preferencia a partir de un grupo de cuestionarios diligenciados por un grupo de expertos (Ning y Chang, 2002). 3.3 ANÁLISIS ESPACIAL DE INFORMACIÓN USANDO CAMPOS CONTINUOS Un campo continuo es una representación conceptual simple de un espacio geográfico en términos de coordenadas cartesianas continuas en dos o tres dimensiones (o cuatro si se incluye el tiempo), el cual tiene asociado un atributo que se asume varía usualmente de forma suave y continua en el espacio. En sistemas de información geográfica hay principalmente dos caminos para la representación de campos continuos; el primero es el TIN (Triangular Irregular Network); y el segundo y más común la Matriz de Altitud o el modelo de elevación digital del terreno en forma de grilla (MDT), para este último camino el atributo asociado a cada celda puede ser además de la altura media, algún otro atributo que varíe continuamente como los niveles de contaminante en el suelo, la presión atmosférica, la precipitación anual, la densidad de población, entre otros (Burrough y McDonnell, 1998). A partir del modelo de elevación digital del terreno representado en forma de malla (con un tamaño de celda uniforme en el dominio), es posible obtener información de gran utilidad en campos como la hidrología, la geología y la geografía; mediante diversas operaciones básicas como el álgebra de mapas, operaciones sobre puntos y operaciones espaciales (interpolación, filtros espaciales, derivación de la red de drenaje, delineación de cuencas, entre otras); a continuación se mencionan los elementos derivados del análisis espacial que se utilizaron en el desarrollo de esta tesis, teniendo en cuenta que los mismos se emplearon en la evaluación de la potencialidad a la contaminación de un punto sobre la red de drenaje por contaminantes transportados por la escorrentía superficial. Los detalles numéricos de cómo se hallan parámetros 3-15 3. MARCO TEÓRICO ______________________________________________________________________________ como la curvatura en planta y en perfil, la pendiente del terreno, la longitud de la trayectoria del flujo y la acumulación del flujo, no se tratan en este texto, pues se da mayor importancia a sus potenciales aplicaciones dentro del entorno de la tesis más que a los diversos métodos de cálculo, estos detalles se pueden consultar en Burrough y McDonnell (1998) y en Meijerrink et al (1994). 3.3.1 Derivada de primer orden de una superficie continua Bajo el supuesto que una superficie representada en forma de malla es matemáticamente continua, es posible encontrar las derivadas matemáticas en cualquier localización de la misma. Las derivadas de primer orden son la pendiente y el aspecto, y las derivadas de segundo orden son la curvatura en perfil y la curvatura en planta. 3.3.1.1 Pendiente del terreno La pendiente del terreno se define sobre un plano tangente a la superficie modelada con el MED (Modelo de Elevación Digital) en un punto dado, y compromete dos componentes; el GRADIENTE (tasa máxima de cambio de la elevación, calculada como la primera derivada de la elevación con respecto a la distancia en cualquier dirección), y el ASPECTO (la dirección de la máxima tasa de cambio); comúnmente se usa el término “pendiente” en lugar de “gradiente” medio (Burrough y McDonnell, 1998), por lo que en adelante se conservará la notación antes mencionada. Este parámetro es de gran importancia en la estimación del potencial de degradación del suelo, pues tiene un efecto directo sobre las tasas de flujo de sedimento y agua a nivel superficial, flujo de agua a nivel subsuperficial y tipos de vegetación (Strobl et al, 2006); indica en general, que en pendientes pronunciadas se incrementan el potencial de erosión y la escorrentía superficial, y en bajas pendientes ocasionan el efecto contrario. La pendiente se mide usualmente en porcentaje, grados, o radianes. 3.3.2 Derivadas de segundo orden de una superficie continua 3.3.2.1 Curvatura en perfil La curvatura en perfil, para un punto sobre una superficie topográfica, es la segunda derivada de la elevación con respecto a la distancia a lo largo de la línea de máxima pendiente. Ella muestra 3-16 3. MARCO TEÓRICO ______________________________________________________________________________ la curvatura perpendicular a la dirección de la pendiente y visualmente describe la forma de la pendiente en dirección hacia abajo (Burrough y McDonnell, 1998). Este atributo topográfico posee una fuerte influencia sobre la escorrentía superficial, la erosión del suelo, y los procesos de depositación de material arrastrado por la escorrentía, pues se relaciona con la aceleración y desaceleración del flujo de agua superficial, así como en la presencia y tipo de vegetación en un punto dado (Strobl et al, 2006); la curvatura es medida en grados por unidad de distancia (por ejemplo grados por 100 metros). 3.3.2.2 Curvatura en planta La curvatura en planta se define como la segunda derivada de la elevación con respecto a la distancia perpendicular medida a la línea de máxima pendiente y describe la forma del relieve en dicha dirección. Esta variable es la curvatura a lo largo del contorno y describe cómo son los cambios en el aspecto (tasa de cambio del aspecto). La curvatura en planta es una medida de la convergencia o divergencia topográfica y tiene gran influencia sobre la concentración del agua a través de la superficie del terreno (Strobl et al, 2006). 3.3.3 Índices derivados de la topografía Diversos parámetros se derivan matemáticamente a partir de atributos topográficos, con el fin de estudiar algunos procesos del paisaje que dependen normalmente de la configuración del mismo. Estos índices proporcionan un medio eficaz para medir o estimar la variabilidad espacial de ciertas propiedades del suelo, que en su mayoría son de difícil o impráctica medición en grandes extensiones de terreno (Strobl et al, 2006). 3.3.3.1 Índice topográfico de humedad Este índice es una función de la pendiente y la intensidad del flujo (representada por el área acumulada). Se relaciona con el tamaño y la distribución espacial de zonas de saturación para la generación de escorrentía superficial (índice de retención de humedad), es un indicativo de la predisposición de cada celda de la malla a generar escorrentía superficial (Strobl et al, 2006). Este índice se define como: 3-17 3. MARCO TEÓRICO ______________________________________________________________________________ ⎛ A ITH = ln⎜⎜ S ⎝ tan β ⎞ ⎟⎟ ⎠ (3.12) donde ITH es el índice topográfico de humedad (adimensional); AS es el área contribuyente (m2) (número de elementos o celdas aguas arriba multiplicado por el área de cada celda); y β es la pendiente (grados) (Burrough y McDonnell, 1998). 3.3.3.2 Índice de potencia de la corriente Este índice se calcula con base en la pendiente y la intensidad del flujo en cada celda del terreno según la siguiente expresión: ϖ = AS × tan β (3.13) donde ϖ es el índice de potencia de la corriente (menor que la unidad) y mide el poder erosivo del flujo sobre el terreno. Este índice es proporcional a la potencia P̂ de la corriente expresada comúnmente como: Pˆ = ρgq tan β (3.14) donde ρ es la densidad del agua, g la aceleración debida a la gravedad, y q es el caudal del flujo sobre el terreno por unidad de ancho (Burrough y McDonnell, 1998). 3.3.3.3 Índice de transporte de sedimentos Este índice refleja especialmente el efecto de la topografía sobre la pérdida de suelo ya que representa el proceso de erosión y depositación; y se escribe como ⎡ A ⎤ τ =⎢ S ⎥ ⎣ 22.13 ⎦ 0.6 ⎡ senβ ⎤ ×⎢ ⎥ ⎣ 0.0896 ⎦ 1.3 (3.15) 3-18 3. MARCO TEÓRICO ______________________________________________________________________________ donde τ es el índice de transporte de sedimento (adimensional); se asemeja a el factor longitud pendiente (LS) de la Ecuación Universal de Pérdida de Suelo (USLE) pero es aplicable a superficies tridimensionales (Burrough y McDonnell, 1998). 3.3.4 Otras variables y operadores de importancia 3.3.4.1 Operador acumulación del flujo Este es un operador donde, dada una matriz de direcciones de drenaje y una matriz de pesos, determina una matriz resultante donde cada elemento representa la suma de los pesos de todos los elementos en la matriz que drenan a ese elemento, este operador es el fundamento en la construcción de mapas como el de áreas acumuladas, u otros productos que requieran agregar valores según el modelo de drenaje de la cuenca. 3.3.4.2 Longitud de la trayectoria del flujo Se define como la distancia recorrida por una gota de lluvia desde el centro de una celda en una cuenca rasterizada, hasta su punto de entrada en una corriente (Chisha, 2005). Una trayectoria larga del flujo proporciona mayor oportunidad de retención y depositación de partículas y de evaporación del agua superficial. Este es un parámetro importante cuando de fuentes no puntuales de contaminación se trata, pues dependiendo del uso del suelo, las zonas mas próximas a los cauces son las principales fuentes de contaminación no puntual (Strobl et al, 2006). 3.3.4.3 Uso del suelo y el número de curva (CN) El uso del suelo en una cuenca juega un papel de primera mano en las características y magnitud de las cargas contaminantes que potencialmente pueden llegar a una corriente mediante escorrentía superficial. El impacto que puede ocasionar un uso específico del suelo depende tanto de su localización espacial dentro de la cuenca, como de su pocisión relativa respecto a otros usos del suelo, que puedan tener ciertos efectos de amortiguación ante la contaminación, como praderas no cultivadas o bosques tupidos (Strobl et al, 2006). Así por ejemplo, uno de los mayores efectos de la presencia de vegetación es la atenuación de sedimentos contaminados desde fuentes no puntuales, los cuales son arrastrados por escorrentía superficial después de un 3-19 3. MARCO TEÓRICO ______________________________________________________________________________ evento de lluvia, además, la vegetación puede actuar como un filtro que contribuye a la reducción del momentum y del impacto del flujo sobre el terreno; disminuyendo ostensiblemente su poder erosivo. La escorrentía superficial es el medio de transporte que se ha tomado como el principal mecanismo de acarreo del elemento contaminante desde su fuente hasta la red de drenaje, y como se mencionó anteriormente, su efecto depende en gran medida del uso del suelo y por ende del tipo de cobertura presente. Para cuantificar ese efecto sobre la escorrentía, se decidió emplear el número de curva (CN) del método del SCS (U.S. Department of Agricultural Soil Conservation Service). En síntesis, el método del SCS calcula el exceso de profundidad de precipitación o escorrentía directa ( Pe ) en función de la profundidad total de precipitación, de unas abstracciones iniciales o pérdidas de lluvia antes del inicio de la escorrentía superficial ( I a ) (que incluye pérdidas por intercepción, infiltración, y almacenamiento en depresiones), y una retención máxima posible del terreno ( S ) que depende del tipo de suelo y del uso de la tierra. Con el estudio de gran cantidad de cuencas experimentales, se encontró que I a es aproximadamente un 20% de S , con lo que el método se transforma en un modelo de un solo parámetro (Chow et al, 1994). El SCS (ahora el Natural Resources Conservartion Service o NRCS) condujo una investigación con el fin de aproximar el valor de S para varios suelos y condiciones de cobertura; con el objeto de presentar a los ingenieros tablas con un rango de coeficientes manejable, los valores originales de S fueron reescalados mediante una relación inversa para que variaran entre 0 y 100 empleando el llamado número de curva. El número de curva ha sido tabulado como una función del tipo de suelo, del uso de la tierra y de las condiciones hidrológicas de la cuenca de drenaje, así, para superficies impermeables y superficies de agua CN = 100, y para superficies naturales se tienen valores en el rango de 30 a 98 (Haestad Methods, 2002). De forma general, valores altos de CN conllevan a valores elevados de escorrentía superficial ante un evento de lluvia determinado, y viceversa para el caso contrario. 3-20 3. MARCO TEÓRICO ______________________________________________________________________________ 3.4 MODELO UNIDIMENSIONAL DE SIMULACIÓN DE LA CALIDAD DEL AGUA QUAL2K El modelo QUAL2KW (desarrollado por el Departamento de Ecología del Estado de Washington y el Departamento de ingeniería Civil y Ambiental de la Universidad de Tufts en el 2004) es una versión mejorada del modelo QUAL2E desarrollado en 1987 por la EPA (U.S Environmental Protection Agency), y simula, mediante un esquema de diferencias finitas, el transporte y destino de contaminantes convencionales (no tóxicos) en ríos, representando la corriente como un canal unidimensional con flujo permanente. El modelo introduce el impacto, tanto de fuentes puntuales de contaminación como no puntuales, y simula cambios en el ciclo diario con un paso de tiempo no menor a 1 hora. Entre los elementos que simula el modelo se tiene la temperatura, la demanda bioquímica de oxígeno carbonacea, el oxígeno disuelto, y diversas formas de fósforo y nitrógeno; como se muestra en la Tabla 3-1 (Pelletier et al, 2005). El modelo QUAL2KW está implementado en Microsoft Excel, el código fuente es de acceso libre programado en Visual Basic para Aplicaciones (VBA) y puede descargarse libremente vía Internet, desde la dirección http://www.ecy.wa.gov/programs/eap/models/. El ambiente Excel se usa como interfaz gráfica para el usuario, como modo de entrada de los datos, como medio para correr el modelo, y como herramienta para la visualización de los resultados finales. Tabla 3-1. Variables de estado en el QUAL2KW VARIABLE Temperatura Conductividad Sólidos suspendidos inorgánicos UNIDAD °C μmhos mg D/l Oxígeno disuelto mg O2/l DBO carbonácea de reacción lenta DBO carbonácea de reacción rápida Nitrógeno orgánico Nitrógeno amoniacal Fósforo orgánico Fósforo inorgánico Fitoplanton Detritos Patógenos mg O2/l Alcalinidad mg O2/l μg N/l μg N/l μg P/l μg P/l μg A/l μg D/l cfu/100 ml mg CaCO3/l 3-21 3. MARCO TEÓRICO ______________________________________________________________________________ Carbono inorgánico total mole/l Biomasa de las algas del fondo g D/m2 Nitrógeno de las algas del fondo mg N/m3 Fósforo de las algas del fondo mg P/m4 3 * mg/l =g/m , D=peso seco. A=clorofila La integración numérica de las ecuaciones del modelo se hace mediante un programa compilado en Fortran 95, corrido por el programa de VBA en Excel. La versión QUAL2KW posee la capacidad de calibrar automáticamente los parámetros cinéticos de las reacciones químicas implementadas mediante un algoritmo genético denominado PIKAIA, el cual busca maximizar el ajuste de los resultados del modelo a los datos observados en campo (Pelletier y Chapra, 2004b). Las principales características del modelo son (Pelletier y Chapra, 2004a): a) Es un modelo unidimensional que supone que el canal es bien mezclado vertical y lateralmente. b) Considera las condiciones hidráulicas en estado permanente. c) Emplea un esquema de diferencias finitas, la malla del modelo puede ser irregular, y las entradas de masa y calor se simulan como cargas puntuales, no puntuales y abstracciones. d) Los flujos de calor y temperatura se simulan como una función de la meteorología, a una escala de tiempo diaria. e) Todas las variables de calidad del agua se simulan a una escala temporal diaria. f) Múltiples cargas y abstracciones pueden ser implementadas en cualquier tramo. g) El modelo simula algas que se encuentren en el fondo del cauce. h) Incluye la simulación de la zona hiporréica (lugar bajo la columna de agua donde los procesos biológicos y químicos ocurren sobre la superficie y en el interior de los sedimentos). i) El modelo no simula sistemas ramificados, y no incluye un componente para determinar la incertidumbre (como si lo hace el QUAL2E). El detalle de las ecuaciones de los procesos incluidos en el modelo de computador se pueden consultar en Pelletier G. y Chapra S. (2004 a, 2004 b). 3-22