Anexo 4 -Modalidad Practica Pontificia Universidad Javeriana Bogotá Proceso de construcción de los modelos Para los contaminantes Ozono y Material Particulado Alex Ariel Arias Ríos 2014-1 Contenido 1. Introducción .............................................................................................................. 3 2. Construcción del Modelo RAO3 .................................................................................. 3 2.1 Contenido del modelo RAO3 ................................................................................. 3 2.1.1 Atributos que hacen parte del Antecedente de cada regla ............................... 4 2.1.2 Atributo que hace parte del consecuente ......................................................... 4 2.2 Algoritmo PredictiveApriori .................................................................................. 4 2.2.1 Ejecución del Algoritmo.................................................................................. 5 2.2.2 Parámetros requeridos por el Algoritmo para ambas ejecuciones ................... 6 2.2.3 Resultados Obtenidos ...................................................................................... 8 2.3 Algoritmo Apriori ................................................................................................... 9 2.3.1 Ejecución del Algoritmo................................................................................ 10 2.3.2 Parámetros requeridos por el Algoritmo ....................................................... 11 2.3.3 Resultados Obtenidos .................................................................................... 13 2.4 Presentación de los resultados de los modelos RAO3 y RAPM10 ...................... 15 3. Construcción del Modelo RAPM10 ........................................................................... 17 3.1 Contenido del Modelo RAPM10 .......................................................................... 17 3.1.1 Atributos que hacen parte del Antecedente de cada regla ............................. 17 3.1.2 Atributo que hace parte del consecuente ....................................................... 18 3.2 Algoritmo Apriori ................................................................................................. 18 3.2.1 Ejecución del Algoritmo................................................................................ 18 3.2.2 Parámetros requeridos por el Algoritmo ....................................................... 19 3.2.3 Resultados Obtenidos .................................................................................... 20 3.2.4 Presentación de las Reglas de Asociación para el modelo RAPM10 ............ 22 Archivos que contienen los modelos RAPM10 y RAO3 ............................................... 23 4. Construcción del Modelo CO3 ................................................................................... 24 4.1 Selección de los atributos de entrada .................................................................... 24 4.1.1 Detección de atributos de entrada por medio de la Red de Dependencias de Microsoft ................................................................................................................ 24 7.1.2 Método de Selección de Características de Microsoft para detectar los atributos de entrada ................................................................................................. 25 4.2 Algoritmo K- means ............................................................................................. 26 4.2.1 Ejecución del Algoritmo................................................................................ 27 4.2.2 Resultados Obtenidos .................................................................................... 28 4.2.3 Presentación de los resultados del modelo CO3 ............................................ 29 5. Construcción del Modelo CPM10 .............................................................................. 29 5.1 Selección de los atributos de entrada .................................................................... 29 5.2 Algoritmo K- means ............................................................................................. 30 5.2.1 Ejecución del Algoritmo................................................................................ 30 5.2.2 Resultados Obtenidos .................................................................................... 32 Archivos que contienen los modelos CPM10 y CO3 ..................................................... 33 6. Construcción del Modelo CAO3 ................................................................................ 33 6.1 Selección de los Atributos de entrada................................................................... 33 6.1.1 Aplicación del Método selección de características para elegir el conjunto de entradas ................................................................................................................... 34 6.2 Selección del Atributo Objetivo ........................................................................... 35 6.3 Ejecución del Algoritmo de Microsoft ................................................................. 35 6.3.1 Creación de la Estructura de Minería de Datos ............................................. 35 6.3.2 Vista en general del Modelo de Árboles de decisión .................................... 36 6.3.3 Configuración de los parámetros del algoritmo ............................................ 36 6.4 Resultados Obtenidos ........................................................................................... 37 6.4.2 Visor Red de Dependencias ........................................................................... 37 6.4.3 Selección de las ramas del Árbol ................................................................... 38 6.5 Archivo que contiene el nombre del modelo CAO3 ............................................ 39 7. Construcción del Modelo CAPM10 ........................................................................... 39 7.1 Selección de los Atributos de entrada................................................................... 39 7.1.1 Aplicación del Método selección de características para elegir el conjunto de entradas ................................................................................................................... 40 7.2 Selección del Atributo Objetivo ........................................................................... 41 7.3 Ejecución del Algoritmo de Microsoft ................................................................. 41 7.3.2 Vista en general del Modelo de Árboles de decisión .................................... 41 7.3.3 Configuración de los parámetros del algoritmo ............................................ 42 7.4 Resultados Obtenidos ........................................................................................... 42 7.4.1 Visor Árbol de Decisión ................................................................................ 42 7.4.2 Visor Red de Dependencias ........................................................................... 43 7.4.3 Selección de las ramas del Árbol ................................................................... 43 7.5 Archivo que contiene el nombre del modelo CAPM10 ....................................... 44 1. Introducción El presente documento describe el proceso de construcción y presentación de los resultados extraídos de los modelos de minería de datos, para esto se utilizaron los registros históricos entregados por la RMCAB, con el fin de establecer patrones que se enfoquen en las relaciones que hay entre las variables climáticas como : Velocidad del viento, temperatura, Radiación solar global, precipitación; Las variables derivadas: Trimestres del año, hora pico, clasificación horaria, fin de semana; Los contaminantes: Material Particulado (PM10),Ozono troposférico(o3) y sus componentes: Nox y No2 (especificadas en el documento de “vista minable). La motivación para realizar este documento es el definir nuevos modelos con nuevas tecnologías y herramientas que se salgan de los trabajos tradicionales que se realizan con relación a la calidad del aire, dando así un nuevo motivo para investigaciones futuras con base a los nuevos modelos generados en el presente proyecto. 2. Construcción del Modelo RAO3 Este modelo implementa la técnica de reglas de asociación para 𝑂3. En este capítulo se presenta el proceso que se realizó para crear el modelo de reglas de asociación por medio de la selección de los algoritmos que implementan la técnica. 2.1 Contenido del modelo RAO3 Este modelo está compuesto por reglas (patrones) que contienen información acerca de la relación que hay entre los atributos de entrada con el atributo objetivo que en este caso es el 𝑂3. Para este modelo los estados del atributo objetivo son: bueno, moderado y desfavorable. Un ejemplo de una regla de asociación generada por el modelo es la siguiente: Vel Viento=LEVE Temperatura=MENOS TIBIO ClasificacionHora=TARDE ==> OZONO=BUENO Como se puede observar, tanto el antecedente como el consecuente están compuestos por atributos de la vista minable procesada, donde cada atributo tiene un conjunto de estados que en el caso del antecedente si estos del ejemplo llegan a cumplirse el Ozono sería bueno. 2.1.1 Atributos que hacen parte del Antecedente de cada regla Teniendo en cuenta la relación antecedente-consecuente, con el fin de generar todas las relaciones posibles entre las variables climatológicas, las variables derivadas y los contaminantes, es importante incluir la mayoría de los atributos de los registros históricos como antecedentes que cumplen con los requisitos que debe tener para pertenecer a este grupo. A continuación se presentan los atributos que pertenecieron al antecedente de las reglas: Vel Viento Lluvia NOX NO2 RadiacionSG Temperatura Hora ClasificacionHora Trimestres del Año Mes Hora Pico Fin de Semana 2.1.2 Atributo que hace parte del consecuente Para efectos de este trabajo de grado y en especial esta sección, el consecuente fue únicamente el atributo Ozono, así que las reglas obtenidas en los resultados del modelo son combinaciones de los posibles estados de los atributos del antecedente dando como único resultado un estado del atributo 𝑂3. 2.2 Algoritmo PredictiveApriori Este algoritmo fue motivo de selección ya que tiene la habilidad de presentar las reglas de una forma más detallada (utilizando el atributo hora sin necesidad de categorizarlo) y con la presentación de una sola métrica llamada Predictive Accuracy (contiene el cálculo del Soporte y la confianza en la misma ecuación). 2.2.1 Ejecución del Algoritmo El motivo de dividir las ejecuciones del algoritmo es para evitar tener reglas de asociación con atributos redundantes como por ejemplo los atributos Hora, ClasificacionHoraria y HoraPico que si quedan juntos como antecedentes en algunas reglas de asociación, dichas reglas contendrían información repetida y por ende esta regla podría ser inútil para los involucrados. 2.2.1.1 Tipo de ejecución número 1 En la primera ejecución del algoritmo se generaron reglas de asociación donde la variable temporal Hora tiene estados específicos (es decir que contiene información de hora por hora), así que estas reglas se clasifican como “Reglas detalladas”. 2.2.1.2 Tipo de ejecución número 2 En la segunda ejecución se obtuvieron reglas de asociación que se generen con información valiosa con el fin de entender la dinámica de la ciudad relacionada con la congestión vehicular se utiliza la variable temporal utilizada fue: HoraPico. A continuación se presenta un gráfico que explica con detalle el proceso de ejecución que se le aplicó a este algoritmo. Ilustración 1 Plan de Ejecución Algoritmo PredictiveApriori Fuente: Autor 2.2.1.3 Selección de los atributos para la ejecución número 1 Los atributos que se listan a continuación hacen parte de la primera ejecución que se realiza con el algoritmo. Hora Vel Viento Temperatura Radiación Solar_G NO2 NOX Fin de Semana Trimestres del Año Lluvia Mes Aunque los atributos “Mes” y “Trimestres del Año” resulten siendo redundantes en la generación de reglas, fue importante incluirlas para encontrar comportamientos similares entre ellas, sin embargo se hizo un proceso de selección de reglas de asociación en las que se combaten las reglas redundantes, esta sección se encuentra más adelante en el documento. 2.2.1.4 Selección de los atributos para la ejecución número 2 Estos atributos difieren del anterior en especial por el atributo “Hora Pico” ya que en la ejecución 1 se obtienen resultados de reglas con horas especificas (como 2 p.m., 10 a.m., etc...), sin embargo se quería facilitar la interpretación de los resultados y en búsqueda de entender la problemática de calidad del aire relacionado con normas de congestión vehicular representado por el atributo “Hora Pico”. A continuación se encuentra la lista de atributos pertenecientes a la ejecución 2: Hora Pico Fin de Semana NOX NO2 Radiación Solar_G Vel Vientos Temperatura Mes Trimestres del Año Mes 2.2.2 Parámetros requeridos por el Algoritmo para ambas ejecuciones A continuación se muestran los parámetros que se deben definir antes de comenzar la ejecución del algoritmo, seguido de la asignación de los resultados. Ilustración 2 Interfaz de la configuración de los Parámetros para el Algoritmo Fuente: Herramienta Weka Parámetros Car Descripción Si se habilita esta opción es porque quiere que las reglas de asociación sean extraídas a otro lugar de trabajo. Índice del atributo de clase que se desea colocar como consecuente. Si queda por defecto se toma el último atributo de la base de datos. Numero de reglas que desea encontrar. classIndex numRules Tabla 1 Descripción de los Parámetros del Algoritmo Fuente: Autor o Para el campo Car se asignó el valor “false” ya que no necesitamos exportar los resultados a formato texto y es importante revisar las reglas generadas con el fin de observar si hay soluciones triviales o inexplicables y esta revisión se realiza en la interfaz de resultados de weka. o Para el parámetro classIndex que recibe datos positivos enteros se definió el número 2, el cual era la posición del atributo Ozono que es nuestro atributo objetivo. o En cuanto al parámetro numRules se probó con varias cantidades, donde para cada una de estas cantidades se ejecutaban y se miraba el valor de la medición de la última regla (ya que el orden de las reglas generadas son de carácter descendentes de acuerdo a su medición) y si el valor era inferior a 0.25 (con el fin de buscar reglas con estados del atributo objetivo Ozono poco comunes), esta cantidad se desechaba cambiándola por una cantidad menor de reglas y cuando la última regla tuviera el valor de la medida de precisión mayor e igual a 0.25 se dejaba con dicha cantidad en este parámetro con el fin de encontrar reglas verdaderamente interesantes. El valor asignado al parámetro fue 2.500. 2.2.3 Resultados Obtenidos Este proceso que se menciona a continuación ha sido aplicado en todas las ejecuciones por lo cual se trata a nivel general, en lo único que difiere es la cantidad de reglas encontradas que se especifican a continuación. Ejecución No. 1 2 Reglas Encontradas 1.000 987 Tabla 2 Reglas encontradas por Ejecución Fuente: Autor El algoritmo Tertius se descartó de la selección ya que su rendimiento en el proceso de generación del modelo fue muy bajo llegando a desbordar la memoria del computador después de 1 hora de espera, se probó con un conjunto de datos pequeño de 5.000 registros donde la demora fue de 20 minutos (lo cual es ineficiente por parte del algoritmo ya que el equipo como se observó en la sección de especificación del equipo tiene los requerimientos físicos suficientes para realizar este proceso en un tiempo considerable) y sus resultados no arrojan lo esperado ya que no maneja soporte ni confianza para cada regla, lo cual es difícil saber si las reglas generadas son confiables o no. Los resultados obtenidos fueron reglas de asociación acompañadas de la medida probabilística Accurancy Predictive de la siguiente forma: Ilustración 3 Vista general de las reglas generadas por el algoritmo Fuente: Herramienta Weka Donde al lado de cada regla de asociación se encuentra un valor con la etiqueta acc que significa la medida del algoritmo, los números que están al lado del antecedente y consecuente son la cantidad de registros que contienen las especificaciones de la regla y se presentan de forma descendente de acuerdo a la medida acc. 2.2.3.1 Reglas de Asociación seleccionadas Después de seleccionar las reglas de asociación de acuerdo a los criterios definidos en el documento Técnica de Modelado y Diseño de Pruebas la proporción de reglas de asociación encontradas son las siguientes: Ejecución Cantidad de Reglas encontradas 1 103 2 60 Tabla 3 Reglas seleccionadas Fuente: Autor 2.3 Algoritmo Apriori Apriori, es uno de los algoritmos más populares que genera reglas de asociación, una de sus ventajas es que busca reducir el número de conjuntos de estados considerados , con el fin de generar reglas de mayor interés y rendimiento en tiempos de respuestas, además el usuario especifica el soporte mínimo que quiere que tengan las reglas de asociación generadas. 2.3.1 Ejecución del Algoritmo Este procedimiento requirió conocer cada uno de los parámetros de entrada que pedía el algoritmo y estudiar los posibles valores que dichos parámetros podrían tomar, además fue necesario realizar un proceso de análisis y selección de las reglas generadas. La dinámica en cuanto a ejecuciones del algoritmo fueron similares al de PredictiveApriori. Fue necesario realizar dos ejecuciones con dos conjuntos de datos diferentes por cada ejecución, en las siguientes secciones se especifican las ejecuciones y a qué conjunto de datos pertenece cada una de ellas. 2.3.1.1 Tipo de Ejecución 1 El conjunto de datos que se utilizó para la ejecución 1, se caracteriza por encontrar reglas de asociación a nivel general relacionado con las variables temporales, este conjunto de datos es uno de los más completos y claves para la generación de reglas, ya que como este algoritmo no trabaja muy bien con datos continuos ni con atributos discretos con muchas categorías, fue necesario crear la variable derivada ClasificacionHora, la cual agrupa de forma más general los valores del atributo “Hora”. 2.3.1.2 Tipo de Ejecución 2 El objetivo de realizar esta ejecución fue con el fin de complementar los resultados generados del algoritmo anterior y corroborar la veracidad de los resultados de los dos algoritmos, así mismo se considera importante tener el soporte y la confianza de las reglas que sean similares en los dos resultados de dichos algoritmos. Este conjunto de datos remplaza el atributo ClasificacionHora por Hora Pico con el fin de evitar redundancia en los resultados. 2.3.1.3 Selección de los atributos para el tipo de ejecución 1 A continuación se muestran los atributos seleccionados para esta ejecución: ClasificacionHora Vel Viento Temperatura RadiaciónSolarG NO2 NOX Fin de Semana Trimestres del Año Lluvia Mes 2.3.1.4 Selección de los atributos para la Ejecución 2 A continuación se muestran los atributos seleccionados para esta ejecución: Fin de Semana NOX NO2 Mes RadiaciónSolarG Vel vientos Temperatura Lluvia Trimestres del Año Hora pico 2.3.2 Parámetros requeridos por el Algoritmo Para obtener unos resultados coherentes y apropiados del algoritmo Apriori fue necesario definir cada uno de los parámetros que recibe el algoritmo aparte del proceso realizado a la vista minable. En la siguiente imagen se muestran los parámetros establecidos junto con el significado de cada uno de ellos. Ilustración 4 Interfaz de los parámetros para el algoritmo A priori Fuente: Herramienta Weka Parámetros Car Significado Si quiere que las reglas de asociación sean extraídas a otro lugar de trabajo. Índice del atributo de la clase. Se establece -1 para que tome el último atributo de la clase. Iterativamente disminuye el soporte hasta llegar al alcance mínimo que se pide de soporte. Soporte mínimo en el que se pueden generar las reglas de asociación. Establece el tipo de métrica con el cual se generan las reglas de asociación. Considera solo las reglas con las puntaciones más altas que el valor establecido. Numero de reglas que se quieren encontrar. Si se habilitan los conjuntos de elementos. Elimina columnas con todos los valores faltantes. Establece el nivel de significancia. Límite superior de soporte. Si se activa este parámetro se ejecutan las reglas de asociación en modo detallado. classIndex Delta lowerBoundMinSupport metricType minMetric numRules outputItemSets removeAllMissingCols significanceLevel upperBoundMinSupport verbose Tabla 4 Definición de los parámetros del algoritmo Fuente: Autor En la ilustración 4 los valores que se ven en la interfaz son los que están por defecto, así que fue necesario configurar los parámetros con el fin de realizar la ejecución del algoritmo de forma correcta. El parámetro car se define con el valor “false” ya que no necesitamos exportar los resultados a ningún archivo externo. El parámetro classIndex se define con el número 2 que es la ubicación de la columna del atributo Ozono. El parámetro Delta se define con el valor 0.05. El parámetro lowerBoundMinSupport queda con un soporte mínimo de 0.10 ya que es importante encontrar una buena proporción de reglas de asociación útiles para los involucrados. El parámetro metricType queda de tipo “lift”, ya que este tipo de métrica muestra las reglas de asociación con la medida de mejora y confianza y cubren el análisis de utilidad de cada regla. El parámetro minMetric se estableció en 1.0 con el fin de tener reglas de asociación con un puntaje de mejora útil. Los parámetros outputItemSets y removeAllMissingCols se definen con la variable booleana “false”. Para el parámetro upperBoundMinSupport se establece el valor 1.0 que es el máximo límite que puede tomar el soporte de cada regla. Por ultimo para el parámetro verbose se definió en “true” con el fin de obtener las reglas de asociación con los detalles respectivos que son el valor de la confianza y la frecuencia de los antecedentes y consecuente. El parámetro numRules es dependiente del parámetro lowerBoundMinSupport ya que el algoritmo para cuando encuentre reglas por debajo del umbral especificado, así que el número de reglas que se especifico fue con un valor muy alto de 10.000 reglas con el fin de saber el tope de las reglas con el umbral bajo especificado. 2.3.3 Resultados Obtenidos Posterior a la configuración de los parámetros para la ejecución del algoritmo vienen los resultados provistos por el algoritmo y el tratamiento de las reglas de asociación con el fin de utilizar reglas útiles e interesantes. Cabe recalcar que este proceso se aplica de igual manera para las dos ejecuciones. A continuación se presentan las reglas generadas para cada conjunto de datos que representan una ejecución. Ejecución No. 1 2 Reglas Encontradas 1654 1728 Tabla 5 Reglas encontradas para cada ejecución Fuente: Autor Como se puede observar en la tabla de resultados, la cantidad de reglas de asociación encontradas con dichos parámetros no alcanzan a cumplir el objetivo que se estableció en la configuración del algoritmo, por lo cual es posible que la probabilidad de soporte de estas reglas de asociación mediante el Algoritmo Apriori sean más interesantes que las del PredictiveApriori ya que este algoritmo esta optimizado para seleccionar reglas apropiadas [30]. A continuación se presenta una vista general del entorno de resultados que genera la herramienta con el fin de conocer el estado inicial de cada una de las reglas generadas: Ilustración 5 Vista general de las reglas de asociación generadas Fuente: Herramienta Weka Cada regla de asociación esta ordenada descendentemente de acuerdo al valor de la medida de mejora, así que no hay un orden en las combinaciones de los atributos que hacen parte del antecedente de las reglas, en la parte superior de la interfaz de resultados sale el número de iteraciones que realizo el algoritmo para seleccionar las mejores reglas, en este caso fueron 14 iteraciones para la ejecución 1 y 2. 2.3.3.1 Selección de Reglas de Asociación (poda) Después de seleccionar las reglas de asociación de acuerdo a los criterios de selección de reglas, la proporción de reglas de asociación encontradas fueron las siguientes: Ejecución Cantidad de Reglas encontradas 1 65 2 25 Tabla 6 Reglas encontradas después de la selección Fuente: Autor 2.4 Presentación de los resultados de los modelos RAO3 y RAPM10 La visualización utilizada para el modelo de reglas de asociación contiene la información detallada de cada regla junto con el algoritmo utilizado para ella con el fin de observar de forma legible y fácil la información generada por esta técnica. A continuación se presenta el formato de la reglas de asociación para el algoritmo Apriori: Ilustración 1 Formato reglas de asociación para el algoritmo A priori Fuente: Autor Este formato tiene un color de prioridad de acuerdo al nivel de peligrosidad para la salud que puede presentar cada contaminante junto con las métricas de confianza, soporte y mejora con el fin de que los involucrados puedan conocer que tan útil puede ser esta regla. Es importante recalcar que este formato también es utilizado para el modelo RAPM10. En la siguiente ilustración se puede observar el formato que contiene el algoritmo predictiveApriori: Ilustración 2 Formato reglas de asociación para el algoritmo PredictiveApriori Fuente: Autor En este formato se puede observar que se mantiene la misma prioridad de colores para alertas tempranas que se manejó en la imagen anterior, seguido de la métrica de confianza llamada AccuracyPredictivie. En la siguiente ilustración se puede observar un ejemplo de la portada de presentación que contiene el archivo de los modelos de reglas de asociación, donde se puede observar que las reglas están divididas por grupos según los nombres de los atributos antecedentes con el fin de tener un orden y mejor navegabilidad en el archivo. En cada grupo se encuentran las reglas que contienen uno o más de los dichos atributos antecedentes correspondientes al globo azul. Ilustración 3 Ejemplo de presentación del archivo que contiene las reglas de asociación 3. Construcción del Modelo RAPM10 Este modelo implementa la técnica de reglas de asociación para 𝑃𝑀10 . En este capítulo se presenta el proceso que se realizó para crear el modelo de reglas de asociación por medio de la selección de los algoritmos que implementan la técnica. 3.1 Contenido del Modelo RAPM10 Teniendo en cuenta la fase de preparación de los datos, en especial la discretización del atributo objetivo 𝑃𝑀10 , dicho atributo puede tomar los siguientes estados: bueno, moderado y desfavorable. Un ejemplo más específico de las reglas de asociación generadas de 𝑃𝑀10 es el siguiente: Vel Viento = LEVE Trimestres = TRIMESTRE 3 ClasificaciónHora = MADRUGADA Temperatura = MENOS TIBIO Lluvia = ESCASA -> PM10 = BUENO Como se puede observar, tanto el antecedente como el consecuente están compuestos por atributos de la vista minable, donde cada atributo tiene un conjunto de estados que en el caso del antecedente si estos del ejemplo llegan a cumplirse el 𝑃𝑀10 sería bueno. 3.1.1 Atributos que hacen parte del Antecedente de cada regla Teniendo en cuenta la relación antecedente-consecuente, con el fin de generar todas las relaciones posibles entre las variables climatológicas, las variables derivadas y los contaminantes, se incluyeron la mayoría de los atributos de los registros históricos como antecedentes que cumplen con los requisitos que debe tener para pertenecer a este grupo. Sin embargo para el caso del 𝑃𝑀10 se excluyeron los atributos NOX y NO2 ya que hacen parte del contaminante 𝑂3 y además la correlación entre estos atributos con el 𝑃𝑀10 es muy baja. Se utilizó el atributo derivado PromRadiacionSG ya que genero reglas más interesantes (es decir con un porcentaje de confianza alto). A continuación se presentan los atributos que pertenecieron al antecedente de las reglas: Vel Viento Lluvia PromRadiacionSG Temperatura ClasificacionHora Trimestres del Año Hora Pico Fin de Semana 3.1.2 Atributo que hace parte del consecuente Para efectos de este trabajo de grado, el consecuente fue únicamente el atributo 𝑃𝑀10 , así que las reglas obtenidas en los resultados del modelo son combinaciones de los posibles estados de los atributos del antecedente dando como único resultado un estado del atributo 𝑃𝑀10 . 3.2 Algoritmo Apriori En esta sección se presenta el procedimiento realizado para la creación de las reglas de asociación mediante el algoritmo Apriori. 3.2.1 Ejecución del Algoritmo Este procedimiento requirió conocer cada uno de los parámetros de entrada que pedía el algoritmo y estudiar los posibles valores que dichos parámetros podrían tomar, además fue necesario realizar un proceso de análisis y selección de las reglas generadas. 3.2.1.1 Tipo de Ejecución 1 El conjunto de datos que se utilizó para la ejecución 1, se caracteriza por encontrar reglas de asociación a nivel general relacionado con las variables temporales, este conjunto de datos es uno de los más completos y claves para la generación de reglas, ya que como este algoritmo no trabaja muy bien con datos continuos ni con atributos discretos con muchas categorías, fue necesario crear la variable derivada ClasificacionHora, la cual agrupa de forma más general los valores del atributo “Hora”. 3.2.1.2 Tipo de Ejecución 2 El objetivo de realizar esta ejecución fue con el fin de complementar los resultados generados del algoritmo anterior, así mismo se considera importante tener el soporte y la confianza de las reglas que sean similares en los dos resultados de dichos algoritmos para extraer información interesante. Este conjunto de datos remplaza el atributo ClasificacionHora por HoraPico con el fin de evitar redundancia en los resultados. 3.2.1.3 Selección de los atributos para el tipo de ejecución 1 A continuación se muestran los atributos seleccionados para esta ejecución: ClasificacionHora Vel Viento Temperatura PromRadiacionSG Fin de Semana Trimestres del Año Lluvia 3.2.1.4 Selección de los atributos para la Ejecución número 2 A continuación se muestran los atributos seleccionados para esta ejecución: Fin de Semana PromRadiaciónSG Vel vientos Temperatura Lluvia Trimestres del Año Hora pico 3.2.2 Parámetros requeridos por el Algoritmo Para obtener unos resultados apropiados del algoritmo Apriori fue necesario definir cada uno de los parámetros que recibe el algoritmo aparte del proceso realizado a la vista minable. En la ilustración 4 de la sección 2.3.2 Parámetros requeridos por el Algoritmo Apriori se muestran los parámetros por defecto establecidos junto con el significado de cada uno de ellos. A continuación se muestra la configuración de parámetros realizada: El parámetro car se define con el valor “false” ya que no necesitamos exportar los resultados a ningún archivo externo. El parámetro classIndex se define con el número 4 que es la ubicación de la columna del atributo 𝑃𝑀10 . El parámetro Delta se define con el valor 0.05. El parámetro lowerBoundMinSupport queda con un soporte mínimo de 0.10 ya que es importante encontrar una buena proporción de reglas de asociación útiles para los involucrados. El parámetro metricType queda de tipo “lift”, ya que este tipo de métrica muestra las reglas de asociación con la medida de mejora y confianza y cubren el análisis de utilidad de cada regla. El parámetro minMetric se estableció en 0.60 con el fin de tener reglas de asociación con un puntaje confiable. Los parámetros outputItemSets y removeAllMissingCols se definen con la variable booleana “false”. Para el parámetro upperBoundMinSupport se establece el valor 1.0 que es el máximo límite que puede tomar el soporte de cada regla. Por ultimo para el parámetro verbose se definió en “true” con el fin de obtener las reglas de asociación con los detalles respectivos que son el valor de la confianza y la frecuencia de los antecedentes y consecuente. El parámetro numRules es dependiente del parámetro lowerBoundMinSupport ya que el algoritmo para cuando encuentre reglas por debajo del umbral especificado, así que el número de reglas que se especifico fue con un valor muy alto de 10.000 reglas con el fin de saber el tope de las reglas con el umbral bajo especificado. 3.2.3 Resultados Obtenidos Posterior a la configuración de los parámetros para la ejecución del algoritmo vienen los resultados provistos por el algoritmo y el tratamiento de las reglas de asociación con el fin de utilizar reglas útiles e interesantes. Cabe recalcar que este proceso se aplica de igual manera para las dos ejecuciones. Los resultados del algoritmo PredictiveApriori no fueron los esperados para el caso del 𝑃𝑀10 , ya que todas las reglas generadas en dicho algoritmo fueron catalogadas como “innecesarias” para cumplir los objetivos del trabajo de grado ya que no contenían como atributo consecuente los estados del 𝑃𝑀10 . A continuación se presentan las reglas generadas para cada conjunto de datos que representan una ejecución. Ejecución No. 1 2 Reglas Encontradas 2000 1760 Tabla 7 Reglas encontradas para cada ejecución Fuente: Autor Como se puede observar en la tabla de resultados, la cantidad de reglas de asociación encontradas con dichos parámetros no alcanzan a cumplir el objetivo de la cantidad de reglas que se estableció en la configuración del algoritmo, por lo cual esta cantidad de reglas generadas llegan al límite inferior de soporte establecido. A continuación se presenta una vista general del entorno de resultados que genera la herramienta con el fin de conocer el estado inicial de cada una de las reglas generadas. Ilustración 4 Vista general de las reglas de asociación generadas Fuente: Herramienta Weka Cada regla de asociación esta ordenada descendentemente de acuerdo al valor de la medida de mejora, en la parte superior de la interfaz de resultados sale el número de iteraciones que realizo el algoritmo para seleccionar las mejores reglas, en este caso fueron 18 iteraciones para la ejecución 1 y 12 iteraciones para la ejecución 2. 3.2.3.1 Selección de Reglas de Asociación (poda) Después de seleccionar las reglas de asociación de acuerdo a los criterios de selección de reglas, la proporción de reglas de asociación encontradas fueron las siguientes: Ejecución Cantidad de Reglas encontradas 1 82 2 12 Tabla 8 Reglas encontradas después de la selección Fuente: Autor 3.2.4 Presentación de las Reglas de Asociación para el modelo RAPM10 La visualización utilizada para el modelo de reglas de asociación se encuentra en un archivo en Excel que contiene 8 grupos compuestos por reglas de asociación, donde se encuentran reglas de asociación que contienen uno o más de los antecedentes que componen cada grupo formado. Los grupos están representados en un globo azul. A continuación se presenta una vista general de los grupos de Reglas de Asociación: Ilustración 5 Vista general de los grupos del Modelo de Reglas de Asociación Fuente: Autor Si se selecciona un grupo lo lleva directamente a la plantilla donde se encuentran las reglas de asociación que contienen esos antecedentes. Para una mejor gestión y comprensión de los resultados fue necesario crear un formato para cada regla de asociación de la siguiente forma: Ilustración 8 Formato Reglas de Asociación Fuente: Autor Como se puede observar en la ilustración 8, cada regla de asociación tiene la información necesaria para conocer su confiabilidad por sus métricas de soporte, confianza y mejora, los colores representan el nivel de preocupación en la salud de la población, definido por la EPA. El id de la regla está construido con las iniciales de los grupos a que pertenece dicha regla. Archivos que contienen los modelos RAPM10 y RAO3 Los resultados generados se encuentran almacenados en el mismo archivo que contiene los resultados del algoritmo PredictiveApriori y Apriori, para diferenciarlos hay varios criterios: 1. El id de las reglas de asociación generadas por el algoritmo Apriori comienzan con la letra ‘A’. 2. Las métricas que tienen las reglas de asociación generadas por el algoritmo Apriori están definidas como: Soporte y Confianza; A diferencia de las del algoritmo PredictiveApriori que están regidas con la medida Accurancy Predictive. 3. Las reglas generadas por los dos algoritmos se encuentran agrupadas en dos columnas paralelas, donde cada columna tiene el nombre del Algoritmo aplicado. El archivo que tiene los resultados de cada algoritmo y las reglas de asociación se encuentra ordenado descendentemente, para el caso del algoritmo Apriori se ordena de acuerdo con la medida probabilística de confianza y para el algoritmo PredictiveApriori se ordena de acuerdo a la medida probabilística Predictive Accurancy. El archivo que contiene los resultados de la técnica de los modelos RAO3 se encuentra con el siguiente nombre: RAO3.xls El archivo que contiene los resultados de la técnica de los modelos RAPM10 se encuentra con el siguiente nombre: RAPM10.xls 4. Construcción del Modelo CO3 Este modelo implementa la técnica de Agrupamiento (Clustering) para 𝑂3. En este capítulo se presenta el proceso que se realizó para crear el modelo de Clustering por medio de la selección de los algoritmos que implementan la técnica. 4.1 Selección de los atributos de entrada El procedimiento realizado para la selección de atributos se apoyó en la herramienta de SQL server Analysis Services con dos funcionalidades provistas por el mismo. A continuación se presentan las funcionalidades: 4.1.1 Detección de atributos de entrada por medio de la Red de Dependencias de Microsoft Esta herramienta contiene una opción de red de dependencias para las técnicas de clasificación, dicha red de dependencias analiza el conjunto de datos y muestra los atributos que deben pertenecer al conjunto de datos de entrada con el atributo predictor (que en este caso sería el 𝑂3) para obtener buenos resultados provistos por el algoritmo, teniendo una certeza optima ya que se basa meramente en los registros históricos. Es importante recalcar que se incluyeron todos los atributos de la base de datos incluidas las variables derivadas. A continuación se muestra la red provista por la herramienta: Ilustración 6 Red de dependencias con el 𝑶𝟑 Fuente: Herramienta Visual Studio Data Tools 2012 La ilustración muestra una barra en el lado izquierdo que quiere decir que entre más abajo este el deslizador en la barra, la dependencia de dichos atributos con el predictor es más fuerte. Para este caso dicha barra se dejó en la mitad con el fin de tener una buena porción de atributos de entrada y se pudo observar que se eliminó la relación de dependencia entre el atributo Mes y Ozono2 dejando como conclusión que la relación entre estos dos atributos no era tan fuerte como para utilizarlo como atributo de entrada. Las variables derivadas como Hora Pico y los atributos como Lluvia no aparecieron en la red de dependencias, lo cual según este método estas dos variables no son buena opción para pertenecer en el conjunto de entrada de la técnica. Sin embargo el atributo lluvia se incluyó en el conjunto de entrada con el fin de identificar posibles tendencias entre el Ozono y dicha variable. Los demás atributos que aparecen apuntando al Ozono entran como conjunto de entrada para el algoritmo que elegido. 7.1.2 Método de Selección de Características de Microsoft para detectar los atributos de entrada En esta sección se muestra la interfaz de selección de la herramienta, donde se encuentran todos los atributos del módulo de origen de datos, se escogen todos los atributos terminados con la letra ‘n’, que quiere decir que el atributo esta normalizado. La herramienta de Microsoft tiene una opción que sugiere los atributos que necesariamente deben estar definidos en la entrada (selección de características) de acuerdo a la dependencia del atributo predictivo que en este caso es el Ozono. Este método se encuentra en la interfaz de la selección de los datos de aprendizaje que aparece a continuación: Ilustración 10 Interfaz para la selección de atributos de entrada Fuente: Herramienta Visual Studio Data Tools 2012 En la ilustración 21 se muestra la sugerencia hecha por Analisys Services junto con el puntaje de importancia de dicho atributo en la generación del modelo. Ilustración 7 Interfaz de los atributos de entrada seleccionados por la herramienta Fuente: Herramienta Visual Studio Data Tools 2012 Lo que quiere decir que los atributos: RadiacionSolarN, TemperaturaN y VelVientoN son los atributos más influyentes para la generación del algoritmo. 4.2 Algoritmo K- means Este algoritmo se encarga de segmentar la base de datos en grupos para tener una descripción detallada y fácil de interpretar. En este capítulo se muestra el procedimiento realizado para la implementación de la técnica de Clustering que hace parte del modelo CO3. 4.2.1 Ejecución del Algoritmo Para la ejecución del algoritmo se utilizaron todos los datos de entrenamiento los cuales se asignaron al componente de vista de origen de datos y fue necesario realizar cambios en los parámetros que se encuentran con valores por defecto. 4.2.1.1 Configuración de los parámetros del algoritmo Este proceso es uno de los más importantes para la ejecución de algoritmos pertenecientes a la técnica de minería, ya que si la configuración de los parámetros no es adecuada, puede afectar el comportamiento, el rendimiento y la precisión del modelo de minería de datos resultante. Después de las iteraciones realizadas, los parámetros que más se ajustaron fueron los siguientes: Nombre del Parámetro CLUSTER_COUNT CLUSTER_SEED Valor Descripción Establecido El número de clusters asignados es 5 5 y el proceso de selección se ve en la sección de a continuación. Valor por defecto CLUSTERING_METHOD 3 MAXIMUM_INPUT_ATTRINU TES 12 MAXIMUM_STATES MINIMUM_SUPPORT MODELLING_CARDINALITY SAMPLE_SIZE Valor por defecto. 3 Valor por defecto 30.000 Este valor queda con un valor por defecto de 0 ya que la idea es que el algoritmo comience la generación de clusters de acuerdo a la distancia y desde el principio. El numero 3 fue seleccionado ya que corresponde al algoritmo medianaK- escalable (K-means). En este caso se colocaron la cantidad del atributos de entrada, contando el id y el atributo predictor. Se deja el valor por defecto que es 100. El número por defecto es 10. Si se establece el número 0, todo el conjunto de datos de entrenamiento se agruparán en un único paso lo que genera problemas de memoria y rendimiento. STOPPING_TOLERANCE Valor por defecto El valor por defecto que queda es 10. Tabla 9 Definición y asignación de valores de los parámetros de la técnica Fuente: Autor 4.2.1.2 Selección de los K grupos de Clusters Para determinar el número de clústeres que se iban a generar, se utilizaron dos métodos de clustering jerárquico. Estos métodos son: Aglomerativo, este método muestra los resultados en forma de un dendograma (ver figura 19), en la que visualmente se realizó un corte que da la cantidad de 5 clústeres. EM (Expectation-Maximization), se basa en probabilidades con base en la muestra de datos e indico que el número de clústeres era 6. Se ejecutó el algoritmo con los dos números de clústeres y por mejor distribución se utilizó el K del método aglomerativo. Ilustración 18 Dendograma para la definición de los k Clusters Fuente: Herramienta RapidMiner 4.2.2 Resultados Obtenidos Posterior a la configuración de parámetros, selección del conjunto de entrenamiento y la selección de los atributos pertenecientes a la entrada del algoritmo, para utilizar las herramientas que provee Analisys Services fue necesario crear un atributo ‘ID’ en la vista minable, que fuera la llave primaria de la base de datos, este id se creó de acuerdo al tamaño de la base de datos y no altera en el proceso de generación del modelo. A continuación se muestra una imagen de la estructura del modelo de agrupamiento: Ilustración 13 Estructura del Modelo de Clustering para Ozono Fuente: Herramienta Visual Studio Data Tools 2012 En la ilustración anterior se puede apreciar los atributos que componen la estructura del modelo de agrupamiento, la definición de la técnica que se utiliza en el modelo y la función que desempeña cada atributo (es decir cuáles son los atributos de entrada, predictivos y primarios). Cabe recalcar que el carácter ‘N’ que acompaña a cada nombre del atributo es simplemente una diferenciación con el atributo con los datos en estado inicial en el momento de realizar el proceso de normalización. 4.2.3 Presentación de los resultados del modelo CO3 La herramienta de Visual Studio Data Tools proporciona gráficos e información detallada de cada clúster creado, dando así una facilidad al lector de interpretar los resultados del proceso de generación de conocimiento. Con el fin de que los stakeholders vieran los resultados sin tener que instalar la herramienta de entorno para crear los modelos, se exporto la información en un documento que contiene todas las gráficas con su posterior explicación. Esta visualización está dividida en 4 secciones las cuales muestran los resultados del algoritmo en diferentes representaciones. 5. Construcción del Modelo CPM10 Este modelo implementa la técnica de Agrupamiento (Clustering) para el 𝑃𝑀10 . En este capítulo se presenta el proceso que se realizó para crear el modelo de Clustering por medio de la selección de los algoritmos que implementan la técnica. 5.1 Selección de los atributos de entrada Para la creación automática de la Red de Dependencias se incluyeron todos los atributos de la base de datos (incluidas las variables derivadas). A continuación se muestra la red provista por la herramienta: Ilustración 9 Red de Dependencias 𝑷𝑴𝟏𝟎 Fuente: Herramienta Visual Studio Data Tools 2012 La barra deslizante se dejó en la mitad con el fin de tener una buena porción de atributos de entrada y se pudo observar que la mayoría de los atributos de la vista minable tienen vínculos fuertes con el 𝑃𝑀10 , lo que quiere decir que los atributos que aparecen en la ilustración 31 sirven como variables de entrada para el algoritmo arrojando resultados óptimos. Hay un caso especial que también sucedió en la selección de los atributos de entrada para el modelo de Clustering del Ozono y es que el atributo lluvia no tiene ningún vínculo con el atributo 𝑃𝑀10 según la red de dependencias, así que para este modelo dicho atributo no se incluye como entrada. 5.2 Algoritmo K- means Uno de los motivos de selección de este algoritmo fue por el éxito de los resultados generados en el modelo Clustering de 𝑂3 . 5.2.1 Ejecución del Algoritmo En esta sección se pretende explicar el procedimiento que se realizó para ejecutar el algoritmo de K-means. 5.2.1.1 Configuración de los parámetros del algoritmo Este proceso es uno de los más importantes para la ejecución de algoritmos pertenecientes a la técnica de minería, ya que si la configuración de los parámetros no es adecuada, puede afectar el comportamiento, el rendimiento y la precisión del modelo de minería de datos resultante. Nombre del Parámetro CLUSTER_COUNT CLUSTER_SEED CLUSTERING_METHOD Valor Descripción Establecido 5 Valor por defecto 9 MODELLING_CARDINALITY SAMPLE_SIZE STOPPING_TOLERANCE Este valor queda con un valor por defecto de 0 ya que la idea es que el algoritmo comience la generación de clusters de acuerdo a la distancia y desde el principio. 3 MAXIMUM_INPUT_ATTRINU TES MAXIMUM_STATES MINIMUM_SUPPORT Se asignó el K para 5 clusters y la selección de esta cantidad de grupos se encuentra en la sección siguiente. Valor por defecto. 3 Valor por defecto 30.000 Valor por defecto En este caso se colocaron la cantidad del atributos de entrada, contando el id y el atributo predictor. Se deja el valor por defecto que es 100. El número mínimo de casos que pueden entrar en cada clúster son 2. El número por defecto es 10. El valor por defecto que queda es 10. Tabla 1 Definición y asignación de valores de los parámetros de la técnica Fuente: Autor 5.2.1.2 Selección de los K grupos de Clusters Para determinar el número de clústeres que se iban a generar, se utilizaron dos métodos de clustering jerárquico: Aglomerativo, este método muestra los resultados en forma de un dendograma (ver figura 19), en la que visualmente se realizó un corte que da la cantidad de 5 clústeres. EM (Expectation-Maximization), se basa en probabilidades con base en la muestra de datos e indico que el número de clústeres era 6. Se ejecutó el algoritmo con los dos números de clústeres y por mejor distribución se utilizó el K del método aglomerativo. Ilustración 35 Dendograma para la definición de los k Clusters Fuente: Herramienta RapidMiner 5.2.2 Resultados Obtenidos Posterior a la configuración de parámetros, selección del conjunto de entrenamiento y la selección de los atributos pertenecientes a la entrada del algoritmo, para utilizar las herramientas que provee Analisys Services fue necesario crear un atributo ‘ID’ en la vista minable, que fuera la llave primaria de la base de datos, este id se creó de acuerdo al tamaño de la base de datos y no altera en el proceso de generación del modelo. A continuación se muestra una imagen de la estructura del modelo de agrupamiento: Ilustración 10 Estructura del Modelo de Clustering para PM10 Fuente: Herramienta Visual Studio Data Tools 2012 En la ilustración anterior se puede apreciar los atributos que componen la estructura del modelo de agrupamiento, la definición de la técnica que se utiliza en el modelo y la función que desempeña cada atributo (es decir cuáles son los atributos de entrada, predictivos y primarios). Cabe recalcar que el carácter ‘N’ que acompaña a cada nombre del atributo es simplemente una diferenciación con el atributo con los datos en estado inicial en el momento de realizar el proceso de normalización. Archivos que contienen los modelos CPM10 y CO3 Para que fuera de facilidad para los involucrados en abrir los archivos que contienen los resultados de los modelos, fue necesario importarlos a un documento en Word con una breve explicación de cada pestaña provista por la herramienta Visual Studio Data Tools 2010. El archivo que contiene los modelos se encuentra con el siguiente nombre: Modelos CO3 y CPM10.docx 6. Construcción del Modelo CAO3 Este modelo implementa la técnica de Clasificación para el 𝑂3. En este capítulo se presenta el proceso que se realizó para crear el modelo de Clasificación por medio de la selección de los algoritmos que implementan la técnica. 6.1 Selección de los Atributos de entrada La selección de los atributos de entrada para las técnicas de clasificación, es de los procesos más importantes para la creación de la estructura de minería ya que una buena selección de los atributos hace que el modelo sea preciso con conjuntos de prueba reales (externos a los del entrenamiento) y así dicho modelo pueda ser usado por los involucrados. Por ende fue necesario definir los atributos de entrada utilizando tres criterios: el primero gracias a las dependencias encontradas de algunos de los atributos de la base de datos con el atributo predictor (los resultados de las correlaciones que se encuentran con detalle en el documento de vista minable), el segundo es gracias a la asesoría de expertos en el tema y el tercero es por la funcionalidad de la herramienta Analysis Services 2010 cuyo nombre es Selección de características. 6.1.1 Aplicación del Método selección de características para elegir el conjunto de entradas Ilustración 11 Interfaz para seleccionar las variables de entrada por la herramienta Fuente: Herramienta Visual Studio Data Tools 2012 Podemos observar que los atributos más influyentes para la creación del modelo son: Temperatura, ClasificacionHora y PromRadiacionSG lo que hace que se definan como atributos de entrada junto con todos los demás que están seleccionados con una ‘x’, a excepción del atributo Radiacionsolar (RSG) ya que se encuentra en un mejor puntaje su atributo sinónimo, entonces no sería coherente tener dos atributos sinónimo. A continuación se presentan los atributos de entrada utilizados para los algoritmos de clasificación: Vel Viento NOX NO2 Temperatura ClasificacionHora Trimestres del Año PromRadiacionSG Es importante recalcar que para cada algoritmo hubo un segundo proceso de selección de atributos de entrada basado en los atributos anteriormente nombrados, con el fin de eliminar redundancias en algunos atributos y seleccionar de manera eficiente los atributos de entrada para cada uno de los modelos y así mejorar la precisión de los modelos generados. 6.2 Selección del Atributo Objetivo El atributo predictivo seleccionado es el Ozono, ya que el objetivo del trabajo de grado es encontrar relaciones entre las variables climatológicas con el contaminante de Ozono para así crear un prototipo que al final estime el valor de concentración del Ozono dado unos atributos de entrada influyente, así que la mejor representación a nivel del modelo es tener el ozono como atributo predictivo. Este atributo contiene cuatro estados que tienen el índice de concentración de Ozono y se representan en cuatro clases donde se van asignar los estados de los atributos de entrada. Los estados son los siguientes: BUENO MODERADO DESFAVORABLE Cabe recalcar que para que el modelo quede útil, el último estado detectado en el conjunto de registros históricos que en este caso es DESFAVORABLE, se encuentra para valores AQI mayores e iguales 151. 6.3 Ejecución del Algoritmo de Microsoft Esta sección muestra detalladamente el proceso realizado para aplicar el algoritmo de Arboles de decisión de Microsoft. La herramienta utilizada fue Visual Studio Analisys Services. 6.3.1 Creación de la Estructura de Minería de Datos Esta estructura [65] es importante ya que allí se definen los datos de entrada y la técnica que va a generar el modelo de minería de datos. Es importante recalcar que una misma estructura de minería de datos puede tener varios modelos con diferentes técnicas pero que comparten el mismo dominio. A continuación se muestra el procedimiento para la creación de la estructura que va a contener el modelo de árboles de decisión. Ilustración 12 Interfaz de la técnica seleccionada Fuente: Herramienta Visual Studio Data Tools 2012 6.3.2 Vista en general del Modelo de Árboles de decisión Como se puede apreciar en la ilustración 35 se encuentran los datos que hacen parte de la entrada del algoritmo y el atributo que predictivo, los atributos que tienen la categoría “omitir”, es porque al utilizar el método de selección de características, el mismo método selecciona automáticamente los atributos con mejor puntaje, pero previamente a utilizarlos fue necesario seleccionar cual era el atributo predictivo y el id. Sin embargo el usuario puede modificar esta categoría de acuerdo a su conveniencia. Para este caso especial fue necesario omitir el atributo RadiacionSolar que quedo seleccionado como atributo de entrada ya que la variable derivada PromRadiacion SG lo reemplaza en su utilidad, mejorando así la interpretación y la precisión del modelo. Ilustración 13 Interfaz Modelo de Árboles de decisión Fuente: Herramienta Visual Studio Data Tools 2012 6.3.3 Configuración de los parámetros del algoritmo Antes de realizar la ejecución del algoritmo de minería es importante realizar la configuración de los parámetros con el fin de generar resultados que se ajusten a la medida del proyecto. A continuación se presenta la configuración de los parámetros que llevo a la generación del modelo CAO3: Parámetro Valor COMPLEXITY_PENALTY FORCE_REGRESSOR MAXIMUM_INPUT_ATRIBUTES MAXIMUM_OUTPUT_ATRIBUTES 0.5 No Aplica. Default Default MINIMUM_SUPPORT SCORE_METHOD SPLIT_METHOD 10 1 3 Tabla 2 Definición y asignación de valores a los parámetros Fuente: Autor 6.4 Resultados Obtenidos Los colores que representan los estados del atributo de predicción Ozono están asignados de la siguiente forma: Estado del atributo Ozono BUENO MODERADO DESFAVORABLE Color Tabla 3 Convenciones de los estados del atributo de Ozono Fuente: Autor 6.4.2 Visor Red de Dependencias Como su nombre lo indica [66], muestra dependencias entre los atributos de entrada con el atributo predictivo. A continuación se presenta la red de dependencias con un vínculo de importancia media entre los atributos: Ilustración 14 Visor de red de dependencias para técnica de clasificación Fuente: Herramienta Visual Studio Data Tools 2012 Se puede observar en la imagen que la mayoría de los atributos de entrada del algoritmo tienen vínculos fuertes con el atributo predictivo, lo cual hace que la precisión del algoritmo pueda ser buena, sin embargo en el documento de Plan de Puerbas, se encuentra con detalles los resultados de la precisión de los modelos de Minería de datos utilizados. 6.4.3 Selección de las ramas del Árbol Aunque el algoritmo de árboles de decisión de Microsoft contiene métodos que controlan y evitan el sobreajuste, es importante realizar la validación de las tareas que se sugieren para evitarlo de forma manual. El proceso para evitar el sobreajuste se divide en 2 partes [39]: 6.4.3.1 Eliminando variables independientes Para este modelo se realizaron varias ejecuciones de prueba, en las que se incluyeron atributos como: Lluvia, Hora Pico y Fin de Semana, estos atributos por no tener una relación con el contaminante PM10 gracias a los resultados arrojados en la red de dependencias, la función de selección de características y las correlaciones de Pearson, el árbol de decisión no incluyo estas variables a pesar de que en algunas pruebas se incluyeron como atributos de entrada, así que para no afectar su rendimiento en tiempos de respuesta fue necesario eliminarlas ya que se identificaron como variables independientes. Los resultados de las ejecuciones que contenían el atributo RadiacionSolar arrojaban en su mayoría arboles de profundidad alta (es decir mayor a 14 niveles), anchura extensa, en los resultados de precisión se obtenían cerca del 50% de falsos positivos y negativos (matriz de contingencia) y el histograma de distribución que presenta cada nodo interno contenía 2 o 3 estados influyentes de igual probabilidad de frecuencia. Por tal motivo este atributo se eliminó de la lista de entrada del modelo final y se sustituyó por la variable derivada PromRadiacionSG, gracias a la intervención del experto en el tema de Minería de Datos quien detecto estas anomalías. 6.4.3.2 Poda del Árbol Este proceso está basado en la confiabilidad del árbol y consiste en eliminar las reglas (hojas, ramas o subárboles) que no son de carácter general, es decir que son reglas textuales de los datos que no ocurren con frecuencia. La importancia de realizar el proceso de Poda (ya sea por parte del algoritmo o del usuario), es que va a mejorar el desempeño del árbol y clasificara de forma correcta tanto los registros del set de entrenamiento como los registros del set de prueba. 6.4.3.2.1 Pre-poda Se puede observar que el parámetro MINIMUN_SUPPORT está en el soporte mínimo ideal que debe aceptar cada nodo interno que en este caso es de 10 y se definió en los parámetros de dicho algoritmo. Después de observar detalladamente el árbol y los gráficos de precisión se encontró que las amenazas de sobreajuste no son significativas, sin embargo en la sección análisis de resultados se encuentran las ramas interesantes y cuyo nivel de precisión es aceptable por las normas exigidas por los expertos. 6.5 Archivo que contiene el nombre del modelo CAO3 El archivo del árbol de decisión que representa el modelo CAO3 se encuentra en tipo imagen con el fin de facilitar la visualización del mismo. El archivo contiene el siguiente nombre: ModeloCAO3.jpg 7. Construcción del Modelo CAPM10 Este modelo implementa la técnica de Clasificación para el 𝑃𝑀10 . En este capítulo se presenta el proceso que se realizó para crear el modelo de Clasificación por medio de la selección de los algoritmos que implementan la técnica. 7.1 Selección de los Atributos de entrada La selección de los atributos de entrada para las técnicas de clasificación, es de los procesos más importantes para la creación de la estructura de minería ya que una buena selección de los atributos hace que el modelo sea preciso con conjuntos de prueba reales (externos a los del entrenamiento) y así dicho modelo pueda ser usado por los involucrados. Por ende fue necesario definir los atributos de entrada utilizando tres criterios: el primero gracias a las dependencias encontradas de algunos de los atributos de la base de datos con el atributo predictor (los resultados de las correlaciones que se encuentran con detalle en el documento de vista minable), el segundo es gracias a la asesoría de expertos en el tema y el tercero es por la funcionalidad de la herramienta Analysis Services 2010 cuyo nombre es Selección de características. 7.1.1 Aplicación del Método selección de características para elegir el conjunto de entradas A continuación se presentan los atributos de entrada utilizados para los algoritmos de clasificación: Vel Viento Radiación Solar Temperatura ClasificacionHora Trimestres del Año Lluvia Fin se Semana Hora Pico NO2 NOX PromRadiacionS A continuación se presentan los resultados obtenidos por la función: Ilustración 15 Función Selección de Características Fuente: Herramienta Visual Studio Data Tools 2012 7.2 Selección del Atributo Objetivo El atributo predictivo seleccionado es el PM10, ya que uno de los objetivos del trabajo de grado es encontrar relaciones entre las variables climatológicas con el contaminante de PM10 para así crear un prototipo que al final estime el valor de concentración del PM10 dado unos atributos de entrada influyente, así que la mejor representación a nivel del modelo es tener el ozono como atributo predictivo. Este atributo contiene tres estados que representan el índice de concentración de PM10. Los estados son los siguientes: BUENO MODERADO DESFAVORABLE Con el fin de darle una utilidad al modelo con otros conjuntos de datos, el último estado detectado en el conjunto de registros históricos que en este caso es DESFAVORABLE, se encuentra para valores AQI mayores e iguales 151. 7.3 Ejecución del Algoritmo de Microsoft Esta sección muestra detalladamente el proceso realizado para aplicar el algoritmo de Arboles de decisión de Microsoft. La herramienta utilizada fue Visual Studio Analisys Services. 7.3.2 Vista en general del Modelo de Árboles de decisión Como se puede apreciar en la siguiente ilustración se encuentran los datos que hacen parte de la entrada del algoritmo junto con el atributo que predictivo, los atributos que tienen la categoría “omitir”, es porque al utilizar el método de selección de características, el mismo método selecciona automáticamente los atributos con mejor puntaje, pero previamente a utilizarlos fue necesario seleccionar cual era el atributo predictivo y el id. Sin embargo el usuario puede modificar esta categoría de acuerdo a su conveniencia. Para este caso especial fue necesario omitir el atributo Radiacion Solar que quedo seleccionado como atributo de entrada ya que la variable derivada Prom RadiaciónS lo reemplaza generando así un mejor análisis con mejor precisión. Ilustración 16 Estructura modelo CAPM10 Fuente: Herramienta Visual Studio Data Tools 2012 7.3.3 Configuración de los parámetros del algoritmo Antes de realizar la ejecución del algoritmo de minería es importante realizar la configuración de los parámetros con el fin de generar resultados que se ajusten a la medida del proyecto. A continuación se presentan los parámetros definidos para la generación del modelo: Parámetro Valor COMPLEXITY_PENALTY 0.5 FORCE_REGRESSOR No Aplica. MAXIMUM_INPUT_ATRIBUTES Default MAXIMUM_OUTPUT_ATRIBUTES Default MINIMUM_SUPPORT 20 SCORE_METHOD 3 SPLIT_METHOD 3 Tabla 4 Definición y asignación de valores a los parámetros Fuente: Autor 7.4 Resultados Obtenidos Esta sección pretende presentar los resultados obtenidos por el modelo CAPM10. 7.4.1 Visor Árbol de Decisión Los colores que representan los estados del atributo de predicción PM10 están asignados de la siguiente forma: Estado del PM10 Color BUENO MODERADO DESFAVORABLE Tabla 5 Convenciones de los estados del atributo de PM10 Fuente: Autor 7.4.2 Visor Red de Dependencias A continuación se presenta la red de dependencias con un vínculo de importancia media entre los atributos: Ilustración 17 Visor de red de dependencias para técnica de clasificación Fuente: Herramienta Visual Studio Data Tools 2012 7.4.3 Selección de las ramas del Árbol Aunque el algoritmo de árboles de decisión de Microsoft contiene métodos que controlan y evitan el sobreajuste, es importante realizar la validación de las tareas que se sugieren para evitarlo de forma manual. El proceso para evitar el sobreajuste se divide en 2 partes: 7.4.3.1 Eliminando variables independientes Para este modelo se realizaron varias ejecuciones de prueba, en las que se incluyeron atributos como: Lluvia, Hora Pico, Fin de Semana, NOX y NO2, estos atributos por no tener una relación con el contaminante PM10 gracias a los resultados arrojados en la red de dependencias, la función de selección de características y las correlaciones de Pearson, el árbol de decisión no incluyo estas variables a pesar de que en algunas pruebas se incluyeron como atributos de entrada, así que para no afectar su rendimiento en tiempos de respuesta fue necesario eliminarlas ya que se identificaron como variables independientes. Los resultados de las ejecuciones que contenían el atributo RadiacionSolar arrojaban en su mayoría arboles de profundidad alta (es decir mayor a 14 niveles), anchura extensa, en los resultados de precisión se obtenían cerca del 50% de falsos positivos y negativos (matriz de contingencia) y el histograma de distribución que presenta cada nodo interno contenía 2 o 3 estados influyentes de igual probabilidad de frecuencia. Por tal motivo este atributo se eliminó de la lista de entrada del modelo final y se sustituyó por la variable derivada PromRadiacionSG, gracias a la intervención del experto en el tema de Minería de Datos quien detecto estas anomalías. 7.4.3.2 Poda del Árbol Este proceso está basado en la confiabilidad del árbol y consiste en eliminar las reglas (hojas, ramas o subárboles) que no son de carácter general, es decir que son reglas textuales de los datos que no ocurren con frecuencia. La importancia de realizar el proceso de Poda (ya sea por parte del algoritmo o del usuario), es que va a mejorar el desempeño del árbol y clasificara de forma correcta tanto los registros del set de entrenamiento como los registros del set de prueba. Para este proceso también se tuvieron en cuenta los patrones generados por los modelos generados por las técnicas de reglas de asociación y agrupamiento. 7.4.3.2.1 Pre-poda Se puede observar que el parámetro MINIMUN_SUPPORT está en el soporte mínimo ideal que debe aceptar cada nodo interno que en este caso es de 20 y se definió en los parámetros de dicho algoritmo. 7.5 Archivo que contiene el nombre del modelo CAPM10 El archivo del árbol de decisión que representa el modelo CAPM10 se encuentra en tipo imagen con el fin de facilitar la visualización del mismo. El archivo contiene el siguiente nombre: ModeloCAPM10.jpg