Construccion de los Modelos - Trabajos de Grado

Anuncio
Anexo 4 -Modalidad Practica
Pontificia Universidad Javeriana Bogotá
Proceso de construcción
de los modelos
Para los contaminantes Ozono y Material
Particulado
Alex Ariel Arias Ríos
2014-1
Contenido
1.
Introducción .............................................................................................................. 3
2. Construcción del Modelo RAO3 .................................................................................. 3
2.1 Contenido del modelo RAO3 ................................................................................. 3
2.1.1 Atributos que hacen parte del Antecedente de cada regla ............................... 4
2.1.2 Atributo que hace parte del consecuente ......................................................... 4
2.2 Algoritmo PredictiveApriori .................................................................................. 4
2.2.1 Ejecución del Algoritmo.................................................................................. 5
2.2.2 Parámetros requeridos por el Algoritmo para ambas ejecuciones ................... 6
2.2.3 Resultados Obtenidos ...................................................................................... 8
2.3 Algoritmo Apriori ................................................................................................... 9
2.3.1 Ejecución del Algoritmo................................................................................ 10
2.3.2 Parámetros requeridos por el Algoritmo ....................................................... 11
2.3.3 Resultados Obtenidos .................................................................................... 13
2.4 Presentación de los resultados de los modelos RAO3 y RAPM10 ...................... 15
3. Construcción del Modelo RAPM10 ........................................................................... 17
3.1 Contenido del Modelo RAPM10 .......................................................................... 17
3.1.1 Atributos que hacen parte del Antecedente de cada regla ............................. 17
3.1.2 Atributo que hace parte del consecuente ....................................................... 18
3.2 Algoritmo Apriori ................................................................................................. 18
3.2.1 Ejecución del Algoritmo................................................................................ 18
3.2.2 Parámetros requeridos por el Algoritmo ....................................................... 19
3.2.3 Resultados Obtenidos .................................................................................... 20
3.2.4 Presentación de las Reglas de Asociación para el modelo RAPM10 ............ 22
Archivos que contienen los modelos RAPM10 y RAO3 ............................................... 23
4. Construcción del Modelo CO3 ................................................................................... 24
4.1 Selección de los atributos de entrada .................................................................... 24
4.1.1 Detección de atributos de entrada por medio de la Red de Dependencias de
Microsoft ................................................................................................................ 24
7.1.2 Método de Selección de Características de Microsoft para detectar los
atributos de entrada ................................................................................................. 25
4.2 Algoritmo K- means ............................................................................................. 26
4.2.1 Ejecución del Algoritmo................................................................................ 27
4.2.2 Resultados Obtenidos .................................................................................... 28
4.2.3 Presentación de los resultados del modelo CO3 ............................................ 29
5. Construcción del Modelo CPM10 .............................................................................. 29
5.1 Selección de los atributos de entrada .................................................................... 29
5.2 Algoritmo K- means ............................................................................................. 30
5.2.1 Ejecución del Algoritmo................................................................................ 30
5.2.2 Resultados Obtenidos .................................................................................... 32
Archivos que contienen los modelos CPM10 y CO3 ..................................................... 33
6. Construcción del Modelo CAO3 ................................................................................ 33
6.1 Selección de los Atributos de entrada................................................................... 33
6.1.1 Aplicación del Método selección de características para elegir el conjunto de
entradas ................................................................................................................... 34
6.2 Selección del Atributo Objetivo ........................................................................... 35
6.3 Ejecución del Algoritmo de Microsoft ................................................................. 35
6.3.1 Creación de la Estructura de Minería de Datos ............................................. 35
6.3.2 Vista en general del Modelo de Árboles de decisión .................................... 36
6.3.3 Configuración de los parámetros del algoritmo ............................................ 36
6.4 Resultados Obtenidos ........................................................................................... 37
6.4.2 Visor Red de Dependencias ........................................................................... 37
6.4.3 Selección de las ramas del Árbol ................................................................... 38
6.5 Archivo que contiene el nombre del modelo CAO3 ............................................ 39
7. Construcción del Modelo CAPM10 ........................................................................... 39
7.1 Selección de los Atributos de entrada................................................................... 39
7.1.1 Aplicación del Método selección de características para elegir el conjunto de
entradas ................................................................................................................... 40
7.2 Selección del Atributo Objetivo ........................................................................... 41
7.3 Ejecución del Algoritmo de Microsoft ................................................................. 41
7.3.2 Vista en general del Modelo de Árboles de decisión .................................... 41
7.3.3 Configuración de los parámetros del algoritmo ............................................ 42
7.4 Resultados Obtenidos ........................................................................................... 42
7.4.1 Visor Árbol de Decisión ................................................................................ 42
7.4.2 Visor Red de Dependencias ........................................................................... 43
7.4.3 Selección de las ramas del Árbol ................................................................... 43
7.5 Archivo que contiene el nombre del modelo CAPM10 ....................................... 44
1. Introducción
El presente documento describe el proceso de construcción y presentación de los
resultados extraídos de los modelos de minería de datos, para esto se utilizaron los
registros históricos entregados por la RMCAB, con el fin de establecer patrones que se
enfoquen en las relaciones que hay entre las variables climáticas como : Velocidad del
viento, temperatura, Radiación solar global, precipitación; Las variables derivadas:
Trimestres del año, hora pico, clasificación horaria, fin de semana; Los contaminantes:
Material Particulado (PM10),Ozono troposférico(o3) y sus componentes: Nox y No2
(especificadas en el documento de “vista minable).
La motivación para realizar este documento es el definir nuevos modelos con nuevas
tecnologías y herramientas que se salgan de los trabajos tradicionales que se realizan
con relación a la calidad del aire, dando así un nuevo motivo para investigaciones
futuras con base a los nuevos modelos generados en el presente proyecto.
2. Construcción del Modelo RAO3
Este modelo implementa la técnica de reglas de asociación para 𝑂3. En este capítulo se
presenta el proceso que se realizó para crear el modelo de reglas de asociación por
medio de la selección de los algoritmos que implementan la técnica.
2.1 Contenido del modelo RAO3
Este modelo está compuesto por reglas (patrones) que contienen información acerca de
la relación que hay entre los atributos de entrada con el atributo objetivo que en este
caso es el 𝑂3.
Para este modelo los estados del atributo objetivo son: bueno, moderado y desfavorable.
Un ejemplo de una regla de asociación generada por el modelo es la siguiente:
Vel Viento=LEVE Temperatura=MENOS TIBIO ClasificacionHora=TARDE ==>
OZONO=BUENO
Como se puede observar, tanto el antecedente como el consecuente están compuestos
por atributos de la vista minable procesada, donde cada atributo tiene un conjunto de
estados que en el caso del antecedente si estos del ejemplo llegan a cumplirse el Ozono
sería bueno.
2.1.1 Atributos que hacen parte del Antecedente de cada regla
Teniendo en cuenta la relación antecedente-consecuente, con el fin de generar todas las
relaciones posibles entre las variables climatológicas, las variables derivadas y los
contaminantes, es importante incluir la mayoría de los atributos de los registros
históricos como antecedentes que cumplen con los requisitos que debe tener para
pertenecer a este grupo. A continuación se presentan los atributos que pertenecieron al
antecedente de las reglas:

Vel Viento

Lluvia

NOX

NO2

RadiacionSG

Temperatura

Hora

ClasificacionHora

Trimestres del Año

Mes

Hora Pico

Fin de Semana
2.1.2 Atributo que hace parte del consecuente
Para efectos de este trabajo de grado y en especial esta sección, el consecuente fue
únicamente el atributo Ozono, así que las reglas obtenidas en los resultados del modelo
son combinaciones de los posibles estados de los atributos del antecedente dando como
único resultado un estado del atributo 𝑂3.
2.2 Algoritmo PredictiveApriori
Este algoritmo fue motivo de selección ya que tiene la habilidad de presentar las reglas
de una forma más detallada (utilizando el atributo hora sin necesidad de categorizarlo) y
con la presentación de una sola métrica llamada Predictive Accuracy (contiene el
cálculo del Soporte y la confianza en la misma ecuación).
2.2.1 Ejecución del Algoritmo
El motivo de dividir las ejecuciones del algoritmo es para evitar tener reglas de
asociación con atributos redundantes como por ejemplo los atributos Hora,
ClasificacionHoraria y HoraPico que si quedan juntos como antecedentes en algunas
reglas de asociación, dichas reglas contendrían información repetida y por ende esta
regla podría ser inútil para los involucrados.
2.2.1.1 Tipo de ejecución número 1
En la primera ejecución del algoritmo se generaron reglas de asociación donde la
variable temporal Hora tiene estados específicos (es decir que contiene información de
hora por hora), así que estas reglas se clasifican como “Reglas detalladas”.
2.2.1.2 Tipo de ejecución número 2
En la segunda ejecución se obtuvieron reglas de asociación que se generen con
información valiosa con el fin de entender la dinámica de la ciudad relacionada con la
congestión vehicular se utiliza la variable temporal utilizada fue: HoraPico.
A continuación se presenta un gráfico que explica con detalle el proceso de ejecución
que se le aplicó a este algoritmo.
Ilustración 1 Plan de Ejecución Algoritmo PredictiveApriori
Fuente: Autor
2.2.1.3 Selección de los atributos para la ejecución número 1
Los atributos que se listan a continuación hacen parte de la primera ejecución que se
realiza con el algoritmo.










Hora
Vel Viento
Temperatura
Radiación Solar_G
NO2
NOX
Fin de Semana
Trimestres del Año
Lluvia
Mes
Aunque los atributos “Mes” y “Trimestres del Año” resulten siendo redundantes en la
generación de reglas, fue importante incluirlas para encontrar comportamientos
similares entre ellas, sin embargo se hizo un proceso de selección de reglas de
asociación en las que se combaten las reglas redundantes, esta sección se encuentra más
adelante en el documento.
2.2.1.4 Selección de los atributos para la ejecución número 2
Estos atributos difieren del anterior en especial por el atributo “Hora Pico” ya que en la
ejecución 1 se obtienen resultados de reglas con horas especificas (como 2 p.m., 10
a.m., etc...), sin embargo se quería facilitar la interpretación de los resultados y en
búsqueda de entender la problemática de calidad del aire relacionado con normas de
congestión vehicular representado por el atributo “Hora Pico”. A continuación se
encuentra la lista de atributos pertenecientes a la ejecución 2:










Hora Pico
Fin de Semana
NOX
NO2
Radiación Solar_G
Vel Vientos
Temperatura
Mes
Trimestres del Año
Mes
2.2.2 Parámetros requeridos por el Algoritmo para ambas ejecuciones
A continuación se muestran los parámetros que se deben definir antes de comenzar la
ejecución del algoritmo, seguido de la asignación de los resultados.
Ilustración 2 Interfaz de la configuración de los Parámetros para el Algoritmo
Fuente: Herramienta Weka
Parámetros
Car
Descripción
Si se habilita esta opción es porque quiere
que las reglas de asociación sean extraídas
a otro lugar de trabajo.
Índice del atributo de clase que se desea
colocar como consecuente. Si queda por
defecto se toma el último atributo de la
base de datos.
Numero de reglas que desea encontrar.
classIndex
numRules
Tabla 1 Descripción de los Parámetros del Algoritmo
Fuente: Autor
o Para el campo Car se asignó el valor “false” ya que no necesitamos exportar los
resultados a formato texto y es importante revisar las reglas generadas con el fin de
observar si hay soluciones triviales o inexplicables y esta revisión se realiza en la
interfaz de resultados de weka.
o Para el parámetro classIndex que recibe datos positivos enteros se definió el número
2, el cual era la posición del atributo Ozono que es nuestro atributo objetivo.
o En cuanto al parámetro numRules se probó con varias cantidades, donde para cada
una de estas cantidades se ejecutaban y se miraba el valor de la medición de la
última regla (ya que el orden de las reglas generadas son de carácter descendentes de
acuerdo a su medición) y si el valor era inferior a 0.25 (con el fin de buscar reglas
con estados del atributo objetivo Ozono poco comunes), esta cantidad se desechaba
cambiándola por una cantidad menor de reglas y cuando la última regla tuviera el
valor de la medida de precisión mayor e igual a 0.25 se dejaba con dicha cantidad en
este parámetro con el fin de encontrar reglas verdaderamente interesantes. El valor
asignado al parámetro fue 2.500.
2.2.3 Resultados Obtenidos
Este proceso que se menciona a continuación ha sido aplicado en todas las ejecuciones
por lo cual se trata a nivel general, en lo único que difiere es la cantidad de reglas
encontradas que se especifican a continuación.
Ejecución No.
1
2
Reglas
Encontradas
1.000
987
Tabla 2 Reglas encontradas por Ejecución
Fuente: Autor
El algoritmo Tertius se descartó de la selección ya que su rendimiento en el proceso de
generación del modelo fue muy bajo llegando a desbordar la memoria del computador
después de 1 hora de espera, se probó con un conjunto de datos pequeño de 5.000
registros donde la demora fue de 20 minutos (lo cual es ineficiente por parte del
algoritmo ya que el equipo como se observó en la sección de especificación del equipo
tiene los requerimientos físicos suficientes para realizar este proceso en un tiempo
considerable) y sus resultados no arrojan lo esperado ya que no maneja soporte ni
confianza para cada regla, lo cual es difícil saber si las reglas generadas son confiables o
no.
Los resultados obtenidos fueron reglas de asociación acompañadas de la medida
probabilística Accurancy Predictive de la siguiente forma:
Ilustración 3 Vista general de las reglas generadas por el algoritmo
Fuente: Herramienta Weka
Donde al lado de cada regla de asociación se encuentra un valor con la etiqueta acc que
significa la medida del algoritmo, los números que están al lado del antecedente y
consecuente son la cantidad de registros que contienen las especificaciones de la regla y
se presentan de forma descendente de acuerdo a la medida acc.
2.2.3.1 Reglas de Asociación seleccionadas
Después de seleccionar las reglas de asociación de acuerdo a los criterios definidos en el
documento Técnica de Modelado y Diseño de Pruebas la proporción de reglas de
asociación encontradas son las siguientes:
Ejecución Cantidad de Reglas
encontradas
1
103
2
60
Tabla 3 Reglas seleccionadas
Fuente: Autor
2.3 Algoritmo Apriori
Apriori, es uno de los algoritmos más populares que genera reglas de asociación, una de
sus ventajas es que busca reducir el número de conjuntos de estados considerados , con
el fin de generar reglas de mayor interés y rendimiento en tiempos de respuestas,
además el usuario especifica el soporte mínimo que quiere que tengan las reglas de
asociación generadas.
2.3.1 Ejecución del Algoritmo
Este procedimiento requirió conocer cada uno de los parámetros de entrada que pedía el
algoritmo y estudiar los posibles valores que dichos parámetros podrían tomar, además
fue necesario realizar un proceso de análisis y selección de las reglas generadas. La
dinámica en cuanto a ejecuciones del algoritmo fueron similares al de PredictiveApriori.
Fue necesario realizar dos ejecuciones con dos conjuntos de datos diferentes por cada
ejecución, en las siguientes secciones se especifican las ejecuciones y a qué conjunto de
datos pertenece cada una de ellas.
2.3.1.1 Tipo de Ejecución 1
El conjunto de datos que se utilizó para la ejecución 1, se caracteriza por encontrar
reglas de asociación a nivel general relacionado con las variables temporales, este
conjunto de datos es uno de los más completos y claves para la generación de reglas, ya
que como este algoritmo no trabaja muy bien con datos continuos ni con atributos
discretos con muchas categorías, fue necesario crear la variable derivada
ClasificacionHora, la cual agrupa de forma más general los valores del atributo “Hora”.
2.3.1.2 Tipo de Ejecución 2
El objetivo de realizar esta ejecución fue con el fin de complementar los resultados
generados del algoritmo anterior y corroborar la veracidad de los resultados de los dos
algoritmos, así mismo se considera importante tener el soporte y la confianza de las
reglas que sean similares en los dos resultados de dichos algoritmos. Este conjunto de
datos remplaza el atributo ClasificacionHora por Hora Pico con el fin de evitar
redundancia en los resultados.
2.3.1.3 Selección de los atributos para el tipo de ejecución 1
A continuación se muestran los atributos seleccionados para esta ejecución:






ClasificacionHora
Vel Viento
Temperatura
RadiaciónSolarG
NO2
NOX




Fin de Semana
Trimestres del Año
Lluvia
Mes
2.3.1.4 Selección de los atributos para la Ejecución 2
A continuación se muestran los atributos seleccionados para esta ejecución:

Fin de Semana

NOX

NO2

Mes

RadiaciónSolarG

Vel vientos

Temperatura

Lluvia

Trimestres del Año

Hora pico
2.3.2 Parámetros requeridos por el Algoritmo
Para obtener unos resultados coherentes y apropiados del algoritmo Apriori fue
necesario definir cada uno de los parámetros que recibe el algoritmo aparte del proceso
realizado a
la vista minable. En la siguiente imagen se muestran los parámetros
establecidos junto con el significado de cada uno de ellos.
Ilustración 4 Interfaz de los parámetros para el algoritmo A priori
Fuente: Herramienta Weka
Parámetros
Car
Significado
Si quiere que las reglas de asociación sean
extraídas a otro lugar de trabajo.
Índice del atributo de la clase. Se
establece -1 para que tome el último
atributo de la clase.
Iterativamente disminuye el soporte hasta
llegar al alcance mínimo que se pide de
soporte.
Soporte mínimo en el que se pueden
generar las reglas de asociación.
Establece el tipo de métrica con el cual se
generan las reglas de asociación.
Considera solo las reglas con las
puntaciones más altas que el valor
establecido.
Numero de reglas que se quieren
encontrar.
Si se habilitan los conjuntos de elementos.
Elimina columnas con todos los valores
faltantes.
Establece el nivel de significancia.
Límite superior de soporte.
Si se activa este parámetro se ejecutan las
reglas de asociación en modo detallado.
classIndex
Delta
lowerBoundMinSupport
metricType
minMetric
numRules
outputItemSets
removeAllMissingCols
significanceLevel
upperBoundMinSupport
verbose
Tabla 4 Definición de los parámetros del algoritmo
Fuente: Autor
En la ilustración 4 los valores que se ven en la interfaz son los que están por defecto,
así que fue necesario configurar los parámetros con el fin de realizar la ejecución del
algoritmo de forma correcta.
 El parámetro car se define con el valor “false” ya que no necesitamos exportar los
resultados a ningún archivo externo.
 El parámetro classIndex se define con el número 2 que es la ubicación de la
columna del atributo Ozono.
 El parámetro Delta se define con el valor 0.05.
 El parámetro lowerBoundMinSupport queda con un soporte mínimo de 0.10 ya que
es importante encontrar una buena proporción de reglas de asociación útiles para los
involucrados.
 El parámetro metricType queda de tipo “lift”, ya que este tipo de métrica muestra las
reglas de asociación con la medida de mejora y confianza y cubren el análisis de
utilidad de cada regla.
 El parámetro minMetric se estableció en 1.0 con el fin de tener reglas de asociación
con un puntaje de mejora útil.
 Los parámetros outputItemSets y removeAllMissingCols se definen con la variable
booleana “false”.
 Para el parámetro upperBoundMinSupport se establece el valor 1.0 que es el
máximo límite que puede tomar el soporte de cada regla.
 Por ultimo para el parámetro verbose se definió en “true” con el fin de obtener las
reglas de asociación con los detalles respectivos que son el valor de la confianza y la
frecuencia de los antecedentes y consecuente.
 El parámetro numRules es dependiente del parámetro lowerBoundMinSupport ya
que el algoritmo para cuando encuentre reglas por debajo del umbral especificado,
así que el número de reglas que se especifico fue con un valor muy alto de 10.000
reglas con el fin de saber el tope de las reglas con el umbral bajo especificado.
2.3.3 Resultados Obtenidos
Posterior a la configuración de los parámetros para la ejecución del algoritmo vienen los
resultados provistos por el algoritmo y el tratamiento de las reglas de asociación con el
fin de utilizar reglas útiles e interesantes. Cabe recalcar que este proceso se aplica de
igual manera para las dos ejecuciones.
A continuación se presentan las reglas generadas para cada conjunto de datos que
representan una ejecución.
Ejecución No.
1
2
Reglas
Encontradas
1654
1728
Tabla 5 Reglas encontradas para cada ejecución
Fuente: Autor
Como se puede observar en la tabla de resultados, la cantidad de reglas de asociación
encontradas con dichos parámetros no alcanzan a cumplir el objetivo que se estableció
en la configuración del algoritmo, por lo cual es posible que la probabilidad de soporte
de estas reglas de asociación mediante el Algoritmo Apriori sean más interesantes que
las del PredictiveApriori ya que este algoritmo esta optimizado para seleccionar reglas
apropiadas [30].
A continuación se presenta una vista general del entorno de resultados que genera la
herramienta con el fin de conocer el estado inicial de cada una de las reglas generadas:
Ilustración 5 Vista general de las reglas de asociación generadas
Fuente: Herramienta Weka
Cada regla de asociación esta ordenada descendentemente de acuerdo al valor de la
medida de mejora, así que no hay un orden en las combinaciones de los atributos que
hacen parte del antecedente de las reglas, en la parte superior de la interfaz de resultados
sale el número de iteraciones que realizo el algoritmo para seleccionar las mejores
reglas, en este caso fueron 14 iteraciones para la ejecución 1 y 2.
2.3.3.1 Selección de Reglas de Asociación (poda)
Después de seleccionar las reglas de asociación de acuerdo a los criterios de selección
de reglas, la proporción de reglas de asociación encontradas fueron las siguientes:
Ejecución Cantidad de Reglas
encontradas
1
65
2
25
Tabla 6 Reglas encontradas después de la selección
Fuente: Autor
2.4 Presentación de los resultados de los modelos RAO3 y RAPM10
La visualización utilizada para el modelo de reglas de asociación contiene la
información detallada de cada regla junto con el algoritmo utilizado para ella con el fin
de observar de forma legible y fácil la información generada por esta técnica.
A continuación se presenta el formato de la reglas de asociación para el algoritmo
Apriori:
Ilustración 1 Formato reglas de asociación para el algoritmo A priori
Fuente: Autor
Este formato tiene un color de prioridad de acuerdo al nivel de peligrosidad para la
salud que puede presentar cada contaminante junto con las métricas de confianza,
soporte y mejora con el fin de que los involucrados puedan conocer que tan útil puede
ser esta regla. Es importante recalcar que este formato también es utilizado para el
modelo RAPM10.
En la siguiente ilustración se puede observar el formato que contiene el algoritmo
predictiveApriori:
Ilustración 2 Formato reglas de asociación para el algoritmo PredictiveApriori
Fuente: Autor
En este formato se puede observar que se mantiene la misma prioridad de colores para
alertas tempranas que se manejó en la imagen anterior, seguido de la métrica de
confianza llamada AccuracyPredictivie.
En la siguiente ilustración se puede observar un ejemplo de la portada de presentación
que contiene el archivo de los modelos de reglas de asociación, donde se puede observar
que las reglas están divididas por grupos según los nombres de los atributos
antecedentes con el fin de tener un orden y mejor navegabilidad en el archivo. En cada
grupo se encuentran las reglas que contienen uno o más de los dichos atributos
antecedentes correspondientes al globo azul.
Ilustración 3 Ejemplo de presentación del archivo que contiene las reglas de asociación
3. Construcción del Modelo RAPM10
Este modelo implementa la técnica de reglas de asociación para 𝑃𝑀10 . En este capítulo
se presenta el proceso que se realizó para crear el modelo de reglas de asociación por
medio de la selección de los algoritmos que implementan la técnica.
3.1 Contenido del Modelo RAPM10
Teniendo en cuenta la fase de preparación de los datos, en especial la discretización del
atributo objetivo 𝑃𝑀10 , dicho atributo puede tomar los siguientes estados: bueno,
moderado y desfavorable.
Un ejemplo más específico de las reglas de asociación generadas de 𝑃𝑀10 es el
siguiente:
Vel Viento = LEVE Trimestres = TRIMESTRE 3 ClasificaciónHora = MADRUGADA Temperatura =
MENOS TIBIO Lluvia = ESCASA -> PM10 = BUENO
Como se puede observar, tanto el antecedente como el consecuente están compuestos
por atributos de la vista minable, donde cada atributo tiene un conjunto de estados que
en el caso del antecedente si estos del ejemplo llegan a cumplirse el 𝑃𝑀10 sería bueno.
3.1.1 Atributos que hacen parte del Antecedente de cada regla
Teniendo en cuenta la relación antecedente-consecuente, con el fin de generar todas las
relaciones posibles entre las variables climatológicas, las variables derivadas y los
contaminantes, se incluyeron la mayoría de los atributos de los registros históricos como
antecedentes que cumplen con los requisitos que debe tener para pertenecer a este
grupo.
Sin embargo para el caso del 𝑃𝑀10 se excluyeron los atributos NOX y NO2 ya que
hacen parte del contaminante 𝑂3 y además la correlación entre estos atributos con el
𝑃𝑀10 es muy baja. Se utilizó el atributo derivado PromRadiacionSG ya que genero
reglas más interesantes (es decir con un porcentaje de confianza alto).
A continuación se presentan los atributos que pertenecieron al antecedente de las
reglas:



Vel Viento
Lluvia
PromRadiacionSG





Temperatura
ClasificacionHora
Trimestres del Año
Hora Pico
Fin de Semana
3.1.2 Atributo que hace parte del consecuente
Para efectos de este trabajo de grado, el consecuente fue únicamente el atributo 𝑃𝑀10 ,
así que las reglas obtenidas en los resultados del modelo son combinaciones de los
posibles estados de los atributos del antecedente dando como único resultado un estado
del atributo 𝑃𝑀10 .
3.2 Algoritmo Apriori
En esta sección se presenta el procedimiento realizado para la creación de las reglas de
asociación mediante el algoritmo Apriori.
3.2.1 Ejecución del Algoritmo
Este procedimiento requirió conocer cada uno de los parámetros de entrada que pedía el
algoritmo y estudiar los posibles valores que dichos parámetros podrían tomar, además
fue necesario realizar un proceso de análisis y selección de las reglas generadas.
3.2.1.1 Tipo de Ejecución 1
El conjunto de datos que se utilizó para la ejecución 1, se caracteriza por encontrar
reglas de asociación a nivel general relacionado con las variables temporales, este
conjunto de datos es uno de los más completos y claves para la generación de reglas, ya
que como este algoritmo no trabaja muy bien con datos continuos ni con atributos
discretos con muchas categorías, fue necesario crear la variable derivada
ClasificacionHora, la cual agrupa de forma más general los valores del atributo “Hora”.
3.2.1.2 Tipo de Ejecución 2
El objetivo de realizar esta ejecución fue con el fin de complementar los resultados
generados del algoritmo anterior, así mismo se considera importante tener el soporte y
la confianza de las reglas que sean similares en los dos resultados de dichos algoritmos
para extraer información interesante. Este conjunto de datos remplaza el atributo
ClasificacionHora por HoraPico con el fin de evitar redundancia en los resultados.
3.2.1.3 Selección de los atributos para el tipo de ejecución 1
A continuación se muestran los atributos seleccionados para esta ejecución:







ClasificacionHora
Vel Viento
Temperatura
PromRadiacionSG
Fin de Semana
Trimestres del Año
Lluvia
3.2.1.4 Selección de los atributos para la Ejecución número 2
A continuación se muestran los atributos seleccionados para esta ejecución:

Fin de Semana

PromRadiaciónSG

Vel vientos

Temperatura

Lluvia

Trimestres del Año

Hora pico
3.2.2 Parámetros requeridos por el Algoritmo
Para obtener unos resultados apropiados del algoritmo Apriori fue necesario definir
cada uno de los parámetros que recibe el algoritmo aparte del proceso realizado a la
vista minable.
En la ilustración 4 de la sección 2.3.2 Parámetros requeridos por el Algoritmo Apriori
se muestran los parámetros por defecto establecidos junto con el significado de cada
uno de ellos. A continuación se muestra la configuración de parámetros realizada:
 El parámetro car se define con el valor “false” ya que no necesitamos exportar los
resultados a ningún archivo externo.
 El parámetro classIndex se define con el número 4 que es la ubicación de la
columna del atributo 𝑃𝑀10 .
 El parámetro Delta se define con el valor 0.05.
 El parámetro lowerBoundMinSupport queda con un soporte mínimo de 0.10 ya que
es importante encontrar una buena proporción de reglas de asociación útiles para los
involucrados.
 El parámetro metricType queda de tipo “lift”, ya que este tipo de métrica muestra las
reglas de asociación con la medida de mejora y confianza y cubren el análisis de
utilidad de cada regla.
 El parámetro minMetric se estableció en 0.60 con el fin de tener reglas de
asociación con un puntaje confiable.
 Los parámetros outputItemSets y removeAllMissingCols se definen con la variable
booleana “false”.
 Para el parámetro upperBoundMinSupport se establece el valor 1.0 que es el
máximo límite que puede tomar el soporte de cada regla.
 Por ultimo para el parámetro verbose se definió en “true” con el fin de obtener las
reglas de asociación con los detalles respectivos que son el valor de la confianza y la
frecuencia de los antecedentes y consecuente.
 El parámetro numRules es dependiente del parámetro lowerBoundMinSupport ya
que el algoritmo para cuando encuentre reglas por debajo del umbral especificado,
así que el número de reglas que se especifico fue con un valor muy alto de 10.000
reglas con el fin de saber el tope de las reglas con el umbral bajo especificado.
3.2.3 Resultados Obtenidos
Posterior a la configuración de los parámetros para la ejecución del algoritmo vienen los
resultados provistos por el algoritmo y el tratamiento de las reglas de asociación con el
fin de utilizar reglas útiles e interesantes. Cabe recalcar que este proceso se aplica de
igual manera para las dos ejecuciones.
Los resultados del algoritmo PredictiveApriori no fueron los esperados para el caso del
𝑃𝑀10 , ya que todas las reglas generadas en dicho algoritmo fueron catalogadas como
“innecesarias” para cumplir los objetivos del trabajo de grado ya que no contenían como
atributo consecuente los estados del 𝑃𝑀10 .
A continuación se presentan las reglas generadas para cada conjunto de datos que
representan una ejecución.
Ejecución No.
1
2
Reglas
Encontradas
2000
1760
Tabla 7 Reglas encontradas para cada ejecución
Fuente: Autor
Como se puede observar en la tabla de resultados, la cantidad de reglas de asociación
encontradas con dichos parámetros no alcanzan a cumplir el objetivo de la cantidad de
reglas que se estableció en la configuración del algoritmo, por lo cual esta cantidad de
reglas generadas llegan al límite inferior de soporte establecido.
A continuación se presenta una vista general del entorno de resultados que genera la
herramienta con el fin de conocer el estado inicial de cada una de las reglas generadas.
Ilustración 4 Vista general de las reglas de asociación generadas
Fuente: Herramienta Weka
Cada regla de asociación esta ordenada descendentemente de acuerdo al valor de la
medida de mejora, en la parte superior de la interfaz de resultados sale el número de
iteraciones que realizo el algoritmo para seleccionar las mejores reglas, en este caso
fueron 18 iteraciones para la ejecución 1 y 12 iteraciones para la ejecución 2.
3.2.3.1 Selección de Reglas de Asociación (poda)
Después de seleccionar las reglas de asociación de acuerdo a los criterios de selección
de reglas, la proporción de reglas de asociación encontradas fueron las siguientes:
Ejecución Cantidad de Reglas
encontradas
1
82
2
12
Tabla 8 Reglas encontradas después de la selección
Fuente: Autor
3.2.4 Presentación de las Reglas de Asociación para el modelo RAPM10
La visualización utilizada para el modelo de reglas de asociación se encuentra en un
archivo en Excel que contiene 8 grupos compuestos por reglas de asociación, donde se
encuentran reglas de asociación que contienen uno o más de los antecedentes que
componen cada grupo formado. Los grupos están representados en un globo azul. A
continuación se presenta una vista general de los grupos de Reglas de Asociación:
Ilustración 5 Vista general de los grupos del Modelo de Reglas de Asociación
Fuente: Autor
Si se selecciona un grupo lo lleva directamente a la plantilla donde se encuentran las
reglas de asociación que contienen esos antecedentes. Para una mejor gestión y
comprensión de los resultados fue necesario crear un formato para cada regla de
asociación de la siguiente forma:
Ilustración 8 Formato Reglas de Asociación
Fuente: Autor
Como se puede observar en la ilustración 8, cada regla de asociación tiene la
información necesaria para conocer su confiabilidad por sus métricas de soporte,
confianza y mejora, los colores representan el nivel de preocupación en la salud de la
población, definido por la EPA. El id de la regla está construido con las iniciales de los
grupos a que pertenece dicha regla.
Archivos que contienen los modelos RAPM10 y RAO3
Los resultados generados se encuentran almacenados en el mismo archivo que contiene
los resultados del algoritmo PredictiveApriori y Apriori, para diferenciarlos hay varios
criterios:
1. El id de las reglas de asociación generadas por el algoritmo Apriori comienzan con
la letra ‘A’.
2. Las métricas que tienen las reglas de asociación generadas por el algoritmo Apriori
están definidas como: Soporte y Confianza; A diferencia de las del algoritmo
PredictiveApriori que están regidas con la medida Accurancy Predictive.
3. Las reglas generadas por los dos algoritmos se encuentran agrupadas en dos
columnas paralelas, donde cada columna tiene el nombre del Algoritmo aplicado.
El archivo que tiene los resultados de cada algoritmo y las reglas de asociación se
encuentra ordenado descendentemente, para el caso del algoritmo Apriori se ordena de
acuerdo con la medida probabilística de confianza y para el algoritmo PredictiveApriori
se ordena de acuerdo a la medida probabilística Predictive Accurancy.
El archivo que contiene los resultados de la técnica de los modelos RAO3 se encuentra
con el siguiente nombre:
RAO3.xls
El archivo que contiene los resultados de la técnica de los modelos RAPM10 se
encuentra con el siguiente nombre:
RAPM10.xls
4. Construcción del Modelo CO3
Este modelo implementa la técnica de Agrupamiento (Clustering) para 𝑂3. En este
capítulo se presenta el proceso que se realizó para crear el modelo de Clustering por
medio de la selección de los algoritmos que implementan la técnica.
4.1 Selección de los atributos de entrada
El procedimiento realizado para la selección de atributos se apoyó en la herramienta de
SQL server Analysis Services con dos funcionalidades provistas por el mismo. A
continuación se presentan las funcionalidades:
4.1.1 Detección de atributos de entrada por medio de la Red de
Dependencias de Microsoft
Esta herramienta contiene una opción de red de dependencias para las técnicas de
clasificación, dicha red de dependencias analiza el conjunto de datos y muestra los
atributos que deben pertenecer al conjunto de datos de entrada con el atributo predictor
(que en este caso sería el 𝑂3) para obtener buenos resultados provistos por el algoritmo,
teniendo una certeza optima ya que se basa meramente en los registros históricos.
Es importante recalcar que se incluyeron todos los atributos de la base de datos
incluidas las variables derivadas. A continuación se muestra la red provista por la
herramienta:
Ilustración 6 Red de dependencias con el 𝑶𝟑
Fuente: Herramienta Visual Studio Data Tools 2012
La ilustración muestra una barra en el lado izquierdo que quiere decir que entre más
abajo este el deslizador en la barra, la dependencia de dichos atributos con el predictor
es más fuerte. Para este caso dicha barra se dejó en la mitad con el fin de tener una
buena porción de atributos de entrada y se pudo observar que se eliminó la relación de
dependencia entre el atributo Mes y Ozono2 dejando como conclusión que la relación
entre estos dos atributos no era tan fuerte como para utilizarlo como atributo de entrada.
Las variables derivadas como Hora Pico y los atributos como Lluvia no aparecieron en
la red de dependencias, lo cual según este método estas dos variables no son buena
opción para pertenecer en el conjunto de entrada de la técnica. Sin embargo el atributo
lluvia se incluyó en el conjunto de entrada con el fin de identificar posibles tendencias
entre el Ozono y dicha variable.
Los demás atributos que aparecen apuntando al Ozono entran como conjunto de entrada
para el algoritmo que elegido.
7.1.2 Método de Selección de Características de Microsoft para detectar los
atributos de entrada
En esta sección se muestra la interfaz de selección de la herramienta, donde se
encuentran todos los atributos del módulo de origen de datos, se escogen todos los
atributos terminados con la letra ‘n’, que quiere decir que el atributo esta normalizado.
La herramienta de Microsoft tiene una opción que sugiere los atributos que
necesariamente deben estar definidos en la entrada (selección de características) de
acuerdo a la dependencia del atributo predictivo que en este caso es el Ozono. Este
método se encuentra en la interfaz de la selección de los datos de aprendizaje que
aparece a continuación:
Ilustración 10 Interfaz para la selección de atributos de entrada
Fuente: Herramienta Visual Studio Data Tools 2012
En la ilustración 21 se muestra la sugerencia hecha por Analisys Services junto con el
puntaje de importancia de dicho atributo en la generación del modelo.
Ilustración 7 Interfaz de los atributos de entrada seleccionados por la herramienta
Fuente: Herramienta Visual Studio Data Tools 2012
Lo que quiere decir que los atributos: RadiacionSolarN, TemperaturaN y VelVientoN
son los atributos más influyentes para la generación del algoritmo.
4.2 Algoritmo K- means
Este algoritmo se encarga de segmentar la base de datos en grupos para tener una
descripción detallada y fácil de interpretar. En este capítulo se muestra el procedimiento
realizado para la implementación de la técnica de Clustering que hace parte del modelo
CO3.
4.2.1 Ejecución del Algoritmo
Para la ejecución del algoritmo se utilizaron todos los datos de entrenamiento los cuales
se asignaron al componente de vista de origen de datos y fue necesario realizar cambios
en los parámetros que se encuentran con valores por defecto.
4.2.1.1 Configuración de los parámetros del algoritmo
Este proceso es uno de los más importantes para la ejecución de algoritmos
pertenecientes a la técnica de minería, ya que si la configuración de los parámetros no es
adecuada, puede afectar el comportamiento, el rendimiento y la precisión del modelo de
minería de datos resultante. Después de las iteraciones realizadas, los parámetros que
más se ajustaron fueron los siguientes:
Nombre del Parámetro
CLUSTER_COUNT
CLUSTER_SEED
Valor
Descripción
Establecido
El número de clusters asignados es 5
5
y el proceso de selección se ve en la
sección de a continuación.
Valor por
defecto
CLUSTERING_METHOD
3
MAXIMUM_INPUT_ATTRINU
TES
12
MAXIMUM_STATES
MINIMUM_SUPPORT
MODELLING_CARDINALITY
SAMPLE_SIZE
Valor por
defecto.
3
Valor por
defecto
30.000
Este valor queda con un valor por
defecto de 0 ya que la idea es que el
algoritmo comience la generación de
clusters de acuerdo a la distancia y
desde el principio.
El numero 3 fue seleccionado ya que
corresponde al algoritmo medianaK- escalable (K-means).
En este caso se colocaron la cantidad
del atributos de entrada, contando el
id y el atributo predictor.
Se deja el valor por defecto que es
100.
El número por defecto es 10.
Si se establece el número 0, todo el
conjunto de datos de entrenamiento
se agruparán en un único paso lo que
genera problemas de memoria y
rendimiento.
STOPPING_TOLERANCE
Valor por
defecto
El valor por defecto que queda es 10.
Tabla 9 Definición y asignación de valores de los parámetros de la técnica
Fuente: Autor
4.2.1.2 Selección de los K grupos de Clusters
Para determinar el número de clústeres que se iban a generar, se utilizaron dos métodos
de clustering jerárquico. Estos métodos son:

Aglomerativo, este método muestra los resultados en forma de un dendograma (ver
figura 19), en la que visualmente se realizó un corte que da la cantidad de 5
clústeres.

EM (Expectation-Maximization), se basa en probabilidades con base en la muestra
de datos e indico que el número de clústeres era 6.
Se ejecutó el algoritmo con los dos números de clústeres y por mejor distribución se
utilizó el K del método aglomerativo.
Ilustración 18 Dendograma para la definición de los k Clusters
Fuente: Herramienta RapidMiner
4.2.2 Resultados Obtenidos
Posterior a la configuración de parámetros, selección del conjunto de entrenamiento y la
selección de los atributos pertenecientes a la entrada del algoritmo, para utilizar las
herramientas que provee Analisys Services fue necesario crear un atributo ‘ID’ en la
vista minable, que fuera la llave primaria de la base de datos, este id se creó de acuerdo
al tamaño de la base de datos y no altera en el proceso de generación del modelo.
A continuación se muestra una imagen de la estructura del modelo de agrupamiento:
Ilustración 13 Estructura del Modelo de Clustering para Ozono
Fuente: Herramienta Visual Studio Data Tools 2012
En la ilustración anterior se puede apreciar los atributos que componen la estructura del
modelo de agrupamiento, la definición de la técnica que se utiliza en el modelo y la
función que desempeña cada atributo (es decir cuáles son los atributos de entrada,
predictivos y primarios). Cabe recalcar que el carácter ‘N’ que acompaña a cada
nombre del atributo es simplemente una diferenciación con el atributo con los datos en
estado inicial en el momento de realizar el proceso de normalización.
4.2.3 Presentación de los resultados del modelo CO3
La herramienta de Visual Studio Data Tools proporciona gráficos e información
detallada de cada clúster creado, dando así una facilidad al lector de interpretar los
resultados del proceso de generación de conocimiento. Con el fin de que los
stakeholders vieran los resultados sin tener que instalar la herramienta de entorno para
crear los modelos, se exporto la información en un documento que contiene todas las
gráficas con su posterior explicación. Esta visualización está dividida en 4 secciones las
cuales muestran los resultados del algoritmo en diferentes representaciones.
5. Construcción del Modelo CPM10
Este modelo implementa la técnica de Agrupamiento (Clustering) para el 𝑃𝑀10 . En este
capítulo se presenta el proceso que se realizó para crear el modelo de Clustering por
medio de la selección de los algoritmos que implementan la técnica.
5.1 Selección de los atributos de entrada
Para la creación automática de la Red de Dependencias se incluyeron todos los atributos
de la base de datos (incluidas las variables derivadas). A continuación se muestra la red
provista por la herramienta:
Ilustración 9 Red de Dependencias 𝑷𝑴𝟏𝟎
Fuente: Herramienta Visual Studio Data Tools 2012
La barra deslizante se dejó en la mitad con el fin de tener una buena porción de atributos
de entrada y se pudo observar que la mayoría de los atributos de la vista minable tienen
vínculos fuertes con el 𝑃𝑀10 , lo que quiere decir que los atributos que aparecen en la
ilustración 31 sirven como variables de entrada para el algoritmo arrojando resultados
óptimos. Hay un caso especial que también sucedió en la selección de los atributos de
entrada para el modelo de Clustering del Ozono y es que el atributo lluvia no tiene
ningún vínculo con el atributo 𝑃𝑀10 según la red de dependencias, así que para este
modelo dicho atributo no se incluye como entrada.
5.2 Algoritmo K- means
Uno de los motivos de selección de este algoritmo fue por el éxito de los resultados
generados en el modelo Clustering de 𝑂3 .
5.2.1 Ejecución del Algoritmo
En esta sección se pretende explicar el procedimiento que se realizó para ejecutar el
algoritmo de K-means.
5.2.1.1 Configuración de los parámetros del algoritmo
Este proceso es uno de los más importantes para la ejecución de algoritmos
pertenecientes a la técnica de minería, ya que si la configuración de los parámetros no es
adecuada, puede afectar el comportamiento, el rendimiento y la precisión del modelo de
minería de datos resultante.
Nombre del Parámetro
CLUSTER_COUNT
CLUSTER_SEED
CLUSTERING_METHOD
Valor
Descripción
Establecido
5
Valor por
defecto
9
MODELLING_CARDINALITY
SAMPLE_SIZE
STOPPING_TOLERANCE
Este valor queda con un valor por
defecto de 0 ya que la idea es que el
algoritmo comience la generación de
clusters de acuerdo a la distancia y
desde el principio.
3
MAXIMUM_INPUT_ATTRINU
TES
MAXIMUM_STATES
MINIMUM_SUPPORT
Se asignó el K para 5 clusters y la
selección de esta cantidad de grupos
se encuentra en la sección siguiente.
Valor por
defecto.
3
Valor por
defecto
30.000
Valor por
defecto
En este caso se colocaron la cantidad
del atributos de entrada, contando el
id y el atributo predictor.
Se deja el valor por defecto que es
100.
El número mínimo de casos que
pueden entrar en cada clúster son 2.
El número por defecto es 10.
El valor por defecto que queda es 10.
Tabla 1 Definición y asignación de valores de los parámetros de la técnica
Fuente: Autor
5.2.1.2 Selección de los K grupos de Clusters
Para determinar el número de clústeres que se iban a generar, se utilizaron dos métodos
de clustering jerárquico:

Aglomerativo, este método muestra los resultados en forma de un dendograma (ver figura
19), en la que visualmente se realizó un corte que da la cantidad de 5 clústeres.

EM (Expectation-Maximization), se basa en probabilidades con base en la muestra de
datos e indico que el número de clústeres era 6.
Se ejecutó el algoritmo con los dos números de clústeres y por mejor distribución se
utilizó el K del método aglomerativo.
Ilustración 35 Dendograma para la definición de los k Clusters
Fuente: Herramienta RapidMiner
5.2.2 Resultados Obtenidos
Posterior a la configuración de parámetros, selección del conjunto de entrenamiento y la
selección de los atributos pertenecientes a la entrada del algoritmo, para utilizar las
herramientas que provee Analisys Services fue necesario crear un atributo ‘ID’ en la
vista minable, que fuera la llave primaria de la base de datos, este id se creó de acuerdo
al tamaño de la base de datos y no altera en el proceso de generación del modelo.
A continuación se muestra una imagen de la estructura del modelo de agrupamiento:
Ilustración 10 Estructura del Modelo de Clustering para PM10
Fuente: Herramienta Visual Studio Data Tools 2012
En la ilustración anterior se puede apreciar los atributos que componen la estructura del
modelo de agrupamiento, la definición de la técnica que se utiliza en el modelo y la
función que desempeña cada atributo (es decir cuáles son los atributos de entrada,
predictivos y primarios). Cabe recalcar que el carácter ‘N’ que acompaña a cada
nombre del atributo es simplemente una diferenciación con el atributo con los datos en
estado inicial en el momento de realizar el proceso de normalización.
Archivos que contienen los modelos CPM10 y CO3
Para que fuera de facilidad para los involucrados en abrir los archivos que contienen los
resultados de los modelos, fue necesario importarlos a un documento en Word con una
breve explicación de cada pestaña provista por la herramienta Visual Studio Data Tools
2010. El archivo que contiene los modelos se encuentra con el siguiente nombre:
Modelos CO3 y CPM10.docx
6. Construcción del Modelo CAO3
Este modelo implementa la técnica de Clasificación para el 𝑂3. En este capítulo se
presenta el proceso que se realizó para crear el modelo de Clasificación por medio de la
selección de los algoritmos que implementan la técnica.
6.1 Selección de los Atributos de entrada
La selección de los atributos de entrada para las técnicas de clasificación, es de los
procesos más importantes para la creación de la estructura de minería ya que una buena
selección de los atributos hace que el modelo sea preciso con conjuntos de prueba reales
(externos a los del entrenamiento) y así dicho modelo pueda ser usado por los
involucrados. Por ende fue necesario definir los atributos de entrada utilizando tres
criterios: el primero gracias a las dependencias encontradas de algunos de los atributos
de la base de datos con el atributo predictor (los resultados de las correlaciones que se
encuentran con detalle en el documento de vista minable), el segundo es gracias a la
asesoría de expertos en el tema y el tercero es por la funcionalidad de la herramienta
Analysis Services 2010 cuyo nombre es Selección de características.
6.1.1 Aplicación del Método selección de características para elegir el
conjunto de entradas
Ilustración 11 Interfaz para seleccionar las variables de entrada por la herramienta
Fuente: Herramienta Visual Studio Data Tools 2012
Podemos observar que los atributos más influyentes para la creación del modelo son:
Temperatura, ClasificacionHora y PromRadiacionSG lo que hace que se definan como
atributos de entrada junto con todos los demás que están seleccionados con una ‘x’, a
excepción del atributo Radiacionsolar (RSG) ya que se encuentra en un mejor puntaje
su atributo sinónimo, entonces no sería coherente tener dos atributos sinónimo.
A continuación se presentan los atributos de entrada utilizados para los algoritmos de
clasificación:

Vel Viento

NOX

NO2

Temperatura

ClasificacionHora

Trimestres del Año

PromRadiacionSG
Es importante recalcar que para cada algoritmo hubo un segundo proceso de selección
de atributos de entrada basado en los atributos anteriormente nombrados, con el fin de
eliminar redundancias en algunos atributos y seleccionar de manera eficiente los
atributos de entrada para cada uno de los modelos y así mejorar la precisión de los
modelos generados.
6.2 Selección del Atributo Objetivo
El atributo predictivo seleccionado es el Ozono, ya que el objetivo del trabajo de grado
es encontrar relaciones entre las variables climatológicas con el contaminante de Ozono
para así crear un prototipo que al final estime el valor de concentración del Ozono dado
unos atributos de entrada influyente, así que la mejor representación a nivel del modelo
es tener el ozono como atributo predictivo.
Este atributo contiene cuatro estados que tienen el índice de concentración de Ozono y
se representan en cuatro clases donde se van asignar los estados de los atributos de
entrada. Los estados son los siguientes:

BUENO

MODERADO

DESFAVORABLE
Cabe recalcar que para que el modelo quede útil, el último estado detectado en el
conjunto de registros históricos que en este caso es DESFAVORABLE, se encuentra para
valores AQI mayores e iguales 151.
6.3 Ejecución del Algoritmo de Microsoft
Esta sección muestra detalladamente el proceso realizado para aplicar el algoritmo de
Arboles de decisión de Microsoft. La herramienta utilizada fue Visual Studio Analisys
Services.
6.3.1 Creación de la Estructura de Minería de Datos
Esta estructura [65] es importante ya que allí se definen los datos de entrada y la técnica
que va a generar el modelo de minería de datos. Es importante recalcar que una misma
estructura de minería de datos puede tener varios modelos con diferentes técnicas pero
que comparten el mismo dominio.
A continuación se muestra el procedimiento para la creación de la estructura que va a
contener el modelo de árboles de decisión.
Ilustración 12 Interfaz de la técnica seleccionada
Fuente: Herramienta Visual Studio Data Tools 2012
6.3.2 Vista en general del Modelo de Árboles de decisión
Como se puede apreciar en la ilustración 35 se encuentran los datos que hacen parte de
la entrada del algoritmo y el atributo que predictivo, los atributos que tienen la categoría
“omitir”, es porque al utilizar el método de selección de características, el mismo
método selecciona automáticamente los atributos con mejor puntaje, pero previamente a
utilizarlos fue necesario seleccionar cual era el atributo predictivo y el id. Sin embargo
el usuario puede modificar esta categoría de acuerdo a su conveniencia. Para este caso
especial fue necesario omitir el atributo RadiacionSolar que quedo seleccionado como
atributo de entrada ya que la variable derivada PromRadiacion SG lo reemplaza en su
utilidad, mejorando así la interpretación y la precisión del modelo.
Ilustración 13 Interfaz Modelo de Árboles de decisión
Fuente: Herramienta Visual Studio Data Tools 2012
6.3.3 Configuración de los parámetros del algoritmo
Antes de realizar la ejecución del algoritmo de minería es importante realizar la
configuración de los parámetros con el fin de generar resultados que se ajusten a la
medida del proyecto. A continuación se presenta la configuración de los parámetros que
llevo a la generación del modelo CAO3:
Parámetro
Valor
COMPLEXITY_PENALTY
FORCE_REGRESSOR
MAXIMUM_INPUT_ATRIBUTES
MAXIMUM_OUTPUT_ATRIBUTES
0.5
No Aplica.
Default
Default
MINIMUM_SUPPORT
SCORE_METHOD
SPLIT_METHOD
10
1
3
Tabla 2 Definición y asignación de valores a los parámetros
Fuente: Autor
6.4 Resultados Obtenidos
Los colores que representan los estados del atributo de predicción Ozono están
asignados de la siguiente forma:
Estado del atributo Ozono
BUENO
MODERADO
DESFAVORABLE
Color
Tabla 3 Convenciones de los estados del atributo de Ozono
Fuente: Autor
6.4.2 Visor Red de Dependencias
Como su nombre lo indica [66], muestra dependencias entre los atributos de entrada con
el atributo predictivo. A continuación se presenta la red de dependencias con un vínculo
de importancia media entre los atributos:
Ilustración 14 Visor de red de dependencias para técnica de clasificación
Fuente: Herramienta Visual Studio Data Tools 2012
Se puede observar en la imagen que la mayoría de los atributos de entrada del algoritmo
tienen vínculos fuertes con el atributo predictivo, lo cual hace que la precisión del
algoritmo pueda ser buena, sin embargo en el documento de Plan de Puerbas, se
encuentra con detalles los resultados de la precisión de los modelos de Minería de datos
utilizados.
6.4.3 Selección de las ramas del Árbol
Aunque el algoritmo de árboles de decisión de Microsoft contiene métodos que
controlan y evitan el sobreajuste, es importante realizar la validación de las tareas que se
sugieren para evitarlo de forma manual. El proceso para evitar el sobreajuste se divide
en 2 partes [39]:
6.4.3.1 Eliminando variables independientes
Para este modelo se realizaron varias ejecuciones de prueba, en las que se incluyeron
atributos como: Lluvia, Hora Pico y Fin de Semana, estos atributos por no tener una
relación con el contaminante PM10 gracias a los resultados arrojados en la red de
dependencias, la función de selección de características y las correlaciones de Pearson,
el árbol de decisión no incluyo estas variables a pesar de que en algunas pruebas se
incluyeron como atributos de entrada, así que para no afectar su rendimiento en tiempos
de respuesta fue necesario eliminarlas ya que se identificaron como variables
independientes.
Los resultados de las ejecuciones que contenían el atributo RadiacionSolar arrojaban en
su mayoría arboles de profundidad alta (es decir mayor a 14 niveles), anchura extensa,
en los resultados de precisión se obtenían cerca del 50% de falsos positivos y negativos
(matriz de contingencia) y el histograma de distribución que presenta cada nodo interno
contenía 2 o 3 estados influyentes de igual probabilidad de frecuencia. Por tal motivo
este atributo se eliminó de la lista de entrada del modelo final y se sustituyó por la
variable derivada PromRadiacionSG, gracias a la intervención del experto en el tema de
Minería de Datos quien detecto estas anomalías.
6.4.3.2 Poda del Árbol
Este proceso está basado en la confiabilidad del árbol y consiste en eliminar las reglas
(hojas, ramas o subárboles) que no son de carácter general, es decir que son reglas
textuales de los datos que no ocurren con frecuencia. La importancia de realizar el
proceso de Poda (ya sea por parte del algoritmo o del usuario), es que va a mejorar el
desempeño del árbol y clasificara de forma correcta tanto los registros del set de
entrenamiento como los registros del set de prueba.
6.4.3.2.1 Pre-poda
Se puede observar que el parámetro MINIMUN_SUPPORT está en el soporte mínimo
ideal que debe aceptar cada nodo interno que en este caso es de 10 y se definió en los
parámetros de dicho algoritmo.
Después de observar detalladamente el árbol y los gráficos de precisión se encontró que
las amenazas de sobreajuste no son significativas, sin embargo en la sección análisis de
resultados se encuentran las ramas interesantes y cuyo nivel de precisión es aceptable
por las normas exigidas por los expertos.
6.5 Archivo que contiene el nombre del modelo CAO3
El archivo del árbol de decisión que representa el modelo CAO3 se encuentra en tipo imagen
con el fin de facilitar la visualización del mismo. El archivo contiene el siguiente nombre:
ModeloCAO3.jpg
7. Construcción del Modelo CAPM10
Este modelo implementa la técnica de Clasificación para el 𝑃𝑀10 . En este capítulo se
presenta el proceso que se realizó para crear el modelo de Clasificación por medio de la
selección de los algoritmos que implementan la técnica.
7.1 Selección de los Atributos de entrada
La selección de los atributos de entrada para las técnicas de clasificación, es de los
procesos más importantes para la creación de la estructura de minería ya que una buena
selección de los atributos hace que el modelo sea preciso con conjuntos de prueba reales
(externos a los del entrenamiento) y así dicho modelo pueda ser usado por los
involucrados. Por ende fue necesario definir los atributos de entrada utilizando tres
criterios: el primero gracias a las dependencias encontradas de algunos de los atributos
de la base de datos con el atributo predictor (los resultados de las correlaciones que se
encuentran con detalle en el documento de vista minable), el segundo es gracias a la
asesoría de expertos en el tema y el tercero es por la funcionalidad de la herramienta
Analysis Services 2010 cuyo nombre es Selección de características.
7.1.1 Aplicación del Método selección de características para elegir el
conjunto de entradas
A continuación se presentan los atributos de entrada utilizados para los algoritmos de
clasificación:











Vel Viento
Radiación Solar
Temperatura
ClasificacionHora
Trimestres del Año
Lluvia
Fin se Semana
Hora Pico
NO2
NOX
PromRadiacionS
A continuación se presentan los resultados obtenidos por la función:
Ilustración 15 Función Selección de Características
Fuente: Herramienta Visual Studio Data Tools 2012
7.2 Selección del Atributo Objetivo
El atributo predictivo seleccionado es el PM10, ya que uno de los objetivos del trabajo
de grado es encontrar relaciones entre las variables climatológicas con el contaminante
de PM10 para así crear un prototipo que al final estime el valor de concentración del
PM10 dado unos atributos de entrada influyente, así que la mejor representación a nivel
del modelo es tener el ozono como atributo predictivo.
Este atributo contiene tres estados que representan el índice de concentración de PM10.
Los estados son los siguientes:

BUENO

MODERADO

DESFAVORABLE
Con el fin de darle una utilidad al modelo con otros conjuntos de datos, el último estado
detectado en el conjunto de registros históricos que en este caso es DESFAVORABLE,
se encuentra para valores AQI mayores e iguales 151.
7.3 Ejecución del Algoritmo de Microsoft
Esta sección muestra detalladamente el proceso realizado para aplicar el algoritmo de
Arboles de decisión de Microsoft. La herramienta utilizada fue Visual Studio Analisys
Services.
7.3.2 Vista en general del Modelo de Árboles de decisión
Como se puede apreciar en la siguiente ilustración se encuentran los datos que hacen
parte de la entrada del algoritmo junto con el atributo que predictivo, los atributos que
tienen la categoría
“omitir”, es porque al utilizar el método de selección de
características, el mismo método selecciona automáticamente los atributos con mejor
puntaje, pero previamente a utilizarlos fue necesario seleccionar cual era el atributo
predictivo y el id. Sin embargo el usuario puede modificar esta categoría de acuerdo a
su conveniencia. Para este caso especial fue necesario omitir el atributo Radiacion Solar
que quedo seleccionado como atributo de entrada ya que la variable derivada Prom
RadiaciónS lo reemplaza generando así un mejor análisis con mejor precisión.
Ilustración 16 Estructura modelo CAPM10
Fuente: Herramienta Visual Studio Data Tools 2012
7.3.3 Configuración de los parámetros del algoritmo
Antes de realizar la ejecución del algoritmo de minería es importante realizar la
configuración de los parámetros con el fin de generar resultados que se ajusten a la
medida del proyecto. A continuación se presentan los parámetros definidos para la
generación del modelo:
Parámetro
Valor
COMPLEXITY_PENALTY
0.5
FORCE_REGRESSOR
No Aplica.
MAXIMUM_INPUT_ATRIBUTES
Default
MAXIMUM_OUTPUT_ATRIBUTES
Default
MINIMUM_SUPPORT
20
SCORE_METHOD
3
SPLIT_METHOD
3
Tabla 4 Definición y asignación de valores a los parámetros
Fuente: Autor
7.4 Resultados Obtenidos
Esta sección pretende presentar los resultados obtenidos por el modelo CAPM10.
7.4.1 Visor Árbol de Decisión
Los colores que representan los estados del atributo de predicción PM10 están
asignados de la siguiente forma:
Estado del PM10
Color
BUENO
MODERADO
DESFAVORABLE
Tabla 5 Convenciones de los estados del atributo de PM10
Fuente: Autor
7.4.2 Visor Red de Dependencias
A continuación se presenta la red de dependencias con un vínculo de importancia media
entre los atributos:
Ilustración 17 Visor de red de dependencias para técnica de clasificación
Fuente: Herramienta Visual Studio Data Tools 2012
7.4.3 Selección de las ramas del Árbol
Aunque el algoritmo de árboles de decisión de Microsoft contiene métodos que
controlan y evitan el sobreajuste, es importante realizar la validación de las tareas que se
sugieren para evitarlo de forma manual. El proceso para evitar el sobreajuste se divide
en 2 partes:
7.4.3.1 Eliminando variables independientes
Para este modelo se realizaron varias ejecuciones de prueba, en las que se incluyeron
atributos como: Lluvia, Hora Pico, Fin de Semana, NOX y NO2, estos atributos por no
tener una relación con el contaminante PM10 gracias a los resultados arrojados en la red
de dependencias, la función de selección de características y las correlaciones de
Pearson, el árbol de decisión no incluyo estas variables a pesar de que en algunas
pruebas se incluyeron como atributos de entrada, así que para no afectar su rendimiento
en tiempos de respuesta fue necesario eliminarlas ya que se identificaron como variables
independientes.
Los resultados de las ejecuciones que contenían el atributo RadiacionSolar arrojaban en
su mayoría arboles de profundidad alta (es decir mayor a 14 niveles), anchura extensa,
en los resultados de precisión se obtenían cerca del 50% de falsos positivos y negativos
(matriz de contingencia) y el histograma de distribución que presenta cada nodo interno
contenía 2 o 3 estados influyentes de igual probabilidad de frecuencia. Por tal motivo
este atributo se eliminó de la lista de entrada del modelo final y se sustituyó por la
variable derivada PromRadiacionSG, gracias a la intervención del experto en el tema de
Minería de Datos quien detecto estas anomalías.
7.4.3.2 Poda del Árbol
Este proceso está basado en la confiabilidad del árbol y consiste en eliminar las reglas
(hojas, ramas o subárboles) que no son de carácter general, es decir que son reglas
textuales de los datos que no ocurren con frecuencia. La importancia de realizar el
proceso de Poda (ya sea por parte del algoritmo o del usuario), es que va a mejorar el
desempeño del árbol y clasificara de forma correcta tanto los registros del set de
entrenamiento como los registros del set de prueba. Para este proceso también se
tuvieron en cuenta los patrones generados por los modelos generados por las técnicas de
reglas de asociación y agrupamiento.
7.4.3.2.1 Pre-poda
Se puede observar que el parámetro MINIMUN_SUPPORT está en el soporte mínimo
ideal que debe aceptar cada nodo interno que en este caso es de 20 y se definió en los
parámetros de dicho algoritmo.
7.5 Archivo que contiene el nombre del modelo CAPM10
El archivo del árbol de decisión que representa el modelo CAPM10 se encuentra en tipo
imagen con el fin de facilitar la visualización del mismo. El archivo contiene el siguiente
nombre:
ModeloCAPM10.jpg
Descargar