Manual de Administracion - Trabajos de Grado

Anuncio
PONTIFICIA UNIVERSIDAD JAVERIANA
Anexo 11. Manual de
Administración
Para mantenimiento a los modelos y código
fuente
Alex Arias
28/05/2014
El presente documento muestra los requerimientos necesarios para realizar cambios o una
extensión del prototipo de alertas tempranas.
Contenido
1.
Requerimientos del Equipo ................................................................................................... 2
2.
Requerimientos del Sistema .................................................................................................. 2
3.
Arquitectura de Microsoft aplicada a las técnicas de Clustering y Clasificación ................ 3
3.1 Creación del Origen de datos .............................................................................................. 4
3.2 Creación Vista del Origen de Datos .................................................................................... 4
3.3 Creación de una Estructura de Minería de Datos ................................................................ 5
3.3.1 Selección de la técnica de minería de datos ................................................................. 6
3.3.2 Creación de conjuntos de Entrenamiento y Prueba ...................................................... 6
4.
Descargas .............................................................................................................................. 7
5.
Compilación y ejecución ....................................................................................................... 7
1. Requerimientos del Equipo
Las características que se muestran a continuación son las mínimas que debe tener el equipo
para utilizar las fuentes de la aplicación:

Procesador X86: 1.0 GHz, X64: 1.4 GHz.

Disco duro con al menos 6 GB de espacio libre.

Memoria RAM de 1 GB

Monitor VGA (800 x 600)

Teclado y Ratón.
2. Requerimientos del Sistema
Para el mantenimiento de la aplicación y los modelos se requieren tener lo siguiente:

Java SE Development Kit 7

SQL Server Managment Studio 2012.

SQL Server Data Tools 2010

Weka 3.6
Se recomienda el uso de:

Add In de Minería de datos para Excel 2010.

NetBeans 7.4: IDE

Dropbox o Google drive
Es necesario tener y cargar al ambiente de desarrollo las siguientes librerías:

Jcommon-1.0.21.jar

Jfreechart-1.0.17.jar

Skinlf.jar

Sqljdbc4.jar
3. Arquitectura de Microsoft aplicada a las técnicas de Clustering y
Clasificación
Para crear un modelo de minería de datos utilizando la herramienta SLQ Server Data Tools
2010, es necesario conocer la arquitectura que provee la herramienta y a su vez el procedimiento
que se debe realizar:
Ilustración 1 Arquitectura para la creación de modelos en Microsoft
Fuente: Autor
Esta arquitectura que se presenta en la ilustración 1 fue utilizada en este trabajo de grado con el
fin de modelar y ejecutar algoritmos pertenecientes a las técnicas de Clasificación y Clustering
para los dos atributos objetivo (𝑃𝑀10 𝑦 𝑂3 ).
Para aplicar esta arquitectura se utilizaron las herramientas de Microsoft SQL Managment
Studio 2012 y Visual Studio Data tolos 2010 y además porque estas herramientas proporcionan
una visualización de los resultados más fácil de interpretar por parte de los involucrados ya que
tiene diversas opciones para ver los resultados ya sea por perfiles, arboles genéticos o el detalle
de cada componente del modelo.
Además gracias a sus características de implementación robustas tiene opciones para realizar
consultas a los modelos y exportar la base de conocimiento a la herramienta SQL Server 2012,
esta base de conocimiento como ya se mencionó en la memoria de grado busca ser
implementada en un lenguaje de programación para realizar consultas predictivas.
En esta sección se pretende explicar el procedimiento que se realizó para la selección y
ejecución de los algoritmos pertenecientes a las técnicas de clasificación y Clustering.
A continuación se presenta el procedimiento para satisfacer la arquitectura de Microsoft para
proyectos de inteligencia de negocios definida en la ilustración 1. Para que este proceso se
explique en detalle se utilizó el proceso hecho para el desarrollo del modelo CO3 que utiliza
técnicas de Clustering, sin embargo este proceso sirve para los modelos de clasificación.
3.1 Creación del Origen de datos
Este módulo crea la conexión de Visual Studio con SQL Server que es la que tiene la base de
datos que contiene la vista minable. Una vez creada la conexión, el módulo de origen de datos
tiene acceso directo a la base de datos que contiene la información. A continuación se presenta
el proceso de creación del módulo origen de datos:
Ilustración 2 Conexión con el servidor que contiene los datos
Fuente: Herramienta Visual Studio Data Tools 2012
La base de datos “BD Puente Aranda”, contiene las vistas minables, una normalizada y la otra
con procesos de discretización preparadas para entrenar el modelo de minería, por ende es
importante probar la conexión con el fin de tener acceso más adelante a la base de datos.
3.2 Creación Vista del Origen de Datos
La vista del origen de datos se crea a partir de las tablas y las vistas de una base de datos, las
vistas de datos se caracterizan por el almacenamiento en cache de los metadatos, agregación de
relaciones, la configuración de claves lógicas y para este caso la vista de la tabla que contiene
los registros históricos, al crear la vista de origen de datos fue necesario conectarse localmente
con la fuente de datos que fue el modulo anterior y este módulo proveyó el acceso a las tablas
que contenía esa base de datos, de allí se escogió la tabla o vista a la que se necesita aplicar las
técnicas. El visor de visual representa gráficamente la vista de origen de datos creada con los
atributos que tiene el conjunto de datos a tratar:
Ilustración 3 Visualización de la vista de origen de datos creada
Fuente: Herramienta Visual Studio Data Tools 2012
Como se puede observar en la imagen anterior la vista de origen de datos se representa como un
cubo en el cual por la parte interior se encuentran todos los atributos que contiene la tabla a
utilizar, con esta vista se pueden crear cubos, dimensiones y la estructura de minería de datos,
pero para este caso solo se utiliza la estructura.
3.3 Creación de una Estructura de Minería de Datos
La estructura de minería de datos como se observó en la arquitectura utilizada, tiene
herramientas potentes que permiten escoger la técnica de minería que se necesite y así la
creación de un nuevo modelo de minería de datos. Esta estructura de datos representa los
conocimientos obtenidos del análisis de datos relacionales.
La creación de la estructura de minería, quizá es uno de los pasos más importantes ya que en
este se selecciona la técnica a utilizar, el algoritmo, los datos de entrada, el dato predictivo y la
partición del conjunto de datos (una parte para conjunto de prueba y la otra para entrenamiento).
A continuación se muestra el proceso paso a paso de la creación de la estructura de minería de
datos.
3.3.1 Selección de la técnica de minería de datos
Ilustración 4 Interfaz para la selección de la técnica de Minería de Datos
Fuente: Herramienta Visual Studio Data Tools 2012
A partir de que se elija la técnica de minería de datos, los procesos de configuración y selección
de algoritmos son distintos, así que en las secciones posteriores se presenta el proceso en
detalle.
3.3.2 Creación de conjuntos de Entrenamiento y Prueba
Con el fin de validar el modelo generado de minería de datos y conocer su precisión, es
importante crear dos conjuntos de datos, uno de entrenamiento que es el encargado de preparar
los modelos y el otro el conjunto de prueba el cual es una muestra aleatoria simple del conjunto
de datos original con el fin de probar la precisión de cada modelo creado con el conjunto de
datos de entrenamiento.
Esta creación de los conjuntos de datos se hace por medio de la herramienta Analysis Services
de SQL, donde se presentó la siguiente interfaz en cada uno de los procesos de la creación de la
estructura de las técnicas de Minería de Datos:
Ilustración 5 Visualización de la Interfaz para la Creación del Conjunto de Pruebas
Fuente: Herramienta Visual Studio Data Tools 2012
4. Descargas
Para conocer o realizar cambios al prototipo o los modelos de minería, en el siguiente enlace
puede descargar el código fuente:
http://pegasus.javeriana.edu.co/~CIS1410IS02/prototipo.html
Cuyo archivo se encuentra comprimido con el nombre Prototipo Funcional Alertas
Tempranas.rar
Para descargar los archivos fuentes de los modelos, diríjase al siguiente enlace:
http://pegasus.javeriana.edu.co/~CIS1410IS02/entregables.html
El archivo tiene el nombre de Modelos de Mineria.rar
Para descargar la base de conocimientos, descargue el script de su creación en el mismo enlace
anterior con el nombre Base de Conocimiento.sql.
5. Compilación y ejecución
Para compilar y/o ejecutar la aplicación de alertas tempranas, realice los siguientes pasos:

Abra el proyecto preferiblemente en el ambiente de desarrollo NetBeans 7.4

Cargue las librerías mencionadas anteriormente a las librerías del proyecto.

Ejecute el script de la base de conocimiento en la herramienta SQL Managment Studio
2012.

Configure el usuario de conexión en el código fuente para conectarse a la base de
conocimiento previamente creada. Para esto diríjase al paquete Conexión y abra la clase
Conexión.java.

Compile el proyecto.
Descargar