UNIVERSIDAD NACIONAL DE TRUJILLO FACULTAD DE CIENCIAS FISICAS Y MATEMATICAS ESCUELA ACADEMICO PROFESIONAL DE INFORMÁTICA “SOLUCIÓN INFORMÁTICA DE HOMOLOGACIÓN E INTEGRACIÓN DE DATOS PARA MEJORAR EL PROCESO DE REGISTRO DE ALUMNOS EN LA UNIVERSIDAD NACIONAL DE TRUJILLO” PLAN DE PROYECTO DE TESIS ELABORADO POR : ÁREA DEL PROYECTO: Saráchaga Díaz, Raúl Martín [email protected] Ingeniería de Software Trujillo, 17 de Diciembre de 2014 1 DEDICATORIA Dedico la presente tesis a los seres que más amo en este mundo: mis padres, Raúl Alejandro y Rosa Elizabeth a mis hermanos, Martín Alejandro y Christian Alonso, a mi cuñada y sobrino Beatriz Colmenares y Matías Alejandro, por ser la fuente de mi inspiración y motivación para superarme cada día más y así poder luchar para que la vida nos depare un futuro mejor. El Autor 2 AGRADECIMIENTO Deseo expresar mis más sinceras muestras de agradecimiento: Al Señor Jesucristo, mi Señor y Dios, por enseñarme el camino correcto de la vida, guiándome y fortaleciéndome cada día con su Santo Espíritu. A mis Padres y Hermanos por creer y confiar siempre en mí, apoyándome en todas las decisiones que he tomado en la vida y mi fuente de motivación para ser cada día mejor persona y profesional. A mis maestros, por sus consejos y por compartir desinteresadamente sus amplios conocimientos y experiencia. A mis amigos, por el apoyo y motivación que de ellos he recibido. El Autor 3 PRESENTACION Señores Miembros del Jurado: De conformidad y en cumplimiento con las disposiciones establecidas por el Reglamento General de Graduados de la Escuela Académico Profesional de Informática de la Universidad Nacional de Trujillo, para optar el título de Ingeniero Informático, tengo a bien someter a vuestra consideración el proyecto de tesis titulado: “Solución Informática de Homologación e Integración de datos para mejorar el Proceso de Registro de Alumnos en la Universidad Nacional de Trujillo” Espero que el presente trabajo de investigación sirva de ayuda y/o referencia para el desarrollo fututo de proyectos que se implementen en la Escuela Académico Profesional de Informática de la Universidad Nacional de Trujillo y en otros lugares que se hagan uso de las tecnologías de la información como herramientas de productividad, eficiencia y competitividad. Trujillo, Diciembre del 2014 Saráchaga Díaz, Raúl Martín 4 RESUMEN El presente trabajo brinda una Solución Informática para la Homologación e Integración de datos para el proceso de registro de alumnos de la Universidad Nacional de Trujillo. La investigación en curso, refiere a la realidad problemática basada en la unidad encargada del registro de los alumnos en la Oficina de Registro Técnico. En la actualidad para el proceso de registro de los alumnos se tienen diferentes aplicaciones, cada aplicación realizada en diferentes lenguajes de programación, con bases de datos independientes una de otra y las cuales están hechas en diferentes SGBD. Por tal motivo en el presente trabajo de investigación se describen los pasos necesarios para la implementación de una Solución Informática, que tomará de distintos repositorios de datos los cuales están independientes unos de otros y los integrarán en uno solo, creando así un Data Warehouse para de esta forma disminuir la redundancia de datos, el costo en la generación de reportes y el costo hombre; para de esta forma mejorar el proceso del registro de los alumnos. 5 ABSTRACT This paper provides an IT solution for approval and integration of data for the registration of students from the National University of Trujillo. Ongoing research relates to the problematic reality based on the unit responsible for the registration of students in the Bureau of Technical Registration. Today for the registration of students have different applications, each application made in different programming languages, with separate databases from one another and which are made in different DBMS. Therefore in this research the necessary steps for implementing an IT solution, which take different data repositories which are independent of one another are described and integrated into one, creating a Data Warehouse for the thus reduce data redundancy, the cost in generating reports and cost man; to thereby improve the process of registration of students. 6 INDICE Contenido INTRODUCCION ....................................................................................................................... 9 CAPÍTULO I ..............................................................................................................................10 GENERALIDADES DEL PROYECTO .......................................................................................10 1.1 Planteamiento del Problema .......................................................................................10 1.1.1. Realidad Problemática .............................................................................................10 1.1.2. Antecedentes del Problema .....................................................................................10 1.1.3. Enunciado del Problema .........................................................................................11 1.2. Hipótesis.........................................................................................................................11 1.3. Variables de Estudio .......................................................................................................11 1.4. Objetivos ........................................................................................................................12 1.4.1 Objetivos General .....................................................................................................12 1.4.2 Objetivos Específicos ................................................................................................12 1.5. Justificación del Estudio .................................................................................................12 1.5.1. Tecnológica..............................................................................................................12 1.5.2. Económica ...............................................................................................................12 1.5.3. Social .......................................................................................................................13 1.5.4. Académica ...............................................................................................................13 CAPÍTULO II .............................................................................................................................14 MATERIALES Y MÉTODOS .....................................................................................................14 2.1. Población y Muestra .......................................................................................................14 2.1.1. Población .................................................................................................................14 2.1.2. Muestra ....................................................................................................................14 2.2. Técnicas e Instrumentos. ...............................................................................................14 2.2.1. Técnicas. .............................................................................................................14 2.2.2. Instrumentos. .......................................................................................................14 2.3. Fuentes e Informantes. ...............................................................................................15 2.3.1. Fuentes................................................................................................................15 2.3.2. Informantes. .........................................................................................................15 7 CAPITULO III ............................................................................................................................16 MARCO TEORICO ...................................................................................................................16 3.1. Antecedentes del Proyecto. ........................................................................................16 3.1.1. Internacionales .........................................................................................................16 3.1.2. Nacionales ...............................................................................................................17 3.1.3. Locales ....................................................................................................................18 3.2. Marco teórico ..............................................................................................................18 3.2.1. Data Warehouse ..................................................................................................18 3.2.2. Data Warehousing ...............................................................................................18 3.2.3. Arquitectura de un Data Warehouse ....................................................................19 3.2.4. Indicadores ..........................................................................................................20 3.2.5. Metodología de Barquim ......................................................................................21 3.2.6. Modelo Dimensional ............................................................................................25 3.2.7. Medidas ...............................................................................................................26 3.2.8. Dimensiones ........................................................................................................26 3.2.9. Esquema Estrella .................................................................................................27 3.2.10. Esquema Copo de Nieve..................................................................................27 CAPITULO IV ...........................................................................................................................29 DESARROLLO METADOLOGICO............................................................................................29 a) Desarrollo del Plan .........................................................................................................29 b) Revelar los Requerimientos de Usuario..........................................................................30 c) Identificar los Sistemas Fuente .......................................................................................30 d) Modelar los Datos ..........................................................................................................30 e) Diseñar la Base de Datos del Data Warehouse ..............................................................31 f) Limpiar los Datos............................................................................................................32 g) Extracción de Datos .......................................................................................................33 h) Transformar los Datos ....................................................................................................37 i) Cargar el Data Warehouse .............................................................................................39 REFERENCIAS ........................................................................................................................41 8 INTRODUCCION Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseñado puede provocar importantes problemas operativos. En un sistema operacional el rango de valores de los datos o la calidad de éstos pueden no coincidir con las expectativas de los diseñadores a la hora de especificarse las reglas de validación o transformación. Es recomendable realizar un examen completo de la validez de los del sistema de origen durante el análisis para identificar las condiciones necesarias para que los datos puedan ser tratados adecuadamente por las reglas de transformación especificadas. Esto conducirá a una modificación de las reglas de validación implementadas en el proceso ETL. Normalmente los data warehouse son alimentados de manera asíncrona desde distintas fuentes, que sirven a propósitos muy diferentes. El proceso ETL es clave para lograr que los datos extraídos asíncronamente de orígenes heterogéneos se integren finalmente en un entorno homogéneo. 9 CAPÍTULO I GENERALIDADES DEL PROYECTO 1.1 Planteamiento del Problema 1.1.1. Realidad Problemática En la década de los noventa Visual Fox Pro se popularizó enormemente [1] es por eso que gran parte de los desarrolladores se impulsaron a desarrollar en esta nueva tecnología; la Oficina de Registro Técnico implantó un sistema para registrar los datos de los alumnos para la obtención de su título y grados. A la par de ese sistema se implementó otro sistema desarrollado en PHP y con base de datos en MYSQL, para que todas las sub-oficinas puedan consultar datos de personas egresadas de la Universidad Nacional de Trujillo, así mismo la Oficina de Registro Técnico tiene una lista de todos los alumnos matriculados en los últimos años pero estos se encuentran en documentos de EXCEL. La ORT tiene 3 sub-oficinas dentro de ella trabajando en el proceso de registro de los alumnos. En estas oficinas como antes se mencionó se utilizan diferentes aplicaciones independientes una de otra. Siempre que se requieren generar reportes que integre todos los datos de las diferentes aplicaciones, tardan mucho tiempo, existen errores y por consecuencia no siempre son exactos. 1.1.2. Antecedentes del Problema En la Oficina de Registro Técnico de la Universidad Nacional de Trujillo no se ha aplicado una Solución para la integración de su Data, con fines de integrar los diferentes repositorios de datos que tiene para obtener información sobre el registro de los alumnos en dicha Oficina. Tampoco se han desarrollado proyectos de esta naturaleza en la distintas Oficinas de la Universidad Nacional de Trujillo. 10 1.1.3. Enunciado del Problema ¿Cómo mejorar el proceso de registro de los alumnos en la UNT a través de una Solución informática para la Homologación e Integración de datos? 1.2. Hipótesis Las organizaciones requieren integrar todos sus datos para: Reducción de tiempo en la generalización de reportes especializados que integren diferentes fuentes de datos. Disminución de la redundancia de datos. Entonces podemos establecer la siguiente hipótesis: El Desarrollo de una Solución Informática de Homologación e Integración de datos permite mejorar el proceso de registro de alumnos en la Universidad Nacional de Trujillo. 1.3. Variables de Estudio VARIABLES DEPENDIENTE INDEPENDIENTE Proceso de Registro de alumnos. INDICADORES Tiempo de cada registro de alumno. Número de Alumnos. Solución Informática de Homologación e Rapidez en la generación reportes. Integración de datos. Rapidez en la integración de datos. N° de repositorios de datos. 11 1.4. Objetivos 1.4.1 Objetivos General Desarrollar una Solución Informática para la Homologación e Integración de datos para mejorar el proceso de registro de alumnos en la Universidad Nacional de Trujillo. 1.4.2 Objetivos Específicos •Realizar una investigación bibliográfica para recolectar datos referentes al tema de investigación. •Analizar la información recopilada para determinar el modelo lógico del Data Warehouse que realizaremos para la integración de todos los datos. •Diseñar e implementar un Data Warehouse para la integración de los datos. •Aumentar la integración de datos de distintos repositorios de datos. •Disminuir el tiempo en la generación de reportes especializados para la Oficina. 1.5. Justificación del Estudio 1.5.1. Tecnológica Las computadoras que se utilizarán serán las mismas que operan en la Oficina de Registro Técnico así también el Sistema Operativo será el mismo. Se utilizará una PC que hará las veces de servidor de reportes y de base de datos en la cual se integrarán todas las fuentes de datos de las diferentes aplicaciones. 1.5.2. Económica Con esta Solución Informática se reducirán los costos en la compra de una aplicación para la integración de los datos de las diferentes aplicaciones manejadas en la Oficina de Registro Técnico y de equipos especializados como la de un servidor, ya que una PC puede simular esto. 12 1.5.3. Social La Solución Informática traerá beneficios para el personal operativo que labora en la Oficina de Registro Técnico y a las personas que requieran algún tipo de información de esta oficina ya que permitirá la generación de reportes especializados y consultas de una manera más rápida y eficiente. 1.5.4. Académica La presente Investigación permite integrar las diferentes disciplinas cursadas durante la carrera profesional de Informática; en consecuencia de ello, la aplicación de los conocimientos adquiridos se pretende ver materializados en la Oficina Registro Técnico 13 CAPÍTULO II MATERIALES Y MÉTODOS 2.1. Población y Muestra Para la investigación se tomó un nivel de confianza del 95% y de un intervalo de confianza del 5% 2.1.1. Población Nuestra población comprende a todos los alumnos matriculados en los años 2010, 2011, 2012,2014 y docentes de la Universidad Nacional de Trujillo. 2.1.2. Muestra Se tomará como muestra a todos los alumnos matriculados en el año 2010 en la Universidad Nacional de Trujillo, teniendo en cuenta las distintas Sedes de la Universidad. 2.2. Técnicas e Instrumentos. 2.2.1. Técnicas. Entrevistas a los trabajadores de la Oficina de Registro Técnico de la Universidad Nacional de Trujillo. 2.2.2. Instrumentos. Entrevistas Cuestionarios 14 2.3. Fuentes e Informantes. 2.3.1. Fuentes. Las fuentes para este trabajo de Tesis fueron libros, revistas, y el uso del Internet. 2.3.2. Informantes. Los trabajadores de la Oficina de Registro Técnico de la Universidad Nacional de Trujillo. 15 CAPITULO III MARCO TEORICO 3.1. Antecedentes del Proyecto. 3.1.1. Internacionales Título: Estudio de la aplicación de Inteligencia de Negocios en los procesos académicos. Caso de estudio “Universidad Politécnica Salesiana” Autores: Gabriela Paola Basantes Espinoza Daniel Eduardo López Galarza Resumen: La Universidad Politécnica de Salesiana [2] cuenta son un software que sirve para almacenar, y consultar información en el área académica, es decir, matrícula, calificaciones, brindando reportes a los directivos. La problemática es que al pasar el tiempo la información almacenada va adquiriendo gran volumen, para lo cual se propuso una aplicación de inteligencia de negocios para los diferentes procesos académicos de dicha Universidad. Aporte: Este proyecto de tesis realizó todos los pasos de un proyecto de Inteligencia de Negocios : diseño y construcción del Data Warehouse y los Data Marts, creación y programación de los procesos ETL, creación de los cubos ,creación de los informes y finalmente implementación de la plataforma BI. 16 3.1.2. Nacionales Título Análisis, Diseño e Implementación de un Data Warehouse de soporte de Decisiones para un Hospital del Sistema de Salud Público. Autores: Álvaro Villanueva Ojeda Resumen: Las entidades de salud del sector público deben de tomar decisiones orientadas a satisfacer la demanda de servicios de los pacientes que acuden a los centros de salud y es por ello muy importante buscar mejorar los sistemas de información ligados a estos procesos de decisión. El presente tema de tesis[3] propone la construcción de un Data Warehouse que servirá de apoyo en el proceso de toma de decisiones del directorio del hospital, el cual, decidirá en base a datos históricos y cuadros generados en línea. Un sistema de este tipo permitirá reducir carga de pabellones, optimizar el uso del personal, mejorar la atención al paciente, mejorar la calidad de servicio otorgada, brindar un servicio especializado a los pacientes, gestionar recursos, conocer el estado actual de los pacientes, identificar fallas en los procesos, realizar auditorías y realizar notificaciones en tiempo real, entre otras cosas. Aporte: Se ha tomado en cuenta esta tesis por tener relación con el tema planteado para la investigación, como el diseño y construcción del Data Warehouse y los Data Marts, creación de los procesos de ETL, creación de cubos OLAP y generación de los informes. 17 3.1.3. Locales Título: Implementación de un Data Warehouse para el Instituto Geográfico Milita Autores: Andrés Fabián Duque Gálvez Resumen: El proyecto de esta tesis está orientado a proporcionar una herramienta informática que permita soportar la toma de decisiones mediante la generación de información analítica y de manera oportuna dentro del Instituto Geográfico Militar, en el cual se desarrollará un ambiente de Data Warehouse con el fin de suplir falencias. Aporte: Se ha tomado en cuenta esta tesis porque abarca procesos como el ETL y el diseño de un Data Warehouse para el Instituto Geográfico Militar. 3.2. Marco teórico 3.2.1. Data Warehouse El Data Warehouse es una colección de datos, orientados a un tema, integrados, no volátiles, variantes en el tiempo, organizados para el apoyo a la toma de decisiones. [4] Es una copia de los datos transaccionales, específicamente diseñada para realizar consultas y análisis. [5] 3.2.2. Data Warehousing El Data Warehousing es el proceso de construir un Data Warehouse, el cual es un Proceso Continuo e Incremental. Transformar datos en conocimiento es un proceso complejo, en el que se transforman e integran los datos. 18 3.2.3. Arquitectura de un Data Warehouse Una arquitectura en forma de telaraña va a originar que el Data Warehouse sea un repositorio independiente, todo esto con la finalidad de que las consultas no afecten el desempeño de los sistemas operacionales. En un Data Warehouse, se tendrá información agregada, información archivada e información granular o detallada. Uno de los problemas al tener niveles de agregación es que se complica la integración. Es por ello que surge el ODS (Operational Data Store), que contiene el mismo nivel de detalle que los sistemas operacionales y tiene la información integrada. Un ODS se utiliza para la toma de decisiones a nivel operacional. Por otro lado, surge la necesidad de proporcionar información a determinados grupos de usuarios, para ello surgen los denominados DataMarts. Dentro de la arquitectura de un Data Warehouse, un DataMart debe alimentarse de un Data Warehouse. De lo contrario, corre el riesgo de ser un componente más en la arquitectura telaraña. 19 3.2.4. Indicadores Un sistema es definido como un conjunto de componentes que trabajan en conjunto, los cuales tienen un objetivo específico. La importancia de la tarea de control radica en evaluar periódicamente si dicho sistema está cumpliendo con lo esperado. Debemos recordar que aquello que no se puede medir, no se puede controlar y para poder medir debemos determinar ciertos valores de referencia. Dichos valores de referencia representan a los indicadores, es decir, la comparación entre el valor obtenido por el sistema vs. el valor del indicador nos revela el estado actual del sistema. Un indicador debemos entenderlo como la evaluación de un signo vital de una organización. 3.2.4.1. Importancia de un Indicador La importancia de un indicador radica en la particularidad de informar al usuario el estado actual del sistema. Si se desea saber el estado actual de la presión en el ser humano, entonces se debería tomar dicha presión con los instrumentos debidos y comparar dichos valores obtenidos contra los valores esperados. Un indicador además de revelar el estado del sistema nos permitirá tomar decisiones preventivas o correctivas de acuerdo a los resultados de las comparaciones entre el valor esperado y el valor obtenido del sistema. 3.2.4.2. Tipos de indicadores Podemos clasificar a los indicadores en los siguientes tipos: Indicadores de Cumplimiento.- Indica el ratio de obtención de una tarea en particular. (Ejemplo : Cumplimiento de elaboración de reportes). Indicadores de Evaluación.- Indica el rendimiento en el desarrollo de una tarea. Indicadores de Eficiencia.- Indica el ratio relacionado con el tiempo invertido en el desarrollo de una tarea. Indicadores de Eficacia.- Indica la capacidad en el desarrollo de una tarea, es decir, el haberlo realizado de manera óptima. 20 Indicadores de Gestión.- Indica la manera en que el proceso se está realizando. Mide la capacidad de administración con respecto a un proceso. Es vital para entender el día a día de la empresa. 3.2.5. Metodología de Barquim La metodología de Barquin, para la construcción de un Data Warehouse consta de una serie de actividades que se deben hacer en cada incremento. Cada actividad tiene determinados objetivos y determinados entregables, los que se detallan a continuación, estas actividades no se deben hacer necesariamente en el orden planteado. a) Desarrollar el Plan Antes de construir se debe haber terminado con la estrategia y la arquitectura del Data Warehouse. En la estrategia, se han definido los objetivos centrales del negocio en función a la visión y misión. Luego, el plan se hace con la finalidad de hacer un listado de actividades detallado que nos permita alcanzar cada uno de los objetivos definidos en la estrategia. Cada incremento estará orientado al logro de uno de los objetivos definidos en la estrategia. El primer paso en la construcción de un incremento del Data Warehouse es desarrollar un plan. Para el desarrollo del plan, debemos tener en cuenta los siguientes aspectos: Definir y establecer los objetivos específicos a ser cumplidos Listar los pasos a ser seguidos Determinar que recursos se necesitarán Personas y habilidades Tecnología Materiales Establecer los costos del proyecto Establecer los cronogramas del proyecto Establecer riesgos y establecer un plan de contingencias b) Revelar los Requerimientos de Usuario Consiste en identificar las necesidades de información específicas de cada área. Las actividades a realizar para un adecuado relevamiento son las siguientes: Identificar los usuarios 21 Las entrevistas a los usuarios deben ser enfocadas al objetivo, breves y deben abordar el tema directamente. Entender los procesos de Negocio. En esto, pueden ayudar los modelos de datos existentes. Listar los requerimientos Entender los requerimientos c) Identificar los Sistemas Fuente Es una actividad complementaria al relevamiento, y está orientada a ver si la información que se necesita para implementar el requerimiento está disponible o no. Para lograrlo, se debe: Estudiar y entender la arquitectura IT Realizar inventario de los sistemas transaccionales existentes Realizar inventario de los sistemas de análisis existentes Investigar fuentes potenciales del Data Warehouse Explorar e investigar fuentes externas a la empresa Explorar los temas de calidad de datos Entender la administración de cambios de los sistemas fuentes d) Modelar los Datos Los modelos de datos se hacen utilizando las técnicas tradicionales para el caso del modelo del Data Warehouse y las técnicas dimensionales para el caso de Data Marts. Determinar si existen modelos de datos y procesos del negocio Revisar y validar los procesos de negocio Determinar si existe un repositorio de datos corporativo, modelos o herramientas e) Diseñar la Base de Datos del Data Warehouse Una de las actividades críticas, en la construcción de un Data Warehouse, es el diseño de la Base de datos. Por ello se recomienda realizar las siguientes tareas: Alinear con los requerimientos del negocio 22 Planear un nivel de staging(escenario) Estimar volúmenes Considerar paralelismo y estrategias de segmentación Así mismo se debe considerar la existencia de las siguientes tecnologías de almacenamiento: Bases de datos relacionales: que son las utilizadas en el mundo Operacional, y que tienen buen desempeño con bases de datos grandes y buenos procesos de backup y restore. Bases de datos multidimensionales: que son de acceso rápido, proporcionan múltiples vistas de la información pero tienen problemas cuando la Base de datos es muy grande. f) Limpiar los Datos Es una tarea ardua que implica procesos de gestión de datos y de cambio en los sistemas de captura, para lograrlo: Conceptualizar los procesos de limpieza de datos Considerar necesidades de limpieza, sincronización y estandarización Establecer métricas de calidad mínima. g) Extraer los Datos Se deben realizar las siguientes actividades: Conceptuar los procesos de extracción Alinear los procesos de extracción al mapeo de datos Determinar el rol del staging área Considerar actividades de transformación y limpieza Escoger la data a extraer y el software de transformación Extraer los datos requeridos y colocarlos en el staging área (o direccionarlos en el data warehouse destino). h) Transformar los Datos Depende del modelo de datos que se haya definido para el Data Warehouse y consiste en: Revisar la visión de los procesos de transformación de datos 23 Detallar y describir las derivaciones necesarias, sumarizaciones y/o otras operaciones Determinar el rol del staging layer Determinar los metadatos Escoger el software de transformación de Datos i) Cargar el Data warehouse Es un proceso que tiene ciertas complicaciones. Consta de las siguientes actividades: Conceptualizar los procesos de carga Desarrollar el plan de carga – Calcular el tiempo – Establecer ventanas – Preparar la infraestructura técnica – Preparar el software y los datos – Desarrollar el plan de contingencia j) Implementar la Metadata En esta actividad, se deben crear los datos acerca de los datos, esto implica la creación de un repositorio que proporcione información que puede ser de tres tipos: Metadatos del negocio, que contienen las reglas del negocio que han definido para el data Warehouse, entidades y atributos. Metadatos técnicos, que contiene los modelos de datos a nivel técnico, así como lo modelos de los procesos de carga. Metadatos operacionales, que son acerca de los procesos del data Warehouse, frecuencia de ejecución, prioridad entre otros. Estos metadatos permitirán administrar el Data Warehouse. k) Establecer los procesos de administración Para administrar el Data Warehouse se debe desarrollar las siguientes actividades: Desarrollar un plan de operación y mantenimiento del Data Warehouse. Establecer un plan de administración de las operaciones de back-end. Establecer un plan de administración de las operaciones de metadata. 24 l) Crear las aplicaciones del Data warehouse Es una de las actividades que tiene especial importancia debido a que permite al usuario el acceso y la exploración de la información que está en el Warehouse. m) Probar y validad el Data warehouse Considerar: Desarrollar un plan de prueba y validación Comprometer a los usuarios finales Establecer parámetros y métricas de prueba Validar la data Reconciliar los principales sistemas de soporte n) Entrenar al Staff y a los usuarios finales Esta tarea es muy importante, pues Data Warehousing es un proceso que implica mucho aprendizaje. Los pasos a seguir son: Determinar los requerimientos de entrenamiento necesario Desarrollar el plan y calendario del entrenamiento Diseñar el contenido del entrenamiento 3.2.6. Modelo Dimensional El modelo dimensional le permite al usuario ver la data mediante múltiples dimensiones, por ejemplo ver las ventas por producto, por tienda, por mes por año. Un modelo dimensional es un modelo simple que muestra medidas, dimensiones y sus relaciones y que puede ser presentado al usuario para verificación. La información deberá ser presentada utilizando etiquetas de negocio que le sean familiares al usuario final. Este modelo puede ser utilizado para crear un esquema físico. Un modelo dimensional se crea para dar respuesta a requerimientos de análisis como el siguiente: “¿Cuáles fueron los 10 productos más vendidos fabricados por la compañía XYZ basados en las ventas totales por sector para cada trimestre de los dos últimos años?”. 25 3.2.7. Medidas Las medidas dicen lo que está ocurriendo en el negocio, son datos cuantitativos acerca de un área temática. Responden a la pregunta ¿Cuánto? o ¿Cuántos?, y generalmente son numéricos. Ejemplos: ¿Qué sectores producen las utilidades más altas en el año? ¿Cuál fue la ganancia por vendedor? ¿Cuántas unidades fueron vendidas por cada producto? Una medida puede basarse en una columna de una tabla del sistema operacional o puede ser calculada, y se almacena en la “Fact table” o tabla de hechos en el Warehouse. 3.2.8. Dimensiones Las dimensiones son los calificadores que dan sentido a las medidas, organizan los datos en base a los componentes de una pregunta, por ejemplo ¿qué?, ¿dónde?, ¿cuándo? Las dimensiones se almacenan en tablas denominadas tablas de dimensiones. 26 3.2.9. Esquema Estrella En las bases de datos usadas para data warehousing, un esquema en estrella es un modelo de datos que tiene una tabla de hechos (o tabla fact) que contiene los datos para el análisis, rodeada de las tablas de dimensiones. Este aspecto, de tabla de hechos (o central) más grande rodeada de radios o tablas más pequeñas es lo que asemeja a una estrella, dándole nombre a este tipo de construcciones. Las tablas de dimensiones tendrán siempre una clave primaria simple, mientras que en la tabla de hechos, la clave principal estará compuesta por las claves principales de las tablas dimensionales. 3.2.10. Esquema Copo de Nieve En las bases de datos utilizadas en data warehousing, un esquema en copo de nieve es una estructura algo más compleja que el esquema en estrella. Se da cuando alguna de las dimensiones se implementa con más de una tabla de datos. La finalidad es normalizar las tablas y así reducir el espacio de almacenamiento al eliminar la redundancia de datos; pero tiene la contrapartida de generar peores rendimientos al tener que crear más tablas 27 de dimensiones y más relaciones entre las tablas (JOINS) lo que tiene un impacto directo sobre el rendimiento. 28 CAPITULO IV DESARROLLO METADOLOGICO a) Desarrollo del Plan Los objetivos que se desean cumplir son: Diseñar e implementar un Data Warehouse para la integración de los datos. Aumentar la integración de datos de distintos repositorios de datos. Disminuir el tiempo en la generación de reportes especializados para la Oficina. Los recursos que se utilizarán serán el Backup de sus Sistema de Titulación echo en Visual FoxPro , un Backup del Sistema de Consultas de Datos echo en PHP con base de datos Mysql, y las hojas de Excel proporcionadas por la Oficina de Cómputo de la Universidad Nacional de Trujillo. Para el desarrollo de toda la metodología solo se necesitará una persona quien será la que integrará todos los datos en un repositorio común para luego a partir de ello elaborar los informes que se requieran. La Tecnología que se utilizará será Microsoft, para ello se hará uso de las herramientas: Integration Services (Para la Integración de Datos) Analysis Services (Para la Elaboración de Cubos) Reporting Services (Para la visualización de los Reportes Especializados) 29 b) Revelar los Requerimientos de Usuario El personal administrativo que labora en la Oficina de Registro Técnico así como Director serán los usuarios finales. Los requerimientos que se tiene en la Oficina de Registro Técnico son: Medir el número de egresados que cuentan con título. Medir el número de alumnos matriculados en las distintas sedes de la Universidad (Sede Principal, El Valle, Huamachuco, etc.) c) Identificar los Sistemas Fuente En la Oficina de Registro Técnico se pudieron identificar tres fuentes de datos que nos servirán para poblar nuestro Data Warehouse, un Sistema está echo en Visual FoxPro el cual tiene una fuente de datos en dBase, el siguiente es un sistema echo en PHP, con Base de Datos en MySql y por último las Hojas de Excel proporcionadas por la Oficina de Registro Técnico las cuales también son consideradas como fuentes de datos. d) Modelar los Datos El principal proceso de Negocio que existe en la ORT es el Registro de los Alumnos, ya sean de pregrado o de postgrado, ellos tienen toda la data de los alumnos que han estudiado en la Universidad, pero el principal problema es que no tienen toda esa data centralizada sino dispersa por las diferentes aplicaciones que se utilizan en la ORT. Es por eso que ya teniendo identificado las fuentes de datos y el proceso de negocio en el cual se enfoca la ORT, se procederá a realizar el diseño del Data Warehouse 30 e) Diseñar la Base de Datos del Data Warehouse El diseño del Data Warehouse para este proyecto teniendo en cuenta los objetivos, los indicadores que van a seguir y el diseño de los repositorios de datos es el que se presenta a continuación: Lo que se busca es diseñar un Data Warehouse adaptable ya que en el futuro se podrían implementar nuevas aplicaciones y tendría este diseño que poder adaptarse a las nuevos repositorios de datos. 31 f) Limpiar los Datos Para la Limpieza de los Datos se optó por crear un Procedimiento Almacenado que limpia todas las tablas de mi Data Warehouse, para luego poblar desde cero otra vez las tablas. Este paso es recomendable ya que si se ejecutase más de una vez el ETL, causaría redundancia en los datos. 32 g) Extracción de Datos La extracción de los datos se realizarán de las Fuentes de Datos (MySql, dBase, Excel) para ello se eligió como herramienta al Integration Services de Visual Studio, por ser una herramienta que cuenta con una gran gama Jobs. Una vez ya teniendo modelado nuestro Data Warehouse se procedió a extraer de los distintos orígenes de datos como dBase y MySql. Se procedió a crear el Origen de Datos para dBase, para esto se ubicó la carpeta donde se encontraba los archivos en DBF, y se creó la conexión. 33 Creándose una nueva Conexión de Origen de Datos. Creándose Conexión con dBase. 34 Para la extracción de Datos de MySql se creó una conexión ODBC, y luego se conectó con ese ODBC. Creándose ODBC para MySql Configuración ODBC para MySql 35 Luego ya de haber creado las conexiones de nuestros Orígenes de Datos, se procede a la extracción de la Data de las distintas fuentes, ya sea dBase, MySql o Excel Extracción de Datos de un Origen en dBase. 36 Extracción de Datos de un Origen en MySql h) Transformar los Datos Para la Transformación de los Datos se tiene que tener en cuenta que muchos de los Tipos de Datos que se encuentran en los Orígenes de Datos cambiarán de Tipo, es por eso que se hace necesario realizar la Transformación de los Datos. Los datos extraídos de los Orígenes tienen como tipo de datos Unicode, es por eso que necesitan de uno o más Jobs para la conversión de los Datos. 37 Transformación de Tipo de Dato Unicode. En este paso no solo se busca la Transformación de los Tipos de Datos, sino también trabajar con los datos de acuerdo a las necesidades para poblar el Data Warehouse 38 i) Cargar el Data Warehouse Para la cargar el Data Warehouse se decidió tener como repositorio final a un repositorio en SQL Server, es por esto que el Data Warehouse esta echo en SQL Server 2008 R2. Para cargar el Data Warehouse se tiene que tener un orden entre los Jobs ya que hay tablas dentro de mi Data Warehouse que tienen dependencias una de otras, es por eso que se tiene que tener un orden al realizar la carga, desde las tablas que tienen menos dependencias hasta las que tienen más dependencias. 39 40 REFERENCIAS 1. William Inmom. Building the Data Warehouse . Four Edition. 2. Daniel Eduardo López Galarza y Gabriela Paola Basantes Espinoza. (2012). Estudio de la aplicación de Inteligencia de Negocios en los procesos académicos caso de estudio “Universidad Politécnica Salesiana”. Tesis de titulación. Ecuador. 3. Álvaro Villanueva Ojeda. (2008). Análisis, Diseño e Implementación de un DataWarehouse de soporte de Decisiones para un Hospital del Sistema de Salud Público. Tesis de titulación. Perú. 4. William Inmom. Building the Data Warehouse . Four Edition.Wiley 5. Ralph Kimball. The Data Warehouse Toolkit, 3rd Edition.Wiley 6. Cibertec. Inteligencia de Negocios. Teoría. 2012 7. ACM. (2014). Business Intelligence/Data Management. http://techpack.acm.org/bi/?searchterm=data+integration Recuperado de 8. ACM. (2014). Virtual Data Integration. Recuperado de http://www.dlp.acm.org/view_lecture.cfm?searchterm=data+integration&lecture_id=743 9. ACM. (2014). Other People’s Data. Recuperado http://cacm.acm.org/magazines/2010/1/55742-other-peoples-data/fulltext de 41