solución informática de homologación e

Anuncio
UNIVERSIDAD NACIONAL DE TRUJILLO
FACULTAD DE CIENCIAS FISICAS Y MATEMATICAS
ESCUELA ACADEMICO PROFESIONAL DE INFORMÁTICA
“SOLUCIÓN INFORMÁTICA DE HOMOLOGACIÓN E INTEGRACIÓN DE DATOS
PARA MEJORAR EL PROCESO DE REGISTRO DE ALUMNOS EN LA
UNIVERSIDAD NACIONAL DE TRUJILLO”
PLAN DE PROYECTO DE TESIS
ELABORADO POR
:
ÁREA DEL PROYECTO:
Saráchaga Díaz, Raúl Martín
[email protected]
Ingeniería de Software
Trujillo, 17 de Diciembre de 2014
1
DEDICATORIA
Dedico la presente tesis a los seres que más amo en este mundo: mis padres, Raúl Alejandro y
Rosa Elizabeth a mis hermanos, Martín Alejandro y Christian Alonso, a mi cuñada y sobrino
Beatriz Colmenares y Matías Alejandro, por ser la fuente de mi inspiración y motivación para
superarme cada día más y así poder luchar para que la vida nos depare un futuro mejor.
El Autor
2
AGRADECIMIENTO
Deseo expresar mis más sinceras muestras de agradecimiento:
Al Señor Jesucristo, mi Señor y Dios, por enseñarme el camino correcto de la vida, guiándome y
fortaleciéndome cada día con su Santo Espíritu.
A mis Padres y Hermanos por creer y confiar siempre en mí, apoyándome en todas las decisiones
que he tomado en la vida y mi fuente de motivación para ser cada día mejor persona y
profesional.
A mis maestros, por sus consejos y por compartir desinteresadamente sus amplios conocimientos
y experiencia.
A mis amigos, por el apoyo y motivación que de ellos he recibido.
El Autor
3
PRESENTACION
Señores Miembros del Jurado:
De conformidad y en cumplimiento con las disposiciones establecidas por el
Reglamento General de Graduados de la Escuela Académico Profesional de Informática de la
Universidad Nacional de Trujillo, para optar el título de Ingeniero Informático, tengo a bien
someter a vuestra consideración el proyecto de tesis titulado:
“Solución Informática de Homologación e Integración de datos para mejorar el Proceso
de Registro de Alumnos en la Universidad Nacional de Trujillo”
Espero que el presente trabajo de investigación sirva de ayuda y/o referencia para
el desarrollo fututo de proyectos que se implementen en la Escuela Académico Profesional de
Informática de la Universidad Nacional de Trujillo y en otros lugares que se hagan uso de las
tecnologías de la información como herramientas de productividad, eficiencia y competitividad.
Trujillo, Diciembre del 2014
Saráchaga Díaz, Raúl Martín
4
RESUMEN
El presente trabajo brinda una Solución Informática para la Homologación e Integración
de datos para el proceso de registro de alumnos de la Universidad Nacional de Trujillo.
La investigación en curso, refiere a la realidad problemática basada en la unidad
encargada del registro de los alumnos en la Oficina de Registro Técnico.
En la actualidad para el proceso de registro de los alumnos se tienen diferentes
aplicaciones, cada aplicación realizada en diferentes lenguajes de programación, con
bases de datos independientes una de otra y las cuales están hechas en diferentes SGBD.
Por tal motivo en el presente trabajo de investigación se describen los pasos necesarios
para la implementación de una Solución Informática, que tomará de distintos repositorios
de datos los cuales están independientes unos de otros y los integrarán en uno solo,
creando así un Data Warehouse para de esta forma disminuir la redundancia de datos, el
costo en la generación de reportes y el costo hombre; para de esta forma mejorar el
proceso del registro de los alumnos.
5
ABSTRACT
This paper provides an IT solution for approval and integration of data for the registration
of students from the National University of Trujillo.
Ongoing research relates to the problematic reality based on the unit responsible for the
registration of students in the Bureau of Technical Registration.
Today for the registration of students have different applications, each application made
in different programming languages, with separate databases from one another and which
are made in different DBMS.
Therefore in this research the necessary steps for implementing an IT solution, which
take different data repositories which are independent of one another are described and
integrated into one, creating a Data Warehouse for the thus reduce data redundancy, the
cost in generating reports and cost man; to thereby improve the process of registration of
students.
6
INDICE
Contenido
INTRODUCCION ....................................................................................................................... 9
CAPÍTULO I ..............................................................................................................................10
GENERALIDADES DEL PROYECTO .......................................................................................10
1.1
Planteamiento del Problema .......................................................................................10
1.1.1. Realidad Problemática .............................................................................................10
1.1.2. Antecedentes del Problema .....................................................................................10
1.1.3. Enunciado del Problema .........................................................................................11
1.2. Hipótesis.........................................................................................................................11
1.3. Variables de Estudio .......................................................................................................11
1.4. Objetivos ........................................................................................................................12
1.4.1 Objetivos General .....................................................................................................12
1.4.2 Objetivos Específicos ................................................................................................12
1.5. Justificación del Estudio .................................................................................................12
1.5.1. Tecnológica..............................................................................................................12
1.5.2. Económica ...............................................................................................................12
1.5.3. Social .......................................................................................................................13
1.5.4. Académica ...............................................................................................................13
CAPÍTULO II .............................................................................................................................14
MATERIALES Y MÉTODOS .....................................................................................................14
2.1. Población y Muestra .......................................................................................................14
2.1.1. Población .................................................................................................................14
2.1.2. Muestra ....................................................................................................................14
2.2.
Técnicas e Instrumentos. ...............................................................................................14
2.2.1.
Técnicas. .............................................................................................................14
2.2.2.
Instrumentos. .......................................................................................................14
2.3.
Fuentes e Informantes. ...............................................................................................15
2.3.1.
Fuentes................................................................................................................15
2.3.2.
Informantes. .........................................................................................................15
7
CAPITULO III ............................................................................................................................16
MARCO TEORICO ...................................................................................................................16
3.1.
Antecedentes del Proyecto. ........................................................................................16
3.1.1. Internacionales .........................................................................................................16
3.1.2. Nacionales ...............................................................................................................17
3.1.3. Locales ....................................................................................................................18
3.2.
Marco teórico ..............................................................................................................18
3.2.1.
Data Warehouse ..................................................................................................18
3.2.2.
Data Warehousing ...............................................................................................18
3.2.3.
Arquitectura de un Data Warehouse ....................................................................19
3.2.4.
Indicadores ..........................................................................................................20
3.2.5.
Metodología de Barquim ......................................................................................21
3.2.6.
Modelo Dimensional ............................................................................................25
3.2.7.
Medidas ...............................................................................................................26
3.2.8.
Dimensiones ........................................................................................................26
3.2.9.
Esquema Estrella .................................................................................................27
3.2.10.
Esquema Copo de Nieve..................................................................................27
CAPITULO IV ...........................................................................................................................29
DESARROLLO METADOLOGICO............................................................................................29
a)
Desarrollo del Plan .........................................................................................................29
b)
Revelar los Requerimientos de Usuario..........................................................................30
c)
Identificar los Sistemas Fuente .......................................................................................30
d)
Modelar los Datos ..........................................................................................................30
e)
Diseñar la Base de Datos del Data Warehouse ..............................................................31
f)
Limpiar los Datos............................................................................................................32
g)
Extracción de Datos .......................................................................................................33
h)
Transformar los Datos ....................................................................................................37
i)
Cargar el Data Warehouse .............................................................................................39
REFERENCIAS ........................................................................................................................41
8
INTRODUCCION
Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseñado puede
provocar importantes problemas operativos.
En un sistema operacional el rango de valores de los datos o la calidad de éstos pueden
no coincidir con las expectativas de los diseñadores a la hora de especificarse las reglas
de validación o transformación. Es recomendable realizar un examen completo de la
validez de los del sistema de origen durante el análisis para identificar las condiciones
necesarias para que los datos puedan ser tratados adecuadamente por las reglas de
transformación especificadas. Esto conducirá a una modificación de las reglas de
validación implementadas en el proceso ETL.
Normalmente los data warehouse son alimentados de manera asíncrona desde distintas
fuentes, que sirven a propósitos muy diferentes. El proceso ETL es clave para lograr que
los datos extraídos asíncronamente de orígenes heterogéneos se integren finalmente en un
entorno homogéneo.
9
CAPÍTULO I
GENERALIDADES DEL PROYECTO
1.1 Planteamiento del Problema
1.1.1. Realidad Problemática
En la década de los noventa Visual Fox Pro se popularizó enormemente [1] es por eso que gran
parte de los desarrolladores se impulsaron a desarrollar en esta nueva tecnología; la Oficina de
Registro Técnico implantó un sistema para registrar los datos de los alumnos para la obtención
de su título y grados. A la par de ese sistema se implementó otro sistema desarrollado en PHP y
con base de datos en MYSQL, para que todas las sub-oficinas puedan consultar datos de
personas egresadas de la Universidad Nacional de Trujillo, así mismo la Oficina de Registro
Técnico tiene una lista de todos los alumnos matriculados en los últimos años pero estos se
encuentran en documentos de EXCEL. La ORT tiene 3 sub-oficinas dentro de ella trabajando en
el proceso de registro de los alumnos. En estas oficinas como antes se mencionó se utilizan
diferentes aplicaciones independientes una de otra. Siempre que se requieren generar reportes
que integre todos los datos de las diferentes aplicaciones, tardan mucho tiempo, existen errores y
por consecuencia no siempre son exactos.
1.1.2. Antecedentes del Problema
En la Oficina de Registro Técnico de la Universidad Nacional de Trujillo no se ha aplicado una
Solución para la integración de su Data, con fines de integrar los diferentes repositorios de datos
que tiene para obtener información sobre el registro de los alumnos en dicha Oficina.
Tampoco se han desarrollado proyectos de esta naturaleza en la distintas Oficinas de la
Universidad Nacional de Trujillo.
10
1.1.3. Enunciado del Problema
¿Cómo mejorar el proceso de registro de los alumnos en la UNT a través de una Solución
informática para la Homologación e Integración de datos?
1.2. Hipótesis
Las organizaciones requieren integrar todos sus datos para:
 Reducción de tiempo en la generalización de reportes especializados que integren diferentes
fuentes de datos.
 Disminución de la redundancia de datos.
Entonces podemos establecer la siguiente hipótesis:

El Desarrollo de una Solución Informática de Homologación e Integración de datos
permite mejorar el proceso de registro de alumnos en la Universidad Nacional de Trujillo.
1.3. Variables de Estudio
VARIABLES
DEPENDIENTE
INDEPENDIENTE
Proceso de Registro de alumnos.
INDICADORES
 Tiempo de cada registro de
alumno.
 Número de Alumnos.
Solución Informática de Homologación e
 Rapidez en la generación reportes.
Integración de datos.
 Rapidez en la integración de
datos.
 N° de repositorios de datos.
11
1.4. Objetivos
1.4.1 Objetivos General
Desarrollar una Solución Informática para la Homologación e Integración de datos para
mejorar el proceso de registro de alumnos en la Universidad Nacional de Trujillo.
1.4.2 Objetivos Específicos
•Realizar una investigación bibliográfica para recolectar datos referentes al tema de
investigación.
•Analizar la información recopilada para determinar el modelo lógico del Data Warehouse
que realizaremos para la integración de todos los datos.
•Diseñar e implementar un Data Warehouse para la integración de los datos.
•Aumentar la integración de datos de distintos repositorios de datos.
•Disminuir el tiempo en la generación de reportes especializados para la Oficina.
1.5. Justificación del Estudio
1.5.1. Tecnológica
Las computadoras que se utilizarán serán las mismas que operan en la Oficina de Registro
Técnico así también el Sistema Operativo será el mismo. Se utilizará una PC que hará las
veces de servidor de reportes y de base de datos en la cual se integrarán todas las fuentes de
datos de las diferentes aplicaciones.
1.5.2. Económica
Con esta Solución Informática se reducirán los costos en la compra de una aplicación para
la integración de los datos de las diferentes aplicaciones manejadas en la Oficina de
Registro Técnico y de equipos especializados como la de un servidor, ya que una PC puede
simular esto.
12
1.5.3. Social
La Solución Informática traerá beneficios para el personal operativo que labora en la
Oficina de Registro Técnico y a las personas que requieran algún tipo de información de
esta oficina ya que permitirá la generación de reportes especializados y consultas de una
manera más rápida y eficiente.
1.5.4. Académica
La presente Investigación permite integrar las diferentes disciplinas cursadas durante la
carrera profesional de Informática; en consecuencia de ello, la aplicación de los
conocimientos adquiridos se pretende ver materializados en la Oficina Registro Técnico
13
CAPÍTULO II
MATERIALES Y MÉTODOS
2.1. Población y Muestra
Para la investigación se tomó un nivel de confianza del 95% y de un intervalo de confianza del
5%
2.1.1. Población
Nuestra población comprende a todos los alumnos matriculados en los años 2010, 2011,
2012,2014 y docentes de la Universidad Nacional de Trujillo.
2.1.2. Muestra
Se tomará como muestra a todos los alumnos matriculados en el año 2010 en la Universidad
Nacional de Trujillo, teniendo en cuenta las distintas Sedes de la Universidad.
2.2. Técnicas e Instrumentos.
2.2.1. Técnicas.
Entrevistas a los trabajadores de la Oficina de Registro Técnico de la Universidad Nacional de
Trujillo.
2.2.2. Instrumentos.
 Entrevistas
 Cuestionarios
14
2.3. Fuentes e Informantes.
2.3.1. Fuentes.
Las fuentes para este trabajo de Tesis fueron libros, revistas, y el uso del Internet.
2.3.2. Informantes.
Los trabajadores de la Oficina de Registro Técnico de la Universidad Nacional de
Trujillo.
15
CAPITULO III
MARCO TEORICO
3.1. Antecedentes del Proyecto.
3.1.1. Internacionales
Título:
Estudio de la aplicación de Inteligencia de Negocios en los procesos académicos. Caso de
estudio “Universidad Politécnica Salesiana”
Autores:
Gabriela Paola Basantes Espinoza
Daniel Eduardo López Galarza
Resumen:
La Universidad Politécnica de Salesiana [2] cuenta son un software que sirve para
almacenar, y consultar información en el área académica, es decir, matrícula,
calificaciones, brindando reportes a los directivos. La problemática es que al pasar el
tiempo la información almacenada va adquiriendo gran volumen, para lo cual se propuso
una aplicación de inteligencia de negocios para los diferentes procesos académicos de
dicha Universidad.
Aporte:
Este proyecto de tesis realizó todos los pasos de un proyecto de Inteligencia de Negocios
: diseño y construcción del Data Warehouse y los Data Marts, creación y programación
de los procesos ETL, creación de los cubos ,creación de los informes y finalmente
implementación de la plataforma BI.
16
3.1.2. Nacionales
Título
Análisis, Diseño e Implementación de un Data Warehouse de soporte de Decisiones para
un Hospital del Sistema de Salud Público.
Autores:
Álvaro Villanueva Ojeda
Resumen:
Las entidades de salud del sector público deben de tomar decisiones orientadas a
satisfacer la demanda de servicios de los pacientes que acuden a los centros de salud y es
por ello muy importante buscar mejorar los sistemas de información ligados a estos
procesos de decisión. El presente tema de tesis[3] propone la construcción de un Data
Warehouse que servirá de apoyo en el proceso de toma de decisiones del directorio del
hospital, el cual, decidirá en base a datos históricos y cuadros generados en línea.
Un sistema de este tipo permitirá reducir carga de pabellones, optimizar el uso del
personal, mejorar la atención al paciente, mejorar la calidad de servicio otorgada, brindar
un servicio especializado a los pacientes, gestionar recursos, conocer el estado actual de
los pacientes, identificar fallas en los procesos, realizar auditorías y realizar
notificaciones en tiempo real, entre otras cosas.
Aporte:
Se ha tomado en cuenta esta tesis por tener relación con el tema planteado para la
investigación, como el diseño y construcción del Data Warehouse y los Data Marts,
creación de los procesos de ETL, creación de cubos OLAP y generación de los informes.
17
3.1.3. Locales
Título:
Implementación de un Data Warehouse para el Instituto Geográfico Milita
Autores:
Andrés Fabián Duque Gálvez
Resumen:
El proyecto de esta tesis está orientado a proporcionar una herramienta informática que
permita soportar la toma de decisiones mediante la generación de información analítica y
de manera oportuna dentro del Instituto Geográfico Militar, en el cual se desarrollará un
ambiente de Data Warehouse con el fin de suplir falencias.
Aporte:
Se ha tomado en cuenta esta tesis porque abarca procesos como el ETL y el diseño de un
Data Warehouse para el Instituto Geográfico Militar.
3.2. Marco teórico
3.2.1. Data Warehouse
El Data Warehouse es una colección de datos, orientados a un tema, integrados, no
volátiles, variantes en el tiempo, organizados para el apoyo a la toma de decisiones. [4]
Es una copia de los datos transaccionales, específicamente diseñada para realizar
consultas y análisis. [5]
3.2.2. Data Warehousing
El Data Warehousing es el proceso de construir un Data Warehouse, el cual es un
Proceso Continuo e Incremental. Transformar datos en conocimiento es un proceso
complejo, en el que se transforman e integran los datos.
18
3.2.3. Arquitectura de un Data Warehouse
Una arquitectura en forma de telaraña va a originar que el Data Warehouse sea un
repositorio independiente, todo esto con la finalidad de que las consultas no afecten el
desempeño de los sistemas operacionales.
En un Data Warehouse, se tendrá información agregada, información archivada e
información granular o detallada.
Uno de los problemas al tener niveles de agregación es que se complica la integración. Es
por ello que surge el ODS (Operational Data Store), que contiene el mismo nivel de
detalle que los sistemas operacionales y tiene la información integrada. Un ODS se utiliza
para la toma de decisiones a nivel operacional.
Por otro lado, surge la necesidad de proporcionar información a determinados grupos de
usuarios, para ello surgen los denominados DataMarts. Dentro de la arquitectura de un
Data Warehouse, un DataMart debe alimentarse de un Data Warehouse. De lo contrario,
corre el riesgo de ser un componente más en la arquitectura telaraña.
19
3.2.4. Indicadores
Un sistema es definido como un conjunto de componentes que trabajan en conjunto, los
cuales tienen un objetivo específico. La importancia de la tarea de control radica en
evaluar periódicamente si dicho sistema está cumpliendo con lo esperado. Debemos
recordar que aquello que no se puede medir, no se puede controlar y para poder medir
debemos determinar ciertos valores de referencia.
Dichos valores de referencia representan a los indicadores, es decir, la comparación entre
el valor obtenido por el sistema vs. el valor del indicador nos revela el estado actual del
sistema. Un indicador debemos entenderlo como la evaluación de un signo vital de una
organización.
3.2.4.1. Importancia de un Indicador
La importancia de un indicador radica en la particularidad de informar al usuario el
estado actual del sistema.
Si se desea saber el estado actual de la presión en el ser humano, entonces se debería
tomar dicha presión con los instrumentos debidos y comparar dichos valores obtenidos
contra los valores esperados.
Un indicador además de revelar el estado del sistema nos permitirá tomar decisiones
preventivas o correctivas de acuerdo a los resultados de las comparaciones entre el valor
esperado y el valor obtenido del sistema.
3.2.4.2. Tipos de indicadores
Podemos clasificar a los indicadores en los siguientes tipos:
Indicadores de Cumplimiento.- Indica el ratio de obtención de una tarea en particular.
(Ejemplo : Cumplimiento de elaboración de reportes).
Indicadores de Evaluación.- Indica el rendimiento en el desarrollo de una tarea.
Indicadores de Eficiencia.- Indica el ratio relacionado con el tiempo invertido en el
desarrollo de una tarea.
Indicadores de Eficacia.- Indica la capacidad en el desarrollo de una tarea, es decir, el
haberlo realizado de manera óptima.
20
Indicadores de Gestión.- Indica la manera en que el proceso se está realizando. Mide la
capacidad de administración con respecto a un proceso. Es vital para entender el día a día
de la empresa.
3.2.5. Metodología de Barquim
La metodología de Barquin, para la construcción de un Data Warehouse consta de una
serie de actividades que se deben hacer en cada incremento. Cada actividad tiene
determinados objetivos y determinados entregables, los que se detallan a continuación,
estas actividades no se deben hacer necesariamente en el orden planteado.
a) Desarrollar el Plan
Antes de construir se debe haber terminado con la estrategia y la arquitectura del Data
Warehouse. En la estrategia, se han definido los objetivos centrales del negocio en
función a la visión y misión. Luego, el plan se hace con la finalidad de hacer un listado de
actividades detallado que nos permita alcanzar cada uno de los objetivos definidos en la
estrategia.
Cada incremento estará orientado al logro de uno de los objetivos definidos en la
estrategia. El primer paso en la construcción de un incremento del Data Warehouse es
desarrollar un plan. Para el desarrollo del plan, debemos tener en cuenta los siguientes
aspectos:









Definir y establecer los objetivos específicos a ser cumplidos
Listar los pasos a ser seguidos
Determinar que recursos se necesitarán
Personas y habilidades
Tecnología
Materiales
Establecer los costos del proyecto
Establecer los cronogramas del proyecto
Establecer riesgos y establecer un plan de contingencias
b) Revelar los Requerimientos de Usuario
Consiste en identificar las necesidades de información específicas de cada área.
Las actividades a realizar para un adecuado relevamiento son las siguientes:
 Identificar los usuarios
21
 Las entrevistas a los usuarios deben ser enfocadas al objetivo, breves y deben abordar
el tema directamente.
 Entender los procesos de Negocio. En esto, pueden ayudar los modelos de datos
existentes.
 Listar los requerimientos
 Entender los requerimientos
c) Identificar los Sistemas Fuente
Es una actividad complementaria al relevamiento, y está orientada a ver si la información
que se necesita para implementar el requerimiento está disponible o no. Para lograrlo, se
debe:







Estudiar y entender la arquitectura IT
Realizar inventario de los sistemas transaccionales existentes
Realizar inventario de los sistemas de análisis existentes
Investigar fuentes potenciales del Data Warehouse
Explorar e investigar fuentes externas a la empresa
Explorar los temas de calidad de datos
Entender la administración de cambios de los sistemas fuentes
d) Modelar los Datos
Los modelos de datos se hacen utilizando las técnicas tradicionales para el caso del
modelo del Data Warehouse y las técnicas dimensionales para el caso de Data Marts.
 Determinar si existen modelos de datos y procesos del negocio
 Revisar y validar los procesos de negocio
 Determinar si existe un repositorio de datos corporativo, modelos o herramientas
e) Diseñar la Base de Datos del Data Warehouse
Una de las actividades críticas, en la construcción de un Data Warehouse, es el diseño de
la Base de datos. Por ello se recomienda realizar las siguientes tareas:
 Alinear con los requerimientos del negocio
22
 Planear un nivel de staging(escenario)
 Estimar volúmenes
 Considerar paralelismo y estrategias de segmentación
Así mismo se debe considerar la existencia de las siguientes tecnologías de
almacenamiento:
Bases de datos relacionales: que son las utilizadas en el mundo Operacional, y que tienen
buen desempeño con bases de datos grandes y buenos procesos de backup y restore.
Bases de datos multidimensionales: que son de acceso rápido, proporcionan múltiples
vistas de la información pero tienen problemas cuando la Base de datos es muy grande.
f) Limpiar los Datos
Es una tarea ardua que implica procesos de gestión de datos y de cambio en los sistemas
de captura, para lograrlo:
 Conceptualizar los procesos de limpieza de datos
 Considerar necesidades de limpieza, sincronización y estandarización
 Establecer métricas de calidad mínima.
g) Extraer los Datos
Se deben realizar las siguientes actividades:






Conceptuar los procesos de extracción
Alinear los procesos de extracción al mapeo de datos
Determinar el rol del staging área
Considerar actividades de transformación y limpieza
Escoger la data a extraer y el software de transformación
Extraer los datos requeridos y colocarlos en el staging área (o direccionarlos en el
data warehouse destino).
h) Transformar los Datos
Depende del modelo de datos que se haya definido para el Data Warehouse y consiste en:
 Revisar la visión de los procesos de transformación de datos
23




Detallar y describir las derivaciones necesarias, sumarizaciones y/o otras operaciones
Determinar el rol del staging layer
Determinar los metadatos
Escoger el software de transformación de Datos
i) Cargar el Data warehouse
Es un proceso que tiene ciertas complicaciones. Consta de las siguientes actividades:
 Conceptualizar los procesos de carga
 Desarrollar el plan de carga
– Calcular el tiempo
– Establecer ventanas
– Preparar la infraestructura técnica
– Preparar el software y los datos
– Desarrollar el plan de contingencia
j) Implementar la Metadata
En esta actividad, se deben crear los datos acerca de los datos, esto implica la creación de
un repositorio que proporcione información que puede ser de tres tipos:
 Metadatos del negocio, que contienen las reglas del negocio que han definido para el data
Warehouse, entidades y atributos.
 Metadatos técnicos, que contiene los modelos de datos a nivel técnico, así como lo
modelos de los procesos de carga.
 Metadatos operacionales, que son acerca de los procesos del data Warehouse, frecuencia
de ejecución, prioridad entre otros. Estos metadatos permitirán administrar el Data
Warehouse.
k) Establecer los procesos de administración
Para administrar el Data Warehouse se debe desarrollar las siguientes actividades:
 Desarrollar un plan de operación y mantenimiento del Data Warehouse.
 Establecer un plan de administración de las operaciones de back-end.
 Establecer un plan de administración de las operaciones de metadata.
24
l) Crear las aplicaciones del Data warehouse
Es una de las actividades que tiene especial importancia debido a que permite al usuario
el acceso y la exploración de la información que está en el Warehouse.
m) Probar y validad el Data warehouse
Considerar:





Desarrollar un plan de prueba y validación
Comprometer a los usuarios finales
Establecer parámetros y métricas de prueba
Validar la data
Reconciliar los principales sistemas de soporte
n) Entrenar al Staff y a los usuarios finales
Esta tarea es muy importante, pues Data Warehousing es un proceso que implica mucho
aprendizaje. Los pasos a seguir son:
 Determinar los requerimientos de entrenamiento necesario
 Desarrollar el plan y calendario del entrenamiento
 Diseñar el contenido del entrenamiento
3.2.6. Modelo Dimensional
El modelo dimensional le permite al usuario ver la data mediante múltiples dimensiones,
por ejemplo ver las ventas por producto, por tienda, por mes por año.
Un modelo dimensional es un modelo simple que muestra medidas, dimensiones y sus
relaciones y que puede ser presentado al usuario para verificación. La información deberá
ser presentada utilizando etiquetas de negocio que le sean familiares al usuario final. Este
modelo puede ser utilizado para crear un esquema físico.
Un modelo dimensional se crea para dar respuesta a requerimientos de análisis como el
siguiente: “¿Cuáles fueron los 10 productos más vendidos fabricados por la compañía
XYZ basados en las ventas totales por sector para cada trimestre de los dos últimos
años?”.
25
3.2.7. Medidas
Las medidas dicen lo que está ocurriendo en el negocio, son datos cuantitativos acerca de
un área temática. Responden a la pregunta ¿Cuánto? o ¿Cuántos?, y generalmente son
numéricos.
Ejemplos:
 ¿Qué sectores producen las utilidades más altas en el año?
 ¿Cuál fue la ganancia por vendedor?
 ¿Cuántas unidades fueron vendidas por cada producto?
Una medida puede basarse en una columna de una tabla del sistema operacional o puede
ser calculada, y se almacena en la “Fact table” o tabla de hechos en el Warehouse.
3.2.8. Dimensiones
Las dimensiones son los calificadores que dan sentido a las medidas, organizan los datos
en base a los componentes de una pregunta, por ejemplo ¿qué?, ¿dónde?, ¿cuándo?
Las dimensiones se almacenan en tablas denominadas tablas de dimensiones.
26
3.2.9. Esquema Estrella
En las bases de datos usadas para data warehousing, un esquema en estrella es un modelo
de datos que tiene una tabla de hechos (o tabla fact) que contiene los datos para el
análisis, rodeada de las tablas de dimensiones. Este aspecto, de tabla de hechos (o central)
más grande rodeada de radios o tablas más pequeñas es lo que asemeja a una estrella,
dándole nombre a este tipo de construcciones.
Las tablas de dimensiones tendrán siempre una clave primaria simple, mientras que en la
tabla de hechos, la clave principal estará compuesta por las claves principales de las
tablas dimensionales.
3.2.10.
Esquema Copo de Nieve
En las bases de datos utilizadas en data warehousing, un esquema en copo de nieve es
una estructura algo más compleja que el esquema en estrella. Se da cuando alguna de las
dimensiones se implementa con más de una tabla de datos. La finalidad es normalizar las
tablas y así reducir el espacio de almacenamiento al eliminar la redundancia de datos;
pero tiene la contrapartida de generar peores rendimientos al tener que crear más tablas
27
de dimensiones y más relaciones entre las tablas (JOINS) lo que tiene un impacto directo
sobre el rendimiento.
28
CAPITULO IV
DESARROLLO METADOLOGICO
a) Desarrollo del Plan
Los objetivos que se desean cumplir son:
 Diseñar e implementar un Data Warehouse para la integración de los datos.
 Aumentar la integración de datos de distintos repositorios de datos.
 Disminuir el tiempo en la generación de reportes especializados para la Oficina.
Los recursos que se utilizarán serán el Backup de sus Sistema de Titulación echo en
Visual FoxPro , un Backup del Sistema de Consultas de Datos echo en PHP con base de
datos Mysql, y las hojas de Excel proporcionadas por la Oficina de Cómputo de la
Universidad Nacional de Trujillo.
Para el desarrollo de toda la metodología solo se necesitará una persona quien será la que
integrará todos los datos en un repositorio común para luego a partir de ello elaborar los
informes que se requieran.
La Tecnología que se utilizará será Microsoft, para ello se hará uso de las herramientas:
 Integration Services (Para la Integración de Datos)
 Analysis Services (Para la Elaboración de Cubos)
 Reporting Services (Para la visualización de los Reportes Especializados)
29
b) Revelar los Requerimientos de Usuario
El personal administrativo que labora en la Oficina de Registro Técnico así como
Director serán los usuarios finales.
Los requerimientos que se tiene en la Oficina de Registro Técnico son:
 Medir el número de egresados que cuentan con título.
 Medir el número de alumnos matriculados en las distintas sedes de la Universidad
(Sede Principal, El Valle, Huamachuco, etc.)

c) Identificar los Sistemas Fuente
En la Oficina de Registro Técnico se pudieron identificar tres fuentes de datos que nos
servirán para poblar nuestro Data Warehouse, un Sistema está echo en Visual FoxPro el
cual tiene una fuente de datos en dBase, el siguiente es un sistema echo en PHP, con
Base de Datos en MySql y por último las Hojas de Excel proporcionadas por la Oficina
de Registro Técnico las cuales también son consideradas como fuentes de datos.
d) Modelar los Datos
El principal proceso de Negocio que existe en la ORT es el Registro de los Alumnos, ya
sean de pregrado o de postgrado, ellos tienen toda la data de los alumnos que han
estudiado en la Universidad, pero el principal problema es que no tienen toda esa data
centralizada sino dispersa por las diferentes aplicaciones que se utilizan en la ORT.
Es por eso que ya teniendo identificado las fuentes de datos y el proceso de negocio en el
cual se enfoca la ORT, se procederá a realizar el diseño del Data Warehouse
30
e) Diseñar la Base de Datos del Data Warehouse
El diseño del Data Warehouse para este proyecto teniendo en cuenta los objetivos, los
indicadores que van a seguir y el diseño de los repositorios de datos es el que se presenta
a continuación:
Lo que se busca es diseñar un Data Warehouse adaptable ya que en el futuro se podrían
implementar nuevas aplicaciones y tendría este diseño que poder adaptarse a las nuevos
repositorios de datos.
31
f) Limpiar los Datos
Para la Limpieza de los Datos se optó por crear un Procedimiento Almacenado que
limpia todas las tablas de mi Data Warehouse, para luego poblar desde cero otra vez las
tablas. Este paso es recomendable ya que si se ejecutase más de una vez el ETL, causaría
redundancia en los datos.
32
g) Extracción de Datos
La extracción de los datos se realizarán de las Fuentes de Datos (MySql, dBase, Excel)
para ello se eligió como herramienta al Integration Services de Visual Studio, por ser una
herramienta que cuenta con una gran gama Jobs.
Una vez ya teniendo modelado nuestro Data Warehouse se procedió a extraer de los
distintos orígenes de datos como dBase y MySql.
Se procedió a crear el Origen de Datos para dBase, para esto se ubicó la carpeta donde se
encontraba los archivos en DBF, y se creó la conexión.
33
Creándose una nueva Conexión de Origen de Datos.
Creándose Conexión con dBase.
34
Para la extracción de Datos de MySql se creó una conexión ODBC, y luego se conectó
con ese ODBC.
Creándose ODBC para MySql
Configuración ODBC para MySql
35
Luego ya de haber creado las conexiones de nuestros Orígenes de Datos, se procede a la
extracción de la Data de las distintas fuentes, ya sea dBase, MySql o Excel
Extracción de Datos de un Origen en dBase.
36
Extracción de Datos de un Origen en MySql
h) Transformar los Datos
Para la Transformación de los Datos se tiene que tener en cuenta que muchos de los
Tipos de Datos que se encuentran en los Orígenes de Datos cambiarán de Tipo, es por eso
que se hace necesario realizar la Transformación de los Datos.
Los datos extraídos de los Orígenes tienen como tipo de datos Unicode, es por eso que
necesitan de uno o más Jobs para la conversión de los Datos.
37
Transformación de Tipo de Dato Unicode.
En este paso no solo se busca la Transformación de los Tipos de Datos, sino también
trabajar con los datos de acuerdo a las necesidades para poblar el Data Warehouse
38
i) Cargar el Data Warehouse
Para la cargar el Data Warehouse se decidió tener como repositorio final a un repositorio
en SQL Server, es por esto que el Data Warehouse esta echo en SQL Server 2008 R2.
Para cargar el Data Warehouse se tiene que tener un orden entre los Jobs ya que hay
tablas dentro de mi Data Warehouse que tienen dependencias una de otras, es por eso que
se tiene que tener un orden al realizar la carga, desde las tablas que tienen menos
dependencias hasta las que tienen más dependencias.
39
40
REFERENCIAS
1. William Inmom. Building the Data Warehouse . Four Edition.
2.
Daniel Eduardo López Galarza y Gabriela Paola Basantes Espinoza. (2012). Estudio de la
aplicación de Inteligencia de Negocios en los procesos académicos caso de estudio
“Universidad Politécnica Salesiana”. Tesis de titulación. Ecuador.
3. Álvaro Villanueva Ojeda. (2008). Análisis, Diseño e Implementación de un DataWarehouse
de soporte de Decisiones para un Hospital del Sistema de Salud Público. Tesis de titulación.
Perú.
4.
William Inmom. Building the Data Warehouse . Four Edition.Wiley
5.
Ralph Kimball. The Data Warehouse Toolkit, 3rd Edition.Wiley
6. Cibertec. Inteligencia de Negocios. Teoría. 2012
7. ACM.
(2014).
Business
Intelligence/Data
Management.
http://techpack.acm.org/bi/?searchterm=data+integration
Recuperado
de
8. ACM.
(2014).
Virtual
Data
Integration.
Recuperado
de
http://www.dlp.acm.org/view_lecture.cfm?searchterm=data+integration&lecture_id=743
9. ACM.
(2014).
Other
People’s
Data.
Recuperado
http://cacm.acm.org/magazines/2010/1/55742-other-peoples-data/fulltext
de
41
Descargar