Exposicion DW - Facultad de Ciencias-UCV

Anuncio
UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS
ESCUELA DE COMPUTACIÓN
[Data Warehouse]
[Administración de Base de Datos]
Gledys Sulbarán C.I. 17.313.160
Vanessa Cobis C.I. 16.223.011
Caracas, Abril de 2009
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
Tabla de Contenidos
1.
INTRODUCCIÓN ............................................................................................................................................. 3
2.
CONCEPTOS BÁSICOS .................................................................................................................................... 4
2.1 ¿QUÉ ES DATA WAREHOUSE O ALMACÉN DE DATOS? .....................................................................................................4
2.2 CONCEPTOS RELACIONADOS A DATAWAREHOUSE ...........................................................................................................5
3.
CARACTERÍSTICAS DE UN DATA WAREHOUSE ............................................................................................... 8
3.1 ORIENTADO A TEMAS: ...............................................................................................................................................9
3.2 VARIANTE EN EL TIEMPO: .........................................................................................................................................10
3.3 NO VOLÁTIL ...........................................................................................................................................................11
3.4 INTEGRADO ...........................................................................................................................................................12
4.
ARQUITECTURA DE UN DW ......................................................................................................................... 14
4.1 COMPONENTES ......................................................................................................................................................14
5.
FORMAS DE MODELAR UN ALMACÉN DE DATOS ......................................................................................... 16
6.
¿QUÉ PUEDEN OFRECER LOS ALMACENES DE DATOS? ................................................................................ 17
7.
LOS OBJETIVOS FUNDAMENTALES DE UN DATA WAREHOUSE .................................................................... 17
8.
BENEFICIOS E INCONVENIENTES ASOCIADOS A UN DW ............................................................................... 19
8.1 BENEFICIOS ...........................................................................................................................................................19
8.2 INCONVENIENTES....................................................................................................................................................20
9.
LAS RAZONES PARA QUE UNA ORGANIZACIÓN IMPLEMENTE UN DW ........................................................ 21
10.
BASE DE DATOS VS DATAWAREHOUSE ................................................................................................... 22
11.
CASO DE ESTUDIO ................................................................................................................................... 23
12.
CONCLUSIONES ....................................................................................................................................... 28
13.
BIBLIOGRAFÍA ......................................................................................................................................... 31
2
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
1. Introducción
Desde que se inició la era de la computadora, las organizaciones han usado los datos
desde sus sistemas operacionales para atender sus necesidades de información.
Algunas proporcionan acceso directo a la información contenida dentro de las
aplicaciones operacionales. Otras, han extraído los datos desde sus bases de datos
operacionales para combinarlos de varias formas no estructuradas, en su intento por
atender a los usuarios en sus necesidades de información.
Ambos métodos han evolucionado a través del tiempo y ahora las organizaciones
manejan una data no limpia e inconsistente, sobre las cuales, en la mayoría de las
veces, se toman decisiones importantes.
El Data Warehouse, es actualmente, el centro de atención de las grandes instituciones,
porque provee un ambiente para que las organizaciones hagan un mejor uso de la
información que está siendo administrada por diversas aplicaciones operacionales.
Un Data Warehouse es una colección de datos en la cual se encuentra integrada la
información de la Institución y que se usa como soporte para el proceso de toma de
decisiones gerenciales.
Las aplicaciones para soporte de decisiones basadas en un data warehousing, pueden
hacer más práctica y fácil la explotación de datos para una mayor eficacia del negocio,
que no se logra cuando se usan sólo los datos que provienen de las aplicaciones
operacionales (que ayudan en la operación de la empresa en sus operaciones
cotidianas), en los que la información se obtiene realizando procesos independientes y
muchas veces complejos.
La innovación de la Tecnología de Información dentro de un ambiente data
warehousing, puede permitir a cualquier organización hacer un uso más óptimo de los
datos, como un ingrediente clave para un proceso de toma de decisiones más efectivo.
Las organizaciones tienen que aprovechar sus recursos de información para crear la
información de la operación del negocio, pero deben considerarse las estrategias
tecnológicas necesarias para la implementación de una arquitectura completa de data
warehouse.
3
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
2. Conceptos Básicos
2.1 ¿Qué es Data Warehouse o Almacén de Datos?
“Conjunto de datos integrados orientados a materia que varían con el tiempo y
que no son transitorios, los cuales soportan el proceso de toma de decisiones
de una administración.” Bill Inmon
“Colección de información corporativa derivada directamente de los sistemas
operacionales y de algunos orígenes de datos externos, con el propósito
específico de soportar la toma de decisiones de la organización. Es un
repositorio de información, que es utilizado ampliamente para diferentes
propósitos dentro de una organización que típicamente debe enfrentarse a la
toma de decisiones y el análisis de tendencias”… Abbey&Corey
“Consiste en el manejo de las herramientas que permiten a los altos directivos
acceder a la información que ellos necesitan para tomar decisiones dentro de su
institución. Estos sistemas transforman los datos en información de fácil y
accesible formato, y la distribuyen donde es necesaria para la toma de
decisiones” Hartman
“Un Data Warehouse es un sistema orientado a temas de negocio, diseñado
especialmente para el soporte en la toma de decisiones del mismo. El ambiente
del Data Warehouse organiza y provee información de forma tal que el usuario
final la entienda con facilidad” Collins
“Una colección de datos orientados a los asuntos del negocio, íntegros,
variables en el tiempo y no volátiles para el soporte del proceso de toma de
decisiones de los altos directivos” Collins
Se puede caracterizar un data warehouse haciendo un contraste de cómo los
datos de un negocio almacenados en un data warehouse, difieren de los datos
operacionales usados por las aplicaciones de producción.
Base de Datos Operacional
Data Warehouse
Datos Operacionales
Datos del negocio para Información
Orientado a la aplicación
Orientado al sujeto
Actual
Actual + histórico
Detallada
Detallada + más resumida
Cambia continuamente
Estable
4
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
2.2 Conceptos relacionados a Datawarehouse

Data Marts: Es un subconjunto del Data Warehouse, usado normalmente para
el análisis parcial de los datos. Ej: El Data Mart de los datos del departamento
ventas y el Data Mart de Inventarios. El objetivo de subdividir está dado por la
complejidad computacional del análisis global de todas las dimensiones del Data
Warehouse y por la necesidad de rapidez.

Data Mining: Es el descubrimiento de conocimiento oculto en las bases de
datos. Relaciones entre estos y tendencias que permiten una toma de
decisiones acertada. Incluye Asociación, Caracterización, Clasificación, Análisis
de Series Cronológicas, etc. (Chaudhuri & Dayal, 1997).

OLTP (Online Transaction Proccesing): Se les llama así a las aplicaciones
orientadas principalmente a la inserción, actualización y eliminación de datos,
diseñada casi siempre usando el modelo Relacional. Estos sistemas están
optimizados para realizar estas operaciones en un tiempo corto.

OLAP (Online Analitical Proccesing): Son los sistemas que se usan para
analizar los datos que las OLTP introducen en la Base de Datos. A diferencia de
los primeros estos casi siempre usan el modelo multidimensional para organizar
los datos en la Base de Datos ya que brindan mejores resultados a la hora del
análisis de estos.

Cubos de información: Los cubos de información o cubos OLAP funcionan
como los cubos de rompecabezas en los juegos, en el juego se trata de armar
los colores y en el data warehouse se trata de organizar los datos por tablas o
relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen
un número indefinido de dimensiones, razón por la cual también reciben el
nombre de hipercubos. Un cubo OLAP contendrá datos de una determinada
variable que se desea analizar, proporcionando una vista lógica de los datos
provistos por el sistema de información hacia el data warehouse, esta vista
estará dispuesta según unas dimensiones y podrá contener información
calculada. El análisis de los datos está basado en las dimensiones del
hipercubo, por lo tanto, se trata de un análisis multidimensional.
5
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
A la información de un cubo puede acceder el ejecutivo mediante "tablas
dinámicas" en una hoja de cálculo o a través de programas personalizados. Las
tablas dinámicas le permiten manipular las vistas (cruces, filtrados, organización,
totales) de la información con mucha facilidad. Las diferentes operaciones que
se pueden realizar con cubos de información se producen con mucha rapidez.
Llevando estos conceptos a un data warehouse, éste es una colección de datos
que está formada por «dimensiones» y «variables», entendiendo como
dimensiones a aquellos elementos que participan en el análisis y variables a los
valores que se desean analizar.
 Dimensiones: Las dimensiones de un cubo son atributos relativos a las
variables, son las perspectivas de análisis de las variables (forman parte de la
tabla de dimensiones). Son catálogos de información complementaria necesaria
para la presentación de los datos a los usuarios, como por ejemplo:
descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la información
general complementaria a cada uno de los registros de la tabla de hechos. Una
dimensión es una característica de un hecho que permite su análisis posterior,
en el proceso de toma de decisiones. (Robert Wrembel & Christian Concilia,
2007).

Variables: También llamadas “indicadores de gestión”, son los datos que
están siendo analizados. Forman parte de la tabla de hechos. Más formalmente,
las variables representan algún aspecto cuantificable o medible de los objetos o
eventos a analizar. Normalmente, las variables son representadas por valores
detallados y numéricos para cada instancia del objeto o evento medido. En
forma contraria, las dimensiones son atributos relativos a la variables, y son
utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas.
Las dimensiones poseen una granularidad menor, tomando como valores un
conjunto de elementos menor que el de las variables; ejemplos de dimensiones
podrían ser: “productos”, “localidades” (o zonas), “el tiempo” (medido en días,
horas, semanas, etc.).
6
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
Ejemplos
Ejemplos de variables podrían ser:
Beneficios
Gastos
Ventas
etc.
Ejemplos de dimensiones podrían ser:
producto (diferentes tipos o denominaciones de productos)
localidades (o provincia, o regiones, o zonas geográficas)
tiempo (medido de diferentes maneras, por horas, por días, por meses, por años, ...)
tipo de cliente (casado/soltero, joven/adulto/anciano, ...)
etc.
Según lo anterior, podríamos construir un cubo de información sobre el indice de
ventas (variable a estudiar) en función del producto vendido, la provincia, el mes del
año y si el cliente está casado o soltero (dimensiones). Tendríamos un cubo de 4
dimensiones.
 Hecho: Llamamos evento o Hecho a una operación que se realiza en el negocio
en un tiempo determinado. Son objeto de análisis para la toma de decisiones. Se
Representan en una caja con su nombre y las medidas que lo caracterizan.
(Robert Wrembel & Christian Concilia, 2007)
Los Hechos están estrechamente relacionados con el tiempo. Los eventos que son
estáticos no tiene objetivo de análisis para este modelo, aunque son muy pocos los
hechos que no ocurren con determinada periodicidad en un negocio. Los hechos están
caracterizados por medidas numéricas como se muestra en el ejemplo de la figura 1: la
cantidad, el precio unitario, el descuento, etc, son las medidas del Hecho (VENTA).
Nota: Fíjese que el producto que se vende, su costo y la fecha de la venta no son
características de esta como lo podrían ser en cualquier diseño relacional. En este
caso, esos serían dimensiones de ese Hecho, por las que, puede ser analizado más
adelante.
 Medida: Una Medida es una propiedad de un Hecho (casi siempre numérica),
que es usada para su análisis. (Robert Wrembel & Christian Concilia, 2007)
Nota: Un hecho puede no poseer ninguna medida. En ese caso se dice que el Hecho
es vacío y solo se usa para contar la aparición de este en el tiempo. Un hecho debe
estar relacionado al menos con una dimensión: “El tiempo”.
7
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
Figura 1
3.
Características de un Data Warehouse
Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los
almacenes de datos, define un data warehouse (almacén de datos) en términos
de las características del Almacén de datos:
“Un Data Warehouse o Almacén de Datos es una colección de datos orientado a
temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del
proceso de toma de decisiones gerenciales”.
8
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
3.1 Orientado a temas:
Una primera característica del data warehouse es que la información se clasifica
en base a los aspectos que son de interés para la empresa. Siendo así, los
datos tomados están en contraste con los clásicos procesos orientados a las
aplicaciones. En la Figura N° 1 se muestra el contraste entre los dos tipos de
orientaciones.
Figura 2: El DataWarehouse tiene una fuerte orientación al tema
Los datos en la base de datos están organizados de manera que todos los
elementos de datos relativos al mismo evento u objeto del mundo real queden
unidos entre sí.
El ambiente operacional se diseña alrededor de las aplicaciones y funciones
tales como préstamos, ahorros, tarjeta bancaria y depósitos para una institución
financiera. Por ejemplo, una aplicación de ingreso de órdenes puede accesar a
9
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
los datos sobre clientes, productos y cuentas. La base de datos combina estos
elementos en una estructura que acomoda las necesidades de la aplicación.
En el ambiente data warehousing se organiza alrededor de sujetos tales como
cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos
pueden ser clientes, productos, proveedores y vendedores. Para una
universidad pueden ser estudiantes, clases y profesores. Para un hospital
pueden ser pacientes, personal médico, medicamentos, etc.
Las diferencias entre la orientación de procesos y funciones de las aplicaciones
y la orientación a temas, radican en el contenido de la data a nivel detallado. En
el data warehouse se excluye la información que no será usada por el proceso
de sistemas de soporte de decisiones, mientras que la información de las
orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los
requerimientos funcionales y de proceso, que pueden ser usados o no por el
analista de soporte de decisiones.
3.2 Variante en el tiempo:
Los cambios producidos en los datos a lo largo del tiempo quedan registrados
para que los informes que se puedan generar reflejen esas variaciones. Los
datos son relativos a un periodo de tiempo (semestre, año, etc) y deben ser
incrementados periódicamente.
Toda la información del data warehouse es requerida en algún momento. Esta
característica básica de los datawarehouse, es muy diferente de la información
encontrada en el ambiente operacional. En éstos, la información se requiere al
momento de accesar.
Como la información en el data warehouse es solicitada en cualquier momento
(es decir, no "ahora mismo"), los datos encontrados se llaman de "tiempo
variante".
Los datos históricos son de poco uso en el procesamiento operacional. La
información del depósito por el contraste, debe incluir los datos históricos para
usarse en la identificación y evaluación de tendencias. (Ver Figura N° 2).
10
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
Figura 3
3.3 No volátil
La información no se modifica ni se elimina, una vez almacenado un dato, éste
se convierte en información de sólo lectura, y se mantiene para futuras
consultas. Los datos almacenados no son actualizados, sólo son
incrementados.
Las actualizaciones de la base de datos operacional no ocurren en el entorno
del datawarehouse, no se requieren mecanismos de control de la concurrencia
y recuperación.
Se requieren dos operaciones nada más: Carga inicial de los datos y acceso a
datos.
En la Figura N° 3 se muestra que la actualización (insertar, borrar y modificar),
se hace regularmente en el ambiente operacional sobre una base de registro
por registro. Pero la manipulación básica de los datos que ocurre en el data
warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la
carga inicial de datos y el acceso a los mismos.
11
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
Figura 4
3.4 Integrado
La base de datos contiene los datos de todos los sistemas operacionales de la
organización, y dichos datos deben ser consistentes. Integra datos recogidos de
diferentes sistemas operacionales de la organización (y/o fuentes externas). Se
construye mediante de fuentes de datos múltiples y heterogéneas. Por ejemplo
de Bases de Datos relacionales, ficheros planos, registros de
transacciones
on-line, etc.
Figura 5: DW Integrado
12
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
El aspecto más importante del ambiente data warehousing es que la información
encontrada al interior está siempre integrada.
La integración de datos se muestra de muchas maneras: en convenciones de
nombres consistentes, en la medida uniforme de variables, en la codificación de
estructuras consistentes, en atributos físicos de los datos consistentes, fuentes
múltiples y otros. Los puntos de integración afectan casi todos los aspectos de
diseño, las características físicas de los datos, la disyuntiva de tener más de una
de fuente de datos, el problema de estándares de denominación inconsistentes,
formatos de fecha inconsistentes y otros.
Cualquiera que sea la forma del diseño, el resultado es el mismo, la información
necesita ser almacenada en el data warehouse en un modelo globalmente
aceptable y singular, aun cuando los sistemas operacionales subyacentes
almacenen los datos de manera diferente.
Se aplican técnicas de limpieza e integración
 Asegurar la consistencia en el nombrado, en las estructuras
 Codificadas, tipos de datos de los atributos, y demás aspectos entre las
múltiples bases de datos.

Cuando los datos se mueven al datawarehouse, éstos se tienen que
transformar.
13
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
4. Arquitectura de un DW
La Arquitectura de un DW viene determinada por su situación central como fuente
de información para las herramientas de análisis.
Figura 6: Arquitectura de un DataWarehouse
4.1 Componentes
o Sistema ETL (Extraction, Transformation, Load): realiza las funciones de
extracción de las fuentes de datos (transaccionales o externas),
transformación (limpieza, consolidación, ...) y la carga del AD, realizando:

extracción de los datos.

filtrado de los datos: limpieza, consolidación, etc.

carga inicial del almacén: ordenación, agregaciones, etc.

refrescamiento del almacén: operación periódica que propaga los
cambios de las fuentes externas al almacén de datos.
o Repositorio Propio de Datos: Información relevante, metadatos.
Los metadatos son básicamente datos acerca de los datos contenidos en el
DW.
Forma de describir propiedades de las bases de datos y sus atributos,
incluyendo tablas y nombres de las columnas, atributos de columnas
14
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
(tamaño y tipo de dato) de las tablas de las bases de datos, así como claves
primarias y relaciones con claves foráneas.
Así, uno de los problemas con el que pueden encontrarse los usuarios de un
DW es saber lo que hay en él y cómo pueden acceder a lo que quieren. El
repositorio les ayuda a conseguirlo.
Base fundamental para establecer la completa integración de los datos de la
empresa.
Es útil para analizar como los cambios afectarán a la aplicación, sus
módulos y otras aplicaciones con las cuales esta interactúa.
o Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre
ellos se conectan herramientas más sofisticadas (OLAP, EIS, minería de
datos).
Sin las herramientas adecuadas de acceso y análisis el DW se puede
convertir en una amalgama de datos sin ninguna utilidad. Es necesario
poseer técnicas que capturen los datos importantes de manera rápida y
puedan ser analizados desde diferentes puntos de vista. También deben
transformar los datos capturados en información útil para el negocio.
Actualmente a este tipo de herramientas se las conocen como business
intelligence tool (BIT) y están situadas conceptualmente sobre el DW. Cada
usuario final debe seleccionar que herramienta se ajusta mejor a sus
necesidades y a su DW. Entre ellas podemos citar las Consultas SQL
(Structured Query Language), las Herramientas MDA (Multidimensional
Analysis) y OLAP (On-Line Analytical Processing), las Herramientas ROLAP
(Relational On Line Analytical Processing) y las herramientas DATA MINIG,
de las cuales se trata a continuación.
Sistemas de Integridad y Seguridad: se encargan de un mantenimiento
global, copias de seguridad.
15
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
5. Formas de modelar un Almacén de Datos
 Esquema en estrella: si la jerarquía de dimensiones es lineal
 Esquema en copo de nieve: si la jerarquía no es lineal.

Constelación de estrellas
Esquema en estrella: Esquema relacional adaptado a la representación de datos
multidimensionales.
Se basa en una serie de tablas que representan dimensiones unidas mediante
claves ajenas, a una principal que actúa como nexo y almacena datos agregados y
precalculados. (Tablas no normalizadas)
Ventajas del esquema estrella.





Crea una base de datos con tiempos de respuesta rápido.
Diseño fácil de modificar.
Simula como ven los datos los usuarios finales.
Simplifica la navegación.
Facilita la interacción con herramientas.
Problemas del esquema estrella



Es ad hoc (Basado en intuición y no en principios). Difícil cambiar el
esquema cuando se agregan nuevos tipos de datos o cambian las
dependencias.
Los esquemas estrellas son físicos y no lógicos.
Las tablas Dimensión no están normalizadas por completo.
Esquema en copo de nieve: Variante del esquema de estrella que presenta las
tablas de dimensión estructuradas a más de un nivel. (Tablas normalizadas).
Constelación de estrellas: Varios esquemas en estrella y/o en copo de nieve que
comparten dimensiones.
16
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
6. ¿Qué pueden ofrecer los Almacenes de Datos?
La función de un Almacén de datos es centralizar una gran variedad de datos e
información, interpretar dicha información y darle un valor agregado para beneficio
del negocio todo ello por supuesto, con un fácil acceso y visualización por parte de
los usuarios. Algunos procesos que se realizan en estos escenarios son:
Transformación de Datos. Se obtienen datos e información de diferentes fuentes o
almacenamientos y se aplica una serie de reglas definidas que convierten los datos
en información útil para la toma de decisiones.
Repositorios y metadatos. Más importante aún que el flujo de datos es entender el
origen y la descripción de éstos de una forma que sea común para toda la
organización. "No se requiere más datos, se requiere entenderlos".
Procesamiento analítico en línea (OLAP). Provee el medio para obtener visualizar
y analizar información con alto rendimiento y flexibilidad. OLAP presenta la
información a los usuarios de una forma natural e intuitiva. De esta manera los
usuarios pueden ser más efectivos en reconocer el valor de dicha información.
Visualización. En la mayoría de los casos los datos pueden ser mejor entendidos si
los números son combinados de diferentes formas y presentados visualmente en
forma de histogramas y varios tipos de gráficas. La visualización puede ser
especialmente útil en identificar rápidamente cuales datos pueden tener un análisis
especial.
7. Los objetivos fundamentales de un Data Warehouse
 Hace que la información de la organización sea accesible: los contenidos del
DataWarehouse son entendibles y navegables, y el acceso a ellos son
caracterizado por el rápido desempeño. Estos requerimientos no tienen fronteras
y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles
de la información sean correctos y obvios. Y Navegables significa el reconocer el
destino en la pantalla y llegar a donde queramos con solo un clic. Rápido
desempeño significa, cero tiempo de espera. Todo lo demás es un compromiso
y por consiguiente algo que queremos mejorar.
17
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
 Hacer que la información de la organización sea consistente: la información
de una parte de la organización puede hacerse coincidir con la información de la
otra parte de la organización. Si dos medidas de la organización tienen el mismo
nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas
no significan la misma cosa, entonces son etiquetados diferentes. Información
consistente significa, información de alta calidad. Significa que toda la
información es contabilizada y completada. Todo lo demás es un compromiso y
por consiguiente algo que queremos mejorar.
 Es información adaptable y elástica: El Data Warehouse está diseñado para
cambios continuos. Cuando se le hacen nuevas preguntas al Data Warehouse,
los datos existentes y las tecnologías no cambian ni se corrompen. Cuando se
agregan datos nuevos al Data Warehouse, los datos existentes y las tecnologías
tampoco cambian ni se corrompen. El diseño de Data Marts separados que
hacen al Data Warehouse, deben ser distribuidos e incrementados. Todo lo
demás es un compromiso y por consiguiente algo que queremos mejorar.
 Protege los valores de la información: El Data Warehouse no solamente
controla el acceso efectivo a los datos, si no que da a los dueños de la
información gran visibilidad en el uso y abusos de los datos, aún después de
haber dejado el Data WareHouse. Todo lo demás es un compromiso y por
consiguiente algo que queremos mejorar.
 Es la fundación de la toma de decisiones: el Data Warehouse tiene los datos
correctos para soportar la toma de decisiones. Solo hay una salida verdadera del
Data Warehouse: las decisiones que son hechas después de que el Data
Warehouse haya presentado las evidencias. La original etiqueta que preside el
Data Warehouse sigue siendo la mejor descripción de lo que queremos
construir: un sistema de soporte a las decisiones.
18
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
8. Beneficios e Inconvenientes asociados a un DW
8.1 Beneficios
Un DW puede dar lugar a una serie de importantes beneficios para la organización.
En cualquier caso, su utilización permitirá que la información de gestión sea:
accesible, correcta, uniforme y actualizada.
Por ejemplo, una empresa de servicios telefónicos puede utilizar un almacén de
datos para determinar cuáles servicios pueden interesarle a cada uno de sus
clientes. De esta manera evita gastos en correo masivo e impersonal, con una rata
de efectividad muy baja.
Una compañía no se debe olvidar que el objetivo de cualquier proyecto para un
almacén de datos es reducir los costos operativos y generar ingresos. Esto es una
inversión y se debe poder esperar un retorno cuantificable a esta inversión en el
tiempo.
En conclusión, un almacén de datos bien implementada y mantenida redundará en
beneficios para la compañía. Cualquier falla en su implementación, garantizará
que el dinero invertido se ha despilfarrado.
Estas características asociadas a la información contenida en un DW, junto con otra
serie de aspectos inherentes al mismo dan lugar a la obtención de un conjunto de
ventajas, que podríamos resumir del siguiente modo:
Menor coste en la toma de decisiones: Se suprime el despilfarro de tiempo que
se podía producir al intentar ejecutar consultas de datos largas y complejas con
bases de datos que estaban diseñadas específicamente para transacciones más
cortas y sencillas.
Mayor flexibilidad ante el entorno: El DW convierte los datos operacionales en
información relacionada y estructurada, que genera el "conocimiento" necesario
para la toma de decisiones. Esto permite establecer una base única del modelo de
información de la organización, que puede dar lugar a una visión global de la
información en base a los conceptos de negocio que tratan los usuarios. Además,
aporta una mejor calidad y flexibilidad en el análisis del mercado, y del entorno en
general.
19
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
Esta visión global puede conllevar también la obtención de otras ventajas
competitivas, al identificar determinados costes que con los sistemas anteriores
podían permanecer ocultos, por ejemplo:
Mejor servicio al cliente: Todo lo que hemos dicho en el punto anterior implica una
importante mejora en la calidad de gestión, lo que también repercute en la relación
con el cliente, que es, como sabemos, uno de los pilares básicos en los que
descansa cualquier organización ajustada. De hecho, el que un DW implique una
mayor flexibilidad ante el entorno tiene una consecuencia directa en una mayor
capacidad para responder a las necesidades de los clientes.
Rediseño de procesos: Ofrecer a los usuarios una capacidad de análisis de la
información de su negocio que tiende a ser ilimitada y permite con frecuencia
obtener una visión más profunda y clara de los procesos de negocio propiamente
dichos, lo que a su vez permite obtener ideas renovadoras para la rediseño de los
mismos.
8.2 Inconvenientes
Utilizar almacenes de datos también plantea algunos inconvenientes, algunos de
ellos son:
 A lo largo de su vida los almacenes de datos pueden suponer altos costos. El
almacén de datos no suele ser estático. Los costos de mantenimiento son
elevados.
 Los almacenes de datos se pueden quedar obsoletos relativamente pronto.
 A veces, ante una petición de información estos devuelven una información
subóptima, que también supone una pérdida para la organización.
 A menudo existe una delgada línea entre los almacenes de datos y sistemas
operativos. Hay que determinar qué funcionalidades de estos se pueden
aprovechar y cuáles se deben implementar en el data warehouse, resultaría
costoso implementar operaciones no necesarias o dejar de implementar alguna
que sí vaya a necesitarse.
20
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
9. Las razones para que una organización implemente un DW
Para realizar tareas en los servidores y discos, asociados a consultas y
reportes en servidores y discos que no son utilizados por sistemas de
proceso de transacciones.
Muchas de las empresas quieren instalar sistemas de procesos de transacciones
para que haya una alta probabilidad de que las transacciones sean completadas en
un tiempo razonable. Estos sistemas de procesos de transacciones hacen que las
transacciones y peticiones sean más rápidas en menores tiempos dado a que los
queries y reportes consumen mucho más de su límite permitido en los recursos de
servidores y discos, por tal motivo las empresas han implementado
una arquitectura de Data WareHouse que utiliza sus servidores y discos por
separado para algunos de los queries y reportes.
Para utilizar modelos de datos o tecnologías de servidores que agilizan las
consultas y reportes, y que no son apropiados para los procesos de
transacciones.
Existen maneras de modelar los datos que usualmente agilizan los queries y
reportes (ejemplo: el esquema del modelo estrella) y que no son apropiados para
los procesos de transacciones porque la técnica de modelado bajaría el rendimiento
y complicaría el proceso de transacciones. También existen tecnologías que
aceleran el proceso de queries y reportes pero baja la velocidad en el proceso de
transacciones (ejemplo: la indexación de bitmaps) y tecnología de servidores que
incrementan la velocidad en el proceso de transacciones, pero que disminuyen la
velocidad del proceso de queries y reportes (ejemplo: La tecnología de recuperación
de transacciones). Todo esto entonces esta en el cómo se hacen los modelos de
datos y que tecnología se utiliza, inclusive que productos se adquieren para el
impacto de los procesos de queries y reportes.
Para proveer un ambiente donde relativamente una muy poca cantidad
de conocimiento de los aspectos técnicos de tecnología de bases de datos es
requerida para escribir y mantener las consultas y reportes.
Frecuentemente un Data WareHouse puede ser instalado de manera que los
queries y reportes puedan ser escritos por personal sin tanto conocimiento técnico,
lo que hace que su mantenimiento y construcción se haga sin más complejidad.
21
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
Para proveer un repositorio del sistema de proceso de transacciones limpio
que puede ser reportado y que no necesariamente requiere que se arregle el
sistema de proceso de transacciones.
El Data WareHouse provee la oportunidad de limpiar los datos sin cambiar los
sistemas de proceso de transacciones, sin embargo algunas implementaciones de
Data WareHouse provee el significado para capturar las correcciones hechas a los
datos del Data WareHouse y alimenta las correcciones hacia el sistema de proceso
de transacciones. Muchas veces hace más sentido hacer las correcciones de esta
manera que aplicar las correcciones directamente al sistema de proceso de
transacciones.
Para hacer las consultas y reportes de datos básicamente más fácil de los
múltiples procesos de transacciones y de las fuentes externas y de los datos
que deben ser almacenados solamente para el propósito de hacer queries y
reportes.
Desde hace mucho tiempo que las compañías necesitan reportes con información
de múltiples sistemas y han hecho extracciones de datos para después correrlos
bajo la lógica de búsqueda combinando la información de las extracciones con los
reportes generados, lo que en muchas ocasiones es una buena estrategia. Pero
cuando se tienen muchos datos y las búsquedas se vuelven muy pesadas y
después limpiar la búsqueda, entonces lo apropiado sería un Data WareHouse.
10.
Base de datos Vs Datawarehouse
Base de Datos
DataWarehouse
Actualizaciones mayoritariamente
Consultas principalmente
Muchas transacciones pequeñas
Consultas largas y complejas
Mb - Gb de información
Gb - Tb de información
Instantáneas actuales
Histórica
Miles de usuarios (ej usuarios
Cientos de usuarios (ej usuarios
administrativos)
que toman decisiones)
22
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
11. CASO DE ESTUDIO
PENTAHO
23
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
¿Qué es Pentaho?
Pentaho es la solución BI Open Source líder del mercado y la mejor alternativa a los
productos comerciales.
La plataforma Open Source Pentaho Business Intelligence cubre muy amplias
necesidades de Análisis de los Datos y de los Informes empresariales. Las soluciones
de Pentaho están escritas en Java y tienen un ambiente de implementación también
basado en Java. Eso hace que Pentaho es una solución muy flexible para cubrir una
amplia gama de necesidades empresariales – tanto las típicas como las sofisticadas y
especificas al negocio.
Las soluciones que Pentaho pretende ofrecer se componen fundamentalmente de una
infraestructura de herramientas de análisis e informes integrado con un motor de
workflow de procesos de negocio. La plataforma será capaz de ejecutar las reglas de
negocio necesarias, expresadas en forma de procesos y actividades y de presentar y
entregar la información adecuada en el momento adecuado, mediante analisis OLAP,
Cuadros de Mando, etc...
24
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
Plataforma BI de Pentaho
Elaborada con estándares abiertos y con una arquitectura moderna, la Plataforma de BI
de Pentaho fue diseñada para ser escalada y cumplir con las necesidades de
organizaciones cualquiera sea su tamaño.
Los módulos de la plataforma Pentaho BI son:
 Reporting - un modulo de los informes ofrece la solución adecuada a las
necesidades de los usuarios. Pentaho Reporting es una solución basada en el
proyecto JFreeReport y permite generar informes ágil y de gran capacidad.
Pentaho Reporting permite la distribución de los resultados del análisis en
múltiples formatos - todos los informes incluyen la opción de imprimir o exportar
a formato PDF, XLS, HTML y texto. Los reportes Pentaho permiten también
25
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
programación de tareas y ejecución automática de informes con una
determinada periodicidad.
 Análisis - Pentaho Análisis suministra a los usuarios un sistema avanzado de
análisis de información. Con uso de las tablas dinámicas (pivot tables,
crosstabs), generadas por Mondrian y JPivot, el usuario puede navegar por los
datos, ajustando la visión de los datos, los filtros de visualización, añadiendo o
quitando los campos de agregación. Los datos pueden ser representados en
una forma de SVG o Flash, los dashboards widgets, o también integrados con
los sistemas de mineria de datos y los portales web (portlets). Además, con el
Microsoft Excel Analysis Services, se puede analizar los datos dinámicos en
Microsoft Excel (usando la conexión a OLAP server Mondrian).
 Dashboards - todos los componentes del modulo Pentaho Reporting y Pentaho
Análisis pueden formar parte de un Dashboard. En Pentaho Dashboards es
muy fácil incorporar una gran variedad en tipos de gráficos, tablas y
velocímetros (dashboard widgets) e integrarlos con los Portlets JSP, en donde
podrá visualizar informes, gráficos y análisis OLAP.
 Data Mining - análisis en Pentaho se realiza con una herramienta WeKa.
 Integración de Datos - se realiza con una herramienta Kettle ETL (Pentaho
Data Integration) que permite implementar los procesos ETL. Últimamente
Pentaho lanzó una nueva versión - PDI 3.0 – que marcó un gran paso adelante
en OSBI ETL y que hizo Pentaho Data Integration una alternativa interesante
para las herramientas comerciales.
26
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
27
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
12. Conclusiones
El término Data Warehouse hace alusión a un tipo de herramienta que está teniendo
un gran auge en los últimos años.
El problema ante el que nos encontramos, se centra en que muchos de los datos de
que disponen las empresas sobre sus clientes están 'bloqueados' en cárceles de datos;
es decir, bases de datos que han evolucionado como subsistemas independientes.
Estas bases de datos son incapaces de ofrecer a la empresa una visión consolidada de
quién es el cliente, o incluso de qué productos y servicios están interrelacionados en la
base de clientes. Este ejemplo de la información acerca de clientes es también
aplicable a otros muchos ámbitos.
Cualquier empresa, independientemente de su tamaño, cuenta con un conjunto de
aplicaciones de procesamiento transaccional que mecanizan los procesos operativos,
muy estructurados y repetitivos, que vienen a constituir las funciones básicas de la
entidad, tales como la facturación, contabilidad, nóminas, etc.
Este conjunto de aplicaciones constituyen el subsistema de información operativo o
transaccional, en él se procesan de manera automática, grandes volúmenes de datos
referentes a las actividades rutinarias, que se almacenan en bases de datos operativas.
De ellas se puede extraer información, fundamentalmente válida para las transacciones
del día a día, es decir, sirven para apoyar y ejecutar las decisiones operativas que
conducen las actividades básicas, pero no sirven para realizar análisis más avanzados,
incluso de tipo estratégico, ya que no están diseñadas para apoyar este tipo de tareas.
A partir de los datos almacenados en estas bases de datos operativas, las cuales
suelen ser inconsistentes en la manera en que representan los datos (por ejemplo,
distintas bases de datos pueden estar utilizando unidades de medidas diferentes para
los mismos atributos), es posible extraer un cúmulo de conocimientos o informaciones
que aporten un valor añadido a la gestión adecuada de la empresa, lo que constituirán
los Data Warehouse.
El fin del Data Warehouse es reunir y consolidar las bases de datos diferentes, que se
mantienen en los diferentes departamentos o áreas funcionales de la empresa como
subsistemas de información independientes, en una gran base de datos, recogiendo
datos muy dispares y, muchas veces infrautilizados, procedentes de fuentes internas
repartidas por toda la organización. También recogerá datos o informaciones externas,
que rutinariamente se recibe sobre las diferentes entidades u objetos de información,
es decir, clientes, proveedores, productos y servicios, canales, estructura organizativa,
competencia, mercado, coyuntura económica, etc., en resumen, los derivados de las
28
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
relaciones de la empresa con su entorno.
Entre los motivos generales que dan lugar a la necesidad de implantar un Data
Warehouse podemos encontrar los siguientes:




Mayor necesidad de ayuda a la toma de decisiones.
Proliferación de aplicaciones de usuarios finales costosas, desintegradas, etc.
Falta de herramientas productivas integradas para el decisor o el usuario final
real.
Falta de información histórica.
Las bases de datos que conforman un DW deben caracterizarse por:




Integradas: Han de constituir un conjunto de datos y metadatos perfectamente
integrados.
Temáticas: Las bases de datos del DW deben conformarse hacia materias o
temas (p.e. clientes, productos, campañas…).
Históricas: Un factor clave en la toma de decisiones es poder contar con
información histórica para comparar datos en distintos períodos y poder
identificar tendencias. El tiempo ha de estar presente en los registros del DW, de
manera que pueda saberse en qué momento tenía un dato un valor
determinado.
No volátiles: Este requisito está relacionado con el anterior. Cuando un dato
tenga un nuevo valor, generalmente no se actualizará el valor anterior, sino que
se introducirá un nuevo registro con el valor actual. Como regla general, una vez
incorporada la información al DW debe mantenerse en él invariable.
La infraestructura tecnológica que soporte el Data Warehouse ha de estar separada y,
por lo general, será diferente de la que soporta los sistemas operacionales.
En definitiva, los requerimientos fundamentales que determinan la esencia del DW
podrían ser los siguientes:



Acceso universal a los datos, que se crean y se tratan de acuerdo con los
requerimientos del usuario y dentro del marco de un modelo de datos.
Implantación de un sistema abierto, con interfaces a fuentes de datos internas
y externas.
Selección de los datos de acuerdo con el contenido de información y la
relevancia para las decisiones.
29
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.


Separación lógica y física de las bases de datos de almacén de datos y de
metadatos respecto a las bases de datos operacionales.
Creación de herramientas de consulta para el usuario final, con posibilidades
de utilización intuitiva y funciones de unión e interrelación.
Beneficios Asociados al Data Warehouse
Un DW puede dar lugar a una serie de importantes beneficios para la organización. En
cualquier caso, su utilización permitirá que la información de gestión sea: accesible,
correcta, uniforme y actualizada.
Estas características asociadas a la información contenida en un DW, junto con otra
serie de aspectos inherentes al mismo dan lugar a la obtención de un conjunto de
ventajas, que podríamos resumir del siguiente modo:
Menor coste en la toma de decisiones
Mayor flexibilidad ante el entorno
Mejor servicio al cliente
Rediseño de procesos
Alineamiento con los objetivos de rightsizing
En conclusión, el concepto de DW abarca mucho más que simplemente copiar datos
operacionales a una base de datos informacional distinta. El sistema deberá ofrecer
una solución completa para gestionar y controlar el flujo de información desde bases de
datos corporativas y fuentes externas a sistemas de soporte de decisiones de usuarios
finales.
Además, debe permitir a los usuarios conocer qué información existe en el almacén de
datos, y cómo poder acceder a ella y manipularla.
30
Universidad Central de Venezuela.
Facultad de Ciencias.
Escuela de Computación.
13.
Bibliografía
 Ralph Kimball, Margy Ross The Data Warehouse Toolkit “The Complete Guide
to Dimensional Modeling” Second Edition.
 http://es.wikipedia.org/wiki/Almacén_de_datos
 http://www.ongei.gob.pe/publica/metodologias/Lib5084/INDEX.HTM
 http://www.fing.edu.uy/inco/grupos/csi/esp/Publicaciones/2001/tr0118-vp.pdf
 http://cba365.com.ar/cms/index.php?option=com_content&view=article&id=53&It
emid=65
 http://pentaho.almacen-datos.com/
 http://www.pentaho.com/
31
Descargar