Bases de datos multidimensionales y DataWarehouse

Anuncio
Base de Datos
Multidimensionales
Data
Warehousing
Pablo Hidalgo Rivas – Concepción – Chile
[email protected]
Base de Datos Multidimensionales y DataWarehouse
-2-
INDICE
•
INTRODUCCION ............................................................................................................................... - 6 -
•
INFORMACIÓN HISTORICA ....................................................................................................... - 8 -
•
VENTAJAS DE LAS BASES DE DATOS MULTIDIMENSIONALES ........................... - 10 -
•
LIMITACION CON RESPECTO AL TAMAÑO DE LA BASE DE DATOS................... - 11 -
•
FORMA DE ABORDAR EL PROBLEMA................................................................................. - 12 -
•
TECNICAS DE DISEÑO ................................................................................................................ - 15 PROCESOS Y METODOLOGIAS ............................................................................................. - 15 -
•
MODELAMIENTO MULTIDIMENCIONAL ............................................................................ - 17 MODELOS DE DATOS ....................................................................................................................................- 18 CARACTERÍSTICAS DEL MER.......................................................................................................................- 19 CARACTERÍSTICAS DEL MODELO MULTIDIMENSIONAL ..............................................................................- 19 Tablas DW: .......................................................................................................................................... - 19 Tablas Fact: ................................................................................................................................................. - 19 Tablas Lock_up:......................................................................................................................................... - 20 -
Esquemas DW:................................................................................................................................... - 21 -
Esquema Estrella....................................................................................................................................... - 22 Esquema Snowflake................................................................................................................................. - 23 -
Profundizaciones de Diseño........................................................................................................... - 24 -
La Dimensión Tiempo .............................................................................................................................. - 24 Dimensiones que varían lentamente en el tiempo........................................................................ - 24 Niveles........................................................................................................................................................... - 24 Sobre Jerarquías........................................................................................................................................ - 24 -
•
BD RELACIONALES V/S............................................................................................................ - 26 -
BD MULTIDIMENSIONALES............................................................................................................... - 26 ROLAP VS MOLAP ....................................................................................................................................- 27 ¿Cuál es mejor ROLAP O MOLAP? ............................................................................................... - 29 Factores de procesamiento.................................................................................................................... - 29 Almacenaje .................................................................................................................................................. - 30 Consultas...................................................................................................................................................... - 30 ¿Por qué recomiende MOLAP? .............................................................................................................. - 30 ¿Por qué recomiende ROLAP?............................................................................................................... - 30 ¿Por qué no recomendar ROLAP?........................................................................................................ - 31 -
TRANSFORMACIÓN DE DB RELACIONALES A MULTIDIMENSIONALES
CON
DW:.....................................- 33 -
•
DEFINICION DE DATAWAREHOUSE ................................................................................... - 35 -
•
SISTEMAS DE INFORMACIÓN ................................................................................................ - 38 -
•
CARACTERÍSTICAS DE UN DATA WAREHOUSE ............................................................ - 40 ORIENTADO A TEMAS ...................................................................................................................................- 40 -
Base de Datos Multidimensionales y DataWarehouse
-3-
INTEGRACIÓN ................................................................................................................................................- 42 Fuentes Múltiples.........................................................................................................................................- 42 Codificación.......................................................................................................................................................................- 42 Medida de atributos.................................................................................................................................. - 43 -
Proceso de integración: transformación de Datos................................................................ - 45 DE TIEMPO VARIANTE ..................................................................................................................................- 46 NO VOLATIL ...................................................................................................................................................- 47 •
ESTRUCTURA DEL DATA WAREHOUSE .............................................................................. - 49 DETALLE DE DATOS ACTUALES ....................................................................................................................- 49 DETALLE DE DATOS ANTIGUOS ....................................................................................................................- 49 DATOS LIGERAMENTE RESUMIDOS ..............................................................................................................- 49 META DATA ....................................................................................................................................................- 51 -
•
COMPONENTES DE UN DATA WAREHOUSE .................................................................... - 54 HARDWARE ....................................................................................................................................................- 54 SOFTWARE DE ALMACENAMIENTO (SGBD) ...............................................................................................- 55 SOFTWARE DE EXTRACCIÓN Y MANIPULACIÓN DE DATOS .........................................................................- 55 HERRAMIENTAS MIDDLEWARE .....................................................................................................................- 56 -
•
OPERACIONES EN UN DATA WAREHOUSE...................................................................... - 58 SISTEMAS OPERACIONALES .........................................................................................................................- 58 EXTRACCIÓN, TRANSFORMACIÓN Y CARGA DE LOS DATOS......................................................................- 59 META DATA ....................................................................................................................................................- 59 ACCESO DE USUARIO FINAL .........................................................................................................................- 59 PLATAFORMA DEL DATA WAREHOUSE ..........................................................................................................- 60 DATOS EXTERNOS ........................................................................................................................................- 60 -
•
FLUJO DE DATOS ........................................................................................................................... - 61 -
•
TECNICAS DE EXPLOTACION DE UN DATA WAREHOUSE....................................... - 63 SISTEMAS OLAP ..........................................................................................................................................- 64 CONSULTAS O INFORMES LIBRES (QUERY & REPORTING) ......................................................................- 64 DATA MINIG (MINERÍA DE DATOS)............................................................................................................- 65 -
•
DATA MART V/S DATA WAREHOUSE............................................................................... - 67 -
•
SISTEMA OPERACIONAL V/S DATAWAREHOUSE ....................................................... - 70 DESTINOS Y USOS ........................................................................................................................................- 70 AMBIENTE OPERACIONAL V/S AMBIENTE DATAWAREHOUSE ...................................................................- 71 -
•
USO DEL DATAWAREHOUSE.................................................................................................... - 74 MANERAS DIFERENTES DE USO DE DATOS .................................................................................................- 74 Los usuarios generan un procesamiento no predecible complejo .................................. - 74 Las consultas de los usuarios accedan a cantidades grandes de datos ....................... - 74 Las consultas de los usuarios no tienen tiempos de respuesta críticos ....................... - 75 ¿QUIÉNES Y PARA QUÉ LO USAN? ...............................................................................................................- 79 Comercio Minorista ........................................................................................................................... - 79 Manufactura de Bienes de Consumo Masivo........................................................................... - 80 -
Base de Datos Multidimensionales y DataWarehouse
-4-
Transporte de Cargas y Pasajeros .............................................................................................. - 81 Telecomunicaciones....................................................................................................................................- 81 •
IMPACTOS DW .................................................................................................................................- 82 -
IMPACTOS HUMANOS. ..................................................................................................................................- 82 Efectos sobre la gente de la empresa: ..................................................................................... - 82 IMPACTOS EMPRESARIALES ..........................................................................................................................- 83 Efectos sobre procesos y decisiones empresariales. ........................................................... - 83 IMPACTOS TÉCNICOS DE DW.....................................................................................................................- 84 •
COSTOS Y VALOR DEL DATAWAREHOUSE ...................................................................... - 85 COSTOS DE UN DW ....................................................................................................................................- 85 Costos de construcciones ............................................................................................................... - 85 RRHH: ............................................................................................................................................................ - 85 Tiempo:......................................................................................................................................................... - 85 Tecnología: .................................................................................................................................................. - 85 -
Costos de Operación ........................................................................................................................ - 86 Evolutivos: ................................................................................................................................................... - 86 Crecimiento:................................................................................................................................................ - 86 Cambios: ...................................................................................................................................................... - 86 Cambios en el ambiente empresarial: ......................................................................................... - 86 Cambios en la tecnología: ................................................................................................................ - 86 -
VALOR DEL DW............................................................................................................................................- 87 COSTOS V/S VALOR DE DW .......................................................................................................................- 87 •
ORGANIZACIÓN DE UN PROYECTO..................................................................................... - 89 PLANIFICACIÓN DE UN DATA WAREHOUSE ................................................................................................- 89 Establecer una asociación de usuarios, gestión y grupos.................................................. - 89 Seleccionar una aplicación piloto con una alta probabilidad de éxito ........................... - 89 Construir prototipos rápida y frecuentemente....................................................................... - 89 Implementación incremental ........................................................................................................ - 90 Reportar activamente y publicar los casos exitosos ............................................................ - 90 DESARROLLO DE UN DATA WAREHOUSE ....................................................................................................- 90 Primera.................................................................................................................................................. - 91 Segunda................................................................................................................................................ - 91 Tercera .................................................................................................................................................. - 91 En conclusión ...................................................................................................................................... - 92 DISEÑO DE UN DATA WAREHOUSE .............................................................................................................- 92 GESTIÓN DE UN DATA WAREHOUSE ...........................................................................................................- 93 -
•
TENDENCIAS TECNOLÓGICAS Y DE MERCADO............................................................. - 94 TENDENCIAS HACIA HERRAMIENTAS ESPECIALIZADAS: ............................................................................- 94 WEBHOUSING ...............................................................................................................................................- 94 USO GENERALIZADO DE DATA MARTS ........................................................................................................- 94 -
•
CONCLUSION ................................................................................................................................... - 95 -
•
BIBLIOGRAFIA................................................................................................................................ - 96 -
Base de Datos Multidimensionales y DataWarehouse
-5-
INTRODUCCION
No cabe duda que los sistemas de información son una herramienta
esencial al momento de administrar los datos de cualquier tipo de
empresa. Para esto las BD se han convertido en un elemento
imprescindible al momento de relacionar toda la información, dejando la
idea de los ficheros como un pasado muy antiguo.
Es así como con el paso de los años este “concepto” ha ido
evolucionando a través del tiempo, dejando el modelo relacional de Codd
como una “base” para otros tipos de bases de datos como lo son las
multidimensionales.
Pero ¿Qué son las bases de datos multidimensionales? Esta es una
respuesta compleja que trataremos de resolver a lo largo de este informe.
En un principio podemos imaginarlas como una prolongación del modelo
relacional en la cual las consultas son especificas con más un campo. Por
ejemplo poder consultar las ventas a través del tiempo en una zona en
particular.
Para trabajar con bases de datos multidimensionales también
debemos entender lo que es un data warehouse: un “almacén de datos”
que viene a ser el espacio físico donde se contiene la información
(servidor). Pero mas que ser un servidor un DW es un concepto que nos
sirve implementar las BD multidimensionales, otorgando rapidez a la
consulta que en el caso de este tipo de BD son muchas, pero todas
parecidas además de tener información de otras BD.
En el presente informe se pretende hacer un análisis exhaustivo de
lo que son las bases de datos multidimensionales, los data warehouse y
todo aquello que tenga relación con el tema. Además iremos comparando
cada vez que sea necesario este tipo de bases de datos con lo que
estamos aprendiendo en clases: modelo relacional , BD operacionales
entre otros.
Base de Datos Multidimensionales y DataWarehouse
-6-
BASE DE DATOS MULTIDIMENSIONALES
Un buen trabajo debe dejar claro conceptos que son aplicables a lo
largo de todo el informe y que tienen un carácter de primordial antes de
entrar en materia directamente con el tema discutido, en este contexto
nos enfocamos a la definición de conceptos básicos en el mundo de las
bases de datos, en especia en aquellas que reciben el nombre de
multidimensionales.
Lo primero es el concepto de dato e información en esencia la
información es un conjunto de datos que están relacionados y ordenados
en forma lógica para que así se constituyan en una manera eficiente de
consulta de la información que estos están almacenando. De lo anterior
resulta claro que se nos esta presentando un nuevo concepto que tiene
que ver con el manejo de los datos ya guardados, la forma de guardarlos y
el como tener un acceso rápido a ellos, a esto es lo que se le llama un
base de datos que es una colección de archivos interrelacionados y
creados por un sistema de gestión de bases de datos (SGBD).
Finalmente, relacionando estos dos componentes con un hardware
que sostenga la información se forma lo que se denomina un Sistema de
Base de Datos.
Base de Datos Multidimensionales y DataWarehouse
-7-
INFORMACIÓN HISTORICA
Nuestro enfoque ahora es orientado a las bases de datos
multidimensionales que son aquellas con grandes cantidades de
información, las dimensiones son criterios con los que se clasifica la
información y que ofrecen un índice a los datos mediante una lista de
valores.
Como se ha dicho en clases, y se puede ver en algunos textos, lo
antecesores de los sistemas de bases de datos son los sistemas de
ficheros, que aun siguen en uso en algunas partes. Pero por otros lados se
dice que los sistemas de bases de datos tienen sus raíces en el proyecto
estadounidense Apolo de mandar al hombre a la luna, en los años sesenta.
En aquella época, no había ningún sistema que permitiera gestionar la
inmensa cantidad de información que requería el proyecto (cosa que
solucionan las BDM). La primera empresa encargada del proyecto, NAA
(North American Aviation), desarrolló un software denominado GUAM
(General Update Access Method) que estaba basado en el concepto de que
varias piezas pequeñas se unen para formar una pieza más grande, y así
sucesivamente hasta que el producto final está ensamblado. A mediados
de los sesenta, IBM se unió a NAA para desarrollar GUAM en lo que ahora
se conoce como IMS (Information Management System). El motivo por el
cual IBM restringió IMS al manejo de jerarquías de registros fue el de
permitir el uso de dispositivos de almacenamiento, más exactamente las
cintas magnéticas. Que estaban de moda por aquella época.
En 1970 en los laboratorios de investigación de IBM, escribió un
artículo presentando el modelo relacional. En este artículo, presentaba
también los inconvenientes de los sistemas previos, el jerárquico y el de
red, que no han sido descritos acá pues no van al caso. Entonces, se
comenzaron a desarrollar muchos sistemas relacionales, apareciendo los
primeros a finales de los setenta y principios de los ochenta. Uno de los
primeros es System R, de IBM, que se desarrolló para probar la
funcionalidad del modelo relacional, proporcionando una implementación
de sus estructuras de datos y sus operaciones. Esto condujo a dos grandes
desarrollos:
El desarrollo de un lenguaje de consultas estructurado denominado
SQL, que se ha convertido en el lenguaje estándar de los sistemas
relaciónales.
Base de Datos Multidimensionales y DataWarehouse
-8-
La producción de varios SGBD relacionales durante los años
ochenta, como DB2 y SLQ/DS de IBM, y ORACLE de ORACLE
Corporación.
Los SGBD relacionales constituyen la segunda generación de los
SGBD. Sin embargo, el modelo relacional también tiene sus fallos, siendo
uno de ellos su limitada capacidad al modelar los datos. Se ha hecho
mucha investigación desde entonces tratando de resolver este problema.
En 1976, Chen presentó el modelo entidad-relación, que es la técnica más
utilizada en el diseño de bases de datos. En 1979, Codd intentó subsanar
algunas de las deficiencias de su modelo relacional con una versión
extendida denominada RM/T (1979) y más recientemente RM/V2 (1990).
Los intentos de proporcionar un modelo de datos que represente al mundo
real de un modo más fiel han dado lugar a los modelos de datos
semánticos. Como respuesta a la creciente complejidad de las aplicaciones
que requieren bases de datos, han surgido tres nuevos modelos: el modelo
de datos orientado a objetos, el modelo multidimencional y el modelo
relacional extendido. Sin embargo, a diferencia de los modelos que los
preceden, la composición de estos modelos no está del todo clara. Esta
evolución representa la tercera generación de los SGBD.
Base de Datos Multidimensionales y DataWarehouse
-9-
VENTAJAS DE LAS BASES DE DATOS
MULTIDIMENSIONALES
¿Cuáles fueron las ventas del producto ABC el mes pasado? ¿Cómo
se comparan con las obtenidas en el mismo mes, pero del año anterior?
¿Cuáles fueron las ventas del producto en la región norte, y dentro de
dicha región en el territorio ZXY? Estas son algunas de las preguntas que
muchos profesionales se hacen periódicamente a la hora de gestionar su
negocio. El rápido acceso a esta información es vital para reaccionar ante
tendencias inesperadas y realizar eficazmente las acciones oportunas. Una
de las grandes ventajas de las bases de datos multidimensionales es la
rapidez con la que se puede acceder a información agregada; por ejemplo:
¿Cuáles fueron las ventas del producto ABC en la región norte? En
una base de datos relacional se tendrían que sumar todas las ventas
realizadas dentro de dicha región para el producto indicado.
El tiempo que se tardaría en responder dependería del número de
operaciones realizadas. Sin embargo, en una base de datos
multidimensional, la respuesta sería inmediata, ya que guarda la
información agregada y se accede directamente a ella. Este tipo de bases
de datos soportan múltiples vistas de agrupaciones de datos, que permiten
a los usuarios analizar las relaciones entre diferentes categorías. El
número de vistas se establece en el esquema de la base de datos.
Conceptualmente, se suele utilizar la idea de un cubo para representar las
dimensiones de datos disponibles para el usuario. En el caso anterior, las
ventas, podrían verse desde la dimensión geográfica, de tiempo y tipo de
producto. La variable ventas sería del tipo “measure”, mientras que el
resto se denominan “feature”. Adicionalmente, se pueden definir
jerarquías y niveles dentro de una dimensión (por ejemplo: dentro de la
jerarquía geográfica nos encontraríamos con los niveles región y
territorio).
Base de Datos Multidimensionales y DataWarehouse
- 10 -
LIMITACION CON RESPECTO AL TAMAÑO DE LA
BASE DE DATOS
Hay un concepto erróneo común en el mercado sobre que el tamaño
de la base de datos está principalmente limitado por el número máximo de
dimensiones soportadas. La limitación real, sin embargo, casi siempre es
el número de celdas, no el número de dimensiones. Además, no todas las
dimensiones se crean igual. Algunos vendedores soportan las jerarquías
simples dentro de las dimensiones. Otros soportan jerarquías complejas
múltiples dentro de las dimensiones. Basta decir que una base de datos
ocho. dimensional que usa un producto OLAP puede reducirse a sólo tres o
cuatro dimensiones con otro.
En general, como el número de dimensiones aumenta, el número de
celdas en la base de datos se incrementa exponencialmente. Por ejemplo,
una base de datos bidimensional con 100 Productos y 100 Regiones
tendría 10,000 celdas. Si agregamos una tercera dimensión para Tiempo
con 52 semanas, tenemos ahora 520,000 celdas. Agregando una cuarta
dimensión para Real, Presupuesto, Variación y la Pronostico nos lleva a
2,080,000 celdas. Agregando una quinta dimensión para guardar 10 Tipos
de Cliente tenemos el total de 20,800,000. ¡Una base de datos de 16
dimensiones con sólo cinco miembros en cada dimensión tendrían encima
de 152 mil millones (152,587,890,625) de celdas! Esto nos podría resultar
atroz al momento de querer trabajar con los datos.
La mayoría de los servidores OLAP comerciales acierta el límite de
celdas mucho tiempo antes de que ellos corran fuera de dimensiones. Por
ejemplo, un servidor OLAP comercial proclama soportar 32 dimensiones,
pero tiene un límite de aproximadamente dos mil millones de celdas. Con
sólo dos miembros en cada dimensión, una base de datos de 32
dimensiones tendría 4.3 mil millones de celdas. Así, aun cuando cada
dimensión tenga sólo dos miembros, todavía no podría usar todas las 32
dimensiones debido a la limitación de dos mil millones de celdas. En la
práctica, la mayoría de las dimensiones tienen muchos más de dos
miembros.
Base de Datos Multidimensionales y DataWarehouse
- 11 -
FORMA DE ABORDAR EL PROBLEMA
Disponer de un sistema de bases de datos relacionales, no significa
disponer de un soporte directo para la toma de decisiones. Muchas de
estas decisiones se basan en un análisis de naturaleza multidimensional,
que se intentan resolver con la tecnología no orientada para esta
naturaleza. Este análisis multidimensional, parte de una visión de la
información como dimensiones de negocio.
Para realizar este tipo de análisis multidimensional debemos utilizar
lo que se conoce como Bases de Datos
Multidimensionales. Este tipo de BD diseñada
para optimizar la consulta y almacenamiento de
grandes volúmenes de datos que están
íntimamente relacionados y que deben verse y
analizarse desde distintas perspectivas. A cada
perspectiva se le denomina dimensión. Obtener
respuestas a las preguntas típicas de una
empresa exige con cierta frecuencia ver los datos
bajo diferentes perspectivas.
Este nuevo enfoque propone una estructura
de almacenamiento basada en hiper-cubos en
lugar de tablas planas. Para entender mejor el
concepto de Base de Datos Multidimencional y de dimensiones o
perspectivas en este entorno vamos a utilizar un ejemplo de un sistema de
gestión de libros.
Las jerarquías que se podrían manejar para el número de
dimensiones serán: zona geográfica, tipo de producto y tiempo de
resolución. La visión general de la información de ventas para estas
dimensiones definidas, la representaremos, gráficamente como el cubo de
la derecha.
A su vez estas dimensiones tienen una jerarquía, interpretándose en
el cubo como que cada cubo elemental es un dato, del que se puede
extraer información agregada. En el ejemplo anterior podría ser:
Base de Datos Multidimensionales y DataWarehouse
- 12 -
ZONAS GEOGRAFICAS
ZONA NORTE
ARICA
IQUIQUE
ANTOFAGASTA
LIBRERÍA UNIVERSITARIA
PRODUCTO
BASES DE DATOS
LIBROS
LITERATURA
ÉTNICOS
CUENTOS
TIEMPO
SEPTIEMBRE DE 2004
AÑO 2004
1º SEMESTRE
2ª SEMESTRE
En forma más general la estructura
anteriormente descrita podría verse como en
la figura del lado derecho, en la cual se indica
claramente las sub-divisiones que se tienen en
la respuesta a una pregunta.
Y así por ejemplo se podría querer
analizar la evolución de las ventas en
Antofagasta de libros de literatura por meses
desde Febrero de 2003 hasta Septiembre de
2004. Ello es fácil de obtener si la información
de ventas se ha almacenado en una base de
datos multidimencional, definiendo estas
jerarquías y estas dimensiones de negocio.
En general tratamos de presentar una
forma eficiente de abordar los problemas que
se pueden solucionar con una base de datos multidimensional, partiendo
Base de Datos Multidimensionales y DataWarehouse
- 13 -
por el reconocimiento del problema, el cual esta orientado a escribir los
requerimiento de los datos en buena forma y coherentemente con lo que
en la realidad ocurre, después de eso y una vez elegido el sistema de
gestión de la base le sigue el modelo dimensionan y las siguientes etapas
conocidas ya en el curso de Base de Datos 2004-2 .
Definir
los
Requerimientos
del
Planeación
Del proyecto
Negocio
Selección Producto
Diseño
técnico
Modelado
Dimensio-nal
aplicación
de usuario
final
Diseño
Físico
Transfor-mación
de dato
Imple-menta-ciónMantenimiento
Implementación
de la aplicación
de usuario final
Administración del proyecto
Base de Datos Multidimensionales y DataWarehouse
- 14 -
TECNICAS DE DISEÑO
Las técnicas de diseño pueden clasificarse en cuatro niveles según
el tipo de problemas que abordan. Se parte de técnicas que manipulan
objetos de un modelo de datos sin aportar ningún criterio de diseño
(técnicas básicas). A medida que se aumenta en el nivel, las técnicas
correspondientes introducen elementos orientados a mejorar la
productividad y calidad del diseño. Por esto, las técnicas de los niveles
superiores se centran en tipos de sistemas de información o en contextos
particulares de aplicación de sistemas de información.
PROCESOS Y METODOLOGIAS
ESTRATEGIAS
TECNICAS ESPECIALIZADAS
TÉCNICAS BÁSICAS
El nivel inferior corresponde a técnicas básicas de diseño para el
modelo elegido, por ejemplo técnicas de diseño relacional para creación de
estructuras del modelo (tablas, restricciones de integridad, etc.). El
siguiente nivel corresponde a técnicas especializadas para un determinado
tipo de sistema de información, por ejemplo bases de datos centralizadas,
federadas, distribuidas, multidimensionales etc. Cada sistema tiene sus
propias técnicas especializadas de diseño, por ejemplo en bases de datos
distribuidas existen técnicas para fragmentar tablas, tanto horizontal como
verticalmente.
En un nivel superior se ubican las estrategias de diseño, orientadas a
encarar globalmente un problema de diseño. Por ejemplo utilizar
estrategias top-down o bottom-up para relevar requerimientos funcionales
del sistema, o resolver la integración de esquemas en un ambiente
federado con estrategias local-as-view o global-as-view. Las estrategias de
diseño abstraen mecanismos para encarar problemas generales de diseño,
y decidir qué técnicas conviene aplicar para la resolución de subproblemas concretos.
En el nivel superior se ubican los modelos de proceso y
metodologías de diseño. Los trabajos en este nivel resuelven la totalidad
del problema, brindando metodologías, procesos o algoritmos que
Base de Datos Multidimensionales y DataWarehouse
- 15 -
descomponen el problema en partes más pequeñas y muestran como
atacar cada uno de los sub-problemas. Generalmente en este nivel es
muy importante el orden en que se resuelven esos sub-problemas,
mientras que las estrategias sólo se encargan de la resolución aislada de
cada uno.
Base de Datos Multidimensionales y DataWarehouse
- 16 -
MODELAMIENTO MULTIDIMENCIONAL
Modelamiento Dimensional es una técnica para modelar bases de
datos simples y entendibles al usuario final. La idea fundamental es que el
usuario visualice fácilmente la relación que existe entre las distintas
componentes del modelo.
Consideremos un punto en el espacio. El espacio se define a través
de sus ejes coordenados (por ejemplo X, Y, Z). Un punto cualquiera de
este espacio quedará determinado por la intersección de tres valores
particulares de sus ejes.
Si se le asignan valores particulares a estos ejes. Digamos que el eje
X representa Productos, el eje Y representa el Mercado y, el eje Z
corresponde al Tiempo. Se podría tener por ejemplo, la siguiente
combinación:
Producto = Maderas, Mercado = Concepción, Tiempo = Septiembre2004.
La intersección de estos valores nos definirá un solo punto en
nuestro espacio. Si el punto que buscamos, lo definimos como la cantidad
de madera vendida, entonces se tendrá un valor específico y único para tal
combinación.
En el modelo multidimensional cada eje corresponde a una
dimensión particular. Entonces la dimensionalidad de nuestra base estará
dada por la cantidad de ejes (o dimensiones) que le asociemos.
Cuando una base puede ser visualizada como un cubo de tres o más
dimensiones, es más fácil para el usuario organizar la información e
imaginarse en ella cortando y rebanando el cubo a través de cada una de
sus dimensiones, para buscar la información deseada.
Para entender más el concepto, retomemos el ejemplo anterior. La
descripción de una organización típica es: “Nosotros vendemos productos
en varios mercados, y medimos nuestro desempeño en el tiempo”: Un
diseñador dimensional lo verá como: “Nosotros vendemos productos en
varios mercados, y medimos nuestro desempeño en el tiempo. Donde cada
palabra subrayada corresponde a una dimensión.
Base de Datos Multidimensionales y DataWarehouse
- 17 -
Esto puede visualizarse como un cubo (Figura 3), donde cada
punto dentro del cubo es una intersección de coordenadas definidas por
los lados de éste (dimensiones). Ejemplos de medidas son: unidades
producidas, unidades vendidas, costo de unidades producidas,
ganancias($) de unidades vendidas, etc.
Modelos de Datos
Un factor importante durante todo el diseño de una base de datos
multidimensional, fue expresado por Codd en 1983: “Ustedes pueden
pensar que el significado de los datos es simple...pero no es así”.Para
construir una base de datos multidimensional se debe primero tener claro
que existe una diferencia entre la estructura de la información y la
semántica de la información, y que esta última es mucho más difícil de
abarcar y que también es precisamente con ella con la que se trabaja en la
construcción de una base de datos multidimensional.
Aquí se encuentra la principal diferencia entre
operacionales y una base de datos multidimensional:
los
sistemas
Cada uno de ellos es sostenido por un modelo de datos diferente.
Los sistemas operacionales se sustentan en el Modelo Entidad Relación
Base de Datos Multidimensionales y DataWarehouse
- 18 -
(MER) y las bases de datos multidimensionales trabajan con el Modelo
Multidimensional.
Características del MER
- Maneja la redundancia fuera de los datos. Por lo tanto realizar un
cambio en la base significa tocarla en un solo lugar.
- Divide los datos en entidades, las que son representadas como
tablas en una base de datos.
- Los MER crecen fácilmente, haciéndose más y más complejos.
- Se puede apreciar la existencia de muchos caminos para ir de una
tabla a otra. Sería natural pensar que al tener diversos caminos para llegar
desde una tabla a otra, cualquiera de ellos entregaría el mismo resultado,
pero lamentablemente esto no siempre sucede así.
- El diagrama se visualiza simétrico, donde todas las tablas se
parecen, sin distinguir a priori la importancia de unas respecto a otras. No
es fácil de entender tanto para usuarios como para los diseñadores.
Características del Modelo Multidimensional
En general, la estructura básica de una base de datos
multidimensional para el Modelo Multidimensional está definida por dos
elementos: esquemas y tablas.
Tablas DW:
Como cualquier base de datos relacional, una base de datos
multidimensional se compone de tablas. Hay dos tipos básicos de tablas en
el Modelo Multidimensional:
Tablas Fact:
Contienen los valores de las medidas de negocios, por ejemplo:
ventas promedio en dólares, número de unidades vendidas, etc.
Base de Datos Multidimensionales y DataWarehouse
- 19 -
Es la tabla central en un esquema dimensional. Es en ella donde se
almacenan las mediciones numéricas del negocio. Estas medidas se
hacen sobre el grano, o unidad básica de la tabla.
El grano o la granularidad de la tabla queda determinada por el nivel
de detalle que se almacenará en la tabla. Por ejemplo, para el caso de
producto, mercado y tiempo antes visto, el grano puede ser la cantidad de
madera vendida ‘mensualmente’. El grano revierte las unidades atómicas
en el esquema dimensional.
Cada medida es tomada de la intersección de las dimensiones que la
definen.
Idealmente
está
compuesta
por
valores
numéricos,
continuamente evaluados y aditivos. La razón de estas características es
que así se facilita que los miles de registros que involucran una consulta
sean comprimidos en unas pocas líneas en un set de respuesta.
La clave de la tabla fact recibe el nombre de clave compuesta o
concatenada debido a que se forma de la composición (o concatenación)
de las llaves primarias de las tablas dimensionales a las que está unida.
Así entonces, se distinguen dos tipos de columnas en una tabla fact:
columnas fact y columnas key.
Donde la columna fact es la que almacena alguna medida de negocio
y una columna key forma parte de la clave compuesta de la tabla.
Tablas Lock_up:
Contienen el detalle de los valores que se encuentran asociados a la
tabla Fact.
Estas tablas son las que se conectan a la tabla fact, son las que
alimentan a la tabla fact. Una tabla lock_up almacena un conjunto de
valores que están relacionados a una dimensión particular. Tablas lock_up
no contienen hechos, en su lugar los valores en las tablas lock_up son los
elementos que determinan la estructura de las dimensiones. Así entonces,
en ellas existe el detalle de los valores de la dimensión respectiva.
Una tabla lock_up está compuesta de una primary key que identifica
unívocamente una fila en la tabla junto con un conjunto de atributos, y
dependiendo del diseño del modelo multidimensional puede existir una
foreign key que determina su relación con otra tabla lock_up. Para decidir
Base de Datos Multidimensionales y DataWarehouse
- 20 -
si un campo de datos es un atributo o un hecho se analiza la variación
de la medida a través del tiempo. Si varía continuamente implicaría
tomarlo como un hecho, caso contrario será un atributo.
Esquemas DW:
la colección de tablas en una base de datos multidimensional se
conoce como Esquema. Los esquemas caen dentro de dos categorías
básicas: esquemas estrellas y esquemas snowflake.
Base de Datos Multidimensionales y DataWarehouse
- 21 -
Esquema Estrella.
En general, el modelo multidimensional también se conoce con el
nombre de esquema estrella, pues su estructura base es similar: una tabla
central y un conjunto de tablas que la atienden radialmente. (Ver figura).
El esquema estrella deriva su nombre del hecho que su diagrama
forma una estrella, con puntos radiales desde el centro. El centro de la
estrella consiste de una o más tablas fact, y las puntas de la estrella son
las tablas lock_up.
Este modelo entonces, resulta ser asimétrico, pues hay una tabla
dominante en el centro con varias conexiones a las otras tablas. Las tablas
Lock-up tienen sólo la conexión a la tabla fact y ninguna más.
Base de Datos Multidimensionales y DataWarehouse
- 22 -
Esquema Snowflake.
La diferencia del esquema snowflake comparado con el esquema
estrella, está en la estructura de las tablas lock_up: las tablas lock_up en
el esquema snowflake están normalizadas. Cada tabla lock_up contiene
sólo el nivel que es clave primaria en la tabla y la foreign key de su
parentesco del nivel más cercano del diagrama.
Base de Datos Multidimensionales y DataWarehouse
- 23 -
Profundizaciones de Diseño
La Dimensión Tiempo
Virtualmente se garantiza que cada base de datos multidimensional
tendrá una tabla dimensional de tiempo, debido a la perspectiva de
almacenamiento histórica de la información. Usualmente es la primera
dimensión en definirse, con el objeto de establecer un orden, ya que la
inserción de datos en la base de datos multidimensional se hace por
intervalos de tiempo, lo cual asegura un orden implícito.
Dimensiones que varían lentamente en el tiempo
Son aquellas dimensiones que se mantienen “casi” constantes en el
tiempo y que pueden preservar la estructura dimensional independiente
del tiempo, con sólo agregados menores relativos para capturar la
naturaleza cambiante del tiempo.
Niveles
Un nivel representa un nivel particular de agregación dentro de una
dimensión; cada nivel sobre el nivel base representa la sumarización total
de los datos desde el nivel inferior. Para un mejor entendimiento, veamos
el siguiente ejemplo: consideremos una dimensión Tiempo con tres
niveles: Mes, Semestre, Año. El nivel Mes representa el nivel base, el nivel
Semestre representa la sumarización de los totales por Mes y el nivel A ño
representa la sumarización de los totales para los Semestres.
Sobre Jerarquías
A nivel de dimensiones es posible definir jerarquías, las cuales son
grupos de atributos que siguen un orden preestablecido. Una jerarquía
implica una organización de niveles dentro de una dimensión, con cada
nivel representando el total agregado de los datos del nivel inferior. Las
jerarquías definen cómo los datos son sumarizados desde los niveles más
bajos hacia los más altos. Una dimensión típica soporta una o más
jerarquías naturales. Una jerarquía puede pero no exige contener todos los
valores existentes en la dimensión.
Se debe evitar caer en la tentación de convertir en tablas
dimensionales separadas cada una de las relaciones muchos-a-uno
presentes en las jerarquías. Esta descomposición es irrelevante en el
Base de Datos Multidimensionales y DataWarehouse
- 24 -
planeamiento del espacio ocupado en disco y sólo dificulta el
entendimiento de la estructura para el usuario final, además de destruir
el desempeño del browsing.
Ejemplo:
Base de Datos Multidimensionales y DataWarehouse
- 25 -
BD RELACIONALES V/S
BD MULTIDIMENSIONALES
El sistema de gestión de bases de datos empleado por un sistema
DataWarehouse habitualmente es una base datos relacional (RDBMS) o
una base
datos multidimensional (MDBMS). Las bases
de datos
relacionales son empleadas para la construcción de grandes DWs
corporativos o pequeños DWs departamentales mientras que las bases de
datos multidimensionales se suelen utilizar para DWs departamentales.
Por otra parte, la base de datos de los DWs tiene requerimientos por
encima de los sistemas operacionales. Los factores claves a considerar son
la escalabilidad (tamaño
de la base de datos, complejidad de las
consultas y numero de usuarios) y el rendimiento (aplicaciones de
administración y procesamiento de consultas complejas). A medida que el
tamaño de la base de datos y la complejidad de de las consultas se
incrementa, es necesario considerar la utilización de arquitecturas de
hardware y sistemas de gestión de base de datos paralelas para lograr un
rendimiento satisfactorio.
Las bases de datos relacionales encuentran en su flexibilidad y
potencial para las consultas adecuadas, uno de sus puntos fuertes. Las
bases de datos relacionales son sabidamente más flexibles cuando se
utilizan con una estructura de los datos normalizados. Una consulta típica
OLAP, sin embargo, esta atraviesa las relaciones diversas y requieren
operaciones diversas de la ensambladura para poder acceder a estos
datos. El funcionamiento de los sistemas de la base de datos relacional
tradicional es mejor para las consultas basadas en llaves de eso las
consultas basadas en contenido.
Para tomar con cuidado los requisitos de este tipo de transacciones,
los SGBDs relacionales han agregado a las funcionalidades sus productos.
Estas funcionalidades incluyen extensiones a las estructuras del
almacenaje y los operadores relacionales, como también los proyectos
especializados de indexación.
La mayoría de los accesos a los almacenes de información explora la
naturaleza multidimensional de los datos. Por lo tanto, estructurando los
datos en bases de datos relacionales tradicionales en los proyectos del tipo
estrella o el copo de nieve se convirtió en el subir a un nivel
suficientemente común. Estos proyectos pueden utilizar las tablas
múltiples y técnicas para simular una estructura multidimensional.
Base de Datos Multidimensionales y DataWarehouse
- 26 -
También otro mecanismo no emparentado es posible utilizar alguno para
almacenar algo de agregaciones, mientras que otros se consiguen el
dinámicamente. Esto que surge, goza de las ventajas de un mecanismo
relacional, sacando la ventaja del cálculo anterior con ayuda de algunas
agregaciones.
Alternadamente, las bases de datos multidimensionales permiten
para manipular objetos multidimensionales directamente. Las dimensiones
que se crean, identifican la estructura de la base, puesto que la forma para
agregar una nueva dimensión puede ser laboriosa Algunas bases de datos
multidimensionales requieren una recarga completa de los datos, cuando
ocurre una reorganización. Por lo tanto, se recomiendan más para
ambientes más constantes donde no están los requisitos en los datos en
cambio constante.
Disponer de un sistema de bases de datos relacionales, no significa
disponer de un soporte directo para la toma de decisiones. Muchas de
estas decisiones se basan en un análisis de naturaleza multidimensional,
que se intentan resolver con la tecnología no orientada para esta
naturaleza. Este análisis multidimensional, parte de una visión de la
información como dimensiones de negocio.
Para los desarrolladores de aplicaciones acostumbrados a trabajar
con bases de datos relacionales, el diseño de una base de datos
multidimensional puede ser complejo o al menos, extraño. Pero en
general, el diseño de dimensiones y variables es mucho más sencillo e
intuitivo que un diseño relacional. Esto es debido a que las dimensiones y
variables son reflejo directo de los informes en papel utilizados por la
organización.
ROLAP VS MOLAP
Herramientas como "ORACLE, DISCOVERY/2000" han permitido
utilizar la Base de Datos Relacional para el análisis de informe. Este
análisis utiliza la información operacional de manera detallada sobre las
tablas de la BD real. Este acercamiento permite observar la información
actual y responder preguntas acerca de que es lo que esta sucediendo,
totalizar la información, combinar unos datos con otros, etc. Sin embargo,
soluciones OLAP basadas sobre modelos relacionales responden con mucha
dificultad a preguntas históricas, que incluyendo la noción del tiempo así
como análisis de escenarios, tendencias y proyecciones.
Base de Datos Multidimensionales y DataWarehouse
- 27 -
Una vez que se ha decidido emplear un entorno de consulta OLAP, se
ha de elegir entre R-OLAP y M-OLAP. M-OLAP es la arquitectura de base de
datos multidimensional en la que los datos se encuentran almacenados en
una base de datos relacional, la cual tiene forma de estrella (también
llamada copo de nieve o araña). En R-OLAP, en principio la base de datos
sólo almacena información relativa a los datos en detalle, evitando
acumulados (evitando redundancia).
En general, las ROLAP (OLAP relacional) son copia de datos de las
tablas, o sea, los conjuntos de datos son almacenados en tablas en la base
de datos relacionada de la fuente. Este tipo es el mejor cuando en la base
de datos es limitado el espacio sobre el Servidor de Análisis y el
funcionamiento de pregunta no es muy importante. Las BDs relacionales
contienen las dimensiones y definiciones de cubo pero los conjuntos son
calculados cuando ellos son necesarios, por lo tanto, requieren menos
espacio de almacenaje que lo multidimensionales.
En cambio en las MOLAP (OLAP Multidimensional) las agregaciones
de datos y una copia de los datos son almacenadas en una estructura
multidimensional sobre el ordenador de Servidor de Análisis. Es lo mejor
Base de Datos Multidimensionales y DataWarehouse
- 28 -
cuando el espacio de almacenaje suplementario está disponible sobre el
ordenador de Servidor de Análisis y el mejor funcionamiento para las
consultas es el deseado. Algunos MOLAP locales contienen todos los datos
necesarios para calcular conjuntos y puede ser usado fuera de línea. Estos
proporcionan el tiempo de respuesta de pregunta más rápido y el
funcionamiento, pero requieren el espacio de almacenaje adicional para la
copia suplementaria de datos de la mesa de hecho.
ROLAP
MOLAP
Muchas dimensiones
Diez o menos dimensiones.
Soportan análisis OLAP contra
grandes volúmenes de datos
Se comportan razonablemente en
volúmenes de datos más reducidos
(menos de 5Gb)
Herramienta flexible y general
Solución particular con volúmenes
de información y número de
dimensiones más modestos
¿Cuál es mejor ROLAP O MOLAP?
La respuesta corta a esta pregunta es "MOLAP." La mejor práctica
para los cubos de los servicios del análisis de las bases de datos es
intentar hacer que cada cubo sea MOLAP, porque da el mejor
funcionamiento de la pregunta. Hay razones de utilizar particularmente
ROLAP, pero son excepciones: Reglas MOLAP
Factores de procesamiento
MOLAP ejecuta una pregunta de la población del cubo del RDBMS,
trae todos los datos en el motor del proceso de servicios del análisis,
computa los agregados, y escribe los agregados y los datos del nivel a los
archivos de MOLAP. Por lo tanto, escribir los datos atómicos es rápido
ROLAP utiliza declaraciones del SQL para computar los agregados, y
los almacena en tablas relacionales. Hemos observado que estos procesos
parecen ser perceptiblemente más lentos que el proceso de MOLAP.
Base de Datos Multidimensionales y DataWarehouse
- 29 -
Almacenaje
El almacenaje de hechos como MOLAP (índices incluyendo de
MOLAP) es generalmente 15-20% del tamaño de los datos emparentados
(medidos como indexación de los datos en la tabla del hecho solamente)
El almacenaje de agregados como MOLAP (índices incluyendo) es
generalmente 10-20% del tamaño de los datos emparentados (datos
indexados de la tabla del hecho)
El almacenaje de agregados como ROLAP puede ser 100%-200% del
tamaño de los datos relacionales, o más si está agregado pesadamente, o
los datos sumarios relacionales se ponen en un índice pesadamente.
Consultas
MOLAP da el mejor funcionamiento de la consulta.
El funcionamiento de la pregunta de ROLAP es siempre peor que
funcionamiento de la pregunta de MOLAP.
¿Por qué recomiende MOLAP?
El funcionamiento es más rápido de las consultas.
El coste del almacenaje es comparable el de un índice multi-columna
en comparación con la tabla relacional.
¿Por qué recomiende ROLAP?
OLAP verdaderamente en tiempo real requiere el almacenaje de
ROLAP de la partición actualizada del hecho. En este panorama la mayoría
de los clientes utilizan el almacenaje de MOLAP para las particiones
inactivas. Pero para conseguir actualizaciones en tiempo real de la
dimensión, usted necesita el almacenaje de la dimensión de ROLAP, que
significa el almacenaje del hecho de la necesidad ROLAP para cualquier
cubo que incluya la dimensión en tiempo real.
Base de Datos Multidimensionales y DataWarehouse
- 30 -
¿Por qué no recomendar ROLAP?
Aplicaciones el almacenaje más total y complicado para las
consultas.
Tiene peor funcionamiento para consultas complicadas que requieren
de revisar más tablas y mas datos
Tiene el funcionamiento de proceso peor, por que requiere de mas
recursos.
Para una visión más general. Podemos hacer un análisis práctico
sobre base de datos multidimensionales, en contra posición con las bases
de datos relacionales, las cual provee las siguientes capacidades con
ejemplos:
* Análisis comparativo o relativo: ¿Cómo las ventas actuales se
comportan con respecto a las ventas esperadas?
* Reporte de excepciones o tendencias: ¿Cuáles productos se han
vendido menos del 5% de lo esperado y representan más del 2% de las
ventas totales?
* Modelado, Proyecciones: ¿Qué pasaría si se agregan 3 vendedores
mas a la región central? El análisis ROLAP a pesar de ser más sencillo de
construir (puesto que se apoya en la Base de Datos de producción) y mas
fácil de mantener (los datos reales siempre están disponibles), presentar
algunas desventajas:
* La mayoría de necesidades de análisis requieren que la
información sea procesada en un modelo de series de tiempo, de manera
tal que apoyen las decisiones de alto nivel en actividades como en
proyecciones de presupuestos. En un sistema relacional, donde el
Lenguaje de acceso es SQL, preguntas como: ¿cuanto han variado mis
ventas de este mes con respecto al promedio móvil del último año?, son
extremadamente difíciles de responder.
* Debido a que la Base de Datos operacional se encuentra altamente
estructurada, un cambio en los requerimientos, o la inclusión de una
nueva variable para el análisis, representa un cambio mayor en el modelo
de la Base de Datos. La flexibilidad es un punto muy importante.
Base de Datos Multidimensionales y DataWarehouse
- 31 -
* El tiempo para construir un modelo multidimensional basado en
una estructura relacional de la información, con el objeto de resolver los
dos inconvenientes anteriores, es mucho mayor que el tiempo respectivo
para crear un verdadero modelo multidimensional y por lo tanto, el costo
es mucho mayor.
Base de Datos Multidimensionales y DataWarehouse
- 32 -
Transformación de DB relacionales a
multidimensionales con DW:
Podemos apreciar que en este ejemplo de base de datos relacional
hay mas de una correspondencia entre los campos. En esencia esta tabla
tiene una sola dimensión, en donde se tienen las ventas de cada producto
por región. Una compañía tiene tres productos (arandelas, tornillos,
tuercas) que se venden en tres territorios (Este, Oeste, Central). A
continuación se muestra la tabla relacional:
PRODUCTO
REGION #
VENTAS
Arandelas
Arandelas
Arandelas
Este
Oeste
Central
50000
60000
100000
Tornillos
Este
40000
Tornillos
Oeste
70000
Tornillos
Central
80000
Tuercas
Tuercas
Tuercas
Este
Oeste
Central
90000
120000
30000
Un camino para representar esta tabla en una forma mas óptima es
a través de una matriz de dos dimensiones como lo muestra el próximo
diagrama:
ESTE
OESTE
CENTRAL
Arandelas
50000
60000
100000
Tornillos
40000
70000
80000
Tuercas
90000
120000
140000
De esta forma se pueden realizar preguntas como ¿Cuáles fueron las
ventas de arandelas en el Este?, ¿Cuáles fueron las ventas de Tornillos en
el Oeste?.
Base de Datos Multidimensionales y DataWarehouse
- 33 -
En casos simples no es necesario colocar la información en bases
de datos multidimensionales, pero si nos hacemos preguntas como:
¿Cuál fue el total de ventas en el Este o en el Oeste? y tenemos un millón
de productos la selección a través de un “query” nos tomaría mucho
tiempo en una base de datos relacional mientras que usando la tecnología
multidimensional OLAP nos tomaría escasos segundos.
Con las bases de datos relacionales, el tiempo de búsqueda es
aproximadamente proporcional al número de archivos recuperados. Así
que tomaría cuatro veces como mucho recuperar un total como “las
Ventas Totales para el Este” mas que el que habría para recuperar un solo
registro como “Lavaderos para el Este”. Para calcular las ventas Totales
para el Este, cuatro registros tienen que ser recuperados y sumados. Si
preguntáramos “¿Cuales son las ventas totales para todas las regiones?”
tendríamos que calcular el total de los 12 números en la base de datos
(cuatro productos medidos en tres regiones). Esto tomaría 12 veces de
tiempo.
Base de Datos Multidimensionales y DataWarehouse
- 34 -
DATAWAREHOUSE
DEFINICION DE DATAWAREHOUSE
En primer lugar, DW no es un producto que pueda ser comprado en
el mercado, sino más bien un concepto que debe ser construido en base a
procesos y técnicas. DW es una combinación de conceptos y tecnología
que cambian significativamente la manera en que es entregada la
información a la gente de negocios. El objetivo principal es satisfacer los
requerimientos de información internos de la empresa para una mejor
gestión, con eficiencia y facilidad de acceso.
Existen muchas definiciones para el DW, la más conocida fue
propuesta por Inmon (considerado el padre de las Bases de Datos) en
1992: “Un DW es una colección de datos orientados a temas, integrados,
no-volátiles y variante en el tiempo, organizados para soportar
necesidades empresariales”. En 1993, Susan Osterfeldt publica una
definición que sin duda acierta en la clave del DW: “Yo considero al DW
como algo que provee dos beneficios empresariales reales: Integración y
Acceso de datos. DW elimina una gran cantidad de datos inútiles y no
deseados, como también el procesamiento desde el ambiente operacional
clásico”.
Esta última definición refleja claramente el principal beneficio que el
datawarehouse aporta a la empresa, eliminar aquellos datos que
obstaculizan la labor de análisis de información y entregar la información
que se requiere en la forma más apropiada, facilitando así el proceso de
gestión.
El concepto de Data Warehouse surge como solución a las
necesidades información reales globales de la empresa que los sistemas
operacionales no pueden satisfacer. Este término se traduce literalmente
como Almacén de Datos, aunque evidentemente si el Data Warehouse
fuese exclusivamente un almacén de datos, los problemas seguirían siendo
los mismos que en los Centros de Información.
La ventaja principal de este tipo de sistemas se basa en su concepto
fundamental, la estructura de la información. Este concepto significa el
almacenamiento de información homogénea y fiable, en una estructura
Base de Datos Multidimensionales y DataWarehouse
- 35 -
basada en la consulta y el tratamiento jerarquizado de la misma, y en un
entorno diferenciado de los sistemas operacionales
Disponer de un sistema de bases de datos relacionales, no significa
disponer de un soporte directo para la toma de decisiones. Muchas de
estas decisiones se basan en una análisis de naturaleza multidimensional,
que se intentan resolver con la tecnología no orientada para esta
naturaleza. Este análisis multidimensional, parte de una visión de la
información como dimensiones de negocio.
Para realizar este tipo de análisis multidimensional debemos de
utilizar lo que se conoce como Bases de Datos Multidimensionales (BDM).
Este tipo de BD diseñada para optimizar la consulta y almacenamiento de
grandes volúmenes de datos que están íntimamente relacionados y que
deben verse y analizarse desde distintas perspectivas. A cada perspectiva
se le denomina dimensión. Obtener respuestas a las preguntas típicas de
una empresa exige con cierta frecuencia ver los datos bajo diferentes
perspectivas.
Este nuevo enfoque propone una estructura de almacenamiento
basada en hiper-cubos en lugar de tablas planas. Para entender mejor el
concepto de BDM y de dimensiones o perspectivas en este entorno vamos
a utilizar un ejemplo de un sistema de gestión de productos.
Base de Datos Multidimensionales y DataWarehouse
- 36 -
Las jerarquías que se podrían manejar para
el número de dimensiones serán: zona
geográfica, tipo de producto y tiempo de
resolución. La visión general de la
información
de
ventas
para
estas
dimensiones definidas, la representaremos,
gráficamente como el cubo de la derecha.
Un gerente de una zona estaría interesado
en visualizar la información para su zona en
el tiempo para todos los productos que
distribuye,
lo
podría
tener
una
representación gráfica como el cubo de la
derecha:
Un director de producto, sin embargo
querría examinar la distribución geográfica
de un producto, para toda la información
histórica almacenada en el Data Warehouse.
Esto se podría representar como la siguiente
figura:
O se podría también examinar los datos en
un determinado momento o una visión
particularizada.
Base de Datos Multidimensionales y DataWarehouse
- 37 -
SISTEMAS DE INFORMACIÓN
Los sistemas de información se han dividido de acuerdo al siguiente
esquema:
•
Sistemas Estratégicos, orientados a soportar la toma de
decisiones, facilitan la labor de la dirección, proporcionándole un
soporte básico, en forma de mejor información, para la toma de
decisiones.
Destacan entre estos sistemas: los Sistemas de Información
Gerencial (MIS), Sistemas de Información Ejecutivos (EIS), Sistemas
de Información Geo-referencial (GIS), Sistemas de Simulación de
Negocios (BIS y que en la práctica son sistemas expertos o de
Inteligencia Artificial - AI).
•
Sistemas Tácticos, diseñados para soportar las actividades de
coordinación de actividades y manejo de documentación, definidos
para facilitar consultas sobre información almacenada en el sistema,
proporcionar informes y, en resumen, facilitar la gestión
independiente de la información por parte de los niveles intermedios
de la organización.
Destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemas
de Transmisión de Mensajería (Correo electrónico y Servidor de fax),
coordinación y control de tareas (Work Flow) y tratamiento de
documentos (Imagen, Trámite y Bases de Datos Documentales).
Base de Datos Multidimensionales y DataWarehouse
- 38 -
•
•
Sistemas Técnico - Operativos, que cubren operaciones
tradicionales de captura masiva de datos (Data Entry) y servicios
básicos de tratamiento de datos, con tareas predefinidas
(contabilidad, facturación, almacén, presupuesto, personal y otros
sistemas administrativos). Estos sistemas están evolucionando con
la irrupción de sistemas multimedia, bases de datos relacionales más
avanzadas y data warehousing.
Sistemas Interinstitucionales, nace a partir de la generalización
de las redes informáticas de alcance nacional y global (INTERNET),
que se convierten en vehículo de comunicación entre la organización
y el mercado, no importa dónde esté la organización (INTRANET), el
mercado de la institución (EXTRANET) y el mercado (Red Global).
Sin embargo, la tecnología data warehousing basa sus conceptos y
diferencias entre dos tipos fundamentales de sistemas de información en
todas las organizaciones: los sistemas técnico - operacionales y los
sistemas de soporte de decisiones. Este último es la base de un data
warehouse.
Base de Datos Multidimensionales y DataWarehouse
- 39 -
CARACTERÍSTICAS DE UN DATA WAREHOUSE
Entre las principales se tiene:
•
•
•
•
Orientado al tema
Integrado
De tiempo variante
No volátil
Orientado a Temas
Una primera característica del data warehouse es que la información
se clasifica en base a los aspectos que son de interés para la empresa.
Siendo así, los datos tomados están en contraste con los clásicos procesos
orientados a las aplicaciones. En la Figura N° 1 se muestra el contraste
entre los dos tipos de orientaciones.
En el ambiente data warehousing se organiza alrededor de sujetos
tales como cliente, vendedor, producto y actividad. Por ejemplo, para un
fabricante, éstos pueden ser clientes, productos, proveedores y
vendedores. Para una universidad pueden ser estudiantes, clases y
profesores. Para un hospital pueden ser pacientes, personal médico,
medicamentos, etc.
Las diferencias entre la orientación de procesos y funciones de las
aplicaciones y la orientación a temas, radican en el contenido de la data a
escala detallada. En el data warehouse se excluye la información que no
será usada por el proceso de sistemas de soporte de decisiones, mientras
que la información de las orientadas a las aplicaciones, contiene datos
para satisfacer de inmediato los requerimientos funcionales y de proceso,
que pueden ser usados o no por el analista de soporte de decisiones.
Otra diferencia importante está en la interrelación de la información.
Los datos operacionales mantienen una relación continua entre dos o más
tablas basadas en una regla comercial que está vigente. Las del data
warehouse miden un espectro de tiempo y las relaciones encontradas en el
data warehouse son muchas. Muchas de las reglas comerciales (y sus
correspondientes relaciones de datos) se representan en el data
warehouse, entre dos o más tablas
Base de Datos Multidimensionales y DataWarehouse
- 40 -
Base de Datos Multidimensionales y DataWarehouse
- 41 -
Integración
El aspecto más importante del ambiente data warehousing es que la
información encontrada al interior está siempre integrada.
El contraste de la integración encontrada en el data warehouse con
la carencia de integración del ambiente de aplicaciones, se muestran en la
Figura N° 2, con diferencias bien marcadas, esto producto típicamente de
las “fuentes múltiples”
Fuentes Múltiples
Como un mismo elemento puede derivarse desde fuentes múltiples
se da el caso que muestra la figura, en que las características físicas de los
datos entre una y otra fuente producen inconsistencia en medidas de
unidades, formatos de fecha y otros.
A continuación analizaremos dos problemas de fuentes múltiples
bien típicos: el de codificación y el de medida de los atributos
Codificación
Los diseñadores de aplicaciones codifican el campo GÉNERO en
varias formas. Algunos pueden representar GÉNERO como una "M" y una
"F", otros como un "1" y un "0", otros como una "X" y una "Y" e inclusive,
como "masculino" y "femenino".
No importa mucho cómo el GENERO llega al data warehouse.
Probablemente "M" y "F" sean tan buenas como cualquier otra
representación. Lo importante es que sea de cualquier fuente de donde
venga, el GENERO debe llegar al data warehouse en un estado integrado
uniforme.
Por lo tanto, cuando el GENERO se carga en el data warehouse
desde una aplicación, donde ha sido representado en formato "M" y "F",
los datos deben convertirse al formato del data warehouse.
Base de Datos Multidimensionales y DataWarehouse
- 42 -
Medida de atributos
Los diseñadores de aplicaciones miden las unidades de medida de
las tuberías en una variedad de formas. Un diseñador puede almacenar los
datos de tuberías en centímetros, otros en pulgadas, otros en millones de
pies cúbicos por segundo y otros en yardas.
Al dar medidas a los atributos, la transformación traduce las diversas
unidades de medida usadas en las diferentes bases de datos para
transformarlas en una medida estándar común.
Cualquiera que sea la fuente, cuando la información de la tubería
llegue al data warehouse necesitará ser medida de la misma manera.
Base de Datos Multidimensionales y DataWarehouse
- 43 -
Base de Datos Multidimensionales y DataWarehouse
- 44 -
Proceso de integración: transformación de Datos
Como se explicaba anteriormente, la inconsistencia en los formatos
de datos y la codificación, típicamente existen cuando múltiples bases de
datos contribuyen al data warehouse.
En la Figura N° 9 se ilustra una forma de inconsistencia, en la cual el
género se codifica de manera diferente en tres bases de datos diferentes.
Los procesos de transformación de datos se desarrollan para direccionar
estas inconsistencias.
La transformación de datos también se encarga de las
inconsistencias en el contenido de datos. Una vez que se toma la decisión
sobre que reglas de transformación serán establecidas, deben crearse e
incluirse las definiciones en las rutinas de transformación.
Base de Datos Multidimensionales y DataWarehouse
- 45 -
De Tiempo Variante
Los datos históricos son de poco uso en el procesamiento
operacional. La información del depósito por el contraste, debe incluir los
datos históricos para usarse en la identificación y evaluación de
tendencias. (Ver Figura N° 3).
El tiempo variante se muestra de varias maneras:
1. La más simple es que la información representa los datos sobre un
horizonte largo de tiempo - desde cinco a diez años. El horizonte de
tiempo representado para el ambiente operacional es mucho más
corto - desde valores actuales hasta unos cuantos meses
2. La segunda manera en la que se muestra el tiempo variante en el
data warehouse está en la estructura clave. Cada estructura clave en
el data warehouse contiene, implícita o explícitamente, un elemento
de tiempo como día, semana, mes, etc.
Base de Datos Multidimensionales y DataWarehouse
- 46 -
El elemento de tiempo está casi siempre al pie de la clave concatenada,
encontrada en el data warehouse. En ocasiones, el elemento de tiempo
existirá implícitamente, como el caso en que un archivo completo se
duplica al final del mes, o al cuarto.
3. La tercera manera en que aparece el tiempo variante es cuando la
información del data warehouse, una vez registrada correctamente,
no puede ser actualizada. La información del data warehouse es,
para todos los propósitos prácticos, una serie larga de "snapshots"
(vistas instantáneas).
No volatil
La información es útil sólo cuando es estable. Los datos
operacionales cambian sobre una base momento a momento. La
perspectiva más grande, esencial para el análisis y la toma de decisiones,
requiere una base de datos estable.
En la Figura N° 4 se muestra que la actualización (insertar, borrar y
modificar), se hace regularmente en el ambiente operacional sobre una
base de registro por registro. Pero la manipulación básica de los datos que
ocurre en el data warehouse es mucho más simple. Hay dos únicos tipos
de operaciones: la carga inicial de datos y el acceso a los mismos. No hay
actualización de datos (en el sentido general de actualización) en el
depósito, como una parte normal de procesamiento.
Base de Datos Multidimensionales y DataWarehouse
- 47 -
Base de Datos Multidimensionales y DataWarehouse
- 48 -
ESTRUCTURA DEL DATA WAREHOUSE
Los data warehouse tienen una estructura distinta. Hay niveles
diferentes de esquematización y detalle que delimitan el data warehouse.
La estructura de un data warehouse se muestra en la Figura N° 5.
Detalle de datos actuales
En gran parte, el interés más importante radica en el detalle de los
datos actuales, debido a que:
•
•
•
Refleja las ocurrencias más recientes, las cuales son de gran
interés
Es voluminoso, ya que se almacena al más bajo nivel de
granularidad.
Casi siempre se almacena en disco, el cual es de fácil acceso,
aunque su administración sea costosa y compleja.
Detalle de datos antiguos
La data antigua es aquella que se almacena sobre alguna forma de
almacenamiento masivo. No es frecuentemente su acceso y se almacena a
un nivel de detalle, consistente con los datos detallados actuales.
Datos ligeramente resumidos
La data ligeramente resumida es aquella que proviene desde un bajo
nivel de detalle encontrado al nivel de detalle actual. Los puntos en los que
se basa el diseñador para construirlo son:
•
•
Que la unidad de tiempo se
esquematización hecha.
Qué contenidos (atributos) tendrá
resumida.
encuentre
la
data
Base de Datos Multidimensionales y DataWarehouse
sobre
la
ligeramente
- 49 -
Base de Datos Multidimensionales y DataWarehouse
- 50 -
A veces se encuentra en el ambiente de data warehouse y en otros,
fuera del límite de la tecnología que ampara al data warehouse. (De
todos modos, los datos completamente resumidos son parte del data
warehouse sin considerar donde se alojan los datos físicamente.)
Meta data
El componente final del data warehouse es el de la meta data. De
muchas maneras la meta data se sitúa en una dimensión diferente al de
otros datos del data warehouse, debido a que su contenido no es tomado
directamente desde el ambiente operacional.
La meta data juega un rol especial y muy importante en el data
warehouse y es usada como:
•
•
•
Un directorio para ayudar al analista a ubicar los contenidos
del data warehouse.
Una guía para la trazabilidad de los datos, de cómo se
transforma, del ambiente operacional al de data warehouse.
Una guía de los algoritmos usados para la esquematización
entre el detalle de datos actual, con los datos ligeramente
resumidos y éstos, con los datos completamente resumidos,
etc.
La meta data juega un papel mucho más importante en un ambiente
data warehousing que en un operacional clásico.
La meta data contiene (al menos):
•
•
•
La estructura de los datos
Los algoritmos usados para la esquematización
La trazabilidad desde el ambiente operacional al data warehouse
A fin de recordar los diferentes niveles de los datos encontrados en
el data warehouse, considere el ejemplo mostrado en la Figura N° 6.
Base de Datos Multidimensionales y DataWarehouse
- 51 -
Base de Datos Multidimensionales y DataWarehouse
- 52 -
El detalle de ventas antiguas son las que se encuentran antes de
1992. Todos los detalles de ventas desde 1982 (o cuando el diseñador
inició la colección de los archivos) son almacenados en el nivel de detalle
de datos más antiguo.
El detalle actual contiene información desde 1992 a 1993
(suponiendo que 1993 es el año actual). En general, el detalle de ventas
no se ubica en el nivel de detalle actual hasta que haya pasado, por lo
menos, veinticuatro horas desde que la información de ventas llegue a
estar disponible en el ambiente operacional.
En otras palabras, habría un retraso de tiempo de por lo menos
veinticuatro horas, entre el tiempo en que en el ambiente operacional se
haya hecho un nuevo ingreso de la venta y el momento cuando la
información de la venta haya ingresado al data warehouse.
El detalle de las ventas son resumidas semanalmente por línea de
subproducto y por región, para producir un almacenamiento de datos
ligeramente resumidos.
El detalle de ventas semanal es adicionalmente resumido en forma
mensual, según una gama de líneas, para producir los datos
completamente resumidos.
Base de Datos Multidimensionales y DataWarehouse
- 53 -
COMPONENTES DE UN DATA WAREHOUSE
Antes de tener un Data Warehouse en la empresa se tiene que
hacer un estudio de cuáles son los requerimientos necesarios para su
implantación:
Hardware
Software de almacenamiento (SGBD)
Software de extracción y manipulación de datos
Herramientas Middleware
Hardware
En este sentido son críticas, a la hora de evaluar uno u otra
infraestructura hardware, hay dos características principales:
Por un lado, a este tipo de sistemas suelen acceder pocos usuarios
con unas necesidades muy grandes de información, a diferencia de los
sistemas operacionales, con muchos usuarios y necesidades puntuales de
información. Debido a la flexibilidad requerida a la hora de hacer consultas
complejas e imprevistas, y al gran tamaño de información manejada, son
necesarias unas altas prestaciones de la máquina.
Por otro lado, debido a que estos sistemas suelen comenzar con
una funcionalidad limitada, que se va expandiendo con el tiempo, es
necesario que los sistemas sean escalables para dar soporte a las
necesidades crecientes de equipamiento.
Recomendamos la visita a la dirección Internet: http://www.tpc.org
En donde la Transaction Processing Council (de la que son miembros
AMD, DELL, Bull, Compaq, HP, Intel, Fujitsu, Microsoft, IBM, Oracle, NCR ,
Sun, entre otros), realiza una comparativa entre las máquinas de sus
miembros, proporcionando para diferentes modelos y diferentes
configuraciones de Sistemas Operativos y Software de Base de Datos, un
análisis de rendimiento (throughput), y un resumen de características
(precio, número de procesadores, arquitectura y futuras versiones y fecha
de disponibilidad).
Base de Datos Multidimensionales y DataWarehouse
- 54 -
Software de almacenamiento (SGBD)
El sistema que gestione el almacenamiento de la información
(Sistema de Gestión de Base de Datos o SGBD), es otro elemento clave en
un Data Warehouse. Independientemente de si la información almacenada
en el Data Warehouse se puede analizar mediante visualización
multidimensional, el SGBD puede estar realizado utilizando tecnología de
Bases de Datos Relaciónales o Multidimensionales.
Las bases de datos relacionales, se han popularizado en los sistemas
operacionales, pero se han visto incapaces de enfrentarse a las
necesidades de información de los entornos Data Warehouse. Por ello, y
puesto que, las necesidades de información suelen atender a consultas
multidimensionales, las BD multidimensionales, parten con ventaja. Las
bases de datos post-relacionales (multidimensionales), abren un mayor
abanico de elección. Estas bases de datos post-relacionales, parten de una
tecnología consolidada y dan respuesta al agotamiento de las posibilidades
de los sistemas de gestión de bases de datos relacionales, ofreciendo las
mismas prestaciones aunque implantadas en una arquitectura diseñada de
forma más eficiente.
Software de extracción y manipulación de datos
Para esta labor, que entra dentro del ámbito de los profesionales de
tecnologías de la información, es crítico el poder contar con herramientas
que permitan controlar y automatizar las necesidades de actualización del
Data Warehouse.
Estas
herramientas
funcionalidades:
deberán
proporcionar
las
siguientes
Control de la extracción de los datos y su automatización,
disminuyendo el tiempo empleado en el descubrimiento de procesos no
documentados, minimizando el margen de error y permitiendo mayor
flexibilidad.
Acceso a diferentes tecnologías, haciendo un uso efectivo del
hardware, software, datos y recursos humanos existentes.
Base de Datos Multidimensionales y DataWarehouse
- 55 -
Proporcionar la gestión integrada del Data Warehouse y los Data
Marts existentes, integrando la extracción, transformación y carga para
la construcción del Data Warehouse corporativo y de los Data Marts.
Uso de la arquitectura de meta datos, facilitando la definición de
los objetos de negocio y las reglas de consolidación.
Acceso a una gran variedad de fuentes de datos diferentes.
Manejo de excepciones.
Interfaz independiente de hardware.
Soporte en la explotación del Data Warehouse.
A veces, no se suele prestar la suficiente atención a esta fase de la
gestión del Data Warehouse, aun cuando supone una gran parte del
esfuerzo en la construcción de un Data Warehouse. Existen multitud de
herramientas disponibles en el mercado que automatizan parte del
trabajo, para lo cual
Herramientas Middleware
Como herramientas de soporte a la fase de gestión de un Data
Warehouse, se describirá a continuación dos tipos de herramientas:
Por un lado herramientas Middleware, que provean conectividad
entre entornos diferentes, para ayudar en la gestión del Data Warehouse.
Por otro, analizadores y aceleradores de consultas, que permitan
optimizar tiempos de respuesta en las necesidades analíticas, o de carga
de los diferentes datos desde los sistemas operacionales hasta el Data
Warehouse.
Las herramientas Middleware deben ser escalables siendo capaces de
crecer conforme crece el Data Warehouse, sin problemas de volúmenes.
También deben ser flexibles y robustas, sin olvidarse de proporcionar un
rendimiento adecuado.
Con el uso de estas herramientas de Middleware lograremos:
Maximizar los recursos
plataforma más adecuada.
ejecutando
las
aplicaciones
Base de Datos Multidimensionales y DataWarehouse
en
la
- 56 -
Integrar los datos y aplicaciones existentes en una plataforma
distribuida.
Automatizar la distribución de datos y aplicaciones desde un
sistema centralizado.
Reducir tráfico en la red, balanceando los niveles de cliente
servidor.
Explotar las capacidades de sistemas remotos sin tener que
aprender múltiples entornos operativos.
Asegurar la escalabilidad del sistema.
Desarrollar aplicaciones en local y explotarlas en el servidor.
Los analizadores y aceleradores de consultas trabajan volcando
sobre un archivo las consultas ejecutadas y datos asociados a las mismas
(tiempo de respuesta, tablas accedidas, método de acceso, etc.). Este
archivo se analiza automáticamente o mediante la supervisión del
administrador de datos, para mejorar los tiempos de acceso.
El implantar un sistema analizador de consultas, en el entorno real
tiene además una serie de ventajas tales como:
Se pueden monitorizar los tiempos de respuesta del entorno real.
Se pueden implantar mecanismos de optimización de las
consultas, reduciendo la carga del sistema.
Se puede imputar costes a los usuarios por el coste del Data
Warehouse.
Base de Datos Multidimensionales y DataWarehouse
- 57 -
OPERACIONES EN UN DATA WAREHOUSE
En la Figura N° 8 se muestra algunos de los tipos de operaciones
que se efectúan dentro de un ambiente data warehousing.
Sistemas Operacionales
Los datos administrados por los sistemas de aplicación operacionales
son típicamente la fuente principal de datos para el data warehouse.
Base de Datos Multidimensionales y DataWarehouse
- 58 -
Extracción, Transformación y Carga de los Datos
Se requieren herramientas de gestión de datos para extraer datos
desde bases de datos y/o archivos operacionales, luego es necesario
manipular o transformar los datos antes de cargar los resultados en el
data warehouse.
Tomar los datos desde varias bases de datos operacionales y
transformarlos en datos requeridos para el depósito, se refiere a la
transformación o a la integración de datos (visto ya en el capitulo de las
“Características de un DataWarehouse”). Las bases de datos
operacionales, diseñadas para el soporte de varias aplicaciones de
producción, frecuentemente difieren en el formato., todas estas
inconsistencias deben resolverse antes que los elementos de datos sean
almacenados en el data warehouse.
Meta data
Otro paso necesario es crear la meta data. La meta data describe los
contenidos del data warehouse. La meta data consiste de definiciones de
los elementos de datos en el depósito, sistema(s) del (os) elemento(s)
fuente. Como la data, se integra y transforma antes de ser almacenada en
información similar. (Más información en el capitulo de “Estructura del
DataWarehouse”)
Acceso de usuario final
Los usuarios acceden al data warehouse por medio de herramientas
de productividad basadas en GUI (Graphical User Interface - Interface
gráfica de usuario).
Estos pueden incluir software de consultas, generadores de reportes,
procesamiento analítico en línea, herramientas data/visual mining, etc.,
dependiendo de los tipos de usuarios y sus requerimientos particulares.
Sin embargo, una sola herramienta no satisface todos los requerimientos,
por lo que es necesaria la integración de una serie de herramientas.
Base de Datos Multidimensionales y DataWarehouse
- 59 -
Plataforma del data warehouse
La plataforma para el data warehouse es casi siempre un servidor
exclusivo.
Los extractos de la data integrada/transformada se cargan en el data
warehouse. La elección de la plataforma es crítica. El depósito crecerá y
hay que comprender los requerimientos después de 3 o 5 años.
El sistema de depósito ejecuta las consultas que se pasa a los datos
por el software de acceso a los datos del usuario. Aunque un usuario
visualiza las consultas desde el punto de vista de una interfase gráfica, las
consultas típicamente se formulan como pedidos SQL, porque SQL es un
lenguaje universal y el estándar de hecho para el acceso a datos.
Datos Externos
Dependiendo de la aplicación, el alcance del data warehouse puede
extenderse por la capacidad de acceder a la data externa. Por ejemplo, los
datos accesibles por medio de servicios de computadora en línea y/o vía
Internet, pueden estar disponibles a los usuarios del data warehouse.
Base de Datos Multidimensionales y DataWarehouse
- 60 -
FLUJO DE DATOS
Existe un flujo de datos normal y predecible dentro del data
warehouse. La Figura N° 10 muestra ese flujo.
Los datos ingresan al data warehouse
operacional. (Hay pocas excepciones a esta regla).
desde
el
ambiente
Al ingresar al data warehouse, la información va al nivel de detalle
actual, tal como se muestra. Se queda allí y se usa hasta que ocurra uno
de los tres eventos siguientes:
Base de Datos Multidimensionales y DataWarehouse
- 61 -
•
•
•
Sea eliminado
Sea resumido
Sea archivado
Con el proceso de des-actualización en un data warehouse se mueve
el detalle de la data actual a data antigua, basado en el tiempo de los
datos. El proceso de esquematización usa el detalle de los datos para
calcular los datos en forma ligera y completamente resumidos.
Base de Datos Multidimensionales y DataWarehouse
- 62 -
TECNICAS DE EXPLOTACION DE UN DATA
WAREHOUSE
Dentro del esquema de Gestión y Explotación del Data Warehouse
que se muestra en el gráfico, pasamos a detallar las posibilidades que nos
ofrece esta última fase.
En que se examinara:
1. El uso que se puede realizar de las utilidades OLAP del Data
Warehouse para análisis multidimensionales,
2. Las facilidades de obtención de información mediante consultas e
informes libres, y el uso de técnicas de Data Mining que nos permitan
descubrir "información oculta" en los datos mediante el uso de técnicas
estadísticas.
Base de Datos Multidimensionales y DataWarehouse
- 63 -
Sistemas OLAP
El uso del procesamiento analítico (OLAP, On Line Analytical
Processing) es un componente clave en el proceso del data warehousing y
los servicios OLAP proporcionan la funcionalidad esencial para una gran
variedad de aplicaciones que van desde informes corporativos hasta
soporte avanzado de decisiones. Los servicios OLAP incrementan el acceso
a las herramientas analíticas sofisticadas y puede reducir el costo del
almacenamiento de datos. Ahora los hechos sustituyen a la intuición, así,
los analistas, gerentes y ejecutivos utilizan OLAP para tomar decisiones
mejor informadas y más eficientes.
Las aplicaciones OLAP proporcionan las siguientes características:
Rápido: Proporciona la información al usuario a una velocidad
constante. La mayoría de las peticiones se deben de responder a la mayor
brevedad posible.
Análisis: Realiza análisis estadísticos de los datos, predefinidos por
el programador de la aplicación o definidos ad hoc por el usuario.
Multidimensional: es la característica esencial del OLAP.
Información: Acceso a todos los datos e información necesaria,
donde sea que ésta resida y no esté limitada por el volumen.
La funcionalidad de los sistemas OLAP se caracteriza por realizar un
análisis multidimensional de datos corporativos, que soportan los análisis
del usuario, seleccionando la información a obtener.
Consultas o Informes Libres (Query & Reporting)
Las consultas o informes libres trabajan tanto sobre el detalle como
sobre las agregaciones de la información. Realizar este tipo de explotación
en un almacén de datos supone una optimización del tradicional entorno
de informes (reporting), dado que el Data Warehouse mantiene una
estructura y una tecnología mucho más apropiada para este tipo de
solicitudes.
Base de Datos Multidimensionales y DataWarehouse
- 64 -
Los sistemas de "Query & Reporting", no basados en almacenes de
datos (DW) se caracterizan por la complejidad de las consultas, los
altísimos tiempos de respuesta y la interferencia con otros procesos
informáticos que compartan su entorno.
La explotación del Data Warehouse mediante "Query & Reporting"
debe permitir una gradación de la flexibilidad de acceso, proporcional a la
experiencia y formación del usuario. A este respecto, se recomienda el
mantenimiento de al menos tres niveles de dificultad:
Los usuarios poco expertos podrán solicitar la ejecución de
informes
o
consultas
predefinidas
según
unos
parámetros
predeterminados.
Los usuarios con cierta experiencia podrán generar consultas
flexibles mediante una aplicación que proporcione una interfaz gráfica de
ayuda.
Los usuarios altamente experimentados podrán escribir, total o
parcialmente, la consulta en un lenguaje de interrogación de datos.
Data Minig (Minería de Datos)
El Data Mining es un proceso que, a través del descubrimiento y
cuantificación de relaciones predictivas en los datos, permite transformar
la información disponible en conocimiento útil de negocio. Esto es debido a
que no es suficiente "navegar" por los datos para resolver los problemas
de negocio, sino que se hace necesario seguir una metodología ordenada
que permita obtener rendimientos tangibles de este conjunto de
herramientas y técnicas de las que dispone el usuario. Constituye por
tanto una de las vías clave de explotación del Data Warehouse, dado que
es este su entorno natural de trabajo.
Se trata de un concepto de explotación de naturaleza radicalmente
distinta a la de los sistemas de información de gestión, dado que no se
basa en coeficientes de gestión o en información altamente agregada, sino
en la información de detalle contenida en el data warehouse.
Adicionalmente, el usuario no se conforma con la mera visualización de
datos, sino que trata de obtener una relación entre los mismos que tenga
repercusiones en su negocio.
Base de Datos Multidimensionales y DataWarehouse
- 65 -
Las herramientas de Data Mining recorren los datos detallados del
data warehouse para desenterrar patrones y asociaciones ocultos. Por lo
regular los resultados generan extensos informes o se analizan con
herramientas de visualización de datos.
Los usuarios clave para el uso del Data Mining son los analistas
empresariales, los peritos en estadística y los profesionales en tecnología
de la información que auxilian a los usuarios empresariales. Quienes
obtienen beneficios de los resultados del Data Mining son los gerentes
empresariales y los ejecutivos, que desean entender los factores de éxito
del negocio con base en datos completos del cliente y, utilizar luego, este
conocimiento para afinar las estrategias de producción, precios y
comercialización; mejorar el nivel de éxito de las estrategias; e impulsar el
balance.
En ocasiones se utiliza una combinación de técnicas de consulta y
OLAP para comprender el comportamiento del cliente o para construir
perfiles de segmentos de mercado; pero el proceso de aplicar estas
técnicas es conducido esencialmente por el analista empresarial. En estos
casos, este proceso también se conoce como Data Mining y se define como
la modalidad de descubrimiento del soporte de decisiones, la cual es
conducida por los datos y no por el analista empresarial.
Base de Datos Multidimensionales y DataWarehouse
- 66 -
DATA MART V/S DATA WAREHOUSE
En un contexto de Data Warehouse, el término duplicación se
refiere a la creación de Data Marts locales o departamentales basados en
subconjuntos de la información contenida en el Data Warehouse central o
maestro.
Un Data Mart es una aplicación de Data Warehouse, construida
rápidamente para soportar una línea de negocio simple. Los Data Marts,
tienen las mismas características de integración, de memoria histórica,
orientación temática y no volatilidad que el Data Warehouse. Representan
una estrategia de "divide y vencerás" para ámbitos muy genéricos de un
Data Warehouse.
Otra definición alternativa de Data Mart es la de sistema que
mantiene una copia de un Data Warehouse para un uso departamental.
Almacén de datos históricos relativos a un departamento de una
organización.
La estrategia de usar Data Marts es particularmente apropiada
cuando el Data Warehouse central crece muy rápidamente y los distintos
departamentos requieren sólo una pequeña porción de los datos
contenidos en él. La creación de estos Data Marts requiere algo más que
una simple réplica de los datos (se necesitan tanto la segmentación como
algunos métodos adicionales de consolidación).
La primera aproximación a una arquitectura descentralizada de Data
Mart, podría ser venir originada de una situación como la descrita a
continuación.
Base de Datos Multidimensionales y DataWarehouse
- 67 -
El departamento de Marketing, emprende el primer proyecto de Data
Warehouse como una solución departamental, creando el primer Data Mart
de la empresa. Visto el éxito del proyecto, otros departamentos, como el
de Riesgos, o el Financiero crean sus Data Marts. Marketing, comienza a
usar otros datos que también usan los Data Marts de Riesgos y Financiero,
y estos hacen lo propio.
Esto parece ser una decisión normal, puesto que las necesidades de
información de todos los Data Marts crecen conforme el tiempo avanza.
Cuando esta situación evoluciona, el esquema general de integración entre
los Data Marts pasa a ser, la del gráfico superior.
En esta situación, es fácil observar cómo este esquema de
integración de información de los Data Marts, pasa a convertirse en un
rompecabezas en el que la gestión se ha complicado hasta convertir esta
ansia de información en un auténtico quebradero de cabeza. No obstante,
lo que ha fallado no son los Data Marts, sino su forma de integración.
Base de Datos Multidimensionales y DataWarehouse
- 68 -
En efecto, un enfoque más adecuado sería la coordinación de la
gestión de información de todos los Data Marts en un Data Warehouse
centralizado.
En esta situación los Data Marts obtendrían la información necesaria,
ya previamente cargada y depurada en el Data Warehouse corporativo,
simplificando el crecimiento de una base de conocimientos a nivel de toda
la empresa.
Esta simplificación provendría de la centralización de las labores de
gestión de los Data Marts, en el Data Warehouse corporativo, generando
economías de escala en la gestión de los Data Marts implicados.
En la actualidad típicamente se da el enfoque "divide y vencerás", de
esta forma se esta haciendo mas usual en la empresa tener Data Marts
conectados a un DataWarehouse corporativo.
Base de Datos Multidimensionales y DataWarehouse
- 69 -
SISTEMA OPERACIONAL V/S
DATAWAREHOUSE
Destinos y usos
Las diferencias de un Data Warehouse con un sistema tradicional las
podríamos resumir en el siguiente esquema:
SISTEMA OPERACIONAL
DATA WAREHOUSE
¦ Predomina la actualización
¦ Predomina la consulta
¦ La actividad más importante es
de tipo operativo (día a día)
¦ La actividad más importante es el
análisis y la decisión estratégica
¦ Predomina el proceso puntual
¦ Predomina el proceso masivo
¦ Mayor importancia a la
estabilidad
¦ Mayor importancia a la
dinamismo
¦ Datos en general desagregados
¦ Datos en distintos niveles de
detalle y agregación
¦ Importancia del dato actual
¦ Importancia del dato histórico
¦ Importancia del tiempo de
respuesta de la transacción
instantánea
¦ Importancia de la respuesta
masiva
¦ Estructura relacional
¦ Visión multidimensional
¦ Usuarios de perfiles medios o
bajos
¦ Usuarios de perfiles altos
¦ Explotación de la información
¦ Explotación de toda la
relacionada con la operativa de cada información interna y externa
aplicación
relacionada con el negocio
Base de Datos Multidimensionales y DataWarehouse
- 70 -
Los datos operacionales y los datos del data warehouse son
accedidos por usuarios que usan los datos de maneras diferentes.
Uso de Base de Datos
Operacionales
Uso de Data Warehouse
Muchos usuarios concurrentes
Pocos usuarios concurrentes
Consultas predefinidas y
actualizables
Consultas complejas,
frecuentemente no anticipadas.
Cantidades pequeñas de datos
detallados
Cantidades grandes de datos
detallados
Requerimientos de respuesta
inmediata
Requerimientos de respuesta no
críticos
Ambiente Operacional v/s Ambiente DataWarehouse
•
Los datos se filtran cuando pasan desde el ambiente operacional al
de depósito. Existe mucha data que nunca sale del ambiente
operacional. Sólo los datos que realmente se necesitan ingresarán al
ambiente de data warehouse.
•
El horizonte de tiempo de los datos es muy diferente de un ambiente
al otro. La información en el ambiente operacional es más reciente
con respecto a la del data warehouse. Desde la perspectiva de los
horizontes de tiempo únicos, hay poca superposición entre los
ambientes operacional y de data warehouse.
•
El data warehouse contiene un resumen de la información que no se
encuentra en el ambiente operacional.
•
Los datos experimentan una transformación fundamental cuando
pasa al data warehouse. La mayor parte de los datos se alteran
significativamente al ser seleccionados y movidos al data warehouse.
Dicho de otra manera, la mayoría de los datos se alteran física y
radicalmente cuando se mueven al depósito. No es la misma data
que reside en el ambiente operacional desde el punto de vista de
integración.
En vista de estos factores, la redundancia de datos entre los dos
ambientes es una ocurrencia rara, que resulta en menos de 1%.
Base de Datos Multidimensionales y DataWarehouse
- 71 -
Entorno operacional
Base de Datos Multidimensionales y DataWarehouse
- 72 -
Entorno DataWarehouse
Base de Datos Multidimensionales y DataWarehouse
- 73 -
USO DEL DATAWAREHOUSE
Maneras diferentes de uso de datos
Los usuarios de un data warehouse necesitan acceder a los datos
complejos, frecuentemente desde fuentes múltiples y de formas no
predecibles.
Los usuarios que accedan a los datos operacionales, comúnmente
efectúan tareas predefinidas que, generalmente requieren acceso a una
sola base de datos de una aplicación. Por el contrario, los usuarios que
accedan al data warehouse, efectúan tareas que requieren acceso a un
conjunto de datos desde fuentes múltiples y frecuentemente no son
predecibles. Lo único que se conoce (si es modelada correctamente) es el
conjunto inicial de datos que se han establecido en el depósito.
Algunas maneras diferentes de uso de datos serian:
Los usuarios generan un procesamiento no predecible
complejo
Los usuarios del data warehouse generan consultas complejas. A
veces la respuesta a una consulta conduce a la formulación de otras
preguntas más detalladas, en un proceso llamado drilling down. El data
warehouse puede incluir niveles de resúmenes múltiples, derivado de un
conjunto principal, único, de datos detallados, para soportar este tipo de
uso.
En efecto, los usuarios frecuentemente comienzan buscando en los
datos resumidos y como identifican áreas de interés, comienzan a acceder
al conjunto de datos detallado. Los conjuntos de datos resumidos
representan el "Qué" de una situación y los conjuntos de datos detallados
permiten a los usuarios construir un cuadro sobre "Cómo" se ha derivado
esa situación.
Las consultas de los usuarios accedan a cantidades grandes
de datos
Debido a la necesidad de investigar tendencias y evaluar las
relaciones entre muchas clases de datos, las consultas al data warehouse
permiten acceder a volúmenes muy grandes tanto de data detallada como
Base de Datos Multidimensionales y DataWarehouse
- 74 -
resumida. Debido a los requerimientos de datos históricos, los data
warehouse evolucionan para llegar a un tamaño más grande que sus
orígenes operacionales (de 10 a 100 veces más grande).
Las consultas de los usuarios no tienen tiempos de respuesta
críticos
El data warehouse, tiene un requerimiento de respuesta no crítico
porque el resultado frecuentemente se usa en un proceso de análisis y
toma de decisiones. Aunque los tiempos de respuesta no son críticos, los
usuarios esperan una respuesta dentro del mismo día en que es hecha la
consulta.
Por lo general, los diferentes niveles de datos dentro del data
warehouse reciben diferentes usos. A más alto nivel de esquematización,
se tiene mayor uso de los datos.
En la Figura N° 12 se muestra que hay mayor uso de los datos
completamente resumidos, a diferencia de la información antigua que
apenas es usada.
Base de Datos Multidimensionales y DataWarehouse
- 75 -
Base de Datos Multidimensionales y DataWarehouse
- 76 -
Para ilustrar cómo un data warehouse puede ayudar a una
organización a mejorar sus operaciones, se muestra un ejemplo de lo
que es el desarrollo de actividades sin tener un data warehouse.
Ejemplo: Preparación de un reporte complejo
Considere un problema bastante típico en una compañía de
fabricación grande en el que se pide una información (un reporte) que no
está disponible.
El informe incluye las finanzas actuales, el inventario y la condición
de personal, acompañado de comparaciones del mes actual con el anterior
y el mismo mes del año anterior, con una comparación adicional de los 3
años precedentes. Se debe explicar cada desviación de la tendencia que
cae fuera de un rango predefinido.
Sin un data warehouse, el informe es preparado de la manera
siguiente:
La información financiera actual se obtiene desde una base de datos
mediante un programa de extracción de datos, el inventario actual de otro
programa de extracción de otra base de datos, la condición actual de
personal de un tercer programa de extracción y la información histórica
desde una copia de seguridad de cinta magnética o CD-ROM.
Lo más interesante es que se ha pedido otro informe que continúe al
primer informe (debido a que las preguntas se originaron a partir del
anterior). El hecho es, que ninguno de los trabajos realizados hasta aquí
(por ejemplo, diversos programas de extracción) se pueden usar para los
próximos o para cualquier reporte subsiguiente. Imagine el tiempo y el
esfuerzo que se ha desperdiciado por un enfoque anticuado. (Ver Figura
N° 13).
Base de Datos Multidimensionales y DataWarehouse
- 77 -
Las inconsistencias deben identificarse en cada conjunto de datos
extraídos y resolverse, por lo general, manualmente. Cuando se completa
todo este procesamiento, el reporte puede ser formateado, impreso,
revisado y transmitido.
Nuevamente, el punto importante aquí es que todo el trabajo
desempeñado para hacer este informe no afecta a otros reportes que
pueden solicitarse es decir, todos ellos son independientes y caros, desde
el punto de vista de recursos y productividad.
Base de Datos Multidimensionales y DataWarehouse
- 78 -
Al crear un data warehouse y combinar todos los datos requeridos,
se obtienen los siguientes beneficios:
Las inconsistencias de los datos se resuelven automáticamente
cuando los elementos de datos se cargan en el data warehouse, no
manualmente, cada vez que se prepara un reporte.
Los errores que ocurrieron durante el proceso complejo de la
preparación del informe, se minimizan porque el proceso es ahora mucho
más simple.
Los elementos de datos son fácilmente accesibles para otros usos,
no sólo para un reporte particular.
Se crea una sola fuente.
¿Quiénes y para qué lo usan?
Dadas las características de un sistema de Data Warehousing, su
aplicación puede tener variados fines, en una diversidad de industrias. No
obstante, en términos generales, podemos decir que su aplicación más rica
corresponde a entornos de empresas en los que se identifican grandes
volúmenes de datos, asociados a: cantidad de clientes, variedad de
productos y cantidad de transacciones. A continuación veremos ejemplos
de aplicaciones típicas y algunos casos puntuales en distintas industrias.
Comercio Minorista
Utilizan grandes sistemas de Procesamiento Paralelo Masivo para
acceder a meses o años de historia transaccional tomada directamente en
los puntos de venta de cientos, de sucursales. Con esta información
detallada pueden efectuar en forma más precisa y eficiente actividades de
compra, fijación de precios, manejo de inventarios, etc.
Las promociones y las ofertas de cupones son seguidas, analizadas y
corregidas. Modas y tendencias son cuidadosamente administradas a
efectos de maximizar utilidades y reducir costos de inventario. El stock es
reasignado por sucursales o regiones según ventas y tendencias. Estos
sistemas con capacidad de procesar gran cantidad de datos detallados
permiten implementar eficientemente prácticas de mercadería "en
consignación", en esta modalidad la cadena minorista paga al proveedor
Base de Datos Multidimensionales y DataWarehouse
- 79 -
recién cuando los productos son vendidos y pasados por el lector de
códigos de barras del punto de venta.
Esta información detallada permite ejercer mayor poder de
negociación sobre los proveedores, dado que el comercio minorista puede
llegar a saber más que el fabricante sobre sus productos: quién lo compra,
dónde, cuándo, con que otros productos, etc.
Manufactura de Bienes de Consumo Masivo
Las empresas de este sector necesitan hacer un manejo cada vez
más ágil de la información para mantenerse competitivas en la industria.
Los Data Warehouses se utilizan para predecir la cantidad de producto que
se venderá a un determinado precio y, por consiguiente, producir la
cantidad adecuada para una entrega "justo a tiempo". A su vez se
coordina el suministro a las grandes cadenas minoristas con inmensas
cantidades de productos "en consignación", que no son pagados hasta que
estos productos son vendidos al consumidor final.
Un ejemplo interesante es el de Whirlpool. Este fabricante global de
electrodomésticos utiliza su Data Warehouse para hacer un seguimiento
directo de sus casi 15 millones de clientes y de sus más de 20 millones de
aparatos instalados. Las mayores aplicaciones del sistema son para
marketing, ventas, mantenimiento, garantía y diseño de productos.
Permite mantener stock de partes más ajustados y mejorar las condiciones
de negociación con los proveedores de las mismas. Si, por ejemplo, un
determinado motor se identifica como poseedor de una tasa de falla
superior,
Whirlpool
puede
utilizar
la
información
para
hacer
renegociaciones de garantía con el proveedor.
Como antecedente interesante se puede mencionar que durante el
verano de 1993 los ingenieros de Whirlpool detectaron una tasa de falla
muy alta en una manguera de conexión en una serie de lavarropas que se
estaba vendiendo. A partir de allí se detuvo la producción, se identificaron
los clientes y se enviaron técnicos a reemplazar la parte defectuosa antes
de que entrara en falla. Esto no solo tuvo un impacto muy importante en
satisfacción de clientes sino que se redujeron los costos de garantía por el
reemplazo planificado
Base de Datos Multidimensionales y DataWarehouse
- 80 -
Transporte de Cargas y Pasajeros
Se utilizan Data Warehouses para almacenar y acceder a meses o
años de datos de clientes y sistemas de reservas para realizar actividades
de marketing, planeamiento de capacidad, monitoreo de ganancias,
proyecciones y análisis de ventas y costos, programas de calidad y servicio
a clientes.
Las empresas de transporte de cargas llevan datos históricos de
años, de miles de cargamentos, capacidades, tiempos de entrega, costos,
ventas, márgenes, equipamiento, etc..
Las aerolíneas utilizan sus Data Warehouses para sus programas de
viajeros frecuentes, para compartir información con los fabricantes de
naves, para la administración del transporte de cargas, para compras y
administración de inventarios, etc. Hacen un seguimiento de partes de
repuesto, cumplimiento con las regulaciones aeronáuticas, desempeño de
los proveedores, seguimiento de equipaje, historia de reservas, ventas y
devoluciones de tickets, reservas telefónicas, desempeño de las agencias
de viajes, estadísticas de vuelo, contratos de mantenimiento, etc.
Telecomunicaciones
Estas empresas utilizan sus Data Warehouses para operar en un
mercado crecientemente competitivo, des-regulado y global que, a su vez,
atraviesa profundos cambios tecnológicos. Se almacenan datos de millones
de clientes: sus circuitos, facturas mensuales, volúmenes de llamados,
servicios utilizados, equipamiento vendido, configuraciones de redes, etc.
así como también información de facturación, utilidades, y costos son
utilizadas con
propósitos
de
marketing,
contabilidad,
reportes
gubernamentales, inventarios, compras y administración de redes. Otras
Industrias
En la industria informática NCR dispone de los Data Warehouses de
mayor magnitud y antigüedad. Sus mayores instalaciones se encuentran
en distintos centros de la compañía en Estados Unidos. su primera
aplicación fue el seguimiento histórico y detallado de la base de clientes:
llamados de servicios, productos instalados, performances, etc.En NCR San
Diego, California, se encuentra el centro de desarrollo de los computadores
WorldMark. Sobre los mismos se realizó la demostración del Data
Warehouse más grande del mundo: 10 Terabytes de información (=10.000
Gigabytes=10.000.000 Mega bites),
Base de Datos Multidimensionales y DataWarehouse
- 81 -
IMPACTOS DW
El éxito de DW no está en su construcción, sino en usarlo para
mejorar procesos empresariales, operaciones y decisiones. Posesionar un
DW para que sea usado efectivamente, requiere entender los impactos de
implementación en los siguientes ámbitos:
Impactos Humanos.
Efectos sobre la gente de la empresa:
Construcción del DW: Construir un DW requiere la participación
activa de quienes usarán el DW. A diferencia del desarrollo de aplicaciones,
donde los requerimientos de la empresa logran ser relativamente bien
definidos producto de la estabilidad de las reglas de negocio a través del
tiempo, construir un DW depende de la realidad de la empresa como de
las condiciones que en ese momento existan, las cuales determinan qué
debe contener el DW. La gente de negocios debe participar activamente
durante el desarrollo del DW, desde una perspectiva de construcción y
creación. El DW intenta proveer los datos que posibilitan a los usuarios
acceder su propia información cuando ellos la necesitan. Esta
aproximación para entregar información tiene varias implicancias:
a) La gente de la empresa puede necesitar aprender nuevas destrezas.
b) Análisis extensos y demoras de programación para obtener
información será eliminada. Como la información estará lista para ser
acezada, las expectativas probablemente aumentarán.
c) Nuevas oportunidades pueden existir en la comunidad empresarial para
los especialistas de información.
d) La gran cantidad de reportes en papel serán reducidas o eliminadas.
e) La madurez del DW dependerá del uso activo y retroalimentación de
sus usuarios.
Base de Datos Multidimensionales y DataWarehouse
- 82 -
Impactos empresariales
Efectos sobre procesos y decisiones empresariales.
Se deben considerar los beneficios empresariales potenciales de los
siguientes impactos:
a) Los Procesos de Toma de Decisiones pueden ser mejorados mediante la
disponibilidad de información. Decisiones empresariales se hacen más
rápidas por gente más informada.
b) Los procesos empresariales pueden ser optimizados. El tiempo perdido
esperando por información que finalmente es incorrecta o no encontrada,
es eliminada.
c) Conexiones y dependencias entre procesos empresariales se vuelven
más claros y entendibles. Secuencias de procesos empresariales pueden
ser optimizadas para ganar eficiencia y reducir costos.
d) Procesos y datos de los sistemas operacionales, así como los datos en
el DW, son usados y examinados. Cuando los datos son organizados y
estructurados para tener significado empresarial, la gente aprende mucho
de los sistemas de información. Pueden quedar expuestos posibles
defectos en aplicaciones actuales, siendo posible entonces mejorar la
calidad
de
nuevas
aplicaciones.
Comunicación
e
Impactos
Organizacionales.
Apenas el DW comienza a ser fuente primaria de información
empresarial consistente, los siguientes impactos pueden comenzar a
presentarse:
a) La gente tiene mayor confianza en las decisiones empresariales que se
toman. Ambos, quienes toman las decisiones como los afectados conocen
que está basada en buena información.
b) Las organizaciones empresariales y la gente de la cual ella se compone
queda determinada por el acceso a la información. De esta manera, la
gente queda mejor habilitada para entender su propio rol y
responsabilidades como también los efectos de sus contribuciones; a la
vez, desarrollan un mejor entendimiento y apreciación con las
contribuciones de otros.
Base de Datos Multidimensionales y DataWarehouse
- 83 -
c) La información compartida conduce a un lenguaje común,
conocimiento común, y mejoramiento de la comunicación en la empresa.
Se mejora la confianza y cooperación entre distintos sectores de la
empresa , viéndose reducida la sectorización de funciones.
d) Visibilidad, accesibilidad, y conocimiento de los datos producen mayor
confianza en los sistemas operacionales.
Impactos Técnicos De DW.
Considerando las etapas de construcción, soporte del DW y de
sistemas operacionales, se tienen los siguientes impactos técnicos:
Nuevas destrezas de desarrollo: cuando se construye el DW, el impacto
más grande sobre la gente técnica está dada por la curva de aprendizaje,
muchas destrezas nuevas se deben aprender, incluyendo:
a) Conceptos y estructura DW.
b) El DW introduce muchas tecnologías nuevas, con ello nuevas
responsabilidades de soporte, nuevas demandas de recursos y nuevas
expectativas, son los efectos de estos cambios.
c) Destrezas de diseño y análisis donde los requerimientos empresariales
no son posibles de definir de una forma estable a través del tiempo.
d) Trabajo en equipo cooperativo con gente
participantes activos en el desarrollo del proyecto.
de
negocios
como
Nuevas responsabilidades de operación: Cambios sobre los sistemas y
datos operacionales deben ser examinados más cuidadosamente para
determinar el impacto que estos cambios tienen sobre ellos, y sobre el
DW.
Base de Datos Multidimensionales y DataWarehouse
- 84 -
COSTOS Y VALOR DEL DATAWAREHOUSE
Costos De Un DW
La complejidad en el desarrollo se ha presentado como la principal
desventaja de un DW. Esto se debe a que la realidad para cada negocio es
distinta, y un DW debe responder a las características particulares que
presenta cada uno de ellos, tanto de configuración como del conjunto de
requisitos a satisfacer; por lo cual no es fácil estandarizar la forma de
desarrollar este tipo de proyectos.
A continuación se detallaran los costos que en general conlleva
implementar un DataWarehouse.
Costos de construcciones
Los costos de construir un DW son similares para cualquier proyecto
de tecnología de información. Estos pueden ser clasificados en tres
categorías:
RRHH:
La gente necesita contar con un enfoque fuerte sobre el
conocimiento del área de la empresa y de los procesos empresariales.
Además es muy importante considerar las cualidades de la gente, ya que
el desarrollo del DW requiere participación de la gente de negocios como
de los especialistas tecnológicos; estos dos grupos de gente deben
trabajar juntos, compartiendo su conocimiento y destrezas en un espíritu
de equipo de trabajo, para enfrentar los desafíos de desarrollo del DW.
Tiempo:
Se debe establecer el tiempo no tan solo para la construcción y
entrega de resultados del DW, sino también para la planeación del
proyecto y la definición de la arquitectura.
Tecnología:
Muchas tecnologías nuevas son introducidas por el DW. El costo de la
nueva tecnología puede ser tan sólo la inversión inicial del proyecto.
Base de Datos Multidimensionales y DataWarehouse
- 85 -
Costos de Operación
Una vez que está construido y entregado un DW debe ser
soportado para que tenga valor empresarial. Son justamente estas
actividades de soporte, la fuente de continuos costos operacionales para
un DW. Se pueden distinguir tres tipos de costos de operación:
Evolutivos:
Ajustes continuos del DW a través del tiempo, como cambios de
expectativas y, cambios producto del aprendizaje del RRHH del proyecto
mediante su experiencia usando el DW.
Crecimiento:
Incrementos en el tiempo en volúmenes de datos, del número de
usuarios del DW, lo cual conllevará a un incremento de los recursos
necesarios como a la demanda de monitoreo, administración y
sintonización del DW (evitando así, un incremento en los tiempos de
respuesta y de recuperación de datos, principalmente).
Cambios:
El DW requiere soportar cambios que ocurren tanto en el origen de
datos que éste usa, como en las necesidades de la información que éste
soporta.
Cuando se implementa un DW, el impacto de cambios es compuesto.
Dos orígenes primarios de cambios existen:
Cambios en el ambiente empresarial:
Un cambio en el ambiente empresarial puede cambiar las
necesidades de información de los usuarios. Así, el contenido del DW se
puede ver afectado y las aplicaciones pueden requerir cambios.
Cambios en la tecnología:
Un cambio en la tecnología puede afectar la manera que los datos
operacionales son almacenados, lo cual implicaría un ajuste en los
procesos de Extracción, Transporte y Carga para adaptar las variaciones
presentadas.
Base de Datos Multidimensionales y DataWarehouse
- 86 -
Un cambio de cualquiera de ellos impacta los sistemas
operacionales. Un cambio en el ambiente operacional puede cambiar el
formato, estructura o significado de los datos operacionales usados como
origen para el DW. De esta forma serían impactados los procesos de
Extracción, Transformación y Carga de datos.
Valor Del DW
Los beneficios que puede aportar el Data Warehouse son:
Proporciona una herramienta para la toma de decisiones en
cualquier área funcional, basándose en información integrada y global del
negocio.
Facilita la aplicación de técnicas estadísticas de análisis y
modelización para encontrar relaciones ocultas entre los datos del
almacén; obteniendo un valor añadido para el negocio de dicha
información.
Proporciona la capacidad de aprender de los datos del pasado y de
predecir situaciones futuras en diversos escenarios.
Simplifica dentro de la empresa la implantación de sistemas de
gestión integral de la relación con el cliente.
Supone una optimización tecnológica y económica en entornos de
Centro de Información, estadística o de generación de informes con
retornos de la inversión espectaculares.
Costos v/s Valor De DW
A grandes rasgos, los costos asociados a un proyecto DW incluyen el
costo de construcción y, la mantención y operación una vez que está
construido. En cuanto al valor, éste considera, el valor de mejorar la
entrega de información, el valor de mejorar el proceso de toma de
decisiones y el valor agregado para los procesos empresariales.
Lograr una cuantificación económica de los factores de valor no es
fácil ni natural a diferencia de los factores de costos, agregar valor
económico a los factores de valor resulta ser en extremo complejo y
subjetivo. Una alternativa a ello, es hacer una valoración desde la
perspectiva de costos evitables, relacionados con los “costos de no
Base de Datos Multidimensionales y DataWarehouse
- 87 -
disponer en la organización de información apropiada”, tanto a un nivel
técnico como de procesos empresariales (en especial, para el proceso de
Toma de Decisiones).
DW es una estrategia de largo plazo. Al querer implementar un DW,
se debe evaluar el costo y el valor considerando un período de tiempo
razonable para obtener beneficios. El retorno sobre la inversión de un DW,
se comienza a percibir bastante más tarde del tiempo en el cual se realizó
la inversión inicial. Si se calcula costo/valor desde una perspectiva de corto
plazo, los costos serán significativamente más altos en proporción al valor.
Base de Datos Multidimensionales y DataWarehouse
- 88 -
ORGANIZACIÓN DE UN PROYECTO
No existe una fórmula de garantía real para el éxito de la
construcción de un data warehouse, pero hay muchos puntos que
contribuyen a ese objetivo.
A continuación, se indican algunos factores claves que deben
considerarse en:
Planificación de un Data Warehouse
La planificación es el proceso más importante que determina la clase
de tipo de estrategias data warehousing que una organización iniciará.
Puntos claves que deben considerarse en la planificación de un data
warehouse:
Establecer una asociación de usuarios, gestión y grupos
Es esencial involucrar tanto a los usuarios como a la gestión para
asegurar que el data warehouse contenga información que satisfaga los
requerimientos de la empresa.
La gestión puede ayudar a priorizar la fase de la implementación del
data warehouse, así como también la selección de herramientas del
usuario. Los usuarios y la gestión justifican los costos del data warehouse
sobre cómo será "su ambiente" y está basado primero en lo esperado y
segundo, en el valor comercial real.
Seleccionar una aplicación piloto con una alta probabilidad de
éxito
Una aplicación piloto de alcance limitado, con un reembolso medible
para los usuarios y la gestión, establecerá el data warehouse como una
tecnología clave para la empresa. Estos mismos criterios (alcance limitado,
reembolso medible y beneficios claros para la empresa) se aplican a cada
fase de la implementación de un data warehouse.
Construir prototipos rápida y frecuentemente
La única manera para asegurar que el data warehouse reúna las
necesidades de los usuarios, es hacer el prototipo a lo largo del proceso de
Base de Datos Multidimensionales y DataWarehouse
- 89 -
implementación y aún más allá, así como agregar los nuevos datos y/o
los modelos en forma permanente. El trabajo continuo con los usuarios y
la gestión es, nuevamente, la clave.
Implementación incremental
La implementación incremental reduce riesgos y asegura que el
tamaño del proyecto permanezca manejable en cada fase.
Reportar activamente y publicar los casos exitosos
La retroalimentación de los usuarios ofrece una excelente
oportunidad para publicar los hechos exitosos dentro de una organización.
La publicidad interna sobre cómo el data warehouse ha ayudado a los
usuarios a operar más efectivamente puede apoyar la construcción del
data warehouse a lo largo de una empresa.
La retroalimentación del usuario también ayuda a comprender cómo
evoluciona la implementación del data warehouse a través del tiempo para
reunir requerimientos de usuario nuevamente identificados.
Desarrollo de un Data Warehouse
Antes de desarrollar un data warehouse, es crítico el desarrollo de
una estrategia equilibrada que sea apropiada para sus necesidades y sus
usuarios.
Las preguntas que deben tenerse en cuenta son:
•
•
•
¿Quién es el auditorio?
¿Cuál es el alcance?
¿Qué tipo de data warehouse debería construirse?
Algunas estrategias mediante las cuales las organizaciones pueden
conseguir sus data warehouses son enumeradas a continuación.
Base de Datos Multidimensionales y DataWarehouse
- 90 -
Primera
Establecer un ambiente "data warehouse virtual", el cual puede ser
creado por:
•
•
•
•
Instalación de un conjunto de facilidades para acceso a datos,
directorio de datos y gestión de proceso.
Entrenamiento de usuarios finales.
Control de cómo se usan realmente las instalaciones del data
warehouse.
Basados en el uso actual, crear un data warehouse físico para
soportar los pedidos de alta frecuencia.
Segunda
Construir una copia de los datos operacionales desde un sistema
operacional único y posibilitar al data warehouse de una serie de
herramientas de acceso a la información.
Esta estrategia tiene la ventaja de ser simple y rápida.
Desafortunadamente, si los datos existentes son de mala calidad y/o
el acceso a los datos no ha sido previamente evaluado, entonces se
puede crear una serie de problemas.
Tercera
Finalmente, la estrategia data warehousing óptima es seleccionar el
número de usuarios basados en el valor de la empresa y hacer un
análisis de sus puntos, preguntas y necesidades de acceso a datos.
De acuerdo a estas necesidades, se construyen los prototipos data
warehousing y se prueban para que los usuarios finales puedan
experimentar y modificar sus requerimientos.
Una vez se tenga un consenso general sobre las necesidades,
entonces se consiguen los datos provenientes de los sistemas
operacionales existentes a través de la empresa y/o desde fuentes
externas de datos y se cargan al data warehouse.
Base de Datos Multidimensionales y DataWarehouse
- 91 -
En conclusión
No se tiene un enfoque único para construir un data warehouse que se
adapte a las necesidades de las empresas, debido a que las
necesidades de cada una de ellas son diferentes, al igual que su
contexto.
Además, como la tecnología data warehousing va evolucionando, se
aprende cada vez más y más sobre el desarrollo de data
warehouses, que resulta en que el único enfoque práctico para al
almacenamiento de datos es la evolución de uno mismo.
Diseño de un Data Warehouse
El diseño de los data warehouses es muy diferente al diseño de los
sistemas operacionales tradicionales. Se pueden considerar los siguientes
puntos:
1. Los usuarios de los data warehouses usualmente no conocen mucho
sobre sus requerimientos y necesidades como los usuarios
operacionales.
2. El diseño de un data warehouse, con frecuencia involucra lo que se
piensa en términos más amplios y con conceptos del negocio más
difíciles de definir que en el diseño de un sistema operacional. Al
respecto, un data warehouse está bastante cerca a Reingeniería de
los Procesos del Negocio (Business Process Reengineering).
3. Finalmente, la estrategia de diseño ideal para un data warehousing
es generalmente de afuera hacia adentro (outside-in) a diferencia de
arriba hacia abajo (top-down).
A pesar que el diseño del data warehouse es diferente al usado en
los diseños tradicionales, no es menos importante. El hecho que los
usuarios finales tengan dificultad en definir lo que ellos necesitan, no lo
hace menos necesario. En la práctica, los diseñadores de data warehouses
tienen que usar muchos "trucos" para ayudar a sus usuarios a "visualizar"
sus requerimientos. Por ello, son esenciales los prototipos de trabajo.
Base de Datos Multidimensionales y DataWarehouse
- 92 -
Gestión de un Data Warehouse
Los data warehouses requieren una comercialización y gestión muy
cuidadosa. Debe considerarse lo siguiente:
1. Un data warehouse es una inversión buena sólo si los usuarios
finales realmente pueden conseguir información vital más rápida y
más barata de lo que obtienen con la tecnología actual.
Como consecuencia, la gestión tiene que pensarse seriamente
sobre cómo quieren sus depósitos para su eficaz desempeño y cómo
conseguirán llegar a los usuarios finales.
2. La administración debe reconocer que el mantenimiento de la
estructura del data warehouse es tan crítico como el mantenimiento
de cualquier otra aplicación de misión crítica.
De hecho, la experiencia ha demostrado que los data
warehouses llegarán a ser rápidamente uno de los sistemas más
usados en cualquier organización.
3. La gestión debe comprender también que si se embarcan sobre un
programa data warehousing, se crearán nuevas demandas sobre sus
sistemas operacionales, que son:
o
o
o
Demandas para mejorar datos
Demandas para una data consistente
Demandas para diferentes tipos de datos, etc.
Base de Datos Multidimensionales y DataWarehouse
- 93 -
TENDENCIAS TECNOLÓGICAS Y DE MERCADO
Describimos a continuación una recopilación de las principales
tendencias que se observan en el mercado.
Tendencias hacia herramientas especializadas:
El uso de herramientas de propósito general no satisface por
completo las necesidades de un proyecto de Data Warehouse por lo que se
tiende a adquirir herramientas que resuelvan las necesidades puntuales de
las organizaciones
Webhousing
El uso de Internet como fuente de información hacia el exterior e
interior (vía intranets), crece constantemente, y la integración de una
herramienta de Data Warehouse con Internet.
Uso generalizado de Data Marts
Las peculiaridades de un proyecto Data Warehouse, y el enfoque
progresivo de su construcción, hace que cada vez mas organizaciones
realicen sus desarrollos mediante el uso de Data Marts integrados, tal y
como comentábamos en el apartado Data Warehouses. Data Marts
Base de Datos Multidimensionales y DataWarehouse
- 94 -
CONCLUSION
El comprender este trabajo hace dimensionar cuan importante es el
concepto de BD multidimensionales hoy en día. La oportunidad que nos
entregan al momento de analizar datos a través del tiempo o responder
consultas que con una base de datos relacional demoraría mucho tiempo
tomando en cuenta la gran cantidad de información y las operaciones que
se tendrían que realizar para obtener estos resultados. Es así como
también son muy útiles al momento de otorgar una herramienta de
análisis funcional al entregar una visión global del negocio.
Se entendió como se enfoca el trabajo con los data warehouse, como
se modela pensando multidimencionalmente, pero mejor aun, se aprendió
que es lo que es un DW, sus funciones, usos, diseños, esquema, ventajas
y desventajas, sus usuarios, además de comparar constantemente con las
BD operacionales.
Al finalizar este informe se reflexiona que esta idea aun no termina
de desarrollarse, que el futuro nos entregara nuevos usos y funciones para
esta herramienta, pero no cabe duda de su importancia en el trabajo de
hoy, con tantos datos y cada día con mas requerimientos
Base de Datos Multidimensionales y DataWarehouse
- 95 -
BIBLIOGRAFIA
• Comunications of
Septiembre 1998
the
ACM.
Especial
de
DataWarehousing.
• [Codd 1970] “A Relational Model of Data for Large Shared Data
Banks”.
• Altair directo, finanzas corporativas Kimbal, “The DataWarehouse
Lifecycle Toolkit
• ”Analisis y Diseño de un DataMart Dimensional, caso práctico
Forestal Mininco. Memoria de titulo por Carmen Gloria Wolf,
• Apuntes “Base de datos Multidimensionales”, curso Base de
Datos, Universidad de Concepción.
Paginas Web:
• http://www.redcientifica.com/oracle/c0001p0006.html
• http://www.datawarehouse.com
• http://www.sqlmax.com/dataw1.asp
• http://www.revista.unam.mx/vol.1/art5/index.html
• http://www.itlp.edu.mx/publica/tutoriales/basedat1/temas1.htm
• http://www.abcdatos.com/tutoriales/programacion/basesdedatos
/varios.html
Base de Datos Multidimensionales y DataWarehouse
- 96 -
Descargar