Base de Datos Multidimensionales Data Warehousing Pablo Hidalgo Rivas – Concepción – Chile [email protected] Base de Datos Multidimensionales y DataWarehouse -2- INDICE • INTRODUCCION ............................................................................................................................... - 6 - • INFORMACIÓN HISTORICA ....................................................................................................... - 8 - • VENTAJAS DE LAS BASES DE DATOS MULTIDIMENSIONALES ........................... - 10 - • LIMITACION CON RESPECTO AL TAMAÑO DE LA BASE DE DATOS................... - 11 - • FORMA DE ABORDAR EL PROBLEMA................................................................................. - 12 - • TECNICAS DE DISEÑO ................................................................................................................ - 15 PROCESOS Y METODOLOGIAS ............................................................................................. - 15 - • MODELAMIENTO MULTIDIMENCIONAL ............................................................................ - 17 MODELOS DE DATOS ....................................................................................................................................- 18 CARACTERÍSTICAS DEL MER.......................................................................................................................- 19 CARACTERÍSTICAS DEL MODELO MULTIDIMENSIONAL ..............................................................................- 19 Tablas DW: .......................................................................................................................................... - 19 Tablas Fact: ................................................................................................................................................. - 19 Tablas Lock_up:......................................................................................................................................... - 20 - Esquemas DW:................................................................................................................................... - 21 - Esquema Estrella....................................................................................................................................... - 22 Esquema Snowflake................................................................................................................................. - 23 - Profundizaciones de Diseño........................................................................................................... - 24 - La Dimensión Tiempo .............................................................................................................................. - 24 Dimensiones que varían lentamente en el tiempo........................................................................ - 24 Niveles........................................................................................................................................................... - 24 Sobre Jerarquías........................................................................................................................................ - 24 - • BD RELACIONALES V/S............................................................................................................ - 26 - BD MULTIDIMENSIONALES............................................................................................................... - 26 ROLAP VS MOLAP ....................................................................................................................................- 27 ¿Cuál es mejor ROLAP O MOLAP? ............................................................................................... - 29 Factores de procesamiento.................................................................................................................... - 29 Almacenaje .................................................................................................................................................. - 30 Consultas...................................................................................................................................................... - 30 ¿Por qué recomiende MOLAP? .............................................................................................................. - 30 ¿Por qué recomiende ROLAP?............................................................................................................... - 30 ¿Por qué no recomendar ROLAP?........................................................................................................ - 31 - TRANSFORMACIÓN DE DB RELACIONALES A MULTIDIMENSIONALES CON DW:.....................................- 33 - • DEFINICION DE DATAWAREHOUSE ................................................................................... - 35 - • SISTEMAS DE INFORMACIÓN ................................................................................................ - 38 - • CARACTERÍSTICAS DE UN DATA WAREHOUSE ............................................................ - 40 ORIENTADO A TEMAS ...................................................................................................................................- 40 - Base de Datos Multidimensionales y DataWarehouse -3- INTEGRACIÓN ................................................................................................................................................- 42 Fuentes Múltiples.........................................................................................................................................- 42 Codificación.......................................................................................................................................................................- 42 Medida de atributos.................................................................................................................................. - 43 - Proceso de integración: transformación de Datos................................................................ - 45 DE TIEMPO VARIANTE ..................................................................................................................................- 46 NO VOLATIL ...................................................................................................................................................- 47 • ESTRUCTURA DEL DATA WAREHOUSE .............................................................................. - 49 DETALLE DE DATOS ACTUALES ....................................................................................................................- 49 DETALLE DE DATOS ANTIGUOS ....................................................................................................................- 49 DATOS LIGERAMENTE RESUMIDOS ..............................................................................................................- 49 META DATA ....................................................................................................................................................- 51 - • COMPONENTES DE UN DATA WAREHOUSE .................................................................... - 54 HARDWARE ....................................................................................................................................................- 54 SOFTWARE DE ALMACENAMIENTO (SGBD) ...............................................................................................- 55 SOFTWARE DE EXTRACCIÓN Y MANIPULACIÓN DE DATOS .........................................................................- 55 HERRAMIENTAS MIDDLEWARE .....................................................................................................................- 56 - • OPERACIONES EN UN DATA WAREHOUSE...................................................................... - 58 SISTEMAS OPERACIONALES .........................................................................................................................- 58 EXTRACCIÓN, TRANSFORMACIÓN Y CARGA DE LOS DATOS......................................................................- 59 META DATA ....................................................................................................................................................- 59 ACCESO DE USUARIO FINAL .........................................................................................................................- 59 PLATAFORMA DEL DATA WAREHOUSE ..........................................................................................................- 60 DATOS EXTERNOS ........................................................................................................................................- 60 - • FLUJO DE DATOS ........................................................................................................................... - 61 - • TECNICAS DE EXPLOTACION DE UN DATA WAREHOUSE....................................... - 63 SISTEMAS OLAP ..........................................................................................................................................- 64 CONSULTAS O INFORMES LIBRES (QUERY & REPORTING) ......................................................................- 64 DATA MINIG (MINERÍA DE DATOS)............................................................................................................- 65 - • DATA MART V/S DATA WAREHOUSE............................................................................... - 67 - • SISTEMA OPERACIONAL V/S DATAWAREHOUSE ....................................................... - 70 DESTINOS Y USOS ........................................................................................................................................- 70 AMBIENTE OPERACIONAL V/S AMBIENTE DATAWAREHOUSE ...................................................................- 71 - • USO DEL DATAWAREHOUSE.................................................................................................... - 74 MANERAS DIFERENTES DE USO DE DATOS .................................................................................................- 74 Los usuarios generan un procesamiento no predecible complejo .................................. - 74 Las consultas de los usuarios accedan a cantidades grandes de datos ....................... - 74 Las consultas de los usuarios no tienen tiempos de respuesta críticos ....................... - 75 ¿QUIÉNES Y PARA QUÉ LO USAN? ...............................................................................................................- 79 Comercio Minorista ........................................................................................................................... - 79 Manufactura de Bienes de Consumo Masivo........................................................................... - 80 - Base de Datos Multidimensionales y DataWarehouse -4- Transporte de Cargas y Pasajeros .............................................................................................. - 81 Telecomunicaciones....................................................................................................................................- 81 • IMPACTOS DW .................................................................................................................................- 82 - IMPACTOS HUMANOS. ..................................................................................................................................- 82 Efectos sobre la gente de la empresa: ..................................................................................... - 82 IMPACTOS EMPRESARIALES ..........................................................................................................................- 83 Efectos sobre procesos y decisiones empresariales. ........................................................... - 83 IMPACTOS TÉCNICOS DE DW.....................................................................................................................- 84 • COSTOS Y VALOR DEL DATAWAREHOUSE ...................................................................... - 85 COSTOS DE UN DW ....................................................................................................................................- 85 Costos de construcciones ............................................................................................................... - 85 RRHH: ............................................................................................................................................................ - 85 Tiempo:......................................................................................................................................................... - 85 Tecnología: .................................................................................................................................................. - 85 - Costos de Operación ........................................................................................................................ - 86 Evolutivos: ................................................................................................................................................... - 86 Crecimiento:................................................................................................................................................ - 86 Cambios: ...................................................................................................................................................... - 86 Cambios en el ambiente empresarial: ......................................................................................... - 86 Cambios en la tecnología: ................................................................................................................ - 86 - VALOR DEL DW............................................................................................................................................- 87 COSTOS V/S VALOR DE DW .......................................................................................................................- 87 • ORGANIZACIÓN DE UN PROYECTO..................................................................................... - 89 PLANIFICACIÓN DE UN DATA WAREHOUSE ................................................................................................- 89 Establecer una asociación de usuarios, gestión y grupos.................................................. - 89 Seleccionar una aplicación piloto con una alta probabilidad de éxito ........................... - 89 Construir prototipos rápida y frecuentemente....................................................................... - 89 Implementación incremental ........................................................................................................ - 90 Reportar activamente y publicar los casos exitosos ............................................................ - 90 DESARROLLO DE UN DATA WAREHOUSE ....................................................................................................- 90 Primera.................................................................................................................................................. - 91 Segunda................................................................................................................................................ - 91 Tercera .................................................................................................................................................. - 91 En conclusión ...................................................................................................................................... - 92 DISEÑO DE UN DATA WAREHOUSE .............................................................................................................- 92 GESTIÓN DE UN DATA WAREHOUSE ...........................................................................................................- 93 - • TENDENCIAS TECNOLÓGICAS Y DE MERCADO............................................................. - 94 TENDENCIAS HACIA HERRAMIENTAS ESPECIALIZADAS: ............................................................................- 94 WEBHOUSING ...............................................................................................................................................- 94 USO GENERALIZADO DE DATA MARTS ........................................................................................................- 94 - • CONCLUSION ................................................................................................................................... - 95 - • BIBLIOGRAFIA................................................................................................................................ - 96 - Base de Datos Multidimensionales y DataWarehouse -5- INTRODUCCION No cabe duda que los sistemas de información son una herramienta esencial al momento de administrar los datos de cualquier tipo de empresa. Para esto las BD se han convertido en un elemento imprescindible al momento de relacionar toda la información, dejando la idea de los ficheros como un pasado muy antiguo. Es así como con el paso de los años este “concepto” ha ido evolucionando a través del tiempo, dejando el modelo relacional de Codd como una “base” para otros tipos de bases de datos como lo son las multidimensionales. Pero ¿Qué son las bases de datos multidimensionales? Esta es una respuesta compleja que trataremos de resolver a lo largo de este informe. En un principio podemos imaginarlas como una prolongación del modelo relacional en la cual las consultas son especificas con más un campo. Por ejemplo poder consultar las ventas a través del tiempo en una zona en particular. Para trabajar con bases de datos multidimensionales también debemos entender lo que es un data warehouse: un “almacén de datos” que viene a ser el espacio físico donde se contiene la información (servidor). Pero mas que ser un servidor un DW es un concepto que nos sirve implementar las BD multidimensionales, otorgando rapidez a la consulta que en el caso de este tipo de BD son muchas, pero todas parecidas además de tener información de otras BD. En el presente informe se pretende hacer un análisis exhaustivo de lo que son las bases de datos multidimensionales, los data warehouse y todo aquello que tenga relación con el tema. Además iremos comparando cada vez que sea necesario este tipo de bases de datos con lo que estamos aprendiendo en clases: modelo relacional , BD operacionales entre otros. Base de Datos Multidimensionales y DataWarehouse -6- BASE DE DATOS MULTIDIMENSIONALES Un buen trabajo debe dejar claro conceptos que son aplicables a lo largo de todo el informe y que tienen un carácter de primordial antes de entrar en materia directamente con el tema discutido, en este contexto nos enfocamos a la definición de conceptos básicos en el mundo de las bases de datos, en especia en aquellas que reciben el nombre de multidimensionales. Lo primero es el concepto de dato e información en esencia la información es un conjunto de datos que están relacionados y ordenados en forma lógica para que así se constituyan en una manera eficiente de consulta de la información que estos están almacenando. De lo anterior resulta claro que se nos esta presentando un nuevo concepto que tiene que ver con el manejo de los datos ya guardados, la forma de guardarlos y el como tener un acceso rápido a ellos, a esto es lo que se le llama un base de datos que es una colección de archivos interrelacionados y creados por un sistema de gestión de bases de datos (SGBD). Finalmente, relacionando estos dos componentes con un hardware que sostenga la información se forma lo que se denomina un Sistema de Base de Datos. Base de Datos Multidimensionales y DataWarehouse -7- INFORMACIÓN HISTORICA Nuestro enfoque ahora es orientado a las bases de datos multidimensionales que son aquellas con grandes cantidades de información, las dimensiones son criterios con los que se clasifica la información y que ofrecen un índice a los datos mediante una lista de valores. Como se ha dicho en clases, y se puede ver en algunos textos, lo antecesores de los sistemas de bases de datos son los sistemas de ficheros, que aun siguen en uso en algunas partes. Pero por otros lados se dice que los sistemas de bases de datos tienen sus raíces en el proyecto estadounidense Apolo de mandar al hombre a la luna, en los años sesenta. En aquella época, no había ningún sistema que permitiera gestionar la inmensa cantidad de información que requería el proyecto (cosa que solucionan las BDM). La primera empresa encargada del proyecto, NAA (North American Aviation), desarrolló un software denominado GUAM (General Update Access Method) que estaba basado en el concepto de que varias piezas pequeñas se unen para formar una pieza más grande, y así sucesivamente hasta que el producto final está ensamblado. A mediados de los sesenta, IBM se unió a NAA para desarrollar GUAM en lo que ahora se conoce como IMS (Information Management System). El motivo por el cual IBM restringió IMS al manejo de jerarquías de registros fue el de permitir el uso de dispositivos de almacenamiento, más exactamente las cintas magnéticas. Que estaban de moda por aquella época. En 1970 en los laboratorios de investigación de IBM, escribió un artículo presentando el modelo relacional. En este artículo, presentaba también los inconvenientes de los sistemas previos, el jerárquico y el de red, que no han sido descritos acá pues no van al caso. Entonces, se comenzaron a desarrollar muchos sistemas relacionales, apareciendo los primeros a finales de los setenta y principios de los ochenta. Uno de los primeros es System R, de IBM, que se desarrolló para probar la funcionalidad del modelo relacional, proporcionando una implementación de sus estructuras de datos y sus operaciones. Esto condujo a dos grandes desarrollos: El desarrollo de un lenguaje de consultas estructurado denominado SQL, que se ha convertido en el lenguaje estándar de los sistemas relaciónales. Base de Datos Multidimensionales y DataWarehouse -8- La producción de varios SGBD relacionales durante los años ochenta, como DB2 y SLQ/DS de IBM, y ORACLE de ORACLE Corporación. Los SGBD relacionales constituyen la segunda generación de los SGBD. Sin embargo, el modelo relacional también tiene sus fallos, siendo uno de ellos su limitada capacidad al modelar los datos. Se ha hecho mucha investigación desde entonces tratando de resolver este problema. En 1976, Chen presentó el modelo entidad-relación, que es la técnica más utilizada en el diseño de bases de datos. En 1979, Codd intentó subsanar algunas de las deficiencias de su modelo relacional con una versión extendida denominada RM/T (1979) y más recientemente RM/V2 (1990). Los intentos de proporcionar un modelo de datos que represente al mundo real de un modo más fiel han dado lugar a los modelos de datos semánticos. Como respuesta a la creciente complejidad de las aplicaciones que requieren bases de datos, han surgido tres nuevos modelos: el modelo de datos orientado a objetos, el modelo multidimencional y el modelo relacional extendido. Sin embargo, a diferencia de los modelos que los preceden, la composición de estos modelos no está del todo clara. Esta evolución representa la tercera generación de los SGBD. Base de Datos Multidimensionales y DataWarehouse -9- VENTAJAS DE LAS BASES DE DATOS MULTIDIMENSIONALES ¿Cuáles fueron las ventas del producto ABC el mes pasado? ¿Cómo se comparan con las obtenidas en el mismo mes, pero del año anterior? ¿Cuáles fueron las ventas del producto en la región norte, y dentro de dicha región en el territorio ZXY? Estas son algunas de las preguntas que muchos profesionales se hacen periódicamente a la hora de gestionar su negocio. El rápido acceso a esta información es vital para reaccionar ante tendencias inesperadas y realizar eficazmente las acciones oportunas. Una de las grandes ventajas de las bases de datos multidimensionales es la rapidez con la que se puede acceder a información agregada; por ejemplo: ¿Cuáles fueron las ventas del producto ABC en la región norte? En una base de datos relacional se tendrían que sumar todas las ventas realizadas dentro de dicha región para el producto indicado. El tiempo que se tardaría en responder dependería del número de operaciones realizadas. Sin embargo, en una base de datos multidimensional, la respuesta sería inmediata, ya que guarda la información agregada y se accede directamente a ella. Este tipo de bases de datos soportan múltiples vistas de agrupaciones de datos, que permiten a los usuarios analizar las relaciones entre diferentes categorías. El número de vistas se establece en el esquema de la base de datos. Conceptualmente, se suele utilizar la idea de un cubo para representar las dimensiones de datos disponibles para el usuario. En el caso anterior, las ventas, podrían verse desde la dimensión geográfica, de tiempo y tipo de producto. La variable ventas sería del tipo “measure”, mientras que el resto se denominan “feature”. Adicionalmente, se pueden definir jerarquías y niveles dentro de una dimensión (por ejemplo: dentro de la jerarquía geográfica nos encontraríamos con los niveles región y territorio). Base de Datos Multidimensionales y DataWarehouse - 10 - LIMITACION CON RESPECTO AL TAMAÑO DE LA BASE DE DATOS Hay un concepto erróneo común en el mercado sobre que el tamaño de la base de datos está principalmente limitado por el número máximo de dimensiones soportadas. La limitación real, sin embargo, casi siempre es el número de celdas, no el número de dimensiones. Además, no todas las dimensiones se crean igual. Algunos vendedores soportan las jerarquías simples dentro de las dimensiones. Otros soportan jerarquías complejas múltiples dentro de las dimensiones. Basta decir que una base de datos ocho. dimensional que usa un producto OLAP puede reducirse a sólo tres o cuatro dimensiones con otro. En general, como el número de dimensiones aumenta, el número de celdas en la base de datos se incrementa exponencialmente. Por ejemplo, una base de datos bidimensional con 100 Productos y 100 Regiones tendría 10,000 celdas. Si agregamos una tercera dimensión para Tiempo con 52 semanas, tenemos ahora 520,000 celdas. Agregando una cuarta dimensión para Real, Presupuesto, Variación y la Pronostico nos lleva a 2,080,000 celdas. Agregando una quinta dimensión para guardar 10 Tipos de Cliente tenemos el total de 20,800,000. ¡Una base de datos de 16 dimensiones con sólo cinco miembros en cada dimensión tendrían encima de 152 mil millones (152,587,890,625) de celdas! Esto nos podría resultar atroz al momento de querer trabajar con los datos. La mayoría de los servidores OLAP comerciales acierta el límite de celdas mucho tiempo antes de que ellos corran fuera de dimensiones. Por ejemplo, un servidor OLAP comercial proclama soportar 32 dimensiones, pero tiene un límite de aproximadamente dos mil millones de celdas. Con sólo dos miembros en cada dimensión, una base de datos de 32 dimensiones tendría 4.3 mil millones de celdas. Así, aun cuando cada dimensión tenga sólo dos miembros, todavía no podría usar todas las 32 dimensiones debido a la limitación de dos mil millones de celdas. En la práctica, la mayoría de las dimensiones tienen muchos más de dos miembros. Base de Datos Multidimensionales y DataWarehouse - 11 - FORMA DE ABORDAR EL PROBLEMA Disponer de un sistema de bases de datos relacionales, no significa disponer de un soporte directo para la toma de decisiones. Muchas de estas decisiones se basan en un análisis de naturaleza multidimensional, que se intentan resolver con la tecnología no orientada para esta naturaleza. Este análisis multidimensional, parte de una visión de la información como dimensiones de negocio. Para realizar este tipo de análisis multidimensional debemos utilizar lo que se conoce como Bases de Datos Multidimensionales. Este tipo de BD diseñada para optimizar la consulta y almacenamiento de grandes volúmenes de datos que están íntimamente relacionados y que deben verse y analizarse desde distintas perspectivas. A cada perspectiva se le denomina dimensión. Obtener respuestas a las preguntas típicas de una empresa exige con cierta frecuencia ver los datos bajo diferentes perspectivas. Este nuevo enfoque propone una estructura de almacenamiento basada en hiper-cubos en lugar de tablas planas. Para entender mejor el concepto de Base de Datos Multidimencional y de dimensiones o perspectivas en este entorno vamos a utilizar un ejemplo de un sistema de gestión de libros. Las jerarquías que se podrían manejar para el número de dimensiones serán: zona geográfica, tipo de producto y tiempo de resolución. La visión general de la información de ventas para estas dimensiones definidas, la representaremos, gráficamente como el cubo de la derecha. A su vez estas dimensiones tienen una jerarquía, interpretándose en el cubo como que cada cubo elemental es un dato, del que se puede extraer información agregada. En el ejemplo anterior podría ser: Base de Datos Multidimensionales y DataWarehouse - 12 - ZONAS GEOGRAFICAS ZONA NORTE ARICA IQUIQUE ANTOFAGASTA LIBRERÍA UNIVERSITARIA PRODUCTO BASES DE DATOS LIBROS LITERATURA ÉTNICOS CUENTOS TIEMPO SEPTIEMBRE DE 2004 AÑO 2004 1º SEMESTRE 2ª SEMESTRE En forma más general la estructura anteriormente descrita podría verse como en la figura del lado derecho, en la cual se indica claramente las sub-divisiones que se tienen en la respuesta a una pregunta. Y así por ejemplo se podría querer analizar la evolución de las ventas en Antofagasta de libros de literatura por meses desde Febrero de 2003 hasta Septiembre de 2004. Ello es fácil de obtener si la información de ventas se ha almacenado en una base de datos multidimencional, definiendo estas jerarquías y estas dimensiones de negocio. En general tratamos de presentar una forma eficiente de abordar los problemas que se pueden solucionar con una base de datos multidimensional, partiendo Base de Datos Multidimensionales y DataWarehouse - 13 - por el reconocimiento del problema, el cual esta orientado a escribir los requerimiento de los datos en buena forma y coherentemente con lo que en la realidad ocurre, después de eso y una vez elegido el sistema de gestión de la base le sigue el modelo dimensionan y las siguientes etapas conocidas ya en el curso de Base de Datos 2004-2 . Definir los Requerimientos del Planeación Del proyecto Negocio Selección Producto Diseño técnico Modelado Dimensio-nal aplicación de usuario final Diseño Físico Transfor-mación de dato Imple-menta-ciónMantenimiento Implementación de la aplicación de usuario final Administración del proyecto Base de Datos Multidimensionales y DataWarehouse - 14 - TECNICAS DE DISEÑO Las técnicas de diseño pueden clasificarse en cuatro niveles según el tipo de problemas que abordan. Se parte de técnicas que manipulan objetos de un modelo de datos sin aportar ningún criterio de diseño (técnicas básicas). A medida que se aumenta en el nivel, las técnicas correspondientes introducen elementos orientados a mejorar la productividad y calidad del diseño. Por esto, las técnicas de los niveles superiores se centran en tipos de sistemas de información o en contextos particulares de aplicación de sistemas de información. PROCESOS Y METODOLOGIAS ESTRATEGIAS TECNICAS ESPECIALIZADAS TÉCNICAS BÁSICAS El nivel inferior corresponde a técnicas básicas de diseño para el modelo elegido, por ejemplo técnicas de diseño relacional para creación de estructuras del modelo (tablas, restricciones de integridad, etc.). El siguiente nivel corresponde a técnicas especializadas para un determinado tipo de sistema de información, por ejemplo bases de datos centralizadas, federadas, distribuidas, multidimensionales etc. Cada sistema tiene sus propias técnicas especializadas de diseño, por ejemplo en bases de datos distribuidas existen técnicas para fragmentar tablas, tanto horizontal como verticalmente. En un nivel superior se ubican las estrategias de diseño, orientadas a encarar globalmente un problema de diseño. Por ejemplo utilizar estrategias top-down o bottom-up para relevar requerimientos funcionales del sistema, o resolver la integración de esquemas en un ambiente federado con estrategias local-as-view o global-as-view. Las estrategias de diseño abstraen mecanismos para encarar problemas generales de diseño, y decidir qué técnicas conviene aplicar para la resolución de subproblemas concretos. En el nivel superior se ubican los modelos de proceso y metodologías de diseño. Los trabajos en este nivel resuelven la totalidad del problema, brindando metodologías, procesos o algoritmos que Base de Datos Multidimensionales y DataWarehouse - 15 - descomponen el problema en partes más pequeñas y muestran como atacar cada uno de los sub-problemas. Generalmente en este nivel es muy importante el orden en que se resuelven esos sub-problemas, mientras que las estrategias sólo se encargan de la resolución aislada de cada uno. Base de Datos Multidimensionales y DataWarehouse - 16 - MODELAMIENTO MULTIDIMENCIONAL Modelamiento Dimensional es una técnica para modelar bases de datos simples y entendibles al usuario final. La idea fundamental es que el usuario visualice fácilmente la relación que existe entre las distintas componentes del modelo. Consideremos un punto en el espacio. El espacio se define a través de sus ejes coordenados (por ejemplo X, Y, Z). Un punto cualquiera de este espacio quedará determinado por la intersección de tres valores particulares de sus ejes. Si se le asignan valores particulares a estos ejes. Digamos que el eje X representa Productos, el eje Y representa el Mercado y, el eje Z corresponde al Tiempo. Se podría tener por ejemplo, la siguiente combinación: Producto = Maderas, Mercado = Concepción, Tiempo = Septiembre2004. La intersección de estos valores nos definirá un solo punto en nuestro espacio. Si el punto que buscamos, lo definimos como la cantidad de madera vendida, entonces se tendrá un valor específico y único para tal combinación. En el modelo multidimensional cada eje corresponde a una dimensión particular. Entonces la dimensionalidad de nuestra base estará dada por la cantidad de ejes (o dimensiones) que le asociemos. Cuando una base puede ser visualizada como un cubo de tres o más dimensiones, es más fácil para el usuario organizar la información e imaginarse en ella cortando y rebanando el cubo a través de cada una de sus dimensiones, para buscar la información deseada. Para entender más el concepto, retomemos el ejemplo anterior. La descripción de una organización típica es: “Nosotros vendemos productos en varios mercados, y medimos nuestro desempeño en el tiempo”: Un diseñador dimensional lo verá como: “Nosotros vendemos productos en varios mercados, y medimos nuestro desempeño en el tiempo. Donde cada palabra subrayada corresponde a una dimensión. Base de Datos Multidimensionales y DataWarehouse - 17 - Esto puede visualizarse como un cubo (Figura 3), donde cada punto dentro del cubo es una intersección de coordenadas definidas por los lados de éste (dimensiones). Ejemplos de medidas son: unidades producidas, unidades vendidas, costo de unidades producidas, ganancias($) de unidades vendidas, etc. Modelos de Datos Un factor importante durante todo el diseño de una base de datos multidimensional, fue expresado por Codd en 1983: “Ustedes pueden pensar que el significado de los datos es simple...pero no es así”.Para construir una base de datos multidimensional se debe primero tener claro que existe una diferencia entre la estructura de la información y la semántica de la información, y que esta última es mucho más difícil de abarcar y que también es precisamente con ella con la que se trabaja en la construcción de una base de datos multidimensional. Aquí se encuentra la principal diferencia entre operacionales y una base de datos multidimensional: los sistemas Cada uno de ellos es sostenido por un modelo de datos diferente. Los sistemas operacionales se sustentan en el Modelo Entidad Relación Base de Datos Multidimensionales y DataWarehouse - 18 - (MER) y las bases de datos multidimensionales trabajan con el Modelo Multidimensional. Características del MER - Maneja la redundancia fuera de los datos. Por lo tanto realizar un cambio en la base significa tocarla en un solo lugar. - Divide los datos en entidades, las que son representadas como tablas en una base de datos. - Los MER crecen fácilmente, haciéndose más y más complejos. - Se puede apreciar la existencia de muchos caminos para ir de una tabla a otra. Sería natural pensar que al tener diversos caminos para llegar desde una tabla a otra, cualquiera de ellos entregaría el mismo resultado, pero lamentablemente esto no siempre sucede así. - El diagrama se visualiza simétrico, donde todas las tablas se parecen, sin distinguir a priori la importancia de unas respecto a otras. No es fácil de entender tanto para usuarios como para los diseñadores. Características del Modelo Multidimensional En general, la estructura básica de una base de datos multidimensional para el Modelo Multidimensional está definida por dos elementos: esquemas y tablas. Tablas DW: Como cualquier base de datos relacional, una base de datos multidimensional se compone de tablas. Hay dos tipos básicos de tablas en el Modelo Multidimensional: Tablas Fact: Contienen los valores de las medidas de negocios, por ejemplo: ventas promedio en dólares, número de unidades vendidas, etc. Base de Datos Multidimensionales y DataWarehouse - 19 - Es la tabla central en un esquema dimensional. Es en ella donde se almacenan las mediciones numéricas del negocio. Estas medidas se hacen sobre el grano, o unidad básica de la tabla. El grano o la granularidad de la tabla queda determinada por el nivel de detalle que se almacenará en la tabla. Por ejemplo, para el caso de producto, mercado y tiempo antes visto, el grano puede ser la cantidad de madera vendida ‘mensualmente’. El grano revierte las unidades atómicas en el esquema dimensional. Cada medida es tomada de la intersección de las dimensiones que la definen. Idealmente está compuesta por valores numéricos, continuamente evaluados y aditivos. La razón de estas características es que así se facilita que los miles de registros que involucran una consulta sean comprimidos en unas pocas líneas en un set de respuesta. La clave de la tabla fact recibe el nombre de clave compuesta o concatenada debido a que se forma de la composición (o concatenación) de las llaves primarias de las tablas dimensionales a las que está unida. Así entonces, se distinguen dos tipos de columnas en una tabla fact: columnas fact y columnas key. Donde la columna fact es la que almacena alguna medida de negocio y una columna key forma parte de la clave compuesta de la tabla. Tablas Lock_up: Contienen el detalle de los valores que se encuentran asociados a la tabla Fact. Estas tablas son las que se conectan a la tabla fact, son las que alimentan a la tabla fact. Una tabla lock_up almacena un conjunto de valores que están relacionados a una dimensión particular. Tablas lock_up no contienen hechos, en su lugar los valores en las tablas lock_up son los elementos que determinan la estructura de las dimensiones. Así entonces, en ellas existe el detalle de los valores de la dimensión respectiva. Una tabla lock_up está compuesta de una primary key que identifica unívocamente una fila en la tabla junto con un conjunto de atributos, y dependiendo del diseño del modelo multidimensional puede existir una foreign key que determina su relación con otra tabla lock_up. Para decidir Base de Datos Multidimensionales y DataWarehouse - 20 - si un campo de datos es un atributo o un hecho se analiza la variación de la medida a través del tiempo. Si varía continuamente implicaría tomarlo como un hecho, caso contrario será un atributo. Esquemas DW: la colección de tablas en una base de datos multidimensional se conoce como Esquema. Los esquemas caen dentro de dos categorías básicas: esquemas estrellas y esquemas snowflake. Base de Datos Multidimensionales y DataWarehouse - 21 - Esquema Estrella. En general, el modelo multidimensional también se conoce con el nombre de esquema estrella, pues su estructura base es similar: una tabla central y un conjunto de tablas que la atienden radialmente. (Ver figura). El esquema estrella deriva su nombre del hecho que su diagrama forma una estrella, con puntos radiales desde el centro. El centro de la estrella consiste de una o más tablas fact, y las puntas de la estrella son las tablas lock_up. Este modelo entonces, resulta ser asimétrico, pues hay una tabla dominante en el centro con varias conexiones a las otras tablas. Las tablas Lock-up tienen sólo la conexión a la tabla fact y ninguna más. Base de Datos Multidimensionales y DataWarehouse - 22 - Esquema Snowflake. La diferencia del esquema snowflake comparado con el esquema estrella, está en la estructura de las tablas lock_up: las tablas lock_up en el esquema snowflake están normalizadas. Cada tabla lock_up contiene sólo el nivel que es clave primaria en la tabla y la foreign key de su parentesco del nivel más cercano del diagrama. Base de Datos Multidimensionales y DataWarehouse - 23 - Profundizaciones de Diseño La Dimensión Tiempo Virtualmente se garantiza que cada base de datos multidimensional tendrá una tabla dimensional de tiempo, debido a la perspectiva de almacenamiento histórica de la información. Usualmente es la primera dimensión en definirse, con el objeto de establecer un orden, ya que la inserción de datos en la base de datos multidimensional se hace por intervalos de tiempo, lo cual asegura un orden implícito. Dimensiones que varían lentamente en el tiempo Son aquellas dimensiones que se mantienen “casi” constantes en el tiempo y que pueden preservar la estructura dimensional independiente del tiempo, con sólo agregados menores relativos para capturar la naturaleza cambiante del tiempo. Niveles Un nivel representa un nivel particular de agregación dentro de una dimensión; cada nivel sobre el nivel base representa la sumarización total de los datos desde el nivel inferior. Para un mejor entendimiento, veamos el siguiente ejemplo: consideremos una dimensión Tiempo con tres niveles: Mes, Semestre, Año. El nivel Mes representa el nivel base, el nivel Semestre representa la sumarización de los totales por Mes y el nivel A ño representa la sumarización de los totales para los Semestres. Sobre Jerarquías A nivel de dimensiones es posible definir jerarquías, las cuales son grupos de atributos que siguen un orden preestablecido. Una jerarquía implica una organización de niveles dentro de una dimensión, con cada nivel representando el total agregado de los datos del nivel inferior. Las jerarquías definen cómo los datos son sumarizados desde los niveles más bajos hacia los más altos. Una dimensión típica soporta una o más jerarquías naturales. Una jerarquía puede pero no exige contener todos los valores existentes en la dimensión. Se debe evitar caer en la tentación de convertir en tablas dimensionales separadas cada una de las relaciones muchos-a-uno presentes en las jerarquías. Esta descomposición es irrelevante en el Base de Datos Multidimensionales y DataWarehouse - 24 - planeamiento del espacio ocupado en disco y sólo dificulta el entendimiento de la estructura para el usuario final, además de destruir el desempeño del browsing. Ejemplo: Base de Datos Multidimensionales y DataWarehouse - 25 - BD RELACIONALES V/S BD MULTIDIMENSIONALES El sistema de gestión de bases de datos empleado por un sistema DataWarehouse habitualmente es una base datos relacional (RDBMS) o una base datos multidimensional (MDBMS). Las bases de datos relacionales son empleadas para la construcción de grandes DWs corporativos o pequeños DWs departamentales mientras que las bases de datos multidimensionales se suelen utilizar para DWs departamentales. Por otra parte, la base de datos de los DWs tiene requerimientos por encima de los sistemas operacionales. Los factores claves a considerar son la escalabilidad (tamaño de la base de datos, complejidad de las consultas y numero de usuarios) y el rendimiento (aplicaciones de administración y procesamiento de consultas complejas). A medida que el tamaño de la base de datos y la complejidad de de las consultas se incrementa, es necesario considerar la utilización de arquitecturas de hardware y sistemas de gestión de base de datos paralelas para lograr un rendimiento satisfactorio. Las bases de datos relacionales encuentran en su flexibilidad y potencial para las consultas adecuadas, uno de sus puntos fuertes. Las bases de datos relacionales son sabidamente más flexibles cuando se utilizan con una estructura de los datos normalizados. Una consulta típica OLAP, sin embargo, esta atraviesa las relaciones diversas y requieren operaciones diversas de la ensambladura para poder acceder a estos datos. El funcionamiento de los sistemas de la base de datos relacional tradicional es mejor para las consultas basadas en llaves de eso las consultas basadas en contenido. Para tomar con cuidado los requisitos de este tipo de transacciones, los SGBDs relacionales han agregado a las funcionalidades sus productos. Estas funcionalidades incluyen extensiones a las estructuras del almacenaje y los operadores relacionales, como también los proyectos especializados de indexación. La mayoría de los accesos a los almacenes de información explora la naturaleza multidimensional de los datos. Por lo tanto, estructurando los datos en bases de datos relacionales tradicionales en los proyectos del tipo estrella o el copo de nieve se convirtió en el subir a un nivel suficientemente común. Estos proyectos pueden utilizar las tablas múltiples y técnicas para simular una estructura multidimensional. Base de Datos Multidimensionales y DataWarehouse - 26 - También otro mecanismo no emparentado es posible utilizar alguno para almacenar algo de agregaciones, mientras que otros se consiguen el dinámicamente. Esto que surge, goza de las ventajas de un mecanismo relacional, sacando la ventaja del cálculo anterior con ayuda de algunas agregaciones. Alternadamente, las bases de datos multidimensionales permiten para manipular objetos multidimensionales directamente. Las dimensiones que se crean, identifican la estructura de la base, puesto que la forma para agregar una nueva dimensión puede ser laboriosa Algunas bases de datos multidimensionales requieren una recarga completa de los datos, cuando ocurre una reorganización. Por lo tanto, se recomiendan más para ambientes más constantes donde no están los requisitos en los datos en cambio constante. Disponer de un sistema de bases de datos relacionales, no significa disponer de un soporte directo para la toma de decisiones. Muchas de estas decisiones se basan en un análisis de naturaleza multidimensional, que se intentan resolver con la tecnología no orientada para esta naturaleza. Este análisis multidimensional, parte de una visión de la información como dimensiones de negocio. Para los desarrolladores de aplicaciones acostumbrados a trabajar con bases de datos relacionales, el diseño de una base de datos multidimensional puede ser complejo o al menos, extraño. Pero en general, el diseño de dimensiones y variables es mucho más sencillo e intuitivo que un diseño relacional. Esto es debido a que las dimensiones y variables son reflejo directo de los informes en papel utilizados por la organización. ROLAP VS MOLAP Herramientas como "ORACLE, DISCOVERY/2000" han permitido utilizar la Base de Datos Relacional para el análisis de informe. Este análisis utiliza la información operacional de manera detallada sobre las tablas de la BD real. Este acercamiento permite observar la información actual y responder preguntas acerca de que es lo que esta sucediendo, totalizar la información, combinar unos datos con otros, etc. Sin embargo, soluciones OLAP basadas sobre modelos relacionales responden con mucha dificultad a preguntas históricas, que incluyendo la noción del tiempo así como análisis de escenarios, tendencias y proyecciones. Base de Datos Multidimensionales y DataWarehouse - 27 - Una vez que se ha decidido emplear un entorno de consulta OLAP, se ha de elegir entre R-OLAP y M-OLAP. M-OLAP es la arquitectura de base de datos multidimensional en la que los datos se encuentran almacenados en una base de datos relacional, la cual tiene forma de estrella (también llamada copo de nieve o araña). En R-OLAP, en principio la base de datos sólo almacena información relativa a los datos en detalle, evitando acumulados (evitando redundancia). En general, las ROLAP (OLAP relacional) son copia de datos de las tablas, o sea, los conjuntos de datos son almacenados en tablas en la base de datos relacionada de la fuente. Este tipo es el mejor cuando en la base de datos es limitado el espacio sobre el Servidor de Análisis y el funcionamiento de pregunta no es muy importante. Las BDs relacionales contienen las dimensiones y definiciones de cubo pero los conjuntos son calculados cuando ellos son necesarios, por lo tanto, requieren menos espacio de almacenaje que lo multidimensionales. En cambio en las MOLAP (OLAP Multidimensional) las agregaciones de datos y una copia de los datos son almacenadas en una estructura multidimensional sobre el ordenador de Servidor de Análisis. Es lo mejor Base de Datos Multidimensionales y DataWarehouse - 28 - cuando el espacio de almacenaje suplementario está disponible sobre el ordenador de Servidor de Análisis y el mejor funcionamiento para las consultas es el deseado. Algunos MOLAP locales contienen todos los datos necesarios para calcular conjuntos y puede ser usado fuera de línea. Estos proporcionan el tiempo de respuesta de pregunta más rápido y el funcionamiento, pero requieren el espacio de almacenaje adicional para la copia suplementaria de datos de la mesa de hecho. ROLAP MOLAP Muchas dimensiones Diez o menos dimensiones. Soportan análisis OLAP contra grandes volúmenes de datos Se comportan razonablemente en volúmenes de datos más reducidos (menos de 5Gb) Herramienta flexible y general Solución particular con volúmenes de información y número de dimensiones más modestos ¿Cuál es mejor ROLAP O MOLAP? La respuesta corta a esta pregunta es "MOLAP." La mejor práctica para los cubos de los servicios del análisis de las bases de datos es intentar hacer que cada cubo sea MOLAP, porque da el mejor funcionamiento de la pregunta. Hay razones de utilizar particularmente ROLAP, pero son excepciones: Reglas MOLAP Factores de procesamiento MOLAP ejecuta una pregunta de la población del cubo del RDBMS, trae todos los datos en el motor del proceso de servicios del análisis, computa los agregados, y escribe los agregados y los datos del nivel a los archivos de MOLAP. Por lo tanto, escribir los datos atómicos es rápido ROLAP utiliza declaraciones del SQL para computar los agregados, y los almacena en tablas relacionales. Hemos observado que estos procesos parecen ser perceptiblemente más lentos que el proceso de MOLAP. Base de Datos Multidimensionales y DataWarehouse - 29 - Almacenaje El almacenaje de hechos como MOLAP (índices incluyendo de MOLAP) es generalmente 15-20% del tamaño de los datos emparentados (medidos como indexación de los datos en la tabla del hecho solamente) El almacenaje de agregados como MOLAP (índices incluyendo) es generalmente 10-20% del tamaño de los datos emparentados (datos indexados de la tabla del hecho) El almacenaje de agregados como ROLAP puede ser 100%-200% del tamaño de los datos relacionales, o más si está agregado pesadamente, o los datos sumarios relacionales se ponen en un índice pesadamente. Consultas MOLAP da el mejor funcionamiento de la consulta. El funcionamiento de la pregunta de ROLAP es siempre peor que funcionamiento de la pregunta de MOLAP. ¿Por qué recomiende MOLAP? El funcionamiento es más rápido de las consultas. El coste del almacenaje es comparable el de un índice multi-columna en comparación con la tabla relacional. ¿Por qué recomiende ROLAP? OLAP verdaderamente en tiempo real requiere el almacenaje de ROLAP de la partición actualizada del hecho. En este panorama la mayoría de los clientes utilizan el almacenaje de MOLAP para las particiones inactivas. Pero para conseguir actualizaciones en tiempo real de la dimensión, usted necesita el almacenaje de la dimensión de ROLAP, que significa el almacenaje del hecho de la necesidad ROLAP para cualquier cubo que incluya la dimensión en tiempo real. Base de Datos Multidimensionales y DataWarehouse - 30 - ¿Por qué no recomendar ROLAP? Aplicaciones el almacenaje más total y complicado para las consultas. Tiene peor funcionamiento para consultas complicadas que requieren de revisar más tablas y mas datos Tiene el funcionamiento de proceso peor, por que requiere de mas recursos. Para una visión más general. Podemos hacer un análisis práctico sobre base de datos multidimensionales, en contra posición con las bases de datos relacionales, las cual provee las siguientes capacidades con ejemplos: * Análisis comparativo o relativo: ¿Cómo las ventas actuales se comportan con respecto a las ventas esperadas? * Reporte de excepciones o tendencias: ¿Cuáles productos se han vendido menos del 5% de lo esperado y representan más del 2% de las ventas totales? * Modelado, Proyecciones: ¿Qué pasaría si se agregan 3 vendedores mas a la región central? El análisis ROLAP a pesar de ser más sencillo de construir (puesto que se apoya en la Base de Datos de producción) y mas fácil de mantener (los datos reales siempre están disponibles), presentar algunas desventajas: * La mayoría de necesidades de análisis requieren que la información sea procesada en un modelo de series de tiempo, de manera tal que apoyen las decisiones de alto nivel en actividades como en proyecciones de presupuestos. En un sistema relacional, donde el Lenguaje de acceso es SQL, preguntas como: ¿cuanto han variado mis ventas de este mes con respecto al promedio móvil del último año?, son extremadamente difíciles de responder. * Debido a que la Base de Datos operacional se encuentra altamente estructurada, un cambio en los requerimientos, o la inclusión de una nueva variable para el análisis, representa un cambio mayor en el modelo de la Base de Datos. La flexibilidad es un punto muy importante. Base de Datos Multidimensionales y DataWarehouse - 31 - * El tiempo para construir un modelo multidimensional basado en una estructura relacional de la información, con el objeto de resolver los dos inconvenientes anteriores, es mucho mayor que el tiempo respectivo para crear un verdadero modelo multidimensional y por lo tanto, el costo es mucho mayor. Base de Datos Multidimensionales y DataWarehouse - 32 - Transformación de DB relacionales a multidimensionales con DW: Podemos apreciar que en este ejemplo de base de datos relacional hay mas de una correspondencia entre los campos. En esencia esta tabla tiene una sola dimensión, en donde se tienen las ventas de cada producto por región. Una compañía tiene tres productos (arandelas, tornillos, tuercas) que se venden en tres territorios (Este, Oeste, Central). A continuación se muestra la tabla relacional: PRODUCTO REGION # VENTAS Arandelas Arandelas Arandelas Este Oeste Central 50000 60000 100000 Tornillos Este 40000 Tornillos Oeste 70000 Tornillos Central 80000 Tuercas Tuercas Tuercas Este Oeste Central 90000 120000 30000 Un camino para representar esta tabla en una forma mas óptima es a través de una matriz de dos dimensiones como lo muestra el próximo diagrama: ESTE OESTE CENTRAL Arandelas 50000 60000 100000 Tornillos 40000 70000 80000 Tuercas 90000 120000 140000 De esta forma se pueden realizar preguntas como ¿Cuáles fueron las ventas de arandelas en el Este?, ¿Cuáles fueron las ventas de Tornillos en el Oeste?. Base de Datos Multidimensionales y DataWarehouse - 33 - En casos simples no es necesario colocar la información en bases de datos multidimensionales, pero si nos hacemos preguntas como: ¿Cuál fue el total de ventas en el Este o en el Oeste? y tenemos un millón de productos la selección a través de un “query” nos tomaría mucho tiempo en una base de datos relacional mientras que usando la tecnología multidimensional OLAP nos tomaría escasos segundos. Con las bases de datos relacionales, el tiempo de búsqueda es aproximadamente proporcional al número de archivos recuperados. Así que tomaría cuatro veces como mucho recuperar un total como “las Ventas Totales para el Este” mas que el que habría para recuperar un solo registro como “Lavaderos para el Este”. Para calcular las ventas Totales para el Este, cuatro registros tienen que ser recuperados y sumados. Si preguntáramos “¿Cuales son las ventas totales para todas las regiones?” tendríamos que calcular el total de los 12 números en la base de datos (cuatro productos medidos en tres regiones). Esto tomaría 12 veces de tiempo. Base de Datos Multidimensionales y DataWarehouse - 34 - DATAWAREHOUSE DEFINICION DE DATAWAREHOUSE En primer lugar, DW no es un producto que pueda ser comprado en el mercado, sino más bien un concepto que debe ser construido en base a procesos y técnicas. DW es una combinación de conceptos y tecnología que cambian significativamente la manera en que es entregada la información a la gente de negocios. El objetivo principal es satisfacer los requerimientos de información internos de la empresa para una mejor gestión, con eficiencia y facilidad de acceso. Existen muchas definiciones para el DW, la más conocida fue propuesta por Inmon (considerado el padre de las Bases de Datos) en 1992: “Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”. En 1993, Susan Osterfeldt publica una definición que sin duda acierta en la clave del DW: “Yo considero al DW como algo que provee dos beneficios empresariales reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico”. Esta última definición refleja claramente el principal beneficio que el datawarehouse aporta a la empresa, eliminar aquellos datos que obstaculizan la labor de análisis de información y entregar la información que se requiere en la forma más apropiada, facilitando así el proceso de gestión. El concepto de Data Warehouse surge como solución a las necesidades información reales globales de la empresa que los sistemas operacionales no pueden satisfacer. Este término se traduce literalmente como Almacén de Datos, aunque evidentemente si el Data Warehouse fuese exclusivamente un almacén de datos, los problemas seguirían siendo los mismos que en los Centros de Información. La ventaja principal de este tipo de sistemas se basa en su concepto fundamental, la estructura de la información. Este concepto significa el almacenamiento de información homogénea y fiable, en una estructura Base de Datos Multidimensionales y DataWarehouse - 35 - basada en la consulta y el tratamiento jerarquizado de la misma, y en un entorno diferenciado de los sistemas operacionales Disponer de un sistema de bases de datos relacionales, no significa disponer de un soporte directo para la toma de decisiones. Muchas de estas decisiones se basan en una análisis de naturaleza multidimensional, que se intentan resolver con la tecnología no orientada para esta naturaleza. Este análisis multidimensional, parte de una visión de la información como dimensiones de negocio. Para realizar este tipo de análisis multidimensional debemos de utilizar lo que se conoce como Bases de Datos Multidimensionales (BDM). Este tipo de BD diseñada para optimizar la consulta y almacenamiento de grandes volúmenes de datos que están íntimamente relacionados y que deben verse y analizarse desde distintas perspectivas. A cada perspectiva se le denomina dimensión. Obtener respuestas a las preguntas típicas de una empresa exige con cierta frecuencia ver los datos bajo diferentes perspectivas. Este nuevo enfoque propone una estructura de almacenamiento basada en hiper-cubos en lugar de tablas planas. Para entender mejor el concepto de BDM y de dimensiones o perspectivas en este entorno vamos a utilizar un ejemplo de un sistema de gestión de productos. Base de Datos Multidimensionales y DataWarehouse - 36 - Las jerarquías que se podrían manejar para el número de dimensiones serán: zona geográfica, tipo de producto y tiempo de resolución. La visión general de la información de ventas para estas dimensiones definidas, la representaremos, gráficamente como el cubo de la derecha. Un gerente de una zona estaría interesado en visualizar la información para su zona en el tiempo para todos los productos que distribuye, lo podría tener una representación gráfica como el cubo de la derecha: Un director de producto, sin embargo querría examinar la distribución geográfica de un producto, para toda la información histórica almacenada en el Data Warehouse. Esto se podría representar como la siguiente figura: O se podría también examinar los datos en un determinado momento o una visión particularizada. Base de Datos Multidimensionales y DataWarehouse - 37 - SISTEMAS DE INFORMACIÓN Los sistemas de información se han dividido de acuerdo al siguiente esquema: • Sistemas Estratégicos, orientados a soportar la toma de decisiones, facilitan la labor de la dirección, proporcionándole un soporte básico, en forma de mejor información, para la toma de decisiones. Destacan entre estos sistemas: los Sistemas de Información Gerencial (MIS), Sistemas de Información Ejecutivos (EIS), Sistemas de Información Geo-referencial (GIS), Sistemas de Simulación de Negocios (BIS y que en la práctica son sistemas expertos o de Inteligencia Artificial - AI). • Sistemas Tácticos, diseñados para soportar las actividades de coordinación de actividades y manejo de documentación, definidos para facilitar consultas sobre información almacenada en el sistema, proporcionar informes y, en resumen, facilitar la gestión independiente de la información por parte de los niveles intermedios de la organización. Destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemas de Transmisión de Mensajería (Correo electrónico y Servidor de fax), coordinación y control de tareas (Work Flow) y tratamiento de documentos (Imagen, Trámite y Bases de Datos Documentales). Base de Datos Multidimensionales y DataWarehouse - 38 - • • Sistemas Técnico - Operativos, que cubren operaciones tradicionales de captura masiva de datos (Data Entry) y servicios básicos de tratamiento de datos, con tareas predefinidas (contabilidad, facturación, almacén, presupuesto, personal y otros sistemas administrativos). Estos sistemas están evolucionando con la irrupción de sistemas multimedia, bases de datos relacionales más avanzadas y data warehousing. Sistemas Interinstitucionales, nace a partir de la generalización de las redes informáticas de alcance nacional y global (INTERNET), que se convierten en vehículo de comunicación entre la organización y el mercado, no importa dónde esté la organización (INTRANET), el mercado de la institución (EXTRANET) y el mercado (Red Global). Sin embargo, la tecnología data warehousing basa sus conceptos y diferencias entre dos tipos fundamentales de sistemas de información en todas las organizaciones: los sistemas técnico - operacionales y los sistemas de soporte de decisiones. Este último es la base de un data warehouse. Base de Datos Multidimensionales y DataWarehouse - 39 - CARACTERÍSTICAS DE UN DATA WAREHOUSE Entre las principales se tiene: • • • • Orientado al tema Integrado De tiempo variante No volátil Orientado a Temas Una primera característica del data warehouse es que la información se clasifica en base a los aspectos que son de interés para la empresa. Siendo así, los datos tomados están en contraste con los clásicos procesos orientados a las aplicaciones. En la Figura N° 1 se muestra el contraste entre los dos tipos de orientaciones. En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos pueden ser clientes, productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal médico, medicamentos, etc. Las diferencias entre la orientación de procesos y funciones de las aplicaciones y la orientación a temas, radican en el contenido de la data a escala detallada. En el data warehouse se excluye la información que no será usada por el proceso de sistemas de soporte de decisiones, mientras que la información de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de decisiones. Otra diferencia importante está en la interrelación de la información. Los datos operacionales mantienen una relación continua entre dos o más tablas basadas en una regla comercial que está vigente. Las del data warehouse miden un espectro de tiempo y las relaciones encontradas en el data warehouse son muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones de datos) se representan en el data warehouse, entre dos o más tablas Base de Datos Multidimensionales y DataWarehouse - 40 - Base de Datos Multidimensionales y DataWarehouse - 41 - Integración El aspecto más importante del ambiente data warehousing es que la información encontrada al interior está siempre integrada. El contraste de la integración encontrada en el data warehouse con la carencia de integración del ambiente de aplicaciones, se muestran en la Figura N° 2, con diferencias bien marcadas, esto producto típicamente de las “fuentes múltiples” Fuentes Múltiples Como un mismo elemento puede derivarse desde fuentes múltiples se da el caso que muestra la figura, en que las características físicas de los datos entre una y otra fuente producen inconsistencia en medidas de unidades, formatos de fecha y otros. A continuación analizaremos dos problemas de fuentes múltiples bien típicos: el de codificación y el de medida de los atributos Codificación Los diseñadores de aplicaciones codifican el campo GÉNERO en varias formas. Algunos pueden representar GÉNERO como una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino" y "femenino". No importa mucho cómo el GENERO llega al data warehouse. Probablemente "M" y "F" sean tan buenas como cualquier otra representación. Lo importante es que sea de cualquier fuente de donde venga, el GENERO debe llegar al data warehouse en un estado integrado uniforme. Por lo tanto, cuando el GENERO se carga en el data warehouse desde una aplicación, donde ha sido representado en formato "M" y "F", los datos deben convertirse al formato del data warehouse. Base de Datos Multidimensionales y DataWarehouse - 42 - Medida de atributos Los diseñadores de aplicaciones miden las unidades de medida de las tuberías en una variedad de formas. Un diseñador puede almacenar los datos de tuberías en centímetros, otros en pulgadas, otros en millones de pies cúbicos por segundo y otros en yardas. Al dar medidas a los atributos, la transformación traduce las diversas unidades de medida usadas en las diferentes bases de datos para transformarlas en una medida estándar común. Cualquiera que sea la fuente, cuando la información de la tubería llegue al data warehouse necesitará ser medida de la misma manera. Base de Datos Multidimensionales y DataWarehouse - 43 - Base de Datos Multidimensionales y DataWarehouse - 44 - Proceso de integración: transformación de Datos Como se explicaba anteriormente, la inconsistencia en los formatos de datos y la codificación, típicamente existen cuando múltiples bases de datos contribuyen al data warehouse. En la Figura N° 9 se ilustra una forma de inconsistencia, en la cual el género se codifica de manera diferente en tres bases de datos diferentes. Los procesos de transformación de datos se desarrollan para direccionar estas inconsistencias. La transformación de datos también se encarga de las inconsistencias en el contenido de datos. Una vez que se toma la decisión sobre que reglas de transformación serán establecidas, deben crearse e incluirse las definiciones en las rutinas de transformación. Base de Datos Multidimensionales y DataWarehouse - 45 - De Tiempo Variante Los datos históricos son de poco uso en el procesamiento operacional. La información del depósito por el contraste, debe incluir los datos históricos para usarse en la identificación y evaluación de tendencias. (Ver Figura N° 3). El tiempo variante se muestra de varias maneras: 1. La más simple es que la información representa los datos sobre un horizonte largo de tiempo - desde cinco a diez años. El horizonte de tiempo representado para el ambiente operacional es mucho más corto - desde valores actuales hasta unos cuantos meses 2. La segunda manera en la que se muestra el tiempo variante en el data warehouse está en la estructura clave. Cada estructura clave en el data warehouse contiene, implícita o explícitamente, un elemento de tiempo como día, semana, mes, etc. Base de Datos Multidimensionales y DataWarehouse - 46 - El elemento de tiempo está casi siempre al pie de la clave concatenada, encontrada en el data warehouse. En ocasiones, el elemento de tiempo existirá implícitamente, como el caso en que un archivo completo se duplica al final del mes, o al cuarto. 3. La tercera manera en que aparece el tiempo variante es cuando la información del data warehouse, una vez registrada correctamente, no puede ser actualizada. La información del data warehouse es, para todos los propósitos prácticos, una serie larga de "snapshots" (vistas instantáneas). No volatil La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial para el análisis y la toma de decisiones, requiere una base de datos estable. En la Figura N° 4 se muestra que la actualización (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulación básica de los datos que ocurre en el data warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualización de datos (en el sentido general de actualización) en el depósito, como una parte normal de procesamiento. Base de Datos Multidimensionales y DataWarehouse - 47 - Base de Datos Multidimensionales y DataWarehouse - 48 - ESTRUCTURA DEL DATA WAREHOUSE Los data warehouse tienen una estructura distinta. Hay niveles diferentes de esquematización y detalle que delimitan el data warehouse. La estructura de un data warehouse se muestra en la Figura N° 5. Detalle de datos actuales En gran parte, el interés más importante radica en el detalle de los datos actuales, debido a que: • • • Refleja las ocurrencias más recientes, las cuales son de gran interés Es voluminoso, ya que se almacena al más bajo nivel de granularidad. Casi siempre se almacena en disco, el cual es de fácil acceso, aunque su administración sea costosa y compleja. Detalle de datos antiguos La data antigua es aquella que se almacena sobre alguna forma de almacenamiento masivo. No es frecuentemente su acceso y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Datos ligeramente resumidos La data ligeramente resumida es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual. Los puntos en los que se basa el diseñador para construirlo son: • • Que la unidad de tiempo se esquematización hecha. Qué contenidos (atributos) tendrá resumida. encuentre la data Base de Datos Multidimensionales y DataWarehouse sobre la ligeramente - 49 - Base de Datos Multidimensionales y DataWarehouse - 50 - A veces se encuentra en el ambiente de data warehouse y en otros, fuera del límite de la tecnología que ampara al data warehouse. (De todos modos, los datos completamente resumidos son parte del data warehouse sin considerar donde se alojan los datos físicamente.) Meta data El componente final del data warehouse es el de la meta data. De muchas maneras la meta data se sitúa en una dimensión diferente al de otros datos del data warehouse, debido a que su contenido no es tomado directamente desde el ambiente operacional. La meta data juega un rol especial y muy importante en el data warehouse y es usada como: • • • Un directorio para ayudar al analista a ubicar los contenidos del data warehouse. Una guía para la trazabilidad de los datos, de cómo se transforma, del ambiente operacional al de data warehouse. Una guía de los algoritmos usados para la esquematización entre el detalle de datos actual, con los datos ligeramente resumidos y éstos, con los datos completamente resumidos, etc. La meta data juega un papel mucho más importante en un ambiente data warehousing que en un operacional clásico. La meta data contiene (al menos): • • • La estructura de los datos Los algoritmos usados para la esquematización La trazabilidad desde el ambiente operacional al data warehouse A fin de recordar los diferentes niveles de los datos encontrados en el data warehouse, considere el ejemplo mostrado en la Figura N° 6. Base de Datos Multidimensionales y DataWarehouse - 51 - Base de Datos Multidimensionales y DataWarehouse - 52 - El detalle de ventas antiguas son las que se encuentran antes de 1992. Todos los detalles de ventas desde 1982 (o cuando el diseñador inició la colección de los archivos) son almacenados en el nivel de detalle de datos más antiguo. El detalle actual contiene información desde 1992 a 1993 (suponiendo que 1993 es el año actual). En general, el detalle de ventas no se ubica en el nivel de detalle actual hasta que haya pasado, por lo menos, veinticuatro horas desde que la información de ventas llegue a estar disponible en el ambiente operacional. En otras palabras, habría un retraso de tiempo de por lo menos veinticuatro horas, entre el tiempo en que en el ambiente operacional se haya hecho un nuevo ingreso de la venta y el momento cuando la información de la venta haya ingresado al data warehouse. El detalle de las ventas son resumidas semanalmente por línea de subproducto y por región, para producir un almacenamiento de datos ligeramente resumidos. El detalle de ventas semanal es adicionalmente resumido en forma mensual, según una gama de líneas, para producir los datos completamente resumidos. Base de Datos Multidimensionales y DataWarehouse - 53 - COMPONENTES DE UN DATA WAREHOUSE Antes de tener un Data Warehouse en la empresa se tiene que hacer un estudio de cuáles son los requerimientos necesarios para su implantación: Hardware Software de almacenamiento (SGBD) Software de extracción y manipulación de datos Herramientas Middleware Hardware En este sentido son críticas, a la hora de evaluar uno u otra infraestructura hardware, hay dos características principales: Por un lado, a este tipo de sistemas suelen acceder pocos usuarios con unas necesidades muy grandes de información, a diferencia de los sistemas operacionales, con muchos usuarios y necesidades puntuales de información. Debido a la flexibilidad requerida a la hora de hacer consultas complejas e imprevistas, y al gran tamaño de información manejada, son necesarias unas altas prestaciones de la máquina. Por otro lado, debido a que estos sistemas suelen comenzar con una funcionalidad limitada, que se va expandiendo con el tiempo, es necesario que los sistemas sean escalables para dar soporte a las necesidades crecientes de equipamiento. Recomendamos la visita a la dirección Internet: http://www.tpc.org En donde la Transaction Processing Council (de la que son miembros AMD, DELL, Bull, Compaq, HP, Intel, Fujitsu, Microsoft, IBM, Oracle, NCR , Sun, entre otros), realiza una comparativa entre las máquinas de sus miembros, proporcionando para diferentes modelos y diferentes configuraciones de Sistemas Operativos y Software de Base de Datos, un análisis de rendimiento (throughput), y un resumen de características (precio, número de procesadores, arquitectura y futuras versiones y fecha de disponibilidad). Base de Datos Multidimensionales y DataWarehouse - 54 - Software de almacenamiento (SGBD) El sistema que gestione el almacenamiento de la información (Sistema de Gestión de Base de Datos o SGBD), es otro elemento clave en un Data Warehouse. Independientemente de si la información almacenada en el Data Warehouse se puede analizar mediante visualización multidimensional, el SGBD puede estar realizado utilizando tecnología de Bases de Datos Relaciónales o Multidimensionales. Las bases de datos relacionales, se han popularizado en los sistemas operacionales, pero se han visto incapaces de enfrentarse a las necesidades de información de los entornos Data Warehouse. Por ello, y puesto que, las necesidades de información suelen atender a consultas multidimensionales, las BD multidimensionales, parten con ventaja. Las bases de datos post-relacionales (multidimensionales), abren un mayor abanico de elección. Estas bases de datos post-relacionales, parten de una tecnología consolidada y dan respuesta al agotamiento de las posibilidades de los sistemas de gestión de bases de datos relacionales, ofreciendo las mismas prestaciones aunque implantadas en una arquitectura diseñada de forma más eficiente. Software de extracción y manipulación de datos Para esta labor, que entra dentro del ámbito de los profesionales de tecnologías de la información, es crítico el poder contar con herramientas que permitan controlar y automatizar las necesidades de actualización del Data Warehouse. Estas herramientas funcionalidades: deberán proporcionar las siguientes Control de la extracción de los datos y su automatización, disminuyendo el tiempo empleado en el descubrimiento de procesos no documentados, minimizando el margen de error y permitiendo mayor flexibilidad. Acceso a diferentes tecnologías, haciendo un uso efectivo del hardware, software, datos y recursos humanos existentes. Base de Datos Multidimensionales y DataWarehouse - 55 - Proporcionar la gestión integrada del Data Warehouse y los Data Marts existentes, integrando la extracción, transformación y carga para la construcción del Data Warehouse corporativo y de los Data Marts. Uso de la arquitectura de meta datos, facilitando la definición de los objetos de negocio y las reglas de consolidación. Acceso a una gran variedad de fuentes de datos diferentes. Manejo de excepciones. Interfaz independiente de hardware. Soporte en la explotación del Data Warehouse. A veces, no se suele prestar la suficiente atención a esta fase de la gestión del Data Warehouse, aun cuando supone una gran parte del esfuerzo en la construcción de un Data Warehouse. Existen multitud de herramientas disponibles en el mercado que automatizan parte del trabajo, para lo cual Herramientas Middleware Como herramientas de soporte a la fase de gestión de un Data Warehouse, se describirá a continuación dos tipos de herramientas: Por un lado herramientas Middleware, que provean conectividad entre entornos diferentes, para ayudar en la gestión del Data Warehouse. Por otro, analizadores y aceleradores de consultas, que permitan optimizar tiempos de respuesta en las necesidades analíticas, o de carga de los diferentes datos desde los sistemas operacionales hasta el Data Warehouse. Las herramientas Middleware deben ser escalables siendo capaces de crecer conforme crece el Data Warehouse, sin problemas de volúmenes. También deben ser flexibles y robustas, sin olvidarse de proporcionar un rendimiento adecuado. Con el uso de estas herramientas de Middleware lograremos: Maximizar los recursos plataforma más adecuada. ejecutando las aplicaciones Base de Datos Multidimensionales y DataWarehouse en la - 56 - Integrar los datos y aplicaciones existentes en una plataforma distribuida. Automatizar la distribución de datos y aplicaciones desde un sistema centralizado. Reducir tráfico en la red, balanceando los niveles de cliente servidor. Explotar las capacidades de sistemas remotos sin tener que aprender múltiples entornos operativos. Asegurar la escalabilidad del sistema. Desarrollar aplicaciones en local y explotarlas en el servidor. Los analizadores y aceleradores de consultas trabajan volcando sobre un archivo las consultas ejecutadas y datos asociados a las mismas (tiempo de respuesta, tablas accedidas, método de acceso, etc.). Este archivo se analiza automáticamente o mediante la supervisión del administrador de datos, para mejorar los tiempos de acceso. El implantar un sistema analizador de consultas, en el entorno real tiene además una serie de ventajas tales como: Se pueden monitorizar los tiempos de respuesta del entorno real. Se pueden implantar mecanismos de optimización de las consultas, reduciendo la carga del sistema. Se puede imputar costes a los usuarios por el coste del Data Warehouse. Base de Datos Multidimensionales y DataWarehouse - 57 - OPERACIONES EN UN DATA WAREHOUSE En la Figura N° 8 se muestra algunos de los tipos de operaciones que se efectúan dentro de un ambiente data warehousing. Sistemas Operacionales Los datos administrados por los sistemas de aplicación operacionales son típicamente la fuente principal de datos para el data warehouse. Base de Datos Multidimensionales y DataWarehouse - 58 - Extracción, Transformación y Carga de los Datos Se requieren herramientas de gestión de datos para extraer datos desde bases de datos y/o archivos operacionales, luego es necesario manipular o transformar los datos antes de cargar los resultados en el data warehouse. Tomar los datos desde varias bases de datos operacionales y transformarlos en datos requeridos para el depósito, se refiere a la transformación o a la integración de datos (visto ya en el capitulo de las “Características de un DataWarehouse”). Las bases de datos operacionales, diseñadas para el soporte de varias aplicaciones de producción, frecuentemente difieren en el formato., todas estas inconsistencias deben resolverse antes que los elementos de datos sean almacenados en el data warehouse. Meta data Otro paso necesario es crear la meta data. La meta data describe los contenidos del data warehouse. La meta data consiste de definiciones de los elementos de datos en el depósito, sistema(s) del (os) elemento(s) fuente. Como la data, se integra y transforma antes de ser almacenada en información similar. (Más información en el capitulo de “Estructura del DataWarehouse”) Acceso de usuario final Los usuarios acceden al data warehouse por medio de herramientas de productividad basadas en GUI (Graphical User Interface - Interface gráfica de usuario). Estos pueden incluir software de consultas, generadores de reportes, procesamiento analítico en línea, herramientas data/visual mining, etc., dependiendo de los tipos de usuarios y sus requerimientos particulares. Sin embargo, una sola herramienta no satisface todos los requerimientos, por lo que es necesaria la integración de una serie de herramientas. Base de Datos Multidimensionales y DataWarehouse - 59 - Plataforma del data warehouse La plataforma para el data warehouse es casi siempre un servidor exclusivo. Los extractos de la data integrada/transformada se cargan en el data warehouse. La elección de la plataforma es crítica. El depósito crecerá y hay que comprender los requerimientos después de 3 o 5 años. El sistema de depósito ejecuta las consultas que se pasa a los datos por el software de acceso a los datos del usuario. Aunque un usuario visualiza las consultas desde el punto de vista de una interfase gráfica, las consultas típicamente se formulan como pedidos SQL, porque SQL es un lenguaje universal y el estándar de hecho para el acceso a datos. Datos Externos Dependiendo de la aplicación, el alcance del data warehouse puede extenderse por la capacidad de acceder a la data externa. Por ejemplo, los datos accesibles por medio de servicios de computadora en línea y/o vía Internet, pueden estar disponibles a los usuarios del data warehouse. Base de Datos Multidimensionales y DataWarehouse - 60 - FLUJO DE DATOS Existe un flujo de datos normal y predecible dentro del data warehouse. La Figura N° 10 muestra ese flujo. Los datos ingresan al data warehouse operacional. (Hay pocas excepciones a esta regla). desde el ambiente Al ingresar al data warehouse, la información va al nivel de detalle actual, tal como se muestra. Se queda allí y se usa hasta que ocurra uno de los tres eventos siguientes: Base de Datos Multidimensionales y DataWarehouse - 61 - • • • Sea eliminado Sea resumido Sea archivado Con el proceso de des-actualización en un data warehouse se mueve el detalle de la data actual a data antigua, basado en el tiempo de los datos. El proceso de esquematización usa el detalle de los datos para calcular los datos en forma ligera y completamente resumidos. Base de Datos Multidimensionales y DataWarehouse - 62 - TECNICAS DE EXPLOTACION DE UN DATA WAREHOUSE Dentro del esquema de Gestión y Explotación del Data Warehouse que se muestra en el gráfico, pasamos a detallar las posibilidades que nos ofrece esta última fase. En que se examinara: 1. El uso que se puede realizar de las utilidades OLAP del Data Warehouse para análisis multidimensionales, 2. Las facilidades de obtención de información mediante consultas e informes libres, y el uso de técnicas de Data Mining que nos permitan descubrir "información oculta" en los datos mediante el uso de técnicas estadísticas. Base de Datos Multidimensionales y DataWarehouse - 63 - Sistemas OLAP El uso del procesamiento analítico (OLAP, On Line Analytical Processing) es un componente clave en el proceso del data warehousing y los servicios OLAP proporcionan la funcionalidad esencial para una gran variedad de aplicaciones que van desde informes corporativos hasta soporte avanzado de decisiones. Los servicios OLAP incrementan el acceso a las herramientas analíticas sofisticadas y puede reducir el costo del almacenamiento de datos. Ahora los hechos sustituyen a la intuición, así, los analistas, gerentes y ejecutivos utilizan OLAP para tomar decisiones mejor informadas y más eficientes. Las aplicaciones OLAP proporcionan las siguientes características: Rápido: Proporciona la información al usuario a una velocidad constante. La mayoría de las peticiones se deben de responder a la mayor brevedad posible. Análisis: Realiza análisis estadísticos de los datos, predefinidos por el programador de la aplicación o definidos ad hoc por el usuario. Multidimensional: es la característica esencial del OLAP. Información: Acceso a todos los datos e información necesaria, donde sea que ésta resida y no esté limitada por el volumen. La funcionalidad de los sistemas OLAP se caracteriza por realizar un análisis multidimensional de datos corporativos, que soportan los análisis del usuario, seleccionando la información a obtener. Consultas o Informes Libres (Query & Reporting) Las consultas o informes libres trabajan tanto sobre el detalle como sobre las agregaciones de la información. Realizar este tipo de explotación en un almacén de datos supone una optimización del tradicional entorno de informes (reporting), dado que el Data Warehouse mantiene una estructura y una tecnología mucho más apropiada para este tipo de solicitudes. Base de Datos Multidimensionales y DataWarehouse - 64 - Los sistemas de "Query & Reporting", no basados en almacenes de datos (DW) se caracterizan por la complejidad de las consultas, los altísimos tiempos de respuesta y la interferencia con otros procesos informáticos que compartan su entorno. La explotación del Data Warehouse mediante "Query & Reporting" debe permitir una gradación de la flexibilidad de acceso, proporcional a la experiencia y formación del usuario. A este respecto, se recomienda el mantenimiento de al menos tres niveles de dificultad: Los usuarios poco expertos podrán solicitar la ejecución de informes o consultas predefinidas según unos parámetros predeterminados. Los usuarios con cierta experiencia podrán generar consultas flexibles mediante una aplicación que proporcione una interfaz gráfica de ayuda. Los usuarios altamente experimentados podrán escribir, total o parcialmente, la consulta en un lenguaje de interrogación de datos. Data Minig (Minería de Datos) El Data Mining es un proceso que, a través del descubrimiento y cuantificación de relaciones predictivas en los datos, permite transformar la información disponible en conocimiento útil de negocio. Esto es debido a que no es suficiente "navegar" por los datos para resolver los problemas de negocio, sino que se hace necesario seguir una metodología ordenada que permita obtener rendimientos tangibles de este conjunto de herramientas y técnicas de las que dispone el usuario. Constituye por tanto una de las vías clave de explotación del Data Warehouse, dado que es este su entorno natural de trabajo. Se trata de un concepto de explotación de naturaleza radicalmente distinta a la de los sistemas de información de gestión, dado que no se basa en coeficientes de gestión o en información altamente agregada, sino en la información de detalle contenida en el data warehouse. Adicionalmente, el usuario no se conforma con la mera visualización de datos, sino que trata de obtener una relación entre los mismos que tenga repercusiones en su negocio. Base de Datos Multidimensionales y DataWarehouse - 65 - Las herramientas de Data Mining recorren los datos detallados del data warehouse para desenterrar patrones y asociaciones ocultos. Por lo regular los resultados generan extensos informes o se analizan con herramientas de visualización de datos. Los usuarios clave para el uso del Data Mining son los analistas empresariales, los peritos en estadística y los profesionales en tecnología de la información que auxilian a los usuarios empresariales. Quienes obtienen beneficios de los resultados del Data Mining son los gerentes empresariales y los ejecutivos, que desean entender los factores de éxito del negocio con base en datos completos del cliente y, utilizar luego, este conocimiento para afinar las estrategias de producción, precios y comercialización; mejorar el nivel de éxito de las estrategias; e impulsar el balance. En ocasiones se utiliza una combinación de técnicas de consulta y OLAP para comprender el comportamiento del cliente o para construir perfiles de segmentos de mercado; pero el proceso de aplicar estas técnicas es conducido esencialmente por el analista empresarial. En estos casos, este proceso también se conoce como Data Mining y se define como la modalidad de descubrimiento del soporte de decisiones, la cual es conducida por los datos y no por el analista empresarial. Base de Datos Multidimensionales y DataWarehouse - 66 - DATA MART V/S DATA WAREHOUSE En un contexto de Data Warehouse, el término duplicación se refiere a la creación de Data Marts locales o departamentales basados en subconjuntos de la información contenida en el Data Warehouse central o maestro. Un Data Mart es una aplicación de Data Warehouse, construida rápidamente para soportar una línea de negocio simple. Los Data Marts, tienen las mismas características de integración, de memoria histórica, orientación temática y no volatilidad que el Data Warehouse. Representan una estrategia de "divide y vencerás" para ámbitos muy genéricos de un Data Warehouse. Otra definición alternativa de Data Mart es la de sistema que mantiene una copia de un Data Warehouse para un uso departamental. Almacén de datos históricos relativos a un departamento de una organización. La estrategia de usar Data Marts es particularmente apropiada cuando el Data Warehouse central crece muy rápidamente y los distintos departamentos requieren sólo una pequeña porción de los datos contenidos en él. La creación de estos Data Marts requiere algo más que una simple réplica de los datos (se necesitan tanto la segmentación como algunos métodos adicionales de consolidación). La primera aproximación a una arquitectura descentralizada de Data Mart, podría ser venir originada de una situación como la descrita a continuación. Base de Datos Multidimensionales y DataWarehouse - 67 - El departamento de Marketing, emprende el primer proyecto de Data Warehouse como una solución departamental, creando el primer Data Mart de la empresa. Visto el éxito del proyecto, otros departamentos, como el de Riesgos, o el Financiero crean sus Data Marts. Marketing, comienza a usar otros datos que también usan los Data Marts de Riesgos y Financiero, y estos hacen lo propio. Esto parece ser una decisión normal, puesto que las necesidades de información de todos los Data Marts crecen conforme el tiempo avanza. Cuando esta situación evoluciona, el esquema general de integración entre los Data Marts pasa a ser, la del gráfico superior. En esta situación, es fácil observar cómo este esquema de integración de información de los Data Marts, pasa a convertirse en un rompecabezas en el que la gestión se ha complicado hasta convertir esta ansia de información en un auténtico quebradero de cabeza. No obstante, lo que ha fallado no son los Data Marts, sino su forma de integración. Base de Datos Multidimensionales y DataWarehouse - 68 - En efecto, un enfoque más adecuado sería la coordinación de la gestión de información de todos los Data Marts en un Data Warehouse centralizado. En esta situación los Data Marts obtendrían la información necesaria, ya previamente cargada y depurada en el Data Warehouse corporativo, simplificando el crecimiento de una base de conocimientos a nivel de toda la empresa. Esta simplificación provendría de la centralización de las labores de gestión de los Data Marts, en el Data Warehouse corporativo, generando economías de escala en la gestión de los Data Marts implicados. En la actualidad típicamente se da el enfoque "divide y vencerás", de esta forma se esta haciendo mas usual en la empresa tener Data Marts conectados a un DataWarehouse corporativo. Base de Datos Multidimensionales y DataWarehouse - 69 - SISTEMA OPERACIONAL V/S DATAWAREHOUSE Destinos y usos Las diferencias de un Data Warehouse con un sistema tradicional las podríamos resumir en el siguiente esquema: SISTEMA OPERACIONAL DATA WAREHOUSE ¦ Predomina la actualización ¦ Predomina la consulta ¦ La actividad más importante es de tipo operativo (día a día) ¦ La actividad más importante es el análisis y la decisión estratégica ¦ Predomina el proceso puntual ¦ Predomina el proceso masivo ¦ Mayor importancia a la estabilidad ¦ Mayor importancia a la dinamismo ¦ Datos en general desagregados ¦ Datos en distintos niveles de detalle y agregación ¦ Importancia del dato actual ¦ Importancia del dato histórico ¦ Importancia del tiempo de respuesta de la transacción instantánea ¦ Importancia de la respuesta masiva ¦ Estructura relacional ¦ Visión multidimensional ¦ Usuarios de perfiles medios o bajos ¦ Usuarios de perfiles altos ¦ Explotación de la información ¦ Explotación de toda la relacionada con la operativa de cada información interna y externa aplicación relacionada con el negocio Base de Datos Multidimensionales y DataWarehouse - 70 - Los datos operacionales y los datos del data warehouse son accedidos por usuarios que usan los datos de maneras diferentes. Uso de Base de Datos Operacionales Uso de Data Warehouse Muchos usuarios concurrentes Pocos usuarios concurrentes Consultas predefinidas y actualizables Consultas complejas, frecuentemente no anticipadas. Cantidades pequeñas de datos detallados Cantidades grandes de datos detallados Requerimientos de respuesta inmediata Requerimientos de respuesta no críticos Ambiente Operacional v/s Ambiente DataWarehouse • Los datos se filtran cuando pasan desde el ambiente operacional al de depósito. Existe mucha data que nunca sale del ambiente operacional. Sólo los datos que realmente se necesitan ingresarán al ambiente de data warehouse. • El horizonte de tiempo de los datos es muy diferente de un ambiente al otro. La información en el ambiente operacional es más reciente con respecto a la del data warehouse. Desde la perspectiva de los horizontes de tiempo únicos, hay poca superposición entre los ambientes operacional y de data warehouse. • El data warehouse contiene un resumen de la información que no se encuentra en el ambiente operacional. • Los datos experimentan una transformación fundamental cuando pasa al data warehouse. La mayor parte de los datos se alteran significativamente al ser seleccionados y movidos al data warehouse. Dicho de otra manera, la mayoría de los datos se alteran física y radicalmente cuando se mueven al depósito. No es la misma data que reside en el ambiente operacional desde el punto de vista de integración. En vista de estos factores, la redundancia de datos entre los dos ambientes es una ocurrencia rara, que resulta en menos de 1%. Base de Datos Multidimensionales y DataWarehouse - 71 - Entorno operacional Base de Datos Multidimensionales y DataWarehouse - 72 - Entorno DataWarehouse Base de Datos Multidimensionales y DataWarehouse - 73 - USO DEL DATAWAREHOUSE Maneras diferentes de uso de datos Los usuarios de un data warehouse necesitan acceder a los datos complejos, frecuentemente desde fuentes múltiples y de formas no predecibles. Los usuarios que accedan a los datos operacionales, comúnmente efectúan tareas predefinidas que, generalmente requieren acceso a una sola base de datos de una aplicación. Por el contrario, los usuarios que accedan al data warehouse, efectúan tareas que requieren acceso a un conjunto de datos desde fuentes múltiples y frecuentemente no son predecibles. Lo único que se conoce (si es modelada correctamente) es el conjunto inicial de datos que se han establecido en el depósito. Algunas maneras diferentes de uso de datos serian: Los usuarios generan un procesamiento no predecible complejo Los usuarios del data warehouse generan consultas complejas. A veces la respuesta a una consulta conduce a la formulación de otras preguntas más detalladas, en un proceso llamado drilling down. El data warehouse puede incluir niveles de resúmenes múltiples, derivado de un conjunto principal, único, de datos detallados, para soportar este tipo de uso. En efecto, los usuarios frecuentemente comienzan buscando en los datos resumidos y como identifican áreas de interés, comienzan a acceder al conjunto de datos detallado. Los conjuntos de datos resumidos representan el "Qué" de una situación y los conjuntos de datos detallados permiten a los usuarios construir un cuadro sobre "Cómo" se ha derivado esa situación. Las consultas de los usuarios accedan a cantidades grandes de datos Debido a la necesidad de investigar tendencias y evaluar las relaciones entre muchas clases de datos, las consultas al data warehouse permiten acceder a volúmenes muy grandes tanto de data detallada como Base de Datos Multidimensionales y DataWarehouse - 74 - resumida. Debido a los requerimientos de datos históricos, los data warehouse evolucionan para llegar a un tamaño más grande que sus orígenes operacionales (de 10 a 100 veces más grande). Las consultas de los usuarios no tienen tiempos de respuesta críticos El data warehouse, tiene un requerimiento de respuesta no crítico porque el resultado frecuentemente se usa en un proceso de análisis y toma de decisiones. Aunque los tiempos de respuesta no son críticos, los usuarios esperan una respuesta dentro del mismo día en que es hecha la consulta. Por lo general, los diferentes niveles de datos dentro del data warehouse reciben diferentes usos. A más alto nivel de esquematización, se tiene mayor uso de los datos. En la Figura N° 12 se muestra que hay mayor uso de los datos completamente resumidos, a diferencia de la información antigua que apenas es usada. Base de Datos Multidimensionales y DataWarehouse - 75 - Base de Datos Multidimensionales y DataWarehouse - 76 - Para ilustrar cómo un data warehouse puede ayudar a una organización a mejorar sus operaciones, se muestra un ejemplo de lo que es el desarrollo de actividades sin tener un data warehouse. Ejemplo: Preparación de un reporte complejo Considere un problema bastante típico en una compañía de fabricación grande en el que se pide una información (un reporte) que no está disponible. El informe incluye las finanzas actuales, el inventario y la condición de personal, acompañado de comparaciones del mes actual con el anterior y el mismo mes del año anterior, con una comparación adicional de los 3 años precedentes. Se debe explicar cada desviación de la tendencia que cae fuera de un rango predefinido. Sin un data warehouse, el informe es preparado de la manera siguiente: La información financiera actual se obtiene desde una base de datos mediante un programa de extracción de datos, el inventario actual de otro programa de extracción de otra base de datos, la condición actual de personal de un tercer programa de extracción y la información histórica desde una copia de seguridad de cinta magnética o CD-ROM. Lo más interesante es que se ha pedido otro informe que continúe al primer informe (debido a que las preguntas se originaron a partir del anterior). El hecho es, que ninguno de los trabajos realizados hasta aquí (por ejemplo, diversos programas de extracción) se pueden usar para los próximos o para cualquier reporte subsiguiente. Imagine el tiempo y el esfuerzo que se ha desperdiciado por un enfoque anticuado. (Ver Figura N° 13). Base de Datos Multidimensionales y DataWarehouse - 77 - Las inconsistencias deben identificarse en cada conjunto de datos extraídos y resolverse, por lo general, manualmente. Cuando se completa todo este procesamiento, el reporte puede ser formateado, impreso, revisado y transmitido. Nuevamente, el punto importante aquí es que todo el trabajo desempeñado para hacer este informe no afecta a otros reportes que pueden solicitarse es decir, todos ellos son independientes y caros, desde el punto de vista de recursos y productividad. Base de Datos Multidimensionales y DataWarehouse - 78 - Al crear un data warehouse y combinar todos los datos requeridos, se obtienen los siguientes beneficios: Las inconsistencias de los datos se resuelven automáticamente cuando los elementos de datos se cargan en el data warehouse, no manualmente, cada vez que se prepara un reporte. Los errores que ocurrieron durante el proceso complejo de la preparación del informe, se minimizan porque el proceso es ahora mucho más simple. Los elementos de datos son fácilmente accesibles para otros usos, no sólo para un reporte particular. Se crea una sola fuente. ¿Quiénes y para qué lo usan? Dadas las características de un sistema de Data Warehousing, su aplicación puede tener variados fines, en una diversidad de industrias. No obstante, en términos generales, podemos decir que su aplicación más rica corresponde a entornos de empresas en los que se identifican grandes volúmenes de datos, asociados a: cantidad de clientes, variedad de productos y cantidad de transacciones. A continuación veremos ejemplos de aplicaciones típicas y algunos casos puntuales en distintas industrias. Comercio Minorista Utilizan grandes sistemas de Procesamiento Paralelo Masivo para acceder a meses o años de historia transaccional tomada directamente en los puntos de venta de cientos, de sucursales. Con esta información detallada pueden efectuar en forma más precisa y eficiente actividades de compra, fijación de precios, manejo de inventarios, etc. Las promociones y las ofertas de cupones son seguidas, analizadas y corregidas. Modas y tendencias son cuidadosamente administradas a efectos de maximizar utilidades y reducir costos de inventario. El stock es reasignado por sucursales o regiones según ventas y tendencias. Estos sistemas con capacidad de procesar gran cantidad de datos detallados permiten implementar eficientemente prácticas de mercadería "en consignación", en esta modalidad la cadena minorista paga al proveedor Base de Datos Multidimensionales y DataWarehouse - 79 - recién cuando los productos son vendidos y pasados por el lector de códigos de barras del punto de venta. Esta información detallada permite ejercer mayor poder de negociación sobre los proveedores, dado que el comercio minorista puede llegar a saber más que el fabricante sobre sus productos: quién lo compra, dónde, cuándo, con que otros productos, etc. Manufactura de Bienes de Consumo Masivo Las empresas de este sector necesitan hacer un manejo cada vez más ágil de la información para mantenerse competitivas en la industria. Los Data Warehouses se utilizan para predecir la cantidad de producto que se venderá a un determinado precio y, por consiguiente, producir la cantidad adecuada para una entrega "justo a tiempo". A su vez se coordina el suministro a las grandes cadenas minoristas con inmensas cantidades de productos "en consignación", que no son pagados hasta que estos productos son vendidos al consumidor final. Un ejemplo interesante es el de Whirlpool. Este fabricante global de electrodomésticos utiliza su Data Warehouse para hacer un seguimiento directo de sus casi 15 millones de clientes y de sus más de 20 millones de aparatos instalados. Las mayores aplicaciones del sistema son para marketing, ventas, mantenimiento, garantía y diseño de productos. Permite mantener stock de partes más ajustados y mejorar las condiciones de negociación con los proveedores de las mismas. Si, por ejemplo, un determinado motor se identifica como poseedor de una tasa de falla superior, Whirlpool puede utilizar la información para hacer renegociaciones de garantía con el proveedor. Como antecedente interesante se puede mencionar que durante el verano de 1993 los ingenieros de Whirlpool detectaron una tasa de falla muy alta en una manguera de conexión en una serie de lavarropas que se estaba vendiendo. A partir de allí se detuvo la producción, se identificaron los clientes y se enviaron técnicos a reemplazar la parte defectuosa antes de que entrara en falla. Esto no solo tuvo un impacto muy importante en satisfacción de clientes sino que se redujeron los costos de garantía por el reemplazo planificado Base de Datos Multidimensionales y DataWarehouse - 80 - Transporte de Cargas y Pasajeros Se utilizan Data Warehouses para almacenar y acceder a meses o años de datos de clientes y sistemas de reservas para realizar actividades de marketing, planeamiento de capacidad, monitoreo de ganancias, proyecciones y análisis de ventas y costos, programas de calidad y servicio a clientes. Las empresas de transporte de cargas llevan datos históricos de años, de miles de cargamentos, capacidades, tiempos de entrega, costos, ventas, márgenes, equipamiento, etc.. Las aerolíneas utilizan sus Data Warehouses para sus programas de viajeros frecuentes, para compartir información con los fabricantes de naves, para la administración del transporte de cargas, para compras y administración de inventarios, etc. Hacen un seguimiento de partes de repuesto, cumplimiento con las regulaciones aeronáuticas, desempeño de los proveedores, seguimiento de equipaje, historia de reservas, ventas y devoluciones de tickets, reservas telefónicas, desempeño de las agencias de viajes, estadísticas de vuelo, contratos de mantenimiento, etc. Telecomunicaciones Estas empresas utilizan sus Data Warehouses para operar en un mercado crecientemente competitivo, des-regulado y global que, a su vez, atraviesa profundos cambios tecnológicos. Se almacenan datos de millones de clientes: sus circuitos, facturas mensuales, volúmenes de llamados, servicios utilizados, equipamiento vendido, configuraciones de redes, etc. así como también información de facturación, utilidades, y costos son utilizadas con propósitos de marketing, contabilidad, reportes gubernamentales, inventarios, compras y administración de redes. Otras Industrias En la industria informática NCR dispone de los Data Warehouses de mayor magnitud y antigüedad. Sus mayores instalaciones se encuentran en distintos centros de la compañía en Estados Unidos. su primera aplicación fue el seguimiento histórico y detallado de la base de clientes: llamados de servicios, productos instalados, performances, etc.En NCR San Diego, California, se encuentra el centro de desarrollo de los computadores WorldMark. Sobre los mismos se realizó la demostración del Data Warehouse más grande del mundo: 10 Terabytes de información (=10.000 Gigabytes=10.000.000 Mega bites), Base de Datos Multidimensionales y DataWarehouse - 81 - IMPACTOS DW El éxito de DW no está en su construcción, sino en usarlo para mejorar procesos empresariales, operaciones y decisiones. Posesionar un DW para que sea usado efectivamente, requiere entender los impactos de implementación en los siguientes ámbitos: Impactos Humanos. Efectos sobre la gente de la empresa: Construcción del DW: Construir un DW requiere la participación activa de quienes usarán el DW. A diferencia del desarrollo de aplicaciones, donde los requerimientos de la empresa logran ser relativamente bien definidos producto de la estabilidad de las reglas de negocio a través del tiempo, construir un DW depende de la realidad de la empresa como de las condiciones que en ese momento existan, las cuales determinan qué debe contener el DW. La gente de negocios debe participar activamente durante el desarrollo del DW, desde una perspectiva de construcción y creación. El DW intenta proveer los datos que posibilitan a los usuarios acceder su propia información cuando ellos la necesitan. Esta aproximación para entregar información tiene varias implicancias: a) La gente de la empresa puede necesitar aprender nuevas destrezas. b) Análisis extensos y demoras de programación para obtener información será eliminada. Como la información estará lista para ser acezada, las expectativas probablemente aumentarán. c) Nuevas oportunidades pueden existir en la comunidad empresarial para los especialistas de información. d) La gran cantidad de reportes en papel serán reducidas o eliminadas. e) La madurez del DW dependerá del uso activo y retroalimentación de sus usuarios. Base de Datos Multidimensionales y DataWarehouse - 82 - Impactos empresariales Efectos sobre procesos y decisiones empresariales. Se deben considerar los beneficios empresariales potenciales de los siguientes impactos: a) Los Procesos de Toma de Decisiones pueden ser mejorados mediante la disponibilidad de información. Decisiones empresariales se hacen más rápidas por gente más informada. b) Los procesos empresariales pueden ser optimizados. El tiempo perdido esperando por información que finalmente es incorrecta o no encontrada, es eliminada. c) Conexiones y dependencias entre procesos empresariales se vuelven más claros y entendibles. Secuencias de procesos empresariales pueden ser optimizadas para ganar eficiencia y reducir costos. d) Procesos y datos de los sistemas operacionales, así como los datos en el DW, son usados y examinados. Cuando los datos son organizados y estructurados para tener significado empresarial, la gente aprende mucho de los sistemas de información. Pueden quedar expuestos posibles defectos en aplicaciones actuales, siendo posible entonces mejorar la calidad de nuevas aplicaciones. Comunicación e Impactos Organizacionales. Apenas el DW comienza a ser fuente primaria de información empresarial consistente, los siguientes impactos pueden comenzar a presentarse: a) La gente tiene mayor confianza en las decisiones empresariales que se toman. Ambos, quienes toman las decisiones como los afectados conocen que está basada en buena información. b) Las organizaciones empresariales y la gente de la cual ella se compone queda determinada por el acceso a la información. De esta manera, la gente queda mejor habilitada para entender su propio rol y responsabilidades como también los efectos de sus contribuciones; a la vez, desarrollan un mejor entendimiento y apreciación con las contribuciones de otros. Base de Datos Multidimensionales y DataWarehouse - 83 - c) La información compartida conduce a un lenguaje común, conocimiento común, y mejoramiento de la comunicación en la empresa. Se mejora la confianza y cooperación entre distintos sectores de la empresa , viéndose reducida la sectorización de funciones. d) Visibilidad, accesibilidad, y conocimiento de los datos producen mayor confianza en los sistemas operacionales. Impactos Técnicos De DW. Considerando las etapas de construcción, soporte del DW y de sistemas operacionales, se tienen los siguientes impactos técnicos: Nuevas destrezas de desarrollo: cuando se construye el DW, el impacto más grande sobre la gente técnica está dada por la curva de aprendizaje, muchas destrezas nuevas se deben aprender, incluyendo: a) Conceptos y estructura DW. b) El DW introduce muchas tecnologías nuevas, con ello nuevas responsabilidades de soporte, nuevas demandas de recursos y nuevas expectativas, son los efectos de estos cambios. c) Destrezas de diseño y análisis donde los requerimientos empresariales no son posibles de definir de una forma estable a través del tiempo. d) Trabajo en equipo cooperativo con gente participantes activos en el desarrollo del proyecto. de negocios como Nuevas responsabilidades de operación: Cambios sobre los sistemas y datos operacionales deben ser examinados más cuidadosamente para determinar el impacto que estos cambios tienen sobre ellos, y sobre el DW. Base de Datos Multidimensionales y DataWarehouse - 84 - COSTOS Y VALOR DEL DATAWAREHOUSE Costos De Un DW La complejidad en el desarrollo se ha presentado como la principal desventaja de un DW. Esto se debe a que la realidad para cada negocio es distinta, y un DW debe responder a las características particulares que presenta cada uno de ellos, tanto de configuración como del conjunto de requisitos a satisfacer; por lo cual no es fácil estandarizar la forma de desarrollar este tipo de proyectos. A continuación se detallaran los costos que en general conlleva implementar un DataWarehouse. Costos de construcciones Los costos de construir un DW son similares para cualquier proyecto de tecnología de información. Estos pueden ser clasificados en tres categorías: RRHH: La gente necesita contar con un enfoque fuerte sobre el conocimiento del área de la empresa y de los procesos empresariales. Además es muy importante considerar las cualidades de la gente, ya que el desarrollo del DW requiere participación de la gente de negocios como de los especialistas tecnológicos; estos dos grupos de gente deben trabajar juntos, compartiendo su conocimiento y destrezas en un espíritu de equipo de trabajo, para enfrentar los desafíos de desarrollo del DW. Tiempo: Se debe establecer el tiempo no tan solo para la construcción y entrega de resultados del DW, sino también para la planeación del proyecto y la definición de la arquitectura. Tecnología: Muchas tecnologías nuevas son introducidas por el DW. El costo de la nueva tecnología puede ser tan sólo la inversión inicial del proyecto. Base de Datos Multidimensionales y DataWarehouse - 85 - Costos de Operación Una vez que está construido y entregado un DW debe ser soportado para que tenga valor empresarial. Son justamente estas actividades de soporte, la fuente de continuos costos operacionales para un DW. Se pueden distinguir tres tipos de costos de operación: Evolutivos: Ajustes continuos del DW a través del tiempo, como cambios de expectativas y, cambios producto del aprendizaje del RRHH del proyecto mediante su experiencia usando el DW. Crecimiento: Incrementos en el tiempo en volúmenes de datos, del número de usuarios del DW, lo cual conllevará a un incremento de los recursos necesarios como a la demanda de monitoreo, administración y sintonización del DW (evitando así, un incremento en los tiempos de respuesta y de recuperación de datos, principalmente). Cambios: El DW requiere soportar cambios que ocurren tanto en el origen de datos que éste usa, como en las necesidades de la información que éste soporta. Cuando se implementa un DW, el impacto de cambios es compuesto. Dos orígenes primarios de cambios existen: Cambios en el ambiente empresarial: Un cambio en el ambiente empresarial puede cambiar las necesidades de información de los usuarios. Así, el contenido del DW se puede ver afectado y las aplicaciones pueden requerir cambios. Cambios en la tecnología: Un cambio en la tecnología puede afectar la manera que los datos operacionales son almacenados, lo cual implicaría un ajuste en los procesos de Extracción, Transporte y Carga para adaptar las variaciones presentadas. Base de Datos Multidimensionales y DataWarehouse - 86 - Un cambio de cualquiera de ellos impacta los sistemas operacionales. Un cambio en el ambiente operacional puede cambiar el formato, estructura o significado de los datos operacionales usados como origen para el DW. De esta forma serían impactados los procesos de Extracción, Transformación y Carga de datos. Valor Del DW Los beneficios que puede aportar el Data Warehouse son: Proporciona una herramienta para la toma de decisiones en cualquier área funcional, basándose en información integrada y global del negocio. Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar relaciones ocultas entre los datos del almacén; obteniendo un valor añadido para el negocio de dicha información. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación con el cliente. Supone una optimización tecnológica y económica en entornos de Centro de Información, estadística o de generación de informes con retornos de la inversión espectaculares. Costos v/s Valor De DW A grandes rasgos, los costos asociados a un proyecto DW incluyen el costo de construcción y, la mantención y operación una vez que está construido. En cuanto al valor, éste considera, el valor de mejorar la entrega de información, el valor de mejorar el proceso de toma de decisiones y el valor agregado para los procesos empresariales. Lograr una cuantificación económica de los factores de valor no es fácil ni natural a diferencia de los factores de costos, agregar valor económico a los factores de valor resulta ser en extremo complejo y subjetivo. Una alternativa a ello, es hacer una valoración desde la perspectiva de costos evitables, relacionados con los “costos de no Base de Datos Multidimensionales y DataWarehouse - 87 - disponer en la organización de información apropiada”, tanto a un nivel técnico como de procesos empresariales (en especial, para el proceso de Toma de Decisiones). DW es una estrategia de largo plazo. Al querer implementar un DW, se debe evaluar el costo y el valor considerando un período de tiempo razonable para obtener beneficios. El retorno sobre la inversión de un DW, se comienza a percibir bastante más tarde del tiempo en el cual se realizó la inversión inicial. Si se calcula costo/valor desde una perspectiva de corto plazo, los costos serán significativamente más altos en proporción al valor. Base de Datos Multidimensionales y DataWarehouse - 88 - ORGANIZACIÓN DE UN PROYECTO No existe una fórmula de garantía real para el éxito de la construcción de un data warehouse, pero hay muchos puntos que contribuyen a ese objetivo. A continuación, se indican algunos factores claves que deben considerarse en: Planificación de un Data Warehouse La planificación es el proceso más importante que determina la clase de tipo de estrategias data warehousing que una organización iniciará. Puntos claves que deben considerarse en la planificación de un data warehouse: Establecer una asociación de usuarios, gestión y grupos Es esencial involucrar tanto a los usuarios como a la gestión para asegurar que el data warehouse contenga información que satisfaga los requerimientos de la empresa. La gestión puede ayudar a priorizar la fase de la implementación del data warehouse, así como también la selección de herramientas del usuario. Los usuarios y la gestión justifican los costos del data warehouse sobre cómo será "su ambiente" y está basado primero en lo esperado y segundo, en el valor comercial real. Seleccionar una aplicación piloto con una alta probabilidad de éxito Una aplicación piloto de alcance limitado, con un reembolso medible para los usuarios y la gestión, establecerá el data warehouse como una tecnología clave para la empresa. Estos mismos criterios (alcance limitado, reembolso medible y beneficios claros para la empresa) se aplican a cada fase de la implementación de un data warehouse. Construir prototipos rápida y frecuentemente La única manera para asegurar que el data warehouse reúna las necesidades de los usuarios, es hacer el prototipo a lo largo del proceso de Base de Datos Multidimensionales y DataWarehouse - 89 - implementación y aún más allá, así como agregar los nuevos datos y/o los modelos en forma permanente. El trabajo continuo con los usuarios y la gestión es, nuevamente, la clave. Implementación incremental La implementación incremental reduce riesgos y asegura que el tamaño del proyecto permanezca manejable en cada fase. Reportar activamente y publicar los casos exitosos La retroalimentación de los usuarios ofrece una excelente oportunidad para publicar los hechos exitosos dentro de una organización. La publicidad interna sobre cómo el data warehouse ha ayudado a los usuarios a operar más efectivamente puede apoyar la construcción del data warehouse a lo largo de una empresa. La retroalimentación del usuario también ayuda a comprender cómo evoluciona la implementación del data warehouse a través del tiempo para reunir requerimientos de usuario nuevamente identificados. Desarrollo de un Data Warehouse Antes de desarrollar un data warehouse, es crítico el desarrollo de una estrategia equilibrada que sea apropiada para sus necesidades y sus usuarios. Las preguntas que deben tenerse en cuenta son: • • • ¿Quién es el auditorio? ¿Cuál es el alcance? ¿Qué tipo de data warehouse debería construirse? Algunas estrategias mediante las cuales las organizaciones pueden conseguir sus data warehouses son enumeradas a continuación. Base de Datos Multidimensionales y DataWarehouse - 90 - Primera Establecer un ambiente "data warehouse virtual", el cual puede ser creado por: • • • • Instalación de un conjunto de facilidades para acceso a datos, directorio de datos y gestión de proceso. Entrenamiento de usuarios finales. Control de cómo se usan realmente las instalaciones del data warehouse. Basados en el uso actual, crear un data warehouse físico para soportar los pedidos de alta frecuencia. Segunda Construir una copia de los datos operacionales desde un sistema operacional único y posibilitar al data warehouse de una serie de herramientas de acceso a la información. Esta estrategia tiene la ventaja de ser simple y rápida. Desafortunadamente, si los datos existentes son de mala calidad y/o el acceso a los datos no ha sido previamente evaluado, entonces se puede crear una serie de problemas. Tercera Finalmente, la estrategia data warehousing óptima es seleccionar el número de usuarios basados en el valor de la empresa y hacer un análisis de sus puntos, preguntas y necesidades de acceso a datos. De acuerdo a estas necesidades, se construyen los prototipos data warehousing y se prueban para que los usuarios finales puedan experimentar y modificar sus requerimientos. Una vez se tenga un consenso general sobre las necesidades, entonces se consiguen los datos provenientes de los sistemas operacionales existentes a través de la empresa y/o desde fuentes externas de datos y se cargan al data warehouse. Base de Datos Multidimensionales y DataWarehouse - 91 - En conclusión No se tiene un enfoque único para construir un data warehouse que se adapte a las necesidades de las empresas, debido a que las necesidades de cada una de ellas son diferentes, al igual que su contexto. Además, como la tecnología data warehousing va evolucionando, se aprende cada vez más y más sobre el desarrollo de data warehouses, que resulta en que el único enfoque práctico para al almacenamiento de datos es la evolución de uno mismo. Diseño de un Data Warehouse El diseño de los data warehouses es muy diferente al diseño de los sistemas operacionales tradicionales. Se pueden considerar los siguientes puntos: 1. Los usuarios de los data warehouses usualmente no conocen mucho sobre sus requerimientos y necesidades como los usuarios operacionales. 2. El diseño de un data warehouse, con frecuencia involucra lo que se piensa en términos más amplios y con conceptos del negocio más difíciles de definir que en el diseño de un sistema operacional. Al respecto, un data warehouse está bastante cerca a Reingeniería de los Procesos del Negocio (Business Process Reengineering). 3. Finalmente, la estrategia de diseño ideal para un data warehousing es generalmente de afuera hacia adentro (outside-in) a diferencia de arriba hacia abajo (top-down). A pesar que el diseño del data warehouse es diferente al usado en los diseños tradicionales, no es menos importante. El hecho que los usuarios finales tengan dificultad en definir lo que ellos necesitan, no lo hace menos necesario. En la práctica, los diseñadores de data warehouses tienen que usar muchos "trucos" para ayudar a sus usuarios a "visualizar" sus requerimientos. Por ello, son esenciales los prototipos de trabajo. Base de Datos Multidimensionales y DataWarehouse - 92 - Gestión de un Data Warehouse Los data warehouses requieren una comercialización y gestión muy cuidadosa. Debe considerarse lo siguiente: 1. Un data warehouse es una inversión buena sólo si los usuarios finales realmente pueden conseguir información vital más rápida y más barata de lo que obtienen con la tecnología actual. Como consecuencia, la gestión tiene que pensarse seriamente sobre cómo quieren sus depósitos para su eficaz desempeño y cómo conseguirán llegar a los usuarios finales. 2. La administración debe reconocer que el mantenimiento de la estructura del data warehouse es tan crítico como el mantenimiento de cualquier otra aplicación de misión crítica. De hecho, la experiencia ha demostrado que los data warehouses llegarán a ser rápidamente uno de los sistemas más usados en cualquier organización. 3. La gestión debe comprender también que si se embarcan sobre un programa data warehousing, se crearán nuevas demandas sobre sus sistemas operacionales, que son: o o o Demandas para mejorar datos Demandas para una data consistente Demandas para diferentes tipos de datos, etc. Base de Datos Multidimensionales y DataWarehouse - 93 - TENDENCIAS TECNOLÓGICAS Y DE MERCADO Describimos a continuación una recopilación de las principales tendencias que se observan en el mercado. Tendencias hacia herramientas especializadas: El uso de herramientas de propósito general no satisface por completo las necesidades de un proyecto de Data Warehouse por lo que se tiende a adquirir herramientas que resuelvan las necesidades puntuales de las organizaciones Webhousing El uso de Internet como fuente de información hacia el exterior e interior (vía intranets), crece constantemente, y la integración de una herramienta de Data Warehouse con Internet. Uso generalizado de Data Marts Las peculiaridades de un proyecto Data Warehouse, y el enfoque progresivo de su construcción, hace que cada vez mas organizaciones realicen sus desarrollos mediante el uso de Data Marts integrados, tal y como comentábamos en el apartado Data Warehouses. Data Marts Base de Datos Multidimensionales y DataWarehouse - 94 - CONCLUSION El comprender este trabajo hace dimensionar cuan importante es el concepto de BD multidimensionales hoy en día. La oportunidad que nos entregan al momento de analizar datos a través del tiempo o responder consultas que con una base de datos relacional demoraría mucho tiempo tomando en cuenta la gran cantidad de información y las operaciones que se tendrían que realizar para obtener estos resultados. Es así como también son muy útiles al momento de otorgar una herramienta de análisis funcional al entregar una visión global del negocio. Se entendió como se enfoca el trabajo con los data warehouse, como se modela pensando multidimencionalmente, pero mejor aun, se aprendió que es lo que es un DW, sus funciones, usos, diseños, esquema, ventajas y desventajas, sus usuarios, además de comparar constantemente con las BD operacionales. Al finalizar este informe se reflexiona que esta idea aun no termina de desarrollarse, que el futuro nos entregara nuevos usos y funciones para esta herramienta, pero no cabe duda de su importancia en el trabajo de hoy, con tantos datos y cada día con mas requerimientos Base de Datos Multidimensionales y DataWarehouse - 95 - BIBLIOGRAFIA • Comunications of Septiembre 1998 the ACM. Especial de DataWarehousing. • [Codd 1970] “A Relational Model of Data for Large Shared Data Banks”. • Altair directo, finanzas corporativas Kimbal, “The DataWarehouse Lifecycle Toolkit • ”Analisis y Diseño de un DataMart Dimensional, caso práctico Forestal Mininco. Memoria de titulo por Carmen Gloria Wolf, • Apuntes “Base de datos Multidimensionales”, curso Base de Datos, Universidad de Concepción. Paginas Web: • http://www.redcientifica.com/oracle/c0001p0006.html • http://www.datawarehouse.com • http://www.sqlmax.com/dataw1.asp • http://www.revista.unam.mx/vol.1/art5/index.html • http://www.itlp.edu.mx/publica/tutoriales/basedat1/temas1.htm • http://www.abcdatos.com/tutoriales/programacion/basesdedatos /varios.html Base de Datos Multidimensionales y DataWarehouse - 96 -