Universidad Nacional del Nordeste Facultad de Ciencias Exactas y Naturales y Agrimensura Monografía de Adscripción: Sistemas de Bases de Datos Multiplataforma Integrados a Sistemas Móviles Alumna: Paola Itatí Aguirre-LU: 38046 Prof. Director: Mgter. David Luis La Red Martínez Licenciatura en Sistemas de Información Corrientes-Argentina 2010 Índice general 1. Introducción 1 2. ¿Qué es un Data Warehouse? 2.1. Nociones Acerca de un DW . . . . . . . . . . . . . . . . . . . . 2.2. ¿Qué es lo que Preocupa a los Ejecutivos? . . . . . . . . . . . . 2.3. Objetivos del Data Warehouse . . . . . . . . . . . . . . . . . . 5 5 6 6 3. Sistemas de Información 3.1. Esquema General de los SI . . . . . . . . . 3.1.1. Sistemas Estratégicos . . . . . . . 3.1.2. Sistemas Tácticos . . . . . . . . . 3.1.3. Sistemas Técnico-Operativos . . . 3.1.4. Sistemas Interinstitucionales . . . 3.2. Datos Operacionales y Datos Informativos 3.3. Características del Data Warehouse . . . . 3.4. Impactos Técnicos de un DW . . . . . . . 4. Modelos de Datos 4.1. El Modelo Relacional . . . . . . . . . . . . 4.2. El Modelo Dimensional . . . . . . . . . . 4.2.1. Esquemas del Modelo Dimensional 4.2.2. Ventajas del Modelo Dimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 10 10 11 11 11 13 21 . . . . 23 23 24 25 27 5. Operaciones en un Data Warehouse 31 5.1. Tipos de Operaciones . . . . . . . . . . . . . . . . . . . . . . . 31 6. Herramientas de Acceso y Uso 37 6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 6.2. OLAP (On Line Analytical Processing) . . . . . . . . . . . . . 38 6.3. Data Mining (Minería de Datos) . . . . . . . . . . . . . . . . . 41 ÍNDICE GENERAL 7. Conclusión 47 Bibliografía 49 Índice alfabético 51 Índice de figuras 3.1. 3.2. 3.3. 3.4. 3.5. Sistema de Informción. Esquema. . . . . . . . . . . . . . . . . . Características del Data Warehouse. Orientado a una materia. Características del Data Warehouse. Integración. . . . . . . . . Características del Data Warehouse. Tiempo Variante. . . . . . Características del Data Warehouse. No Volátil. . . . . . . . . . 10 14 18 19 21 4.1. Modelo de Datos. Esquema en Estrella. . . . . . . . . . . . . . 4.2. Modelos de Datos. Esquema Copo de Nieve. . . . . . . . . . . . 26 28 5.1. Operaciones en el Data Warehouse. . . . . . . . . . . . . . . . . 32 6.1. Estructura Multidimensional. . . . . . . . . . . . . . . . . . . . 6.2. Modelo ROLAP y MOLAP. . . . . . . . . . . . . . . . . . . . . 6.3. Etapas en un Proyecto de MD. . . . . . . . . . . . . . . . . . . 39 40 43 Capítulo 1 Introducción La ubicuidad es la propiedad por la cual una entidad existe o se encuentra en todos los sitios al mismo tiempo. La Computación Ubicua pretende la integración de las nuevas tecnologías en el entorno personal, insertando dispositivos inteligentes en las tareas diarias, haciendo que interactúen de forma natural y desinhibida en todo tipo de situaciones y circunstancias. De esta forma se pretende unir el mundo real con una representación virtual, apoyándose sobre la inteligencia ambiental y logrando el entorno inteligente. Uno de los objetivos más importantes de la Computación Ubicua es integrar los dispositivos computacionales lo más posible, para hacer que se mezclen en la vida cotidiana, y permitir a los usuarios centrarse en las tareas que deben hacer, y no en las herramientas que deben usar, pudiendo suponer una revolución que cambie el modo de vida. Para lograr la integración de los dispositivos móviles se utiliza el protocolo de aplicaciones inalámbricas, Wireless Application Protocol o WAP; es un estándar abierto internacional para aplicaciones que utilizan las comunicaciones inalámbricas, por ej., acceso a servicios de Internet desde un teléfono móvil. Se trata de la especificación de un entorno de aplicación y de un conjunto de protocolos de comunicaciones para normalizar el modo en que los dispositivos inalámbricos se pueden utilizar para acceder a correo electrónico, grupo de noticias y otros. El organismo que se encarga de desarrollar el estándar WAP fue originalmente el WAP Forum, fundado por cuatro empresas del sector de las comuni1 2 CAPÍTULO 1. INTRODUCCIÓN caciones móviles, Sony-Ericsson, Nokia, Motorola y Openwave (originalmente Unwired Planet). Desde 2002 el WAP Forum es parte de la Open Mobile Alliance (OMA), consorcio que se ocupa de la definición de diversas normas relacionadas con las comunicaciones móviles, entre ellas las normas WAP. Los dispositivos de computación inalámbrica han crecido rápidamente, requiriendo aplicaciones de software cada vez más potentes que puedan manejar esta nueva realidad. Los usuarios desean que las aplicaciones que corren en sus dispositivos móviles tengan la misma funcionalidad estando conectados o desconectados de la red. Esperan aplicaciones que puedan soportar conexiones intermitentes, anchos de banda cambiantes y que manejen eficientemente el problema del roaming. Los dispositivos móviles pueden acceder a sistemas de bases de datos multiplataforma, término usado para referirse a los programas, sistemas operativos, lenguajes de programación, u otra clase de software, que puedan funcionar en diversas plataformas., ejemplo DB2. Una plataforma es una combinación de hardware y software usada para ejecutar aplicaciones, en su forma más simple consiste únicamente de un sistema operativo, una arquitectura, o una combinación de ambos. En muchos sistemas no solo se accede a las bases de datos sino también a los Data Warehouse. Debido a que los niveles gerenciales necesitan a menudo tomar decisiones de alto nivel, cruciales para el funcionamiento de la empresa. El Data Warehouse permite que los gerentes tomen decisiones siguiendo un enfoque racional, basados en información confiable y oportuna. Consiste básicamente en la transformación de los datos operacionales en información útil para decidir. El uso del Data Warehouse permite también encontrar relaciones ocultas entre los datos y predecir el comportamiento futuro bajo condiciones dadas. El trabajo con los Data Warehouses es diferente al de los sistemas transaccionales. Se modelan los datos a partir de dimensiones, en lugar del tradicional modelado relacional, y las herramientas de acceso a los datos se basan en una tecnología de procesamiento analítico (OLAP), distinta al procesamiento transaccional (OLTP) de los sistemas operacionales. Los datos operacionales que sirven de entrada al Data Warehouse generalmente están dispersos en distintos sistemas de la organización, desarrollados en diferentes entornos de desarrollo, por diferentes personas y en diferentes momentos. Es tarea fundamental del Data Warehouse recolectarlos, unificar- los y depurarlos según las necesidades del negocio, eliminando inconsistencias y conservando sólo la información útil para los objetivos empresariales. Esto se lleva a cabo mediante procesos que se ejecutan periódicamente y conducen a mantener la información actualizada. Las aplicaciones de usuario final que acceden al Data Warehouse brindan a los gerentes la posibilidad de ver la información con diferentes niveles de agregación (detallados o resumidos) y filtrar las consultas por distintas variables. Finalmente, el Data Warehouse permite aplicar herramientas como el Data Mining, para encontrar relaciones entre los datos a fin de comprender las causas de variabilidad presentes y realizar pronósticos con el apoyo de modelos estadísticos. En la sociedad actual, la información constituye un activo esencial de cualquier organización proporcionando beneficios significativos, tangibles y cuantificables. Como consecuencia, la integración de un Data Warehouse a la empresa representa una ventaja competitiva en el mundo de los negocios y acceder a ellos desde los dispositivos móviles es una alternativa adicional importante. 4 CAPÍTULO 1. INTRODUCCIÓN Capítulo 2 ¿Qué es un Data Warehouse? 2.1. Nociones Acerca de un DW De acuerdo con W. H. Inmon, quien es considerado como el padre del Data Warehouse: un Data Warehouse es un conjunto de datos integrados orientados a una materia que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de una administración. De acuerdo con algunas organizaciones, el Data Warehouse es una arquitectura. Para otras, es un depósito semánticamente consistente en datos (separados y que no interfieren con los sistemas operativos y de producción existentes) que llenan por completo los diferentes requerimientos de acceso y reporte de datos. Para algunos otros, el Data Warehouse es un proceso continuo que mezcla los datos de varias fuentes heterogéneas, incluyendo datos históricos y adquiridos para soportar la constante necesidad de consultas estructuradas y/o ad hoc, reportes analíticos y soporte de decisiones. Así como hay gran divergencia para establecer una definición precisa de un Data Warehouse, hay un claro consenso de que la tecnología del Data Warehouse es un ingrediente esencial en el conjunto de soluciones para el soporte de decisiones en una empresa. Un DW es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. La creación de un DW representa en la mayoría de las 5 6 CAPÍTULO 2. ¿QUÉ ES UN DATA WAREHOUSE? ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence. Es un repositorio de datos de muy fácil acceso, alimentado de numerosas fuentes, transformadas en grupos de información sobre temas específicos de negocios, para permitir nuevas consultas, análisis y decisiones. 2.2. ¿Qué es lo que Preocupa a los Ejecutivos? Se tienen montañas de datos en la compañía, pero no podemos llegar a ellos adecuadamente. Nada enloquece más a los ejecutivos que dos personas presentando el mismo resultado de operación pero con diferentes números y los ejecutivos lo que buscan es ver la información pero desde diferentes ángulos, mostrando únicamente lo que es importante para tomar una decisión en la empresa, finalmente los ejecutivos saben que hay datos que nunca serán confiables, por lo que prefieren que se eviten en los reportes ejecutivos. Uno de los valores más importantes de una organización es la información. Estos valores normalmente son guardados por la organización de dos formas: Los sistemas operacionales de registros. El Data Warehouse. Crudamente hablando, los sistemas operacionales de registros son donde los datos son depositados y el DW es de donde se extraen los datos para la toma de decisiones. 2.3. Objetivos del Data Warehouse Hace que la información de la organización sea accesible: los contenidos del DW son entendibles y navegables, y el acceso a ellos está caracterizado por el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco límites fijos. Cuando hablamos de entendible significa que los niveles de la información sean correctos y obvios. Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un click. Rápido desempeño significa, cero tiempos de espera. Todo lo demás es un compromiso y por consiguiente algo que se quiere mejorar. Hace que la información de la organización sea consistente: la información de una parte de la organización puede hacerse coincidir con la información de la otra parte de la organización. Si dos medidas de la organización tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Información consistente significa, información de alta calidad. Significa que toda la información es contabilizada y completada. Es información adaptable y elástica: el DW está diseñado para cambios continuos. Cuando se le hacen nuevas preguntas al DW y se le agregan datos nuevos, los datos existentes y las tecnologías no cambian ni se corrompen. Es fundamental para la toma de decisiones: el DW tiene los datos correctos para soportar la toma de decisiones. Podría decirse que la salida verdadera del DW son las decisiones que se toman después de que el DW haya presentado las evidencias. Se pretende utilizar el DW para construir un sistema de soporte a las decisiones. 8 CAPÍTULO 2. ¿QUÉ ES UN DATA WAREHOUSE? Capítulo 3 Sistemas de Información 3.1. Esquema General de los SI Hay funciones dentro de la empresa que tienen que ver con el planeamiento, previsión y administración de la organización. Estas funciones son críticas para la supervivencia de la organización, especialmente en un mundo de rápidos cambios. Las funciones como planificación de marketing, planeamiento de ingeniería y análisis financiero, requieren, además, de sistemas de información que las soporte. Pero estas funciones son diferentes de las operacionales y los tipos de sistemas y la información requerida son también diferentes. Las funciones basadas en el conocimiento son los Sistemas de Soporte de Decisiones (SSD). Estos sistemas están relacionados con el análisis de los datos y la toma de decisiones, frecuentemente, decisiones importantes sobre cómo operará la empresa, ahora y en el futuro. Estos sistemas no sólo tienen un enfoque diferente al de los operacionales, sino que, por lo general, tienen un alcance diferente. Mientras las necesidades de los datos operacionales se enfocan normalmente hacia una sola área, los datos para el soporte de decisiones, con frecuencia, toman un número de áreas diferentes y necesitan cantidades grandes de datos operacionales relacionadas. Son estos sistemas sobre los que se basa la tecnología Data Warehousing 9 10 CAPÍTULO 3. SISTEMAS DE INFORMACIÓN Figura 3.1: Sistema de Informción. Esquema. que se han dividido de acuerdo al esquema que se puede visualizar en la figura 3.1 de la página 10. 3.1.1. Sistemas Estratégicos Orientados a soportar la toma de decisiones, facilitan la labor de la dirección, proporcionándole un soporte básico, en forma de mejor información, para la toma de decisiones. Se caracterizan porque son sistemas sin carga periódica de trabajo, es decir, su utilización no es predecible. Destacan entre estos sistemas: los Sistemas de Información Gerencial (MIS), Sistemas de Información Ejecutivos (EIS), Sistemas de Información Georeferencial (GIS), Sistemas de Simulación de Negocios (BIS y que en la práctica son Sistemas Expertos o de Inteligencia Artificial-AI). 3.1.2. Sistemas Tácticos Diseñados para soportar las actividades de coordinación de actividades y manejo de documentación, definidos para facilitar consultas sobre información almacenada en el sistema, proporcionar informes y, en resumen, facilitar la 3.2. DATOS OPERACIONALES Y DATOS INFORMATIVOS 11 gestión independiente de la información por parte de los niveles intermedios de la organización. Destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemas de Transmisión de Mensajería (E-mail y Fax Server), coordinación y control de tareas (Work Flow) y tratamiento de documentos (Imagen, Trámite y Bases de Datos Documentarios). 3.1.3. Sistemas Técnico-Operativos Cubren el núcleo de operaciones tradicionales de captura masiva de datos (Data Entry) y servicios básicos de tratamiento de datos, con tareas predefinidas (contabilidad, facturación, almacén, presupuesto, personal y otros sistemas administrativos). Estos sistemas están evolucionando con la irrupción de sensores, autómatas, sistemas multimedia, bases de datos relacionales más avanzadas y data warehousing. 3.1.4. Sistemas Interinstitucionales Este último nivel de sistemas de información recién está surgiendo, es consecuencia del desarrollo organizacional orientado a un mercado de carácter global, el cual obliga a pensar e implementar estructuras de comunicación más estrechas entre la organización y el mercado (Empresa Extendida, Organización Inteligente e Integración Organizacional), todo esto a partir de la generalización de las redes informáticas de alcance nacional y global (Internet), que se convierten en vehículo de comunicación entre la organización y el mercado, no importa dónde esté la organización (Intranet), el mercado de la institución (Extranet) y el mercado (Red Global). Sin embargo, la tecnología data warehousing basa sus conceptos y diferencias entre dos tipos fundamentales de sistemas de información en todas las organizaciones: los sistemas técnico-operacionales y los sistemas de soporte de decisiones. Este último es la base de un data warehouse [1]. 3.2. Datos Operacionales y Datos Informativos El proceso automatizado de un negocio utiliza datos operacionales, los que constituyen el conjunto de registros de las transacciones del negocio. 12 CAPÍTULO 3. SISTEMAS DE INFORMACIÓN Estos datos son creados durante la ejecución de estos procesos y son almacenados en un archivo o en una base de datos. Frecuentemente contienen valores incorrectos, son muy detallados y son de mínimo uso en los negocios debido a su gran volumen, ubicación y formatos. En conclusión, es difícil para los usuarios del negocio tener acceso a los datos operacionales debido a las limitaciones de performance y tecnología. Lo que el usuario del negocio necesita como entrada a sus actividades de análisis son datos informativos. Estos son una combinación de datos operacionales que han sido modificados, depurados, transformados, consolidados y organizados desde diversas fuentes externas al proceso del negocio. Este tipo de información generalmente es específico para un conjunto de usuarios del negocio que lo hacen significante y útil para su análisis. Ambos tipos de datos y ambos tipos de uso son muy importantes, pero es difícil cumplir con ambos propósitos en el mismo sistema. Los datos operacionales son específicos para cada aplicación y usualmente son almacenados de manera separada por otras aplicaciones. Estos datos son útiles en la medida en que se aprovechen para satisfacer el proceso de las aplicaciones predefinidas. Mayormente se requieren sólo datos actuales y estos deben ser mantenidos al día haciendo actualizaciones frecuentes en la base de datos. En cambio, para los datos informativos, el usuario necesita datos que crucen por varias aplicaciones, que estén reorganizados por temas de negocio, que contengan valores históricos, que se encuentren disponible para análisis durante períodos largos y que sea accesible de manera fácil y flexible. Los datos operacionales son manejados, precisamente, por los sistemas operacionales o transaccionales (On Line Transactional Processing, OLTP), los cuales se concentran en la administración y la medición de indicadores empresariales (capital e inversión), indicadores financieros (márgenes de utilidades, rotación de inventarios), indicadores de ventas (identificación de clientes persistentes), etc. Por su parte, los datos informativos son los que conforman un DW, el cual tiene como fin comprender, medir y administrar parámetros empresariales estratégicos, como el crecimiento del ingreso y rentabilidad, la participación 3.3. CARACTERÍSTICAS DEL DATA WAREHOUSE 13 del mercado y los segmentos del cliente. En el siguiente cuadro se muestran las diferencias entre los datos operacionales y los datos informativos. Datos Operacionales: Orientados a una aplicación. Integración limitada. Constantemente actualizados. Sólo valores actuales. Soportan operaciones diarias. Datos Informativos: Orientados a un tema. Integrados. No volátiles. Valores a lo largo del tiempo. Soportan decisiones de administración. 3.3. Características del Data Warehouse Entre sus principales características tenemos: Orientado a Temas Una primera característica del DW es que la información se clasifica en base a los aspectos que son de interés para la empresa. Siendo así, los datos tomados están en contraste con los clásicos procesos orientados a las aplicaciones. El contraste entre los dos tipos de orientaciones se visualiza en la figura 3.2 de la página 14. 14 CAPÍTULO 3. SISTEMAS DE INFORMACIÓN Figura 3.2: Características del Data Warehouse. Orientado a una materia. 3.3. CARACTERÍSTICAS DEL DATA WAREHOUSE 15 El ambiente operacional se diseña alrededor de las aplicaciones y funciones tales como préstamos, ahorros, tarjeta bancaria y depósitos para una institución financiera. Por ejemplo, una aplicación de ingreso de órdenes puede acceder a los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicación. El ambiente DW se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos pueden ser clientes, productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal médico, medicamentos, etc. La alineación alrededor de las áreas de los temas afecta el diseño y la implementación de los datos encontrados en el DW. Las principales áreas de los temas influyen en la parte más importante de la estructura clave [2]. Las aplicaciones están relacionadas con el diseño de la base de datos y del proceso. En DW se enfoca el modelamiento de datos y el diseño de la base de datos. El diseño del proceso (en su forma clásica) no es separado de este ambiente. Las diferencias entre la orientación de procesos, funciones de las aplicaciones y la orientación a temas, radican en el contenido del dato a escala detallada. En el DW se excluye la información que no será usada por el proceso de sistemas de soporte de decisiones, mientras que la información de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de decisiones. Otra diferencia importante está en la interrelación de la información. Los datos operacionales mantienen una relación continua entre dos o más tablas basadas en una regla comercial que está vigente. Las del DW miden un espectro de tiempo y las relaciones encontradas son muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones de datos) se representan en el DW, entre dos o más tablas. Integrado Integra datos recolectados de diferentes sistemas operacionales de la organización y o fuentes externas. 16 CAPÍTULO 3. SISTEMAS DE INFORMACIÓN El aspecto más importante del ambiente DW es que la información encontrada en el interior está siempre integrada. La integración de los datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros. A través de los años, los diseñadores de las diferentes aplicaciones han tomado sus propias decisiones sobre cómo se debería construir una aplicación. Los estilos y diseños personalizados se muestran de muchas maneras. Se diferencian en la codificación, en las estructuras claves, en sus características físicas, en las convenciones de nombramiento y otros. La capacidad colectiva de muchos de los diseñadores de aplicaciones, para crear aplicaciones inconsistentes. Codificación. Los diseñadores de aplicaciones codifican el campo género en varias formas. Un diseñador representa género como una M y una F, otros como un 1 y un 0, otros como una X y una Y e inclusive, como masculino y femenino. No importa mucho cómo el género llega al DW. Probablemente M y F sean tan buenas como cualquier otra representación. Lo importante es que sea de cualquier fuente de donde venga, el género debe llegar al DW en un estado integrado uniforme. Por lo tanto, cuando el género se carga en el DW desde una aplicación, donde ha sido representado en formato M y F, los datos deben convertirse al formato del DW. Medida de atributos. Los diseñadores de aplicaciones miden las unidades de medida de las tuberías en una variedad de formas. Un diseñador almacena los datos de tuberías en centímetros, otros en pulgadas, otros en millones de pies cúbicos por segundo y otros en yardas. Al dar medidas a los atributos, la transformación traduce las diversas unidades de medida usadas en las diferentes bases de datos para transformarlas en una medida estándar común. Cualquiera que sea la fuente, cuando la información de la tubería llegue al DW necesitará ser medida de la misma manera. 3.3. CARACTERÍSTICAS DEL DATA WAREHOUSE 17 Convenciones de nombramiento. El mismo elemento es frecuentemente referido por nombres diferentes en las diversas aplicaciones. El proceso de transformación asegura que se use preferentemente el nombre de usuario. Fuentes múltiples. El mismo elemento puede derivarse desde fuentes múltiples. En este caso, el proceso de transformación debe asegurar que la fuente apropiada sea usada, documentada y movida al depósito. Tal como se muestra en la figura 3.3 de la página 18, los puntos de integración afectan casi todos los aspectos de diseño - las características físicas de los datos, la disyuntiva de tener más de una de fuente de datos, el problema de estándares de denominación inconsistentes, formatos de fecha inconsistentes y otros. Cualquiera que sea la forma del diseño, el resultado es el mismo; la información necesita ser almacenada en el DW en un modelo globalmente aceptable y singular, aun cuando los sistemas operacionales subyacentes almacenen los datos de manera diferente. Cuando el analista de sistema de soporte de decisiones observe el DW, su enfoque deberá estar en el uso de los datos que se encuentren en el depósito, antes que preguntarse sobre la confiabilidad o consistencia de los datos. De Tiempo Variante (Variable en el Tiempo) Los datos son relativos a un período de tiempo y estos deben ser integrados periódicamente; los mismos son almacenados como fotos que se corresponden a un período de tiempo como se puede visualizar en la figura 3.4 de la página 19. Toda la información del DW es requerida en algún momento. Esta característica básica de los datos en un depósito, es muy diferente de la información encontrada en el ambiente operacional. En éstos, la información se requiere al momento de acceder. En otras palabras, en el ambiente operacional, cuando se accede a una unidad de información, se espera que los valores requeridos se obtengan a partir del momento de acceso. Como la información en el DW es solicitada en cualquier momento (es decir, no ahora mismo), los datos encontrados en el depósito se llaman de tiempo variante. Los datos históricos son de poco uso en el procesamiento operacional. La información del depósito, a su vez, debe incluir los datos históricos para usarse 18 CAPÍTULO 3. SISTEMAS DE INFORMACIÓN Figura 3.3: Características del Data Warehouse. Integración. 3.3. CARACTERÍSTICAS DEL DATA WAREHOUSE 19 Figura 3.4: Características del Data Warehouse. Tiempo Variante. en la identificación y evaluación de tendencias [2]. El tiempo variante se muestra de varias maneras: La más simple es que la información representa los datos sobre un horizonte largo de tiempo, desde cinco a diez años. El horizonte de tiempo representado para el ambiente operacional es mucho más corto; desde valores actuales hasta sesenta a noventa días. Las aplicaciones que tienen un buen rendimiento y están disponibles para el procesamiento de transacciones, deben llevar una cantidad mínima de datos si tienen cualquier grado de flexibilidad. Por ello, las aplicaciones operacionales tienen un corto horizonte de tiempo, debido al diseño de aplicaciones rígidas. La segunda manera en la que se muestra el tiempo variante en el DW está en la estructura clave. Cada estructura clave en el DW contiene, implícita o explícitamente, un elemento de tiempo como día, semana, mes, etc. La tercera manera en que aparece el tiempo variante es cuando la información del DW, una vez registrada correctamente, no puede ser actualizada. La información del DW es, para todos los propósitos prácticos, 20 CAPÍTULO 3. SISTEMAS DE INFORMACIÓN una serie larga de snapshots (vistas instantáneas). Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son alterados una vez hechos. En algunos casos puede ser no ético, e incluso ilegal, alterar los snapshots en el DW. Los datos operacionales, siendo requeridos a partir del momento de acceso, pueden actualizarse de acuerdo a la necesidad [2]. No Volátil Los datos que son almacenados no sufren ninguna actualización, sólo son incrementados. El período cubierto para un DW va de 2 a 10 años. La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial para el análisis y la toma de decisiones, requiere una base de datos estable. Hay algunas consecuencias muy importantes de esta diferencia básica, entre el procesamiento operacional y del DW. En el nivel de diseño, la necesidad de ser precavido para actualizar las anomalías no es un factor en el DW, ya que no se hace la actualización de datos. Esto significa que en el nivel físico de diseño, se pueden tomar libertades para optimizar el acceso a los datos, particularmente al usar la normalización y desnormalización física. Otra consecuencia de la simplicidad de la operación del DW está en la tecnología subyacente, utilizada para correr los datos en el depósito. Teniendo que soportar la actualización de registro por registro en modo on-line (como es frecuente en el caso del procesamiento operacional) requiere que la tecnología tenga un fundamento muy complejo debajo de una fachada de simplicidad [2]. Se muestra que la actualización (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulación básica de los datos que ocurre en el DW es mucho más simple. Hay dos únicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualización de datos (en el sentido general de actualización) en el depósito, como una parte normal de procesamiento, como se puede visualizar en la figura 3.5 de la página 21. 3.4. IMPACTOS TÉCNICOS DE UN DW 21 Figura 3.5: Características del Data Warehouse. No Volátil. 3.4. Impactos Técnicos de un DW Las principales razones para la construcción de un DW son las siguientes: Proporciona una herramienta para la toma de decisiones en cualquier área funcional, basándose en información integrada y global del negocio. Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar relaciones ocultas entre los datos del almacén; obteniendo un valor añadido para el negocio de dicha información. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación con el cliente. Supone una optimización tecnológica y económica en entornos de Centro de Información, estadística o de generación de informes con importantes retornos de la inversión. Considerando las etapas de construcción, soporte del DW y soporte de sistemas operacionales, se tienen los siguientes impactos técnicos: Nuevas destrezas de desarrollo: Cuando se construye el DW, el impacto más grande sobre la gente técnica está dada por la curva de aprendizaje, muchas destrezas nuevas se deben aprender, incluyendo: Conceptos y estructura DW. El DW introduce muchas tecnologías nuevas (ETT, Carga, Acceso de Datos, Catálogo de Metadatos, Implementación de DSS/EIS), y cambia la manera en que se usa la tecnología existente. Nuevas responsabilidades de soporte, nuevas demandas de recursos y nuevas expectativas, son los efectos de estos cambios. Destrezas de diseño y análisis donde los requerimientos empresariales no son posibles de definir de una forma estable a través del tiempo. Técnicas de desarrollo incremental y evolutivo. Trabajo en equipo cooperativo con gente de negocios como participantes activos en el desarrollo del proyecto. Nuevas responsabilidades de operación: Cambios sobre los sistemas y datos operacionales deben ser examinados más cuidadosamente para determinar el impacto que estos cambios tienen sobre ellos, y sobre el DW. Capítulo 4 Modelos de Datos Para comprender uno de los aspectos más relevantes de la arquitectura del DW, como es el modelado de datos, es necesario establecer primero las diferencias sustanciales entre los dos mundos de modelado existentes: entidadrelación (ER) y dimensional. El modelado entidad-relación se utiliza habitualmente para crear un único modelo complejo de todos los procesos de una organización. Este enfoque ha demostrado ser efectivo para crear sistemas eficientes de procesamiento transaccional en línea (OLTP). Por otra parte, el modelado dimensional crea modelos individuales para reflejar procesos discretos de negocio. Este modelado organiza la información en estructuras que usualmente corresponden a la forma en que los analistas realizan sus consultas de los datos del DW. 4.1. El Modelo Relacional En la mayoría de los sistemas transaccionales el objetivo del modelo es garantizar la integridad de los datos, además de eliminar cualquier tipo de redundancia en los datos. Este enfoque es perfecto para los entornos de procesamiento transaccional, porque las transacciones son muy simples y deterministas. El éxito del procesamiento transaccional en un entorno de bases de datos 23 24 CAPÍTULO 4. MODELOS DE DATOS relacionales se debe básicamente a esta disciplina de modelado. Sin embargo, para el propósito de un DW, el modelo relacional (ER) presenta los siguientes problemas: Legibilidad limitada. Los usuarios finales no son capaces de entender el modelo ER. Por tanto, no pueden navegar por dicho modelo en busca de información. Dificultad para las herramientas de consulta en el acceso a un modelo ER general. Las herramientas de consulta a menudo poseen prestaciones mediocres o inaceptables cuando se trabaja en entornos relacionales de grandes volúmenes de información. La utilización de la técnica de modelado ER frustra el principal atractivo del DW. Al utilizar el modelado ER queda frustrada la recuperación de información intuitiva y con alto rendimiento. 4.2. El Modelo Dimensional Es una técnica de diseño lógico que busca presentar la información en un marco estándar e intuitivo que permita un acceso de alto rendimiento. Este modelado se vale de los principios de la disciplina que emplea el modelo relacional con algunas importantes restricciones. El modelado dimensional es esencialmente útil para resumir y organizar los datos y la presentación de información para soportar el análisis de la misma. Existen algunos conceptos básicos para comprender la filosofía de este tipo de modelado: áreas tema, medidas, dimensiones y hechos. Un área tema es una cuestión de interés de una función empresarial. Las áreas tema en conjunto constituyen el ámbito de implementación del DW. Por ejemplo, el departamento de Comercialización de una empresa puede estar interesado en las áreas tema de pedidos, promociones, mercados y ventas. Para especificar las áreas tema se deben identificar las medidas. Una medida o indicador es un cuantificador del desempeño de un ítem o una actividad del negocio. La información que brinda una medida es usada por los usuarios en sus consultas para evaluar el desempeño de un área tema. 4.2. EL MODELO DIMENSIONAL 25 El DW organiza un gran conjunto de datos operacionales mediante múltiples dimensiones. Una dimensión es una colección de miembros o entidades del mismo tipo y constituye un calificador conceptual que provee el contexto o significado para una medida. La forma de representar la organización de los datos en un modelo dimensional es a través de un cubo (el cual no necesariamente debe tener tres dimensiones). Los miembros de una dimensión pueden estar organizados en una o más jerarquías. Una jerarquía es un conjunto de miembros de una dimensión, los cuales se definen por su posición relativa con respecto a los otros miembros de la misma dimensión, y forman en su totalidad una estructura de árbol. Partiendo de la raíz del árbol, los miembros son progresivamente más detallados hasta llegar a las hojas, donde se obtiene el mayor nivel de detalle. Puede darse el caso en que una dimensión no necesite jerarquizarse debido a que ninguno de sus miembros posee una posición relativa con respecto a los otros miembros. Por ejemplo, una dimensión cliente que tiene como miembros nombre, sexo y fecha de nacimiento, no necesita organizar estos miembros porque todos están al mismo nivel de detalle, a menos que se desee agruparlos por alguno de ellos para visualizar los datos. 4.2.1. Esquemas del Modelo Dimensional Esquema Estrella (star): cada modelo dimensional está compuesto de una tabla central con una clave primaria compuesta, denominada tabla de hechos; y un conjunto de tablas periféricas denominadas tablas de dimensiones. Cada una de las tablas de dimensiones tiene una clave primaria que corresponde exactamente con uno de los componentes de la clave compuesta de la tabla de hechos. Las tablas de hechos, además de sus campos clave, contienen una o más medidas, indicadores o hechos. Las medidas más útiles en una tabla de hechos son numéricas y aditivas. La aditividad es crucial porque las aplicaciones DW casi nunca recuperan un solo registro de la tabla de hechos, sino que acceden a cientos, miles o incluso millones de registros a la vez. Las tablas de dimensiones, por el contrario, contienen información textual descriptiva. Los atributos de las dimensiones se emplean como fuente de las restricciones en las consultas al DW. 26 CAPÍTULO 4. MODELOS DE DATOS Figura 4.1: Modelo de Datos. Esquema en Estrella. En el modelo estrella las dimensiones no se normalizan. Con ello se logra minimizar el número de uniones y, por consiguiente, incrementar el rendimiento de las consultas (una tabla de hechos está relacionada con numerosas tablas de dimensiones), como se puede ver en la figura 4.1 de la página 26. Esquema Copo de Nieve (snowflake): en este modelado se normalizan las dimensiones reflejando las jerarquías en las mismas y conservando lo esencial del modelo en estrella que son las tablas de hechos. La ventaja del modelo copo de nieve es eliminar la redundancia de datos y por lo tanto ocupar menos espacio en disco. En las bases de datos usadas para DW, un esquema en estrella es un modelo de datos que tiene una tabla de hechos (o tabla fact) que contiene los datos para el análisis, rodeada de las tablas de dimensiones. Este aspecto, de tabla 4.2. EL MODELO DIMENSIONAL 27 de hechos (o central) más grande rodeada de radios o tablas más pequeñas es lo que asemeja a una estrella, dándole nombre a este tipo de construcciones. Las tablas de dimensiones tendrán siempre una clave primaria simple, mientras que en la tabla de hechos, la clave principal estará compuesta por las claves principales de las tablas dimensionales. Esquema en copo de nieve (bola de nieve) es una variedad más compleja del esquema estrella. Se utiliza cuando las tablas de dimensiones están muy grandes o complejas y es muy difícil representar los datos en esquema estrella. El problema es que para extraer datos de las tablas en esquema de copo de nieve, a veces hay que vincular muchas tablas en las sentencias SQL, lo que puede llegar a ser muy complejo y difícil para mantener. El afinamiento está orientado a facilitar mantenimiento de dimensiones. Lo que distingue a la arquitectura en esquema copo de nieve de la arquitectura en esquema estrella, es que las tablas de dimensiones en este modelo representan relaciones normalizadas (3NF) y forman parte de un modelo relacional de base de datos; como se puede ver en la figura 4.2 de la página 28. 4.2.2. Ventajas del Modelo Dimensional El modelo dimensional presenta importantes ventajas de las que carece el modelo relacional. Uno de los puntos fuertes del modelo dimensional es que el marco predecible del esquema estrella resiste a los cambios inesperados en el comportamiento del usuario. Cada dimensión es equivalente a las demás y todas las dimensiones pueden ser concebidas como puntos de entrada hacia la tabla de hechos. El diseño lógico puede realizarse independientemente de los patrones de consulta esperados, siendo consideradas de la misma forma tanto las interfaces de usuario como las estrategias de consulta, así como el lenguaje de consulta generado contra el modelo dimensional. Otra cualidad del modelo dimensional es la flexibilidad. Los nuevos elementos de datos y las nuevas decisiones de diseño son fácilmente adaptables. Todas las tablas pueden modificarse simplemente agregando nuevos registros de datos o se pueden incluir nuevas dimensiones al modelo sin necesidad de volver a cargar los datos posteriormente. Además no es necesario volver a programar las herramientas de consulta o de informes para adaptarse a los cambios, y las 28 CAPÍTULO 4. MODELOS DE DATOS Figura 4.2: Modelos de Datos. Esquema Copo de Nieve. aplicaciones existentes pueden continuar su ejecución brindando los mismos resultados. Las modificaciones ante las cuales el modelo dimensional es flexible incluyen: Agregar medidas a la tabla de hechos, siempre que sean aditivas y consistentes con el mayor nivel de detalle de las dimensiones. Agregar atributos a las dimensiones. Agregar nuevas dimensiones, siempre que exista un único valor de dicha dimensión definido para cada registro de la tabla de hechos. Particionar los registros de una dimensión a un mayor nivel de detalle a partir de un determinado punto en el tiempo. Los registros anteriores permanecerán sin cambios mientras que los futuros registros se almacenarán de acuerdo al nuevo modelo. Una ventaja adicional del modelo dimensional es el creciente número de utilidades administrativas y aplicaciones que gestionan y utilizan los agregados. Los agregados son registros resumidos que son lógicamente redundantes con la información ya existente en el DW y son empleados para mejorar el rendimiento de las consultas. Cualquier implementación de tamaño mediano o grande del DW requiere la creación de una estrategia de agregados. Todas las aplicaciones software de gestión de agregados, así como las utilidades de navegación de agregados, dependen de una estructura específica de las tablas de hechos y dimensiones que es absolutamente dependiente del modelo dimensional. Si no se emplea el enfoque del modelo dimensional no es posible beneficiarse de tales aplicaciones. 30 CAPÍTULO 4. MODELOS DE DATOS Capítulo 5 Operaciones en un Data Warehouse 5.1. Tipos de Operaciones En la figura 5.1 de la página 32 se muestran algunos de los tipos de operaciones que se efectúan dentro de un ambiente DW. Sistemas Operacionales Los datos administrados por los sistemas de aplicación operacionales son la fuente principal de datos para el DW. Las bases de datos operacionales se organizan como archivos indexados (UFAS, VSAM), bases de datos de redes / jerárquicas (I-D-S / II, IMS, IDMS) o sistemas de base de datos relacionales (DB2, Oracle, Informix, etc.). Según las encuestas, aproximadamente del 70 % a 80 % de las bases de datos de las empresas se organizan usando DBMSs no relacional. Extracción, Transformación y Carga de los Datos Se requieren herramientas de gestión de datos para extraer datos desde bases de datos y / o archivos operacionales, luego es necesario manipular o transformar los datos antes de cargar los resultados en el DW. Tomar los datos desde varias bases de datos operacionales y transformarlos en datos requeridos para el depósito, se refiere a la transformación o a la inte31 32 CAPÍTULO 5. OPERACIONES EN UN DATA WAREHOUSE Figura 5.1: Operaciones en el Data Warehouse. 5.1. TIPOS DE OPERACIONES 33 gración de datos. Las bases de datos operacionales, diseñadas para el soporte de varias aplicaciones de producción, frecuentemente difieren en el formato. Los mismos elementos de datos, si son usados por aplicaciones diferentes o administrados por diferentes software DBMS, pueden definirse al usar nombres de elementos inconsistentes, que tienen formatos inconsistentes y/o ser codificados de manera diferente. Todas estas inconsistencias deben resolverse antes que los elementos de datos sean almacenados en el DW. Las operaciones de extracción, transformación y carga son conocidas como ETL, por su sigla en inglés; las mismas constan de lo siguiente: Extracción: obtención de información de las distintas fuentes tanto internas como externas. Transformación: filtrado, limpieza, depuración, homogeneización y agrupación de la información. Carga: organización y actualización de los datos y los metadatos en la base de datos. Metadata La metadata (es decir, datos acerca de datos) describe los contenidos del DW. La metadata consiste de definiciones de los elementos de datos en el depósito, se integra y transforma antes de ser almacenada en información similar. Acceso de Usuario Final Los usuarios acceden al DW por medio de herramientas de productividad basadas en GUI (Graphical User Interface - Interfase gráfica de usuario). Pueden proveerse a los usuarios del DW muchos de estos tipos de herramientas. Estos pueden incluir software de consultas, generadores de reportes, procesamiento analítico en línea, herramientas data / visual mining, etc., dependiendo de los tipos de usuarios y sus requerimientos particulares. Sin embargo, una sola herramienta no satisface todos los requerimientos, por lo que es necesaria la integración de una serie de herramientas. Plataforma del DW 34 CAPÍTULO 5. OPERACIONES EN UN DATA WAREHOUSE La plataforma para el DW es casi siempre un servidor de base de datos relacional. Cuando se manipulan volúmenes muy grandes de datos puede requerirse una configuración en bloque de servidores UNIX con multiprocesador simétrico (SMP) o un servidor con procesador paralelo masivo (MPP) especializado. Los extractos de la data integrada / transformada se cargan en el DW. La elección de la plataforma es crítica. El depósito crecerá y hay que comprender los requerimientos después de 3 o 5 años. El sistema de depósito ejecuta las consultas que se pasa a los datos por el software de acceso a los datos del usuario. Aunque un usuario visualiza las consultas desde el punto de vista de un GUI, las consultas típicamente se formulan como pedidos SQL, porque SQL es un lenguaje universal y el estándar de hecho para el acceso a datos. Datos Externos Dependiendo de la aplicación, el alcance del DW puede extenderse por la capacidad de accesar a la data externa. Por ejemplo, los datos accesibles por medio de servicios vía Internet, pueden estar disponibles a los usuarios del DW. Evolución del Depósito Construir un DW es una tarea grande. No es recomendable emprender el desarrollo del DW de la empresa como un proyecto cualquiera. Más bien, se recomienda que los requerimientos de una serie de fases se desarrollen e implementen en modelos consecutivos que permitan un proceso de implementación más gradual e iterativo. Los datos en el DW no son volátiles y es un repositorio de datos de sólo lectura (en general). Sin embargo, pueden añadirse nuevos elementos sobre una base regular para que el contenido siga la evolución de los datos en la base de datos fuente, tanto en los contenidos como en el tiempo. Uno de los desafíos de mantener un DW, es idear métodos para identificar datos nuevos o modificados en las bases de datos operacionales. Algunas maneras para identificar estos datos incluyen insertar fecha / tiempo en los registros de base de datos y entonces crear copias de registros actualizados y copiar información de los registros de transacción y / o base de datos diarias. Estos elementos de datos nuevos y / o modificados son extraídos, inte- grados, transformados y agregados al DW en pasos periódicos programados. Como se añaden las nuevas ocurrencias de datos, los datos más antiguos son eliminados. 36 CAPÍTULO 5. OPERACIONES EN UN DATA WAREHOUSE Capítulo 6 Herramientas de Acceso y Uso 6.1. Introducción Sin las herramientas adecuadas de acceso y análisis el DW se puede convertir en una mezcla de datos sin ninguna utilidad. Es necesario poseer técnicas que capturen los datos importantes de manera rápida y puedan ser analizados desde diferentes puntos de vista. También deben transformar los datos capturados en información útil para el negocio. Actualmente a este tipo de herramientas se las conocen como Herramientas de Inteligencia de Negocio (Business Intelligence Tools, BIT) y están situadas conceptualmente sobre el DW. Cada usuario final debe seleccionar la herramienta que mejor se ajusta a sus necesidades y a su DW. Entre ellas se pueden citar las Consultas SQL (Structured Query Language), las Herramientas MDA (Multidimensional Analysis) y OLAP (On-Line Analytical Processing) y las herramientas Data Mining. Este bloque también incluye el hardware y software involucrados en mostrar la información en pantalla y emitir reportes de impresión, hojas de cálculo, gráficos y diagramas para el análisis y presentación. 37 38 CAPÍTULO 6. HERRAMIENTAS DE ACCESO Y USO 6.2. OLAP (On Line Analytical Processing) Son aplicaciones que generan información táctica y estratégica que sirve a la organización como soporte para la toma de decisiones. A diferencia de los sistemas OLTP, que utilizan BD relacionales u otros archivos, OLAP (On Line Analytical Process - Procesamiento Analítico En Línea) logra su máximo rendimiento y flexibilidad trabajando sobre un DW. Presentan al usuario un esquema multidimensional en el cual se pueden realizar consultas seleccionando atributos sobre el tema en particular que se trate; esto desconociendo totalmente la estructura interna del DW. La aplicación OLAP se encarga de generar la consulta y enviarla al gestor, por ejemplo, a través de una sentencia Select. La estructura multidimensional consta de una tabla de sucesos o hechos, cuyos atributos describen la actividad que es el objeto del análisis (por ejemplo ventas), y varias tablas llamadas dimensiones. Los atributos de cada dimensión tienen el objetivo de aportar información particular sobre cada tupla de la tabla de hechos, por ejemplo, lugar donde se realizan las ventas, fecha o período en que fueron realizadas, sucursal, etc., como se puede observar en la figura 6.1 de la página 39. Estas vistas multidimensionales son llamadas Cubos y pueden ser construidos de distintas formas: ROLAP Se implementa sobre tecnología relacional. Utiliza un esquema en estrella cuyo nodo central representa a la tabla de hechos y sus extremos a las dimensiones [3]. Con esta metodología, cuando la consulta es realizada se genera el cubo correspondiente. Esta alternativa de generación de cubos se utiliza cuando no se posee gran capacidad de almacenamiento. Al generarse los cubos en tiempo de ejecución su rendimiento no es óptimo. MOLAP Tiene la estructura de arrays multidimensionales. Los cubos son generados y almacenados antes de ser consultados. Los datos son tomados de la tabla de hechos y las dimensiones son calculadas y almacenadas. Si se dispone de suficiente espacio en disco, esta alternativa aumenta el rendimiento y mejora los tiempos de respuesta [4]. 6.2. OLAP (ON LINE ANALYTICAL PROCESSING) Figura 6.1: Estructura Multidimensional. 39 40 CAPÍTULO 6. HERRAMIENTAS DE ACCESO Y USO Figura 6.2: Modelo ROLAP y MOLAP. HOLAP Es una combinación de las técnicas ROLAP y MOLAP. Los cubos frecuentemente consultados son generados y almacenados. Cualquier otra consulta debe generarse en tiempo de ejecución. Las principales diferencias entre un sistema OLTP y OLAP, se expresan en la figura 6.2 de la página 40. 6.3. DATA MINING (MINERÍA DE DATOS) 6.3. 41 Data Mining (Minería de Datos) La MD se define formalmente como un conjunto de técnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implícito, previamente desconocido, potencialmente útil y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir, de forma automatizada, tendencias o comportamientos y descubrir modelos previamente desconocidos [5]. Desde el punto de vista empresarial los términos Data Mining y Extracción del Conocimiento son tratados como sinónimos, y se los define como: La integración de un conjunto de áreas que tienen como propósito la identificación de conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones [6]. Características y Objetivos En la actualidad, para realizar una investigación con el método científico tradicional, generalmente, primero se formula la hipótesis y luego el experimento, para posteriormente coleccionar los datos necesarios que confirmen o refuten la hipótesis. De esta manera se obtiene el nuevo conocimiento. Una de las características principales de la MD es que invierte la dinámica del método científico. Es decir, primero se coleccionan los datos y luego se los escucha para que de ellos emerjan las hipótesis. Luego se validan esas hipótesis en los datos mismos. Por lo antes expuesto es que la MD debe presentar un enfoque exploratorio, y no confirmador. Usar la MD para confirmar las hipótesis no sería correcto, ya que se está haciendo una inferencia poco válida y acotando el análisis sólo a la hipótesis elaborada. El objetivo de la MD es extraer la información oculta en las profundidades de las BD para luego intentar predecir futuras tendencias y comportamientos. De esta forma permiten a las organizaciones tomar decisiones proactivas y así adaptarse a un entorno permanentemente cambiante y sumamente competitivo. Las técnicas utilizadas en la MD son el resultado de un largo proceso de investigación y desarrollo de productos que comenzó cuando los datos de negocio fueron almacenados por primera vez en computadoras y luego, con tecnologías generadas para permitir que los usuarios naveguen entre los datos en tiempo 42 CAPÍTULO 6. HERRAMIENTAS DE ACCESO Y USO real. La MD engloba todas estas técnicas para brindar información prospectiva y proactiva. La MD está lista para su aplicación ya que está sostenida por cuatro tecnologías que ya se encuentran suficientemente maduras: Recolección masiva de datos. Potentes computadoras con multiprocesadores. Data Warehouse. Algoritmos de Data Mining. La MD produce cinco tipos de información: Asociaciones. Secuencias. Clasificaciones. Agrupamientos. Pronósticos. Uno de los factores claves que define la verdadera MD es que la aplicación misma realiza el análisis sobre los datos. En otros casos, el análisis es guiado por una interacción con el usuario. Las aplicaciones que no son, en algún grado, auto guiadas, están realizando análisis de datos y no MD. Arquitectura Para que el proceso de MD sea óptimo, se recomienda que la fuente de información de los algoritmos provenga de una DW. El contar con una DW simplifica considerablemente la etapa de preproceso. Existen herramientas de DM que operan fuera del ámbito de una DW, pero esto requiere varios pasos extras para unificar fuentes, extraer, importar y analizar los datos. Por otra parte, cuando se introducen nuevos conceptos en los sistemas OLTP, la integración con el DW simplifica la aplicación de los resultados de la MD. 6.3. DATA MINING (MINERÍA DE DATOS) 43 Figura 6.3: Etapas en un Proyecto de MD. Otra ventaja de incluir en la arquitectura un DW, es que ésta permite que a medida que las BD operacionales de los distintos sistemas crece, los datos son integrados al DW. Luego de este proceso la organización puede realizar la MD, obtener patrones y conocimiento de los mismos y aplicarlos en el futuro. Podríamos decir que un DW constituye la fuente de información o en la “memoria” de la organización, y que la MD dota a esta de inteligencia [7]. En un proyecto de MD se deben tener en cuenta las siguientes etapas, como se puede observar en la figura 6.3 de la página 43. Selección de Datos Los datos pueden tener un gran volumen y contener una cantidad ingente de datos. En esta etapa se reduce considerablemente el volumen de los datos seleccionando sólo los atributos y tuplas que aporten la información y sean más influyentes sobre el tema a tratar. Existen varios métodos para la selección de este subconjunto de atributos [7]. Entre algunos de ellos se pueden citar: Selección por Pasos Hacia Adelante: se comienza con un conjunto vacío de atributos, en cada paso se agrega al conjunto el mejor atributo del conjunto original. Eliminación por Pasos Hacia Atrás: se comienza con un conjunto que posee todos los atributos originales, en cada paso se elimina del conjunto el peor atributo. Combinación de Selección por Pasos Hacia Adelante y Eliminación por Pasos Hacia Atrás: es una combinación de los dos anteriores. Se puede utilizar un umbral de medición para establecer cuándo detener la eliminación y agregación de los atributos. 44 CAPÍTULO 6. HERRAMIENTAS DE ACCESO Y USO Inducción con árboles de decisión: se utilizan algoritmos como ID3 y C4.5. Los atributos que no son representados en el árbol se consideran irrelevantes y se los descarta. Por el contrario, los atributos que aparecen en el árbol son los elegidos para conformar el subconjunto de atributos. Pre Procesamiento de Datos El formato de los datos de las distintas fuentes (OLPT, Fuentes Externas, etc.) por lo general no suele ser apropiado. Esto dificulta que los algoritmos de minería obtengan buenos modelos trabajando sobre estos datos en bruto. El objetivo del preprocesado es adecuar los datos para que la aplicación a los algoritmos de minería sea óptima. Para esto hay que filtrar, eliminar datos incorrectos, no válidos, crear nuevos valores y categorías para los atributos e intentar completar o descartar los valores desconocidos e incompletos. Extracción de Conocimiento Es la aplicación de diferentes algoritmos sobre los datos ya pre procesados, para extraer patrones. Evaluación e Interpretación de Patrones Una vez obtenidos los patrones se debe comprobar su validez. Si los modelos son varios, se debe elegir el que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, se debe volver a las etapas anteriores y modificar alguna entrada para, de esta manera, generar nuevos modelos. Algoritmos para la Extracción de Conocimiento En la MD, según el tipo de algoritmo que se utilice, se realizan algunas de las siguientes tareas: Asociación: descubre relaciones entre dos sucesos aparentemente independientes. Estas se expresan en el conjunto de datos como condiciones atributo-valor y deben estar presentes varias veces en ellos. La expresión tiene dos componentes, el antecedente y el consecuente. Secuenciación o análisis a través del tiempo: si además de lo anterior la tarea incluye comparaciones de tiempo, búsqueda de patrones secuenciales, periódicos, desviaciones, entonces estamos frente a un algoritmo del tipo secuencial. Éste incluye en el análisis el tiempo transcurrido entre el suceso inductor y el suceso inducido. Clasificación: se analiza un conjunto de datos cuya clasificación se conoce y se le asigna a cada uno una clase o grupo de pertenencia. Este modelo puede utilizarse para un mayor entendimiento de los datos actuales o para realizar la clasificación de futuros sucesos. Son utilizados en la detección de fraudes, análisis de riesgo en la entrega de créditos, identificación de procedimientos médicos, etc. Agrupamiento: realiza una clasificación resumida sobre el conjunto de datos. A la clasificación se la nombra como caracterización, y a la distinción entre los datos como discriminación o comparación. Se diferencia de la clasificación en que no se parte de un conjunto de entrenamiento. Se utiliza en marketing (población con las mismas afinidades), medicina (pacientes con los mismos malestares), etc. Predicción: cuando existen datos faltantes intenta predecir los posibles valores de los atributos. Regresión: es similar a los algoritmos de clasificación. El modelo generado intenta predecir el valor más probable para una situación observada. Clústering: un cluster es un conjunto de datos con características similares. Esta similitud puede medirse con funciones de distancia. La MD intenta encontrar clústeres de buena calidad para que luego puedan ser utilizados en grandes BD o DW. También suelen utilizarse combinaciones entre los diferentes tipos de algoritmos. Los algoritmos de clasificación y regresión pertenecen a la MD predictiva, mientras que los demás están dentro de la MD descriptiva. 46 CAPÍTULO 6. HERRAMIENTAS DE ACCESO Y USO Capítulo 7 Conclusión La Computación Ubicua permite integrar los dispositivos computacionales y las nuevas tecnologías en el entorno personal, insertando dispositivos inteligentes en las tareas diarias, haciendo que interactúen de forma natural y desinhibida en todo tipo de situaciones y circunstancias. Permiten así que los usuarios puedan centrarse en las tareas que deben hacer, y no en las herramientas que deben usar. El DW permite analizar y realizar preguntas sobre años, más que sobre meses de información. Las aplicaciones de usuario final que acceden al DW brindan a los gerentes la posibilidad de ver la información a diferentes niveles de agregación y filtrar las consultas. Los Sistemas de Bases de Datos Multiplataforma Integrados a Sistemas Móviles no solo acceden a bases de datos, sino también pueden acceder a los DW. La integración de un DW a la empresa representa una ventaja competitiva en el mundo de los negocios y acceder a ellos desde los dispositivos móviles es una alternativa adicional importante. 48 CAPÍTULO 7. CONCLUSIÓN Bibliografía [1] “http://www.lawebdelprogramador.com”. 21/04/2010). (Visita realizada el [2] “http://www.sqlmax.com/dataw1.asp”. (Visita realizada el 20/04/2010). [3] R. K. “The Data Warehouse Toolkit”. John Wiley-Sons (1996). [4] L R M D L. “Sistemas Operativos”. UNNE (2004). [5] M F, P-S . “Knowledge Discovery in Databases: an Overview”. AI Magazine (1992). [6] M L C F"#. “Torturando a los Datos hasta que Confiesen”. UOC (2001). [7] H A& S E( M R), B P V),. “Minería de datos Basada en Sistemas Inteligentes”. (2005). 49 Índice alfabético data mining, 3 arquitectura, 42 datos informativos, 12 datos operacionales, 11 DW, 5 características, 13 data warehouse, 2 Operaciones, 31 sistemas de soporte de decisiones, 9 ubicuidad, 1 WAP, 1 ETL, 33 herramientas de acceso y uso, 37 DM data mining, 41 OLAP, 38 HOLAP, 40 modelo de datos, 23 modelo dimensional, 24 modelo relacional, 23 MOLAP, 38 OLAP, 2, 38 OLTP, 2, 12 OMA, 2 ROLAP, 38 SI sistemas de información, 9 SSD 51