Sistemas de Bases de Datos Multiplataforma Integrados a Sistemas Móviles.

Anuncio
Universidad Nacional del Nordeste
Facultad de Ciencias Exactas y Naturales y
Agrimensura
Monografía de Adscripción:
Sistemas de Bases de Datos Multiplataforma
Integrados a Sistemas Móviles
Alumna: Paola Itatí Aguirre-LU: 38046
Prof. Director: Mgter. David Luis La Red Martínez
Licenciatura en Sistemas de Información
Corrientes-Argentina
2010
Índice general
1. Introducción
1
2. ¿Qué es un Data Warehouse?
2.1. Nociones Acerca de un DW . . . . . . . . . . . . . . . . . . . .
2.2. ¿Qué es lo que Preocupa a los Ejecutivos? . . . . . . . . . . . .
2.3. Objetivos del Data Warehouse . . . . . . . . . . . . . . . . . .
5
5
6
6
3. Sistemas de Información
3.1. Esquema General de los SI . . . . . . . . .
3.1.1. Sistemas Estratégicos . . . . . . .
3.1.2. Sistemas Tácticos . . . . . . . . .
3.1.3. Sistemas Técnico-Operativos . . .
3.1.4. Sistemas Interinstitucionales . . .
3.2. Datos Operacionales y Datos Informativos
3.3. Características del Data Warehouse . . . .
3.4. Impactos Técnicos de un DW . . . . . . .
4. Modelos de Datos
4.1. El Modelo Relacional . . . . . . . . . . . .
4.2. El Modelo Dimensional . . . . . . . . . .
4.2.1. Esquemas del Modelo Dimensional
4.2.2. Ventajas del Modelo Dimensional .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
10
10
11
11
11
13
21
.
.
.
.
23
23
24
25
27
5. Operaciones en un Data Warehouse
31
5.1. Tipos de Operaciones . . . . . . . . . . . . . . . . . . . . . . . 31
6. Herramientas de Acceso y Uso
37
6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.2. OLAP (On Line Analytical Processing) . . . . . . . . . . . . . 38
6.3. Data Mining (Minería de Datos) . . . . . . . . . . . . . . . . . 41
ÍNDICE GENERAL
7. Conclusión
47
Bibliografía
49
Índice alfabético
51
Índice de figuras
3.1.
3.2.
3.3.
3.4.
3.5.
Sistema de Informción. Esquema. . . . . . . . . . . . . . . . . .
Características del Data Warehouse. Orientado a una materia.
Características del Data Warehouse. Integración. . . . . . . . .
Características del Data Warehouse. Tiempo Variante. . . . . .
Características del Data Warehouse. No Volátil. . . . . . . . . .
10
14
18
19
21
4.1. Modelo de Datos. Esquema en Estrella. . . . . . . . . . . . . .
4.2. Modelos de Datos. Esquema Copo de Nieve. . . . . . . . . . . .
26
28
5.1. Operaciones en el Data Warehouse. . . . . . . . . . . . . . . . .
32
6.1. Estructura Multidimensional. . . . . . . . . . . . . . . . . . . .
6.2. Modelo ROLAP y MOLAP. . . . . . . . . . . . . . . . . . . . .
6.3. Etapas en un Proyecto de MD. . . . . . . . . . . . . . . . . . .
39
40
43
Capítulo 1
Introducción
La ubicuidad es la propiedad por la cual una entidad existe o se encuentra en todos los sitios al mismo tiempo. La Computación Ubicua pretende la
integración de las nuevas tecnologías en el entorno personal, insertando dispositivos inteligentes en las tareas diarias, haciendo que interactúen de forma
natural y desinhibida en todo tipo de situaciones y circunstancias. De esta forma se pretende unir el mundo real con una representación virtual, apoyándose
sobre la inteligencia ambiental y logrando el entorno inteligente.
Uno de los objetivos más importantes de la Computación Ubicua es integrar los dispositivos computacionales lo más posible, para hacer que se mezclen
en la vida cotidiana, y permitir a los usuarios centrarse en las tareas que deben
hacer, y no en las herramientas que deben usar, pudiendo suponer una revolución que cambie el modo de vida.
Para lograr la integración de los dispositivos móviles se utiliza el protocolo
de aplicaciones inalámbricas, Wireless Application Protocol o WAP; es un estándar abierto internacional para aplicaciones que utilizan las comunicaciones
inalámbricas, por ej., acceso a servicios de Internet desde un teléfono móvil.
Se trata de la especificación de un entorno de aplicación y de un conjunto de
protocolos de comunicaciones para normalizar el modo en que los dispositivos
inalámbricos se pueden utilizar para acceder a correo electrónico, grupo de
noticias y otros.
El organismo que se encarga de desarrollar el estándar WAP fue originalmente el WAP Forum, fundado por cuatro empresas del sector de las comuni1
2
CAPÍTULO 1. INTRODUCCIÓN
caciones móviles, Sony-Ericsson, Nokia, Motorola y Openwave (originalmente
Unwired Planet). Desde 2002 el WAP Forum es parte de la Open Mobile Alliance (OMA), consorcio que se ocupa de la definición de diversas normas
relacionadas con las comunicaciones móviles, entre ellas las normas WAP.
Los dispositivos de computación inalámbrica han crecido rápidamente, requiriendo aplicaciones de software cada vez más potentes que puedan manejar
esta nueva realidad. Los usuarios desean que las aplicaciones que corren en
sus dispositivos móviles tengan la misma funcionalidad estando conectados o
desconectados de la red. Esperan aplicaciones que puedan soportar conexiones
intermitentes, anchos de banda cambiantes y que manejen eficientemente el
problema del roaming.
Los dispositivos móviles pueden acceder a sistemas de bases de datos multiplataforma, término usado para referirse a los programas, sistemas operativos,
lenguajes de programación, u otra clase de software, que puedan funcionar
en diversas plataformas., ejemplo DB2. Una plataforma es una combinación
de hardware y software usada para ejecutar aplicaciones, en su forma más
simple consiste únicamente de un sistema operativo, una arquitectura, o una
combinación de ambos.
En muchos sistemas no solo se accede a las bases de datos sino también a
los Data Warehouse. Debido a que los niveles gerenciales necesitan a menudo
tomar decisiones de alto nivel, cruciales para el funcionamiento de la empresa.
El Data Warehouse permite que los gerentes tomen decisiones siguiendo un
enfoque racional, basados en información confiable y oportuna. Consiste básicamente en la transformación de los datos operacionales en información útil
para decidir. El uso del Data Warehouse permite también encontrar relaciones
ocultas entre los datos y predecir el comportamiento futuro bajo condiciones
dadas.
El trabajo con los Data Warehouses es diferente al de los sistemas transaccionales. Se modelan los datos a partir de dimensiones, en lugar del tradicional
modelado relacional, y las herramientas de acceso a los datos se basan en
una tecnología de procesamiento analítico (OLAP), distinta al procesamiento
transaccional (OLTP) de los sistemas operacionales.
Los datos operacionales que sirven de entrada al Data Warehouse generalmente están dispersos en distintos sistemas de la organización, desarrollados
en diferentes entornos de desarrollo, por diferentes personas y en diferentes
momentos. Es tarea fundamental del Data Warehouse recolectarlos, unificar-
los y depurarlos según las necesidades del negocio, eliminando inconsistencias
y conservando sólo la información útil para los objetivos empresariales. Esto
se lleva a cabo mediante procesos que se ejecutan periódicamente y conducen
a mantener la información actualizada.
Las aplicaciones de usuario final que acceden al Data Warehouse brindan a
los gerentes la posibilidad de ver la información con diferentes niveles de agregación (detallados o resumidos) y filtrar las consultas por distintas variables.
Finalmente, el Data Warehouse permite aplicar herramientas como el Data
Mining, para encontrar relaciones entre los datos a fin de comprender las
causas de variabilidad presentes y realizar pronósticos con el apoyo de modelos
estadísticos.
En la sociedad actual, la información constituye un activo esencial de
cualquier organización proporcionando beneficios significativos, tangibles y
cuantificables. Como consecuencia, la integración de un Data Warehouse a
la empresa representa una ventaja competitiva en el mundo de los negocios
y acceder a ellos desde los dispositivos móviles es una alternativa adicional
importante.
4
CAPÍTULO 1. INTRODUCCIÓN
Capítulo 2
¿Qué es un Data Warehouse?
2.1.
Nociones Acerca de un DW
De acuerdo con W. H. Inmon, quien es considerado como el padre del Data
Warehouse: un Data Warehouse es un conjunto de datos integrados orientados
a una materia que varían con el tiempo y que no son transitorios, los cuales
soportan el proceso de toma de decisiones de una administración.
De acuerdo con algunas organizaciones, el Data Warehouse es una arquitectura. Para otras, es un depósito semánticamente consistente en datos (separados y que no interfieren con los sistemas operativos y de producción existentes)
que llenan por completo los diferentes requerimientos de acceso y reporte de
datos. Para algunos otros, el Data Warehouse es un proceso continuo que
mezcla los datos de varias fuentes heterogéneas, incluyendo datos históricos
y adquiridos para soportar la constante necesidad de consultas estructuradas
y/o ad hoc, reportes analíticos y soporte de decisiones.
Así como hay gran divergencia para establecer una definición precisa de
un Data Warehouse, hay un claro consenso de que la tecnología del Data
Warehouse es un ingrediente esencial en el conjunto de soluciones para el
soporte de decisiones en una empresa.
Un DW es una base de datos corporativa que se caracteriza por integrar
y depurar información de una o más fuentes distintas, para luego procesarla
permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. La creación de un DW representa en la mayoría de las
5
6
CAPÍTULO 2. ¿QUÉ ES UN DATA WAREHOUSE?
ocasiones el primer paso, desde el punto de vista técnico, para implantar una
solución completa y fiable de Business Intelligence.
Es un repositorio de datos de muy fácil acceso, alimentado de numerosas
fuentes, transformadas en grupos de información sobre temas específicos de
negocios, para permitir nuevas consultas, análisis y decisiones.
2.2.
¿Qué es lo que Preocupa a los Ejecutivos?
Se tienen montañas de datos en la compañía, pero no podemos llegar a
ellos adecuadamente. Nada enloquece más a los ejecutivos que dos personas
presentando el mismo resultado de operación pero con diferentes números y
los ejecutivos lo que buscan es ver la información pero desde diferentes ángulos, mostrando únicamente lo que es importante para tomar una decisión
en la empresa, finalmente los ejecutivos saben que hay datos que nunca serán
confiables, por lo que prefieren que se eviten en los reportes ejecutivos.
Uno de los valores más importantes de una organización es la información.
Estos valores normalmente son guardados por la organización de dos formas:
Los sistemas operacionales de registros.
El Data Warehouse.
Crudamente hablando, los sistemas operacionales de registros son donde
los datos son depositados y el DW es de donde se extraen los datos para la
toma de decisiones.
2.3.
Objetivos del Data Warehouse
Hace que la información de la organización sea accesible: los contenidos
del DW son entendibles y navegables, y el acceso a ellos está caracterizado
por el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco
límites fijos. Cuando hablamos de entendible significa que los niveles de la
información sean correctos y obvios. Navegables significa el reconocer el destino
en la pantalla y llegar a donde queramos con solo un click. Rápido desempeño
significa, cero tiempos de espera. Todo lo demás es un compromiso y por
consiguiente algo que se quiere mejorar.
Hace que la información de la organización sea consistente: la información
de una parte de la organización puede hacerse coincidir con la información
de la otra parte de la organización. Si dos medidas de la organización tienen
el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si
dos medidas no significan la misma cosa, entonces son etiquetados diferentes.
Información consistente significa, información de alta calidad. Significa que
toda la información es contabilizada y completada.
Es información adaptable y elástica: el DW está diseñado para cambios
continuos. Cuando se le hacen nuevas preguntas al DW y se le agregan datos
nuevos, los datos existentes y las tecnologías no cambian ni se corrompen.
Es fundamental para la toma de decisiones: el DW tiene los datos correctos
para soportar la toma de decisiones. Podría decirse que la salida verdadera del
DW son las decisiones que se toman después de que el DW haya presentado las
evidencias. Se pretende utilizar el DW para construir un sistema de soporte a
las decisiones.
8
CAPÍTULO 2. ¿QUÉ ES UN DATA WAREHOUSE?
Capítulo 3
Sistemas de Información
3.1.
Esquema General de los SI
Hay funciones dentro de la empresa que tienen que ver con el planeamiento,
previsión y administración de la organización. Estas funciones son críticas para
la supervivencia de la organización, especialmente en un mundo de rápidos
cambios.
Las funciones como planificación de marketing, planeamiento de ingeniería
y análisis financiero, requieren, además, de sistemas de información que las
soporte.
Pero estas funciones son diferentes de las operacionales y los tipos de sistemas y la información requerida son también diferentes. Las funciones basadas
en el conocimiento son los Sistemas de Soporte de Decisiones (SSD).
Estos sistemas están relacionados con el análisis de los datos y la toma de
decisiones, frecuentemente, decisiones importantes sobre cómo operará la empresa, ahora y en el futuro. Estos sistemas no sólo tienen un enfoque diferente
al de los operacionales, sino que, por lo general, tienen un alcance diferente.
Mientras las necesidades de los datos operacionales se enfocan normalmente
hacia una sola área, los datos para el soporte de decisiones, con frecuencia,
toman un número de áreas diferentes y necesitan cantidades grandes de datos
operacionales relacionadas.
Son estos sistemas sobre los que se basa la tecnología Data Warehousing
9
10
CAPÍTULO 3. SISTEMAS DE INFORMACIÓN
Figura 3.1: Sistema de Informción. Esquema.
que se han dividido de acuerdo al esquema que se puede visualizar en la figura
3.1 de la página 10.
3.1.1.
Sistemas Estratégicos
Orientados a soportar la toma de decisiones, facilitan la labor de la dirección, proporcionándole un soporte básico, en forma de mejor información, para
la toma de decisiones. Se caracterizan porque son sistemas sin carga periódica
de trabajo, es decir, su utilización no es predecible. Destacan entre estos sistemas: los Sistemas de Información Gerencial (MIS), Sistemas de Información
Ejecutivos (EIS), Sistemas de Información Georeferencial (GIS), Sistemas de
Simulación de Negocios (BIS y que en la práctica son Sistemas Expertos o de
Inteligencia Artificial-AI).
3.1.2.
Sistemas Tácticos
Diseñados para soportar las actividades de coordinación de actividades y
manejo de documentación, definidos para facilitar consultas sobre información
almacenada en el sistema, proporcionar informes y, en resumen, facilitar la
3.2. DATOS OPERACIONALES Y DATOS INFORMATIVOS
11
gestión independiente de la información por parte de los niveles intermedios de
la organización. Destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemas
de Transmisión de Mensajería (E-mail y Fax Server), coordinación y control de
tareas (Work Flow) y tratamiento de documentos (Imagen, Trámite y Bases
de Datos Documentarios).
3.1.3.
Sistemas Técnico-Operativos
Cubren el núcleo de operaciones tradicionales de captura masiva de datos
(Data Entry) y servicios básicos de tratamiento de datos, con tareas predefinidas (contabilidad, facturación, almacén, presupuesto, personal y otros
sistemas administrativos). Estos sistemas están evolucionando con la irrupción de sensores, autómatas, sistemas multimedia, bases de datos relacionales
más avanzadas y data warehousing.
3.1.4.
Sistemas Interinstitucionales
Este último nivel de sistemas de información recién está surgiendo, es consecuencia del desarrollo organizacional orientado a un mercado de carácter
global, el cual obliga a pensar e implementar estructuras de comunicación
más estrechas entre la organización y el mercado (Empresa Extendida, Organización Inteligente e Integración Organizacional), todo esto a partir de la
generalización de las redes informáticas de alcance nacional y global (Internet), que se convierten en vehículo de comunicación entre la organización y el
mercado, no importa dónde esté la organización (Intranet), el mercado de la
institución (Extranet) y el mercado (Red Global).
Sin embargo, la tecnología data warehousing basa sus conceptos y diferencias entre dos tipos fundamentales de sistemas de información en todas las
organizaciones: los sistemas técnico-operacionales y los sistemas de soporte de
decisiones. Este último es la base de un data warehouse [1].
3.2.
Datos Operacionales y Datos Informativos
El proceso automatizado de un negocio utiliza datos operacionales, los que
constituyen el conjunto de registros de las transacciones del negocio.
12
CAPÍTULO 3. SISTEMAS DE INFORMACIÓN
Estos datos son creados durante la ejecución de estos procesos y son almacenados en un archivo o en una base de datos. Frecuentemente contienen
valores incorrectos, son muy detallados y son de mínimo uso en los negocios
debido a su gran volumen, ubicación y formatos.
En conclusión, es difícil para los usuarios del negocio tener acceso a los
datos operacionales debido a las limitaciones de performance y tecnología.
Lo que el usuario del negocio necesita como entrada a sus actividades de
análisis son datos informativos.
Estos son una combinación de datos operacionales que han sido modificados, depurados, transformados, consolidados y organizados desde diversas
fuentes externas al proceso del negocio.
Este tipo de información generalmente es específico para un conjunto de
usuarios del negocio que lo hacen significante y útil para su análisis.
Ambos tipos de datos y ambos tipos de uso son muy importantes, pero es
difícil cumplir con ambos propósitos en el mismo sistema.
Los datos operacionales son específicos para cada aplicación y usualmente
son almacenados de manera separada por otras aplicaciones. Estos datos son
útiles en la medida en que se aprovechen para satisfacer el proceso de las
aplicaciones predefinidas.
Mayormente se requieren sólo datos actuales y estos deben ser mantenidos
al día haciendo actualizaciones frecuentes en la base de datos. En cambio,
para los datos informativos, el usuario necesita datos que crucen por varias
aplicaciones, que estén reorganizados por temas de negocio, que contengan
valores históricos, que se encuentren disponible para análisis durante períodos
largos y que sea accesible de manera fácil y flexible.
Los datos operacionales son manejados, precisamente, por los sistemas operacionales o transaccionales (On Line Transactional Processing, OLTP), los
cuales se concentran en la administración y la medición de indicadores empresariales (capital e inversión), indicadores financieros (márgenes de utilidades,
rotación de inventarios), indicadores de ventas (identificación de clientes persistentes), etc.
Por su parte, los datos informativos son los que conforman un DW, el
cual tiene como fin comprender, medir y administrar parámetros empresariales
estratégicos, como el crecimiento del ingreso y rentabilidad, la participación
3.3. CARACTERÍSTICAS DEL DATA WAREHOUSE
13
del mercado y los segmentos del cliente.
En el siguiente cuadro se muestran las diferencias entre los datos operacionales y los datos informativos.
Datos Operacionales:
Orientados a una aplicación.
Integración limitada.
Constantemente actualizados.
Sólo valores actuales.
Soportan operaciones diarias.
Datos Informativos:
Orientados a un tema.
Integrados.
No volátiles.
Valores a lo largo del tiempo.
Soportan decisiones de administración.
3.3.
Características del Data Warehouse
Entre sus principales características tenemos:
Orientado a Temas
Una primera característica del DW es que la información se clasifica en base
a los aspectos que son de interés para la empresa. Siendo así, los datos tomados
están en contraste con los clásicos procesos orientados a las aplicaciones.
El contraste entre los dos tipos de orientaciones se visualiza en la figura
3.2 de la página 14.
14
CAPÍTULO 3. SISTEMAS DE INFORMACIÓN
Figura 3.2: Características del Data Warehouse. Orientado a una materia.
3.3. CARACTERÍSTICAS DEL DATA WAREHOUSE
15
El ambiente operacional se diseña alrededor de las aplicaciones y funciones
tales como préstamos, ahorros, tarjeta bancaria y depósitos para una institución financiera. Por ejemplo, una aplicación de ingreso de órdenes puede
acceder a los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la
aplicación.
El ambiente DW se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos pueden ser
clientes, productos, proveedores y vendedores. Para una universidad pueden
ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes,
personal médico, medicamentos, etc.
La alineación alrededor de las áreas de los temas afecta el diseño y la
implementación de los datos encontrados en el DW. Las principales áreas de
los temas influyen en la parte más importante de la estructura clave [2].
Las aplicaciones están relacionadas con el diseño de la base de datos y del
proceso. En DW se enfoca el modelamiento de datos y el diseño de la base
de datos. El diseño del proceso (en su forma clásica) no es separado de este
ambiente.
Las diferencias entre la orientación de procesos, funciones de las aplicaciones y la orientación a temas, radican en el contenido del dato a escala
detallada. En el DW se excluye la información que no será usada por el proceso de sistemas de soporte de decisiones, mientras que la información de las
orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los
requerimientos funcionales y de proceso, que pueden ser usados o no por el
analista de soporte de decisiones.
Otra diferencia importante está en la interrelación de la información. Los
datos operacionales mantienen una relación continua entre dos o más tablas
basadas en una regla comercial que está vigente. Las del DW miden un espectro de tiempo y las relaciones encontradas son muchas. Muchas de las reglas
comerciales (y sus correspondientes relaciones de datos) se representan en el
DW, entre dos o más tablas.
Integrado
Integra datos recolectados de diferentes sistemas operacionales de la organización y o fuentes externas.
16
CAPÍTULO 3. SISTEMAS DE INFORMACIÓN
El aspecto más importante del ambiente DW es que la información encontrada en el interior está siempre integrada.
La integración de los datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la
codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros.
A través de los años, los diseñadores de las diferentes aplicaciones han
tomado sus propias decisiones sobre cómo se debería construir una aplicación.
Los estilos y diseños personalizados se muestran de muchas maneras.
Se diferencian en la codificación, en las estructuras claves, en sus características físicas, en las convenciones de nombramiento y otros. La capacidad
colectiva de muchos de los diseñadores de aplicaciones, para crear aplicaciones
inconsistentes.
Codificación. Los diseñadores de aplicaciones codifican el campo género en
varias formas. Un diseñador representa género como una M y una F, otros
como un 1 y un 0, otros como una X y una Y e inclusive, como masculino y
femenino.
No importa mucho cómo el género llega al DW. Probablemente M y F
sean tan buenas como cualquier otra representación. Lo importante es que sea
de cualquier fuente de donde venga, el género debe llegar al DW en un estado
integrado uniforme.
Por lo tanto, cuando el género se carga en el DW desde una aplicación,
donde ha sido representado en formato M y F, los datos deben convertirse al
formato del DW.
Medida de atributos. Los diseñadores de aplicaciones miden las unidades
de medida de las tuberías en una variedad de formas. Un diseñador almacena
los datos de tuberías en centímetros, otros en pulgadas, otros en millones de
pies cúbicos por segundo y otros en yardas.
Al dar medidas a los atributos, la transformación traduce las diversas
unidades de medida usadas en las diferentes bases de datos para transformarlas en una medida estándar común.
Cualquiera que sea la fuente, cuando la información de la tubería llegue al
DW necesitará ser medida de la misma manera.
3.3. CARACTERÍSTICAS DEL DATA WAREHOUSE
17
Convenciones de nombramiento. El mismo elemento es frecuentemente
referido por nombres diferentes en las diversas aplicaciones. El proceso de
transformación asegura que se use preferentemente el nombre de usuario.
Fuentes múltiples. El mismo elemento puede derivarse desde fuentes múltiples. En este caso, el proceso de transformación debe asegurar que la fuente
apropiada sea usada, documentada y movida al depósito.
Tal como se muestra en la figura 3.3 de la página 18, los puntos de integración afectan casi todos los aspectos de diseño - las características físicas de
los datos, la disyuntiva de tener más de una de fuente de datos, el problema de
estándares de denominación inconsistentes, formatos de fecha inconsistentes y
otros.
Cualquiera que sea la forma del diseño, el resultado es el mismo; la información necesita ser almacenada en el DW en un modelo globalmente aceptable
y singular, aun cuando los sistemas operacionales subyacentes almacenen los
datos de manera diferente.
Cuando el analista de sistema de soporte de decisiones observe el DW, su
enfoque deberá estar en el uso de los datos que se encuentren en el depósito,
antes que preguntarse sobre la confiabilidad o consistencia de los datos.
De Tiempo Variante (Variable en el Tiempo)
Los datos son relativos a un período de tiempo y estos deben ser integrados
periódicamente; los mismos son almacenados como fotos que se corresponden
a un período de tiempo como se puede visualizar en la figura 3.4 de la página
19.
Toda la información del DW es requerida en algún momento. Esta característica básica de los datos en un depósito, es muy diferente de la información
encontrada en el ambiente operacional. En éstos, la información se requiere al
momento de acceder. En otras palabras, en el ambiente operacional, cuando
se accede a una unidad de información, se espera que los valores requeridos se
obtengan a partir del momento de acceso.
Como la información en el DW es solicitada en cualquier momento (es
decir, no ahora mismo), los datos encontrados en el depósito se llaman de
tiempo variante.
Los datos históricos son de poco uso en el procesamiento operacional. La
información del depósito, a su vez, debe incluir los datos históricos para usarse
18
CAPÍTULO 3. SISTEMAS DE INFORMACIÓN
Figura 3.3: Características del Data Warehouse. Integración.
3.3. CARACTERÍSTICAS DEL DATA WAREHOUSE
19
Figura 3.4: Características del Data Warehouse. Tiempo Variante.
en la identificación y evaluación de tendencias [2].
El tiempo variante se muestra de varias maneras:
La más simple es que la información representa los datos sobre un horizonte largo de tiempo, desde cinco a diez años. El horizonte de tiempo
representado para el ambiente operacional es mucho más corto; desde valores actuales hasta sesenta a noventa días. Las aplicaciones que tienen un
buen rendimiento y están disponibles para el procesamiento de transacciones, deben llevar una cantidad mínima de datos si tienen cualquier
grado de flexibilidad. Por ello, las aplicaciones operacionales tienen un
corto horizonte de tiempo, debido al diseño de aplicaciones rígidas.
La segunda manera en la que se muestra el tiempo variante en el DW
está en la estructura clave. Cada estructura clave en el DW contiene,
implícita o explícitamente, un elemento de tiempo como día, semana,
mes, etc.
La tercera manera en que aparece el tiempo variante es cuando la información del DW, una vez registrada correctamente, no puede ser actualizada. La información del DW es, para todos los propósitos prácticos,
20
CAPÍTULO 3. SISTEMAS DE INFORMACIÓN
una serie larga de snapshots (vistas instantáneas). Por supuesto, si los
snapshots de los datos se han tomado incorrectamente, entonces pueden
ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son alterados una vez hechos. En algunos casos puede
ser no ético, e incluso ilegal, alterar los snapshots en el DW. Los datos
operacionales, siendo requeridos a partir del momento de acceso, pueden
actualizarse de acuerdo a la necesidad [2].
No Volátil
Los datos que son almacenados no sufren ninguna actualización, sólo son
incrementados. El período cubierto para un DW va de 2 a 10 años.
La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial
para el análisis y la toma de decisiones, requiere una base de datos estable.
Hay algunas consecuencias muy importantes de esta diferencia básica, entre
el procesamiento operacional y del DW. En el nivel de diseño, la necesidad de
ser precavido para actualizar las anomalías no es un factor en el DW, ya
que no se hace la actualización de datos. Esto significa que en el nivel físico
de diseño, se pueden tomar libertades para optimizar el acceso a los datos,
particularmente al usar la normalización y desnormalización física.
Otra consecuencia de la simplicidad de la operación del DW está en la
tecnología subyacente, utilizada para correr los datos en el depósito. Teniendo
que soportar la actualización de registro por registro en modo on-line (como es
frecuente en el caso del procesamiento operacional) requiere que la tecnología
tenga un fundamento muy complejo debajo de una fachada de simplicidad [2].
Se muestra que la actualización (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro.
Pero la manipulación básica de los datos que ocurre en el DW es mucho más
simple. Hay dos únicos tipos de operaciones: la carga inicial de datos y el
acceso a los mismos. No hay actualización de datos (en el sentido general de
actualización) en el depósito, como una parte normal de procesamiento, como
se puede visualizar en la figura 3.5 de la página 21.
3.4. IMPACTOS TÉCNICOS DE UN DW
21
Figura 3.5: Características del Data Warehouse. No Volátil.
3.4.
Impactos Técnicos de un DW
Las principales razones para la construcción de un DW son las siguientes:
Proporciona una herramienta para la toma de decisiones en cualquier
área funcional, basándose en información integrada y global del negocio.
Facilita la aplicación de técnicas estadísticas de análisis y modelización
para encontrar relaciones ocultas entre los datos del almacén; obteniendo
un valor añadido para el negocio de dicha información.
Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.
Simplifica dentro de la empresa la implantación de sistemas de gestión
integral de la relación con el cliente.
Supone una optimización tecnológica y económica en entornos de Centro
de Información, estadística o de generación de informes con importantes
retornos de la inversión.
Considerando las etapas de construcción, soporte del DW y soporte de
sistemas operacionales, se tienen los siguientes impactos técnicos:
Nuevas destrezas de desarrollo: Cuando se construye el DW, el impacto más grande sobre la gente técnica está dada por la curva de aprendizaje,
muchas destrezas nuevas se deben aprender, incluyendo:
Conceptos y estructura DW.
El DW introduce muchas tecnologías nuevas (ETT, Carga, Acceso de
Datos, Catálogo de Metadatos, Implementación de DSS/EIS), y cambia
la manera en que se usa la tecnología existente. Nuevas responsabilidades
de soporte, nuevas demandas de recursos y nuevas expectativas, son los
efectos de estos cambios.
Destrezas de diseño y análisis donde los requerimientos empresariales no
son posibles de definir de una forma estable a través del tiempo.
Técnicas de desarrollo incremental y evolutivo.
Trabajo en equipo cooperativo con gente de negocios como participantes
activos en el desarrollo del proyecto.
Nuevas responsabilidades de operación: Cambios sobre los sistemas
y datos operacionales deben ser examinados más cuidadosamente para determinar el impacto que estos cambios tienen sobre ellos, y sobre el DW.
Capítulo 4
Modelos de Datos
Para comprender uno de los aspectos más relevantes de la arquitectura
del DW, como es el modelado de datos, es necesario establecer primero las
diferencias sustanciales entre los dos mundos de modelado existentes: entidadrelación (ER) y dimensional.
El modelado entidad-relación se utiliza habitualmente para crear un único
modelo complejo de todos los procesos de una organización. Este enfoque
ha demostrado ser efectivo para crear sistemas eficientes de procesamiento
transaccional en línea (OLTP).
Por otra parte, el modelado dimensional crea modelos individuales para
reflejar procesos discretos de negocio. Este modelado organiza la información
en estructuras que usualmente corresponden a la forma en que los analistas
realizan sus consultas de los datos del DW.
4.1.
El Modelo Relacional
En la mayoría de los sistemas transaccionales el objetivo del modelo es
garantizar la integridad de los datos, además de eliminar cualquier tipo de
redundancia en los datos. Este enfoque es perfecto para los entornos de procesamiento transaccional, porque las transacciones son muy simples y deterministas.
El éxito del procesamiento transaccional en un entorno de bases de datos
23
24
CAPÍTULO 4. MODELOS DE DATOS
relacionales se debe básicamente a esta disciplina de modelado.
Sin embargo, para el propósito de un DW, el modelo relacional (ER) presenta los siguientes problemas:
Legibilidad limitada. Los usuarios finales no son capaces de entender el
modelo ER. Por tanto, no pueden navegar por dicho modelo en busca
de información.
Dificultad para las herramientas de consulta en el acceso a un modelo
ER general. Las herramientas de consulta a menudo poseen prestaciones
mediocres o inaceptables cuando se trabaja en entornos relacionales de
grandes volúmenes de información.
La utilización de la técnica de modelado ER frustra el principal atractivo
del DW. Al utilizar el modelado ER queda frustrada la recuperación de
información intuitiva y con alto rendimiento.
4.2.
El Modelo Dimensional
Es una técnica de diseño lógico que busca presentar la información en
un marco estándar e intuitivo que permita un acceso de alto rendimiento.
Este modelado se vale de los principios de la disciplina que emplea el modelo
relacional con algunas importantes restricciones.
El modelado dimensional es esencialmente útil para resumir y organizar los
datos y la presentación de información para soportar el análisis de la misma.
Existen algunos conceptos básicos para comprender la filosofía de este tipo de
modelado: áreas tema, medidas, dimensiones y hechos.
Un área tema es una cuestión de interés de una función empresarial. Las
áreas tema en conjunto constituyen el ámbito de implementación del DW. Por
ejemplo, el departamento de Comercialización de una empresa puede estar
interesado en las áreas tema de pedidos, promociones, mercados y ventas.
Para especificar las áreas tema se deben identificar las medidas. Una medida o indicador es un cuantificador del desempeño de un ítem o una actividad
del negocio. La información que brinda una medida es usada por los usuarios
en sus consultas para evaluar el desempeño de un área tema.
4.2. EL MODELO DIMENSIONAL
25
El DW organiza un gran conjunto de datos operacionales mediante múltiples dimensiones. Una dimensión es una colección de miembros o entidades
del mismo tipo y constituye un calificador conceptual que provee el contexto
o significado para una medida.
La forma de representar la organización de los datos en un modelo dimensional es a través de un cubo (el cual no necesariamente debe tener tres
dimensiones). Los miembros de una dimensión pueden estar organizados en
una o más jerarquías.
Una jerarquía es un conjunto de miembros de una dimensión, los cuales se
definen por su posición relativa con respecto a los otros miembros de la misma
dimensión, y forman en su totalidad una estructura de árbol. Partiendo de la
raíz del árbol, los miembros son progresivamente más detallados hasta llegar
a las hojas, donde se obtiene el mayor nivel de detalle.
Puede darse el caso en que una dimensión no necesite jerarquizarse debido
a que ninguno de sus miembros posee una posición relativa con respecto a los
otros miembros. Por ejemplo, una dimensión cliente que tiene como miembros
nombre, sexo y fecha de nacimiento, no necesita organizar estos miembros
porque todos están al mismo nivel de detalle, a menos que se desee agruparlos
por alguno de ellos para visualizar los datos.
4.2.1.
Esquemas del Modelo Dimensional
Esquema Estrella (star): cada modelo dimensional está compuesto de
una tabla central con una clave primaria compuesta, denominada tabla de
hechos; y un conjunto de tablas periféricas denominadas tablas de dimensiones.
Cada una de las tablas de dimensiones tiene una clave primaria que corresponde exactamente con uno de los componentes de la clave compuesta de la
tabla de hechos. Las tablas de hechos, además de sus campos clave, contienen
una o más medidas, indicadores o hechos. Las medidas más útiles en una tabla
de hechos son numéricas y aditivas. La aditividad es crucial porque las aplicaciones DW casi nunca recuperan un solo registro de la tabla de hechos, sino
que acceden a cientos, miles o incluso millones de registros a la vez.
Las tablas de dimensiones, por el contrario, contienen información textual
descriptiva. Los atributos de las dimensiones se emplean como fuente de las
restricciones en las consultas al DW.
26
CAPÍTULO 4. MODELOS DE DATOS
Figura 4.1: Modelo de Datos. Esquema en Estrella.
En el modelo estrella las dimensiones no se normalizan. Con ello se logra
minimizar el número de uniones y, por consiguiente, incrementar el rendimiento de las consultas (una tabla de hechos está relacionada con numerosas tablas
de dimensiones), como se puede ver en la figura 4.1 de la página 26.
Esquema Copo de Nieve (snowflake): en este modelado se normalizan
las dimensiones reflejando las jerarquías en las mismas y conservando lo esencial del modelo en estrella que son las tablas de hechos. La ventaja del modelo
copo de nieve es eliminar la redundancia de datos y por lo tanto ocupar menos
espacio en disco.
En las bases de datos usadas para DW, un esquema en estrella es un modelo
de datos que tiene una tabla de hechos (o tabla fact) que contiene los datos
para el análisis, rodeada de las tablas de dimensiones. Este aspecto, de tabla
4.2. EL MODELO DIMENSIONAL
27
de hechos (o central) más grande rodeada de radios o tablas más pequeñas es
lo que asemeja a una estrella, dándole nombre a este tipo de construcciones.
Las tablas de dimensiones tendrán siempre una clave primaria simple,
mientras que en la tabla de hechos, la clave principal estará compuesta por las
claves principales de las tablas dimensionales.
Esquema en copo de nieve (bola de nieve) es una variedad más compleja
del esquema estrella. Se utiliza cuando las tablas de dimensiones están muy
grandes o complejas y es muy difícil representar los datos en esquema estrella.
El problema es que para extraer datos de las tablas en esquema de copo de
nieve, a veces hay que vincular muchas tablas en las sentencias SQL, lo que
puede llegar a ser muy complejo y difícil para mantener. El afinamiento está
orientado a facilitar mantenimiento de dimensiones.
Lo que distingue a la arquitectura en esquema copo de nieve de la arquitectura en esquema estrella, es que las tablas de dimensiones en este modelo
representan relaciones normalizadas (3NF) y forman parte de un modelo relacional de base de datos; como se puede ver en la figura 4.2 de la página 28.
4.2.2.
Ventajas del Modelo Dimensional
El modelo dimensional presenta importantes ventajas de las que carece el
modelo relacional. Uno de los puntos fuertes del modelo dimensional es que el
marco predecible del esquema estrella resiste a los cambios inesperados en el
comportamiento del usuario.
Cada dimensión es equivalente a las demás y todas las dimensiones pueden
ser concebidas como puntos de entrada hacia la tabla de hechos. El diseño lógico puede realizarse independientemente de los patrones de consulta esperados,
siendo consideradas de la misma forma tanto las interfaces de usuario como
las estrategias de consulta, así como el lenguaje de consulta generado contra
el modelo dimensional.
Otra cualidad del modelo dimensional es la flexibilidad. Los nuevos elementos de datos y las nuevas decisiones de diseño son fácilmente adaptables. Todas
las tablas pueden modificarse simplemente agregando nuevos registros de datos
o se pueden incluir nuevas dimensiones al modelo sin necesidad de volver a
cargar los datos posteriormente. Además no es necesario volver a programar
las herramientas de consulta o de informes para adaptarse a los cambios, y las
28
CAPÍTULO 4. MODELOS DE DATOS
Figura 4.2: Modelos de Datos. Esquema Copo de Nieve.
aplicaciones existentes pueden continuar su ejecución brindando los mismos
resultados.
Las modificaciones ante las cuales el modelo dimensional es flexible incluyen:
Agregar medidas a la tabla de hechos, siempre que sean aditivas y consistentes con el mayor nivel de detalle de las dimensiones.
Agregar atributos a las dimensiones.
Agregar nuevas dimensiones, siempre que exista un único valor de dicha
dimensión definido para cada registro de la tabla de hechos.
Particionar los registros de una dimensión a un mayor nivel de detalle
a partir de un determinado punto en el tiempo. Los registros anteriores
permanecerán sin cambios mientras que los futuros registros se almacenarán de acuerdo al nuevo modelo.
Una ventaja adicional del modelo dimensional es el creciente número de
utilidades administrativas y aplicaciones que gestionan y utilizan los agregados. Los agregados son registros resumidos que son lógicamente redundantes
con la información ya existente en el DW y son empleados para mejorar el
rendimiento de las consultas.
Cualquier implementación de tamaño mediano o grande del DW requiere
la creación de una estrategia de agregados. Todas las aplicaciones software
de gestión de agregados, así como las utilidades de navegación de agregados,
dependen de una estructura específica de las tablas de hechos y dimensiones
que es absolutamente dependiente del modelo dimensional. Si no se emplea el
enfoque del modelo dimensional no es posible beneficiarse de tales aplicaciones.
30
CAPÍTULO 4. MODELOS DE DATOS
Capítulo 5
Operaciones en un Data
Warehouse
5.1.
Tipos de Operaciones
En la figura 5.1 de la página 32 se muestran algunos de los tipos de operaciones que se efectúan dentro de un ambiente DW.
Sistemas Operacionales
Los datos administrados por los sistemas de aplicación operacionales son
la fuente principal de datos para el DW.
Las bases de datos operacionales se organizan como archivos indexados
(UFAS, VSAM), bases de datos de redes / jerárquicas (I-D-S / II, IMS, IDMS)
o sistemas de base de datos relacionales (DB2, Oracle, Informix, etc.). Según
las encuestas, aproximadamente del 70 % a 80 % de las bases de datos de las
empresas se organizan usando DBMSs no relacional.
Extracción, Transformación y Carga de los Datos
Se requieren herramientas de gestión de datos para extraer datos desde
bases de datos y / o archivos operacionales, luego es necesario manipular o
transformar los datos antes de cargar los resultados en el DW.
Tomar los datos desde varias bases de datos operacionales y transformarlos
en datos requeridos para el depósito, se refiere a la transformación o a la inte31
32
CAPÍTULO 5. OPERACIONES EN UN DATA WAREHOUSE
Figura 5.1: Operaciones en el Data Warehouse.
5.1. TIPOS DE OPERACIONES
33
gración de datos. Las bases de datos operacionales, diseñadas para el soporte
de varias aplicaciones de producción, frecuentemente difieren en el formato.
Los mismos elementos de datos, si son usados por aplicaciones diferentes
o administrados por diferentes software DBMS, pueden definirse al usar nombres de elementos inconsistentes, que tienen formatos inconsistentes y/o ser
codificados de manera diferente. Todas estas inconsistencias deben resolverse
antes que los elementos de datos sean almacenados en el DW.
Las operaciones de extracción, transformación y carga son conocidas como
ETL, por su sigla en inglés; las mismas constan de lo siguiente:
Extracción: obtención de información de las distintas fuentes tanto internas como externas.
Transformación: filtrado, limpieza, depuración, homogeneización y agrupación de la información.
Carga: organización y actualización de los datos y los metadatos en la
base de datos.
Metadata
La metadata (es decir, datos acerca de datos) describe los contenidos del
DW. La metadata consiste de definiciones de los elementos de datos en el
depósito, se integra y transforma antes de ser almacenada en información
similar.
Acceso de Usuario Final
Los usuarios acceden al DW por medio de herramientas de productividad basadas en GUI (Graphical User Interface - Interfase gráfica de usuario).
Pueden proveerse a los usuarios del DW muchos de estos tipos de herramientas.
Estos pueden incluir software de consultas, generadores de reportes, procesamiento analítico en línea, herramientas data / visual mining, etc., dependiendo de los tipos de usuarios y sus requerimientos particulares. Sin embargo, una
sola herramienta no satisface todos los requerimientos, por lo que es necesaria
la integración de una serie de herramientas.
Plataforma del DW
34
CAPÍTULO 5. OPERACIONES EN UN DATA WAREHOUSE
La plataforma para el DW es casi siempre un servidor de base de datos
relacional. Cuando se manipulan volúmenes muy grandes de datos puede requerirse una configuración en bloque de servidores UNIX con multiprocesador
simétrico (SMP) o un servidor con procesador paralelo masivo (MPP) especializado.
Los extractos de la data integrada / transformada se cargan en el DW. La
elección de la plataforma es crítica. El depósito crecerá y hay que comprender
los requerimientos después de 3 o 5 años.
El sistema de depósito ejecuta las consultas que se pasa a los datos por
el software de acceso a los datos del usuario. Aunque un usuario visualiza
las consultas desde el punto de vista de un GUI, las consultas típicamente
se formulan como pedidos SQL, porque SQL es un lenguaje universal y el
estándar de hecho para el acceso a datos.
Datos Externos
Dependiendo de la aplicación, el alcance del DW puede extenderse por la
capacidad de accesar a la data externa. Por ejemplo, los datos accesibles por
medio de servicios vía Internet, pueden estar disponibles a los usuarios del
DW.
Evolución del Depósito
Construir un DW es una tarea grande. No es recomendable emprender el
desarrollo del DW de la empresa como un proyecto cualquiera. Más bien, se
recomienda que los requerimientos de una serie de fases se desarrollen e implementen en modelos consecutivos que permitan un proceso de implementación
más gradual e iterativo.
Los datos en el DW no son volátiles y es un repositorio de datos de sólo
lectura (en general). Sin embargo, pueden añadirse nuevos elementos sobre
una base regular para que el contenido siga la evolución de los datos en la
base de datos fuente, tanto en los contenidos como en el tiempo.
Uno de los desafíos de mantener un DW, es idear métodos para identificar datos nuevos o modificados en las bases de datos operacionales. Algunas
maneras para identificar estos datos incluyen insertar fecha / tiempo en los
registros de base de datos y entonces crear copias de registros actualizados y
copiar información de los registros de transacción y / o base de datos diarias.
Estos elementos de datos nuevos y / o modificados son extraídos, inte-
grados, transformados y agregados al DW en pasos periódicos programados.
Como se añaden las nuevas ocurrencias de datos, los datos más antiguos son
eliminados.
36
CAPÍTULO 5. OPERACIONES EN UN DATA WAREHOUSE
Capítulo 6
Herramientas de Acceso y
Uso
6.1.
Introducción
Sin las herramientas adecuadas de acceso y análisis el DW se puede convertir en una mezcla de datos sin ninguna utilidad. Es necesario poseer técnicas
que capturen los datos importantes de manera rápida y puedan ser analizados
desde diferentes puntos de vista.
También deben transformar los datos capturados en información útil para
el negocio. Actualmente a este tipo de herramientas se las conocen como Herramientas de Inteligencia de Negocio (Business Intelligence Tools, BIT) y
están situadas conceptualmente sobre el DW.
Cada usuario final debe seleccionar la herramienta que mejor se ajusta a sus
necesidades y a su DW. Entre ellas se pueden citar las Consultas SQL (Structured Query Language), las Herramientas MDA (Multidimensional Analysis)
y OLAP (On-Line Analytical Processing) y las herramientas Data Mining.
Este bloque también incluye el hardware y software involucrados en mostrar
la información en pantalla y emitir reportes de impresión, hojas de cálculo,
gráficos y diagramas para el análisis y presentación.
37
38
CAPÍTULO 6. HERRAMIENTAS DE ACCESO Y USO
6.2.
OLAP (On Line Analytical Processing)
Son aplicaciones que generan información táctica y estratégica que sirve a
la organización como soporte para la toma de decisiones.
A diferencia de los sistemas OLTP, que utilizan BD relacionales u otros
archivos, OLAP (On Line Analytical Process - Procesamiento Analítico En
Línea) logra su máximo rendimiento y flexibilidad trabajando sobre un DW.
Presentan al usuario un esquema multidimensional en el cual se pueden
realizar consultas seleccionando atributos sobre el tema en particular que se
trate; esto desconociendo totalmente la estructura interna del DW. La aplicación OLAP se encarga de generar la consulta y enviarla al gestor, por ejemplo, a través de una sentencia Select.
La estructura multidimensional consta de una tabla de sucesos o hechos,
cuyos atributos describen la actividad que es el objeto del análisis (por ejemplo
ventas), y varias tablas llamadas dimensiones. Los atributos de cada dimensión
tienen el objetivo de aportar información particular sobre cada tupla de la
tabla de hechos, por ejemplo, lugar donde se realizan las ventas, fecha o período
en que fueron realizadas, sucursal, etc., como se puede observar en la figura
6.1 de la página 39.
Estas vistas multidimensionales son llamadas Cubos y pueden ser construidos de distintas formas:
ROLAP
Se implementa sobre tecnología relacional. Utiliza un esquema en estrella
cuyo nodo central representa a la tabla de hechos y sus extremos a las dimensiones [3]. Con esta metodología, cuando la consulta es realizada se genera el
cubo correspondiente. Esta alternativa de generación de cubos se utiliza cuando no se posee gran capacidad de almacenamiento. Al generarse los cubos en
tiempo de ejecución su rendimiento no es óptimo.
MOLAP
Tiene la estructura de arrays multidimensionales. Los cubos son generados
y almacenados antes de ser consultados. Los datos son tomados de la tabla
de hechos y las dimensiones son calculadas y almacenadas. Si se dispone de
suficiente espacio en disco, esta alternativa aumenta el rendimiento y mejora
los tiempos de respuesta [4].
6.2. OLAP (ON LINE ANALYTICAL PROCESSING)
Figura 6.1: Estructura Multidimensional.
39
40
CAPÍTULO 6. HERRAMIENTAS DE ACCESO Y USO
Figura 6.2: Modelo ROLAP y MOLAP.
HOLAP
Es una combinación de las técnicas ROLAP y MOLAP. Los cubos frecuentemente consultados son generados y almacenados. Cualquier otra consulta debe generarse en tiempo de ejecución.
Las principales diferencias entre un sistema OLTP y OLAP, se expresan
en la figura 6.2 de la página 40.
6.3. DATA MINING (MINERÍA DE DATOS)
6.3.
41
Data Mining (Minería de Datos)
La MD se define formalmente como un conjunto de técnicas y herramientas
aplicadas al proceso no trivial de extraer y presentar conocimiento implícito,
previamente desconocido, potencialmente útil y humanamente comprensible,
a partir de grandes conjuntos de datos, con objeto de predecir, de forma automatizada, tendencias o comportamientos y descubrir modelos previamente
desconocidos [5].
Desde el punto de vista empresarial los términos Data Mining y Extracción
del Conocimiento son tratados como sinónimos, y se los define como: La integración de un conjunto de áreas que tienen como propósito la identificación
de conocimiento obtenido a partir de las bases de datos que aporten un sesgo
hacia la toma de decisiones [6].
Características y Objetivos
En la actualidad, para realizar una investigación con el método científico
tradicional, generalmente, primero se formula la hipótesis y luego el experimento, para posteriormente coleccionar los datos necesarios que confirmen o
refuten la hipótesis. De esta manera se obtiene el nuevo conocimiento.
Una de las características principales de la MD es que invierte la dinámica
del método científico. Es decir, primero se coleccionan los datos y luego se los
escucha para que de ellos emerjan las hipótesis. Luego se validan esas hipótesis
en los datos mismos.
Por lo antes expuesto es que la MD debe presentar un enfoque exploratorio,
y no confirmador. Usar la MD para confirmar las hipótesis no sería correcto,
ya que se está haciendo una inferencia poco válida y acotando el análisis sólo
a la hipótesis elaborada.
El objetivo de la MD es extraer la información oculta en las profundidades
de las BD para luego intentar predecir futuras tendencias y comportamientos.
De esta forma permiten a las organizaciones tomar decisiones proactivas y así
adaptarse a un entorno permanentemente cambiante y sumamente competitivo.
Las técnicas utilizadas en la MD son el resultado de un largo proceso de investigación y desarrollo de productos que comenzó cuando los datos de negocio
fueron almacenados por primera vez en computadoras y luego, con tecnologías
generadas para permitir que los usuarios naveguen entre los datos en tiempo
42
CAPÍTULO 6. HERRAMIENTAS DE ACCESO Y USO
real. La MD engloba todas estas técnicas para brindar información prospectiva y proactiva. La MD está lista para su aplicación ya que está sostenida por
cuatro tecnologías que ya se encuentran suficientemente maduras:
Recolección masiva de datos.
Potentes computadoras con multiprocesadores.
Data Warehouse.
Algoritmos de Data Mining.
La MD produce cinco tipos de información:
Asociaciones.
Secuencias.
Clasificaciones.
Agrupamientos.
Pronósticos.
Uno de los factores claves que define la verdadera MD es que la aplicación
misma realiza el análisis sobre los datos. En otros casos, el análisis es guiado
por una interacción con el usuario. Las aplicaciones que no son, en algún grado,
auto guiadas, están realizando análisis de datos y no MD.
Arquitectura
Para que el proceso de MD sea óptimo, se recomienda que la fuente de
información de los algoritmos provenga de una DW. El contar con una DW
simplifica considerablemente la etapa de preproceso.
Existen herramientas de DM que operan fuera del ámbito de una DW,
pero esto requiere varios pasos extras para unificar fuentes, extraer, importar
y analizar los datos.
Por otra parte, cuando se introducen nuevos conceptos en los sistemas
OLTP, la integración con el DW simplifica la aplicación de los resultados de
la MD.
6.3. DATA MINING (MINERÍA DE DATOS)
43
Figura 6.3: Etapas en un Proyecto de MD.
Otra ventaja de incluir en la arquitectura un DW, es que ésta permite que
a medida que las BD operacionales de los distintos sistemas crece, los datos
son integrados al DW. Luego de este proceso la organización puede realizar la
MD, obtener patrones y conocimiento de los mismos y aplicarlos en el futuro.
Podríamos decir que un DW constituye la fuente de información o en la
“memoria” de la organización, y que la MD dota a esta de inteligencia [7].
En un proyecto de MD se deben tener en cuenta las siguientes etapas, como
se puede observar en la figura 6.3 de la página 43.
Selección de Datos
Los datos pueden tener un gran volumen y contener una cantidad ingente
de datos. En esta etapa se reduce considerablemente el volumen de los datos
seleccionando sólo los atributos y tuplas que aporten la información y sean
más influyentes sobre el tema a tratar.
Existen varios métodos para la selección de este subconjunto de atributos
[7]. Entre algunos de ellos se pueden citar:
Selección por Pasos Hacia Adelante: se comienza con un conjunto
vacío de atributos, en cada paso se agrega al conjunto el mejor atributo del
conjunto original.
Eliminación por Pasos Hacia Atrás: se comienza con un conjunto que
posee todos los atributos originales, en cada paso se elimina del conjunto el
peor atributo.
Combinación de Selección por Pasos Hacia Adelante y Eliminación por Pasos Hacia Atrás: es una combinación de los dos anteriores.
Se puede utilizar un umbral de medición para establecer cuándo detener la
eliminación y agregación de los atributos.
44
CAPÍTULO 6. HERRAMIENTAS DE ACCESO Y USO
Inducción con árboles de decisión: se utilizan algoritmos como ID3 y
C4.5. Los atributos que no son representados en el árbol se consideran irrelevantes y se los descarta. Por el contrario, los atributos que aparecen en el
árbol son los elegidos para conformar el subconjunto de atributos.
Pre Procesamiento de Datos
El formato de los datos de las distintas fuentes (OLPT, Fuentes Externas,
etc.) por lo general no suele ser apropiado. Esto dificulta que los algoritmos
de minería obtengan buenos modelos trabajando sobre estos datos en bruto.
El objetivo del preprocesado es adecuar los datos para que la aplicación a
los algoritmos de minería sea óptima. Para esto hay que filtrar, eliminar datos
incorrectos, no válidos, crear nuevos valores y categorías para los atributos e
intentar completar o descartar los valores desconocidos e incompletos.
Extracción de Conocimiento
Es la aplicación de diferentes algoritmos sobre los datos ya pre procesados,
para extraer patrones.
Evaluación e Interpretación de Patrones
Una vez obtenidos los patrones se debe comprobar su validez. Si los modelos
son varios, se debe elegir el que se ajuste mejor al problema. Si ninguno de los
modelos alcanza los resultados esperados, se debe volver a las etapas anteriores
y modificar alguna entrada para, de esta manera, generar nuevos modelos.
Algoritmos para la Extracción de Conocimiento
En la MD, según el tipo de algoritmo que se utilice, se realizan algunas de
las siguientes tareas:
Asociación: descubre relaciones entre dos sucesos aparentemente independientes. Estas se expresan en el conjunto de datos como condiciones
atributo-valor y deben estar presentes varias veces en ellos. La expresión
tiene dos componentes, el antecedente y el consecuente.
Secuenciación o análisis a través del tiempo: si además de lo anterior la
tarea incluye comparaciones de tiempo, búsqueda de patrones secuenciales, periódicos, desviaciones, entonces estamos frente a un algoritmo
del tipo secuencial. Éste incluye en el análisis el tiempo transcurrido
entre el suceso inductor y el suceso inducido.
Clasificación: se analiza un conjunto de datos cuya clasificación se conoce
y se le asigna a cada uno una clase o grupo de pertenencia. Este modelo puede utilizarse para un mayor entendimiento de los datos actuales
o para realizar la clasificación de futuros sucesos. Son utilizados en la
detección de fraudes, análisis de riesgo en la entrega de créditos, identificación de procedimientos médicos, etc.
Agrupamiento: realiza una clasificación resumida sobre el conjunto de
datos. A la clasificación se la nombra como caracterización, y a la distinción entre los datos como discriminación o comparación. Se diferencia
de la clasificación en que no se parte de un conjunto de entrenamiento.
Se utiliza en marketing (población con las mismas afinidades), medicina
(pacientes con los mismos malestares), etc.
Predicción: cuando existen datos faltantes intenta predecir los posibles
valores de los atributos.
Regresión: es similar a los algoritmos de clasificación. El modelo generado
intenta predecir el valor más probable para una situación observada.
Clústering: un cluster es un conjunto de datos con características similares. Esta similitud puede medirse con funciones de distancia. La MD
intenta encontrar clústeres de buena calidad para que luego puedan ser
utilizados en grandes BD o DW.
También suelen utilizarse combinaciones entre los diferentes tipos de algoritmos. Los algoritmos de clasificación y regresión pertenecen a la MD predictiva, mientras que los demás están dentro de la MD descriptiva.
46
CAPÍTULO 6. HERRAMIENTAS DE ACCESO Y USO
Capítulo 7
Conclusión
La Computación Ubicua permite integrar los dispositivos computacionales
y las nuevas tecnologías en el entorno personal, insertando dispositivos inteligentes en las tareas diarias, haciendo que interactúen de forma natural y
desinhibida en todo tipo de situaciones y circunstancias. Permiten así que los
usuarios puedan centrarse en las tareas que deben hacer, y no en las herramientas que deben usar.
El DW permite analizar y realizar preguntas sobre años, más que sobre
meses de información. Las aplicaciones de usuario final que acceden al DW
brindan a los gerentes la posibilidad de ver la información a diferentes niveles
de agregación y filtrar las consultas.
Los Sistemas de Bases de Datos Multiplataforma Integrados a Sistemas
Móviles no solo acceden a bases de datos, sino también pueden acceder a los
DW. La integración de un DW a la empresa representa una ventaja competitiva en el mundo de los negocios y acceder a ellos desde los dispositivos móviles
es una alternativa adicional importante.
48
CAPÍTULO 7. CONCLUSIÓN
Bibliografía
[1] “http://www.lawebdelprogramador.com”.
21/04/2010).
(Visita
realizada
el
[2] “http://www.sqlmax.com/dataw1.asp”. (Visita realizada el 20/04/2010).
[3] R. K. “The Data Warehouse Toolkit”. John Wiley-Sons (1996).
[4] L R M D L. “Sistemas Operativos”. UNNE (2004).
[5] M F, P-S . “Knowledge Discovery in Databases: an Overview”. AI Magazine (1992).
[6] M L C F"#. “Torturando a los Datos hasta que Confiesen”. UOC (2001).
[7] H A& S E( M R), B P V),. “Minería de datos Basada en Sistemas Inteligentes”.
(2005).
49
Índice alfabético
data mining, 3
arquitectura, 42
datos
informativos, 12
datos
operacionales, 11
DW, 5
características, 13
data warehouse, 2
Operaciones, 31
sistemas de soporte de decisiones,
9
ubicuidad, 1
WAP, 1
ETL, 33
herramientas de acceso y uso, 37
DM
data mining, 41
OLAP, 38
HOLAP, 40
modelo de datos, 23
modelo dimensional, 24
modelo relacional, 23
MOLAP, 38
OLAP, 2, 38
OLTP, 2, 12
OMA, 2
ROLAP, 38
SI
sistemas de información, 9
SSD
51
Descargar