Methodologies, techniques and tools for OLAP design: A Systematic

Anuncio
Methodologies, techniques and tools for OLAP
design: A Systematic Mapping Study
A. Cravero and S. Sepúlveda, IEEE Member
1
Abstract— The OLAP cubes allow to visualizing information
from a data warehouse to be analyzed by business executives. An
interesting research topic is the OLAP design because they must be
created according to the need of users, the context, how to process
queries, among other research topics. This paper presents a
systematic mapping study of methodologies, techniques and tools
for designing OLAP.
partir de un cubo OLAP.
Keywords— OLAP, designing, methodologies, techniques,
tools, systematic mapping.
U
I. INTRODUCCIÓN
Figura 1. Ejemplo de proceso para extraer información desde un AD.
N almacén de datos (AD) es una base de datos integrada
que proporciona información adecuada para apoyar la
toma de decisiones. Generalmente los componentes de un AD
se representan como una arquitectura multicapa (las fuentes de
datos, los procesos ETL o de Extraction-Transformation-Load,
el repositorio de datos, la personalización de datos y
herramientas de usuario final) en el que los datos de una capa
se deriva de los datos de la capa anterior [1]. Por lo tanto, los
AD son sistemas heterogéneos que requieren una buena
integración e interoperabilidad entre las diferentes capas [2].
Es importante destacar que, el repositorio y la personalización
de los datos están estrechamente relacionados entre sí, ya que
en el primero se define la estructura adecuada para almacenar
los datos, mientras que el segundo se define la estructura del
cubo de datos que las herramientas de usuario final emplearán
para acceder correctamente el AD.
El desarrollo de un AD se basa en el modelado
multidimensional (MD) [3, 4], que organiza los datos en
estructuras de análisis intuitivos, es decir, hechos que serán
analizados junto con un conjunto de dimensiones que los
contextualizan. Una vez que se define un MD conceptual, se
puede transformar en dos tipos de modelos lógicos: (i) un
modelo del repositorio de datos que determina la estructura
del AD, y (ii) un modelo de los cubos de datos que contiene lo
necesario para permitir que las herramientas de usuario final
puedan consultar dicho AD en un formato adecuado.
Por otro lado, el modelo de cubos de datos se crea
utilizando la tecnología OLAP o On-Line-AnalyticalProcessing, que permite representar la información del AD
como una tabla dinámica. Observamos un ejemplo de
representación en la Fig. 1. A la izquierda de la Figura se
representa el MD conceptual del AD que permitirá analizar las
ventas desde el punto de vista de los clientes, productos y
zonas. A la derecha, encontramos una tabla dinámica creada a
Sorprendentemente, la mayoría de los enfoques basados en
el MD, sólo se centran en la obtención del MD conceptual [57], con vistas a ello la derivación del modelo de cubos de
datos. Por lo tanto, la generación de cubo de datos, plantea
algunos interesantes retos para la investigación, porque la
estructura debe ser derivada junto con los metadatos de la base
de datos de una manera integrada, sin ninguna referencia a una
plataforma de software o tecnología específica [8]. En este
sentido, el problema de visualizar de manera eficiente los
conjuntos de datos multidimensionales producidos por las
tareas científicas y estadísticas / procesos es cada vez más
difícil, y está atrayendo la atención de una comunidad
multidisciplinaria amplia de investigadores y profesionales
[9].
Hasta el momento, no existe una estrategia común para el
diseño de los cubos OLAP. Pero en los últimos años, se han
propuesto diversos enfoques y técnicas que apoyan su diseño.
Es por ello que el objetivo de este artículo es ofrecer una
visión general de cómo algunas propuestas metodológicas y
técnicas son utilizadas para obtener el diseño de cubos OLAP,
sirviendo como punto de partida para futuras investigaciones.
La metodología utilizada para la selección de los trabajos
es el mapeo sistemático. El mapeo sistemático de estudios es
una metodología utilizada frecuentemente en la investigación
médica, la que ha sido adaptado para su uso en el área de TI
[10].
El documento se estructura de la siguiente manera. La
sección II presenta los conceptos básicos utilizados en el
trabajo. La sección III describe el proceso de selección de los
estudios. La sección IV describe el análisis de los estudios con
respecto a las propuestas para el diseño de cubos OLAP.
Finalmente, la sección V contiene las conclusiones.
II. CONCEPTOS BÁSICOS
1
A. Cravero, Universidad de La Frontera, Temuco,
,[email protected]
S. Sepúlveda, Universidad de La Frontera, Temuco, Chile,
[email protected]
Chile,
A. Almacenes de Datos
La definición clásica de un AD fue acuñada por Inmon [11]
como una colección de datos históricos, orientados por temas,
no volátiles, integrados, diseñados para apoyar el proceso de
toma de decisiones de una organización.
Más que una simple recopilación de datos, el AD surge de
un proceso definido en tres etapas: (i) extracción de datos de
distintas fuentes de datos, (ii) la transformación y carga de
datos de forma coherente en el AD, y (iii) el acceso a los datos
integrados de una manera eficiente y flexible. Las dos
primeras etapas forman parte del proceso conocido como ETL
que es la sigla en inglés de Extraction-Transformation-Load.
La tercera etapa permite convertir los datos en información
estratégica, apoyando la toma de decisiones en los niveles más
altos de una organización. Esta capacidad se apoya en la
herramienta OLAP [11], que proporciona a los usuarios
finales vistas configurables de los datos que contiene el AD,
desde diferentes ángulos y en diferentes niveles de agregación.
Para lograr consultas OLAP de manera rápida y flexible,
los datos están organizados en una forma multidimensional,
conocido como esquema estrella, donde la información se
clasifica de acuerdo a los hechos y dimensiones [3]. Los
hechos son los datos numéricos o de hecho que representa una
actividad industrial específica que se desea analizar. Las
dimensiones son las perspectivas individuales de los datos que
determina la granularidad (datos a nivel de detalle) que se
adopten para la representación de un hecho. Las unidades de
los hechos y sus valores se denominan medidas [11]. La Fig. 1
muestra un ejemplo del proceso completo, con un modelo
multidimensional del análisis de las ventas de un negocio, que
sería la tabla de hechos, y el contexto del análisis por medio
de las dimensiones: clientes, productos, proveedores y tiendas,
que posteriormente dan pie a los reportes derivados por medio
del OLAP.
B. On-Line-Analytical-Processing (OLAP)
Los sistemas OLAP son las herramientas front-end
predominantes que son utilizadas directamente por el usuario
final para formular consultas [12].
Por lo tanto, las herramientas OLAP se pueden utilizar para
visualizar eficazmente conjuntos de datos multidimensionales
y también apoyar la exploración interactiva de dichos
conjuntos de datos usando un amplio conjunto de operadores
[13], entre las que tenemos: (i) drill-down, que desciende en
una jerarquía de dimensión del cubo, aumentando el nivel de
detalle de la medida (y la disminución de su nivel de
abstracción); (ii) del roll-up, que es un revés de drill-down, se
utiliza para agregar la medida a un nivel más grueso de detalle
(y un mayor nivel de abstracción); (iii) pivot, que gira las
dimensiones del cubo, visualizando los datos de una manera
distinta.
Aparte de los servicios de visualización, OLAP también
ofrece soluciones muy eficientes mediante un amplio conjunto
de alternativas [9], según la cual los cubos de datos se
almacenan de distintas formas: (i) ROLAP (OLAP
Relacional), que hace uso del soporte de almacenamiento
proporcionado por los sistemas relacionales o RDBMS
convencionales (es decir, tablas relacionales almacenadas en
un motor de bases de datos); (ii) MOLAP (Multidimensional
OLAP), que emplea matrices multidimensionales equipadas
con estructuras de datos de indexación de alta eficiencia (es
decir, un archivo .cub que almacena todos los datos en una
planilla o tabla multidimensional); (iii) HOLAP (OLAP
híbrido), que combina las dos alternativas anteriores a través
de almacenar porciones del cubo sobre un soporte relacional, y
otras porciones sobre un soporte de matriz multidimensional.
Sin más detalles, vale la pena notar que la eficiencia de la
representación de datos tiene un gran impacto en la eficacia de
la visualización de datos y las actividades de exploración.
Existe una nueva categoría de ROLAP que permite definir
una plataforma visual construida especialmente para apoyar el
análisis espacio-temporal de una manera fácil y rápida. Es lo
que hoy se conoce como SOLAP (por sus siglas en inglés
Spatial OLAP) [14].
Por otro lado, en [15] Rizzi ha explicado los principales
temas de investigación para el diseño de sistemas OLAP, que
considera las preferencias de los usuario. Los temas los
clasifica en: (i) Modelo de Preferencia, en donde los usuarios
tienen la posibilidad de expresar sus preferencias en el nivel
de agregación de las consultas; (ii) Contexto-Conciencia,
donde se introduce la dependencia entre los deseos del usuario
y las condiciones particulares del sistema; (iii) Optimización
de Consultas, donde se busca mejorar el rendimiento de las
consultas en base a las preferencias de los usuarios; (iv)
Procesamiento de Consultas, donde se aplican técnicas de
optimización para enfrentar las diversas preferencias sobre los
niveles de agregación de una manera eficiente; e (v) Interfaz
de Usuario, donde se considera la forma de que los usuarios
puedan expresar sus preferencias a través de un front-end
OLAP.
C. Mapeo Sistemático de Estudios
La técnica de mapeo sistemático (systematic mapping)
define un proceso y una estructura de informe que permite
categorizar los resultados que han sido publicados hasta el
momento en un área determinada [16].
El objetivo de un mapeo sistemático está en la clasificación, y está por tanto dirigido al análisis temático y a la
identificación de los principales foros de publicación. Permite
responder preguntas genéricas como ¿Qué es lo que se ha
hecho hasta el momento en el campo X? Como limitación,
este tipo de estudios no toma en consideración la calidad de
los estudios incluidos.
El proceso de mapeo sistemático consiste en las siguientes
etapas: (i) definición de las preguntas de investigación, (ii)
ámbito de la revisión, (iii) ejecución de la búsqueda, (iv)
selección de estudios, (v) filtrado de estudios, (vi) clasificación, (vii) extracción de datos, (viii) y mapa sistemático
[16].
III. ACTIVIDADES DESARROLLADAS EN EL MAPEO
SISTEMÁTICO
De acuerdo al proceso de mapeo sistemático descrito
anteriormente, a continuación, se describe las actividades
realizadas en cada etapa que se llevó a cabo.
A. Definición de las preguntas de investigación:
Las siguientes Preguntas de Investigación (PI) se definieron
de acuerdo al objetivo planteado en este estudio y a lo
recomendadod por [17].
PI1: ¿Qué tipo de arquitectura de OLAP es la más
utilizada en las investigaciones (MOLAP, ROLAP, HOLAP o
SOLAP)?
PI2: ¿Qué tipo de contribución a la investigación existe
para el diseño de OLAP, si el uso de métodos, técnicas,
herramientas, o modelos?
PI3: ¿Qué ámbito es el más utilizado al momento de
aplicar la investigación, la academia o la industria?
PI4: ¿Cuáles son los principales temas de investigación
abordados?
PI5: ¿Cómo ha evolucionado la investigación sobre el
diseño de OLAP en los últimos años?
B. Ámbito de la revisión:
El alcance se definió de acuerdo a lo recomendado por [17],
como sigue: Población: Investigadores y profesionales que
diseñan cubos OLAP. Intervención: Cualquier estudio con
métodos, técnicas, modelos o herramientas, que son utilizadas
para diseñar cubos OLAP. Diseño del estudio: aplicaciones en
la industria o ejemplos académicos. Resultado: los tipos de
investigaciones abordados para diseñar cubos OLAP.
C. Ejecución de la búsqueda:
La estrategia de búsqueda consistió en expresiones
booleanas formadas por las siguientes palabras claves (en
inglés): data warehouse, OLAP, On-Line-AnalyticalProcessing, technique, tool, model, designing, las cuales se
generaron a partir de las preguntas creadas. Las cadenas de
búsqueda básicas se construyeron a partir de las palabras
claves mencionadas. Algunos de los términos fueron
desglosados en expresiones booleanas de tipo OR y AND,
formadas por los sinónimos, como por ejemplo: data
warehouse, data warehousing.
Por otro lado la selección de las fuentes de datos todas
fueron digitales. Se seleccionaron estas fuentes, ya que
incluyen motores de búsquedas y los artículos que ofrecen son
de calidad, además son accesibles vía web. Las fuentes donde
se aplicó la búsqueda fueron Google Scholar, IEEE Digital
Library, ACM Digital Library, ScienceDirect y Springer.
En IEEE se encontraron 689 trabajos, en ACM 523
trabajos, en ScienceDirect 409 y en Springer 705
respectivamente. En la tabla I se presenta un resumen de estos
resultados.
OLAP pero que no describe la forma de hacerlo (métodos,
técnicas, aproximaciones).
Para seleccionar los trabajos de investigación, en primera
instancia utilizamos el criterio de inclusión para hacer análisis
sobre el título, resumen y palabras claves, obteniendo de esta
manera el mayor número de trabajos que aportan
contribuciones significativas sobre el diseño de cubos OLAP.
En segunda instancia utilizamos el criterio de exclusión donde
nos centramos principalmente en el resumen, introducción y
conclusiones, analizando un poco más aquellos trabajos que lo
requerían para asegurarnos realmente de que eran relevantes
para el campo de estudio.
E. Filtrado de estudios:
El proceso de selección consta de tres etapas realizadas
secuencialmente por cuatro revisores (los dos investigadores y
dos colaboradores). En la primera etapa, cada revisor aplicó
los criterios de inclusión y exclusión para el título, resumen y
palabras clave por 10 trabajos seleccionadas de forma
aleatoria. Como medio de validación de concordancia entre
los investigadores se aplicó el índice Kappa de Fleiss
propuesto por [18], obteniendo una fiabilidad del 79%. En la
siguiente etapa, cada revisor aplicó los mismos criterios a un
conjunto de artículos que se le asignó, que ahora incluye la
introducción y la conclusión, obtenido un conjunto de trabajos
candidatos (ver segunda fila de la tabla I). En la tercera etapa,
fueron analizados los trabajos candidatos. De esta manera se
obtuvo un total de 33 trabajos pertinentes para el mapeo (ver
tercera fila de la tabla I).
TABLA I. RESULTADOS DE LA BÚSQUEDA Y FILTRADO.
Motor de Búsqueda
Resultados de la
689
búsqueda
Candidatos
205
Trabajos seleccionados 9
ACM
523
ScienceDirect Springer Schoolar
Google
409
705
1000
304
8
106
4
268
12
697
33
F. Esquema de clasificación:
Una vez seleccionadas las publicaciones relevantes se
definieron, en base a los objetivos del estudio, seis tipos de
clasificaciones:
•
•
D. Selección de estudios:
La selección de los estudios se ha formulado basada en los
siguientes criterios de inclusión/exclusión.
Inclusión: trabajos de investigación que provienen de
revistas y congresos y que describan el diseño
multidimensional de un cubo OLAP mediante técnicas,
aproximaciones, metodologías y/o herramientas.
Exclusión: (i) Tesis, documentos, y trabajos que tratan
sobre el uso de cubos OLAP, en cualquiera de sus temas de
interés, y (ii) trabajos que se centran en el diseño de un cubo
IEEE
•
Tipo Artículo: si el trabajo fue publicado en una revista
o en un congreso.
Tipo de contribución: el aporte que realiza la
investigación al área, que puede ser una metodología,
modelo, técnica o herramienta. Metodología incluye
descripciones y procedimientos a seguir para realizar el
diseño multidimensional de un cubo OLAP. Modelado
se refiere a trabajos que solo describen el resultado del
diseño de cubos OLAP en base a un esquema. Técnica
se refiere a recursos o habilidades utilizadas para el
diseño de OLAP. Herramienta se refiere a cualquier
tipo de herramienta o software que ayude en el proceso
de diseñar un cubo OLAP.
Ámbito de aplicación: el área donde se desarrolla la
investigación, o donde apuntan los autores para aplicar
•
•
su investigación, que puede ser la academia o la
industria. Academia, esta clasificación es para aquellas
publicaciones que dirigen su esfuerzo en realizar
nuevas investigaciones y/o desarrollo de nuevas ideas.
Industria, en este estudio esta clasificación corresponde
a los trabajos que aplican su investigación en alguna
organización (con o sin fines de lucro).
Tipo de arquitectura: en base a la clasificación de
arquitecturas para OLAP [9], que puede ser ROLAP,
MOLAP, HOLAP o SOLAP.
Tipo de investigación: son las definidas por Rizzi en
[15], que pueden ser: modelo de preferencia, contextoconciencia, optimización de consultas, procesamiento
de consultas y la interfaz. En esta categoría hemos
agregado tres categorías más, que son: seguridad,
almacenamiento y modelado, ya que nos encontramos
con varios trabajos que no se pueden clasificar de
acuerdo a lo indicado por Rizzi. Seguridad la
utilizaremos para aquellos estudios que mencionan
aspectos de seguridad al momento de diseñar los cubos
•
OLAP. Almacenamiento para aquello trabajos que
describen la forma de almacenar el cubo OLAP
diseñado. Modelado para los trabajos que solo
muestran el tipo de modelo que se obtiene cuando
diseñan cubos OLAP.
Modelo: son los tipos de modelados que utilizan, por
ejemplo UML, wBTG, y modelo relacional. Hemos
agregado una categoría llamada propios que usaremos
cuando el artículo no mencione el tipo de modelo que
utiliza. UML (Unified Modeling Language por sus
siglas en inglés) es un estándar de la OMG [19] para
modelar clases de objetos. wBTG (weak better-than
graph por sus siglas en inglés) es una representación
gráfica para las relaciones de dominación entre los
hechos permitiendo grupos de clases de equivalencia
[20]. Modelo relacional es el típico modelo de bases de
datos que son almacenados en motores relacionales.
La Fig. 2 presenta el esquema de clasificación completo.
Figura 2. Esquema de clasificación.
Figura 3. Diagrama de burbuja. Visualización mapeo sistemático según el tipo de investigación y tipo de aplicación.
G. Extracción de datos y Mapeo Sistemático:
Tras definir el esquema de clasificación, el último paso del
mapeo sistemático consiste en la extracción de datos y el
proceso de mapeo de las distintas dimensiones. El resultado
completo de esta actividad se muestra en la siguiente sección.
El resultado sintetizado de nuestro estudio se puede observar
de manera gráfica en el diagrama de burbuja de la Fig. 3.
Las Figs. 3 y 4 ilustran básicamente dos diagramas de
dispersión XY con burbujas en las intersecciones de categoría,
que permite tener en cuenta varias categorías al mismo tiempo
y da una visión general rápida de un campo de estudio,
proporcionando un mapa visual. En esta visualización de los
resultados, el tamaño de una burbuja es proporcional al
número de artículos que están en el par de categorías que
correspondan a la burbuja de las coordenadas.
El la Fig. 3 se puede observar la distribución de los trabajos
por tipo de investigación, y por tipo de aplicación, versus el
tipo de arquitectura. De igual forma, en la Fig. 4 se puede
observar la distribución de trabajos por tipo de artículo, y por
tipo de contribución, versus el tipo de arquitectura.
IV. ANÁLISIS COMPARATIVO Y DISCUSIÓN.
A continuación damos respuesta a las preguntas de
investigación formuladas en la sección III a través de los
resultados obtenidos.
A. PI1: ¿Qué tipo de arquitectura de OLAP es la más
utilizada en las investigaciones, MOLAP, ROLAP,
HOLAP o SOLAP?
Del total de trabajos revisados, se obtuvo que el 51% de los
trabajos se enfocaron en ROLAP, versus un 39% de MOLAP,
un 0% de HOLAP, y un 10% en SOLAP. La mayor presencia
es para la arquitectura ROLAP, que puede explicarse porque
estas presentan mayor flexibilidad, extensibilidad y adaptación
a elementos de datos inesperados y a nuevas decisiones de
diseño [20]. Este mismo autor también sostiene que existen
modificaciones que se pueden realizar sobre un modelo
dimensional relacional pero que no pueden aplicarse a un MD,
como por ejemplo, adicionar hechos no previstos, adicionar
dimensiones nuevas, adicionar atributos a las dimensiones
existentes y adicionar nuevas tablas de hechos, entre otras.
Esta versatilidad lo hace más atractivo para la investigación y
aplicación que MOLAP, el cual es una solución adecuada para
casos con información proveniente de la base de datos local.
El uso de HOLAP puede entenderse dado que al mezclar
ROLAP y MOLAP, presenta beneficios de ambas arquitecturas, pero aun así no es muy popular en la investigación
según los estudios revisados.
Los resultados pueden observarse en forma gráfica a
continuación:
Figura 4. Diagrama de burbuja. Visualización mapeo sistemático según el tipo
de contribución y tipo artículo.
La Fig. 5 presenta la cantidad de artículos encontrados de
acuerdo a la clasificación Tipo Modelo.
Figura 6. Gráfico cantidad de trabajos para la clasificación tipo arquitectura.
B. PI2: ¿Qué tipo de contribución a la investigación existe
para el diseño de OLAP, si el uso de métodos, técnicas,
herramientas, o modelos?
Figura 5. Gráfico cantidad de trabajos para la clasificación tipo modelo.
En la siguiente sección se describe el análisis de los
trabajos seleccionados.
Desde la Fig. 4 podemos extraer la siguiente información.
Un 48% de los artículos contribuyen con métodos para el
diseño de cubos OLAP, un 18% aplica alguna técnica para el
diseño, un 30% explica cómo crear un modelo, y un 3%
contribuye con herramientas. La Fig. 7 presenta un gráfico con
la cantidad de trabajos por tipo de contribución.
Para el caso de las metodologías, podemos observar que
indistintamente utilizan la arquitectura ROLAP y MOLAP.
Sólo 2 métodos son para el caso particular de SOLAP. Esto
puede deberse a que el objetivo de la mayoría de los estudios
es el diseño y no la implementación, y por lo tanto, no
importará en qué tipo de arquitectura se implemente.
Con los datos presentados en la Fig. 4, podemos inferir que
el diseño de cubos OLAP es un área de investigación que aún
no madura, ya que sólo encontramos 1 artículo que describe el
desarrollo de un prototipo. Sin embargo el uso de herramientas
para visualizar cubos OLAP existe desde hace varias décadas
[12].
Figura 7. Gráfico cantidad de trabajos para la clasificación tipo contribución.
C. PI3: ¿Qué ámbito es el más utilizado al momento de
aplicar la investigación, la academia o la industria?
Sin lugar a dudas, la Fig. 3 nos presenta esta información.
Un 88% de los trabajos presenta casos de estudios o ejemplos
académicos, y solo un 12% describen situaciones aplicadas en
la empresa o industria. Esto demuestra el bajo nivel de
madurez de los trabajos, ya que la gran mayoría de las
metodologías y técnicas propuestas no han sido validadas en
la industria.
D. PI4: ¿Cuáles son los principales temas de investigación
abordados?
De acuerdo a Rizzi [15], hemos clasificado los temas o
áreas por Tipo de Investigación (ver Fig. 2), según lo descrito
en la sección II.B y III.F.
Después de analizar los artículos seleccionados, hemos
incorporado la cantidad de ellos en el mapa de la Fig. 3. Ésta
figura, muestra que los temas de investigación mayormente
abordados son: Modelo Preferencia, Contexto y Procesamiento de Consultas. Es interesante descubrir que la mayor
preocupación de los investigadores es obtener un diseño de
cubos OLAP que sea acorde a las necesidades de análisis de
los usuarios, a las condiciones particulares de los sistemas, y a
la eficiencia para obtener dicha información.
Por otro lado, los temas de investigación menormente
abordados son Optimización de Consultas, Interfaz, Seguridad, Almacenamiento y Modelado. Esto puede deberse a que
son del tipo de problema técnicos que se debe resolver, por lo
que queda en Segundo plano.
Así podemos decir que, en términos de investigación, es
más valorado obtener un diseño de cubo correcto y eficiente,
que disponer de una buena interfaz, seguridad y almacenamiento.
E. PI5: ¿Cómo ha evolucionado la investigación sobre el
diseño de OLAP en los últimos años?
Esta pregunta la responderemos por tema de investigación
clasificado en el mapa de la Fig. 3.
Modelo Preferencia: Podemos observar en la Fig. 8, que
este tema de investigación se inició el año 2000, sin embargo,
no hubo avances significativos hasta el año 2008, en donde se
retoma este tema. Observamos que el tema ha tomado
relevancia para los investigadores ya que aparecen 4 publicaciones para el año 2004.
Figura 8. Diagrama de burbuja. Visualización mapeo sistemático según el tipo de investigación por año de publicación.
Esto puede deberse a que el tema de modelado con respecto
a las preferencias y necesidades de los usuarios también ha
tomado relevancia para el diseño de almacenes de datos en
general [2].
Contexto: Este tema de investigación se ha abordado desde
el año 2004 hasta el 2013. Es muy probable que se tengan
publicaciones de manera constante para los próximos años,
debido a que considerar el deseo de los usuarios es una de las
preocupaciones latentes entre los investigadores [2, 5-6].
Optimización de Consultas: Encontramos muy pocos
trabajos que describen el diseño de OLAP desde el punto de
vista de la optimización de consultas. Prácticamente encontramos un artículo para cada uno de los años 2005, 2008 y
2010. No encontramos trabajos recientes.
Procesamiento Consultas: Muy parecido al caso anterior,
pero con un artículo recientemente publicado el año 2014.
Podemos destacar el año 2009 en el que se publican 3 trabajos.
Esto puede deberse a que desde el año 2007 hubo una mayor
preocupación por garantizar que los AD almacenen información más confiable en los distintos niveles de agregación [9].
Interfaz: De la Fig. 8 observamos que existe poca
preocupación por este tema. Sólo encontramos 2 trabajos
relacionados con el diseño de OLAP y la interfaz que permita
ello, pero no son recientes.
Seguridad: Hemos encontrado sólo un artículo publicado
el año 2014. Pensamos que éste es un tema a futuro, por lo que
debiera aparecer una mayor cantidad de artículos los próximos
años.
Almacenamiento: Se aborda a partir del año 2010. Pero
aún existen pocos trabajos publicados. Creemos que también
será trabajo futuro, debido a que las condiciones de almacenamiento de los datos, define también el diseño de OLAP
que se pueda conseguir.
Modelado: El modelado es un tema de investigación que se
ha aplicado hace pocos años en el área de AD en general, por
ello encontramos artículos sólo en los años 2010 y 2013.
También es trabajo futuro.
potencialidades, aplicándose también en otras áreas de estudio
como las bases de datos espaciales SOLAP.
Finalmente, creemos que en la próxima década tomará
especial importancia otros temas provenientes desde la
ingeniería de software, como son la trazabilidad, la
documentación, la gestión de conflictos, entre otros.
AGRADECIMIENTOS
Este trabajo ha sido financiado por la Universidad de La
Frontera a través del proyecto DIUFRO DI14-0073.
REFERENCIAS
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
V. CONCLUSIONES.
Se ha realizado un mapeo sistemático de estudios sobre
metodologías, técnicas, modelado y herramientas para el
diseño de cubos OLAP, que presenta una visión global de la
investigación disponible en este ámbito, lo que permite
formular nuevos trabajos de investigación, y determinar los
temas más y menos explotados del área.
Para ello, se formularon 5 preguntas que fueron
respondidas utilizando distintas clasificaciones de los estudios.
Un tema interesante analizado en este trabajo es la
evolución de la investigación a través de los años. Los
resultados muestran que desde la segunda mitad del período
que abarcan las publicaciones revisadas, ha aumentado
considerablemente tanto el número de modelos como
investigaciones que esbozan diseños de OLAP para su
implementación. Esto hace creer que OLAP aún es un tema
vigente y en constante desarrollo dentro del campo de
desarrollo de la informática, por la importancia que tienen las
herramientas de inteligencia de negocios en la toma de
decisiones en las empresas hoy en día, y las oportunidades que
ofrece OLAP dentro de estas alternativas. Además, el estudio
muestra que más allá de ofrecer nuevas metodologías o
modelos para OLAP clásico, los trabajos más recientes han
agregado elementos nuevos al diseño de OLAP, como el
almacenamiento y seguridad, con el fin de mejorar sus
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
M. Lenzerini, Y. Vassiliou, P. Vassiliadis, and M. Jarke,
"Fundamentals of data warehouses," Springer Science \& Business
Media, 2003.
J. Pardillo, J.-N. Mazón, and J. Trujillo, "Towards the Automatic
Generation of Analytical End-User Tools Metadata for Data
Warehouses," Sharing Data, Information and Knowledge, pp. 203-206, 2008.
R. Kimball and M. Ross, "The Data Warehouse Toolkit, second
edition, John Wiley & Sons.," 2002.
W. Inmon, "Building the Data Warehouse.," 2005.
A. Abelló, J. Samos, and F. Saltor, "YAM2: a multidimensional
conceptual model extending UML," Information Systems, vol. 1, nº. 6,
pp. 541--567, 2006.
M. Golfarelli, D. Maio, and S. Rizzi, "The dimensional fact model: a
conceptual model for data warehouses," International Journal of
Cooperative Information Systems, vol. 7, pp. 215--247, 1998.
B. Hüsemann, J. Lechtenbörger, and G. Vossen, "Conceptual Data
Warehouse Modeling. In M. A. Jeusfeld, H. Shu, M. Staudt, G. Vossen
(Eds.)," Proceedings of 2nd International Workshop on Design and
Management of Data Warehouses., pp. 6, 2000.
J. Pardillo, J.-N. Mazón, and J. Trujillo, "Model-driven metadata for
OLAP cubes from the conceptual modelling of data warehouses," Data
Warehousing and Knowledge Discovery, pp. 13--22, 2008.
A. a. M. Cuzzocrea, Svetlana, "Olap visualization: models, issues, and
techniques," Encyclopedia of Data Warehousing and Mining, pp.
1439--1446, 2009.
B. Kitchenham, T. Dyba, and M. Jorgensen, "Evidence-based software
engineering," Proceedings of the 26th international conference on
software engineering, pp. 273--281, 2004.
W. Inmon, "Building the Data Warehouse. (2nd ed.)," 1996.
S. Sarawagi, R. Agrawal, and N. Megiddo, "Discovery-driven
exploration of OLAP data cubes," Springer, 1998.
E. Thomsen, "OLAP solutions: building multidimensional information
systems," John Wiley \& Sons, 2002.
E. Edoh-Alove, S. Bimonte, and Y. Bedard, "A New Design Method
for Managing Spatial Vagueness in Classical Relational Spatial OLAP
Architectures," Computational Science and Its Applications--ICCSA
2014, pp. 774--786, 2014.
S. Rizzi, "OLAP preferences: a research agenda," Proceedings of the
ACM tenth international workshop on Data warehousing and OLAP,
pp. 99--100, 2007.
K. Petersen, R. Feldt, S. Mujtaba, and M. Mattsson, "Systematic
mapping studies in software engineering," EASE'08 Proceedings of the
12th international conference on Evaluation and Assessment in
Software Engineering. British Computer Society Swinton., pp. 68-77,
2008.
B. Kitchenham and S. Charters, "Guidelines for performing systematic
literature reviews in software engineering," Thechnical Report
EBSE´07, 2007.
K. Gwet, "Inter-rater reliability: dependency on trait prevalence and
marginal homogeneity," Statistical Methods for Inter-Rater Reliability
Assessment Series, vol. 2, pp. 1-9, 2002.
UML and OMG, "Unified Modeling Language," Infrastructure
Specification, version, vol. 2, nº. 1, 2007.
M. Golfarelli and S. Rizzi, "Preferences on OLAP Datacubes," DEIS,
University of Bologna, Viale Risorgimento, vol. 2, 2008.
Ania Cravero es Ingeniera Civil Industrial m. Informática
(1997), por la Universidad de La Frontera, Temuco, Chile.
Obtuvo su Doctorado en Cs. de la Computación y Sistemas
Informáticos por la Atlantic International University, EE.UU
(2010). Se desempeña como Académico en el Departamento
de Ciencias de Computación e Informática, e investigadora
en el Centro de Estudios en Ingeniería de Software, Universidad de La
Frontera. Sus intereses de investigación están en el área de Modelado Bases
de Datos, Almacenes de Datos y Alineamiento de Objetivos.
Samuel Sepúlveda Ing. Civil Industrial m. Informática
(1999), por la Universidad de La Frontera, Temuco, Chile.
Actualmente postula al grado de Doctor en Aplicaciones de la
Informática por la Universidad de Alicante, España. Se
desempeña como Académico en el Dpto. de Ciencias de
Computación e Informática, e investigador en el Centro de Estudios en
Ingeniería de Software, Universidad de La Frontera. Sus intereses de
investigación están en el área de Ingeniería de Requerimientos, Modelado de
Líneas de Productos de Software y estudios secundarios aplicados en
Ingeniería de Software.
Descargar