Data Warehouse Definición.

Anuncio
Data Warehouse
Definición.
Data warehouse es una colección de información recopiladas de múltiples base de datos operacionales. Data
warehouse provee una plataforma sólida de datos integrados e históricos de los cuales se puede sacar un
análisis. Otra definición podría ser que se encarga de organizar y almacenar los datos necesarios para los
procesos de información y análisis en un tiempo histórico.
Usualmente son construída para almacenar grandes cantidades de información recolectada de diferentes
fuentes operacionales. Por ejemplo: una empresa quiere determinar si la causa de la baja de los precios de su
producto fue causada por la cantidad de vendedores que tomaron vacaciones. Para poder encontrar la
respuesta, el data warehouse necesita contener información tanto de la base de dato del producto, como de la
base de dato del personal de la empresa. De aquí que se diga que el data warehouse se utilice para examinar
problemas o posibles problemas y determinar su causa.
Características.
Data warehouse tiene cuatro características genereles que la definen como tal:
• Subject−oriented (orientada a un tema): el diseño del warehouse está orientado en cuanto temas globales.
Esta cualidad contrasta con el clásico método que era orientado al proceso y funcionamiento de las
aplicaciones utilizados en sistemas operacionales más antiguos. En estos sistemas los datos giraban en torno
a las aplicaciones o funciones como: préstamos, ahorros, etc. En el warehouse, los datos giran alrededor de
temas globales como: vendedores, clientes, productos, etc.
• Integrada: los datos necesitan ser almacenados en el data warehouse de una forma globalmente aceptable y
singular, aunque el programa operacional los almacene de una forma distinta. Los datos deben de ser
consistentes siempre dentro del data ware house. Por ejemplo :
• Código: al introducir una información, ésta debe llegar al data ware house de una forma consistente
independientemente de cómo fue introducido en el programa de aplicación.
• Medidas de atributos: independientemente de cual sea la medida utilizada (por ejemplo: centímetros,
metro, yardas, pulgadas), al ser almacenados los datos en el data warehouse deben tener una misma medida.
• Variación de tiempo: las características de los datos contenidos en el warehouse son distinto a aquellos en
el ambiente operacional. En el ambiente operacional, al momento de accesar los datos éstos son exactos a
aquellos que se espera recibir. Sin embargo, en el warehouse, los datos son exactos en algún momento del
tiempo. Las variantes del tiempo se pueden notar de tres formas:
• Límite de tiempo: el margen de tiempo del warehouse es mucho mayor en cuanto a los datos (puede
contener datos entre 5 y 10 años de almacenamiento). Por otro lado, en el ambiente operacional, el margen
de tiempo de almacenamiento de los datos es mucho menor por lo que la información que se accesa es
mucho más fresca (60− 90 días); ya que un programa de aplicación para trabajar eficientemente debe llevar
la mínima cantidad de data necesaria para realizar las transacciones.
• Clave de estructura (key structure): los datos en el warehouse contienen un elemento de tiempo (día,
semana, mes, año, etc.).
• Actualizaciones: los datos una vez almacenados correctamente en el warehouse no se puden ser alterados,
por lo tanto no se pueden actualizar.
• No volátil: la manipulación de datos en el warehouse es mucho más simple. Sólo existen dos tipos de
operaciones que se llevan a cabo en el warehouse: cuando se cargan inicialmente los datos y cuando se
accesan.
Componentes.
1
Los diferentes componentes del warehouse son:
• Datos actualmente detallados (current detail data): es una de las informaciones más concerniente ya que
refleja y detalla los acontecimientos más recientes dentro del warehouse. También los datos son
almacenados en discos de almacenamiento, por lo que los datos pueden ser accesados más rápidamente.
• Datos anteriormente detallados (Older detail data): son datos almacenados de alguna forma masiva.
Usualmente no se almacena en discos de almacenamiento ya que son grandes volúmenes de datos que son
accesados infrecuentemente.
• Datos ligeramente resumidos (lightly summarized data): son datos filtrados o resumidos que se encuentran
en los datos actualmente detallados. Debe incluír los atributos y unidad de tiempo en la cual debe ser
realizada.
• Datos sumamente resumidos (highly summarised data): son datos compactos y de fácil acceso.
• Datos meta (meta data): son datos que no son directamente tomados del ambiente operacional. Se usa como
directorio para ayudar a localizar al analista el contenido del warehouse. También como una guía de cómo
los datos son transformados desde el ambiente operacional hasta el ambiente del warehouse. Finalmente,
como una guía para los algoritmos utilizados para el resumen entre los diferentes datos (actualmente
detallados, ligeramente resumidos etc.).
Ventajas.
• Reducción en tiempos de consultas: por parte de los usuarios, se reduce considerablemente el tiempo
de espera.
• Apoyo a las tomas de desiciones: proporciona un resumen de la información lo cual ayuda a los
empresarios a tener una base para tomar decisiones en cuento a lo que su empresa requiere.
• Acceso a cualquier base de datos: soporta el acceso a múltiples bases de datos por lo que se puede
obtener información variada y necesaria desde un mismo punto de origen.
• Acceso directo, fácil y económico a todos los datos de la empresa.
• Los logros son evidentes: en una empresa que utilice data warehouse va a existir una mayor
productividad por las decisiones correctas tomadas a partir de los informes obtenidos del warehouse
en un tiempo más corto.
Highly
summarized
Slightly
Summarized
Current
detail data
Older
detail data
D
a
t
2
a
M
e
t
a
3
Descargar