Data Warehouse ¿Qué es Data Warehousing?

Anuncio
Data Warehouse
¿Qué es Data Warehousing?
En la actualidad hay una importante cantidad de confusión respecto a lo que es un Data Warehouse que,
afortunadamente, está comenzando a despejarse. No obstante, parece que cada proveedor de un producto o
servicio relacionado con tecnología informática tiene su definición y, lo que es peor, en su propia jerga no
siempre comprensible.
Algunos llaman a Datawahouse Business Intelligence or Decision Support en realidad es considerada la
solución integral y oportuna para desarrollar negocio el Datawarehouse se caracteriza por ser:
Integrado − Temático − Histórico − No volatil
Definición :
Es un proceso, no un producto. Es una técnica para consolidar y administrar datos de variadas fuentes con el
propósito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta
ahora.
Consolidar datos desde una variedad de fuentes. Dentro del marco conceptual de Data Warehousing los
agruparemos dentro del proceso de Transformación de Datos.
Manejar grandes volúmenes de datos de una forma que no era posible, o no era costo efectiva. A estos medios
los agruparemos en Procesamiento y Administración de Datos.
Acceder a los datos de una forma más directa, en "el lenguaje del negocio", y analizarlos para obtener
relaciones complejas entre los mismos. Estos procesos se engloban en dos categorías que serán explicadas
más adelante: Acceso a los Datos y Descubrimiento o Data Mining.
Estos desarrollos tecnológicos, correctamente organizados e interrelacionados, constituyen lo que se ha dado
en llamar un Data Warehouse o Bodega de Datos. Veamos un poco más en detalle los grupos mencionados.
Existen muchas definiciones para el DW, la más conocida fue propuesta por Inmon[MicroSt96] (considerado
el padre de las Bases de Datos) en 1992: "Un DW es una colección de datos orientados a temas, integrados,
no−volátiles y variante en el tiempo, organizados para soportar necesidades empresariales". En 1993, Susan
Osterfeldt[MicroSt96] publica una definición que sin duda acierta en la clave del DW: "Yo considero al DW
como algo que provee dos beneficios empresariales reales: Integración y Acceso de datos. DW elimina una
gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional
clásico".
Data Mining
En este sentido un sistema Datamining es una tecnología de soporte para usuario final, cuyo objetivo es
extraer conocimiento útil y utilizable a partir de la información contenida en las bases de datos de las
empresas.
Los objetivos de un sistema Datamining nos permitiría analizar factores de influencia en determinados
procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar ítems similares, además
de obtener secuencias de eventos que provocan comportamientos específicos.
1
Los sistemas Datamining se desarrollan bajo lenguajes de ultima generación basados en la inteligencia
artificial y utilizando métodos matemáticos, tales como:
• Redes euronales
• Introducción de reglas
• Arboles de decisión
• Conjunto de reglas por clase
Soporta tambien sofisticadas operaciones de análisis tales como los sistemas Scoring y aplicaciones de
detección de fraude.
Data Marts.
Es un pequeños Data Warehouse, para un determinado numero de usuarios, para un arrea funcional, especifica
de la compañía. También podemos definir que un Data Martes es un subconjunto de una bodega de datos para
un propósito especifico.
Su función es apoyar a otros sistemas para la toma de decisiones.
Los procesos que conforma el datawarehouse son:
1−Extraccion
2−Elaboración
3−Carga
4−Explotacion
Componentes del Data Warehouse Impactos DW
El éxito de DW no está en su construcción, sino en usarlo para mejorar procesos empresariales, operaciones y
decisiones. Posesionar un DW para que sea usado efectivamente, requiere entender los impactos de
implementación en los siguientes ámbitos:
Diagrama de Funcionamiento
2
¿Cómo trabaja el Data Warehouse?
• Extrae la información operacional.
• Transforma la operación a formatos consistentes.
• Automatiza las tareas de la información para prepararla a un análisis eficiente.
¿En quê podemos usarlo?
• Manejo de relaciones de marketing.
• Análisis de rentabilidad.
• Reducción de costos.
Busines Intelligence se ha vuelto una necesidad en el vertiginoso ritmo del ambiente de negocios actual. Los
negocios necesitan aprovechar las posibilidades que les ofrece la actual tecnología para permanecer
competitivos y rentables.
OLAP
Es un sinónimo de base de datos multidimensional mediante las cuales se proveen una tecnología para el
cálculo y análisis requerido por las aplicaciones analíticas para el "Bussines Intellingence", las bases de datos
relacionadas están formadas por un conjunto de registros. Cada registro contiene la información organizada en
campos.
El OLAP describe la tecnología asociada al acceso y análisis de datos en líneas.
Sistemas De Data Warehouse Y Oltp
3
Una base de datos para soportar procesos transaccionales en línea (OLTP), puede no ser adecuada para el Data
Warehouse ya que ha sido diseñada para maximizar la capacidad transaccional de sus datos y tipicamente
tiene cientos de tablas la gran mayoría normalizadas. Su diseño también ha sido condicionado por los
procesos operacionales que deberá soportar para la óptima actualización de sus datos, normalmente muchas de
sus tablas en constantes y continuos cambios. Los sistemas Data Warehouse están orientados a procesos de
consultas en contraposición con los procesos transaccionales.
OLTPData Warehouse Propósito Ejecuta operaciones transaccionales diariamente Consultas y análisis para la
obtención de información Estructura Sistemas de bases de datos relacionales Normalmente sistemas de bases
de datos relacionalesModelo de datos Normalizado Muchas de sus tablas pueden no estar normalizadas se
admite redundancia en los datos. Bases de datos multidimensionales.Acceso SQL SQL más extensiones
especiales dependientes de las herramientas de explotación de datos (Data Mining)
No obstante, el SQL estándar puede ser suficiente en manos de personal experto.Tipo de datosLos datos están
orientados a la gestión de los negociosLos datos están orientados al análisis de los negocios.
Transforman los datos en información para su análisis. Perdurabilidad Los datos cambian constantemente,
vistos globalmente en procesos de reporting sofisticados pueden perder consistencia, o bien, para no perder
consistencia deben imponerse mecanismos de bloqueo de datos con un elevado consumo de recursos globales
del sistema.Datos históricos con referencias temporales no sujetos a modificaciones.
Características
De acuerdo con Bill Inmon, autor de Building the Data Warehouse Construyendo el almacén de datos,
ampliamante reconocido como el gurú creador del concepto data warehousing, existen generalmente cuatro
características que describen un almaceén de datos:
1.orientado al sujeto:
Los datos se organizan de acuerdo al sujeto en vez de la aplicación, por ejemplo, una compañia de seguros
usando un almacén de datos podría organizar sus datos por cliente, premios, y reclamaciones, en lugar de por
diferentes productos (automóviles, vida, etc.). Los datos organizados por sujetos contienen solo la
información necesaria para los procesos de soporte para la toma de decisiones.
2.integrados:
Cuando los datos residen en muchas aplicaciones separados por los distintos entornos operacionales, la
descodificación de los datos es a menudo inconsistente. Por ejemplo, en una aplicación, la palabra gender
podría codificarse como "m" y "f" en otra como "0" y "1". cuando los datos fluyen de un entorno operacional
a un entorno de almaceén de datos o de data warehouse, ellos asumen una codificación consistente, por
ejemplo gender siempre se transformaría a "m" y "f".
3.variación−temporal:
El almaceén de datos contiene un lugar para guardar datos con una antiguedad de 5 a diez años, o incluso más
antiguos, para poder ser usados en comparaciones, tendencias y previsiones. Estos datos no se modificarán.
4. No son inestables:
Los datos no serán modificados o cambiados de ninguna manera una vez ellos han sido introducidos en el
almacén de datos, solamente podrán ser cargados, leidos y/o accedidos.
4
Diferencias: Data Warehouse vs. OLTP
Los sistemas tradicionales de transacciones y las aplicaciones de Data Warehousing son polos opuestos en
cuanto a sus requerimientos de diseño y sus características de operación. Es de suma importancia comprender
perfectamente estas diferencias para evitar caer en el diseño de un Data Warehouse como si fuera una
aplicación de transacciones en línea (OLTP).
Las aplicaciones de OLTP están organizadas para ejecutar las transacciones para los cuales fueron hechos,
como por ejemplo: mover dinero entre cuentas, un cargo o abono, una devolución de inventario, etc. Por otro
lado, un Data Warehouse está organizado en base a conceptos, como por ejemplo: clientes, facturas,
productos, etc.
Otra diferencia radica en el número de usuarios. Normalmente, el número de usuarios de un Data Warehouse
es menor al de un OLTP. Es común encontrar que los sistemas transaccionales son accesados por cientos de
usuarios simultáneamente, mientras que los Data Warehouse sólo por decenas. Los sistemas de OLTP realizan
cientos de transacciones por segundo mientras que una sola consulta de un Data Warehouse puede tomar
minutos. Otro factor es que frecuentemente los sistemas transaccionales son menores en tamaño a los Data
Warehouses, esto es debido a que un Data Warehouse puede estar formado por información de varios
OLTP´s.
Existen también diferencia en el diseño, mientras que el de un OLPT es extremadamente normalizado, el de
un Data Warehouse tiende a ser desnormalizado. El OLTP normalmente está formado por un número mayor
de tablas, cada una con pocas columnas, mientras que en un Data Warehouse el número de tablas es menor,
pero cada una de éstas tiende a ser mayor en número de columnas.
Los OLTP son continuamente actualizados por los sistemas operacionales del día con día, mientras que los
Data Warehouse son actualizados en batch de manera periódica.
5
Las estructuras de los OLTP son muy estables, rara vez cambian, mientras las de los Data Warehouses sufren
cambios constantes derivados de su evolución. Esto se debe a que los tipos de consultas a los cuales están
sujetos son muy variados y es imposible preverlos todos de antemano.
RRHH: la gente necesita contar con un enfoque fuerte sobre el conocimiento del área de la empresa y de los
procesos empresariales. Además es muy importante considerar las cualidades de la gente, ya que el desarrollo
del DW requiere participación de la gente de negocios como de los especialistas tecnológicos; estos dos
grupos de gente deben trabajar juntos, compartiendo su conocimiento y destrezas en un espíritu de equipo de
trabajo, para enfrentar los desafíos de desarrollo del DW.
Tiempo: Se debe establecer el tiempo no tan solo para la construcción y entrega de resultados del DW, sino
también para la planeación del proyecto y la definición de la arquitectura. La planeación y la arquitectura,
establecen un marco de referencia y un conjunto de estándares que son críticos para la eficacia del DW.
Tecnología: Muchas tecnologías nuevas son introducidas por el DW. El costo de la nueva tecnología puede
ser tan sólo la inversión inicial del proyecto.
Evolutivos: ajustes continuos del DW a través del tiempo, como cambios de expectativas y, cambios producto
del aprendizaje del RRHH del proyecto mediante su experiencia usando el DW.
Crecimiento: Incrementos en el tiempo en volúmenes de datos, del número de usuarios del DW, lo cual
conllevará a un incremento de los recursos necesarios como a la demanda de monitoreo, administración y
sintonización del DW (evitando así, un incremento en los tiempos de respuesta y de recuperación de datos,
principalmente).
6
Cambios: El DW requiere soportar cambios que ocurren tanto en el origen de datos que éste usa, como en las
necesidades de la información que éste soporta.
Los dos primeros tipos de costos de operación, son básicos en la mantención de cualquier sistema de
información, por lo cual no nos resultan ajenos; sin embargo, se debe tener especial cuidado con los costos de
operación por cambios, ya que ellos consideran el impacto producto de la relación del OLTP y del Ambiente
Empresarial, con el DW.
Resulta esencial para llevar a cabo un proyecto DW, tener claridad en la forma que éste se ve afectado por
medio de cambios a nivel de OLTP como del Ambiente Empresarial; por ello entonces, a continuación se
analiza más en detalle este tipo de costos de operación.
Cambios en la tecnología: Un cambio en la tecnología puede afectar la manera que los datos operacionales
son almacenados, lo cual implicaría un ajuste en los procesos de Extracción, Transporte y Carga para adaptar
las variaciones presentadas.
Un cambio de cualquiera de ellos impacta los sistemas operacionales. Un cambio en el ambiente operacional
puede cambiar el formato, estructura o significado de los datos operacionales usados como origen para el DW.
De esta forma serían impactados los procesos de Extracción, Transformación y Carga de datos.
• Mejorar la Entrega de Información: información completa, correcta, consistente, oportuna y accesible.
Información que la gente necesita, en el tiempo que la necesita y en el formato que la necesita.
• Mejorar el Proceso de Toma de Decisiones: con un mayor soporte de información se obtienen decisiones
más rápidas; así también, la gente de negocios adquiere mayor confianza en sus propias decisiones y las del
resto, y logra un mayor entendimiento de los impactos de sus decisiones.
• Impacto Positivo sobre los Procesos Empresariales: cuando a la gente se le da acceso a una mejor calidad
de información, la empresa puede lograr por sí sola:
Eliminar los retardos de los procesos empresariales que resultan de información incorrecta, inconsistente y/o
no existente.
Integrar y optimizar procesos empresariales a través del uso compartido e integrado de las fuentes de
información.
Eliminar la producción y el procesamiento de datos que no son usados ni necesarios, producto de aplicaciones
mal diseñados o ya no utilizados.
7
Descargar