Cátedra: Ernesto Chinkes Inteligencia de Negocios Inteligencia de Negocios El Data warehouse, data mart y ETL Clase 4 Cátedra: Ernesto Chinkes Inteligencia de Negocios La arquitectura de la solución Fuentes de datos Área del Data warehouse Transformación Sistema operacional A Extracción Area de trabajo Sistema operacional B Carga (Load) A Sistema operacional N Herramientas de acceso y exploración Data warehouse detallado u “objetivo” T, L Datos Externos Data warehouse agregado o “subjetivo” B Datos Internos no Sistematizados C Datamart A Datamart B Datamart N • Análisis Multidimensional • Datamining • Tablero de comando • Balance scorecard • Alertas • Reporting • Etc. Cátedra: Ernesto Chinkes Inteligencia de Negocios El Data warehouse Diseñada y Administrada para brindar información a la toma de decisiones •Integra datos de los distintos sistemas OLTP. •Incorpora datos externos para analizar variables del entorno. •El diseño y administración de la base de datos pensado para un procesamiento OLAP eficiente: •Guardar datos precalculados. •Índices que optimicen este tipo de consultas (sin preocuparse si son ineficientes en la actualización de datos), •Usar redundancia, •Independizar la bases de dato de la alta concurrencia del OLTP. Inmon -Orientados a temas -Integrados -Históricos -No volátiles Cátedra: Ernesto Chinkes Inteligencia de Negocios Caso de Ejemplo: Jurassic Park RRHH T E Facturacion I Data Warehouse Objetivo Area de trabajo L T E L Facturacion II Data Warehouse Subjetivo Boleterias Aplicaciones de Business Intelligence Cátedra: Ernesto Chinkes Inteligencia de Negocios Fuentes de datos Fuentes de datos Área del Data warehouse Transformación Sistema operacional A Extracción Area de trabajo Sistema operacional B Carga (Load) A Sistema operacional N Data warehouse detallado u “objetivo” T, L Datos Externos Data warehouse agregado o “subjetivo” RRHH B Datos Internos no Sistematizados C Datamart A T E Facturacion I Area de trabajo Data Warehouse Objetivo L T E L Facturacion II Data Warehouse Subjetivo Boleterias Aplicaciones de Business Intelligence Herramientas de acceso y exploración Datamart B Datamart N • Análisis Multidimensional • Datamining • Tablero de comando • Balance scorecard • Alertas • Reporting • Etc. Cátedra: Ernesto Chinkes Inteligencia de Negocios Boletería Cátedra: Ernesto Chinkes Inteligencia de Negocios Sistema de Facturación I de Locales Cátedra: Ernesto Chinkes Inteligencia de Negocios Sistema de Facturación II de Locales Cátedra: Ernesto Chinkes Inteligencia de Negocios Sistema de RRHH Cátedra: Ernesto Chinkes Inteligencia de Negocios Datawarehouse objetivo Fuentes de datos Área del Data warehouse Transformación Sistema operacional A Extracción Area de trabajo Sistema operacional B Carga (Load) A Data warehouse detallado u “objetivo” Sistema operacional N T, L Datos Externos Data warehouse agregado o “subjetivo” B Datos Internos no Sistematizados RRHH C Datamart A T E Facturacion I Area de trabajo Data Warehouse Objetivo L T E L Facturacion II Data Warehouse Subjetivo Boleterias Herramientas de acceso y exploración Aplicaciones de Business Intelligence Datamart B Datamart N • Análisis Multidimensional • Datamining • Tablero de comando • Balance scorecard • Alertas • Reporting • Etc. Cátedra: Ernesto Chinkes Inteligencia de Negocios Modelo de datos DW Objetivo PROVINCIA TIPO ESCUELA id_provincia CIUDAD Id_tipo_escuela id_ciudad Descripcion Nombre provincia id_region REGION id_region Nombre region Nombre ciudad id_provincia LOCAL ESCUELA Id_escuela Id_local VENTA Numero_ticket Nombre_escuela Id_tipo_escuela Id_parque Superficie Distancia_boleteria Fecha_venta Legajo_empleado Id_escuela Id_local ITEM_VENTA EMPLEADO Numero_ticket Id_producto legajo_empleado Nombre_empleado Apellido_empleado Sueldo Horas_capacitacion Numero_ticket Descripcion_producto Precio_unitario Cantidad PRODUCTO PARQUE SUB CATEGORIA CATEGORIA Id_producto Id_sub_categoria Descripcion_producto Id_sub_categoria Descripcion_sub_categoria Id_categoria Id_categoria Descripcion_cateogira Id_parque Dirección id_ciudad Cátedra: Ernesto Chinkes Inteligencia de Negocios El ETL categorías, subcategorias y productos Sistema de entradas Sistema de facturacion I Sistema de facturacion II Los productos, categorías y subcategorías de este sistema son exactamente los mismos que los del sistema I Data warehouse Se respeta el mismo código pero se adiciona una “v” delante (tanto en producto como en categoría. En la subcategoría se repite la categoría.. Ventas: Cuando se pasan las filas de la tabla donde se registraron las ventas de entradas, se debe respetar también el mismo criterio de codificación. Cátedra: Ernesto Chinkes Inteligencia de Negocios Datawarehouse subjetivo Fuentes de datos Área del Data warehouse Transformación Sistema operacional A Extracción Area de trabajo Sistema operacional B Carga (Load) A Data warehouse detallado u “objetivo” Sistema operacional N T, L Datos Externos Data warehouse agregado o “subjetivo” B Datos Internos no Sistematizados RRHH C Datamart A T E Facturacion I Area de trabajo Data Warehouse Objetivo L T E L Facturacion II Data Warehouse Subjetivo Boleterias Herramientas de acceso y exploración Aplicaciones de Business Intelligence Datamart B Datamart N • Análisis Multidimensional • Datamining • Tablero de comando • Balance scorecard • Alertas • Reporting • Etc. Cátedra: Ernesto Chinkes Inteligencia de Negocios El diseño dimensional conceptual Cátedra: Ernesto Chinkes Inteligencia de Negocios Modelo de datos DW subjetivo (dimensional lógico mixto) EMPLEADO Legajo Apellido_nombre Sueldo Horas_capacitacion Rango_horas_capacitacion TIEMPO id_fecha PRODUCTO id_producto Dia Mes Trimestre Año Descripcion producto Categoria Subcategoria TABLA DE HECHOS id_producto id_local id_fecha id_escuela Legajo monto vendido cantidad vendida ESCUELA Id_escuela TIPO ESCUELA Nombre Id_tipo_escuela Id_tipo_escuela Tipo_escuela DISTRIBUCION GEOGRAFICA id_local Nombre local Id_parque PARQUE CIUDAD PROVINCIA REGION Id_parque id_ciudad id_provincia id_region Direccion id_ciudad Nombre ciudad id_provincia Nombre provincia id_region Nombre region Cátedra: Ernesto Chinkes Inteligencia de Negocios Redundancia Propiedad de la redundancia Acelerar consultas con datos precalculados Mayor tiempo en actualización de datos Mayor probabilidad de generar inconsistencias Mejorar controles Efectos Base OLTP Data warehouse Cátedra: Ernesto Chinkes Inteligencia de Negocios El ETL Problemas a resolver E Acceso a múltiples fuentes de datos T -Formatos -Codificaciones -Niveles de agregación -Calidad de datos -Otros criterios de integración L -F / M -Masculino / Femenino • Codificación de atributos: -0 / 1 -Varón / Mujer Cantidad vendida en: -Kilos • Unidad de medida de atributos: -Unidades -Libros Periodicidad: Mensual, Semanal, Transformaciones para Diaria, … dejar los datos en el DW Tabla:PERSONA • Nombres de tablas y atributos: modificando: en tiempo real. Tabla:CLIENTE ? Tabla:ENCUESTADO • Fuentes múltiples para un mismo atributo: • Distintos niveles de agregación Actualizar DW con los datos transformados • Diversos niveles de calidad • Unificar diversos formatos: Zona de residencia Fecha de nacimiento ? Ventas: producto 01–remera manga corta xx – Color negro Compras: producto A254-remera manga corta xx. Limpieza de: -Filas -Fuentes Nombre: Jorge Apellido: Lopez Nombre y apellido: Jorge Lopez Cátedra: Ernesto Chinkes Inteligencia de Negocios El costo de la integración Diseño del data warehouse ETL Data warehouse desagregado VS Data warehouse agregado Diseño del data warehouse ETL Diseño del data warehouse ETL Diseño del data warehouse ETL Diseño del data warehouse t ETL Diseño del data warehouse ETL Cátedra: Ernesto Chinkes Inteligencia de Negocios Metadata • Esquemas de datos • Mapeo y proceso de actualización • Definiciones de herramientas de BI • La estructura de los datos del data warehouse. • La estructura de datos de las fuentes de datos. • La trazabilidad desde el ambiente operacional al data warehouse. • Las reglas de proceso para transformar los datos de origen los datos que contendrá el data warehouse (limpieza, cálculo y equivalencias, definiciones de agregación, etc.). • Los calendarios de ejecución de los procesos. • El diario de ejecución de los procesos. • Las definiciones de los términos de negocio a ser explorados. Cátedra: Ernesto Chinkes Inteligencia de Negocios El Data mart Data Warehouse o Data Marts Data warehouse Data mart Data mart Data mart Data mart Condicionantes • Cuestión de plazos para obtener resultados • Involucramiento político parcial y no integral Data mart de Data tresmart áreasde Data warehouse Data dos mart áreas Cátedra: Ernesto Chinkes Inteligencia de Negocios Inteligencia de Negocios El Data warehouse, data mart y ETL Clase 4