El ETL

Anuncio
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Inteligencia de Negocios
El Data warehouse, data mart y ETL
Clase 4
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
La arquitectura de la solución
Fuentes de
datos
Área del Data warehouse
Transformación
Sistema operacional A
Extracción
Area de trabajo
Sistema operacional B
Carga (Load)
A
Sistema operacional N
Herramientas de
acceso y exploración
Data warehouse
detallado u “objetivo”
T, L
Datos Externos
Data warehouse
agregado o “subjetivo”
B
Datos Internos no
Sistematizados
C
Datamart A
Datamart B
Datamart N
• Análisis
Multidimensional
• Datamining
• Tablero de
comando
• Balance
scorecard
• Alertas
• Reporting
• Etc.
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
El Data warehouse
Diseñada y Administrada
para brindar información
a la toma de decisiones
•Integra datos de los distintos sistemas OLTP.
•Incorpora datos externos para analizar variables
del entorno.
•El diseño y administración de la base de datos
pensado para un procesamiento OLAP eficiente:
•Guardar datos precalculados.
•Índices que optimicen este tipo de consultas
(sin preocuparse si son ineficientes en la
actualización de datos),
•Usar redundancia,
•Independizar la bases de dato de la alta
concurrencia del OLTP.
Inmon
-Orientados a temas
-Integrados
-Históricos
-No volátiles
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Caso de Ejemplo: Jurassic Park
RRHH
T
E
Facturacion I
Data
Warehouse
Objetivo
Area de trabajo
L
T
E
L
Facturacion II
Data
Warehouse
Subjetivo
Boleterias
Aplicaciones de
Business Intelligence
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Fuentes de datos
Fuentes de
datos
Área del Data warehouse
Transformación
Sistema operacional A
Extracción
Area de trabajo
Sistema operacional B
Carga (Load)
A
Sistema operacional N
Data warehouse
detallado u “objetivo”
T, L
Datos Externos
Data warehouse
agregado o “subjetivo”
RRHH
B
Datos Internos no
Sistematizados
C
Datamart A
T
E
Facturacion I
Area de trabajo
Data
Warehouse
Objetivo
L
T
E
L
Facturacion II
Data
Warehouse
Subjetivo
Boleterias
Aplicaciones de
Business Intelligence
Herramientas de
acceso y exploración
Datamart B
Datamart N
• Análisis
Multidimensional
• Datamining
• Tablero de
comando
• Balance
scorecard
• Alertas
• Reporting
• Etc.
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Boletería
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Sistema de Facturación I de Locales
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Sistema de Facturación II de Locales
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Sistema de RRHH
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Datawarehouse objetivo
Fuentes de
datos
Área del Data warehouse
Transformación
Sistema operacional A
Extracción
Area de trabajo
Sistema operacional B
Carga (Load)
A
Data warehouse
detallado u “objetivo”
Sistema operacional N
T, L
Datos Externos
Data warehouse
agregado o “subjetivo”
B
Datos Internos no
Sistematizados
RRHH
C
Datamart A
T
E
Facturacion I
Area de trabajo
Data
Warehouse
Objetivo
L
T
E
L
Facturacion II
Data
Warehouse
Subjetivo
Boleterias
Herramientas de
acceso y exploración
Aplicaciones de
Business Intelligence
Datamart B
Datamart N
• Análisis
Multidimensional
• Datamining
• Tablero de
comando
• Balance
scorecard
• Alertas
• Reporting
• Etc.
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Modelo de datos DW Objetivo
PROVINCIA
TIPO ESCUELA
id_provincia
CIUDAD
Id_tipo_escuela
id_ciudad
Descripcion
Nombre provincia
id_region
REGION
id_region
Nombre region
Nombre ciudad
id_provincia
LOCAL
ESCUELA
Id_escuela
Id_local
VENTA
Numero_ticket
Nombre_escuela
Id_tipo_escuela
Id_parque
Superficie
Distancia_boleteria
Fecha_venta
Legajo_empleado
Id_escuela
Id_local
ITEM_VENTA
EMPLEADO
Numero_ticket
Id_producto
legajo_empleado
Nombre_empleado
Apellido_empleado
Sueldo
Horas_capacitacion
Numero_ticket
Descripcion_producto
Precio_unitario
Cantidad
PRODUCTO
PARQUE
SUB CATEGORIA
CATEGORIA
Id_producto
Id_sub_categoria
Descripcion_producto
Id_sub_categoria
Descripcion_sub_categoria
Id_categoria
Id_categoria
Descripcion_cateogira
Id_parque
Dirección
id_ciudad
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
El ETL
categorías, subcategorias y productos
Sistema de entradas
Sistema de facturacion I
Sistema de facturacion II
Los productos, categorías
y subcategorías de este
sistema son exactamente
los mismos que los del
sistema I
Data
warehouse
Se respeta el mismo código pero se adiciona una “v” delante (tanto en producto como en categoría. En la subcategoría
se repite la categoría..
Ventas: Cuando se pasan las filas de la tabla donde se registraron las ventas de entradas, se debe respetar también el
mismo criterio de codificación.
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Datawarehouse subjetivo
Fuentes de
datos
Área del Data warehouse
Transformación
Sistema operacional A
Extracción
Area de trabajo
Sistema operacional B
Carga (Load)
A
Data warehouse
detallado u “objetivo”
Sistema operacional N
T, L
Datos Externos
Data warehouse
agregado o “subjetivo”
B
Datos Internos no
Sistematizados
RRHH
C
Datamart A
T
E
Facturacion I
Area de trabajo
Data
Warehouse
Objetivo
L
T
E
L
Facturacion II
Data
Warehouse
Subjetivo
Boleterias
Herramientas de
acceso y exploración
Aplicaciones de
Business Intelligence
Datamart B
Datamart N
• Análisis
Multidimensional
• Datamining
• Tablero de
comando
• Balance
scorecard
• Alertas
• Reporting
• Etc.
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
El diseño dimensional conceptual
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Modelo de datos DW subjetivo
(dimensional lógico mixto)
EMPLEADO
Legajo
Apellido_nombre
Sueldo
Horas_capacitacion
Rango_horas_capacitacion
TIEMPO
id_fecha
PRODUCTO
id_producto
Dia
Mes
Trimestre
Año
Descripcion producto
Categoria
Subcategoria
TABLA DE HECHOS
id_producto
id_local
id_fecha
id_escuela
Legajo
monto vendido
cantidad vendida
ESCUELA
Id_escuela
TIPO ESCUELA
Nombre
Id_tipo_escuela
Id_tipo_escuela
Tipo_escuela
DISTRIBUCION GEOGRAFICA
id_local
Nombre local
Id_parque
PARQUE
CIUDAD
PROVINCIA
REGION
Id_parque
id_ciudad
id_provincia
id_region
Direccion
id_ciudad
Nombre ciudad
id_provincia
Nombre provincia
id_region
Nombre region
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Redundancia
Propiedad de la
redundancia
Acelerar consultas
con datos
precalculados
Mayor tiempo en
actualización de datos
Mayor probabilidad de
generar inconsistencias
Mejorar controles
Efectos
Base OLTP
Data warehouse
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
El ETL
Problemas a resolver
E
Acceso a múltiples
fuentes de datos
T
-Formatos
-Codificaciones
-Niveles de agregación
-Calidad de datos
-Otros criterios de
integración
L
-F / M
-Masculino / Femenino
• Codificación de atributos:
-0 / 1
-Varón / Mujer Cantidad vendida en:
-Kilos
• Unidad de medida de atributos:
-Unidades
-Libros
Periodicidad: Mensual, Semanal,
Transformaciones para
Diaria, …
dejar los datos en el DW
Tabla:PERSONA
•
Nombres
de
tablas
y
atributos:
modificando:
en tiempo real.
Tabla:CLIENTE
? Tabla:ENCUESTADO
• Fuentes múltiples para un mismo
atributo:
• Distintos niveles de agregación
Actualizar DW con los
datos transformados
• Diversos niveles de calidad
• Unificar diversos formatos:
Zona de residencia
Fecha de nacimiento
?
Ventas: producto 01–remera
manga corta xx – Color negro
Compras: producto A254-remera
manga corta xx.
Limpieza de:
-Filas
-Fuentes
Nombre: Jorge
Apellido: Lopez
Nombre y apellido: Jorge Lopez
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
El costo de la integración
Diseño del data warehouse
ETL
Data warehouse desagregado
VS
Data warehouse agregado
Diseño del data warehouse
ETL
Diseño del data warehouse
ETL
Diseño del data warehouse
ETL
Diseño del data warehouse
t
ETL
Diseño del data warehouse
ETL
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Metadata
• Esquemas de datos
• Mapeo y proceso de actualización
• Definiciones de herramientas de BI
• La estructura de los datos del data
warehouse.
• La estructura de datos de las fuentes
de datos.
• La trazabilidad desde el ambiente
operacional al data warehouse.
• Las reglas de proceso para
transformar los datos de origen los
datos que contendrá el data
warehouse (limpieza, cálculo y
equivalencias, definiciones de
agregación, etc.).
• Los calendarios de ejecución de los
procesos.
• El diario de ejecución de los
procesos.
• Las definiciones de los términos de
negocio a ser explorados.
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
El Data mart
Data Warehouse o Data Marts
Data
warehouse
Data mart
Data mart
Data mart
Data mart
Condicionantes
• Cuestión de plazos para obtener resultados
• Involucramiento político parcial y no
integral
Data mart de
Data
tresmart
áreasde
Data
warehouse
Data
dos mart
áreas
Cátedra: Ernesto Chinkes
Inteligencia de Negocios
Inteligencia de Negocios
El Data warehouse, data mart y ETL
Clase 4
Descargar