Asegurando la Calidad del Dato en mi Proyecto de BI

Anuncio
Asegurando la Calidad del
Dato en mi Proyecto de BI
Mary Arcia
MCTS SQL Server
SQL PASS Venezuela
[email protected]
Moderador: David Sanchez
Gracias a nuestros auspiciadores
Database Security as Easy as A-B-C
http://www.greensql.com
Hardcore Developer and IT
Training
SQL Server Performance
Try PlanExplorer today!
http://www.pluralsight.com
http://www.sqlsentry.com
Próximos SQL Saturday
6 de Diciembre de 2014
https://www.sqlsaturday.com/351/register.aspx
24 de Enero de 2015
https://www.sqlsaturday.com/346/register.aspx
18 de Abril de 2015
https://www.sqlsaturday.com/368/register.aspx
9 de Mayo de 2015
https://www.sqlsaturday.com/373/register.aspx
Capítulo Global PASS en Español
Reuniones semanales todos los miércoles a
las 12PM UTC-5 (Hora de Colombia)
https://www.facebook.com/SpanishPASSVC
4
4
Asistencia Técnica
Si requiere asistencia
durante la sesión debe
usar la sección de
preguntas que esta en el
menú de la derecha.
Use el botón de Zoom
para ajustar su pantalla
al tamaño deseado
5
Escriba sus preguntas
en la sección de
preguntas que esta en el
menú de la derecha
Mary es Especialista de Business Intelligence en Grupo de Desarrollo GD,
Caracas, Venezuela
Lleva +12 años trabajando en proyectos de Business Intelligence y
Administracion de Bases de Datos.
Colaborador activo de eventos SQL Server para LATAM (IT Woman PASS
LATAM, 24 Horas de PASS en español)
Coordinador del Cápítulo de PASS en Venezuela.
Agenda
o Qué es la Calidad del Dato
o Cinco estilos de BI que impactan la calidad del dato
o Procesos para asegurar la Calidad del Dato
o Qué es Data Quality Services
o Proyectos de Data Quality Services
7
7
CALIDAD DE DATOS EN
BUSINESS INTELLIGENCE
Qué es calidad de datos
Se refiere a los procesos, técnicas, algoritmos y operaciones
encaminados a mejorar la calidad de los datos existentes en las
empresas y organizaciones.
Según el TDWI
Se define como la medida de correspondencia y exactitud
entre los datos de un sistema de información y su valor y
significado en el mundo real.
9
9
Etapas de Madurez de los datos
Conocimiento
• Información
Consolidada para la
toma de decisiones
Información
• Datos combinados y
agregados para
responder preguntas
sencillas del negocio
• Aplicaciones ERP, CRM
y otros sistemas que
guardan la
transaccionabilidad
Datos
10
10
Soporte a
Decisiones
estratégicas
Soporte a
Operativa
Del negocio
Problemas de la mala calidad de los datos
Calidad de Dato
Problema
Ejemplo
Formato
Tenemos un formateo consistente
en los estándares?
Nro de teléfono:
(xxx)-xxx-xxxx,
58+ xxx.xxx.xx.xx, xxx-xxxx
Estandarización
Son los elementos de dato
definidos y se comprenden sus
valores?
Código de Género:
M, F, U,
0, 1, 2
Consistencia
Representan los valores lo mismo?
Tienen el mismo significado?
Consumos representados en
Bs, $, reales o pesos
Completitud
Se encuentra completa toda la data
que necesitamos?
20% de los apellidos de los
clientes están en blanco, 50%
de las direcciones no tienen
código postal
11
11
Problemas de la mala calidad de los datos (cont)
Calidad de Dato
Problema
Ejemplo
Exactitud
Representa la data la realidad
exacta? Son las fuentes
verificables?
Los clientes no se encuentran
en las direcciones registradas.
Los proveedores listados como
activos no lo están desde hace
6 años
Validez
Se encuentran los valores entre los
rangos aceptables?
Los límites de crédito de los
clientes no corresponden a su
perfil
Duplicidad
Los datos aparecen varias veces?
Los clientes Maria Alejandra
Pérez y Marialejandra Pérez
son lo mismo
12
12
Características de nuestros sistemas de BI …
o Datos extraídos de sistemas y aplicaciones dispares.
o Único punto de consulta o reporting en la organización.
o Información correcta expresada de otra forma.
o Reflejo de la realidad de lo que está pasando en la empresa.
13
13
Implementaciones comunes en BI y sus requisitos de
calidad de datos
o Cuadros de Mando y Tablas de Resultados
o Reporting Empresarial
o Análisis de Cubos OLAP
o Análisis Avanzado-Predictivo
o Notificaciones y Alertas
14
14
Por qué prestar atención a la calidad de los datos?
o Los datos necesitan estar accesibles y ser agregados para poder
consumirse por el BI.
Independientemente del formato donde sea que el usuario los necesite
o Las acciones que los usuarios emprenden están influenciadas por la
precisión de los datos en los informes.
o La confianza en los datos es un aspecto crítico entre los equipos de IT y los
usuarios de BI
La confianza debe ganarse y los datos no son la excepción
15
15
Por qué prestar atención a la calidad de los datos? (Cont)
o Los conocimientos empresariales obtenidos a través del BI se convierten en
útiles con mayor rapidez.
o Los directivos, responsables y usuarios de negocio pueden actuar
inmediatamente ante nuevos patrones y tendencias con una granularidad y
precisión mas elevada.
o Identificar sobrecostes y oportunidades para ahorrar y reducir gastos.
o Se incrementa la auditabilidad y visibilidad del dato para futuras revisiones y
monitoreo.
o El ROI sobre el BI es directo e inmediato.
16
16
Qué podemos hacer para asegurar la calidad de los datos
1. Descubrir
Monitorear la calidad
de los datos vs los
objetivos
Implementar los
procesos de mejora
de calidad
6.
Monitorizar
5. Consolidar
4. Match
17
17
Identificar y medir la calidad de los datos
2. Perfilar
Definir reglas y objetivos
de la calidad de los datos
3. Limpiar
Diseñar los procesos de
mejora de la calidad de los
datos
Matcheo de información y
estadísticas
DEMO
Visualizando Datos de mala calidad
DATA QUALITY SERVICES
Qué es Data Quality Services
Data Quality Services (DQS) es una solución
basada en el conocimiento de la calidad de datos
que permite a los administradores de datos y
profesionales de IT la mejora de la calidad de sus
datos fácilmente.
20
20
En qué nos apoya Data Quality Services?
Conocimiento
Limpieza
Consolidación
Aporte de Valor
21
21
Arquitectura Básica de DQS
SERVIDOR
CLIENTE
DQS_MAIN
Data Quality Services Client
DQS_PROJECT
Componente Integration
Services
22
DQS_STAGING
22
BASES DE CONOCIMIENTO
Bases de Conocimiento
Referencias
Externas
Reglas de
matching
Dominios
Dominio
Reglas y
Relaciones
Valores
Dominios
Compuestos
Bases de Conocimiento
24
24
DEMO
Construyendo una base de conocimiento
PROYECTOS DE DQS
Proyectos de Matching
Creación de
Reglas
Política de
comportamiento del
motor DQS
27
Matching
Exportación
Lógica Difusa
Agrega Metadatos
Datos que quedan en el
modelo
SQL Server, Excel, DQS
27
Proyectos de Cleansing
Limpieza de
datos
Partiendo de la Base
de Conocimiento
28
Información
Extra
Sobre las decisiones
que toma
28
Base de
Conocimiento
en la Nube
Consumir datos
DEMO
Reglas y proyectos de matching
Resumen
o
o
o
o
o
Qué es la calidad de los datos
Implementaciones de BI y sus requisitos de calidad de datos
Qué es Data Quality Services
Desarrollo de Bases de Conocmiento
Proyectos de Data Quality Services
30
30
Conclusiones
o Al adoptar un enfoque de calidad de datos en toda la empresa, los estrategas y arquitectos
de la solución de BI pueden diseñar e implementar estilos de BI con mucha mayor
confianza.
o Data Quality Services es una herramienta que permite velar por la integridad de los datos
basada en una base de conocimiento diseñada a partir de valores y reglas de negocio y con
el propósito de conseguir datos de mayor calidad de una manera fácil e intuitiva para el
trabajo en conjunto entre equipo de IT y usuarios de negocio.
o El despliegue exitoso de la calidad de datos ayuda a una organización a maximizar los
retornos sobre sus inversiones de BI, mediante la mejora de su capacidad para aprovechar
el BI impulsando la ventaja competitiva y el liderazgo de mercado.
31
31
Preguntas?
A continuación …
Patrones de busquedas aceleradas con
Lookup entre periodos con Integration
Services
Expositor: Ricardo Estrada
Gracias por participar
Descargar