Dimensiones de Calidad de Datos

advertisement
10 de Mayo de 2010
“Una Introducción a la
Calidad de los Datos y de la
Información en Sistemas de
Información”
Ismael Caballero
Ismael.Caballero@uclm.es
Grupo Alarcos- Escuela Superior de Informática
Universidad de Castilla La Mancha
Índice de Contenidos
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
2
Índice de Contenidos
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
3
¿Qué problemas de Calidad de Datos se observan en la tabla?
No existe esta
película, sino
“El Club de los
Poetas
Muertos”
Curtiz es el director
de Casablanca y
Weir el de “El club
de los Poetas
Muertos”
Un remake no puede
haberse hecho antes
que la primera
versión de la película
Id
Título
Director
Año
Nro_
Remakes
AñoUltimo
Remake
1
Casablanca
Weir
1942
3
1940
2
El Club de los Poetas
Curtiz
1989
0
NULL
3
Vacaciones en Roma
Wylder
1953
0
NULL
4
Sabrina
NULL
1964
0
1985
Falta el nombre del
Director: o no exite
(hecho imposible o
no se sabía)
Si el número de remakes es 0, no tiene
sentido que haya una fecha para el
último remake: o realmente se han
hecho remakes o no debería aparecer
una fecha
(Ejemplo en Batini y Scannapieco, 2006))
4
Importancia de la Calidad de los Datos
• Situación Actual:
 Los datos se han convertido en uno de los activos más
importantes de las organizaciones, ya que son clave en
la toma de decisiones estratégicas u operativas (Ballou y
Tayi, 1999; Bobrowski et al., 1999; Bovee et al., 2003;
Redman, 1996; Strong et al., 1997b).
 Por eso se recopilan datos para ser más competitivos
(Eppler, 2001b; Gertz et al., 2004; Batini y Scannapieco,
2006).
 Tal cantidad de datos puede llevar a una situación
caótica:
• Datos inútiles e innecesarios.
• Redundancia incontrolada de datos
• Gran cantidad de datos históricos caducados.
5
Importancia de la Calidad de los Datos (II)
• Consecuencias de esa posible Situación:
 Los datos se convierten en fuentes de problemas (Strong et
al., 1997b):
• Datos no usados,
• Barreras en la accesibilidad de los datos,
• Dificultades en la utilización de los datos y de la información
 Y estos problemas afectan negativamente al rendimiento
de los procesos de negocio de la organización (Levin et
al., 2007):
• A un nivel técnico: e.g. Implementación de almacenes de
datos.
• A un nivel organizacional:
– Pérdida de clientes al estar insatisfechos.
– Pérdidas financieras debido a desperdicios de recursos en
términos de tiempo y de dinero y a una baja o escasa
productividad.
– Trabajadores descontentos y desmotivados.
• A un nivel legal: Dependiendo de ciertas leyes, como la LOPD.
6
Importancia de la Calidad de los Datos (III)
• Solución:
 Mejorar la calidad de los datos y de la información a
través de la gestión de la calidad de los datos y de la
información (Ballou y Tayi, 1996; Liu y Chi, 2002; Wang,
1998; Caballero et al. 2004) implementando las
correspondientes estrategias organizacionales.
 Una de estas estrategias deben ser las actividades de
evaluación y mejora (Eppler, 2003) a nivel de productos de
datos y a nivel organizacional.
7
Índice de Contenidos
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
8
Definiciones Básicas
• Entidad:
 Personas, cosas, lugares, conceptos, sucesos, reales o
abstractos, de interés para la semántica del problema, (De
Miguel y Piattini, 1999)
• Población:
 Conjunto de entidades del mundo real
• Atributo:
 Cualquier hecho observable de una entidad
• Dato:
 Valor observado o medido para un determinado atributo
de una entidad recolectado del mundo real.
9
Definiciones Básicas (II)
• Instancia:
 Conjunto de todos los valores que toman los atributos de
una determinada entidad
Atributo1
Atributo6
Atributo5
Atributo2
Atributo3
Atributo4
Valor1
Valor2
VAlor6
Valor3
Valor5
Valor4
Instancia
10
Definiciones Básicas (III)
• Base de Datos:
 Colección de valores para un conjunto de atributos
elegidos de entidades del mundo real
 Definición (De Miguel y Piattini, 1999)
• Colección o depósito de datos integrados, almacenados en
soporte secundario (no volátil) y con redundancia controlada.
• Los datos, que han de ser compartidos por diferentes
usuarios y aplicaciones, deben mantenerse independientes
de ellos, y
• su definición (estructura de la base de datos) única y
almacenada junto con los datos, se ha de apoyar en un
modelo de datos, el cual ha de permitir captar las
interrelaciones y las restricciones existentes en el mundo
real.
• Los procedimientos de actualización y recuperación,
comunes y bien determinados, facilitarán la seguridad del
conjunto de datos.
11
Definiciones Básicas (IV)
Valor1
Valor2
VAlor6
Valor1
Valor3
Valor4
Valor5
Valor2
Valor1
Valor2
Valor3
VAlor6
Valor4
Valor4
Valor2
VAlor6
Valor5
Valor3
Valor3
Valor4
Valor1
Valor2
VAlor6
Valor5
VAlor6
Valor5
Valor1
Valor1
Valor3
Valor4
Valor2
VAlor6
Valor5
Valor3
Valor4
12
Definiciones Básicas (V)
• Modelo de Datos:
 Conjunto de conceptos, reglas y convenciones que nos
permiten describir y manipular (consultar y actualizar) los
datos de un cierto mundo real que deseamos almacenar
en la base de datos
• Esquema del Modelo de Datos:
 Gráfico que representa un Modelo de Datos, una
estructura de la base de datos.
• Sistema Gestor de Bases de Datos (SGBD):
 Conjunto coordinado de programas, procedimientos,
lenguajes, ... que suministra a los distintos tipos de
usuarios los medios necesarios para describir y manipular
los datos almacenados en las bases de dato, garantizando
su seguridad.
13
Definiciones Básicas (VI)
• Producto de Datos o de Información (PI)
 Producto obtenido tras un proceso de fabricación a partir de
datos almacenados en una base de datos y que pueden ser
considerados como materias primas.
• Ejemplo: El resultado de una simple consulta select.
• Información
 Valor añadido del producto de datos obtenido por su
Interpretación. (English, 1999)
 Datos útiles en un contexto (Eppler, 2001)
 Conjunto de Datos proporcionados a través de un producto de
datos que son útiles en un contexto.
• Usuario
 Cualquier persona o proceso que puede interactuar con una
base de datos a través de una interfaz (de texto, gráfica o de
SOA) para desarrollar algunas funciones relacionadas con la
misma base de datos o con su trabajo específico.
• Conocimiento
 Información útil en un contexto (English, 1999)
14
Definiciones Básicas (VII)
• Calidad de Datos
 Aquellas características que deben tener los datos como
materias primas para que, utilizando un proceso de
producción adecuado se pueda generar un producto de
información.
• Calidad de Información
 Aquellas características que debería tener un Producto de
Información (PI) para que su utilización sea adecuada,
esto es que cumpla, con los requisitos de usuario
• Dimensiones de Calidad de datos
 Son criterios que permiten juzgar la calidad de los datos
desde un determinado punto de vista. Se pueden entender
como las características del Software propuestas en ISO
9126.
15
Índice de Contenidos
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
16
Procesos Técnicos Relacionados con los Datos
• Procesos Técnicos Relacionados (Redman, 1996)
 Diseño e Implementación del Esquema de la Base de
datos
• Consiste en la definición de la estructura de un continente (o
esquema) para los datos. Esta estructura puede estar
distribuida en varias localizaciones para mejorar el
rendimiento de la organización.
 Recolección de Datos
• Es el hecho de captar valores de la realidad para los
atributos de las entidades modeladas en la base de datos a
través de distintos mecanismos/herramientas como
formularios, encuestas,…
 Almacenamiento de los Datos
• Consiste en guardar los valores captados en la fase de
recolección en el continente definido anteriormente. Es
preciso tener en cuenta que puede ser necesario repartir los
valores entre las distintas particiones del esquema realizadas
durante la distribución (integrar los datos)
17
Procesos Técnicos Relacionados con los Datos (II)
 Extracción de los Datos
• Consiste en la selección y recuperación de los valores
almacenados en el continente o base de datos. Al igual que
con el almacenamiento habría que tener en cuenta que los
datos pueden venir de distintas localizaciones o fuentes.
Teóricamente, el SGBD debería hacer este proceso de forma
transparente al usuario.
• La extracción de datos, no implica que se agoten..
 Elaboración del Producto de Datos
• Siguiendo los Procesos de Negocio, esta fase consiste en
obtener un producto de datos a partir de los datos (materia
prima) que satisfaga las necesidades de un consumidor.
 Entrega del Producto de Datos
• Es el proceso por el cual se hace llegar al destinatario del
producto de información dicho producto para que pueda
utilizarlo para desarrollar el trabajo para el que lo ha
solicitado.
18
Procesos Técnicos Relacionados con los Datos (III)
 Generación de Información
• Consiste en interpretar el producto de datos para poder
realizar un trabajo, típicamente tomar una decisión
relacionada con el ámbito de trabajo del usuario
 Generación del Conocimiento (Organizacional).
• A partir de la información generada anteriormente, este
proceso consiste en establecer una serie de políticas que
puedan ser aplicadas en cualquiera de los procesos
anteriores para mejorar los existentes y evitar posibles
defectos.
19
Relación Ontológica de los Conceptos Presentados
Mundo Real
Recolección
Visión del Usuario del
Mundo Real para
almacenar en el Sistema
Posible Deficiencias
de los Datos
Representación de la
semántica del Mundo Real
Almacenamiento
Percepción del Mundo
Real capturada por el
Desarrollador
Visión del Usuario del
Mundo real Inferida del
Sistema de Información
Diseño de la Base de Datos
Sistema de
Información
Extracción y Elaboración
del Producto de Información
20
Índice de Contenidos
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
21
Tipos de Datos
• Atendiendo a su estructuración:
 Estructurados
• Siguen un esquema predefinido
• Ejemplo: Datos organizados según Modelo Relacional
 Semiestructurados
• Los datos tienen una estructura flexible, e incluso carecer de
ella.
• Ejemplo: XML
 No estructurados
• No siguen ningún criterio para ser estructurados.
• Ejemplo: ficheros de texto en lenguaje natural
22
Tipos de Datos (II)
• Atendiendo a la naturaleza
Scannapieco, 2006):
del
producto
(Batini
y
 Ítems de Datos como materias primas.
• Son considerados las unidades más pequeñas de datos.
• Son utilizados para construir el resto de los componentes.
 Ítems de Datos como componentes.
• Son los datos utilizados para generar un producto de Información.
• Se obtienen como una consulta de recuperación select.
 Ítems de Datos como productos de datos o información.
• Son el resultado de un proceso de producción y provienen de uno o
varios Ítems de Datos como componentes.
• Atendiendo a su composición (granularidad)
 Datos Elementales
• Son datos gestionados en las organizaciones por procesos
organizacionales y representan a valores individuales del mundo
real.
 Datos Agregados.
• Son un conjunto de datos elementales obtenidos mediante una
determinada función de agregación
23
Tipos de Datos (III)
• Otros tipos de datos
 Datos Federados
• Son aquellos que vienen de fuentes de datos heterogéneas y
necesitan de varias de ellas para ser integrados.
 Datos Web
• Son recuperados de la web, y aunque no poseen un formato
determinado constituyen uno de las principales fuentes de datos.
• Atendiendo a su aspecto temporal:
 Datos Estables
• Datos que no van a cambiar a lo largo del tiempo, como
publicaciones científicas, que se incrementarán, pero las ya
existentes no variarán.
 Datos poco cambiantes
• Datos que pueden sufrir algunas modificaciones. Por ejemplo
algunos datos personales, como la dirección, el teléfono,…
 Datos cambiantes frecuentemente.
• Datos de los que se espera que sufran cambios, como la
información del tráfico, tasas de ventas, …
24
Tipos de Datos (IV)
• Tipos de Datos objetos de Estudio en nuestro
contexto:
 Datos Estructurados y Semiestructurados
 Datos Elementales
 Ítems de Datos como Materia Prima y Productos de Datos
25
Índice de Contenidos
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
26
Tipos de Sistemas de Información
• Los Sistemas de Información son el entorno donde
se ejecutan los procesos técnicos de los datos.
• Criterios de clasificación:
 Distribución
• Estudia si los datos van a ser o no distribuidos entre distintas
localizaciones
• Valores Posibles ={“Sí”, “No”}
 Heterogeneidad
• Tiene en cuenta los diferentes tipos de semánticas y técnicas
usados para la representación conceptual y lógica de los
datos.
• Valores Posibles ={“Sí”, “No”}
 Autonomía
• Define el grado de jerarquía de los sistemas así como las
posibles reglas de coordinación entre ellos, estableciendo
derechos y obligaciones.
• Valores Posibles ={“Totalmente”, “Semi”, “No”}
27
Tipos de Sistemas De Información (II)
Distribución
SÍ
Sistemas
Distribuidos
Sistemas
Colaborativos
Sistemas
Monolíticos
Sistemas
Peer-to-Peer
NO
SÍ
SEMI
Sistemas
Data Warehouse
TOTALMENTE
Autonomía
Heterogeneidad
28
Índice de Contenidos
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
29
Definición de Calidad de Datos (I)
• Definiciones de Calidad de Datos / Calidad de
Información
 Berti y Scannapieco (2006) y Lee et al. (2006):
• Concluyen que una definición muy aceptada es “fitness for
use”.
 Brien (1991):
• “Es el grado con el que la información tiene contenido, forma
y características temporales que le dan un valor añadido al
usuario final”.
 Eppler (2001):
• “Calidad de información es la característica de la información
para satisfacer los requisitos funcionales, técnicos, cognitivos
y estéticos de los productores, consumidores,
administradores y expertos”.
30
Definición de Calidad de Datos (II)
 Huang et al. (1999): “
• La calidad de la información puede ser definida como la
información que se adapta a su uso para los consumidores
de información”.
 Kahn y Strong (1998):
• “Calidad de información es el conjunto de características que
deben satisfacer o superar las expectativas del consumidor”.
 Lesca y Lesca (1998):
• es “el conjunto de características que hacen que la
información tenga más valor para los usuarios”.Es el grado
con el que los productos de datos satisfacen las necesidades
y requisitos de los clientes.
31
Definición de Calidad de Datos (III)
• ¿Qué se ve afectado por la Calidad de Datos?
 Todas aquellas Entidades que forman parte del proceso
de negocio:
• Calidad de la materia prima
– Calidad del esquema de la Base de Datos
– Calidad de los propios datos.
– Soporte del SGBD.
• Calidad de los procesos técnicos implicados en los datos
• Calidad de los productos de datos.
• ¿Cómo se define la calidad de datos?
 Mediante las dimensiones de calidad de datos
• Es posible definir para cada entidad ciertas características
que permitan simplificar el estudio de la calidad de datos,
descomponiéndola en unidades más pequeñas como
propone ISO 9126.
32
Dimensiones de Calidad de Datos (IV)
•Focos de estudio de la calidad de los datos (Piattini et al., 2006)
Calidad de los Datos
Calidad de la Base de Datos
Calidad del SGBD
Calidad del Modelo
Conceptual
Calidad de la Presentación
Calidad del Modelo de
Datos
Calidad de los Datos
Calidad del Modelo
Lógico
Calidad del Modelo
Físico
33
Índice de Contenidos
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
34
Dimensiones de Calidad de Datos
• Aspectos de Medición para Calidad de los Propios
Datos:
 Es necesario medir para Gestionar la Calidad de los
propios datos.
 Tradicionalmente se han desarrollado métricas ad hoc
para dimensiones de calidad identificadas a partir de las
necesidades de los usuarios.
 No existe un conjunto de dimensiones universales
porque cada autor define las que mejor se adaptan a su
contexto.
 Como las métricas se definen para esas dimensiones,
también dependen fuertemente del contexto y son poco
exportables a otros contextos y por tanto poco
generalizables.
35
Dimensiones de Calidad de Datos (II)
•Dimensiones de Calidad
 La calidad es un concepto muldimensional.
• Para medir la calidad es necesario descomponer la calidad en
características observables llamadas dimensiones de calidad, en
base a las cuales es posible definirla, identificarla y medirla.
• La calidad es un concepto muldimensional porque se necesitan
varias dimensiones para decir cómo de bueno son los datos que se
van a usar para una aplicación.
Características de Calidad
Características de Calidad -1
Características de Calidad -2
Características de Calidad -3
Atributo de Calidad
Atributo de Calidad
Característica 1.1
Característica 1.2
Atributo de Calidad
Atributo de Calidad
Estructura de Calidad según ISO 9126
36
Dimensiones de Calidad de Datos (III)
• English (1999) distingue dos categorías de
dimensiones:
 Calidad inherente
• Exactitud de los datos, compleción de valores, ...
 Calidad Pragmática
• Oportunidad, Características, ...
• Strong et al. (1997) identifica las siguientes:
 Intrínsecas
• Precisión, Objetividad, Credibilidad,...
 Accesibilidad
• Accesibilidad, Seguridad en el acceso, ...
La más
aceptada
y
utilizada
 Contextual
• Relevancia, Valor añadido, oportunidad,...
 Representacional
• Interpretabilidad, facilidad de comprensión , ...
37
Dimensiones de Calidad de Datos (IV)
• ISO/IEC 25012
• Presenta las dimensiones de calidad de datos
para los sistemas de Información
Inherentes
Inherentes y
Dependientes
Dependientes
Compleción
Consistencia
Credibilidad
Actualidad
Conformidad
Confidencialidad
Eficiencia
Precisión
Trazabilidad
Entendibilidad
Disponibilidad
Portabilidad
Recuperabilidad
38
Dimensiones de Calidad de Datos (V)
• Algunas Dimensiones inherentes a los datos:
 Accuracy (exactitud/precisión)
• Definida como la diferencia entre el valor real v y el valor
almacenado en la base de datos v’
– Ejemplos:
» Una persona se llama “Ismael” y en la base de datos
aparece “Ishmail” (sintatic accuracy)
» Una persona se llama “Ismael” y en la base de datos
aparece como “Ramón” (semantic accuracy)
 Completitud
• Definida como la medida en la que los datos tienen suficiente
alcance o profundidad para la tarea que se está realizando.
– Ejemplos:
» Cuando se dejan valores sin almacenar en una base de
datos, bien porque no se conocen, bien porque no existen.
39
Dimensiones de Calidad de Datos (VI)
• Algunas Dimensiones relacionadas con el Tiempo:
 Oportunidad (Timeliness)
• Expresa cómo de actuales son los datos para una tarea.
– Ejemplos:
» Cotizaciones de Valores de Bolsa: si llega un dato en un instante t
y hay que decidir realizar una acción antes de un instante t’ en el
que con toda probabilidad ese dato va a cambiar. Si se toma la
decisión pasado t’ con el dato que se tenía en el momento t las
consecuencias de la decisión probablemente no serán las mismas.
 Volatilidad (Volatility)
• Caracteriza la frecuencia con la que los datos varían en el tiempo.
– Ejemplos:
» Fechas de Nacimiento no varían (Volatilidad nula).
» Cotizaciones de Valores de Bolsa (gran volatilidad)
 Actualidad (Currency)
• Se refiere al retraso que se puede producir al actualizar los datos.
– Ejemplo:
» Se le quiere mandar una felicitación de Navidad a una persona que
cambió de dirección postal
40
Dimensiones de Calidad de Datos (VII)
• Dimensiones Relacionadas con la Integridad
 Consistencia (Consistency)
• Captura la violación de las reglas semánticas definidas para
un conjunto de datos.
– Ejemplo:
» Violación de las reglas de integridad de identidad
» Violación de las reglas de integridad referencial
» Violación de las reglas de integridad de dominio
• Otras dimensiones:
 Accesibilidad
• Determinar el grado en el que un usuario puede acceder a
los datos.
41
Dimensiones de Calidad de Datos (VIII)
•Algunos ejemplos de Formas de Medir1 (Lee et al., 2006)
 Grado de Adherencia a las restricciones de Integridad de
una tabla T:
• Integridad de Entidad:
GAIE (T )  1 
NúmerodePKNulas (T )
NT (T )
NT=Número de Tuplas
• Integridad Referencial:
GAIR(T , TD)  1 
NúmerodeFKNoExistent es (T )
NT (TD)
NT=Número de Tuplas
TD= Tabla Dependiente
• Integridad de Atributo o Columna (Accuracy):
NVI ( A)
GAIA( A)  1 
NT ( A)
 Compleción de una Tabla
NVNC (T )
C (T )  1 
NT (T )
NVI(A)= Número de
Valores Incorrectos del
Atributo A
NT=Número de Tuplas
NVNC(T)= Número de
Valores no Completos
de la tabla T
NT=Número de Tuplas
1 Muchas
de estas medidas se pueden definir de la misma forma sobre distintas entidades,
por lo que habría que identificar dichas entidades y adaptar la definición a ellas.
42
Dimensiones de Calidad de Datos (IX)
•Algunos ejemplos de Formas de Medir (Lee et al., 2006) (2)
 Grado de Consistencia de una Tabla (T)
NVTC (T )
GC(T )  1 
NT (T )
 Grado de Credibilidad de una tabla:
NVTC=Número de
Violaciones de Tipo de
Consistencia
GC(T )  min(GC(TO), GC(T ' ))
TO=Tabla Origen
T’= Comparación Lógica
 Cantidad Apropiada De Datos:
NVP(T)=Número de
Valores
Proporcionados
 NVP (T ) NVN (T ) 
TCAD(T )  min 
,
NVN
(
T
)
NVP (T ) 

 Tasa de Actualidad de los Datos


Actualidad (T )  
TasaOportunidad (T )  max 1 
),0 
Volatilida d (T )  


NVN(T)=Número de
Valores Necesarios
s
S= Sensibilidad del
Contexto
43
Índice de Contenidos
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
44
Bibliografía y Referencias
•
•
•
•
•
•
•
•
•
•
•
Aiken, P., Allen, M.D., Parker, B., Mattia, A. (2007) “Measuring Data Management Practice
Maturity: A Community’s Self-Assessment” IEEE Computer 40(4):42-50
Ballou, D. P. and G. K. Tayi (1999). "Enhancing Data Quality in Data Warehouse
Environments." Communications of the ACM 42(1): 73-78.
Batini, C. and M. Scannapieco (2006). Data Quality: Concepts, Methodologies and
Techniques. Berlin, Springer-Verlag Berlin Heidelberg.
Bobrowski, M., M. Marré, et al. (1998). A Software Engineering View of Data Quality. Second
International Software Quality in Europe, Brussels, Belgium.
Bovee, M., R. P. Srivastava, et al. (2003). "A Conceptual Framework and Belief-Function
Approach to Assesing Overall Information Quality." International Journal of Intelligent Systems
18: 51-74.
Brien, J. O. (1991). Introduction to Information Systems in Business Management. Boston,
MA: USA.
De Miguel, A. and M. Piattini (1999). Diseño de Bases de Datos Relacionales. Madrid, Ra-Ma.
English, L. (1999). Improving Data Warehouse and Business Information Quality: Methods for
reducing costs and increasing Profits. New York, NY, USA, Willey & Sons.
Eppler, M. J. (2001). "The Concept of Information Quality: An interdisciplinary Evaluation of
recent Information Quality Frameworks." Studies in Communication Sciences 1: 167-182.
Eppler, M. J. (2003). Managing Information Quality. Secacus, NJ, USA, Springer-Verlag New
York Inc.
Gertz, M., M. T. Özsu, et al. (2004). "Report on the Dagstuhl Seminar "Data Quality on the
Web"." SIGMOD RECORD 33(1): 127-132.
45
Bibliografía y Referencias (II)
•
•
•
•
•
•
•
•
•
•
Huang, K. T., Y. W. Lee, et al. (1999). Quality Information and Knowledge. Upper Saddle
River, NJ, USA, Prentice-Hall.
ISO/IEC-JTC1/SC7 (1998). ISO/IEC 9126: Information Technology - Software Product
Evaluation - Quality Characteristics and Guidelines for their Use. Geneva, Switzerland,
International Organization for Standarization.
Kahn, B. K., D. M. Strong, et al. (2002). "Information Quality Benchmarks: Product and
Service Performance." Communications of the ACM 45(4ve): 184-192.
Lesca, H. and E. Lesca (1995). Gestion de l’information, qualité de l’information et
performance de’l enterprise. Paris, France, Litec.
Liu, L. and L. N. Chi (2002). Evolutional Data Quality: a theory-specific view. Seventh
International Conference on Information Quality (ICIQ'02), MIT, Cambridge, MA, USA.
Redman, T. C. (1996). Data Quality for the Information Age. Boston, MA, USA, Artech
House Publishers.
Strong, D. M., Y. W. Lee, et al. (1997). "Data Quality in Context." Communications of the
ACM 40(5): 103-110.
Strong, D. M., Y. W. Lee, et al. (1997). "Ten potholes in the road to information quality."
IEEE Computer 30(18): 38-46.
Wand, Y. and R. Y. Wang (1996). "Anchoring Data Quality Dimensions in Ontological
Foundations." Communications of the ACM 39(11): 86-95.
Wang, R. Y. (1998). "A Product Perspective on Total Data Quality Management."
Communications of the ACM 41(2): 58-65.
46
10 de Mayo de 2010
“Una Introducción a la Calidad de los Datos y de la Información
en Sistemas de Información”
Muchas gracias
por su atención
Ismael Caballero
Ismael.Caballero@uclm.es
Grupo Alarcos- Escuela Superior de Informática
Universidad de Castilla La Mancha
Descargar