Base de Datos Distribuidas

Anuncio
Universidad Alonso de Ojeda
Facultad de Ingeniería
Administración de las Bases de
Datos
Base de Datos II
Profesora: Anaylen López
Base de Datos Distribuidas
Concepto
"Base de datos distribuida" es en realidad
una especie de objeto virtual, cuyas partes
componentes se almacenan físicamente en
varias bases de datos "reales" distintas
ubicadas en diferentes sitios. De hecho, es
la unión lógica de esas bases de datos.
Concepto de BD Distribuida
Una base de datos distribuida es una
colección de datos distribuidos en
diferentes computadores de una red, donde
cada sitio de la red tiene capacidad de
procesamiento autónomo y puede ejecutar
aplicaciones locales.
Además cada sitio participa en la ejecución
de al menos una aplicación global que
requiera acceder datos en diferentes sitios,
usando un subsistema de comunicación.
Características de las BD
Distribuidas
1. Distribución: Los datos no están residentes
en el mismo sitio (procesador). Esto permite
distinguir una base de datos distribuida de
una base de datos centralizada.
2. Correlación lógica: Los datos tienen algunas
propiedades que los relacionan, de tal
manera que se puede distinguir una base de
datos distribuida de un conjunto de bases de
datos locales o archivos residentes en
diferentes sitios de una red de
Computadores.
Ventajas de las BD Distribuidas
Compartimiento de datos. Los usuarios de un nodo son
capaces de acceder a los datos de otro nodo.

 Autonomía.
Cada nodo tiene cierto grado de control
sobre sus datos, en un sistema centralizado, hay un
administrador del sistema responsable de los datos a nivel
global. Cada administrador local puede tener un nivel de
autonomía local diferente.
Disponibilidad. Si en un sistema distribuido falla un nodo,
los nodos restantes pueden seguir funcionando. Si se
duplican los datos en varios nodos, la transacción que
necesite un determinado dato puede encontrarlo en
cualquiera de los diferentes nodos.

Replicación de Datos
La replicación de datos permite que
ciertos datos de la Base de Datos
sean almacenados en más de un sitio,
y su principal utilidad es que permite
aumentar la disponibilidad de los
datos y mejora el funcionamiento de
las consultas globales a la base de
datos.
Datawarehouses
Un almacén de datos (del inglés data
warehouse) es una colección de datos orientada
a
un
determinado
ámbito
(empresa,
organización, etc.), integrado, no volátil y
variable en el tiempo, que ayuda a la toma de
decisiones en la entidad en la que se utiliza.
OLAP
Los sistemas OLAP son bases de datos orientadas al procesamiento
analítico. Este análisis suele implicar, generalmente, la lectura de grandes
cantidades de datos para llegar a extraer algún tipo de información útil:
tendencias de ventas, patrones de comportamiento de los consumidores,
elaboración de informes complejos… etc. Este sistema es típico de los
datamarts.
El acceso a los datos suele ser de sólo lectura. La acción más común es la
consulta, con muy pocas inserciones, actualizaciones o eliminaciones.
Los datos se estructuran según las áreas de negocio, y los formatos de los
datos están integrados de manera uniforme en toda la organización.
El historial de datos es a largo plazo, normalmente de dos a cinco años.
Las bases de datos OLAP se suelen alimentar de información procedente
de los sistemas operacionales existentes, mediante un proceso de extracción,
transformación y carga (ETL).
Bases de datos OLTP y OLAP
Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una
transacción genera un proceso atómico (que debe ser validado con un commit, o invalidado
con un rollback), y que puede involucrar operaciones de inserción, modificación y borrado de
datos. El proceso transaccional es típico de las bases de datos operacionales.
El acceso a los datos está optimizado para tareas frecuentes de lectura y escritura. (Por
ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o
hipermercados diariamente).
Los datos se estructuran según el nivel aplicación (programa de gestión a medida, ERP o
CRM implantado, sistema de información departamental...).
Los formatos de los datos no son necesariamente uniformes en los diferentes
departamentos (es común la falta de compatibilidad y la existencia de islas de datos).
El historial de datos suele limitarse a los datos actuales o recientes.
CONSULTAS Y REPORTES COMPLEJOS
DATA MINING
Una definición formal de la DM sería: La minería de datos es el
proceso automático para el descubrimiento de información útil en grandes
cantidades de datos. Este proceso es un campo multidisciplinario, en el que se
pretende predecir resultados y/o descubrir relaciones entre los diferentes datos.
Las diferentes tareas que puede realizar la DM son:
• Clasificación: Mediante la clasificación se busca encontrar un modelo que
pueda predecir el comportamiento de una variable a partir de sus
características.
• Análisis de Asociaciones: Estas técnicas pretenden sacar patrones de las
relaciones que hay entre diferentes rasgos de los datos.
• Detección de Anomalías: El objetivo de la detección de anomalías es
encontrar aquellos elementos o características que son significativamente
diferentes del resto de los datos.

En la actualidad se utiliza un DATA WAREHOUSE
como solución para replicar los datos de la
transacciones
DATA WAREHOUSE: Base de
datos especializada que se
optimiza para consultar de
administración.
Los datos se extraen de sistemas
de procesamiento de
transacciones en línea. Los datos
se limpian y optimizan para
búsqueda y análisis.
Descargar