Bases de Datos

Anuncio
Bases de Datos
Notas de Curso
Miguel Murguía
miguelmurguí[email protected]
México, D.F.
Mayo, 2004
Junio, 2005
Contenido
I Introducción......................................................................6
I. Conceptos Básicos de Bases de Datos...........................................6
1.1 Panorama de las Bases de Datos.............................................................. 6
1.2 Modelos de Datos: 3 Niveles...................................................................... 9
1.3 Los Lenguajes en las Bases de Datos ..................................................... 12
1.4 Arquitectura general de un DBMS............................................................ 14
Preguntas....................................................................................................... 16
2. El Modelo Entidad-Relación .........................................................17
Generalidades del Modelo Entidad-Relación ................................................. 17
Dominios y Atributos ...................................................................................... 27
Restricción en las relaciones.......................................................................... 28
Relaciones (papeles y recursividad) .............................................................. 29
II El Modelo Relacional de Bases de Datos ....................30
1. Introducción al Modelo Relacional................................................30
Antecedentes y orígenes del Modelo Relacional ........................................... 30
Conceptos del Modelo Relacional .................................................................. 31
Tuplas ............................................................................................................ 32
Diagrama E-R para una escuela .................................................................... 36
Otra definición de relación.............................................................................. 37
Esquemas de relaciones ................................................................................ 38
Esquema de una Base de Datos.................................................................... 40
Notación ......................................................................................................... 41
2. Principales características del Modelo Relacional .......................42
Restricciones del Modelo Relacional.............................................................. 42
Relación: el único tipo de dato compuesto..................................................... 43
Críticas al modelo Entidad-Relación .............................................................. 44
Evolución del Modelo Relacional ................................................................... 45
Diferencias entre las Matemáticas y en el Modelo Relacional del concepto de
relación y terminología ................................................................................... 46
Objetivos del Modelo Relacional .................................................................... 47
Interrelación de información entre relaciones distintas .................................. 47
Transacción.................................................................................................... 48
SQL (Structured Query Language) ................................................................ 49
DBMS relacionales......................................................................................... 50
La relación universal ...................................................................................... 51
Razones para soportar dominios ................................................................... 52
Recuerde que … ............................................................................................ 54
Bases de Datos. Miguel Murguía. FAR.
2
III Álgebra Relacional ......................................................55
1. Operadores básicos del Álgebra Relacional ................................55
Introducción.................................................................................................... 55
Los operadores .............................................................................................. 56
Proyección ..................................................................................................... 58
Theta-Selección ............................................................................................. 60
Combinando selección y proyección .............................................................. 62
Select y Theta-Select ..................................................................................... 63
Theta-selección extendido ............................................................................. 65
Producto cartesiano ....................................................................................... 66
Renombrar ..................................................................................................... 71
Unión.............................................................................................................. 72
Compatibilidad de unión................................................................................. 73
Diferencia ....................................................................................................... 74
Definición formal del álgebra relacional.......................................................... 75
Intersección.................................................................................................... 76
Producto natural............................................................................................. 77
Theta Join ...................................................................................................... 79
Theta Join extendido ...................................................................................... 81
Join natural..................................................................................................... 81
División........................................................................................................... 82
División (Reforzamiento) ................................................................................ 85
Asignación...................................................................................................... 86
Ejercicios I...................................................................................................... 88
Ejercicios II..................................................................................................... 89
2. Modificación de la Base de Datos ................................................90
Asignación...................................................................................................... 90
Inserción......................................................................................................... 91
Actualización .................................................................................................. 92
Borrar ............................................................................................................. 93
3. Vistas ............................................................................................93
Definición de vistas ........................................................................................ 93
Modificabilidad de las Vistas .......................................................................... 95
Algoritmo VU .................................................................................................. 96
IV Diseño de bases de Datos Relacionales .......................97
1. Normalización ...............................................................................97
Dependencia funcional................................................................................... 97
1a. forma normal ............................................................................................ 99
2a. forma normal ............................................................................................ 99
3a. forma normal .......................................................................................... 101
Forma normal de Boyce-Codd ..................................................................... 103
4a. forma normal .......................................................................................... 105
Dependencia multivaluada ........................................................................... 107
Limitaciones de la normalización ................................................................. 109
Dependencia de reunión (join) ..................................................................... 110
5NF o PR/NF (forma normal de proyección-reunión)................................... 111
Bases de Datos. Miguel Murguía. FAR.
3
Resumen de Formas Normales ................................................................... 115
Dependencias Funcionales .......................................................................... 116
Axiomas de Armstrong ................................................................................. 117
Análisis......................................................................................................... 119
Síntesis ........................................................................................................ 120
Ejercicios...................................................................................................... 121
2. Árboles, redes y relaciones recursivas .......................................123
Árboles ......................................................................................................... 123
Relaciones recursivas .................................................................................. 124
Redes........................................................................................................... 126
3. Integridad....................................................................................127
Integridad de dominio................................................................................... 127
Integridad intra-relacional............................................................................. 129
Integridad referencial ................................................................................... 129
Integridad semántica intra-relacional ........................................................... 130
Análisis de consistencia en bases de datos geográficas.............................. 130
Afirmaciones ................................................................................................ 131
Disparadores................................................................................................ 132
4. Autorizaciones ............................................................................132
5. Catálogo .....................................................................................135
On-line.......................................................................................................... 135
Concurrencia................................................................................................ 135
Descripción de dominios, relaciones base y vistas ...................................... 137
Restricciones de integridad .......................................................................... 138
Funciones definidas por el usuario............................................................... 139
Datos de autorización .................................................................................. 139
Estadísticas.................................................................................................. 139
V Lógica y Cálculo Relacional de Tuplas ......................141
1. Lógica .........................................................................................141
Operadores lógicos ...................................................................................... 141
Tablas de verdad ......................................................................................... 143
Tautologías .................................................................................................. 145
Reglas de inferencia .................................................................................... 145
Equivalencias lógicas ................................................................................... 149
2. Lógica de predicados .................................................................150
Lenguaje de 1er orden o de predicados....................................................... 150
Reglas de la negación:................................................................................. 150
Reglas de cuantificación .............................................................................. 151
3. Cálculo relacional de tuplas........................................................153
Bibliografía .......................................................................156
Páginas WWW .................................................................157
Temarios ...................................................................................................... 157
Bases de Datos. Miguel Murguía. FAR.
4
Modelo Relacional........................................................................................ 157
ANEXO 1. Prolog como Base de Datos ..........................158
A) Código del Programa .................................................................158
B) Resultado de Querys .................................................................160
Bases de Datos. Miguel Murguía. FAR.
5
I Introducción
I. Conceptos Básicos de Bases de Datos
1.1 Panorama de las Bases de Datos
Orígenes del modelo relacional
La era de las bases de datos relacionales se inicia con la publicación de una serie de
artículos de Codd; el primero es:
Codd, E. F. 1970. A relational model of data for large shared data banks.
Communications of the ACM 13:377-387.
Previo al modelo relacional existían otros, los más populares eran el modelo de red y el
modelo jerárquico. Actualmente se puede decir que esos modelos fueron un camino
recorrido que llevó al modelo relacional. Aunque los modelos jerárquico y de red son la
base de algunos DBMS usados en la actualidad, se puede decir, en general, que esos
modelos son historia.
A inicios de los años 60’s se construyó lo que se puede considerar el primer DBMS, el
sistema “Integrated Data Store”, por Charles Bachman de la General Electric que sentó las
bases del modelo de red. A finales los años 60’s nace el IMS (Information Management
System) de IBM y que fue base del modelo de jerárquico.
El modelo relacional soluciona varios de los problemas no resueltos por otros modelos
previos, sin embargo, se debe de considerar que el correcto planteamiento de los problemas
es en sí un avance hacia su solución. Así, los modelos jerárquico y de red pueden
considerarse como escalones en la construcción de modelos eficientes de bases de datos.
El modelo relacional es robusto debido a la formalidad con que se plantea, pues está
fundamentado matemáticamente en el álgebra de relaciones. En la actualidad, una de las
principales alternativas al modelo relacional es el modelo orientado a objetos, sin embargo,
el modelo relacional aún se considera más importante por su fundamento, la cantidad de
usuarios, herramientas y sistemas comerciales existentes.
Bases de Datos. Miguel Murguía. FAR.
6
Los “Turing Award”
Los reconocimientos “Turing Award” son el equivalente en computación al premio Nobel.
El área de Bases de Datos ha recibido ya tres de ésos reconocimientos: el primero para
Bachman, por haber puesto las bases del modelo de red; el segundo para Codd por su
Modelo Relacional, y el tercero para James Gray por sus trabajos sobre el concepto de
transacción en Bases de Datos.
Objetivos de los DBMS
Los sistemas manejadores de bases de datos (DBMS por sus siglas en inglés) son un tipo
de sistemas informáticos enfocados a la tarea del almacenamiento y recuperación de
información, por lo que pueden ser sujetos a las metodologías de desarrollo de sistemas,
por ejemplo UML. Existe una amplia gama de DBMS comerciales, como por ejemplo MSAccess, MS-SQL_Server, Oracle, Informix o Sybase; También existen alternativas de
DBMS libres como MySQL o PosgreSQL.
Los DBMS pueden ser vistos como “esqueletos” de bases de datos, en los que sólo es
necesario incorporar los datos específicos de nuestra aplicación, por ejemplo, los nombres
de los alumnos de una escuela, las calificaciones para cada materia, las claves de los grupos
y los nombres de los profesores. Sin embargo, también es necesario definir la “estructura”
de los datos, es decir el modelo de datos. Ese modelo de datos debe construirse de acuerdo
a las necesidades de información, ya que para un mismo dominio (escuela o un sistema de
control de inventario, por ejemplo) existen varias maneras de definir el modelo de acuerdo
al nivel de precisión que se requiera.
Los principales objetivos de los DBMS son:
•
•
•
Almacenamiento de grandes volúmenes de información.
Procesamiento de la información (generación de reportes, análisis, reportes
ejecutivos).
Seguridad, eficiencia y oportunidad en la información.
Los DBMS dan facilidades para realizar varias tareas comúnmente asociadas a la
información de una base de datos, como son la definición de la estructura de las tablas
donde se almacenará la información, el tipo de datos a almacenar, la creación de pantallas
de captura, la generación de reportes, clasificaciones, filtros, actualizaciones, entre otras.
Por ejemplo, para una base de datos de una escuela, el DBMS debe dar facilidades para:
•
•
•
•
•
•
Registro de calificaciones.
Impresión de listas de los grupos.
Captura de calificaciones finales.
Corrección de calificaciones.
Reportes de materias que adeuda un estudiante.
Promedios de calificaciones por materia.
Bases de Datos. Miguel Murguía. FAR.
7
• Generación de historias académicas.
Se puede generar un programa para cada tarea que funcione de manera independiente para
constituir un “sistema procesador de archivos”. Pero se tienen los problemas de:
Redundancia e inconsistencia de datos. Las direcciones de los clientes pueden estar
almacenados en dos archivos (por ejemplo, en el de “cuentas de ahorro” y en el de “cuentas
de cheques”), lo que hace que ocupen doble espacio, además de que se puede generar la
situación de que se actualice sólo en un archivo generando una inconsistencia.
Dificultad en el acceso. Casi todas las consultas son planeadas. Para hacer consultas no
planeadas se necesitan escribir nuevos programas.
Aislamiento de los datos. Los datos están repartidos en varios archivos, por lo que pueden
tener diferentes formatos y es necesario escribir programas para cada nuevo proceso.
Seguridad. No todos los usuarios del sistema deben tener acceso a todas las operaciones
(v.g. actualización de saldos, ver ciertas cuentas, etc.).
Integridad. Los valores de los campos de las tablas deben satisfacer ciertas “restricciones
de dominio”. Por ejemplo, las cuentas de ahorro no deben contener cantidades negativas.
Las ventajas de los DBMS con respecto a los sistemas de archivos son:
•
•
•
•
•
•
•
Independencia de Datos
Eficiencia en el Acceso
Integridad y Seguridad
Administración de Datos
Acceso Concurrente
Recuperación de Crash
Desarrollo de Aplicaciones en tiempos reducidos
La independencia de datos se refiere a que los programas de aplicación están aislados de la
forma en que estructuran los datos, y a su vez, la forma en que estructuran los datos tiene
cierta independencia de cómo se almacenan físicamente. Se logra gracias a la existencia de
“esquemas”, que se revisarán más adelante.
Bases de Datos. Miguel Murguía. FAR.
8
1.2 Modelos de Datos: 3 Niveles
Abstracción de datos
Uno de los objetivos de los sistemas de bases de datos es mostrar una visión abstracta de
los datos, es decir, se esconden ciertos detalles de cómo se almacenan y manejan los datos,
para mostrar sólo aquellos aspectos de utilidad práctica al usuario.
Esa visión abstracta de los datos puede clasificarse en tres niveles:
Nivel físico. Se describe el almacenamiento digital de los datos en la memoria principal y
secundaria de la computadora. Se debe de considerar la arquitectura y atributos de los
sistemas y medios de almacenamiento.
Nivel conceptual. Se describe la información que se almacena en la base de datos, hasta
cierto punto independientemente del sistema físico en el que se implemente. En este nivel,
la información ya tiene un carácter semántico concreto y directo para los usuarios (v.g. un 7
no se ve como una representación decimal de 0111 en binario, sino como la calificación de
un alumno en cierta materia).
Nivel de visión. Aunque en el nivel conceptual se describe la manera de almacenar
información que tiene un significado concreto en el dominio de aplicación, en el nivel de
visión se centra aún más en el significado para el usuario. La información se clasifica de
acuerdo al tipo de usuario, cambiando el formato de presentación y seleccionando sólo
aquella de interés directo.
Modelos de datos
Los modelos de datos son herramientas para describir la estructura de una base de datos:
los datos y las relaciones entre ellos, la semántica asociada y las restricciones de
consistencia.
Se clasifican en tres grupos según el nivel de abstracción.
•
•
•
Semántico: Modelos basados en objetos
Lógico:
Modelos lógicos basados en registros
Físico:
Modelos físicos de datos
Bases de Datos. Miguel Murguía. FAR.
9
Nivel SEMÁNTICO:
Niveles conceptual y de visión. Permiten expresar restricciones de datos explícitamente.
Hay muchos modelos, entre ellos:
•
•
•
•
•
•
•
UML
Modelo entidad-relación
Modelo orientado a objetos
Modelo binario
Modelo semántico de datos
Modelo infológico
Modelo funcional de datos
De los anteriores, los más usados en la actualidad son el modelo entidad relación y el
orientado a objetos. Algunos conceptos manejados en el modelo entidad relación son:
Entidades
Relaciones
Conjunto de Entidades
Conjunto de Relaciones
Cardinalidad de Asignación
Diagrama E-R
Conceptos manejados en el modelo orientado a objetos son:
Clases
Instancias
Métodos
Mensaje
Herencia
Polimorfismo
Nivel LÓGICO
Los modelos lógicos basados en registros correspondes a los niveles de abstracción
conceptual y físico. Se llaman basados en registros porque la base de la representación son
los registros de formato fijo, donde cada campo normalmente es de longitud fija, lo que
simplifica su implementación. En el modelo orientado a objetos se utilizan registros de
longitud variable, generando una estructura más rica en el nivel físico.
Los tres modelos de datos más aceptados actualmente son el relacional y el de objetos. Los
modelos de red y jerárquico se consideran, como ya se comento, un escalón histórico para
la concepción del relacional.
Bases de Datos. Miguel Murguía. FAR.
10
Nivel FÍSICO
Los modelos físicos corresponden al nivel de abstracción físico. Hay muy pocos modelos
físicos en uso, a diferencia de los modelos lógicos; dos de los más conocidos son el modelo
unificado y la memoria de elementos.
Esquema: operación de los niveles de abstracción
Los niveles de abstracción de datos son una estrategia para organizar los datos
considerando desde la plataforma física hasta el nivel de usuario. Los esquemas son las
estructuras diseñadas para resolver cada nivel de abstracción, así, los sistemas de bases de
datos soportan varios esquemas:
Nivel de abstracción
Físico
Conceptual
Visión
Esquema
Esquema físico
Esquema conceptual
Esquema externo
En el nivel de visión pueden existir varios subesquemas, ya que su función es brindar una
forma especializada de acceso a la información a cada tipo de usuario.
Figura 2. Los tres niveles de esquemas en los modelos de Bases de Datos.
El esquema es en sí una estructura capaz de almacenar un conjunto de datos. Uno de los
problemas que debe resolver una base de datos es el cambio de la información a través del
tiempo, por esa razón se define el concepto de instancia, que es una colección de datos
almacenada en un determinado instante. Por lo que la instancia, por definición cambiaa
través del tiempo, mientras que el esquema, el diseño global de la BD, normalmente no
cambia o cambia poco y en intervalos de tiempo mucho mayores.
Bases de Datos. Miguel Murguía. FAR.
11
Haciendo una analogía con los lenguajes de alto nivel,el esquema corresponde a la nocón
de tipo, mientras que la instancia a la de valor que adquiere determinada variable.
Independencia de datos
Independencia de datos es la capacidad de modificar la definición de un esquema sin
afectar la definición de un nivel superior.
Independencia Lógica: Modificar el esquema conceptual sin provocar que se necesiten
escribir los programas de aplicación.
Independencia Física: Modificar el esquema físico sin provocar que se necesiten escribir
los programas de aplicación.
La independencia lógica es más difícil de lograr que la física, pues los programas de
aplicación son fuertemente dependientes de los datos que acceden.
La independencia de datos es análoga a los tipos abstractos de datos de los lenguajes de
programación.
1.3 Los Lenguajes en las Bases de Datos
Los DBMS pueden responder a una amplia gama de preguntas sin necesidad de mucho
esfuerzo por parte del usuario. Estas preguntas a la BD se llaman “Queries”. Los lenguajes
para trabajar con datos se pueden dividir en dos tipos, o bien tiene dos funciones:
Lenguaje de definición de datos
Lenguaje de manipulación de datos
Lenguaje de definición de datos
DDL (data definition language): Lenguaje de definición de datos. Especifica un esquema
de base de datos. El resultado de la compilación de un conjunto de instrucciones de DDL
son un conjunto de tablas cuya definición se almacena en el diccionario de datos (o
directorio). El diccionario contiene metadatos (datos sobre los datos).
Lenguaje de manipulación de datos
DML (data manipulation language): Lenguaje que permite a los usuarios acceder los datos
y permite:
• Recuperar información almacenada en la BD
• Incorporar nueva información
• Borrar información
Bases de Datos. Miguel Murguía. FAR.
12
• Modificar información almacenada en la BD
Se pueden dividir en dos tipos:
•
•
Procedimentales (qué datos y cómo obtenerlos)
No procedimentales (qué datos y no cómo obtenerlos)
Lenguaje de consulta: subconjunto del DML que permite sólo consultas, pero no
modificaciones.
El lenguaje usado actualmente como DML y DDL es SQL. Aunque existen sistemas cion
otros lenguajes, se puede de decir que para fines prácticos SQL “es” el lenguaje que
utilizan los DBMS.
Los fundamentos para los lenguajes de “queries” son el Cálculo Relacional y el Álgebra
Relacional, ambos son equivalentes, el primero es declarativo, mientras que el segundo se
concibe con base en operadores.
El administrador de la base de datos
La persona que se encarga del control central del sistema es el “administrador de la base de
datos” (DBA). Sus funciones son:
•
•
•
•
•
•
Definición del esquema.
Definición de la estructura de almacenamiento y del método de acceso.
Modificación del esquema y de la organización física.
Concesión de autorizaciones para el acceso a los datos.
Especificación de las restricciones de integridad.
Aspectos de seguridad
Usuarios de bases de datos
Se pueden clasificar en cuatro:
Programadores de aplicaciones. Generan programas de aplicación en DML, en ocasiones
inmerso en algún lenguaje de alto nivel.
Usuarios sofisticados. No escriben programas de aplicación, pero sí realizan preguntas
sofisticadas en el lenguaje DML.
Usuarios especializados. Usuarios interesados en aplicaciones sofisticadas, como sistemas
expertos, sistemas de Información para Ejecutivos, Sistemas Multimedia (video, sonido,
etc.).
Usuarios finales. Únicamente hacen uso de los programas o “queries” ya establecidos.
Bases de Datos. Miguel Murguía. FAR.
13
1.4 Arquitectura general de un DBMS
En la figura 3 se muestra la arquitectura básica de un DBMS, los diferentes módulos se
pueden agrupar en cuatro grandes clases:
Máquina de evaluación
Gestor de Base de Datos
Administrador de Recuperación
Control de Concurrencia
Figura 3. Arquitectura de un DBMS (tomada de Ramakrishnan y Gehrke, 2003).
Máquina de evaluación. Traduce instrucciones del lenguaje de consultas a instrucciones de
bajo nivel que entiende el gestor de base de datos. Intenta transformarla en una pregunta
equivalente pero eficiente.
Parser
Optimizador
Plan de ejecución
Evaluador. Traduce las instrucciones del DML a comandos de manipulación de
archivos de bajo nivel.
Bases de Datos. Miguel Murguía. FAR.
14
Gestor de Base de Datos. Interfaz entre los datos de bajo nivel y los programas de
aplicación y consultas al sistema:
Métodos de acceso
Administrador del buffer
Administrador de espacio en disco: Asignación de espacio en disco. Estructuras de
datos usadas para representar información.
Administrador de Recuperación. Todos los sistemas informáticos están sujetos a fallas
lógicas y físicas (daño del disco, alteraciones en el suministro de energía, errores de
software, etc.), el DBMS debe ser capaz de detectar estas fallas y tomar las medidas
necesarias para reestablecer la base de datos, normalmente mediante copias de seguridad o
bitácoras (archivos “log”).
Control de Concurrencia. Cuando varios usuarios actualizan la base de datos es posible que
no se conserve la consistencia de los datos. El DBMS debe controlar estas concurrencias,
que es los que permite a los usuarios pensar como si ellos estuvieran trabajando de manera
aislada.
Administrador de transacciones
Administrador de Bloqueos. “protocolo de bloqueo”
Otros elementos que administra el DBMS son:
Precompilador DML. Convierte las instrucciones de DML en un programa de
aplicación, en llamadas normales a procedimientos en lenguaje de alto nivel.
Compilador DDL. Convierte instrucciones de DDL (Data Definition Language) en
un conjunto de tablas con metadatos.
Archivos de Datos. Almacenan la base de datos.
Diccionario de Datos. Almacenan metadatos: datos o información sobre la
estructura de la base de datos.
Índices. Proporcionan acceso rápido a los datos.
Bases de Datos. Miguel Murguía. FAR.
15
Preguntas
1.
2.
3.
4.
5.
¿Cuáles son los niveles de esquemas de una BD?
¿Qué relación tiene la independencia de datos y los esquemas?
¿Cuáles son las ventajas de usar un DBMS?
Identifica cada ventaja con los datos que manipulas en tu trabajo
Explica el concepto de TRANSACCION y su importancia en el manejo de
información.
6. Explica la arquitectura de los DBMS.
7. Define con tus palabras los siguientes conceptos:
• BD Relacional
• Bloqueo
• Concurrencia
• DBA
• DBMS
• DML
• Esquema
• Independencia de Datos
• Nivel de abstracción
• Protocolo de bloqueo
• Recuperación
• Registro de Transacciones
• SQL
Bases de Datos. Miguel Murguía. FAR.
16
2. El Modelo Entidad-Relación
Generalidades del Modelo Entidad-Relación
El modelo entidad relación es un “modelo lógico basado en objetos” que resuelve el
problema de la descripción de datos en los niveles conceptual y de visión. Consiste en un
conjunto de objetos básicos llamados Relaciones y Entidades.
Entidades y Relaciones
Entidad. Objeto que existe y es distinguible de otros. Puede ser físico (v.g. persona o libro)
o abstracto (v.g. día festivo o conceptos).
Conjunto de Entidades. Grupo de entidades del mismo tipo, por ejemplo, el conjunto
(ALUMNO) de todas las personas que toman cursos en la FAR. Los conjuntos
de entidades no necesariamente deben ser disjuntos, por ejemplo ALUMNO y
PROFESOR pueden compartir entidades.
Atributo. Características de las entidades. Una entidad está representada por un conjunto de
atributos. Los atributos representan el uso de un dominio. Por ejemplo,
Nombre_alumno es una atributo del conjunto de entidades ALUMNO.
Dominio. Conjunto de valores permitidos para cada atributo. Por ejemplo, el dominio del
atributo calificación podría ser el conjunto de todos los reales entre 0 y 10.
Relación. Asociación entre dos o más entidades.
Bases de Datos. Miguel Murguía. FAR.
17
Por ejemplo, a continuación se muestra una relación entre las entidades
PROVEEDOR y PRODUCTO:
PRODUCTO
Nombre_producto
LAPIZ
GOMA
CHOCOLATE
CHAMOI
PROVEEDOR
Nombre_proveedor
OFIMAX
LUMEN
EXPENDIO LUPITA
MAGO DE OZ
Teléfono
645 4523
234 5467
545 3421
534 6756
Que puede representarse por la tupla:
Nombre_producto
LAPIZ
Nombre_proveedor
LUMEN
Teléfono
234 5467
y podría significar, por ejemplo, que LUMEN vende el producto LAPIZ.
Formalmente:
• Dados los conjuntos D1, D2, ..., Dn, se dice que R es una relación
sobre estos n conjuntos si es un conjunto de n elementos ordenados
(d1, d2, ..., dn) tales que d1 ∈ D1, d2 ∈ D2, ..., dn ∈ Dn.
• Los conjuntos D1, D2, ..., Dn son los dominios de R.
• El valor n es el grado de R.
Dada esa definición, el término relación, también suele usarse para denotar a una
tabla o conjunto de entidades, pues si:
D1= Nombre_proveedor
D2= Teléfono
entonces, la siguiente es una relación:
PROVEEDOR
Nombre_proveedor
OFIMAX
LUMEN
EXPENDIO LUPITA
MAGO DE OZ
Teléfono
645 4523
234 5467
545 3421
534 6756
Se dice que PROVEEDOR es una relación de grado 2 y tiene una cardinalidad de 4
(número de tuplas).
Posteriormente se revisará otra definición de relación.
Bases de Datos. Miguel Murguía. FAR.
18
Relación binaria. Relación de grado 2, i.e. entre dos entidades:
R= {di, dj}
Cardinalidad de una relación. Número de entidades que contiene una relación.
Conjunto de Relaciones
Conjunto de relaciones: Conjunto de relaciones del mismo tipo.
Por ejemplo, la relación CATALOGO entre las entidades PROVEEDOR y
PRODUCTO:
PRODUCTO
Nombre_producto
LAPIZ
GOMA
CHOCOLATE
CHAMOI
CATALOGO PROVEEDOR
Nombre_proveedor
OFIMAX
LUMEN
EXPENDIO LUPITA
MAGO DE OZ
Teléfono
645 4523
234 5467
545 3421
534 6756
que puede representarse por la tabla:
CATALOGO
Nombre_producto
LAPIZ
LAPIZ
LAPIZ
GOMA
GOMA
CHOCOLATE
CHOCOLATE
CHAMOI
Nombre_proveedor
OFIMAX
LUMEN
EXPENDIO LUPITA
LUMEN
EXPENDIO LUPITA
EXPENDIO LUPITA
MAGO DE OZ
EXPENDIO LUPITA
Un conjunto de relaciones puede definirse como un subconjunto de:
R={(e1, e2,... en) | e1 ∈ E1, e2 ∈ E2, ... en ∈ En,}
donde:
Bases de Datos. Miguel Murguía. FAR.
19
e1, e2,... en son entidades;
E1, E2,... En son conjuntos de entidades y
(e1, e2,... en) es una relación.
Cardinalidad de asignación
Cardinalidad de asignación: Número de entidades con las que puede asociarse otra
entidad, dentro de un conjunto de relaciones.
Si A y B son conjuntos de entidades, la cardinalidad de asignación de un conjunto
de relaciones entre ellas, puede ser:
1:1
Si la entidad a∈A está asociada a lo más con una b∈B y la entidad b∈B está
asociada a lo más con una a∈A.
1:N
Si la entidad a∈A está asociada a lo más con una b∈B y la entidad b∈B está
asociada con un número cualquiera de entidades a∈A.
N:M
Si la entidad a∈A está asociada con un número cualquiera de entidades b∈B
y la entidad b∈B está asociada con un número cualquiera de entidades a∈A.
Dependencia de existencia. La entidad x es dependiente por existencia de y, si es necesaria
la existencia de la entidad y para la existencia de x. (Si se borra y, también se
debe borrar x). Se dice que y es la entidad dominante y x la entidad
subordinada.
Bases de Datos. Miguel Murguía. FAR.
20
Cardinalidad de asignación: ejemplos
Cardinalidad de asignación 1:1
ALUMNO
Nombre_alumno
...
DIRECCION
Calle_y_número
Colonia
...
Cardinalidad de asignación 1:N
CARRERA
Nombre_carrera
ALUMNO
Nombre_alumno
...
Cardinalidad de asignación N:M
PRODUCTO
Nombre_producto
LAPIZ
GOMA
CHOCOLATE
CHAMOI
CATALOGO PROVEEDOR
Nombre_proveedor
OFIMAX
LUMEN
EXPENDIO LUPITA
MAGO DE OZ
Teléfono
645 4523
234 5467
545 3421
534 6756
Dependencia de existencia: ALUMNO (entidad subordinada) podría ser dependiente de
CARRERA (entidad dominante).
Bases de Datos. Miguel Murguía. FAR.
21
Claves
Superclave. Conjunto de atributos que permiten distinguir de forma única a una entidad
dentro del conjunto de entidades. Por ejemplo, {Rfc} es una superclave de la
entidad CONTRIBUYENTE, también {Rfc, Nombre} es una superclave, pero
{Nombre} no es una superclave, pues varios contribuyentes pueden tener el
mismo nombre.
Clave candidata. Superclave, tal que ningún sobconjunto propio es una superclave. El
concepto de clave candidata sirve para definir conjuntos con cardinalidad
mínima de atributos que identifiquen a las entidades. Pueden existir varias
claves candidatas para cada entidad.
Clave primaria. Clave candidata que elige el diseñador para distinguir a las entidades
dentro del conjunto de entidades.
Clave alterna. Clave candidata que no es la clave primaria.
Conjunto débil de entidades. Conjunto de entidades para el que no se puede definir una
clave candidata.
Conjunto fuerte de entidades. Conjunto de entidades para el que sí se puede definir al
menos una clave candidata.
Entidad dominante. Entidad que pertenece a un conjunto fuerte de entidades.
Entidad subordinada. Entidad que pertenece a un conjunto débil de entidades.
Discriminador. Conjunto de atributos que el diseñador crea de manera artificial para
permitir distinguir de manera única a cada entidad de un conjunto débil de
entidades.
Por ejemplo, el conjunto débil de entidades
TRANSACCION = {Número_de_cuenta,
Número_transacción,
Fecha}
contiene el atributo Número_transacción como discriminador. Así, la clave
primaria de un conjunto débil de entidades está formada por la clave primaria
del conjunto de entidades fuerte del que depende su existencia y el
discriminador.
Bases de Datos. Miguel Murguía. FAR.
22
Por ejemplo,
{Número_de_cuenta, Número_transacción }
distingue entidades TRANSACCION dentro de una misma CUENTA.
Atributos de relaciones
Sea R un conjunto de relaciones que involucran a los conjuntos de
entidades E1, E2, ...En y sea Ei los atributos que conforman a la clave
primaria de Ei, entonces los atributos de R son:
la clave primaria de E1,
la clave primaria de E2,
...
y
la clave primaria de En
es decir:
{E1, E2, ..., En}
R puede tener atributos descriptivos (adicionales), por lo que el
conjunto de atributos de la relación R sería:
{E1, E2, ..., En, a1, a2, ..., an}
E1=PRODUCTO
Nombre_producto
LAPIZ
GOMA
CHOCOLATE
CHAMOI
Clase
PAPELERIA
PAPELERIA
DULCERIA
DULCERIA
E2=PROVEEDOR
Clase
PAPELERIA
PAPELERIA
DULCERIA
DULCERIA
Nombre_proveedor
OFIMAX
LUMEN
EXPENDIO LUPITA
MAGO DE OZ
Teléfono
645 4523
234 5467
545 3421
534 6756
Por ejemplo, los atributos de la relación PEDIDO
Bases de Datos. Miguel Murguía. FAR.
23
PEDIDO
E1
E2
Nombre_producto
LAPIZ
CHOCOLATE
Nombre_proveedor
LUMEN
LUPITA
a1
Cantidad
100
20
Reglas de integridad
La interpretación del mundo real que se hace de una relación, lleva a considerar la
imposición de reglas de integridad. Es decir, hay cosas que el modelo teórico permite, pero
que no se dan en la realidad.
1: Integridad de la Entidad. Ningún valor de un componente de la llave primaria puede ser
nulo.
2: Integridad de Referencia. Sea D un dominio primario y R una relación con atributo A
que se define sobre D. Cada valor de A en R debe ser un valor de la llave
primaria de alguna relación con llave primaria sobre D.
Dominio Primario. Dominio para el que existe una llave primaria de un sólo
atributo.
Clave foránea. Atributo con las propiedades de A.
Extensión. Conjunto de tuplas que tiene una relación en un instante dado.
Comprensión. Esquema de la relación.
Por ejemplo, considerando los conjuntos de entidades PRODUCTO y PROVEEDOR de
la tabla 2.1:
E1 = PRODUCTO
E2 = PROVEEDOR
(E1)= NOMBRE_PRODUCTO
(E2)= NOMBRE_PROVEEDOR
a1 = CANTIDAD
Entonces, el conjunto de atributos de R es:
R= PEDIDO = {(E1), (E2), a1}
El conjunto de atributos de un conjunto R de relaciones es una superclave.
Bases de Datos. Miguel Murguía. FAR.
24
La clave primaria de un conjunto de relaciones depende de la cardinalidad de la asignación.
Relación normalizada. Relación en la que todo valor de cada atributo es atómico, no
compuesto por un conjunto de valores.
Diagramas E-R
Los elementos usados en los diagramas Entidad-Relación son:
Se puede indicar la cardinalidad gráficamente por:
Una a muchas
Muchas a una
Muchas a muchas
Una a una
←—⎯
⎯—→
⎯—⎯
←—→
Bases de Datos. Miguel Murguía. FAR.
25
De los diagramas E-R a Tablas
Cada conjunto de entidades y cada conjunto de relaciones se puede representar mediante
una tabla.
Conjunto fuerte de entidades. Cada atributo corresponde a una columna y cada entidad a un
renglón (tupla o fila).
Conjunto débil de entidades. Cada atributo se representa por una columna y se deben
añadir una columna por cada atributo de la clave primaria del conjunto de entidades fuerte
del que depende.
Conjuntos de relaciones. Una tabla con una columna por cada atributo.
EJERCICIOS
1. Defina un esquema para el control de un negocio.
2. Realiza un diagrama E-R. Utilice adecuadamente la simbología revisada en clase.
3. Indique algunos ejemplos de atributos que podrían definirse como entidades y viceversa,
de acuerdo a diferentes necesidades de control.
4. Ejemplifique: relaciones recursivas, atributos multivaluados y compuestos, restricciones
de participación total y parcial.
Bases de Datos. Miguel Murguía. FAR.
26
Dominios y Atributos
Atributo. Características de las entidades. Una entidad está representada por un conjunto de
atributos. Los atributos representan el uso de un dominio. Por ejemplo,
Nombre_alumno es una atributo del conjunto de entidades ALUMNO.
Dominio. Conjunto de valores permitidos para cada atributo. Por ejemplo, el dominio del
atributo calificación podría ser el conjunto de todos los reales entre 0 y 10.
Cada atributo simple de un tipo de entidad está asociado con un conjunto de valores o
dominio.
El atributo A de un tipo de entidad E cuyo conjunto de valores es V, puede definirse como
una función de E hacia el conjunto potencia de V:
A: E → P(V)
El conjunto potencia P(V) de un conjunto V es el conjunto de todos los subconjuntos de V.
Atributo derivado. Atributo que puede ser calculado a partir de otro almacenado. Por
ejemplo, la Edad puede derivarse del atributo Fecha_de_nacimiento.
Atributo almacenado. Atributo que se graba físicamente en los archivos y que puede servir
de base para calcular otros. Por ejemplo el atributo Sueldo puede servir para
calcular el Impuesto.
Atributo compuesto. Atributo que está formado por otros atributos. Por ejemplo,
Dirección puede componerse de Calle, Número, Colonia y Cp.
Atributo multivaluado. Atributo que puede adquirir más de un valor para una misma
entidad. Por ejemplo, el atributo Color de un coche puede tener hasta 3
valores.
Bases de Datos. Miguel Murguía. FAR.
27
Restricción en las relaciones
Cardinalidad de asignación. Número de entidades con las que puede asociarse otra entidad,
mediante un conjunto de relaciones.
Restricción de participación. Especifica si la existencia de una entidad depende de la de
otra via relación. Puede ser total o parcial.
Dependencia de existencia (participación total). Especifica que toda entidad está
relacionada a alguna(s) de la del otro conjunto. Por ejemplo, todo
MUNICIPIO pertenece a un ESTADO.
Participación parcial. Especifica que algunas entidades (pero no necesariamente
todas) están relacionadas a alguna(s) de la del otro conjunto. Por
ejemplo, algunos MUNICIPIOS tienen PUERTOS
Restricción estructural. Cardinalidad de asignación y restricciones de participación.
Restricción estructural
Restricción de participación
Cardinalidad
total
parcial
1:1
1:N
N:M
Bases de Datos. Miguel Murguía. FAR.
28
Relaciones (papeles y recursividad)
Papel. Una entidad que participa en una relación, desempeña un papel. El nombre del tipo
de la entidad no necesariamente es el mismo que el del papel (v.g. en las
relaciones recursivas).
Ejemplos de papeles que puede desempeñar un EMPLEADO
ENTIDAD
RELACION
ENTIDAD
EMPLEADO
PARTICIPACION
PROYECTO
Colaborador
EMPLEADO
DIRECCION
PROYECTO
SUPERVISION
EMPLEADO
Director
EMPLEADO
Supervisor
Supervisado
Relación recursiva. Relación en la que participan entidades del mismo conjunto (tipo). Una
entidad que participa en una relación recursiva puede tener dos papeles
distintos.
Bases de Datos. Miguel Murguía. FAR.
29
II El Modelo Relacional de Bases de Datos
1. Introducción al Modelo Relacional
Antecedentes y orígenes del Modelo Relacional
1969
Primera publicación de Codd sobre el modelo relacional
1970
Publicación de Codd que consolida al modelo relacional
1971
Codd publica sus 1NF, 2NF y 3NF
1970-1988 Codd publica varios artículos para consolidar el modelo
1976
Ronald Fagin inventa 4NF y 5NF
1976
Chen publica su modelo “Entidad-Relación”
1979
Codd presenta la versión extendida de su modelo
1990
Codd sintetiza su “segunda versión” que es un subconjunto
de su versión extendida
Bases de Datos. Miguel Murguía. FAR.
30
Conceptos del Modelo Relacional
Informalmente, en el modelo relacional una relación es una tabla. Cada
renglón de la tabla puede interpretarse como una colección de datos que
describen una entidad del mundo real.
Los nombres de las tablas y de las columnas se utilizan para ayudar a
interpretar el significado de cada valor. Por ejemplo, la tabla ALUMNO
contiene datos de los alumnos de la escuela y cada renglón representa una
entidad del mundo real. Los nombres de cada columna especifican cómo
interpretar los valores de cada renglón. Todos los valores de una columna son
del mismo tipo de dato.
En la terminología del modelo relacional, a cada renglón se le llama tupla, al
encabezado de cada columna atributo y a la tabla relación. El tipo de datos
que describe los tipos de valores que pueden aparecer en cada columna se la
llama dominio.
Dominio. Un dominio D es un conjunto de valores atómicos. Por atómico se
entiende que cada valor es indivisible. Por ejemplo, el dominio de
los números de cuenta es el conjunto de las cadenas de 6 dígitos; el
dominio de las calificaciones son los reales entre 0 y 10.
Relación. Una relación r de un esquema de relación R(A1, A2 ..., An), también
denotada por r(R), es un conjunto de n-tuplas r={t1, t2, ..., tm}. Cada
n-tupla t es una lista ordenada de valores <v1,v2, ...,vn> donde cada
valor vi 1 ≤ i ≤ n es un elemento del dominio dom(Ai) o es un valor
especial nulo.
Bases de Datos. Miguel Murguía. FAR.
31
Tuplas
Orden de las tuplas en una relación
El orden de las tuplas en una relación no es parte de la definición de la
relación, pues en teoría, una relación es un conjunto de tuplas y
matemáticamente, los elementos de un conjunto no están ordenados.
Figura. Las tuplas son elementos de un conjunto (colección no ordenada).
Aunque en la implementación física de una relación, los renglones si tiene un
orden, en el sentido de que se puede distinguir al primero y al segundo, etc. o
al sucesor y al predecesor, una relación intenta representar hechos en un nivel
abstracto o lógico.
En un archivo físico, una relación puede estar ordenada por diversos criterios,
por ejemplo, por los valores de un atributo; sin embargo, una relación
ordenada con dos criterios distintos sigue siendo la misma relación.
Figura. Un conjunto de tuplas es el mismo, aunque las tuplas se ordenen de
manera diferente.
Bases de Datos. Miguel Murguía. FAR.
32
Cuando una relación se concibe como una tabla:
• Cada renglón representa una tupla de R.
• El orden de los renglones no es importante
• Todos los renglones se distinguen de los demás por su contenido.
Renglones repetidos
Las tablas que tienen renglones repetidos no representan relaciones,
particularmente son llamadas relaciones corruptas o relaciones impropias.
Existen varias razones para no permitir tuplas repetidas:
• Reducen la optimización de los comandos relacionales.
• Generan problemas conceptuales severos al usuario así como
restricciones.
Además, una base de datos puede ser utilizada por cientos o miles de usuarios,
por lo que debe existir un significado común para todos los datos que accecen.
No existe una interpretación precisa, aceptada e independiente del contexto
para los renglones repetidos.
En general, cada tupla o renglón asociado al nombre de la relación a la que
pertenece implica una aseveración. Por ejemplo, cada renglón de la relación
ALUMNO es una aseveración de que una persona en específico es un alumno
de la escuela. Este hecho hace a las bases de datos relacionales compatibles
con las bases de conocimientos.
Bases de Datos. Miguel Murguía. FAR.
33
Orden de los valores en una tupla
De acuerdo a una de las definiciones de relación, una n-tupla es una lista
ordenada de n valores, por lo que el orden de los valores en la tupla si es
importante, y por lo tanto, también lo es el orden de los atributos en la
definición de un esquema de relación.
Adicionalmente, una tupla puede ser considerada como un conjunto de pares
(<atributo>,<valor>), donde cada par da el valor de mapeo de un atributo Ai
un valor vi del dom(Ai). Así las siguientes tuplas son idénticas:
t= <(Numero-cuenta, 950001), (Nombre-alumno, Oscar
Martínez), (Año-ingreso, 95), (Carrera,Biología)>
t= < (Nombre-alumno, Oscar Martínez), (Carrera,Biología),
(Numero-cuenta, 950001), (Año-ingreso, 95)>
Con esa concepción de tupla, el orden de los atributos dentro de ella no es
importante. De hecho, existen razones adicionales para nombrar, de manera
única, a las columnas:
• El nombre de las columnas dan al usuario una idea del significado de
los datos que almacena.
• Permite a los usuario no tener que recordar el orden de cada columna.
• De una manera de distinguir el significado de la columna del de su
dominio, pues una columna usa a un dominio.
Bases de Datos. Miguel Murguía. FAR.
34
Instancia de la base de datos con
esquema ESCUELA
ALUMNO
Numerocuenta
950001
950002
970001
970002
950003
950004
950005
970003
970004
970005
Nombre-alumno
Oscar Martínez
Mario Sánchez
Emilio Vera
Isabel Valderrama
Ma. Elena Cañedo
Carmen Díaz
Jorge Soto
Miguel Romero
José Malo
Salvador Pascual
MATERIA
Clave-materia
01002
01003
02001
02002
03001
03002
02003
EXAMEN
Numerocuenta
950001
950005
970002
970005
Nombre-materia
Algebra
Cálculo
Estadística
Botánica
Física relativista
Partículas
elementales
Bioquímica
Clavemateria
02002
03001
01002
03002
AñoCarrera
ingreso
95 Biología
95 Biología
97 Biología
97 Matemáticas
95 Matemáticas
95 Biología
95 Física
97 Biología
97 Matemáticas
97 Física
Nivel Créditos Carrera
2
7 Matemáticas
1
10 Matemáticas
1
5 Biología
3
8 Biología
4
10 Física
3
9 Física
2
12 Biología
Orden-de-pago Fechaexamen
3567
6/2/97
3678
4/2/97
3676
5/6/97
3789
3/6/97
Bases de Datos. Miguel Murguía. FAR.
35
HISTORIA
Numero-cuenta
950001
950002
950002
950004
950004
970003
970003
Clave-materia Semestre-curso Calificacion
02001
96
8.2
02001
96
9
02003
96
7
02002
96
9
02003
95
10
02002
95
8
02003
96
9
Diagrama E-R para una escuela
Bases de Datos. Miguel Murguía. FAR.
36
Otra definición de relación
Si se considera a la tabla ALUMNO, se puede observar que tiene los atributos
Numero-cuenta, Nombre-alumno, Año-ingreso y Carrera.
Para cada atributo existe un conjunto de posibles valores: su dominio. Por
ejemplo, el dominio del atributo Carrera son todos los nombres de las
carreras que se imparten en la escuela.
Así, podemos definir los dominios D1, D2 D3 y D4, donde D1 es el conjunto
de todos los números de cuenta, D2 de todos los nombres posibles de alumnos,
D3 todos los años y D4 todas las carreras.
Cada uno de los renglones de la tabla ALUMNO consta de cuatro valores (v1,
v2, v3, v4), donde v1 es el número de cuenta, v2 el nombre del alumno, v3 el
año de ingreso y v4 la carrera. Por lo anterior, la tabla ALUMNO es un
subconjunto de:
D1 x D2 x D3 x D4
Desde el punto de vista matemático, una relación se define como un
subconjunto del producto cartesiano de una lista de dominios.
En la terminología matemática, los términos de relación y tupla son análogos
a los de tabla y fila en el Modelo Relacional..
La relación ALUMNO tiene 10 tuplas. Sea t la primera tupla de la relación, se
usará la notación t[Nombre-del-atributo] para indicar el valor de ese atributo
en la tupla, así t[Nombre-alumno]=“Oscar Martínez”, t[Año-ingreso]=95.
Es necesario que todos los dominios de todos los atributos de todas las
relaciones sean atómicos, es decir, que los valores sean unidades indivisibles.
Bases de Datos. Miguel Murguía. FAR.
37
Esquemas de relaciones
Esquema de una relación. El esquema de una relación es la estructura de
atributos que contiene, por ejemplo, el esquema de la relación
ALUMNO es (Numero-cuenta, Nombre-alumno, Año-ingreso,
Carrera).
En general, se usará la notación esquema-alumno para referirse al esquema
de la relación alumno, así:
esquema-alumno=(Numero-cuenta, Nombre-alumno, Año-ingreso,
Carrera)
También, se indicará que una relación se construye sobre un esquema
mediante:
nombre-de-la-relacion(nombre-del-esquema)
Así, si se quiere indicar que la relación ALUMNO tiene el esquema esquemaalumno se escribe:
alumno (esquema_alumno)
El esquema de la relación EXAMEN es
esquema-examen = (Numero-cuenta, Clave-materia, Orden-de-pago, Fechaexamen)
El hecho de que pueda aparecer el mismo atributo en diferentes relaciones
permite relacionar a las tuplas entre esas relaciones.
Para la explicación de los conceptos sobre el modelo relacional se utilizarán
como ejemplo el conjunto de relaciones ESCUELA, derivadas de la figura.
Así, se tienen las relaciones ALUMNO, MATERIA, HISTORIA y EXAMEN.
Sus esquemas son:
Bases de Datos. Miguel Murguía. FAR.
38
esquema-alumno = (Numero-cuenta, Nombre-alumno, Año-ingreso,
Carrera)
esquema-materia = (Clave-materia, Nombre-materia, nivel, Créditos,
Carrera)
esquema-examen = (Numero-cuenta, Clave-materia, Orden-de-pago,
Fecha-examen)
esquema-historia = (Numero-cuenta, Clave-materia, Semestre-curso,
Calificación)
con claves primarias:
Numero-cuenta
Clave-materia
Numero-cuenta, Clave-materia
Numero-cuenta, Clave-materia
respectivamente.
Bases de Datos. Miguel Murguía. FAR.
39
Esquema de una Base de Datos
Esquema de una base de datos relacional. El esquema de una base de datos
relacional es el conjunto de esquemas de relaciones
S={ R1, R2, ..., Rm } y un conjunto de restricciones de integridad RI.
Por ejemplo, el esquema de la base de datos ESCUELA es:
ALUMNO
Numero-cuenta Nombre-alumno
Año-ingreso
MATERIA
Clave-materia
Nivel
Nombre-materia
Carrera
Créditos Carrera
EXAMEN
Numero-cuenta
Clave-materia Orden-de-pago
HISTORIA
Numero-cuenta
Clave-materia Semestre-curso Calificacion
Fecha-examen
Bases de datos ricas. Bases de datos relacionales con muchas relaciones
y generalmente pocas tuplas.
Bases de datos extensas. Bases de datos relacionales con pocas
relaciones y generalmente muchas tuplas.
Por ejemplo, las bases de conocimiento son ricas, mientras que la mayoría de
las comerciales son extensas.
Bases de Datos. Miguel Murguía. FAR.
40
Notación
Se utilizará la siguiente notación para describir al modelo relacional:
• Un esquema de relación de grado n se denota por R(A1, A2 ..., An).
• Una n-tupla ten una relación r(R) se denota por t= <v1,v2, ...,vn donde
vi es el valor correspondiente al atributo Ai.
• t[Ai] se refiere al valor vi en t para el atributo Ai.
• t[Au,Aw, ..., Az] donde Au, Aw, ...,Az es una lista de atributos de R, se
refiere a la subtupla de valores <vu,vw, ...,vz> de t correspondientes a
los atributos especificados en la lista.
• Las letras Q, R y S denotan nombres de relaciones.
• Las letras q, r, s denotan instancias de relaciones.
• Las letras t, u, v denotan tuplas.
• En general, el nombre de una relación, como por ejemplo
ALUMNO, indica el conjunto actual de tuplas en esa relación
(estado actual de la relación o instancia), mientras que
ALUMNO(Numero-de-cuenta, Nombre-alumno, ...) se refiere al
esquema.
Bases de Datos. Miguel Murguía. FAR.
41
2. Principales características del Modelo Relacional
Restricciones del Modelo Relacional
El Modelo Relacional contempla la imposición de restricciones que se asocian
a un esquema, algunas de ellas son:
•
•
•
•
Integridad de Dominio
Integridad de Claves
Integridad de la Entidad
Integridad Referencial
A continuación se explica cada tipo:
Integridad de Dominio. Todo valor del atributo A debe ser un valor
atómico que pertenece al dominio dom(A) de ese atributo.
Integridad de Claves. No pueden existir un par de tuplas que tengan los
mismos valores en cada uno de sus atributos.
Integridad de la Entidad. Ningún valor de un componente de la llave
primaria puede ser nulo.
Dominio Primario. Dominio para el que existe una llave primaria de un
sólo atributo.
Integridad de Referencia. Sea D un dominio primario y R una relación
con atributo A que se define sobre D. Cada valor de A en R
debe ser un valor de la llave primaria de alguna relación con
llave primaria sobre D.
Las restricciones de integridad de referencia pueden expresarse mediante
flechas sobre el esquema de la base de datos, que conectan a atributos entre los
esquemas de las relaciones.
Bases de Datos. Miguel Murguía. FAR.
42
Relación: el único tipo de dato compuesto
En el modelo relacional todas las operaciones se realizan sobre relaciones y
como resultado producen relaciones.
El único tipo de dato compuesto en el modelo relacional es la relación, pues
los valores de los dominios en cada relación deben ser atómicos
La razón por la que el modelo relacional permite sólo un tipo de dato
compuesto es que los datos compuestos agregan complejidad sin agregar
poder.
Por ejemplo, las cuatro operaciones básicas de un lenguaje de manipulación de
datos (DML) son:
retrieve
insert
update
delete
Si existieran n tipos de datos compuestos, entonces se requerirían 4n
comandos para cubrir las operaciones básicas.
En general, en los modelos de bases de datos relacionales hay una tendencia a
crear cada vez más y más tipos de datos compuestos y con ella se complican
más los lenguajes de manipulación de datos, haciéndolos más difíciles de usar
o programar.
Bases de Datos. Miguel Murguía. FAR.
43
Críticas al modelo Entidad-Relación
El modelo Entidad Relación fué propuesto posteriormente al Modelo
Relacional. Codd, en su segunda versión del Modelo Relacional, critica al
modelo ER diciendo:
• Sólo se describen aspectos de la estructura, no de las operaciones sobre
estas estructuras ni de restricciones de integridad. Por lo tanto no es un
modelo de datos.
• La distinción de entidades y relaciones no ha sido definida con
precisión, como consecuencia, una entidad persona es otra relación
persona.
• Aún si esta distinción se puede definir, añadiría complejidad sin añadir
poder.
Bases de Datos. Miguel Murguía. FAR.
44
Evolución del Modelo Relacional
Aceptación
Las nuevas versiones del Modelo Relacional son más proscriptivas, es decir,
se imponen más restricciones. Estas imposiciones permitirán, dice Codd,
avanzar de un estado primitivo a uno básico. Lo analoga a la discusión en
programación en la que Dijkstra rechazaba el uso del comando GO TO.
La versión modificada “Tasmania” del modelo de Codd incorpora nuevas
características que dan potencia adicional a su primera versión, sin embargo,
se ha integrado parcialmente en una segunda versión con la finalidad de dar
oportunidad a los desarrolladores de asimilar estas adiciones.
Nuevas características
La segunda versión incorpora más aspectos sobre la semántica. Por ejemplo,
se hace una distinción explícita entre los conceptos columna y dominio y hace
una distinción entre los tipos de datos básicos y los extendidos. Además, se da
una descripción, semántica, de las características de un lenguaje relacional.
Aunque en la versión original ya se habían definido tres valores de verdad,
TRUE, FALSE, MAYBE, se extienden a 4:
TRUE,
FALSE,
MAYBE BUT APPLICABLE y
MAYBE BUT INAPPLICABLE.
MAYBE BUT APPLICABLE hace referencia a valores que no se han
introducido a la base de datos, mientras que MAYBE BUT INAPPLICABLE
hace referencia a valores que no se encuentran debido a que la propiedad es
inaplicable al objeto.
Bases de Datos. Miguel Murguía. FAR.
45
Diferencias entre las Matemáticas y en el Modelo Relacional del
concepto de relación y terminología
Matemáticas
Modelo Relacional
Concepto de relación
Valores sin restricciones
Valores atómicos
Columnas sin nombres
Cada columna tiene un nombre
Las columnas se diferencian por Las columnas se diferencian por
posición
nombre y dominio
Constantes
Varían en el tiempo
Terminología
Relación de grado n
Tabla-R con n columnas
Atributo
Columna de tabla-R
Dominio
Tipo de dato
Tupla
Renglón de tabla-R
Cardinalidad de relación
Número de renglones en una tabla-R
Bases de Datos. Miguel Murguía. FAR.
46
Objetivos del Modelo Relacional
• Simplificar la interacción de los usuarios con los datos:
para bases de datos extensas,
que no están familiarizados con la programación,
que conciben las interacciones independientemente de los demás
usuarios.
• Incrementar la productividad de los usuarios que son programadores
profesionales
• Soportar herramientas más poderosas para el administrador de la base
de datos, para controlar el acceso de los usuarios a la información: quién
accesa qué información y para qué propósito, así como para controlar la
integridad de la base de datos.
Interrelación de información entre relaciones distintas
Comparación de valores vs. apuntadores
En el modelo relacional las relaciones no se asocian mediante ligas explícitas
o apuntadores, como se hace en modelos anteriores. El principio fundamental
del modelo relacional es que la interrelación se realiza mediante comparación
de valores. Dos valores se pueden compara sólo si pertenecen al mismo
dominio.
Aparentemente, la restricción de que los valores a comparar sean del mismo
dominio se ve innecesaria, pero en realidad es una manera de proteger al
usuario de cometer errores cuando los operadores de relaciones incorporan
esta restricción.
Bases de Datos. Miguel Murguía. FAR.
47
Transacción
Una transacción es un conjunto de actividades que involucran cambios en la
base de datos. Cada una se debe ejecutar si se desea realizar cambios
permanentes a la base de datos, y no se debe ejecutar ninguna si alguna de
ellas falla.
La colección de actividades está representada por una secuencia de comandos
relacionales, en donde se marca el inicio de la transacción y el fin de ella, el
final es un comando que realiza físicamente los cambios (COMIT).
Por ejemplo, la transacción para transferir $1000.00 de una cuenta de cheques
a una de ahorro debe de:
•
•
•
•
verificar que exista dinero disponible en la cuenta de cheques,
restar $1000.00 a la cuenta de cheques,
verificar que exista la cuenta de ahorro y
aumentar en $1000.00 a la cuenta de ahorro.
Cada una de las actividades anteriores, se debe poder realizar con éxito para
poder ejecutar la transacción, basta con que alguna de ellas falle, para que no
se realice la transacción.
Existen dos estrategias para el manejo de transacciones:
1) Almacenar cada resultado de la transacción en una copia temporal, y
utilizarla después de que se verificó cada una de las acciones para
actualizar la base de datos.
2) Almacenar la descripción de cada acción de la transacción en un
archivo log para tener una manera de “revertir” las acciones en el
momento de que una falle.
Bases de Datos. Miguel Murguía. FAR.
48
SQL (Structured Query Language)
• SQL es un lenguaje relacional de datos creado por IBM en 1972.
• Está basado en los principios del Modelo Relacional.
• No incluye todas las características del modelo.
• Algunas de las características están implementadas de manera
incorrecta.
Uno de los errores de implementación del SQL es que permite la existencia de
renglones duplicados, esto tiene repercusiones serias en la base de datos. De
hecho, SQL no soporta más de la mitad del modelo relacional.
Aunque se han desarrollado otros lenguajes relacionales, se ha prestado más
atención al SQL debido a que se ha adoptado como un estándar ANSI, además
de que muchos DBMS lo soportan.
Bases de Datos. Miguel Murguía. FAR.
49
DBMS relacionales
Se suele hablar mucho sobre la condición “relacional” de un producto DBMS.
Por ejemplo, los vendedores alegan que su producto” es relacional”.
El que un DBMS sea relacional no solo implica que pueda manipular datos
relacionándolos mediante claves primarias y claves foráneas, implica de
hecho que cumpla con “todas” las características del modelo relacional.
Al respecto hay una regla cero que dice:
“Todo sistema del que se diga que es ´relacional’ debe tener la
capacidad de manejar bases de datos totalmente de manera
relacional, no importando si brinda capacidades adicionales.”
Es decir, si un producto provee de capacidades adicionales o novedosas, es
relacional sólo si manipula los datos de acuerdo al modelo relacional.
Para evaluar un producto DBMS se debe de observar la fidelidad al modelo
relacional, por lo que debe de soportar las operaciones de insert, update y
delete en un plano relacional.
Como otra consecuencia, un DBMS “relacional”, debe de poder manipular
relaciones con cualquier número de tuplas, incluyendo una o cero tuplas, es
decir, se deben de poder aplicar las operaciones insert, update y delete a
relaciones con cero o una tuplas, sin tratamiento especial, ya que el modelo
relacional no marca casos especiales para ello.
Bases de Datos. Miguel Murguía. FAR.
50
La relación universal
En 1988 surgió la propuesta de utilizar una sola relación para las bases de
datos: la “relación universal”. La relación universal es un join (equi-join) de
todas las tablas-R, basada en las claves.
La idea de la relación universal se generó quizá, por la necesidad de no
realizar operaciones join.
El DBMS no debe tratar a la base de datos como una sola relación universal
aunque sí debe poder generarla como una de las posibles vistas.
Algunas de las desventajas del enfoque de la relación universal son:
Pérdida de espacio
La relación universal desperdicia mucho espacio de almacenamiento debido,
principalmente, a los valores “inaplicable”.
Dependencia de datos
Se ve involucrado de manera mayor aspectos de almacenamiento físico, por lo
que al modificar el esquema físico afectará al lógico.
Dependencia lógica
Al modificar el esquema, es muy probable que se requieran modificar los
programas de aplicación.
Sólo un tipo de join
Una de las ventajas del modelo relacional respecto a la relación universal es
que permite join de varios tipos, y no sólo equi-join basada en claves.
Dificultad para modificar el esquema
Cuando se desea agregar información a la base de datos, por ejemplo, agregar
una columna, es muy complicado hacerlo con el esquema de la relación
universal. Mientras que con el enfoque relacional, se puede agregar fácilmente
o incluso, crear nuevas tablas-R.
Bases de Datos. Miguel Murguía. FAR.
51
Razones para soportar dominios
Una de las deficiencias más serias de los DBMS es que no tienen un soporte
adecuado de dominios. Si un DBMS no soporta dominios, tampoco podrá
soportar otras características importantes del modelo.
1) Los dominios son el elemento fundamental que hace que una base de
datos tenga unidad
Si dos relaciones no comparten ningún dominio, no pueden relacionarse. Una
base de datos, concebida como un conjunto de relaciones CR y otro de
dominios CD, puede dividirse en dos bases de datos sin pérdida de
información, si no comparten ningún dominio, formalmente:
Si
CR es un conjunto de relaciones;
CD un conjunto de dominios;
cr ⊂ CR;
cd ⊂ CD
y
1) las relaciones en cr utilizan sólo los dominios en cd
2) las relaciones en CR-cr utilizan sólo los dominios en CD-cd
Entonces:
la base de datos se puede dividir en dos (CR-cr, CD-cd) y (cr, cd) sin
pérdida de información.
Además, los dominios permiten detectar las comparaciones que tienen sentido
y las que no lo tienen.
2) Son necesarios para declarar el tipo de dato permitido en cada
columna
En el diccionario de datos se debe almacenar una descripción extensa del tipo
de dato almacenado. Sin el soporte del dominio, esta descripción debe
repetirse para cuanta columna tenga el mismo tipo de dato.
3) Son necesarios para soportar integridad de dominio
Bases de Datos. Miguel Murguía. FAR.
52
La integridad de dominio se refiere a la restricción de que todos los valores de
una columna pertenezcan al dominio que se asoció a esa columna. Algunos
tipos de restricciones de dominio son: a) tipo de datos regulares; b) intervalo
de valores permitido; c) aplicabilidad de la función sucesor o predecesor
(operadores > y <).
4) Permiten restringir la aplicabilidad de operadores
Para cada comparación entre valores, el DBMS debe verificar que esos valores
sean semánticamente comparables. Si un usuario necesita comparar “peras con
manzanas”, entonces el DBA deberá dar autorización, pero sólo por un
periodo corto de tiempo, para que deshabilite, por ejemplo, el DOMAIN
CHECK.
5) Permiten especificar de forma implícita las columnas en las que se
buscará un valor
Los dominios permiten especificar un grupo de columnas de manera implícita,
lo que facilita las consultas. Por ejemplo, si se desea buscar todos los registros
en los que esté involucrada una cierta persona, no importando el papel que
desempeñe en la relación, se puede indicar que busque sobre un dominio y no
sobre columnas específicas. Actualmente, SQL no soporta esta característica.
6) Facilitan algunas restricciones de integridad definidas por el usuario
Por ejemplo, si se requiere que los valores de una columna C1 sean un
subconjunto de los valores contenidos en la columna C2, entonces C1 y C2
deben tomar valores de un mismo dominio.
7) El concepto de dominio participa en muchas definiciones del modelo
relacional
Incluyendo las definiciones de dominio primario, llave foránea, integridad de
dominio, integridad referencial, entre otras.
8) Son necesarios para realizar las operaciones de UNION o similares
Bases de Datos. Miguel Murguía. FAR.
53
Cuando se realiza una UNION de S con R, es necesario que ambas tablas
tengan el mismo número de columnas, pero además, que exista un “mapeo”
uno a uno entre las columnas de R y S, debiendo tener cada par el mismo
dominio. Si todas las columnas de R tiene un dominio diferente, entonces el
DBMS deberá saber hacer el mapeo de las columnas entre R y S, dejando
menos trabajo al usuario.
9) Permiten la generación de los “índices basados en dominios”
Los índices basados en dominios”, aunque no son parte del modelo relacional,
son una herramienta que aumenta el desempeño del DBMS. Indican, para cada
columna, de qué dominio extraen sus valores, permiten encontrar todas las
ocurrencias de un valor.
Recuerde que …
• Toda relación es un conjunto.
• No todo conjunto es una relación.
• Toda relación puede concebirse como una tabla.
• No toda tabla es una representación correcta de una relación.
Bases de Datos. Miguel Murguía. FAR.
54
III Álgebra Relacional
1. Operadores básicos del Álgebra Relacional
Introducción
Lenguaje formal
El álgebra relacional es un leguaje “puro” de procedimiento, es decir, es un
lenguaje definido formalmente del que se pueden hacer diversos tipos de
implementaciones.
Las operaciones son cerradas
Las operaciones del álgebra relacional involucran como operandos a una o dos
relaciones y siempre devuelven como resultado otra relación, es decir son
“cerradas”. Manejar bases de datos con lenguajes que no respeten la
“cerradura” es casi imposible.
La propiedad de “cerradura” del álgebra relacional facilita el uso del lenguaje,
pues en una misma expresión se pueden contatenar los resultados de las
operaciones haciéndolos participar como operandos de otras operaciones.
Lenguaje flexible y potente
Los operadores relacionales permiten a los usuarios consultar información de
una base de datos de una manera flexible y potente, pero sin necesidad de que
tenga conocimientos de programación.
Diseñado para trabajar con tablas-R
Cada operador relacional del modelo relacional está diseñado para trabajar
sobre relaciones que no tienen renglones duplicados y para generar relaciones
sin renglones duplicados.
Bases de Datos. Miguel Murguía. FAR.
55
Los operadores
Clasificación de los operadores
Para su estudio los operadores se dividen en tres grupos:
• Operadores básicos
• Operadores de manipulación
• Operadores avanzados
Cuatro operadores provienen directamente de la teoría de conjuntos, aplicables
a las relaciones porque las relaciones se definen como un conjunto de tuplas,
ellos son:
•
•
•
•
unión,
intersección,
diferencia y
producto cartesiano
Los demás operadores se desarrollan específicamente para el álgebra
relacional.
Operadores básicos
• proyección
• theta-selección
• theta-selección extendido
• producto cartesiano*
• unión
• diferencia
• intersección
• producto natural*
• theta-join
• theta-join extendido
• natural-join
• división
*Estos operadores ya no se consideran indispensables en la segunda versión.
Bases de Datos. Miguel Murguía. FAR.
56
Operadores de manipulación
• asignación relacional
• insert
• update
• delete
Operadores avanzados
• framing
• extend
• semi-join
• outer-join
• outer-union
• outer-difference
• outer-intersección
• T-joins
• user-defined-selects
• user-defined-joins
• recursive-join
Bases de Datos. Miguel Murguía. FAR.
57
Proyección
Π
R[a1, a2, ...]
SELECT a1, a2,... FROM R;
Es un operador unario que omite algunas columnas, eliminando los renglones
repetidos que se pudieran generar.
En la notación de cálculo de predicados, la proyección de las columnas
Nombre_alumno y Carrera de la tabla ALUMNO se escribe:
Πnombre-alumno, carrera (alumno)
En notación algebraica:
Z ← ALUMNO [Nombre_alumno, Carrera]
En SQL:
SELECT nombre_alumno, carrera FROM Alumno;
El resultado:
Nombre-alumno
Oscar Martínez
Mario Sánchez
Emilio Vera
Isabel Valderrama
Ma.Elena Cañedo
Carmen Díaz
Jorge Soto
Miguel Romero
José Malo
Salvador Pascual
Carrera
Biología
Biología
Biología
Matemática
s
Matemática
s
Biología
Física
Biología
Matemática
s
Física
Bases de Datos. Miguel Murguía. FAR.
58
Se puede explicar al operador de proyección en dos etapas, en la primera se
genera una tabla (que no es una tabla-R) con las columnas que formarán parte
del resultado, y en la segunda etapa se eliminan los renglones repetidos. Por
ejemplo, si se desea obtener una lista de las carreras:
Π carrera (alumno)
o en notación algebraica:
Z ← ALUMNO [Carrera]
Primero se genera una tabla con la columna Carrera, pero con renglones
repetidos:
Carrera
Biología
Biología
Biología
Matemática
s
Matemática
s
Biología
Física
Biología
Matemática
s
Física
Después se genera la tabla-R resultado, eliminando los renglones repetidos:
Carrera
Biología
Matemática
s
Física
SQL no elimina renglones repetidos, a menos de que explícitamente se incluya
el comando DISTINCT.
En SQL:
SELECT DISTINCT carrera FROM Alumno;
Bases de Datos. Miguel Murguía. FAR.
59
Theta-Selección
σ
R[a=cte]
SELECT a1, a2,... FROM R WHERE a1=cte;
La selección es un operador unario. Selecciona tuplas que satisfacen un
predicado. Por ejemplo, si se desea obtener los registros dela tabla ALUMNO
que cursan la carrera de Matemáticas, se debe cumplir la condición
Carrera=“Matemáticas”.
En notación de predicados:
σcarrera=“Matemáticas” (alumno)
En notación algebraica:
Z ← ALUMNO [Carrera=“Matemáticas”]
El resultado:
Numerocuenta
970002
950003
970004
Nombrealumno
Isabel
Valderrama
Ma.Elena
Cañedo
José Malo
Añoingreso
Carrera
97 Matemática
s
95 Matemática
s
97 Matemática
s
En SQL:
SELECT * FROM Alumno WHERE carrera=“Matemáticas”
Otro ejemplo, “los alumnos de la generación 97”:
σaño-ingreso=97 (alumno)
En notación algebraica:
Bases de Datos. Miguel Murguía. FAR.
60
Z ← ALUMNO [Año_ingreso=97]
El resultado:
Numerocuenta
970001
970002
970003
970004
970005
NombreAñoalumno
ingreso
Emilio Vera
Isabel
Valderrama
Miguel Romero
José Malo
Salvador
Pascual
Carrera
97 Biología
97 Matemátic
as
97 Biología
97 Matemátic
as
97 Física
En SQL:
SELECT * FROM Alumno WHERE año_ingreso=97
Bases de Datos. Miguel Murguía. FAR.
61
Combinando selección y proyección
Ahora podemos combinar los operadores selección y proyección. Por ejemplo,
se pueden obtener los nombres de los alumnos que cursan la carrera de
Matemáticas:
Πnombre-alumno (σ carrera=“Matemáticas” (alumno))
ó
Z ← (ALUMNO [Carrera=“Matemáticas”]) [Nombre_alumno]
El resultado:
Nombre-alumno
Isabel
Valderrama
Ma.Elena Cañedo
José Malo
En SQL:
SELECT DISTINCT nombre_alumno
FROM Alumno
WHERE carrera=“Matemáticas”
La selección produce un resultado con el mismo esquema de relación que su
operando, mientras que la proyección si modifica el esquema, regresando
como resultado una relación con menor número de columnas.
Ambos operadores pueden regresar una relación resultado con cardinalidad
menor a la del operando, pues en la selección es uno de sus objetivos y en la
proyección debido a la eliminación de renglones repetidos.
Bases de Datos. Miguel Murguía. FAR.
62
Select y Theta-Select
Normalmente, si se omite el prefijo “theta” al operador theta-select se
sobrentiende que la selección se realiza mediante una igualdad (“=“), por
ejemplo:
Z ← ALUMNO [Carrera=“Matemáticas”]
pero theta-select puede realizarse utilizando otros operadores, donde theta
puede ser alguno de los siguientes comparadores:
1. EQUALITY
2. INEQUALITY
3. LESS THAN
4. LESS THAN OR EQUAL TO
5. GREATHER THAN
6. GREATHER THAN OR EQUAL TO
7. GREATEST LESS THAN
8. GREATEST LESS THAN OR EQUAL TO
9. LEAST GREATER THAN
10. LEAST GREATER THAN OR EQUAL TO
Por ejemplo, se pueden buscar las materias que tengan asignados 10 ó más
créditos. Así, se utiliza una theta-selección en donde la theta es GREATHER
THAN OR EQUAL TO (>=).
En notación de predicados:
σ créditos>=10 (materia)
ó
Z ← MATERIA [Créditos >=10]
El resultado:
Clavemateria
01003
03001
02003
Nombre-materia Nivel
Cálculo
Física relativista
Bioquímica
Bases de Datos. Miguel Murguía. FAR.
Créditos
1
4
2
10
10
12
63
En SQL:
SELECT * FROM Materia WHERE créditos>=10
En la selección también pueden realizarse comparaciones entre columnas, lo
cual significa que se deben comparar los valores de esos atributos en cada
registro. Es decir, se pueden construir expresiones del estilo:
σ atributo1=atributo2 (alumno)
Por ejemplo, suponiendo la existencia de una relación RESUMEN que
contiene los totales de alumnos acreditados y no acreditados en cada materia:
Z ← RESUMEN [Aprobados >= Reprobados]
En SQL:
SELECT * FROM Materia WHERE aprobados >= reprobados
En este caso, el DBMS debe verificar que los dominios de ambas columnas
sean los mismos.
En el caso de que en la comparación intervengan valores calculados se deberá
verificar que ambos sean del mismo tipo de dato básico.
Bases de Datos. Miguel Murguía. FAR.
64
Theta-selección extendido
Si
@ denota cualquiera de los 10 “comparadores” revisados anteriormente,
A y B son columnas de la relación R y
x una variable del lenguaje o una constante
entonces
R[A @ x] y R[A @ B] pueden ser operaciones theta-selección válidas y
también pueden considerarse como “términos de comparación” si
ambos
se conectan mediante un OR, NOT, AND ó IMPLIES.
Por ejemplo, la pregunta “los alumnos de Matemáticas de la generación 97”
puede expresarse utilizando theta-selección extendida:
σcarrera=“Matemáticas” ^ año-ingreso=97 (alumno)
o bien:
Z ← ALUMNO [Carrera=“Matemáticas” ^ Año_ingreso=97]
El resultado:
Numerocuenta
970002
970004
Nombrealumno
Isabel
Valderrama
José Malo
Añoingreso
Carrera
97 Matemáticas
97 Matemáticas
En SQL:
SELECT *
FROM Alumno
WHERE carrera = “Matemáticas” AND año_ingreso=97
Esa pregunta también puede expresarse en términos de theta-selección (no
extendida):
σcarrera=“Matemáticas” (σ año-ingreso=97 (alumno))
ó
Bases de Datos. Miguel Murguía. FAR.
65
Z ← (ALUMNO [Carrera=“Matemáticas” ]) [Año_ingreso=97]
Producto cartesiano
x
Los operadores de selección y proyección actúan sobre una relación, es decir,
son unarios. Un operador que permite combinar información de dos relaciones
-binario- es el producto cartesiano.
Por ejemplo, si se quiere encontrar a los registros de los alumnos que han
cursado la materia “Bioquímica” así como su número de cuenta, se debe
extraer información de las tablas alumno y materia.
La relación resultado de un producto cartesiano tiene por esquema a la unión
de los atributos de las relaciones que se están operando. Así, la relación
r=alumno x materia tiene el esquema:
esquema-r(número-cuenta, nombre-alumno, año-ingreso, carrera, clavemateria, nombre-materia, nivel, créditos)
Si existen atributos con el mismo nombre en ambas tablas, se antepone como
prefijo el nombre de la relación para distinguir a cada uno, por ejemplo, para
distinguir el atributo número-cuenta de la tabla alumno y de la tabla examen,
se escribe:
alumno.número-cuenta
examen.número-cuenta
Lo anterior funciona sólo si los nombres de las relaciones son distintos. En el
caso de los nombres de las relaciones involucradas sean iguales, entonces, se
agregará un número subfijo, por ejemplo:
alumno1.número-cuenta
alumno2.número-cuenta
El operador producto cartesiano puede ser útil para responder la pregunta
“encontrar las tuplas de los alumnos que hayan presentado un examen”:
Bases de Datos. Miguel Murguía. FAR.
66
σ alumno.numero-cuenta=examen.numero.cuenta(alumno x examen)
ó
Z ← (ALUMNO x EXAMEN)
[ALUMNO.Número_cuenta=EXAMEN.Número_cuenta]
Bases de Datos. Miguel Murguía. FAR.
67
Alumno.
Numero-cuenta
950001
950002
970001
970002
950003
950004
950005
970003
970004
970005
950001
950002
970001
970002
950003
950004
950005
970003
970004
970005
950001
950002
970001
970002
950003
950004
Nombre-alumno Año-ingreso
Oscar Martínez
Mario Sánchez
Emilio Vera
Isabel
Ma.Elena
Camen Díaz
Jorge Soto
Miguel Romero
José Malo
Salvador Pascual
Oscar Martínez
Mario Sánchez
Emilio Vera
Isabel
Ma.Elena
Camen Díaz
Jorge Soto
Miguel Romero
José Malo
Salvador Pascual
Oscar Martínez
Mario Sánchez
Emilio Vera
Isabel
Ma.Elena
Camen Díaz
Carrera
95
95
97
97
95
95
95
97
97
97
95
95
97
97
95
95
95
97
97
97
95
95
97
97
95
95
Biología
Biología
Biología
Matemáticas
Matemáticas
Biología
Física
Biología
Matemáticas
Física
Biología
Biología
Biología
Matemáticas
Matemáticas
Biología
Física
Biología
Matemáticas
Física
Biología
Biología
Biología
Matemáticas
Matemáticas
Biología
Examen.
Numero-cuenta
950001
950001
950001
950001
950001
950001
950001
950001
950001
950001
950005
950005
950005
950005
950005
950005
950005
950005
950005
950005
970002
970002
970002
970002
970002
970002
Clavemateria
02002
02002
02002
02002
02002
02002
02002
02002
02002
02002
03001
03001
03001
03001
03001
03001
03001
03001
03001
03001
01002
01002
01002
01002
01002
01002
Orden-de-pago Fecha-examen
3567
3567
3567
3567
3567
3567
3567
3567
3567
3567
3678
3678
3678
3678
3678
3678
3678
3678
3678
3678
3676
3676
3676
3676
3676
3676
Resultado de alumno x examen
continúa...
Bases de Datos. Miguel Murguía. FAR.
68
02-Jun-97
02-Jun-97
02-Jun-97
02-Jun-97
02-Jun-97
02-Jun-97
02-Jun-97
02-Jun-97
02-Jun-97
02-Jun-97
02-Apr-97
02-Apr-97
02-Apr-97
02-Apr-97
02-Apr-97
02-Apr-97
02-Apr-97
02-Apr-97
02-Apr-97
02-Apr-97
06-May-97
06-May-97
06-May-97
06-May-97
06-May-97
06-May-97
...continuación
Alumno.
Numero-cuenta
950005
970003
970004
970005
950001
950002
970001
970002
950003
950004
950005
970003
970004
970005
Nombre-alumno Año-ingreso
Jorge Soto
Miguel Romero
José Malo
Salvador Pascual
Oscar Martínez
Mario Sánchez
Emilio Vera
Isabel
Ma.Elena
Camen Díaz
Jorge Soto
Miguel Romero
José Malo
Salvador Pascual
Carrera
95
97
97
97
95
95
97
97
95
95
95
97
97
97
Física
Biología
Matemáticas
Física
Biología
Biología
Biología
Matemáticas
Matemáticas
Biología
Física
Biología
Matemáticas
Física
Examen.
Numero-cuenta
970002
970002
970002
970002
970005
970005
970005
970005
970005
970005
970005
970005
970005
970005
Clavemateria
01002
01002
01002
01002
03002
03002
03002
03002
03002
03002
03002
03002
03002
03002
Orden-de-pago Fecha-examen
Examen.
Numero-cuenta
950001
950005
970002
970005
Clavemateria
02002
03001
01002
03002
Orden-de-pago Fecha-examen
3676
3676
3676
3676
3789
3789
3789
3789
3789
3789
3789
3789
3789
3789
06-May-97
06-May-97
06-May-97
06-May-97
06-Mar-97
06-Mar-97
06-Mar-97
06-Mar-97
06-Mar-97
06-Mar-97
06-Mar-97
06-Mar-97
06-Mar-97
06-Mar-97
Resultado de alumno x examen
Alumno.
Numero-cuenta
950001
950005
970002
970005
Nombre-alumno Año-ingreso
Oscar Martínez
Jorge Soto
Isabel
Salvador
Carrera
95
95
97
97
Biología
Física
Matemáticas
Física
3567
3678
3676
3789
02-Jun-97
02-Apr-97
06-May-97
06-Mar-97
Resultado de:
σ alumno.numero-cuenta=examen.numero.cuenta(alumno x examen)
Z ← (ALUMNO x EXAMEN) [ALUMNO.Número_cuenta=EXAMEN.Número_cuenta]
Bases de Datos. Miguel Murguía. FAR.
69
También se puede aplicar la proyección a
Πalumno.nombre-alumno, fecha-examen
(σ alumno.numero-cuenta=examen.numero.cuenta(alumno x examen))
ó
Z ← ((ALUMNO x EXAMEN)
[ALUMNO.Número_cuenta=EXAMEN.Número_cuenta])
[ALUMNO.Nombre_alumno, ALUMNO.Fecha_examen]
El resultado:
Nombre-alumno Fechaexamen
Oscar Martínez
02-Jun-97
Jorge Soto
02-Apr-97
Isabel Valderrama
06-May-97
Salvador Pascual
06-Mar-97
El producto cartesiano es conmutativo, así, si S y R son relaciones, se puede
establecer la siguiente equivalencia:
SxT=TxS
El producto cartesiano no es muy utilizado en la práctica, sino más bien puede
implementarse como un caso especial del operador theta-join, que se
explicará más adelante.
El producto cartesiano es útil como una herramienta conceptual, pero no es
necesario que se implemente en los DBMS. Sin embargo, se deberá poder
substituir como el resultado de un caso extremo de otro operador (v.g. thetajoin).
Bases de Datos. Miguel Murguía. FAR.
70
Renombrar
ρ
SELECT * FROM R AS S
La operación renombrar permite evitar ambigüedades cuando se hace
referencia a un mismo atributo pero con diferente uso, por ejemplo, al intentar
contestar “Nombres de los alumnos que tengan la misma carrera que Emilio
Vera”.
Con la siguiente expresión se encuentra la carrera de “Emilio Vera”:
Π carrera (σ nombre-alumno=“Emilio Vera”(alumno))
Pero para encontrar los nombres de los alumnos con esa carrera, se debe hacer
referencia otra vez al atributo nombre-alumno:
σ p(alumno x Π carrera (σ nombre-alumno=“Emilio Vera”(alumno)))
donde p es un predicado que indica que el valor de carrera en alumno es el
mismo que el que se obtiene en Π carrera.
Por esa razón es necesario cambiar de nombre a una relación para poder hacer
esa distinción.
La operación:
ρx(r)
renombra a la relación r con x.
Π carrera
(σ alumno2.carrera=alumno.carrera
(alumno x Π carrera (σ nombre-alumno=“Emilio Vera”( ρalumno2(alumno)))))
Bases de Datos. Miguel Murguía. FAR.
71
Unión
∪
R union S
SELECT * FROM R UNION S
El operador unión es binario: permite agregar las tuplas de dos relaciones.
Por ejemplo, la pregunta “los números de cuenta de los alumnos que han
cursado la materia 02002 o que han hecho un examen” puede responderse
auxiliándose del operador unión, pues es necesario encontrar tuplas de la tabla
examen así como de la tabla historia:
Πnumero-cuenta(σclave-materia=02002 (examen))
∪ Πnumero-cuenta(σclave-materia=02002 (historia))
En álgebra relacional:
Z ← (EXAMEN[Clave_materia=02002])[Número_cuenta] unión
(HISTORIA[Clave_materia=02002])[Número_cuenta]
En SQL
SELECT numero_cuenta
FROM Examen
WHERE clave_materia=“02002”
UNION
SELECT numero_cuenta
FROM Historia
WHERE clave_materia=“02002”;
El resultado:
Numerocuenta
950001
950004
970003
Bases de Datos. Miguel Murguía. FAR.
72
Compatibilidad de unión
Se refiere a que los renglones de las relaciones a unir sean del mismo tipo para
asegurar que el resultado de sea una relación, es decir una tabla-R.
Es decir, existe la restricción de que las relaciones que intervienen en una
operación de unión deben de tener el mismo esquema. Así, para aplicar la
operación unión s ∪ r, las relaciones s y r deben de tener el mismo esquema.
Si S y T son dos relaciones, son compatibles para la unión si:
• tiene el mismo grado y
• es posible establecer un mapeo uno a uno, entre las columnas en S y
T, tal que las columnas de cada par tengan el mismo dominio.
El DBMS debe ser capaz de definir ese mapeo cuando todas las
columnas de la relación tengan un dominio distinto.
En el caso de que exista cuando menos una columna en una relación que
tenga un dominio que no tenga ninguna columna de la otra relación, el
DBMS deberá enviar un mensaje de error.
En el caso de que sí se pueda establecer el mapeo y de que existan más
de una posibilidad de conformarlo, el DBMS deberá preguntarlo al
usuario.
Finalmente, el DBMS podrá aceptar un mapeo explícito del usuario,
caso en el que el DBMS deberá verificar que sea válido.
El operador unión relacional no es tan general como en matemáticas, pues el
relacional permite unir, por ejemplo, números de cuenta con números de
cuenta, nombres de alumnos con nombres de alumnos, etc., mientras que en
matemáticas, la unión sí permite unir, por ejemplo, números de cuenta con
nombres de alumnos.
La unión también elimina renglones duplicados en la relación resultado.
Bases de Datos. Miguel Murguía. FAR.
73
Diferencia
⎯
SELECT * FROM R MINUS S
El operador diferencia encuentra tuplas que están en una relación pero no en
otra. Así, R ─ S devuelve una relación con las tuplas que se encuentran en R y
que no están en S. Por ejemplo, “encontrar los números de cuenta de los
alumnos que no han hecho exámenes”:
Πnumero-cuenta (alumno) ─ Πnumero-cuenta (examen)
Z ← ALUMNO[Número_cuenta] ─ EXAMEN[Número_cuenta]
SELECT numero_cuenta FROM Alumno
WHERE numero_cuenta
MINUS
SELECT numero_cuenta FROM Examen;
ó bien:
SELECT numero_cuenta FROM Alumno
WHERE numero_cuenta
NOT IN
(SELECT numero_cuenta FROM Examen);
El resultado:
Numero-cuenta
950002
970001
950003
950004
970003
970004
Por la manera en que opera, la diferencia da como resultado una tabla sin
renglones repetidos.
Las dos relaciones operandos que intervienen en una diferencia deben de
cumplir los requisitos de compatibilidad de unión.
Bases de Datos. Miguel Murguía. FAR.
74
Definición formal del álgebra relacional
El álgebra relacional forma sus expresiones a partir de operadores y de
relaciones.
Una expresión general del álgebra relacional se construye a partir de
subexpresiones.
Si E1 y E2 son expresiones del álgebra relacional, entonces las siguientes
también lo son:
E1 ∪ E2
E1 ─ E2
E1 x E2
σp(E1) donde P es un predicado con atributos de E1.
Π s(E1) donde s es una lista que consta de algunos de los atributos de E1.
ρ x(E1) donde x es el nuevo nombre de la relación E1.
Bases de Datos. Miguel Murguía. FAR.
75
Operaciones no básicas
Las operaciones definidas en las secciones anteriores son las básicas, es decir
que con ellas se tiene toda la potencia del álgebra relacional, sin embargo, para
fines prácticos, se definen otras operaciones muy utilizadas que se construyen
a partir de éstas básicas.
Intersección
∩
SELECT * FROM R INTERSECT S
La intersección sirve para encontrar las tuplas que se encuentran en dos
relaciones a la vez. Por ejemplo, “encontrar las claves de las materias que ya
han sido cursadas por algún alumno y para las que se ha presentado al menos
un examen”:
Πclave-materia (historia) ∩ Π clave-materia (examen)
Z ← HISTORIA[Clave_materia] intersección
EXAMEN[Clave_materia ]
SELECT clave_materia
FROM Historia
INTERSECT
SELECT clave_materia
FROM Examen;
El resultado:
Clave-materia
02002
Para mostrar que no es una operación básica del álgebra relacional, obsérvese
que la intersección puede calcularse a partir de la diferencia:
r ∩ s = r ─ (r ─ s)
Las dos relaciones operandos que intervienen en una intersección deben de
cumplir los requisitos de compatibilidad de unión.
Bases de Datos. Miguel Murguía. FAR.
76
Producto natural
|x|
Aunque el producto natural no es parte explícita del modelo relacional, es
conveniente su explicación para formalizar otras operaciones así como para
entenderlas mejor.
Reconsidérese la pregunta “encontrar las tuplas de los alumnos que hayan
presentado un examen”:
σ alumno.numero-cuenta=examen.numero.cuenta(alumno x examen)
Como puede observarse, típicamente a una operación de producto cartesiano
se le aplica una selección.
El producto natural realiza automáticamente una selección sobre los
atributos en común, poniendo la restricción de que los valores sean iguales en
los atributos de ambas tablas.
Así al realizar el producto natural
alumno |x| examen
se seleccionan automáticamente sólo aquellas tuplas que coincidan en el
atributo numero-cuenta, pues ese atributo es común a ambas relaciones. Si hay
más de un atributo en común, entonces las tuplas deberán coincidir en ambos
valores de cada par de atributos.
Adicionalmente, el producto natural realiza una proyección sobre la unión
de los atributos, evitando repetir columnas. Así, para el ejemplo anterior, el
esquema de la relación resultante del producto natural es:
(numero-cuenta, nombre-alumno, año-ingreso, carrera, clave-materia, ordende-pago, fecha-examen)
Como puede observarse, el atributo numero-cuenta no se repite en el esquema.
Bases de Datos. Miguel Murguía. FAR.
77
El producto natural es una operación muy importante en el modelo
relacional, pues es una de las principales maneras de “relacionar” tablas en la
práctica.
Formalmente el producto natural se define como:
r|x|s = ΠR∪S(σ r·A1=s·A1^ r·A2=s·A2^ ... ^r·An=s·An r x s)
donde R y S son los conjuntos de atributos de las relaciones r y s
respectivamente
y A1, A2, ... An ∈ R ∩ S
Es decir, el producto natural es una proyección de una selección de un
producto cartesiano.
La operación producto natural es asociativa, es decir:
(r |x| s) |x| t = r |x| (s |x| t)
por lo que se puede escribir como:
r |x| s |x| t
Por ejemplo, “encontrar los nombres de los alumnos y los nombres de las
materias que hayan aprobado con más de 8.0:
Πnombre-alumno, nombre-materia (σ calificacion>8 (alumno |x| materia |x| historia))
Nombre-alumno nombremateria
Oscar Martínez
Estadística
Mario Sánchez
Estadística
Carmen Díaz
Botánica
Carmen Díaz
Bioquímica
Miguel Romero
Bioquímica
Bases de Datos. Miguel Murguía. FAR.
78
Theta Join
Z ← R [ R.atributo=S.atributo ] S
SELECT *
FROM R
JOIN S ON R.A=S.A
En la práctica, los operadores de producto cartesiano y de producto natural
son incluidos en el de join.
El operador join realiza la misma acción que el producto natural, pero se
deben indicar explícitamente las columnas de ambas relaciones a comparar,
pues en el producto natural las columnas a comparar son aquellas que tienen
el mismo nombre.
Por ejemplo, si se desea obtener una tabla de los nombres de los alumnos junto
con las claves de las materias que han cursado se debe extraer información de
las tablas ALUMNO e HISTORIA y comparar el número de cuenta:
Z ← ALUMNO[Número_cuenta=Número_cuenta ]HISTORIA
La expresión anterior regresa una relación de grado n+m, siendo n y m los
grados de ALUMNO e HISTORIA.
Si se desea obtener únicamente las columnas de nombre_alumno y
clave_materia, es necesario realizar una proyección:
Z ← (ALUMNO[Número_cuenta=Número_cuenta ]HISTORIA)
[Nombre_alumno, Clave_materia]
SELECT nombre_alumno, clave_materia
FROM Historia
JOIN Examen
ON Historia.número_cuenta=Examen.número_cuenta;
Bases de Datos. Miguel Murguía. FAR.
79
El resultado:
Nombrealumno
Oscar Martínez
Mario Sánchez
Mario Sánchez
Carmen Díaz
Carmen Díaz
Miguel Romero
Miguel Romero
Clavemateria
02001
02001
02003
02002
02003
02002
02003
Análogamente al operador theta selección, el operador theta join hace uso de
los 10 comparativos listados en la explicación del primero.
Cuando de habla del operador join se sobrentiende que se está comparando
mediante EQUALITY.
Al operador theta join que compara mediante EQUALITY se le llama equi
join.
El equi join es conmutativo, es decir:
R[A=B]S = S[B=A]R
Bases de Datos. Miguel Murguía. FAR.
80
Theta Join extendido
La extensión del theta join es análoga a la de la selección, es decir, añade la
posibilidad de utilizar los conectivos lógicos NOT, OR, AND e IMPLIES.
Mediante un theta join extendido se pueden averiguar los casos en que un
alumno que haya cursado y hecho examen de la misma materia
Z ← HISTORIA [HISTORIA.Calificación<EXAMEN.Calificación ^
HISTORIA.Número_cuenta=EXAMEN.Número_cuenta ^
HISTORIA.Clave_materia=EXAMEN.Clave_materia]
EXAMEN
Join natural
En el equi join, las columnas que se comparan aparecen en el resultado
añadiendo redundancia, ya que ambas columnas contienen exactamente los
mismos valores, esta redundancia no se dá con los otros 9 tipos de theta join.
Con la finalidad de eliminar esa redundancia en el equi join se define el join
natural, en el que se elimina una de las columnas que se usan en la
comparación.
El join natural genera una relación resultado de grado menor que el equi
join, utilizando los mismos operandos.
Bases de Datos. Miguel Murguía. FAR.
81
División
÷
El operador división sirve para encontrar las tuplas que satisfacen una relación
“para todo”. Por ejemplo, “encontrar los números de cuenta de los alumnos
que han cursado todas la materias de la carrera de Biología”.
La expresión, utilizando división, que contesta esa pregunta es:
Π numero-cuenta, clave-materia (historia) ÷ Π clave-materia (σ carrera=“Biología” (materia))
Así, una expresión del tipo:
r÷s
tiene como esquema a R-S. Si r tiene como esquema a R=(A1, A2) y s a
S=(A2), entonces r ÷ s da como resultado una relación con los valores A1
tales que el par (A1,A2) aparecen en r para todos los valores de A2 que
aparecen en s.
Por ejemplo:
r
A1
a
a
a
a
b
b
b
c
c
c
r÷s
s
A2
x
y
z
w
v
x
z
x
z
w
÷
Bases de Datos. Miguel Murguía. FAR.
A2
x
z
w
=
A1
a
c
82
Formalmente:
r ÷ s = Π R-S (r) - Π R-S ((Π R-S(r) x s) - r
donde r(R) y s(S) son relaciones y S ⊆ R
Obsérvese que:
(Π R-S(r) x s)
tiene esquema R, pues rxs tiene esquema R∪S y si a ese producto se
aplica una proyección R-S se obtiene el esquema R. Además es
condición necesaria que coincidan los esquemas para poder operar una
diferencia.
La expresión
Π R-S ((Π R-S(r) x s) - r)
da como resultado una relación de esquema R-S y obtiene todas las
tuplas que deben eliminarse de r para cumplir con la definición de la
división, pues obtiene todas las tuplas en r que no tienen una igual en s.
Así, si observamos la expresión:
Π numero-cuenta, clave-materia (historia) ÷ Π clave-materia (σ carrera=“Biología” (materia))
dará como resultado los números de cuenta (i.e. {numero-cuenta, clave-materia} {clave-materia}) que estén asociados a cada una de las claves de materia que
se encuentren en:
Π clave-materia (σ carrera=“Biología” (materia))
Así, la respuesta a “los números de cuenta de los alumnos que han cursado
todas la materias de la carrera de Biología”, puede mostrarse
esquemáticamente:
Bases de Datos. Miguel Murguía. FAR.
83
R
S
número-cuenta
950001
950002
950002
950004
950004
970003
970003
relación
R
S
T
clave-materia
02001
02001
02003
02002
02003
02002
02003
÷
clave-materia
02002
02003
esquema
Esquema-R
Esquema-S
Esquema-R - Esquema-S
Bases de Datos. Miguel Murguía. FAR.
T
=
número-cuenta
950004
970003
(número_cuenta, clave_materia)
(clave_materia)
(número_cuenta)
84
División (Reforzamiento)
A continuación se ejemplifica la equivalencia de la división:
r ÷ s = Π R-S (r) - Π R-S ((Π R-S(r) x s) - r)
Esquemas:
R = {A1, A2}
S = {A2}
R-S = {A1}
Nótese que Π R-S(r) x s tiene esquema R, pues S ⊆ R.
Π R-S(r) x s
Π R-S(r)
Π R-S(r) x s
s
A1
a
b
c
x
A2
x
z
w
A1
a
a
a
b
b
b
c
c
c
=
A2
x
z
w
x
z
w
x
z
w
(Π R-S(r) x s) - r
Π R-S(r) x s
A1
a
a
a
b
b
b
c
c
A2
x
z
w
x
z
w
x
z
(Π R-S(r) x s) - r
r
-
A1
a
a
a
a
b
b
b
c
Bases de Datos. Miguel Murguía. FAR.
A2
x
y
z
w
v
x
z
x
=
A1
b
A2
w
85
c
w
c
c
z
w
Recuerde que:
Π R-S (r) - Π R-S ((Π R-S(r) x s) - r)
ΠR-S(r)
A1
a
b
c
Π R-S((Π R-S(r) x s) - r)
-
A1
b
=
Π R-S (r) - Π R-S ((Π R-S(r) x s) - r)
A1
a
c
Asignación
Z←R
SELECT * FROM R INTO S
SELECT * FROM R AS S
El operador asignación es útil para expresar consultas complejas, pues
permite dividir la pregunta en módulos.
Por ejemplo, para expresar de una manera más entendible a la equivalencia de
la división en términos de operaciones básicas se pueden realizar las siguientes
asignaciones:
A <- Π R-S (r)
B <- A - Π R-S ((Π R-S(r) x s) - r
La asignación se puede observar en dos ámbitos:
Uno en donde la variable a la que se asigna sólo se requiere de manera
temporal, por ejemplo, como medio para realizar un “query” complejo.
Bases de Datos. Miguel Murguía. FAR.
86
Otro, donde se desea que el valore de la variable (la relación asignada)
se almacene en la base de datos, ésta operación requiere una
modificación al diccionario de datos, es decir al esquema de la base de
datos, además de que se deberá especificar la(s) columna(s) que
conforma a la llave primaria.
Bases de Datos. Miguel Murguía. FAR.
87
Ejercicios I
1. Considere la siguiente pregunta:
“Clave de las materias que han sido cursadas por todos los alumnos”
¿Qué operador relacional ayuda a contestar esta pregunta directamente?
¿Cuál es una equivalencia en SQL de ese query?
2. ¿En que sentido los operadores de diferencia, unión e intersección no son
equivalentes a su contraparte en la teoría de conjuntos?
3. ¿Qué es compatibilidad de unión?
¿A qué operadores aplica?
¿Porqué el modelo relacional lo pone como una restricción en esos casos?
4. ¿Qué significa que los operadores del modelo relacional sean cerrados?
¿Cómo esa propiedad ayuda en la práctica?
5. ¿Es más complicado actualizar llaves primarias que otros atributos? ¿Por
qué?
Bases de Datos. Miguel Murguía. FAR.
88
Ejercicios II
1. Construya una tabla de los operadores relacionales indicando si son unarios
o binarios y si son o no conmutativos. Asimismo, indique si es requisito
que los operandos cumplan la restricción de compatibilidad de unión.
2. Para el esquema de una base de datos de un negocio que desarrolló,
muestre una consulta en donde se utilice el producto natural de tres
tablas.
3. Construya la consulta equivalente del ejercicio anterior pero utilizando
producto cartesiano.
4. Explique la equivalencia de la operación división utilizando sólo
operaciones básicas.
5. Construya una expresión del álgebra relacional para obtener los nombres
de las materias que ha cursado Carmen Díaz.
6. Construya una expresión del álgebra relacional para obtener los nombres
de los alumnos que han cursado Bioquímica pero no Estadística.
Bases de Datos. Miguel Murguía. FAR.
89
2. Modificación de la Base de Datos
Asignación
Z←R
SELECT * FROM R INTO S
SELECT * FROM R AS S
El operador asignación es útil para expresar consultas complejas, pues
permite dividir la pregunta en módulos.
Por ejemplo, para expresar de una manera más entendible a la equivalencia de
la división en términos de operaciones básicas se pueden realizar las siguientes
asignaciones:
A ← Π R-S (r)
B ← A - Π R-S ((Π R-S(r) x s) - r
La asignación se puede observar en dos ámbitos:
Uno en donde la variable a la que se asigna sólo se requiere de manera
temporal, por ejemplo, como medio para realizar un “query” complejo.
Otro, donde se desea que el valore de la variable (la relación asignada)
se almacene en la base de datos, ésta operación requiere una
modificación al diccionario de datos, es decir, al esquema de la base de
datos, además de que se deberá especificar la(s) columna(s) que
conforma a la llave primaria.
Bases de Datos. Miguel Murguía. FAR.
90
Inserción
insert
Z←Z∪R
INSERT INTO R VALUES (v1, v2, ..., vn)
El operador insert permite agregar un renglón o una colección de renglones a
una relación. Aunque físicamente se insertan en algún orden, para el modelo
relacional no es importante si se insertan al inicio o al final o en algún otro
orden.
Si la colección de renglones a insertar contiene renglones que están
duplicados, entonces, el DBMS debe insertar sólo uno de ellos.
Si la colección de renglones a insertar incluye alguno de los de la relación en
que se insertan, entonces, el DBMS no debe insertarlo.
Como una relación no debe tener renglones que repitan la llave primaria,
entonces no deberán de insertarse los renglones que ocasionen este problema.
Si la relación en al que se insertan tiene índices, éstos deben de actualizarse
automáticamente, para que los nuevos renglones sean incluidos.
Si los renglones a insertar se obtienen de una expresión del álgebra relacional,
entonces se puede utilizar la unión y la asignación para subsitutir a la
inserción:
Z ← Z UNION E
donde E es una expresión del álgebra relacional.
SQL:
INSERT INTO HISTORIA
VALUES (970003, 02001, 97, 9);
Bases de Datos. Miguel Murguía. FAR.
91
Actualización
update
UPDATE R SET A=a WHERE B=b;
El operador update substituye a la eliminación e inserción de renglones
cuando se desean cambiar los valores de una porción pequeña de las
columnas.
La información necesaria para realizar una actualización es:
• el nombre de la relación a actualizar,
• la especificación de los renglones a actualizar, y
• los nombres de las columnas que se desean actualizar en los
renglones y los nuevos valores de esos componentes.
Para identificar a los renglones que se desean actualizar, el usuario puede
brindar una lista de las claves primarias, o una condición válida para el
operador selección.
Los índices existentes deben de actualizarse.
La integridad referencial puede dañarse si se actualizan las llaves primarias o
las llaves foráneas.
Actualización de llaves primarias
El modelo relación define un operador para este caso especial: primary-key
update.
Este operador busca en todas las columnas de la base de datos que tengan el
mismo dominio de la columna que el usuario desea actualizar y cambia, en
cascada, todos los valores que coincidan (llaves foráneas).
SQL: UPDATE MATERIA
SET NOMBRE_MATERIA=“Cálculo Integral”
WHERE NOMBRE_MATERIA=“Cálculo”;
Bases de Datos. Miguel Murguía. FAR.
92
Borrar
delete
DELETE R WHERE P
El operador delete permite eliminar renglones de una relación. El caso
particular de borrar cero renglones no debe tratarse especialmente.
El usuario puede especificar los renglones mediante una lista de llaves
primarias o mediante una expresión de selección válida.
Los índices existentes deben de actualizarse automáticamente.
La integridad referencial puede dañarse si existen llaves foráneas con valores
que coincidan con las llaves primarias de los renglones eliminados.
DELETE EXAMEN
WHERE ORDEN_DE_PAGO=NULL;
delete with cascade deletion
En el modelo relacional se define el operador delete with cascade deletion
que produce una propagación de la eliminación de renglones ligados mediante
llaves foráneas que coinciden con las llaves primarias de los renglones
eliminados.
3. Vistas
Definición de vistas
Las vistas permiten personalizar la interface con cada tipo de usuario.
También permiten confinar la interacción con la Base de Datos a una o más
vistas como la única manera de acceder a los datos.
Las vistas “relaciones virtuales” representadas por su nombre y su definición.
La definición de una vista puede estar basada en:
Bases de Datos. Miguel Murguía. FAR.
93
a) tablas-R
b) vistas
c) tablas-R y vistas
Por ejemplo, se puede definir una vista que considere a los alumnos de la
carrera de Biología. Esa vista puede estar representada en el catálogo bajo la
fórmula:
ALUMNO [Carrera=“Biología”]
VISTA_1
Numerocuenta
950001
950002
970001
950004
970003
NombreAñoCarrera
alumno
ingreso
Oscar Martínez
95 Biología
Mario Sánchez
95 Biología
Emilio Vera
97 Biología
Carmen Díaz
95 Biología
Miguel Romero
97 Biología
Otro ejemplo de vista es el equi-join entre ALUMNO e HISTORIA sobre el
atributo Número_de_cuenta.
ALUMNO [Número_de_cuenta=Número_de_cuenta] HISTORIA
VISTA_2
Numerocuenta
950001
....
970003
Nombre...
alumno
Oscar Martínez ...
Número_cuen ...
ta
950001
...
Calificació
n
8.2
Miguel Romero ...
970003
8
Bases de Datos. Miguel Murguía. FAR.
...
94
Modificabilidad de las Vistas
Las vistas no deben definirse en términos de procedimientos (v.g.
involucrando loops), esto hace que los usuarios puedan definir vistas aunque
no sean programadores.
Las vistas se definen utilizando lenguaje relacional.
La definición de las vistas deben de poder almacenarse en el catálogo, pues en
general, son de interés para una comunidad de usuarios y no solo para un
usuario en particular.
El DBMS y el lenguaje relacional no deben hacer distinción en el tratamiento
de relaciones y de vistas, excepto porque:
• algunas vistas no aceptan inserción de renglones, eliminación y/o
actualización.
• algunas vistas no tienen llaves primarias, por lo que no aceptan
aquellos operadores que requieren de una llave primaria en sus
operandos.
Modificabilidad
El término “modificable” se refiere a que una vista pueda aceptar operaciones
de delete, update e insert.
No todas las vistas son modificables, pues en algunos casos, el dar esas
libertades puede producir daños en la integridad.
Por ejemplo, si una vista se define como una proyección de atributos no
primos, entonces no está definido cómo operar un delete.
Bases de Datos. Miguel Murguía. FAR.
95
Algoritmo VU
Considérese la siguiente definición de una vista:
VISTA_3:
HISTORIA [Clave_materia, Calificación]
Clave-materia Calificacio
n
02001
8.2
02001
9
02003
7
02002
9
02003
10
02002
8
02003
9
La vista anterior no puede aceptar delete, pues cada renglón de la vista pueden
corresponder a más de uno en la relación base (HISTORIA), así, la
eliminación de un renglón en la vista podría considerar la eliminación de
varios en la relación base.
En términos generales, una vista es modificable en términos de tres
operadores: delete, update e insert.
Para cada uno de esos operadores se puede definir si la vista es modificable.
Así, se puede definir para cada vista si se le pueden borrar tuplas, insertar
tuplas o actualizar componentes.
El modelo relacional define el algoritmo VU (View Updatability) para definir
si una vista es modificable o no en cada uno de los tres aspectos: delete,
update e insert.
El algoritmo VU debe estar implementado en los DBMS y puede ejecutarse al
momento de definir una vista. Es decir, el algoritmo VU opera en tiempo de la
definición de la vista, no en el de la ejecución.
El algoritmo VU recibe como parámetros la definición de la vista en un
lenguaje relacional y el conjunto de restricciones de integridad. Con esos dos
elementos se puede decidir la modificabilidad de la vista.
El DBMS debe de almacenar en el catálogo los estados reportados por el VU
para la modificabilidad de cada vista.
Bases de Datos. Miguel Murguía. FAR.
96
IV Diseño de bases de Datos Relacionales
1. Normalización
Dependencia funcional
Dada una relación R, su atributo B es funcionalmente dependiente del
atributo A (denotado por AÆ B) si y sólo sí, siempre que dos tuplas de R
coinciden en su valor A, también lo hacen en su valor B.
También se dice que A determina funcionalmente a B.
Por ejemplo:
A
1
1
2
3
3
3
4
4
B
22
22
50
10
10
10
22
22
Las dependencias funcionales definen una de las maneras en que se
relacionan entre sí los atributos.
Pueden ser vistas como un conjunto de restricciones al modelo de datos, ya
que son condiciones que se deben de cumplir en el modelo de datos.
ALUMNO
Numerocuenta
Nombrealumno
Añoingreso
Bases de Datos. Miguel Murguía. FAR.
Carrera
97
En esa relación el atributo NOMBRE_ALUMNO es funcionalmente
dependiente del NUMERO_CUENTA, pues para cada valor de
NUMERO_CUENTA hay sólo uno de NOMBRE_ALUMNO.
Obsérvese que la dependencia funcional es direccional, por ejemplo, se
permite que para cada valor de NOMBRE_ALUMNO si haya más de uno en
NUMERO_CUENTA.
Supóngase que se tiene una relación con el siguiente esquema:
HISTORIA(ALUMNO#, GRUPO#, MATERIA, PROFESOR,
SALON, CALIFICACION)
con llave primaria (ALUMNO#, GRUPO#); en la que se cumplen las
siguientes relaciones funcionales:
1.- (ALUMNO#, GRUPO#) Æ CALIFICACION
Lo que implica que para cada par de valores ALUMNO#, GRUPO#
existe un sólo valor de CALIFICACION.
2.- GRUPO# Æ MATERIA
3- GRUPO# Æ PROFESOR
4.- GRUPO# Æ SALON
Lo que implica que para cada valor GRUPO# hay un sólo valor de
MATERIA, PROFESOR y SALON.
5.- PROFESOR Æ SALON
y para cada valor de PROFESOR hay sólo uno de SALON.
Las dependencias funcionales son un elemento importante en el diseño de
bases de datos relacionales, pues ponen restricciones al modelo por construir.
Además, en varios de los conceptos de normalización la dependencia
funcional está involucrada como idea fundamental.
Bases de Datos. Miguel Murguía. FAR.
98
1a. forma normal
Una relación está en primera forma normal (1FN) si todos los valores de los
atributos son atómicos.
Generalmente esta propiedad es inherente a la definición de relación.
2a. forma normal
Una relación está en segunda forma normal (2FN) si está en 1FN y cada
atributo no-primo depende completamente de la llave primaria.
Dependencia completa se refiere a que si en la llave primaria participa más
de un atributo, entonces el atributo debe depender de la combinación de todos
los atributos de la llave y no sólo de alguno de ellos.
Por ejemplo, CALIFICACION depende completamente de la llave primaria:
1.- (ALUMNO#, GRUPO#) Æ CALIFICACION
mientras que SALON no:
4.- GRUPO# Æ SALON
Así, para transformar la relación HISTORIA a 2FN es necesario separar los
atributos que dependan parcialmente de la llave:
CALIF (ALUMNO#, GRUPO#, CALIFICACION)
CURSO (GRUPO#, MATERIA, PROFESOR, SALON)
La descomposición garantiza que se haga sin “pérdida de información”, es
decir, que no contenga menos información que:
HISTORIA(ALUMNO#, GRUPO#, MATERIA, PROFESOR,
SALON, CALIFICACION)
Bases de Datos. Miguel Murguía. FAR.
99
Nótese que para que una relación que esté en 1FN no esté en 2NF debe tener
una llave compuesta.
La relación HISTORIA, que está 1NF pero no en 2NF, tiene la dificultad de
que:
• No se puede registrar un curso sin que se conozca cuando menos un
alumno que esté inscrito. Pues no se puede tener un valor nulo en el
atributo ALUMNO#.
• Si se desea actualizar el nombre del PROFESOR se deberá hacerlo en
varias tuplas de la relación.
• Si todos los alumnos de un curso se dan de baja entonces se perderá
la información de ese curso.
Bases de Datos. Miguel Murguía. FAR.
100
3a. forma normal
Una relación está en tercera forma normal (3FN) si está en 2FN y cada
atributo no-primo depende no-transitivamente la llave primaria.
Por ejemplo, el atributo SALON es dependiente transitivamente del atributo
GRUPO#, pues:
3- GRUPO# Æ PROFESOR, y
5.- PROFESOR Æ SALON
Así, la relación CURSO no está en 3NF:
CURSO (GRUPO#, MATERIA, PROFESOR, SALON)
y presenta los siguientes problemas:
• En el caso de que los salones sean cubículos personalizados, no se
puede asignar un cubículo (SALON) a un PROFESOR hasta se habrá
un curso.
• Si el PROFESOR cambia de cubículo, habrá que actualizarlo en cada
grupo asignado a ese profesor.
• Si un profesor deja de dar clases, entonces no se tiene información de
él y en qué cubículo encontrarlo.
Para transformarla a 3NF, se debe dividir la relación CURSO para evitar que
SALON dependa transitivamente de la llave primaria:
CALIF (ALUMNO#, GRUPO#, CALIFICACION)
CURSO (GRUPO#, MATERIA, PROFESOR)
CATEDRA (PROFESOR, SALON)
En este proceso de partir la relación original en otras, se conoce como
descomposición sin pérdida de información.
En general, una relación R(A,B,C) en la que existe una dependencia funcional
Bases de Datos. Miguel Murguía. FAR.
101
AÆ B,
puede descomponerse sin pérdida de información en las proyecciones:
R1(A,B) y
R2(A,C)
que se conoce como el “teorema de Heath”, descrito en 1971.
No se pierde información en la descomposición, pues la relación original se
puede reconstruir reuniendo (join) las proyecciones.
Bases de Datos. Miguel Murguía. FAR.
102
Forma normal de Boyce-Codd
Una relación está en la forma normal de Boyce-Codd (BCFN) si y sólo sí
cada determinante es una llave candidata.
Un determinante es un atributo o grupo de ellos, de los que algunos otros
atributos son funcionalmente dependientes, es decir, si:
AÆ B,
entonces A es un determinante.
Como ejemplo, considérese una escuela en la que:
• cada materia puede ser impartida por varios profesores,
• cada profesor enseña sólo una materia,
• cada estudiante toma varias materias y tiene sólo un profesor para una
materia dada.
Lo anterior puede representarse mediante el esquema:
INSCRIPCION(ALUMNO#, PROFESOR, MATERIA)
con clave primaria (ALUMNO#, PROFESOR) y las dependencias:
PROFESOR Æ MATERIA
ALUMNO# Æ PROFESOR
Esa relación no está en 2NF, pues existe la dependencia parcial:
PROFESOR Æ MATERIA
lo cual se puede resolver mediante:
INSCRIPCION(ALUMNO#, MATERIA, PROFESOR)
Bases de Datos. Miguel Murguía. FAR.
103
La relación:
INSCRIPCION(ALUMNO#, MATERIA, PROFESOR)
sí está en 2NF y aún en 3NF, pero no en BCFN, pues se tiene la dependencia:
PROFESOR Æ MATERIA
y PROFESOR no es una llave candidata (y es un determinante, por lo que
viola la definición de BCFN).
Como puede observarse, existe redundancia en el hecho de que cada profesor
sólo imparte una materia, y en esa relación aparecerá el PROFESOR junto con
la MATERIA que imparte cada que un alumno toma una clase con él.
Lo anterior puede resolverse mediante la descomposición:
CLASE(ALUMNO#, PROFESOR)
PROFESOR(PROFESOR, MATERIA)
Bases de Datos. Miguel Murguía. FAR.
104
4a. forma normal
Una relación está en cuarta forma normal (4FN) si y sólo sí, siempre que
exista una dependencia multivaluada en R, AÆÆ B, todos los atributos de R
son funcionalmente dependientes de A.
Como ejemplo considérese la relación:
PROVEEDOR(COMPAÑIA, PRODUCTO, PAIS)
con llave primaria (COMPAÑIA, PRODUCTO, PAIS) sin dependencias
funcionales; y que significa que una COMPAÑIA vende un PRODUCTO en
cierto PAIS.
Esa relación está en BCFN. Sin embargo, es evidente la redundancia de
información cuando cada empresa vende todos sus productos a cada país al
que exporta. Por ejemplo, si IBM vende computadoras a Francia, entonces
vende todo sus productos en Francia.
Así, si quisiéramos agregar el hecho de que IBM exporta a España, tendríamos
que agregar una tupla <IBM, p. España> para cada producto p que produce
IBM.
Ahora considérese la siguiente descomposición sin pérdida de información:
PRODUCE(COMPAÑIA, PRODUCTO)
EXPORTA(COMPAÑIA, PAIS)
con claves primarias COMPAÑIA, PRODUCTO) y (COMPAÑIA, PAIS)
respectivamente.
La redundancia no era debida a la existencia de dependencias transitivas ni
parciales, sino a las dependencias multivaluadas:
COMPAÑIA ÆÆ PRODUCTO
COMPAÑIA ÆÆ PAIS
Bases de Datos. Miguel Murguía. FAR.
105
Ejemplos de tuplas de la relación PROVEEDOR
COMPAÑIA
IBM
IBM
IBM
IBM
IBM
IBM
DEC
DEC
DEC
DEC
ICL
ICL
PRODUCTO
PC
PC
PC
MAINFRAME
MAINFRAME
MAINFRAME
PC
PC
MINI
MINI
MAINFRAME
MAINFRAME
PAIS
FRANCIA
ITALIA
UK
FRANCIA
ITALIA
UK
FRANCIA
IRLANDA
FRANCIA
IRLANDA
ITALIA
FRANCIA
Alternativa, después de aplicar 4 forma normal:
PRODUCE
COMPAÑIA
IBM
IBM
DEC
DEC
ICL
PRODUCTO
PC
MAINFRAME
PC
MINI
MAINFRAME
EXPORTA
COMPANY
IBM
IBM
IBM
DEC
DEC
ICL
ICL
PAIS
FRANCIA
ITALIA
UK
FRANCIA
IRLANDA
ITALIA
FRANCIA
Bases de Datos. Miguel Murguía. FAR.
106
Dependencia multivaluada
Dada una relación R(A, B. C), la dependencia multivaluada
A ÆÆ B
se cumple en R sí y sólo sí, el conjunto de los valores de B que corresponden a
un par dado (valor de A, valor de C) en R depende sólo del valor de A y es
independiente de C.
La relación PROVEEDOR se puede considerar como una combinatoria entre
los atributos COMPAÑIA-PRODUCTO-PAIS
COMPAÑIA
IBM
PRODUCTO
PC
MAINFRAME
DEC
PC
MINI
MAINFRAME
ICL
PAIS
FRANCIA
ITALIA
UK
FRANCIA
IRLANDA
ITALIA
FRANCIA
Es decir, se exige la existencia de tuplas dada la existencia de otras, por
ejemplo, dado que existen las tuplas
<IBM, PC, FRANCIA> y
<IBM, MAINFRAME, ITALIA>
entonces también deben existir las tuplas:
<IBM, PC, ITALIA> y
<IBM, MAINFRAME, FRANCIA>
En general, si en una relación se cumple A ÆÆ B, entonces se cumple que
dado que existen la tuplas:
<a, b1, c1 > y
<a, b2, c2 >
Bases de Datos. Miguel Murguía. FAR.
107
también deben existir las tuplas:
<a, b1, c2 > y
<a, b2, c1 >
Una dependencia multivaluada se da en relaciones de 3 o más atributos, pues
la definición hace referencia a relaciones entre A, B y C. Se puede demostrar
que siempre que se da:
A ÆÆ B
también se da:
A ÆÆ C
por lo que suele usarse la notación:
A ÆÆ B | C
Nótese que si una relación R no satisface una dependencia multivaluada, se
puede construir una R’ que sí la satisfaga añadiendo tuplas a R. Por lo que se
dice que mientras que las dependencias funcionales son restrictivas (por
ejemplo dado A Æ B y la tupla < a, b1> no puede existir la tupla < a, b2>), las
dependencias multivaluadas son generadoras de tuplas.
Bases de Datos. Miguel Murguía. FAR.
108
Limitaciones de la normalización
• El proceso de normalización ayuda a representar los hechos en la Base de
datos de una manera más cercana al mundo real.
• Sin embargo, en ocasiones no es necesario normalizar “al extremo” las
relaciones de la base de datos, inclusive, será conveniente mantener algunas
sin normalizar.
Por ejemplo, la relación:
CLIENTE (NOMBRE, CALLE, CIUDAD, PC)
con llave primaria (NOMBRE), no está en 3NF, pues se dan las
dependencias transitivas:
NOMBRE Æ CP
CP Æ CALLE
CP Æ CIUDAD
• Aunque una relación normalizada soluciona aspectos de actualización de la
información, en ocasiones incrementa los problemas de recuperación o
consulta, ya que en una base de datos normalizada la información se tendrá
que recuperar de varias relaciones, por lo que una no-normalizada podrá
tener mejor desempeño.
Bases de Datos. Miguel Murguía. FAR.
109
Dependencia de reunión (join)
El concepto de dependencia de reunión es necesario para entender la 5a forma
normal.
La dependencia de reunión es un concepto más general que el de dependencia
funcional y aún que el de multivaluada.
Así como una dependencia funcional puede ser vista como un caso especial de
la dependencia multivaluada, la dependencia multivaluada es un caso especial
de la de reunión.
Se dice que una relación R satisface una dependencia de reunión (A, B) si A
join B reproducen exactamente a R.
Considérese a la relación PROVEEDOR:
(S#, Noms, Estado, Ciudad)
con claves candidatas S# y Noms. La relación PROVEEDOR satisface la
dependncia re reunión:
((S#, Noms, Estado), (S#, Ciudad))
pues (S#, Noms, Estado) join (S#, Ciudad) reproduce a PROVEEDOR.
También satisface la dependencia de reunión:
((S#, Noms,), (S#, Estado), (Noms, Ciudad))
pues (S#, Noms) join (S#, Estado) join (S#, Ciudad) también reproduce a
PROVEEDOR.
Bases de Datos. Miguel Murguía. FAR.
110
5NF o PR/NF (forma normal de proyección-reunión)
Quinta forma normal:
Una relación R está en quinta forma normal (5NF) (también llamada de
proyección-reunión) si y sólo si toda dependencia de reunión en R está
implicada por las llaves candidatas de R.
Considere la relación SPJ(S, P, J) con llave primaria (S,P,J):
SPJ
S
S1
S1
S2
S1
P
P1
P2
P1
P1
J
J2
J1
J1
J1
La relación SPJ no contiene dependencias funcionales ni dependencias
multivaluadas, por lo que se encuentra en 4NF, sin embargo, se observa
redundancia en la información, pudiéndose producir anomalías al actualizarla.
Considérese las proyecciones SP y PJ:
SP
S
S1
S1
S2
S1
PJ
P
P1
P2
P1
P1
P
P1
P2
P1
P1
J
J2
J1
J1
J1
y el join de SP y PJ:
SP join PJ
S
S1
S1
S1
S2
P
P1
P1
P2
P1
J
J2
J1
J1
J2
Bases de Datos. Miguel Murguía. FAR.
111
S2
P1
J1
como puede observarse SP join PJ no reproduce a SPJ, pues contiene una
tupla de más.
Ahora considere a la proyección SJ:
SJ
S
S2
S1
S1
J
J1
J1
J2
El join SP join PJ join SJ reproduce a SPJ, por lo que existe la dependencia de
reunión (SP, PJ, SJ), y por lo tanto SPJ no está en 5NF.
En general:
Si
<s1, p1> aparce en SP
<p1, j1> aparce en PJ
<s1, j1> aparce en SJ
entonces
<s1, p1, j1> aparece en SPJ.
o bien:
Si
<s1, p1, j2>,
<s1, p2, j1>,
<s2, p1, j1> aparecen en R
entonces
<s1, p1, j1> también debe aparecer en R.
Es decir, la dependencia de reunión es un tipo de restricción adicional a la
dependencia funcional y a la multivaluada.
Bases de Datos. Miguel Murguía. FAR.
112
Cuando existe una dependencia de reunión en una relación, sí debe
descomponerse para así transformar a 5NF.
Bases de Datos. Miguel Murguía. FAR.
113
DK/NF (Dependencia de dominio-clave)
Forma normal de dominio-clave:
Una relación está en forma normal de dominio-clave si cada restricción en la
afinidad es consecuencia lógica de la definición de las claves y dominios.
Cuando se diseña una base de datos y se intenta “normalizarla” se hace
respecto a un conjunto de restricciones. Por ejemplo, para normalizar a 2NF,
3NF y BCNF se deben de considerar las dependencias funcionales en el
modelo de datos; para normalizar a 4NF se deben de considerar las
dependencias multivaluadas; para normalizar a 5NF se deben de considerar las
dependencias de reunión.
Sin embargo, existen otros tipos de restricciones que se imponen al modelo,
entendiendo por restricción cualquier regla que gobierna los valores estáticos
de atributos.
De manera informal, una relación está en forma normal de dominio-clave si al
aplicar las restricciones de clave y de dominio se provoca que se cumplan
todas las restricciones.
Bases de Datos. Miguel Murguía. FAR.
114
Resumen de Formas Normales
1NF
Valores atómicos
2NF
Los atributos no primos dependen completamente de la llave
primaria
3NF
No hay dependencias transitivas
BCNF
Cada determinante es una clave candidata
4NF
No hay dependencias multivaluadas
5NF
Dependencias de reunión implicadas por las llaves candidatas
Bases de Datos. Miguel Murguía. FAR.
115
Dependencias Funcionales
Además de que es útil conocer el conjunto de dependencias funcionales que se
utilizarán como restricción para diseñar la estructura de la base de datos,
también es útil conocer todas las posibles dependencias funcionales que se
puedan derivar lógicamente.
Es decir, dado un conjunto F de dependencias funcionales, se pueden deducir
otras, siguiendo un conjunto de reglas deductivas, y se dice que F implica
lógicamente a dicho conjunto.
Cierre de un conjunto de dependencias funcionales
El cierre de F es el conjunto de dependencias funcionales F+ que F implica
lógicamente.
Para calcular el cierre F+ dado un conjunto F, se utilizan los axiomas de
Armstrong, que son un conjunto de reglas de transformación, para las que se
ha demostrado su validez.
Los axiomas de Armstrong son seguros porque no generan dependencias
funcionales incorrectas y son completos porque para un conjunto F de
dependencias funcionales permiten generar F+ completo.
Bases de Datos. Miguel Murguía. FAR.
116
Axiomas de Armstrong
Reflexividad:
Si α es un conjunto de atributos y β ⊆ α,
entonces se cumple αÆβ
Aumento:
Si se cumple αÆβ y γ es un conjunto de atributos,
entonces se cumple γαÆγβ
Transitividad:
Si se cumple αÆβ y se cumple βÆγ,
entonces se cumple αÆγ
Otras reglas que se deducen a partir de los axiomas de Armstrong son:
Unión:
Si se cumple αÆβ y se cumple αÆγ,
entonces se cumple αÆβγ
Descomposición:
Si se cumple αÆβγ,
entonces se cumplen αÆβ y αÆγ
Pseudotransitividad:
Si se cumple αÆβ y se cumple βγÆδ,
entonces se cumple αγÆδ
Ejemplo:
Considérese a la relación R:
R(A, B, C, G, H, I)
y al conjunto de F dependencias funcionales:
AÆB
AÆC
Bases de Datos. Miguel Murguía. FAR.
117
CG Æ H
CG Æ I
BÆH
Podemos generar algunos miembros de F+:
A Æ H,
transitividad A Æ B y B Æ H;
CG Æ HI, unión
CG Æ H y CG Æ I;
AG Æ I,
AG Æ CG aumento A Æ C y G.
AG Æ I transitividad AG Æ CG y CG Æ I
Bases de Datos. Miguel Murguía. FAR.
118
Análisis
La metodología para diseño de bases de datos relacionales se puede clasificar
en dos tipos de estrategias: Análisis y Síntesis.
Los ejemplos revisados en clase sobre las diferentes etapas de normalización,
utilizan una estrategia analítica porque dada una relación se iba dividiendo,
generando relaciones con menor número de atributos, con la finalidad de
avanzar en el proceso.
Análisis significa distinguir y separar las partes de un todo hasta llegar a
conocer sus principios o elementos.
En el caso extremo de la metodología de análisis, se parte de una relación
universal y se va dividiendo para ir cumpliendo con diferentes grados de
normalización.
Casos intermedios y más comunes son partir de un conjunto de relaciones en
las que cada una se estudia para establecer si cumple con una determinada
forma normal.
En el análisis se generan conceptos más específicos a partir de conceptos
generales. Por ejemplo, a partir de Curso se pueden “descubrir” las relaciones
Alumno, Profesor y Salón.
Bases de Datos. Miguel Murguía. FAR.
119
Síntesis
Síntesis significa formar un todo mediante la reunión de sus partes.
En la síntesis se generan conceptos más generales a partir de conceptos
específicos. Por ejemplo, se puede generar el concepto (relación) Curso a
partir de las relaciones Alumno, Profesor y Salón.
Caso teórico extremo es partir de un conjunto de atributos y de dependencias
funcionales, e ir agregando a los atributos guiado por las restricciones de
dependencias funcionales.
Bases de Datos. Miguel Murguía. FAR.
120
Ejercicios
1.- Defina 30 términos o conceptos del modelo relacional revisados en clase.
2.- Mencione algunas características del modelo relacional en las que esté
involucrado el concepto de dominio.
3.- Considere a la relación R(A, B, C, D, E) y dependencias funcionales:
A Æ BD
CD Æ E
BÆD
EÆA
a) Demuestre que (A, B, C) (A, D, E) es una descomposición sin
pérdida de información.
b) Demuestre que (A, B, C) (C, D, E) no es una descomposición sin
pérdida de información.
c) Normalice R hasta BCNF justificando cada paso.
4.- Para el ejemplo de la escuela revisado en clase, proponga un conjunto de
restricciones mediante dependencias funcionales, justificando cada una.
Bases de Datos. Miguel Murguía. FAR.
121
5.- Considere la relación PROYECTO:
esquema:
PROYECTO(IDProyecto, NombreEmpleado, SalarioEmpleado)
extensión:
PROYECTO
IDProyecto
NombreEmpleado
SalarioEmpleado
100A
100A
100B
200A
200B
200C
200C
200D
Juan
Samuel
Samuel
Juan
Juan
Pedro
Samuel
Pedro
6400
5100
5100
6400
6400
2800
5100
2800
Suponga que todas las dependencias funcionales son evidentes en la extensión.
¿Cuál de las siguientes dependencias funcionales se cumplen?
a) IDProyecto Æ NombreEmpleado
IDProyecto Æ SalarioEmpleado
(IDProyecto, NombreEmpleado) Æ SalarioEmpleado
NombreEmpleado Æ SalarioEmpleado
SalarioEmpleado Æ IDProyecto
SalarioEmpleado Æ IDProyecto, NombreEmpleado
b) ¿En qué forma normal está? Explique.
c) ¿El atributo SalarioEmpleado es un determinante?
d) ¿El atributo NombreEmpleado es un determinante?
e) ¿El atributo IDProyecto es un determinante?
f) ¿Existen dependencias transitivas?
g) Considerando el conjunto de dependencias funcionales que se cumplen,
rediseñe normalizando.
Bases de Datos. Miguel Murguía. FAR.
122
2. Árboles, redes y relaciones recursivas
Árboles
Un árbol se puede representar mediante relaciones con cardinalidad de
asignación 1:N.
Se representan almacenando la clave de padre en el hijo. Los nodos raíz tienen
valor nulo en ese atributo. Cada nodo tiene cuando mucho un padre.
Por ejemplo, la estructura de división política puede representarse mediante un
árbol, implementándola como:
País 1:N Estado 1:N Municipio
lo que significa que un país contiene varios estados y un estado contiene
varios municipios.
Si los diferentes niveles del árbol son del mismo tipo, entonces se puede
representar mediante relaciones recursivas.
Por ejemplo, si se tiene una relación Cliente y se desea registrar qué persona
recomendó a qué otra, entonces:
Cliente 1:N Cliente
que podría implementarse a través de los campos ClvCliente y
RecomendadoPor:
Cliente
ClvCliente
1
2
3
4
5
6
Nombre
...
Bases de Datos. Miguel Murguía. FAR.
RecomendadoPor
NULL
1
1
3
3
4
123
Relaciones recursivas
Relación recursiva: Relación que existe entre entidades de la misma clase.
1:1
Persona
A
B
C
D
E
Se relaciona hacia
B
D
E
A
nulo
Persona
B
D
E
A
Se relaciona desde
A
E
C
D
1:N
Cliente
A
B
C
D
E
No normalizado:
Cliente
A
A
B
B
C
D
E
Recomendado por
nulo
A
B
B
A
Recomienda a
B
E
C
D
nulo
nulo
nulo
N:M
Dos tablas:
Bases de Datos. Miguel Murguía. FAR.
124
Empresa
A
B
C
D
E
Atributos...
...
...
...
...
...
y
Tabla de intersección:
Empresa
A
B
C
D
E
Vende a
C
D
B
A
A
Bases de Datos. Miguel Murguía. FAR.
125
Redes
Análogamente, una red se puede representar mediante cardinalidades de
asignación N:M.
Si los nodos son del mismo tipo, entonces se debe representar mediante una
relación recursiva, pero como la cardinalidad es N:M, entonces se debe de
añadir una relación que contenga a las claves primaria y foránea.
Por ejemplo, si se quiere representar la red de partidos que han jugado una
serie de equipos, entonces se deben de relacionar por
Equipo
ClvEquipo
Nombre
Técnico
...
Partidos
ClvEquipoCasa
ClvEquipoVisita
...
Una red también puede servir para representar listas de materiales, por
ejemplo, para indicar de qué partes están formadas otras partes.
Listas
Una lista de elementos del mismo tipo puede representarse con una relación
recursiva 1:1.
Por ejemplo, una lista de los clientes que se han ido incorporando a la cartera
se puede representar agregando un campo ClvSigCliente. Obviamente, en
muchos casos se puede añadir un campo que establezca un criterio de orden,
por ejemplo la fecha de la primera venta.
Bases de Datos. Miguel Murguía. FAR.
126
3. Integridad
El mantenimiento de la integridad de una base de datos, está relacionado con
el mantenimiento de la consistencia de los datos y con su validez. Este es un
aspecto muy importante, sobre todo en bases de datos en ambientes
multiusuarios.
Algunos manejadores comerciales contienen un subsistema de integridad que
monitorea las operaciones de actualización con el fin de detectar violaciones a
la integridad. Cuando se detecta una violación a la integridad, el sistema
realiza algunas acciones apropiadas, como rechazar la operación causante de la
violación, reportar la violación y, de ser necesario, regresar a la base de datos
a un estado consistente.
Sin embargo, los subsistemas de integridad en general son primitivos, por lo
que esta tarea queda principalmente en manos del implementador.
Podemos agrupar a las diferentes estrategias del mantenimiento de la
integridad en:
Reglas de integridad de dominio.
Su objetivo es mantener valores correctos de los atributos. Por ejemplo, la
regla de integridad de entidad verifica que los valores de los atributos que
pertenecen a la llave primaria no deben ser nulos.
Reglas de integridad de Intra-relación.
Verifican la validez entre los valores de los atributos de una misma relación y
el mantenimiento de llaves únicas.
Reglas de integridad de referencia.
Mantienen la validez y consistencia entre relaciones.
Integridad de dominio
Una relación se define como un subconjunto de un producto cartesiano de n
dominios D1, D2, ...Dn, no necesariamente distintos. Así, los valores que
aparecen en la columna i de la relación deben pertenecer a Di, es decir, cada
atributo de cada relación R tiene un dominio subyacente Di, por lo que cada
valor candidato para R.A debe pertenecer a Di.
Bases de Datos. Miguel Murguía. FAR.
127
Una regla de integridad de dominio es simplemente una definición del tipo del
dominio. La integridad de dominio está relacionada con el concepto de
verificación de tipo de los lenguajes de programación.
La definición del tipo de un dominio debe ser lo más precisa posible con el fin
de evitar violaciones a la integridad de dominio. Por ejemplo, el dominio del
atributo EDAD puede definirse como:
DOMINIO DOM_EDAD = ENTERO
pero es más conveniente aún definirlo como:
DOMINIO DOM_EDAD = ENTERO-POSITIVO
y aún mejor como:
DOMINIO DOM_EDAD = ENTERO-POSITIVO:[0-150]
Desafortunadamente, la mayoría de los manejadores comerciales sólo proveen
tipos simples para los dominios. Por ejemplo, ORACLE tiene los tipos
NUMBER (números enteros y reales), CHAR (cadenas), DATE, TIME y
MONEY.
Varios atributos pueden tener el mismo dominio, por ejemplo, NOMBREALUMNO y PROFESOR tienen el dominio de los nombres de las personas.
Sin embargo, para efectos de implementación, en la práctica se definen los
dominios como cadenas de caracteres.
Surge un problema cuando se definen a los dominios de NOMBRE-ALUMNO
y MATERIA como cadenas de caracteres, por ejemplo, el sistema no puede
detectar que la pregunta:
“Todos los alumnos que tienen el nombre de alguna
de las materias que han cursado”
es improcedente, pues contiene una comparación entre dos atributos con
dominios diferentes:
Bases de Datos. Miguel Murguía. FAR.
128
ALUMNO.Nombre=MATERIA.Nombre
Así, las restricciones de dominio sirven, no sólo para validar la información
contenida en cada atributo, sino también para verificar que tienen sentido las
comparaciones incluidas en preguntas a la base de datos.
Integridad intra-relacional
Las reglas de integridad intra-relación verifican la validez entre los atributos
de una relación, por ejemplo llaves únicas o el hecho de que toda relación no
debe contener dos tuplas con los mismos valores en todos sus atributos.
Cuando se agrega una tupla se debe checar que no exista otra tupla con los
mismos valores en todos sus atributos primos. Asimismo, también se debe
verificar esa condición, no sólo cuando se agregan tuplas, sino también
cuando se actualizan.
De hecho, actualizar los valores de los atributos primos es una operación que
debe tomarse con cuidado, pues una operación inválida tiene serias
consecuencias en la base de datos.
Integridad referencial
La integridad de referencia mantiene la validez de las relaciones entre las
tablas. Por ejemplo, verificar que las llaves foráneas sean nulas o iguales a
alguna llave primaria de la tabla que se relaciona.
Las llaves foráneas desempeñan un papel muy importante, pues mantienen
ciertas relaciones definidas en el modelo.
La cardinalidad de asignación también es una restricción de integridad. Las
cardinalidades 1:1, N:1 o N:M que se definen en un modelo, deben de
mantenerse en la implementación, por ejemplo, una relación con cardinalidad
1:1 no puede contener dos tuplas con los mismos valores en los atributos de la
llave foránea.
De manera general, la integridad referencial permite asegurar que un valor que
aparece en una relación, también aparezca en otra.
Bases de Datos. Miguel Murguía. FAR.
129
Integridad semántica intra-relacional
Verificar la consistencia entre los valores de dos atributos de cada tupla. Por
ejemplo, los atributos EDAD y ANTIGÜEDAD de una tabla con datos de
profesores, deben de cumplir la restricción
EDAD > ANTIGÜEDAD
o más específicamente:
EDAD > ANTIGÜEDAD + C
donde C es un valor constante que es la edad mínima a la que un profesor
comienza a laborar.
La integridad semántica debe de fundamentarse en el análisis sobre el
significado de los atributos dentro del dominio de aplicación, es decir, en el
significado de las interrelaciones entre atributos.
Análisis de consistencia en bases de datos geográficas
Dentro del registro
ClvEstado
Lat
Lon
...
El punto (Lat,Lon) debe de estar dentro de los límites estatales de ClvEstado,
de acuerdo a una cartografía de referencia.
ClvEstado
Lat
Lon
Altitud
...
El punto (Lat,Lon) debe estar a una altitud igual a Altitud.
Bases de Datos. Miguel Murguía. FAR.
130
(La altitud registrada en Altitud debe ser igual a la altitud del punto (Lat,Lon)
en el mapa.)
El estado ClvEstado debe contener a Altitud en sus intervales de altitudes
Entre registros
Dos registros con el mismo (Lat,Lon) deben coincidir en sus valores ClvEstado
y Altitud.
Afirmaciones
Una afirmación puede verse como un procedimiento mediante el cual se
verifica que cierto atributo, o conjunto de ellos, cumpla con ciertas
restricciones.
Por ejemplo, verificar que un alumno no puede realizar más de dos
extraordinarios para una misma materia. Así, cuando se incorpora un registro
sobre un examen extraordinario habría que contar las ocurrencias para ese
mismo alumno en esa misma materia y sólo se aceptaría la operación en el
caso de que el número de ocurrencias no supere a uno.
De hecho, las restricciones de integridad de dominio, referencial e intrarelacional pueden verse como casos específicos de afirmaciones.
En general, las afirmaciones realizan un consumo de recursos considerable. La
definición original de SQL incluía la instrucción assert para definir
afirmaciones, pero fué eliminada de las implementaciones, y aún del SQL
estándar actual, debido a la gran cantidad de tiempo que consume la
verificación de una afirmación.
Como alternativa a las afirmaciones, se puede establecer un programa de
validación en el que el administrador defina un calendario para aplicar rutinas
de validación, que detecten violaciones a la integridad. Esta estrategia tiene la
ventaja de que el tiempo de acceso en linea no disminuye, pero tiene la
desventaja de que es más dificil reestablecer la integridad de la base de datos
días después de hacer las actualizaciones que en el momento de la captura.
Bases de Datos. Miguel Murguía. FAR.
131
Disparadores
Los disparadores son estrategias de integridad en los que se pueden especificar
instrucciones a ejecutar cuando se cumple un conjunto de instrucciones
predeterminadas. Por ejemplo, añadir un registro en una tabla cuando se
incluya un valor que no existía.
Los disparadores son análogos a los demonios del sistema operativo UNIX.
4. Autorizaciones
Los diferentes tipos de instituciones establecen diferentes procedimientos para
salvaguardar su información.
El enfoque de seguridad y autorización que se incorpora en el modelo
relacional es lo suficientemente flexible para que las instituciones puedan
mantener los procedimientos que utilizan, sin ningún cambio, o bien, con
pequeños cambios.
En los DBMS actuales, existe una relación estrecha entre autorización y vistas.
Un beneficio de este enfoque es que disminuye la complejidad de la
implementación.
Algunos usuarios pueden estar autorizados para manipular ciertas columnas o
renglones de una relación, así, el alcance de la autorización puede expresarse
en términos de una vista que contenga sólo esos renglones y columnas. Así,
pueden existir vistas sólo por motivos de autorización, sin embargo, la
mayoría de los DBMS son pobres en la implementación de actualización de
vistas.
Filosofía afirmativa
En el modelo relacional, el enfoque en cuanto a autorización es “afirmativo”,
es decir, se expresa explícitamente los permisos, mientras que en muchos
enfoques no relacionales se expresa explícitamente los accesos denegados.
Bloque de actualización que eliminan renglones de una vista
Bases de Datos. Miguel Murguía. FAR.
132
Supóngase que un usuario tiene acceso s una vista V y a actualizar los valores
de una de sus columnas A. de una vista. El DBA debe poder bloquear las
actualizaciones que hacen que algunos renglones “salgan” de la vista.
Acciones que necesitan autorización de más de un usuario
Algunas actividades o actualización de la base de datos son de crucial
importancia para la empresa, por ejemplo, eliminar los datos de toda una tabla,
para ese tipo de actividades se debe tener la autorización de DBA y del
gerente, por ejemplo.
Algunas de las actividades que pueden requerir la autorización de más de un
usuario son:
• alguna ejecución del comando DROP (desechar)
• alguna ejecución del comando DELETE
• algún cambio a los “periodos de gracia”
Eliminaciones retardadas (“Periodos de gracia”)
Las eliminación de relaciones mediante la ejecución del comando DROP
RELATION tiene como consecuencia almacenarla por un periodo mínimo de
7 días. También las eliminación de un porcentaje elevado de renglones
también pueden estar sujetas a esta estrategia. El “default” es un periodo de 7
días, pero se puede especificar un valor mayor.
Actividades autorizables: control de la base de datos
Algunas de las actividades que se deben de poder autorizar de manera
separada o combinada son:
• crear y eliminar (drop) un dominio
•
una tabla R base
•
una columna de una tabla R existente
•
una vista
•
una restricción de integridad
•
una función definida por el usuario
•
un índice
Bases de Datos. Miguel Murguía. FAR.
133
• crear una llave foránea en una tabla R
• activar o desactivar una autorización
• establecer el modo UP o DOWN para el redondeo de pseudofechas
(v.g. Febrero 30, Marzo 32, Enero 0)
Actividades autorizables: Querys y manipulación
•
•
•
•
•
consultar una tabla R específica
insertar renglones en una tabla R específica
actualizar componentes específicos de una tabla R específica
actualizar llaves primarias de tablas específicas
borrar renglones de tablas R específicas
Bases de Datos. Miguel Murguía. FAR.
134
5. Catálogo
El catálogo almacena la descripción de la estructura de la base de datos.
Forma parte del diccionario de datos. El diccionario de datos además
almacena información sobre los programas de aplicación.
El catálogo debe soportar las siguientes características:
•
•
•
•
•
•
•
•
On-line
Concurrencia
Descripción de dominios, relaciones base y vistas
Restricciones de integridad definidas por el usuario
Restricciones de integridad referencial
Funciones definidas por el usuario
Datos de autorización
Estadísticas
On-line
El DBMS debe soportar un catálogo on-line basado en el modelo relacional.
La descripción de la base de datos de debe representar exactamente como
datos ordinarios, permitiendo a los usuarios autorizados aplicar el mismo
lenguaje relacional para consultar la descripción de la base de datos como se
puede hacer con los datos regulares.
Esta característica por lo general la tienen todos los DBMS.
El que se permita usar el mismo lengaje y sobre un mismo tipo de estructura,
hace que el DBA y los usuarios autorizados a accesar el catálogo, tengan que
aprender un sólo modelo de datos (estructura y lenguaje) y no dos ( uno para
datos ordinarios y otro para el catálogo), como sucedía con manejadores prerelacionales.
Concurrencia
Bases de Datos. Miguel Murguía. FAR.
135
El catálogo debe soportar varias consultas al mismo tiempo (consultas
propiamente y actualizaciones).
Al catálogo lo pueden acceder usuarios o programas de aplicación y se debe
de cuidar de no elevar el número de usuarios autorizados para actualizarlo, ya
que el DBMS lo accesa cuando se realizan consultas a datos regulares.
Bases de Datos. Miguel Murguía. FAR.
136
Descripción de dominios, relaciones base y vistas
Los dominios, las relaciones, las vistas las restricciones de integridad y las
funciones definidas por el usuario se describen cada una por separado, pues su
existencia es independiente:
• Muchas relaciones puden utilizar un mismo dominio.
• Las vistas pueden hacer referencias a más de una relación base.
• Las restricciones de integridad pueden involucrar a más de una
relación.
Dominios
Para cada dominio, el catálogo debe almacenar:
•
•
•
•
el nombre del dominio
su tipo de datos base
el intervalo de valores permitido
y una indicación de si el comparador MENOR QUE (<) es aplicable
Relaciones base
Para cada tabla R, se debe almacenar:
•
•
•
•
•
•
•
•
•
el nombre de la tabla R
sinónimos si los tiene
el nombre de cada columna
para cada columna, el nombre de un dominio previamente definido
si se permiten valores ausentes
si se requiere que los valores sean distintos
restricciones adicionales a las aplicables al dominio
si forma parte de la llave primaria
para cada llave foránea, las columnas y su secuenia de las que se
compone.
Vistas
Bases de Datos. Miguel Murguía. FAR.
137
Para cada vista, el catálogo debe registrar:
•
•
•
•
•
•
•
el nombre de la vista
sinónimos, si los hay
el nombre de cada columna
la expresión en lenguaje relacional que define a la vista
si se permite la inserción de renglones
si se permite borrar renglones
para cada columna, si se permite la actualización de valores
No es requisito registrar el dominio de las columnas de valores calculados, ya
que es difícil deducirlo, pero si es necesario indicar el tipo de datos base.
Restricciones de integridad
Restricciones de integridad definidas por el usuario
Las restricciones de integridad definidas por el usuario normalmente las
incorpora el DBA. Pueden representar reglas y políticas de la compañía o
regulaciones impuestas por el gobierno, o bien, pueden representar factores de
diseño que son necesarios debido al significado de los datos.
Para cada restricción de integridad definida por el usuario, el catálogo debe
almacenar:
•
•
•
•
su nombre
el evento que la dispara
la condición lógica a probar
las acciones ante un intento de violación
Restricciones de integridad referencial
Para cada restricción de integridad referencial, el catálogo debe almacenar:
• su nombre
• el evento que la dispara
Bases de Datos. Miguel Murguía. FAR.
138
• las llaves involucradas
• las acciones ante un intento de violación
Funciones definidas por el usuario
Para cada función definida por el usuario, el catálogo debe almacenar:
•
•
•
•
su nombre
el código fuente
el código compilado
los nombres de las relaciones de las que la función requiere acceso
de lectura
• si la función tiene una inversa, su nombre
• el código fuente y compilado de la función inversa
Datos de autorización
El catálogo debe almacenar qué usuarios, terminales y progrmas de aplicación
están autorizados para tener acceso a qué parte de la base de datos, para qué
tipos de operaciones y bajo qué condiciones.
El modelo relaciones establece los accesos mediante acciones permitidas y no
mediante acciones denegadas, lo que significa que el usuaio no tiene ninún
permiso a menos que se indique en el catálogo explícitamente.
Estadísticas
El catálogo también debe almacenar información estadística que se utiliza para
optimizar las consultas del lenguaje relacional:
• el número de renglones en cada tabla R
• el número de valores distintos en cada columna de cada tabla R
Bases de Datos. Miguel Murguía. FAR.
139
Metodología general
1) Análisis de requerimientos
• Datos requeridos para el dominio de aplicación.
• Descripción informal de la información a almacenar, tanto de los objetos como
de sus relaciones.
• Generalización de las vistas sinónimas.
• Identificación de sinónimos y homónimos (tanto de vistas como de objetos y
relaciones).
• Identificación de los procesos y operaciones que la BD deberá realizar.
2) Modelación EER de los requerimientos
• Definición de: Entidades, Atributos y Relaciones.
• Identificación de Claves.
• Diagramas ER.
• Cardinalidades del las relaciones.
3) Transformación del modelo EER al esquema relacional
• Mapear el modelo EER a un conjunto de relaciones.
• Poner atención en la cardinalidad y el tipo de relación (1:1; 1:N; N:M).
4) Normalización del esquema relacional
• Descripción de las dependencias funcionales para cada relación.
• Reducir cada relación al más conveniente estado de normalización.
Bases de Datos. Miguel Murguía. FAR.
140
V Lógica y Cálculo Relacional de Tuplas
1. Lógica
La lógica es un conjunto de conocimientos fundamental para el manejo de bases de datos.
Las condiciones que se especifican al hacer una consulta a una base de datos pueden
contener operadores lógicos. Por ejemplo, seleccionar aquellos registros que cumplan con
la condición A y la condición B, pero que no cumplan la C:
“Todos los municipios del estado de OAXACA que tengan una población mayor a 10,000
ha. pero que la superficie sea menor a 50,000 km2”.
Las sustituciones de condiciones de esta consulta son:
A = Municipio del estado de OAXACA
B = Población > 10,000
C = Superficie < 50,000
Operadores lógicos
Los operadores lógicos permiten crear enunciados compuestos a partir de enunciados
simples. Por ejemplo el operador “y” o “conjunción” puede utilizarse para unir las
proposiciones:
P = Los habitantes de Michoacán tienen un ingreso promedio de 4 salarios mínimos.
Q = Loa habitantes de Michoacán tiene una edad promedio de 20 años.
P y Q = Los habitantes de Michoacán tienen un ingreso promedio de 4 salarios mínimos y
una edad promedio de 20 años.
El significado es que se dan ambos elementos de la fórmula, que los dos elementos simples
son verdaderos. En la tabla n se muestran las notaciones más frecuentes para los operadores
lógicos. En español, las palabras “además”, “aún”, aunque”, “pero”, “sin embargo” y
“también” tienen un significado de conjunción, sin embargo, dan un matiz a la oración, que
desafortunadamente se pierde en lógica al sustituirlos por el operador “y”. En la tabla n se
ejemplifica en tres diferentes lenguajes el uso de la conjunción.
El operador ”o” o “disyunción” también conecta a dos elementos, pero su significado es
que se cumple alguno de los dos elementos (o ambos). En español, la palabra “o” tiene dos
significados, uno “exclusivo” y otro “inclusivo”. El inclusivo se utiliza cuando se desea
connotar que cuando menos uno de los dos elementos es verdadero, es decir, ya sea que los
dos sean verdaderos, o sólo uno, por ejemplo, “La mayoría de los clientes tiene coche o
casa”. El exclusivo se utiliza cuando se desea expresar que sólo uno de los dos es
Bases de Datos. Miguel Murguía. FAR.
141
verdadero, es decir que la verdad de un enunciado excluye la posibilidad de que el otro
también lo sea. Por ejemplo, en el enunciado:
P=Las personas que votaron por el PRI o por el PAN para el presidente de la república.
se entiende que cada persona emite un sólo voto para presidente de la república, y que por
lo tanto ninguna persona puede votar por el PRI y por el PAN.
En el operador “si ... entonces ...” o “implicación”, es importante el orden de los operandos.
A diferencia de la conjunción y de la disyunción, la implicación no es conmutativa, es
decir, no es lo mismo
P -> Q que Q -> P
mientras que sí es lo mismo
P y Q que Q y P
En la implicación al elemento que está antes del operador se le llama antecedente y al que
está después consecuente. Así, en la fórmula P -> Q, P es el antecedente y Q es el
consecuente. El significado más general es que cuando el antecedente es verdadero el
consecuente es verdadero, sin embargo, como puede observarse en su tabla de verdad,
también tiene el significado de que cuando el consecuente es falso también es falso el
antecedente. Por ejemplo, el enunciado:
P = Si trabaja entonces gana más de cero salarios mínimos
es verdadero cuando el antecedente es verdadero y también el consecuente. De hecho, es
falso solamente si el consecuente es falso y el antecedente verdadero, como así se puede
apreciar en la tabla de verdad del operador “->“.
La negación es un operador lógico unario, es decir, que afecta a sólo un argumento, a
diferencia de la conjunción, la disyunción y la implicación que son binarios. Una fórmula
negada es verdadera si la fórmula no negada es falsa y viceversa. Por ejemplo, si
P = Tiene coche compacto
la negación de P es:
¬ P = No tiene coche compacto
Bases de Datos. Miguel Murguía. FAR.
142
Símbolo
Nombres
^
Y
AND
CONJUNCI
ON
Tabla n. Operadores lógicos
v
¬
O
OR
DISYUNCIO
N
NO
NOT
NEGACION
˜
->
IMPLICACION
SI ... ENTONCES ...
LENGUA SENTENCIA
JE
ESPAÑO
L
Número de personas que tienen coche compacto y que viven en el estado
de Aguascalientes
Dbase
COUNT FOR COCHE=“COMPACTO” .AND. EDO=“AGS”
SQL
SELECT * FROM PERSONA WHERE COCHE=“COMPACTO” AND
EDO=”AGS” GROUP COUNT
Tabla n. Ejemplificación del operador lógico “Y” en tres lenguajes.
Tablas de verdad
Una tabla de verdad es una manera de conocer los posibles valores de verdad que puede
adquirir una fórmula “compuesta”, dependiendo de los valores de verdad que adquiere cada
uno de sus elementos “simples”. Para cada variable se crea una columna y cada renglón
representa un caso de sustitución. Por ejemplo, en la tabla de verdad del operador “y”, en el
encabezado se colocan las fórmulas, y en los siguientes renglones se especifican las
posibles combinaciones de valores de verdad de cada fórmula simple, para así calcular el
valor de verdad de la fórmula compuesta; en particular, en el segundo renglón se especifica
el valor de verdad “Verdadero” para las fórmulas simples P y Q, el valor de verdad
resultante para la fórmula compuesta P^Q también es “Verdadero”.
Bases de Datos. Miguel Murguía. FAR.
143
“Y” (AND)
P
V
V
F
F
Q
V
F
V
F
P^Q
V
F
F
F
“O” (OR)
P
V
V
F
F
Q
V
F
V
F
PvQ
V
V
V
F
“IMPLICACIÓN”
P
Q
V
V
V
F
F
V
F
F
P -> Q
V
F
V
V
“NEGACION”
P
¬P
V
F
F
V
“Tablas de verdad” para los operadores lógicos Y, O, IMPLICACION y NO.
Bases de Datos. Miguel Murguía. FAR.
144
Tautologías
Las tautologías son expresiones lógicas que siempre son verdaderas. Lo son por su
estructura, independientemente del significado. Cuando se hace una consulta a una base de
datos y esa consulta es una tautología, entonces el resultado serán todos los registros de la
base de datos, pues todos los registros cumplirán la condición. Por ejemplo, la siguiente
consulta es una tautología:
COUNT FOR COCHE=“COMPACTO” .OR. (.NOT. COCHE=“COMPACTO”)
por lo que el resultado será el número de registros de la base de datos, pues todos cumplirán
la condición de “coche compacto O coche no compacto”
Reglas de inferencia
Las tablas de verdad son una manera de verificar el valor de verdad de una fórmula
compuesta, dado los valores de verdad de las fórmulas simples, o bien, una manera de
probar que un conjunto de premisas son válidas respecto a una conclusión. Pero cuando el
número de premisas es grande se vuelve impráctico ese método, en su lugar se utiliza el
“método de deducción”. El método de deducción permite establecer la validez de
conclusiones a partir de las premisas y “reglas de inferencia”.
Las reglas de inferencia son argumentos para los que ya se ha establecido su validez. Las
reglas de inferencia son un medio para deducir conclusiones válidas a partir de premisas
válidas. Las reglas de inferencia son:
1) Modus Ponens
2) Modus Tolens
3) Silogismo hipotético
4) Silogismo disyuntivo
5) Dilema constructivo
6) Dilema destructivo
7) Simplificación
8) Conjunción
9) Adición
A continuación se enuncia cada una de las reglas de inferencia, ejemplificándolas mediante
proposiciones del español. Las proposiciones de los ejemplos muestran la utilidad de las
reglas de inferencia al construir consultas a bases de datos.
Bases de Datos. Miguel Murguía. FAR.
145
1) Modus Ponens
P->Q
P
-----Q
P=“gana más de tres salarios mínimos”
Q=“ es sujeto de crédito”
1) Si gana más de tres salarios mínimos entonces es sujeto de crédito
2) Gana más de tres salario mínimos
Por lo tanto:
3) Es sujeto de crédito
2) Modus Tolens
P -> Q
¬Q
-----¬P
1) Si gana más de tres salarios mínimos entonces es sujeto de crédito
2) No es sujeto de crédito
Por lo tanto:
3) No gana más de tres salarios mínimos
3) Silogismo hipotético
P -> Q
Q -> R
-----P -> R
1) Si gana más de tres salarios mínimos entonces es sujeto de crédito
2) Si es sujeto de crédito entonces enviar correspondencia
Por lo tanto:
3) Si gana más de tres salarios mínimos entonces enviar correspondencia
Bases de Datos. Miguel Murguía. FAR.
146
4) Silogismo disyuntivo
P v ¬Q
¬P
-----Q
1) Gana más de tres salarios mínimos o no es sujeto de crédito
2) No gana más de tres salario mínimos
Por lo tanto:
3) Es sujeto de crédito
5) Dilema constructivo
(P -> Q) ^ (R -> S)
PvR
-----QvS
1) Si gana más de tres salarios mínimos entonces es sujeto de crédito
y Si tiene coche lujoso entonces enviar correspondencia
2) Gana más de tres salarios mínimos o tiene coche lujoso
Por lo tanto:
3) Es sujeto de crédito o enviar correspondencia
6) Dilema destructivo
(P -> Q) ^ (R -> S)
¬Q v ¬S
-----¬P v ¬R
1) Si gana más de tres salarios mínimos entonces es sujeto de crédito
y Si tiene coche lujoso entonces enviar correspondencia
2) No es sujeto de crédito o no enviar correspondencia
Por lo tanto:
3) No gana más de tres salarios mínimos o no tiene coche lujoso
7) Simplificación
P^Q
Bases de Datos. Miguel Murguía. FAR.
147
-----P
1) Gana más de tres salarios mínimos y tiene coche
Por lo tanto:
2) Gana más de tres salario mínimos
8) Conjunción
P
Q
-----P^Q
1) Gana más de tres salarios mínimos
2) Tiene coche
Por lo tanto:
3) Gana más de tres salario mínimos y tiene coche
9) Adición
P
-----Pv Q
1) Gana más de tres salarios mínimos
Por lo tanto:
3) Gana más de tres salario mínimos o tiene coche
Bases de Datos. Miguel Murguía. FAR.
148
Equivalencias lógicas
Una fórmula es equivalente a otra cuando sus tablas de verdad son iguales, es decir, que
cuando una fórmula es verdadera, dado ciertos valores de verdad a sus fórmulas simples,
también la otra es verdadera, y cuando una fórmula es falsa la otra también lo es. En la
Tabla n se muestran las equivalencias lógicas básicas.
10
<->
<->
<->
<->
<->
<->
<->
<->
<->
¬P v ¬Q
¬P ^ ¬Q
QvP
Q^R
(P v Q) v R
(P ^ Q) ^ R
(P^Q) v (P^R)
(PvQ) ^ (PvR)
¬¬P
Teoremas de De Morgan
14
¬(P ^ Q)
¬(P v Q)
PvQ
P^R
P v (Q v R)
P ^ (Q ^ R)
P ^ (Q v R)
P v (Q ^ R)
P
15
P -> Q
<->
¬Q -> ¬P
Transposición
16
P -> Q
<->
¬P v Q
Implicación material
17
<->
<->
(P -> Q) ^ (Q -> P)
(P ^ Q) v (¬P ^ ¬Q)
PvP
Equivalencia material
18
P <-> Q
P <-> Q
P
19
P
<->
P^P
Tautología
11
12
13
Conmutación
Asociación
Distribución
Doble negación
Exportación
Tabla n. Equivalencias lógicas básicas.
Bases de Datos. Miguel Murguía. FAR.
149
2. Lógica de predicados
Lenguaje de 1er orden o de predicados
Símbolos:
Propios del lenguaje
Predicados
P1, P2, P3, ...
Funciones
f, g, h, ...
Constantes
c1, c2, c3, ...
Otros símbolos:
Variables
X, Y, Z
Cuantificadores
∀
Universal
∃
Existencial
Conectivos ¬, ^, v, →, ↔
Igualdad
=
Auxiliares
( ) .
Hay representaciones del lenguaje de Lógica de 1er orden donde no hay funciones y son
vistas como relaciones.
La interpretación de los “otros símbolos” es siempre la misma, la de los símbolos propios
del lenguaje es la que permite hacer referencia a lo que se quiere representar.
Una fórmula es ...
Se dice que una variable es libre cuando no está dentro del alcance de un cuantificador, de
otra manera, se dice que está cuantificada.
Un enunciado es una fórmula que no tiene variables libres, por ejemplo:
∀x(P(x))
P(x)
si es un enunciado
no es enunciado
Al interpretar un enunciado, éste es verdadero o es falso, lo que no sucede con las fórmulas
que no son enunciados.
Reglas de la negación:
¬∀xA ≡ ∃x¬A
¬∃xA ≡ ∀x¬A
Donde A es una FBF
Bases de Datos. Miguel Murguía. FAR.
150
Reglas de cuantificación
Instanciación Universal (IU)
∀x Φx
∴Φv
donde v es cualquier símbolo individual
Ejemplo:
∀x (Hombre(x) → Mortal(x) )
∴ Hombre(sócrates) → Mortal(sócrates)
Generalización Universal (GU)
Φy
∴∀x Φx
donde y denota cualquier individuo arbitrariamente elegido
Generalización Existencial (GE)
Φv
∴∃x Φx
donde v es cualquier símbolo individual
Instanciación Existencial (IE)
∃x Φx
∴Φv
donde v es una constante individual diferente de y, que no aparece anteriormenteen el
contexto.
Bases de Datos. Miguel Murguía. FAR.
151
Ejemplo: demostración formal:
Todos los perros son carnívoros; algunos animales son perros, por lo tanto algunos,
animales son carnívoros”
1. ∀x(Px → Cx)
2. ∃x(Ax ^ Px)
3. Aw ^ Pw
4. Pw → Cw
5. Pw ^ Aw
6. Pw
7. Cw
8. Aw
9. Aw ^ Cw
10.∃x(Ax ^ Cx)
2. IE
1. IU
3. Conm
5. Simp
4, 6 MP
3 Simp
8, 7 Conj
9 GE
Bases de Datos. Miguel Murguía. FAR.
152
3. Cálculo relacional de tuplas
{ t| P(t) }
El conjunto de las tuplas t tales que el predicado P(t) es verdadero. Por ejemplo:
{ t| t ∈ alumno }
obtiene a toda las tuplas de la relación alumno. Si únicamente requiere un atributo de
todas las tuplas, por ejemplo nombre-alumno, es decir una operación análoga a la
proyección del álgebra relacional, se debe hacer uso del cuantificador existencial,
escribiendo expresiones del tipo:
∃t ∈ r(P(t))
lo que se lle como “existe una tupla t en la relación r tal que el predicado P(t) es
verdadero”. Para el problema en particular de encontrar los nombres de alumnos se puede
escribir de la siguiente manera:
{ t | ∃s ∈ alumno(s[nombre-alumno]=t[nombre-alumno] ) }
pues se están obteniendo las tuplas t, que como puede observarse en la expresión sólo se
hace referencia al atributo nombre-alumno. Es decir, se están obteniendo todas las tuplas
t[nombre-alumno] que cumplan con:
∃s ∈ alumno(s[nombre-alumno]=t[nombre-alumno]
Para realizar una operación análoga a la selección, por ejemplo obtener las tuplas en que el
año de ingreso sea 97, se puede escribir de la siguiente manera:
{ t | ∃s ∈ alumno(s[nombre-alumno]=t[nombre-alumno]
^ s[año-ingreso]=”97”)}
es decir, el conjunto de tuplas t[nombre-alumno] tal que año-ingreso en la relación
alumno es 97 en aquellas tuplas en donde t[nombre-alumno]= nombre-alumno.
El esquema de la relación anterior es (nombre-alumno), pues se está haciendo referencia
únicamente al atributo de t t [nombre-alumno].
También podremos escribir una expresión que involucre a dos predicados, cada uno
haciendo referencia a relaciones diferentes, por ejemplo, “encontrar los alumnos de la
carrera de Biología
Bases de Datos. Miguel Murguía. FAR.
153
Encontrar los números de cuenta de los alumnos que hayan cursado o hecho examen de la
materia con clave 02002.
{ t | ∃s ∈ historia(s[numero-cuenta]=t[numero-cuenta]
^ s[clave-materia]=”02002”)
v ∃u ∈ examen(u[numero-cuenta]=t[numero-cuenta]
^ u[clave-materia]=”02002”)}
Encontrar los números de cuenta de los alumnos que hayan cursado y hecho examen de la
materia con clave 02002.
{ t | ∃s ∈ historia(s[numero-cuenta]=t[numero-cuenta]
^ s[clave-materia]=”02002”)
^ ∃u ∈ examen(u[numero-cuenta]=t[numero-cuenta]
^ u[clave-materia]=”02002”)}
Es decir, el número de cuenta aparece en alguna tupla de la relación historia asociado a la
clave de la materia 02002 y el número de cuenta aparece en alguna tupla de la relación
examen asociado a la clave de la materia 02002
Encontrar los números de cuenta de los alumnos que hayan cursado pero no hecho examen
de la materia con clave 02002.
{ t | ∃s ∈ historia(s[numero-cuenta]=t[numero-cuenta]
^ s[clave-materia]=”02002”)
^ ¬ ∃u ∈ examen(u[numero-cuenta]=t[numero-cuenta]
^ u[clave-materia]=”02002”)}
Está mal:
Encontrar el número de la orden de pago de exámenes que han hecho los alumnos de
Biología.
{ t | ∀s ∈ alumno(s[carrera]=”Biología”
→ ∃u ∈ examen(u[numero-cuenta]=s[numero-cuenta]
^ u[clave-materia]= t[clave-materia])) }
Números de cuenta de los alumnos que han cursado todas las materias de Biología:
{t | ∀x ∈ materia(x[carrera=“Biología”]
→∃y ∈ historia(x[clave-materia]=y[clave-materia]
^ y[número-cuenta]=t[número-cuenta]))}
Bases de Datos. Miguel Murguía. FAR.
154
Nombres de los alumnos que han cursado todas las materias de Biología:
{t | ∀x ∈ materia(x[carrera=“Biología”]
→ ∃y ∈ historia(x[clave-materia]=y[clave-materia]
^ ∃z ∈ alumno(y[número-cuenta]=z[número-cuenta]))}
^ z[nombre]=t[nombre])))}
Bases de Datos. Miguel Murguía. FAR.
155
Bibliografía
DATE, C. J. 1986.
Introducción a los Sistemas de Bases de Datos. Addison-Wesley. México.
HUGHES, J.G. 1991.
Object-Oriented Databases. Prentice Hall. UK.
KORTH, H., SILVERSCHATZ, A, & SUDARSHAN. 2003.
Fundamentos de bases de datos. Cuarta Edición. McGraw-Hill.
KROENKE, D. M. 1996.
Procesamiento de Bases de Datos. Prentice Hall. México.
PIATETSKY-SHAPIRO, G & W.J. FRAWLEY. 1991.
Knowledge Discovery in Databases. AAAI Press. 525 p.
RAMAKRISHNAN, R. & J. GEHRKE. 2003
Database Management Systems. Tercera Ed. McGrawHill.
TECHGUIDE.COM. 2000.
A practical guide to achieving enterprise data quality. The Technology Guide
Series, techquide.com.
ULLMAN, J.D. 1979.
Principles of Databases Systems. Computer Science Press. Washington.
Bases de Datos. Miguel Murguía. FAR.
156
Páginas WWW
Temarios
FCA Licenciado en Informática
http://server.contad.unam.mx/planes/info/basesdt.html
Modelo Relacional
Acordeón de Normalización:
http://www.cba.neu.edu/~mwarkentin/normaliz.htm
UCB DBMS Research Group
ftp://s2k-ftp.cs.berkeley.edu/pub/postgres/otherdbms.html
SQL Standard Home Page
http://www.jcc.com/sql_stnd.html
Bases de Datos. Miguel Murguía. FAR.
157
ANEXO 1. Prolog como Base de Datos
A) Código del Programa
esquema(alumno,'numero-cuenta','nombre-alumno','a¤o-ingreso','carrera').
esquema(materia,'clave-materia','nombre-materia','nivel','creditos').
esquema(examen,'numero-cuenta','clave-materia','orden-de-pago','fechaexamen').
esquema(historia,'numero-cuenta','clave-materia','semestrecurso','calificacion').
alumno(950001,'Oscar Mart¡nez',95,biologia).
alumno(950002,'Mario S nchez',95,biologia).
alumno(950003,'Ma.Elenea Ca¤edo',95,matematicas).
alumno(950004,'Camen D¡az',95,biologia).
alumno(950005,'Jorge Soto',95,fisica).
alumno(970001,'Emilio Vera',97,biologia).
alumno(970002,'Isabel Valderrama',97,matematicas).
alumno(970003,'Miguel Romero',97,biologia).
alumno(970004,'Jos‚ Malo',97,matematicas).
alumno(970005,'Salvador Pascual',97,fisica).
materia(01002,algebra,2,7).
materia(01003,calculo,1,10).
materia(02001,estadistica,1,5).
materia(02002,botancia,3,8).
materia(02003,bioquimica,2,12).
materia(03001,fisica_relativista,4,10).
materia(03002,particulas_elementales,3,9).
examen(950001,02002,3567,02-jun-97).
examen(970002,01002,3676,06-may-97).
examen(950005,03001,3678,02-abr-97).
examen(970005,03002,3789,06-mar-97).
historia(950001,02001,96,8.2).
historia(950002,02001,96,9).
historia(950002,02003,96,7).
historia(950004,02002,96,9).
historia(950004,02003,95,10).
historia(970003,02002,95,8).
historia(970003,02003,96,9).
% Seleccion: Carrera=biologia
q0:alumno(Cuenta,Nombre,Ingreso,biologia),
print(Cuenta), print(-),
print(Nombre), print(-),
print(Ingreso),print(-),nl,
fail.
% Seleccion: Materias con m s de 8 creditos
q1:materia(Clv,Nombre,Nivel,Creditos),
Creditos > 8,
print(Clv),print(-),
print(Nombre),print(-),
print(Nivel),print(-),
print(Creditos),print(-),nl,
fail.
Bases de Datos. Miguel Murguía. FAR.
158
% Proyeccion: Numero de cuenta y Nombres
q2:alumno(Cuenta,Nombre,_,_),
print(Cuenta),print(-),
print(Nombre),nl,
fail.
%Producto cartesiano alumno x materia
q3:alumno(Cuenta,Nombre,Ingreso,Carrera),
materia(Clv,Materia,Nivel,Creditos),
print(Cuenta),print(-),
print(Nombre),print(-),
print(Ingreso),print(-),
print(Carrera),print(-),
print(Clv),print(-),
print(Materia),print(-),
print(Nivel),print(-),
print(Creditos),print(-),nl,
fail.
% Interseccion: Numero de cuenta de alumnos que han hecho examen y
cursado
% la misma materia
q4:examen(Cuenta,_,_,_),
historia(Cuenta,_,_,_),
print(Cuenta),nl,
fail.
% Producto natural: Alumnos que han hecho examen
q5:examen(Cuenta,_,_,_),
alumno(Cuenta,Nombre,_,_),
print(Nombre),nl,
fail.
% Diferencia: Alumnos que han hecho examen sin haber cursado la materia
q6:examen(Cuenta,_,_,_),
not(historia(Cuenta,_,_,_)),
print(Cuenta),nl,
fail.
% Ejemplo: Nombres de alumnos y materias que han acrediatdo con mas de 8
q7:materia(Clv,Materia,_,_),
alumno(Cuenta,Alumno,_,_),
historia(Cuenta,Clv,_,Calif),
Calif>8,
print(Alumno),print(-),
print(Materia),nl,
fail.
% Ejemplo OR: Nombre de los alumnos que han cursado o hecho examen de la
%materia con clave 02002
q8:(historia(Cuenta,02002,_,_);
examen(Cuenta,02002,_,_)),
alumno(Cuenta,Nombre);
print(Nombre),nl,
fail.
Bases de Datos. Miguel Murguía. FAR.
159
B) Resultado de Querys
?- consult('escuela.pro').
?- q1.
'Q0: Seleccion: Carrera=biologia'
950001-'Oscar Martínez'-95950002-'Mario Sánchez'-95950004-'Camen Díaz'-95970001-'Emilio Vera'-97970003-'Miguel Romero'-97?- q1.
'Q1: Seleccion: Materias con más de 8 creditos'
1003-calculo-1-102003-bioquimica-2-123001-fisica_relativista-4-103002-particulas_elementales-3-9?- q2.
'Q2: Proyeccion: Numero de cuenta y Nombres'
950001-'Oscar Martínez'
950002-'Mario Sánchez'
950003-'Ma.Elenea Cañedo'
950004-'Camen Díaz'
950005-'Jorge Soto'
970001-'Emilio Vera'
970002-'Isabel Valderrama'
970003-'Miguel Romero'
970004-'José Malo'
970005-'Salvador Pascual'
?- q3.
'Q3: Producto cartesiano alumno x materia'
950001-'Oscar Martínez'-95-biologia-1002-algebra-2-7950001-'Oscar Martínez'-95-biologia-1003-calculo-1-10950001-'Oscar Martínez'-95-biologia-2001-estadistica-1-5950001-'Oscar Martínez'-95-biologia-2002-botanica-3-8950001-'Oscar Martínez'-95-biologia-2003-bioquimica-2-12950001-'Oscar Martínez'-95-biologia-3001-fisica_relativista-4-10950001-'Oscar Martínez'-95-biologia-3002-particulas_elementales-3-9950002-'Mario Sánchez'-95-biologia-1002-algebra-2-7950002-'Mario Sánchez'-95-biologia-1003-calculo-1-10950002-'Mario Sánchez'-95-biologia-2001-estadistica-1-5950002-'Mario Sánchez'-95-biologia-2002-botanica-3-8950002-'Mario Sánchez'-95-biologia-2003-bioquimica-2-12950002-'Mario Sánchez'-95-biologia-3001-fisica_relativista-4-10950002-'Mario Sánchez'-95-biologia-3002-particulas_elementales-3-9950003-'Ma.Elenea Cañedo'-95-matematicas-1002-algebra-2-7950003-'Ma.Elenea Cañedo'-95-matematicas-1003-calculo-1-10950003-'Ma.Elenea Cañedo'-95-matematicas-2001-estadistica-1-5950003-'Ma.Elenea Cañedo'-95-matematicas-2002-botanica-3-8950003-'Ma.Elenea Cañedo'-95-matematicas-2003-bioquimica-2-12950003-'Ma.Elenea Cañedo'-95-matematicas-3001-fisica_relativista-4-10950003-'Ma.Elenea Cañedo'-95-matematicas-3002-particulas_elementales-3-9950004-'Camen Díaz'-95-biologia-1002-algebra-2-7-
Bases de Datos. Miguel Murguía. FAR.
160
950004-'Camen Díaz'-95-biologia-1003-calculo-1-10950004-'Camen Díaz'-95-biologia-2001-estadistica-1-5950004-'Camen Díaz'-95-biologia-2002-botanica-3-8950004-'Camen Díaz'-95-biologia-2003-bioquimica-2-12950004-'Camen Díaz'-95-biologia-3001-fisica_relativista-4-10950004-'Camen Díaz'-95-biologia-3002-particulas_elementales-3-9950005-'Jorge Soto'-95-fisica-1002-algebra-2-7950005-'Jorge Soto'-95-fisica-1003-calculo-1-10950005-'Jorge Soto'-95-fisica-2001-estadistica-1-5950005-'Jorge Soto'-95-fisica-2002-botanica-3-8950005-'Jorge Soto'-95-fisica-2003-bioquimica-2-12950005-'Jorge Soto'-95-fisica-3001-fisica_relativista-4-10950005-'Jorge Soto'-95-fisica-3002-particulas_elementales-3-9970001-'Emilio Vera'-97-biologia-1002-algebra-2-7970001-'Emilio Vera'-97-biologia-1003-calculo-1-10970001-'Emilio Vera'-97-biologia-2001-estadistica-1-5970001-'Emilio Vera'-97-biologia-2002-botanica-3-8970001-'Emilio Vera'-97-biologia-2003-bioquimica-2-12970001-'Emilio Vera'-97-biologia-3001-fisica_relativista-4-10970001-'Emilio Vera'-97-biologia-3002-particulas_elementales-3-9970002-'Isabel Valderrama'-97-matematicas-1002-algebra-2-7970002-'Isabel Valderrama'-97-matematicas-1003-calculo-1-10970002-'Isabel Valderrama'-97-matematicas-2001-estadistica-1-5970002-'Isabel Valderrama'-97-matematicas-2002-botanica-3-8970002-'Isabel Valderrama'-97-matematicas-2003-bioquimica-2-12970002-'Isabel Valderrama'-97-matematicas-3001-fisica_relativista-4-10970002-'Isabel Valderrama'-97-matematicas-3002-particulas_elementales-39970003-'Miguel Romero'-97-biologia-1002-algebra-2-7970003-'Miguel Romero'-97-biologia-1003-calculo-1-10970003-'Miguel Romero'-97-biologia-2001-estadistica-1-5970003-'Miguel Romero'-97-biologia-2002-botanica-3-8970003-'Miguel Romero'-97-biologia-2003-bioquimica-2-12970003-'Miguel Romero'-97-biologia-3001-fisica_relativista-4-10970003-'Miguel Romero'-97-biologia-3002-particulas_elementales-3-9970004-'José Malo'-97-matematicas-1002-algebra-2-7970004-'José Malo'-97-matematicas-1003-calculo-1-10970004-'José Malo'-97-matematicas-2001-estadistica-1-5970004-'José Malo'-97-matematicas-2002-botanica-3-8970004-'José Malo'-97-matematicas-2003-bioquimica-2-12970004-'José Malo'-97-matematicas-3001-fisica_relativista-4-10970004-'José Malo'-97-matematicas-3002-particulas_elementales-3-9970005-'Salvador Pascual'-97-fisica-1002-algebra-2-7970005-'Salvador Pascual'-97-fisica-1003-calculo-1-10970005-'Salvador Pascual'-97-fisica-2001-estadistica-1-5970005-'Salvador Pascual'-97-fisica-2002-botanica-3-8970005-'Salvador Pascual'-97-fisica-2003-bioquimica-2-12970005-'Salvador Pascual'-97-fisica-3001-fisica_relativista-4-10970005-'Salvador Pascual'-97-fisica-3002-particulas_elementales-3-9-
Bases de Datos. Miguel Murguía. FAR.
161
?- q4.
'Q4: Interseccion: Numero de cuenta de alumnos que han hecho examen '
'
y cursado % la misma materia'
950001
?- q5.
'Q5: Producto natural: Alumnos que han hecho examen'
'Oscar Martínez'
'Isabel Valderrama'
'Jorge Soto'
'Salvador Pascual'
?- q6.
'Q6: Diferencia: Alumnos que han hecho examen sin haber cursado '
'
la materia'
970002
950005
970005
?- q7.
'Q7: Ejemplo: Nombres de alumnos y materias '
'
que han acrediatdo con mas de 8'
'Oscar Martínez'-estadistica
'Mario Sánchez'-estadistica
'Camen Díaz'-botanica
'Camen Díaz'-bioquimica
'Miguel Romero'-bioquimica
?- q8.
'Q8: Ejemplo OR: Nombre de los alumnos que han cursado '
'
o hecho examen de la materia con clave 02002'
'Camen Díaz'
'Miguel Romero'
'Oscar Martínez'
?-
Bases de Datos. Miguel Murguía. FAR.
162
Documentos relacionados
Descargar