UNIDADES DE SOPORTE DE INFORMACIÓN SOPORTES DE INFORMACIÓN Con la constante evolución de las computadoras en los últimos años, es necesario que la información ya elaborada por la computadora se memorice o se guarde en unidades de gran capacidad. A estas unidades se las conoce como memorias de masa y son dispositivos internos o externos a la computadora destinados a almacenar grandes volúmenes de información, tanto de programas como de datos. Estos dispositivos tienen una particularidad fundamental: los caracteres de información grabados no son volátiles; aquella permanece aunque se haya desconectado la alimentación. Esta información almacenada podrá ser tratada posteriormente por otra computadora con similares características a la que fue el origen de la información. Estos dispositivos se pueden clasificar según el modo de acceso a las datos que contienen: • Acceso secuencial: en el acceso secuencial, el elemento de lectura del dispositivo debe pasar por el espacio ocupado por la totalidad de lo datos almacenados previamente al espacio ocupado físicamente por los datos almacenados que componen el conjunto de información a la que desea acceder. • Acceso aleatorio: en el modo de acceso aleatorio, el elemento de lectura accede directamente a la dirección donde se encuentra almacenada físicamente la información que se desea localizar sin tener que pasar previamente por la almacenada entre el principio de la superficie de grabación y el punto donde se almacena la información que se busca. Si retrocedemos en el tiempo, el primer soporte de datos fue la tarjeta perforada. Ésta empezó a ser utilizada en la industria textil, a través del ingeniero de J. Jacquard. El siguiente paso, la tarjeta perforada se utilizó para procesar datos estadísticos en EEUU. La evolución de los soportes de datos a lo largo de los años ha sido la siguiente: Fichas y tarjetas perforadas Estas unidades consisten en simples cartulinas rectangulares en las que se disponen 12 filas por 80 columnas. La presencia o la ausencia de perforación en los diversos puntos es lo que define la información almacenada en la ficha o tarjeta. Las fichas perforadas son soportes cuya reutilización no es factible. Una vez perforados unos datos, no se pueden perforar otros nuevos. Este procedimiento de memorización se utilizaba cuando la información era poco voluminosa. Para la memorización de la información en una ficha perforada, se utilizan unos dispositivos especiales llamados perforadores de tarjetas. Posteriormente, en su lectura se utiliza otro dispositivo, el lector de tarjetas, que mediante las células fotoeléctricas efectúa la lectura detectando presencia o ausencia de perforación. En la actualidad, este tipo de soporte de información ha sido superado completamente por otros mucho más avanzados. Cintas de papel perforado 1 La cinta de papel perforados, utilizada como almacenamiento de datos, es un dispositivo ya en desuso en nuestros días. En la cinta o banda de papel perforado, los caracteres de los datos se registran bajo forma de combinación de perforación dispuestas perpendicularmente al eje longitudinal de la cinta. La cinta de papel es un soporte continuo. Los datos se van registrando mientras haya cinta. La longitud de la cinta puede ser variable. Al igual que ocurre con la ficha perforada, el soporte de cinta no es reutilizada. La cinta de papel precisa así mismo que la computadora disponga de un perforador y un lector de cinta. Cinta magnética Está constituida por una cinta de material plástico recubierta de material ferromagnético sobre la cual los caracteres se registran en forma de combinaciones de puntos, sobre las pistas paralelas al eje longitudinal de la cinta. La constitución y el funcionamiento de estos soportes no difieren de las cintas de los magnetófonos de cassettes convencionales. Las cintas magnéticas son soportes de tipo secuencial. Esto supone un inconveniente, puesto que para acceder a una información dada es necesario leer todas las que la preceden, con la consiguiente pérdida de tiempo. Este soporte actualmente se utiliza en las llamadas computadoras domésticas o home computer, donde se aprovecha la característica fundamental de este soporte: su capacidad medida de memorización a bajo costo. * Mecanismos específicos en las unidades de cintas El arrastre de la cinta lo efectúa un motor llamado capstan, cuya misión consiste en mantener la velocidad de arrastre, en un movimiento uniforme y constante, independiente del diámetro de cinta acumulada en la bobina. El motor capstan es de corriente continua con velocidad controlada y su eje gira a una velocidad constante. Las bobinas donde se enrolla la cinta están controladas por un motor de corriente continua que se ocupa de mantener tensada la cinta, con el fin de que ésta no se arrugue ni sufra deslizamientos. * Unidades streaming tape En las unidades streaming tape, el procedimiento varía debido a que es el propio contenedor de la cinta el que, gracias a una correa y a una serie de ruedas de reenvío, mantiene la velocidad de la cinta sin necesidad de otros mecanismos. Basta pues aplicar un motor capstan a una de estas ruedas para que la cinta gire sin más 2 problemas. * Unidades de cinta compatibles En estas unidades, es posible almacenar gran cantidad de datos de información con una velocidad alta en lectura y grabación. Por todo ello, las unidades encargadas del manejo de los soportes de cinta compatible son muy sofisticadas. El movimiento de las bobinas está controlado por dos motores que giran de forma que mantienen constante la tensión de la cinta. El recorrido de la cinta va convenientemente guiado por rodillos y la cinta se mantiene estirada mediante unos tensores. El movimiento de la cinta en los dos sentidos se produce por la acción de un rodillo de goma, controlado por el motor capstan. Tambores magnéticos También basados en las propiedades magnéticas de algunos materiales, consisten en unos cilindros en los que se deposita una capa de material magnético, capaz de retener información. Ésta se graba y lee mediante un cabezal cuyo brazo se mueve en la dirección de giro del tambor. El acceso a la información es directo y no secuencial. Discos flexibles o floppy disk El disco flexible (floppy disk) es una variante del tambor magnético. A esta unidad magnética de soporte de datos le vamos a dedicar más espacio, por ser la más introducida en el campo de las computadoras. Las memorias de mas utilizadas antes de la aparición de los discos flexibles, por regla general, presentaban bastantes problemas por su poca capacidad en la memorización de la información y así mismo eran unidades lentas en lectura y grabación. Con la revolución de los microprocesadores, el disco flexible ha permitido la introducción del concepto de memoria de masa a bajo coste y no sólo por el coste del soporte físico, sino por la gran rapidez que ofrece en la lectura y escritura de los datos almacenados o que se desea almacenar. Datos históricos El disco flexible nació en IBM y, al inicio de la década de los setenta, se introdujo en las unidades de esta marca. En 1972, se presentó al mercado el sistema 3740 dotado de una memoria de masa basada en un disco flexible. Ha sufrido una serie de evoluciones tanto en dimensión como en capacidad de memorización. Ha pasado de unas dimensiones de 8 pulgadas a 3 ½ y de una capacidad de memorización de alrededor de 100 kbytes a memorizar 1 Mbyte en las unidades de 5 ¼ Características 3 Los discos flexibles ofrecen considerables ventajas en el campo de las computadoras. Dichas ventajas consisten en: • Capacidad • Fiabilidad técnica • Integridad de los datos • Facilidad de uso ♦ Capacidad ◊ Tienen una considerable capacidad como soporte de información. Con la aplicación de técnicas especiales de grabación se consiguen unas capacidades mayores al mbyte, con una densidad de 96 pistas por pulgadas. ♦ Fiabilidad técnica ◊ El error de lectura o grabación de reduce a uno cada 10 accesos a la unidad ♦ Integridad de los datos ◊ Se consigue con la técnica de leer después de grabar. Después de que los datos son grabados en el disco, se comparan con los originales; si no coinciden se repite la operación de grabación/lectura o el sistema envía un mensaje al usuario. ♦ Fiabilidad de uso ◊ No se presentan problemas en el uso y manejo de los soportes magnéticos; tan solo unas pocas precauciones a tener en cuenta. Soporte magnético del disco flexible El soporte magnético de un disco flexible está constituido por material magnético depositado sobre un soporte circular de plástico mylar flexible y de buena calidad. El material magnético puede cubrir una o las dos caras del soporte. Este conjunto que forman el soporte de mylar y el material magnético depositado sobre su superficie se introduce en una funda cuadrada de cartón y se cierra. Esta funda tiene tres orificios pasantes, de los cuales cada uno tiene una función específica. El agujero central permite a la unidad mecánica el arrastre del disco, una vez introducido en su interior. Cuando se ha introducido en la boca de la unidad y en posición de trabajo, el disco flexible gira a una velocidad de 300 a 360 vueltas por minuto. Existe además una hendidura alargada que permite las cabezas de lectura y grabación acceder a la superficie del soporte magnético. Para posibilitar el control de la velocidad del disco flexible, y así mismo el inicio de cada pista de grabación de datos, tanto en la funda como en el soporte, existe un pequeño agujero que mediante una célula fotoeléctrica detecta el inicio de la pista. Analogía entre el disco flexible soporte de datos y el disco de audio En cierta manera, el disco flexible es similar a un disco de audio. El disco de audio almacena música en los surcos de la superficie de plástico. El disco flexible almacena datos en forma de impulsos magnéticos en la superficie del soporte. En la lectura de un disco de audio se precisa de una aguja que en contacto con la superficie del disco, se va desplazando a lo largo del surco, y en la espiral del disco. Convierte las vibraciones mecánicas en señales eléctricas. 4 En un disco flexible no existen surcos propiamente dichos, pero sí unas pistas invisibles, en las que se graba la información. Para la lectura o grabación de un disco flexible se dispone de una cabeza magnética, de lectura/grabación, que va desplazándose a lo largo del disco, desde el eje central al exterior o viceversa. En la lectura, esta cabeza detecta los cambios de flujo magnético y origina una tensión eléctrica. En la grabación, una tensión eléctrica produce unos flujos magnéticos en la cabeza y a su vez en la superficie del soporte magnético. Organización de un disco flexible El disco flexible, como se ha visto en la analogía con un disco de audio, se divide en pistas concéntricas. Para este estudio, tomaremos como base la unidad estándar, un disco de 5 ¼ pulgadas con una capacidad de 320 kbytes. El estudio que se va a efectuar sobre esta unidad es aplicable a los disco de 8 pulgadas, sólo que los números serán diferentes. Esta unidad de soporte de datos consta de 40 pistas concéntricas con una densidad de 48 pistas por pulgada. Una medida base para clasificar los soportes son las pistas por pulgada, 48 pistas por pulgada ó 96 pistas por pulgada. Cada pista del disco, para así mejorar la eficacia del mismo, se divide en sectores. En soportes de 5 ¼ pulgadas, tenemos que una pista se puede dividir en 8, 9 ó 16 sectores, según la capacidad del sector. El acceso a esta información es en forma aleatoria y se puede hacer a nivel de pista o a nivel del sector. Formato de pista y sector Entendemos por formato de pista la manera de colocar la información dentro de la pista. Básicamente, cada pista tiene tres tipos de información: • los datos del usuario • la información de identificación • la información de sincronización con los circuitos de lectura/escritura. Cada pista se divide en sectores, de manera que se consigue un almacenamiento más óptimo para la información. Tomando siempre como referencia la unidad de 5 ¼ pulgadas, en cada sector se pueden almacenar 512 bytes de información del usuario, si la pista contiene 8 ó 9 sectores, y 256 bytes, si contiene 16 sectores. Así tenemos que la información total en este tipo de soporte será: 512 bytes X 8 sectores por pista = 4.096 bytes/pista 4.096 bytes/pista X 40 pistas = 163.840 bytes/superficie 163.840 bytes/superficie X 2 superficies = 327.680 bytes/disco 5 Para la localización de los sectores sobre la superficie del disco flexible, se emplean dos métodos de sectorización: • sectorización por software • sectorización por hardware En el primer método, el disco tiene un solo orificio de índice. Este orificio señala el inicio de la pista; a partir de aquí, cada sector tendrá grabada su dirección. Este método reduce la capacidad real del disco, ya que la dirección grabada encada sector resta espacio para almacenar la información del usuario. En el segundo método, el disco emplea una serie de orificios donde cada uno de ellos coincide con el inicio de un sector. Componentes de la unidad de lectura/escritura de un disco flexible Hasta este momento, sólo se ha hablado de los disco flexibles. Se ha estudiado su estructura física y lógica, los métodos de grabación y las características fundamentales. A continuación, vamos a analizar la unidad de soporte para la lectura/escritura de estos discos. Al conjunto de esta unidad lo podemos descomponer en dos grandes bloques: • Bloque lógico: donde se integran los circuitos de control y los circuitos de lectura/escritura. • Bloque mecánico: compuesto por los motores de desplazamiento, los sensores de control, las cabezas de lectura/grabación y el motor de arrastre del disco flexible. Analizaremos cada una de las partes del bloque mecánico. • Desplazamiento (carro portacabezas): el motor de desplazamiento de las cabezas de lectura/grabación a lo largo de las superficies del disco se realiza mediante un motor paso a paso. El controlador del disco va enviando señales de STEP, paso elemental. A cada señal, el motor se desplaza una pista. Para este desplazamiento se usan varios métodos: ♦ Leva en espiral: consta de un espiral fijada al motor paso a paso. El espiral actúa directamente sobre el carro portacabezas de lectura y grabación. Tiene la ventaja de ser un método muy económico. ♦ Fleje metálico: activado por un motor paso a paso. El fleje metálico transforma el movimiento giratorio del motor en movimiento lineal. Se caracteriza por un tiempo de accesos de 3 ms entre pistas. ♦ Tornillo sinfín: el motor paso a paso acciona directamente un tornillo sinfín y éste mueve el carro portacabezas. ♦ Voice Coil: desplazamiento a base de un motor lineal. Tiene la ventaja de ser muy rápido en sus desplazamientos con un tiempo medio inferior a los 35 nseg. • Fotosensores: son captadores que convierten variaciones de intensidad luminosa en otras de intensidad eléctrica. Se emplean para detectar ciertas condiciones que pueden darse en la unidad de disco. ♦ Fotosensor de pista 0: todas las unidades de disco flexible incorporan un fotosensor o un microinterruptor para detectar si las cabezas están posicionadas en las pista 0. ♦ Fotosensor de index: utilizado para que la lógica detecte el inicio de la pista mediante un fotodiodo y un fototransistor. ♦ Fotosensor o microinterruptor de presencia de disco: utilizado para detectar si el disco flexible se ha colocado adecuadamente. ♦ Fotosensor o microinterruptor de protección: de principal importancia para que los disco 6 flexibles estén protegidos contra la grabación. • Cabezas de lectura/grabación: las cabezas de lectura/grabación, una por cada superficie útil del disco flexible, van montadas sobre un carro portacabezas mediante el cual se desplazan a lo largo del disco. Estas cabezas pueden estar siempre en contacto con la superficie de los discos o sólo, cuando la lógica lo precise, para lectura o escritura, excitando entonces un electroimán de cargacabezas. • Motor de arrastre de disco flexible: el arrastre de los discos se efectúa mediante un motor de corriente continua a escobillas o de tipo brushless. En este último, mediante unos sensores de hall, se conmutan las bobinas de cada fase del motor y se controla en cada momento la velocidad de la rotación del mismo. Este tipo de motor con respecto al primero tiene la ventaja de no producir disturbios ni tener desgastes. Unidades de disco duro y Hard Disk Desde el primer sistema de almacenamiento de datos sobre disco, el RAMAC 305 hasta nuestros días, con las tecnologías Winchester y thin film (película delgada), ha habido un constante avance. Después de cinco años de la aparición del RAMAC 305 de IBM, en el año 1956, se introdujeron en el mercado otras unidades con capacidad de 3,65 Mbytes. Con la introducción de los 2314 (29 Mbytes), en un paquete de 10 discos, y los 3330, nació un nueva generación de unidades de discos. Al inicio de la década de los setenta apareció una nueva tecnología a la que se le dio el nombre de Winchester. Las primeras unidades que utilizaron esta tecnología fueron las IBM 3340 y posteriormente las 3350 y 3310. Tecnología Winchester En su primera versión, se basaba en paquetes de discos sellados e intercambiables, en el interior de los cuales se encontraban incorporadas las cabezas de lectura y escritura. A estas primeras unidades de disco les siguieron otras unidades ya no desmontables y posteriormente, los discos basados en la tecnología de la película delgada sobre su superficie. 7 En la tecnología Winchester, el elemento crucial son las cabezas de lectura y grabación. La característica que básicamente diferencia a los discos con tecnología Winchester es la siguiente: las cabezas de lectura y grabación vuelan a una distancia determinada con respecto a la superficie del disco. Entre los factores evolutivos, destaca la paulatina reducción de la altura de vuelo de las cabezas, consiguiéndose con ello una mayor densidad de información grabada en las superficies de los discos. Cabe remarcar que la diferencia que existe entre las unidades de disco flexible y las unidades de disco duro es el contacto permanente entre las cabezas y la unidad magnética, mientras dura la lectura y la grabación, que ofrecen las unidades de disco flexible. La altura que mantienen las cabezas con respecto a la superficie magnética se llama altura de vuelo, ya que las cabezas dotadas de unos perfiles aerodinámicos vuelan por encima de los discos, gracias al emuje del aire que arrastran los discos al girar. Al reducirse al altura de la cabeza, puede concentrarse el flujo magnético necesario para efectuar las operaciones de lectura y escritura en una zona muy restringida, reduciendo con ello el área para grabar un bit. Así pues, cuanto menor se a la altura de vuelo, mayor será la intensidad de grabación por unidad de superficie. En tecnologías anteriores a la Winchester era necesario aplicar una presión sobre las cabezas (unos 200 gramos) para contrarrestar la tendencia de separación que ofrecían las mismas cabezas, ya que los discos giran a una elevada velocidad, y las corrientes de aire separaban las cabezas de la superficie. Con la tecnología Winchester esta presión se ha reducido a 10 gramos y en algunos casos se ha anulado. En general, para evitar riesgos y daños sobre la superficie de los discos, al aterrizas las cabezas, se tiene reservada una zona de la misma superficie donde no hay que elaborar datos. No obstante, no existen problemas al apagar la unidad si las cabezas aterrizan en una zona de datos, ya que superficie está convenientemente lubricada para facilitar un buen contacto con las cabezas. Otro facto que ha de tenerse en cuenta en las unidades de disco duro tipo Winchester es el sellado hermético de la cámara que contiene los discos y las cabezas. En efecto, es evidente que para una cabeza que vuele a 20 millonésimas pulgadas sobre la superficie de un disco, y cuya velocidad de giro de 3600 r.p.m., el choque con una simple partícula de polvo, superior a 500 millonésimas de pulgada, podría producir graves problemas de borrado de datos o incluso unas rayaduras no deseadas sobre la superficie del disco, con la consiguiente pérdida de información. Para eliminar este problema, la solución adoptada para las unidades tipo Winchester ha sido el cerrar herméticamente la cápsula del aire externo. Además, en su interior existe un filtro de aire para filtrar las posibles partículas que puedan desprender los discos duros. Cabe señalar que la presión en el interior de la cápsula es la misma que en el exterior, es decir, no existe el vacío en el interior del compartimiento donde se encuentran los discos duros. Posicionamiento y desplazamiento de las cabezas Con el aumento de las pistas por pulgada que presentan los disco (en los sistemas tradicionales alrededor de 500 pistas por pulgada), se presenta el problema de la alineación y centrado sobre la pista deseada. Para resolver este problema se ha dedicado una cabeza y una superficie del disco a funciones de control. 8 Con la técnica de seguimiento servo de la pista Servo Track Following, a costa de una superficie entera de plato, de una cabeza y de una electrónica de control, se han obtenido notables capacidades de posicionamiento, incluso al trabajar con densidades muy elevadas. Como elemento principal para desplazar las cabezas de lectura y grabación se utiliza un motor paso a paso, en las unidades de menor costo. Con la utilización de este medio para el movimiento de las cabezas se consiguen unos tiempos medios de desplazamiento de 66 milisegundos. En las unidades de disco duro más evolucionadas, el desplazamiento se consigue mediante un motor lineal (voice coil), lo que hace que las unidades sean más costosas y complejas pero notablemente más rápidas (el tiempo medio de acceso a las pistas es de 21 ms frente a los 66 ms de los motores paso a paso). Códigos de grabación Al igual que en los discos flexibles, existen diversos métodos de grabación de los datos sobre los discos duros. Estos son MFM, M2FM y 3PM. Análisis y características de los discos duros con tecnología Winchester Desde hace algunos años, el desarrollo de las unidades basadas en tecnología Winchester domina el mercado y su orientación no se dirige tanto al aumento de capacidad, sino más bien a la reducción de costo y dimensiones. Los formatos estándar en pulgadas son: 14, 18 y 5 ¼. Posteriormente, ha aparecido el formato de 5 ¼ slim, o sea, de perfil estrecho. La evolución en este campo es muy grande hasta el punto que en un corto espacio de tiempo, las últimas tecnologías quedan desfasadas. Quizás una tecnología que sustituye a los discos duros como memoria de masa puede ser la de las memorias de burbujas(1). Definiremos aquí las características más importantes de una determinada unidad de discos duros de 5 ¼ pulgadas con tecnología Winchester y tipo slim. El mayor problema que presentan los discos duros como memorias de gran capacidad de información, desde Megabytes hasta Gigabytes (miles de Mbytes), es el de la seguridad de los datos. Un proceso de tratamiento de información de be tener la posibilidad de que los datos presentes en los discos duros sean copiados también en otros soportes. Si la computadora está utilizando soportes de baja capacidad, 10Mb, es posible efectuar esta copia de seguridad o backup sobre disco de 20, 30 o 40 o más mb, la copia se deberá efectuar sobre cinta magnética de lectura/grabación secuencial, parecida a una cinta de cassette, pero con una tecnología más avanzada. A esta cinta se la conoce como streaming Tape. A pesar de todo, en discos duros de mayor capacidad, se deberá utilizar un disco duro o una cinta magnética compatible para efectuar el backup. • Memorias de burbujas: son unidades de almacenamiento de información de alta tecnología que se comenzaron a desarrollar en la década de los años setenta pero que han conseguido sustituir a los discos magnéticos como soporte de almacenamiento masivo de información. Las memorias de burbujas se componen de una pequeña capa de un material magnético colocada sobre una base que actúa como soporte físico del sistema. La capa de material magnético será manipulada posteriormente por un dispositivo electrónico que formará las burbujas sobre la base del sistema. Este tipo de memorias se denominan memorias de propagación porque existe un circuito electromagnético que hace desplazarse físicamente a 9 las burbujas por el medio sobre el que flotan. En este tipo de memorias de almacenamiento la existencia de una burbuja magnetizada indica la presencia del dígito 1 del código binario, mientras que su ausencia implica la existencia de un 0. el principal problema de este tipo de memorias es que su lectura es destructiva, similar a la de las memorias de núcleos de ferrita. En la actualidad, esta tecnología de almacenamiento permanente de información no se ha desarrollado lo suficiente, las constantes mejoras tecnológicas de los discos duros han sido una dura competencia que nunca permitió que las memorias de burbujas pudieran ser utilizadas generalizadamente. Un factor importante a tener en cuenta es la velocidad del disco rígido, ya que de ella dependerá, en parte, cuánto tardará la PC en acceder a la información que en él se encuentra. Hay dos factores que determinan su velocidad: Velocidad de acceso a la información: en las tareas habituales de la PC, con frecuencia es necesario leer archivos, acceder a programas o utilizar el disco rígido como memoria virtual. Por esta razón, el sistema operativo está constantemente buscando o escribiendo datos ubicados en algún lugar u otro del disco rígido. El tiempo que le toma a la cabeza lectora posicionarse en el lugar correcto se llama tiempo de acceso y es importante tenerlo en cuenta a la hora de elegir un disco nuevo. En los discos actuales, los valores comunes para el tiempo van desde los 8 a 10 milisegundos. Velocidad de transferencia: otro factor que determina la rapidez del disco rígido es la cantidad de datos que se pueden guardar o leer por segundo. A esta capacidad se la conoce comúnmente como velocidad de transferencia y se mide en megabytes por segundo (mb/seg). Los discos actuales son capaces de transferir, es decir enviar y recibir alrededor de 4 a 5 mb de información por segundo. Discos Ópticos Los discos ópticos son un medio de almacenamiento de información que permiten una mayor flexibilidad, seguridad y capacidad de almacenamiento que los subsistemas convencionales de almacenamiento magnético (disquetes y cintas). Su base técnica es similar a la de los compact disk (discos de música) pudiéndose almacenar alrededor de 600 megabytes de información por cada disco. Su mayor tiempo de acceso a la información penaliza la utilización de estos periféricos como medio principal de almacenamiento de información en un sistema informático. En estos momentos la principal función de los discos ópticos es la distribución comercial de software debido a su gran capacidad de almacenamiento. 10 Existen dos tipos diferentes de disco ópticos, dependiendo de la posibilidad de escribir o no sobre el disco: • Técnicas láser • Técnicas magneto−ópticas ♦ Técnica láser: graba la información agujereando, mediante un rayo, un soporte sensible a su acción y lee, mediante un rayo similar, la información contenida en el soporte. Como los agujeros son permanentes, la información grabada también es permanente. Cada posición de un agujero es un bit que tomará uno de los dos valores posibles del código binario. ♦ Técnicas magneto−ópticas: se basan en un material de una superficie magnética que al ser calentado a gran temperatura por el láser e inducido por una corriente eléctrica cambia su polarización magnética y, por lo tanto, se almacena información. La ventaja de esta segunda técnica es la no destructividad, esto es, el láser no realiza agujeros como en el caso anterior, pudiéndose grabar información varias veces sobre la misma superficie. Estos sistemas no están excesivamente generalizados en los sistemas informáticos comerciales debido al alto costo de los soportes y a las dificultades técnicas existentes (lentitud en el tiempo de acceso, no están plenamente comercializados los subsistemas magneto−ópticos que permiten la grabación por parte de los usuarios, etc). ALMACENAMIENTO ALTERNATIVO Estos medios no intentan reemplazar al disco rígido, sino que lo complementan. Además de poseer una capacidad mucho mayor que los disquetes, trabajan a alta velocidad. Los principales puntos a considerar para saber que medio secundario elegir son su capacidad, su compatibilidad, su portabilidad y por supuesto, el costo. EL ZIP 11 Las unidades de ZIP son las más difundidas del mercado, un punto a tener muy en cuenta si se las quiere usar para partir información con personas. La ventaja que tiene sobre otros medios de almacenamiento similares es que constituyen una opción bastante económica y que soportan todo tipo de conexiones (los hay internos y externos). Los dispositivos ZIP utilizan discos magnéticos, cuyo tamaño es un poco más grande que el de un disquete tradicional, pero que, a diferencia de este, almacenan 100mb cada uno. Pueden conectarse a la computadora como un dispositivo IDE o a una interfase SCSI. Si el ZIP es IDE funcionar'de la misma manera que cualquier dispositivo interno, en cambio si la conexión es SCSI es posible optar por una unidad interna o una externa. Otra alternativa es que la conexión se realice a través de un puerto paralelo, en cuyo caso el dispositivo sólo podrá ser externo. La ventaja de este modelo es que se puede trasladar de un lugar a otro utilizarlo en varias computadoras. De acuerdo con la aplicación que se le é, sus 100mb de capacidad de almacenamiento pueden resultar su principal desventaja (en ocasiones, puede ser poco espacio para almacenar ciertos archivos). Sin embargo, para muchos usuarios esta capacidad resulta más que suficiente. La marca Iomega, fabricante de este dispositivo, ha lanzado recientemente una nueva versión de ZIP que permite trabajar con disco de 250mb y además seguir leyendo y trabajando los tradicionales de 100mb. SUPERDISK El superdisk es un cartucho que presenta, en un principio, dos ventajas: tiene una capacidad de 120mb y la lectora no solo permite leer estos discos, sino también los disquetes tradicionales de 1,44mb. De hecho, si se instala SuperDisk en una PC, éste reemplazará a la vieja disquetera ya que podrá leer sin problemas ambos discos. La lectora se comunica con la PC a través de la interfase IDE, y lo más común es instalarla como una uniadd interna. También existen modelos externos, pero en este caso se comunican por el puerto paralelo o a través de una notebook. Si bien SuperDisk es una opción muy interesante, por el momento no se encuentra demasiado difundida. Por lo tanto, si quiere compartir otra con otra computadora archivos que se encuentran en un disco de este tipo, primero debe averiguar si la otra PC cuenta con este dispositivo. El JAZ Cuando el trabajo que se está realizando con la máquina requiere gran cantidad de espacio de almacenamiento y altas velocidades (diseño gráfico, edición de audio y video, desarrollo de multimedia, etc) el dispositivo JAZ de la marca Iomega, constituye una buena opción. Sólo está disponible en versión SCSI (aunque también existe la posibilidad de conectarlo a máquinas IDE a través de un adaptador especial). Puede ser interno o externo y trabajar con discos de 1 y 2 GB. Mientras que la alta velocidad y enorme capacidad son sus puntos fuertes, su único inconveniente es el precio: el costo de la unidad y de los discos es bastante elevado, de modo que solo conviene tener uno en caso de que su ocupación así lo exija. SPARQ La unidad SparQ, de Syquest, trabaja con discos de 1gb. Es similar al JAZ (siempre compitió con este último en su franja de mercado), pero tiene una importante ventaja con respecto a él: su costo es mucho más accesible, ya que tanto la unidad como los discos cuestan casi la mitad. Otra ventaja es que puede conectarse de diferentes maneras: de forma interna, usando interfase IDE, y de forma externa, con conexiones de Puerto 12 Paralelo, USB y SCSI. CLICK El dispositivo Clik!, de Iomega, es un nuevo medio de almacenamiento muy pequeño (cabe en la palma de una mano) capaz de guardar 40mb por disco. Se puede conectar a una gran variedad de computadoras (PC, Macintosh, y equipos portátiles) a través del Puerto Paralelo, Puerto serie, USB y hasta PCMCIA (conexión de las notebooks). Además es posible usarlo con cámaras digitales para almacenar fotos y video, lo cual permite ahorrar dinero en memorias y aumentar la capacidad para guardar información. Si bien aún no existe una versión interna de este dispositivo, los más optimistas creen, que por su tamaño precio y prestaciones, en un futuro Clik! Reemplazará la disquetera tradicional. EVOLUCIÓN HISTÓRICA Los seres humanos han usado una variedad asombrosa de materiales y medios para guardar información, técnicamente llamados medios de grabación o almacenamiento de datos −−cualquier substancia que pueda ser sistemáticamente transformada se puede usar para grabar información. Piedras, vasijas y sogas anudadas son los más antiguos, pero papel ha sido el medio de grabación utilizado por dos milenios. No es sorprendente que las primeras formas de la mecanización de almacenamiento de datos se haya usado el papel. Se picaron agujeros en tarjetas del papel a las cuales se les llamó punch cards. Se usó también cintas de papel. Debido a que el papel era voluminoso y se deteriora rápidamente, se abandonó en favor a medios de almacenamiento magnéticos. Los medios de almacenamiento magnéticos usan un metal o plástico, en forma de una tarjeta, disco, o cinta, a la cual se le ha aplicado un óxido metálico. Existen ciertos problemas y limitaciones en el uso de medios de almacenamiento magnéticos, y hoy en día existe una gran variedad de medios de almacenamiento de datos que utilizan otras técnicas que están basadas en la difracción de las ondas de luz. Existen muchas variaciones de este sistema, las que hacen posible almacenar una gran cantidad de datos digitales en un muy pequeño y económico formato. La Evolución de Tecnología del Almacenamiento en Masa Antes de la aparición de las primeras computadoras comerciales electrónicas en 1951, almacenamiento en "masa" −aunque pequeño por los estándares actuales− era una necesidad. Como años antes, a mediados de 1800, se usaron punch cards para proporcionar la entrada a máquinas calculadoras, en la década de los 1940 introdujo el uso de los tubos de vacío para el almacenamiento hasta que, finalmente, una cinta de papel comenzó reemplazar a las punch cards alrededor 1950. Sólo un par de años más tarde, los medios magnéticos aparecieron en la escena. Y, en 1957, se introdujo como un componente de IBM RAMAC la primera unidad de discos duros 350. Requirió 50 discos de 24 pulgadas para guardar cinco megabytes (millón bytes, se abrevió MB) de datos y costó bruscamente US$35.000 por año o arrendarlo a US$7.000 por megabyte anual. Por años el manejo de los discos duros se confinó a los Mainframe e instalaciones de minicomputadores. Inmensas "granjas" de gigantes discos de 14 y 8 pulgadas manejan decenas de cálculos y los costos de mantención son de miles de dólares en cada instalación, lejos en centros de datos corporativos provistos de aire acondicionado. La revolución de la computadora personal a comienzos de 1980 cambió todo, es la introducción de los primeros discos duros pequeños. Eran discos de 5.25 pulgadas los que manejaban de 5 a 10 MB de almacenamiento− el equivalente de 2.500 a 5.000 páginas de doble−espacio de tecleo de información− en un aparato del tamaño de la caja de un zapato pequeño. Al tiempo se consideró que una capacidad de almacenamiento de 10 MB era demasiado grande para una llamada computadora "personal". Los primeros PCs usaron discos flexible trasladables como aparatos de almacenamiento casi exclusivamente. El término "disco blando" con precisión se refiere a los primeros discos para PC de 8 y 5.25 pulgadas que 13 tuvieron éxito. Los discos internos de hoy, más pequeños, se construyen 3.5 pulgadas de forma similar a los anteriores, pero se albergan en un casco de plástico rígido, que es más durable que el techado flexible de los discos más grandes. Con la introducción del IBM PC/XT en 1983, el disco duro también volvió a ser un componente normal de computadoras personales. La descripción "duro" se usa porque los discos internos que contienen los datos se sostienen en una unidad de aluminio rígido que los liga . Estos discos, se cubren con un magnético de mejor duración y calidad que el plástico utilizado en los discos blando. La vida útil de una unidad de discos duros, están en función de la unidad del discos que lee/escribe (cabeza): en un disco duro, las cabezas no tienen un contacto directo con la unidad de almacenamiento, por el contrario en un disco blando la cabeza que lee/escribe esta en directo contacto, con lo que causa un deterioro con el uso. Por diseño un disco duro contiene considerablemente más cantidad de datos que los discos flexibles y pueden guardar y recuperar mucha vez más rápido. Rápidamente hubo una descenso en los precios por los discos duros lo que significaron que a mediados de 1980, un disco de por lo menos 20 MB de capacidad era un componente normal de la mayoría de PCs. ( Porque discos blandos son un medios de comunicación de almacenamiento baratos y trasladables, el disco blando todavía se incluye en la mayoría de PCs como un medios para la carga de software y transporte y archivo de datos vitales.) Como cualquier otro producto de la industria de la electrónica, la unidad de discos duros no estaba exento a la ley inexorable de miniaturización. A mediados de 1980 el disco 5.25 pulgadas se había encogido considerablemente en cuanto a su altura. Uno normal maneja aproximadamente tres pulgadas de alto y pesó sólo unas libras, mientras que otros de más baja capacidad "mitad−altura" son sólo de 1,6 pulgadas. Por 1987 unidades de discos duros de 3.5 pulgadas empezaron a aparecer. Éstas unidades pequenas pesan come una libra y son del tamaño de una agenda. Estos fueron integrados dentro de computadores de escritorio y más tarde se incorporaron a los primeros en de verdad llamados computadoras portátiles (laptops) −peso promedio bajo 12 libras. La unidad de 3.5 pulgadas rápidamente volvió a ser la norma para los computadores de escritorio y sistemas portátiles que requerían menos que 500 MB capacidad. Altura también se encoge con la introducción del disco de 1 pulgada de alto, dispositivos de 'bajo perfil'. Así como la forma de 3.5 pulgadas ganaba aceptación, todavía una forma más pequeña, de 2,5 pulgadas, poco a poco apareció en la escena. Esto estaba en directa respuesta a la necesidad de reducir el tamaño y peso en computadoras portátiles de cuatro a seis libras computadoras tipo cuaderno (notebook). Hoy en día discos de 2.5 pulgadas son tan pequeños como las tarjetas de escritorio, y pueden contener 1 GB y más. No sorprende que la marcha a la miniaturización no se detuvo con 2.5 pulgadas. Alrededor de 1992 varios modelos 1.8 pulgadas aparecieron, peso sólo unas onzas y entrega capacidades de hasta 40 MB. Igualmente aparecieron con formato de 1.3 pulgadas, del tamaño de una fosforera. Factores de forma más pequeños por supuesto, no eran necesariamente mejor que los más grandes. Unidades de discos con factores de forma de 2,5 son utilizados poco a poco y menos corrientemente se requieren sólo para aplicaciones de la computadora donde el poco peso y tamaño reducido son criterios importantes. Donde capacidad y costo por megabyte son los criterios principales, se prefirió por unidades de factor de la forma más grandes. Por esta razón unidades de 3.5 pulgadas continuaran dominando el futuro previsible en PCs de escritorio y estaciones de trabajo, mientras el formato 2.5 pulgadas continuará dominando en computadoras portátiles. La construcción de factores de forma más pequeños es posible de poder continuar conforme a los adelantos en electrónica, medios de comunicación del disco, cabezas lecto/grabadoras, y otro tipo de tecnologías de unidades de discos. Históricamente, los avances tecnológicos han dado por resultado el doble de densidad del área de grabación −y así la capacidad del megabyte de un disco− cada 18 meses. 14 Desde su introducción, el disco duro se ha vuelto la forma más común de almacenamiento en masa para computadoras personales. Fabricantes han hecho grandes avances en capacidad, tamaño y ejecución. Hoy, el formato de 3.5 pulgadas, es capaz de manejar y acceder a millones de datos (gigabyte GB) mientras el computador esta accediendo a las aplicaciones multimedia, gráficos de alta calidad, gestión de redes, y aplicaciones de las comunicaciones. Y, según el tamaño maneja no sólo el equivalente de cientos de miles de páginas de información, sino que también recupera una dato o artículo determinado en sólo unos milésimas de segundo. Aún más, con el transcurrir del tiempo cada vez es más barato la unidad de disco. A comienzo de 1990, el costo de compra de un disco duro de 200 MB era bajo los US$200, o menos que un dólar por megabyte. La evolución del disco duro ESTRUCTURA Y FUNCIONAMIENTO DE DISCOS DUROS Y BLANDOS Acceso directo: el hardware puede acceder directamente a los datos grabados Los discos magnéticos son leídos y escritos por cabezas lecto/grabadoras sujetadas al final del brazo de acceso (access arm) el cual se puede mover directamente a una ubicación específica. Esta es la razón por la cual se considera que son de acceso directo. El movimiento del brazo de acceso es controlado por una unidad llamada controlador de disco (disk controller). Como el disco gira mientras la cabeza grabadora se mantiene quieta, la posición de una la cabeza pasa sobre una cara del disco la cual es llamada pista del disco magnético (track, magnetic disk). La información es grabada por el cambio de polaridad magnética del óxido que cubre el plato. La superficie del disco esta también divida en sectores (sectors), los cuales son como pedazos de torta que cortan a través de las pistas. Tipos de discos Existen dos tipos de discos, los blandos y los duros (floppy, hard). Los discos blandos (floppy disk) son llamados así por el material plástico del cual estan hechos. Aunque ellos normalmente estan cerrados en una caja o armazón de plástico duro, siguen siendo flexibles. Ellos son bastante resistentes al daño, por lo tanto pueden ser usados para transportar información de un lugar a otro. Los discos blandos tienen información grabada en ambas caras del disco plástico. Ellos giran sólo cuando se va a grabar o leer información. Una unidad de disco blando (la cual lee al disco blanco) tiene 2 cabezas lecto/gragadoras; una para el acceso de información de cada cara. Los discos blandos son clasificados como un tipo de dispositivo o unidad removible, porque todos los dispositivos de almacenamiento, en este caso los discos, pueden ser removidos y puestos en otro sitio o reemplazados por otro disco. El disco duro (hard disk) mantiene una cantidad mayor de información, pero son de un costo mayor (precio), y los discos por si mismo no son usualmente retirados o transportados de un lugar a otro. Por lo tanto ellos son considerados dispositivos o unidades no removibles. Los discos duros poseen varios discos independientes que son puestos uno sobre otro, sujetos a un eje central que gira constantemente. Existe un pequeño espacio entre cada disco para que el brazo de acceso pueda moverse libremente. El brazo de acceso tiene un final como de peine, cada diente tiene una cabeza lecto/grabadora para cada una de las superficies de los discos, superior e inferior. Como el brazo de acceso se mueve, estas cabezas se mueven uniformemente sobre las superficies de los discos. Todos las pistas pueden ser leídas o grabadas mientras el brazo de acceso esta en una posición determinada, llamada cilindro (cylinder). La información que es usada junta esta ubicada esta mejor ubicada en el mismo cilindro, porque esto minimiza la necesidad de mover el brazo de acceso, reduciendo el tiempo de recuperación de la información. 15 El número de pistas de un cilindro es igual al número de superficies de disco sobre las cuales se puede escribir. Estos números varían dependiendo sobre el específico disco que esta siendo usado. Los discos duros, a diferencia de los blandos, giran continuamente a una alta velocidad. Las cabezas lecto/grabadoras no tocan directamente la superfice; si ello sucediera, la constante fricción pronto desgastaría la capa de óxido magnético que mantiene la información. En vez de ello, 'vuela' muy cerca sobre la superficie. En raras ocasiones, daños pueden ocurrir en el disco duro, lo que puede resultar en pérdida de información. Uno de las peores situaciones es conocida como un choque de cabezas (head crash). Esto ocurre cuando las cabezas magnéticas, las que normalmente no tocan la superficie del disco duro, son sacudidas y tocan la superficie del disco. Esto causa que la información magnética es raspada desde la superficie del disco, y hace que el mismo sea inleíble en su totalidad. Otros problemas pueden ocurrir los que resultaran en pérdida de información, por lo tanto lo mejor es hacer cuidadosas copias de la información, también conocidas como respaldos (back−ups). Para mantener información en un disco magnético, el sistema operativo (operating system, OS) del computador guarda un registro de todos los nombres de los archivos y sus ubicaciones en un directorio almacenado en la tabla de ubicación de archivos (file allocation table, FAT). Cuando se escribe un nuevo archivo, el OS chequea la FAT para determinar que pistas estan con áreas sin uso que estan libres para guardar nuevos datos. Los bloques contiguos de datos escritos en el disco los que son usados para almacenar datos que pertenece a un mismo archivo, se llaman grupos (clusters). Un archivo puede estar dividido dentro de varios grupos de datos y ubicados donde hayan encontrado sectores disponibles en las pistas de un disco. Un registro esta escrito en la FAT indicando la dirección física del grupo que pertenece a un archivo específico. Como los archivos son escritos y luego borrados, el espacio libre comienza a ser más escaso, y los archivos se dividen dentro de grupos que son ampliamente esparcidos en distintas partes. Cuando los archivos son divididos dentro de bloques de datos no−contiguos esparcidos alrededor del disco, el mecanismo de acceso se hace más largo para recuperar varios grupos de archivos, y ponerlos junto dentro de un archivo que pueda ser leído dentro de la memoria principal. Si este problema comienza a ser severo, el disco dirá que está fragmentado y debe ser defragmentado, esto reorganizará la información utilizando un programa utilitario especial. Densidad de Grabación: capacidad de datos que puede contener el disco La capacidad del dispositivo depende en cuando densa es la información (por ej. Bits) que puede ser grabada en la unidad de discos. El número de bits por pulgada cuadrada (bits per square inch, BPSI) es llamada la densidad del área. La densidad del área es calculada tomando el número de bits por pulgada (BPI) que pueden ser escritos para ser leídos desde cada pista, y multiplicado por el número de pistas por pulgada (TPI) que contiene el disco. BPI depende de la cabeza lecto/grabadora, unidad grabadora, rpm del disco, y la velocidad a la cual los elementos electrónicos pueden aceptar los bits. TPI depende de la cabeza lecto/grabadora, unidad grabadora, la precisión mecánica con cual la cabeza se puede posicionar sobre el brazo de acceso, y la habilidad del disco para hacer un giro en un círculo perfecto. Aumentar la densidad, puede ser posible aumentando cualquiera de estos factores. Datos históricos y proyecciones de las capacidades de los discos: DISCOS DUROS EXTERNOS 16 Al igual que los discos duros internos, existen estos dispositivos que cumplen con la misma función, pero que son factibles de retirar e instalar en otra máquina, o simplemente cuando ya no es posible seguir aumentando la capacidad de discos duros internos de la máquina, se recurre a este sistema, que puede estar asociado a uno a más discos externos (arreglos de discos). CINTA MAGNETICA La cinta magnética es similar a la cinta popularmente usada para grabar sonidos, aunque las maneras como los datos del computador son ubicados en esta cinta son diferentes a las técnicas usadas por el grabador de cintas de música. El uso de cintas magnéticas tiene la misma desventaja que el uso de casete normal, puede tomar un poco de tiempo ubicar la información que se encuentra en el medio de la cinta. Toda la información debe ser buscada una a la vez, hasta que la información sea encontrada, esto es llamado acceso secuencial (sequential access). El acceso secuencial requiere que la cinta sea leída desde el principio. El dispositivo usado para leer y escribir en la cinta, se llama unidad de cinta, es de un bajo costo (precio), y una cinta puede guardar una gran cantidad de información (varios GB). Es por esta razón, que el uso más frecuente de la cinta magnética esta para hacer copias de respaldos (back−ups) de información para prevenir pérdidas accidentales que podrían suceder si algo sucediese a los discos duros. Entonces, almacenar en una cinta magnética es mucho más económica que almacenar en discos duros, si se considera el precio por megabyte que cada una representa. Es frecuentemente usada para archivar información vieja, la cual es raramente necesitada, pero debe ser mantenida por diferentes razones. Avances tecnológicos recientes han acelerado las unidades de cinta, como lo son DLT(tm) y los cartuchos de cinta de audio digital (digital audio tape, DAT), también han hecho que han hecho el método preferido para los respaldos de los servidores de redes y otra información crítica. DIFERENTES TIPOS DE UNIDADES DE CINTA Unidades de Discos Compactos (CD): CD−ROM y CD regrabable El CD es un nuevo medio, pero existen una gran variedad de ellos. Es necesario entender las diferencias entre la tecnología del sólo lector de CD (por ejemplo los CDs de música o ediciones de multimedia) y los CDs gravables (por ejemplo los utilizados para almecenar datos o para imágenes en una máquina fotgráfica). Entre los tipos de CDs, no todos los discos son creados de igual forma desde un punto de vista de durabilidad. Es importante conocer ciertas cosas sobre la longevidad del CD, por lo tanto hay que saber hacer la mejor selección del producto dentro de los diferentes tipos y marcas. Es también importante, conocer sobre el especial cuidado y requerimientos de almacenamiento que cada tipo de CD necesita. Los diferentes tipos de CDs comparten ciertas características: todos tienes las mismas dimensiones físicas; son echos al menos parcialmente de policarbonato plástico; y tienen una capa metálica para reflectar el rayo láser que lee la información. Todos los CDs tienen una ranura espiral microscópica dibujada dentro del policarbonato plástico. Las líneas del espiral son tan pequeñas y cercanas unas a otras que ellas actúan como una rejilla de difracción. Están creados con relucientes líneas de colores de 'arcoiris' que emanan desde la cabeza central hacia el exterior en cada superficie de CD. El surco de la espiral es continua en cada CD gravable, porque es necesario para guiar el láser durante la escritura. Mire en la superficie para identificar el tipo de CD. Un CD−ROM deberá ser plateado. Un CD grabable 17 deberá ser verde o verde−dorado. La mayor diferencia para poder distinguir entre las diferentes fabricaciones de CDs de sólo lectura y aquellos que son grabables puede ser a primera vista: los CD−ROMs tienen un color metálico en ambos lados, en cambio en CD grababe (CD−R) es de un dorado metálico en al superficie y verde o verde−dorado por el otro. El CD−R en la parte superior tiene lobo u otra información impresa, y el otro lado no tiene marcas, excepto in el área cercana al centro. El láser lee el disco desde el lado verde, por lo tanto niveles o tinta en este lado dañaría la lectura. La naturaleza de los CD−ROM: Hay 2 tipos de CDs, los que son de sólo lectura y aquellos que permiten ser grabados, diferentes en estructura, materiales y tecnología de fabricación. Cuando se necesita una gran cantidad de copias, el CD−ROM es la elección natural, que todos los discos serán creados de un mismo modelo. El proceso de modelaje (el cual no es distinto al utilizado para hacer CDs de música) utiliza un disco de policarbonato en su mayor parte. Este disco modelo tiene una pista espiral de marcas impresas en uno de sus lados, estas marcas contienen la información codificada. Como el rayo láser en el lector de CD es guiado hacia delante a lo largo de la pista, es interrumpido por las marcas y estas interrupciones son decodificadas en música, texto o imágenes. Después que el CD−ROM deja el molde, es sólo un disco plástico limpio, con tenues marcas, y si se trata de leer en u n lector de CD, el láser no podrá distinguir la diferencia entre una marca o un área plana. Es por ello que el CD−ROM tiene que tener una capa metálica plateda. La cubierta metálica en la superficie es la que reflecta y hace rebotar la luz láser dentro del sensor de luz. Cuando el tenue foco del rayo láser no reflecta en un sector plano, el detector de luz ve el rayo. Cuando el rayo encuentra una marca, no es reflectado la luz del láser dentro del sensor de luz. La capa metálica de reflexión es el problema de durabilidad del disco. La tecnología del CD−ROM, la que es originada alrededor de 1980, en más antigua que la del CD−R. Como todo nuevo producto, hay lecciones aprendidas e incorporadas en la nueva fabricación. La capa de reflexión era un ejemplo claro. En el CD−ROM, la capa es actualmente de aluminio o aleación de cromo−aluminio, no de plata. El metal es aplicado a la cara de la marca del modelo de disco de policarbonato por medio de una capa de renqueo donde átomos de metal son depositados como una delgada película usando una cámara al vacío. Esta delgada película de metal es semitransparente. Naturaleza de un CD−R Un CD−R comienza liso. Un láser escribe la información en él creando áreas descoloreadas en una capa de color verdoso. Las áreas descoloreadas del CD−R actúan como las marcas en el CD−ROM: ellas interrumpen los rayos del lector láser. La tecnología del CD−R hace posible que las personas creen sus propios CDs, los cuales pueden ser leídos por computadores provistos de unidades de CD−ROM o lectores de CDs de equipos musicales. Los CDs para fotografías de Kodak son un ejemplo de CDs grabable que pueden ser leídos en una computadora o en equipos de televisión especiales. La estructura física de un CD−R es diferente a la de un CD−ROM. Un CD−R es un moldeado en policarbonato también , pero no tiene marcas. Como los grabadores de música, un CD−R tiene una ranura espiral lisa sobre la mayor parte de la superficie. Esta ranura, patrón dentro del lado superior del disco, sirve para guiar el potente rayo láser cuando esta escribiendo. DISCOS MAGNETICOS−OPTICOS Los sistemas de discos magnéticos−opticos (MO) combinan la tecnología tradicional de los dispositivos magnéticos, como los discos duros, con la tecnología de los discos ópticos o CD−ROM. La tecnología MO 18 permite a los usuarios almacenar cientos de megabytes de información en un disco similar al tradicional disco blando de 3.5 pulgadas, y su formato factor de forma típico es de 3.5 o 5.25 pulgadas. Un disco MO están hechos de materiales altamente resistentes a campos magnéticos, fuerzas físicas y temperaturas ambientales. Una unidad MO escribe en el disco utilizando una cabeza lecto/grabadora asistida por láser. Un láser que calienta la superficie del disco. Esta temperatura permite que las partículas magnéticas de la superficie del disco, se alinien por el campo magnético creado por la cabeza lecto/grabadora. Entonces, la cabeza lecto/grabadora pasa sobre el disco, polarizando aquellas áreas que están siendo calentadas por el láser. Porque un láser puede ser enfocado sobre varios lugares más pequeños (delgados) que la tradicional cabeza lecto/grabadora magnética, la información escrita sobre un disco MO con asistencia láser, resulta de una mayor densidad no disponible con las unidades de discos duros tradicionales. Durante una operación de lectura, la unidad MO usa el mismo láser para percibir la información que se encuentra almacenada en un disco. Como el láser examina la superficie del disco, la unidad detecta la reflexión de la luz por la ubicación de los bits de información en una dirección y no la reflexión desde la información de los bits orientados en la dirección opuesta. De esta manera, una unidad MO puede distinguir entre 0 y 1 de la información del bits almacenada en el disco. Los discos MO tienen algunas ventajas: − Son de una alta densidad de información, gracias al uso del láser. − La información guardada en él: − Puede ser modificada al principio, añadida o borrada al igual que un disco duro. − Es resistente a los campos magnéticos. A diferencia de un disco duro o blando tradicional, un campo magnético sólo no puede alterar la información sin ser añadido el calor provisto por el láser. − Porque el uso del láser para ayudar en la lectura o grabado de la información, no necesita que la cabeza lecto/grabadora deba estar cerca de la superficie del disco como un disco duro. En vez de 'volar', la cabeza de un disco MO va montada sobre una pista, disminuyendo la posibilidad de un choque de cabezas (head crashes). La desventaja de la tecnología MO, es que debido a la alta intensidad del campo magnético creada en combinación con la cabeza láser, la unidad no puede cambiar la polaridad del campo rápidamente. Por lo tanto, la unidad de be pasar sobre el disco dos veces para escribirlo. In la primera rotación, todos los bits son puestos en la misma orientación, borrando la información; y en la segunda rotación, algunos bits son reorientados hacia el polo opuesto para distinguir el 0 y el 1. Aunque algunas unidades MO giran a velocidades comparables con los discos duros, dos rotaciones requiere en la escritura de la información, siendo tan lento como el disco duro durante la operación de escritura. Por supuesto, los fabricantes de unidades MO están trabajando para tratar de disminuir el proceso de escritura en una sola rotación.. Por lo tanto, unidades de MO de un solo paso de escritura, estarán disponibles pronto. DVD: Digital Versatile Disc Después de una espera de 10 años, durante los cuales la capacidad de los discos duros se fue duplicando, el CD−ROM finalmente tuvo su levantamiento hacia la siguiente centuria con la aparición del DVD, inicialmente llamado Digital Video Disc pero más conocido como Digital Versatile Disc (1996). Las compañías de películas inmediatamente vieron un a este gran CD como un camino simultáneo de la comercialización de videos, produciendo mejor calidad de sonido e imagen en un disco de costo 19 considerablemente menor que la producción de una cinta de video VHS. Usando compresión de video tipo MPEG−2 (alto grado de compresión de imagen, calidad de sonido y nitidez), el mismo sistema que será usado para la transmisión de televisión digital, cable y satélites, es posible introducir una película de casi 2 horas en un DVD. La calidad de la imagen es tan buen como la televisión en vivo, y el disco de DVD−Video puede llevar múltiples canales de sonido digital. Para los usuarios de computadores, sin embargo, DVD significa más que sólo películas, y mientras el DVD−Video a tomado un papel principal, DVD−ROM llegará a ser mucho más importante por un período mayor. En los próximos años, las computadoras basadas en unidades de DVD serán probablemente más vendidas que las máquinas de DVD−Video destinadas para el hogar en una proporción de 5:1. Con el entusiasmo adquirido por las empresas de computadores en general, y los fabricantes de unidades de DVD−ROM en particular, al final de esta década existirán más DVD−ROM en uso que unidades de CD−ROM. La necesidad de una mayor capacidad en el mundo del computador, es obvia para todos aquellos que tienen juegos en CD y softwares de aplicaciones varias. La gran capacidad de almacenamiento de datos da al DVD, característica que permite a los vendedores múltiples títulos para sus CDs (base de datos telefónicas, mapas, enciclopedias, etc) en un solo disco, haciendo conveniente su uso. De acuerdo a su utilidad, existen 5 variaciones: * DVD−ROM es un disco de alta capacidad de almacenamiento medio * DVD−Audio es un disco de almacenamiento medios destinado a películas de video * DVD−R permite escribir una vez, y leer similar al formato CD−R * DVD−RAM será un regrabable (permite borrar) distintos tipos de DVD Con el tamaño universal standard a 120 mm de diámetro, 1.2 mm de espesor, los discos DVD permiten llegar hasta 17 GB de almacenamiento, con una mayor tasa de transferencia que un CD−ROM y próximo a los tiempos de acceso del mismo, viene en 4 versiones: * DVD−5 es un disco de un solo lado con una sola capa, y su capacidad llega a 4.7 GB * DVD−9 es un disco de un solo lado con doble capa, y su capacidad llega a 8.5 GB * DVD−10 es un disco de dos caras con una sola capa, y su capacidad llega a 9.4 GB * DVD−18 es un disco de dos caras con doble capa, y su capacidad llegar a 17 GB El proceso de fabricación básico para el DVD es similar al proceso de fabricación para los CD−ROMs, con algunas excepciones. Dos molduras son requeridas para un DVD, la cual consiste de dos discos de 0.6mm unidos. El segundo paso adicional de fabricación, es disolver (caliente) una capa de goma (capa simple) o la unión UV (doble capa). Para el diseño de la capa doble, una capa semireflectiva es también adicionada para permitir que la información sea leída desde uno de los lados del disco. Para mejorar la resolución y capacidad de lectura de las dos distintas capas, el mínimo tamaño de la ranura del DVD es de 0.4 micrones, comparado con los 0.83 micrones de un CD. En adición, la pista del DVD (la distancia entre cada una) se ha reducido ha 0.74 micrones, menos que la mitad de los CDs de 1.6 micrones. Con estas dimensiones, el DVD reduce el tamaño de las pistas y sus separaciones logrando tener una mayor cantidad de ellas que un CD. Pequeñas ranuras significan también que el láser tiene que producir una pequeña mancha, y consecuentemente las ondas han sido reducidas desde 780 nm (nanómetros) de luz infraroja de un CD tipo, a 635nm o 650nm de luz roja. 20 Otra característica interesante de un DVD es que la segunda capa de datos, puede ser leída desde dentro también como si fuese desde fuera. Los CDs de densidad estándar, la información siempre es almacenada cerca del centro del disco. Lo mismo ocurre en los simples y dobles DVD, pero la segunda capa de cada uno de los disco puede contener la información grabada al revés, o en una pista de espiral inversa. Con esta característica, toma sólo un instante re−dirigir el lente desde una capa reflectante a otra. En cambio, el CD guarda toda su información en una pista espiral simple, tomando un mayor tiempo reubicar alguna posición o archivo en la misma superficie. Uno de los mejores logros del DVD es que ha causado que todos los usos concebibles para un CD como información, video, audio o la mezcla de los tres, estén unidos en una estructura de archivo física simple llamada UDF (Universal Disc Format). Con esto se quiere llegar a poder acceder al dispositivo desde cualquier tipo de unidad, computador o video. Esto también permite una interfaz más sensible con los OS estándar como lo incluyen los CDs estándar compatibles con ISO 9660 (características estándares internacionales para permitir que diferentes plataformas tengan acceso a un mismo CD). UDF vencerá los problemas de incompatibilidad que los CDs han sufrido, cuando nuevas aplicaciones como multimedia, interactivas o video aparezcan. DVD−ROM La mayor diferencia práctica entre los dos ROM (DVD y CD) es que mientras el CD tiene sólo un lado, un DVD puede ser dado vuelta y utilizado su otra cara, en consecuencia casi dobla la capacidad de 4.7 GB de almacenamiento del disco. Así como los discos de doble lado, las especificaciones del DVD incluye discos de múltiples niveles usando capas de datos semitransparentes sobre el nivel de información principal. El láser reubica casi instantáneamente entre las capas la información requerida, de este modo un disco puede entregar su contenido sin necesidad de ser sacado y dado vuelta. En los discos DVD−ROM existe una pequeña diferencia con la unidad común de CD−ROM, el cual es sólo el logo de DVD en el frente del dispositivo. Por lo tanto en las unidades existen más similitudes que diferencias: la interface es ATAPI o SCSI (forma que tienen de conectarse a la tarjeta madre del PC) para la mayoría de las unidades, y su transporte es mucho más cómodo que cualquier unidad de CD−ROM. La información del CD−ROM es grabada cerca de la superficie del disco. La capa de información del DVD esta justo en el medio por eso el disco puede ser de doble lado. El láser es diferente, teniendo un par de lentes en una pieza giratoria: uno para enfocar el brillo dentro de la capa de información del DVD y el otro para leer CDs comunes. DVD Regrabable El DVD−R (DVD−regrabable) sigue muy de cerca al DVD−ROM, apareciendo en otoño de 1997 con una capacidad inicial de 3.95 GB por lado, el DVD−R no tiene la capacidad completa de un DVD−ROM. El DVD−R usa tecnología de tintura con polímeros orgánicos como el CD−R, y es compatible con casi todos las unidades de DVD. Un primera versión del DVD−R fue importante para el desarrollo del DVD−ROM, puesto que los fabricantes necesitaban generar una versión barata para hacer las pruebas antes de lanzarlo al mercado. Su capacidad será extendida hasta 4.7 GB a mediados de 1999, lo que es crucial para las producciones de DVD−Video de escritorio. DVD−R será también un nexo entre quienes necesitan una gran capacidad de almacenamiento a bajo costo, pero la mayor de los usuarios de computadores, probablemente optarán por versiones de formatos más versátiles de grabación. DVD−RAM Unidades de DVD−ROM regrabables, o DVD−RAM, emplean tecnologías de cambio de fase similares a MO en vez de una tecnología puramente óptica de discos CD y DVD. Un formato de ranuras permite que las señales sean grabadas en ambas ranuras formadas en el disco y el espacio que se genera entre ambas ranuras. Las ranuras y los inicios de los sectores son moldadeados dentro del disco durante la fabricación. La primera 21 generación de productos DVD−RAM construidos permiten una capacidad de 2.6 GB de espacio disponible para información en cada una de las caras del disco. Sin embargo, estos primeras unidades serán incompatibles con los de gran capacidad, los cuales pueden usar unas capas más perfeccionadas y una capa de calor para alcanzar altas densidades. La principal diferencia entre el DVD−RAM y ROM es de compatibilidad. El disco DVD−RAM de sólo un lado viene con o sin estuche (cartridge) y por lo tanto será leíble por la 4ta. Generación de unidades de DVD−ROM cuando comiencen a estar disponibles a finales de 1999. Existen 2 tipos de estuches: tipo 1 es sellado; y el tipo 2 permite que el disco sea retirado. El disco puede sólo ser escrito mientras esta en el estuche. Por otro lado, los discos DVD−RAM de doble lado estarán disponibles sólo en el estuche tipo 2, y como consecuencia, no podrán ser leídos en las actuales unidades de DVD−ROM, una situación que aún solucionarse. DVD−Audio Es interesante hacer notar que el primer dispositivo óptico disponible al público fue el CD de sonidos. Desde entonces, los campos del audio digital y la información digital han sido intervenidos en una relación simbiótica, con una industria que hace utiliza a la otra para un beneficio común. Esto tomo varios años para la industria de los computadores para darse cuenta que el CD era el medio perfecto para almacenar y distribuir grandes cantidades de información digital, y no fue sino hasta la década de 1990 que el CD−ROM comenzó a ser una pieza estándar en el equipo de un PC. Con las últimas industrias de PC que fabrican dispositivos ópticos, las industrias grabadoras están ahora observando para tomar prestado esa tecnología para buscar otro camino para hacer que la gente nuevamente vuelva a comprar en masa. La demanda por alta fidelidad de los CDs ha producido un número de estándares los cuales están compitiendo con los DVD−Audio para llegar a ser el próximo estándar aceptado. Entre estos están SACD (Super Audio CD) y DAD (Disco de Audio Digital). Cuando uno de estos finalmente gane, se podría general el disco con 24 bit de resolución a 96kHz como un ejemplo de velocidad, a diferencia del actual con formato de 16 bit y 44.1kHz. El formato SACD esta hecho compatible con los lectores existentes, una situación que puede ayudar en la batalla por la aceptación de los consumidores. OPERACIONES DE ENTRADA/SALIDA Los problemas que tiene que resolver esta parte del código son los relacionados con los dispositivos de entrada/salida: terminales, discos, impresoras, ratón, interfaz a redes de comunicación, etc. Cada uno de los dispositivos de entrada/salida tiene un controlador que trata directamente con las características particulares de cada dispositivo en concreto. Es el encargado de enviar todas las señales necesarias para realizar cualquier operación. La computadora no trata con el dispositivo físico sino con el controlador del dispositivo. La razón es que la velocidad de procesamiento de la computadora es muy superior a la de cualquier dispositivo de entrada/salida. De esta forma se envía la orden al controlador, por ejemplo, leer cierta información del disco, y la computadora pasa a ejecutar otro proceso mientras el proceso anterior espera la respuesta del dispositivo de entrada/salida. Cuando la información está lista para utilizar, el controlador avisa a la computadora indicándole que la operación de lectura ya ha finalizado y puede continuar con la ejecución del proceso anterior. En este momento se decide cuál será el proceso que sigue ejecutándose. Las operaciones de entrada/salida son la manera en la que la computadora se comunica con el mundo externo. Ya que el CPU sólo puede tener acceso a programas o datos en la memoria principal, deben idearse métodos para poder introducir datos o programas que estén almacenados externamente, a la memoria principal y para poder obtener resultados de la ejecución de programas, sobre los dispositivos de almacenamiento externos. 22 Una de las técnicas usadas para minimizar las operaciones de E/S consiste en guardarlas en memorias intermediarias. El buffer o depósito de transferencia es un lugar para guardar algún bloque de datos que va a ser transferido entre un almacenamiento secundario y la memoria del programa. El tamaño del buffer puede ser definido por el usuario como un número específico de registros lógicos completos. Este número también es igual al tamaño de un registro físico. El buffer asociado con el archivo es asignado por un método de acceso del sistema operativo cuando se abre el archivo y es liberado cuando el archivo se cierra. Cuando todos los registros del buffer han sido procesados, el sistema operativo transfiere otro bloque de datos del almacenamiento secundario hacia el buffer. La operación WRITE causa que los datos fluyan en la dirección opuesta a la de READ. El uso del buffer se asemeja a cuando vamos a clases y sacamos todo lo que vamos a usar de nuestras mochilas para luego cerrarlas y dejarlas a un costado, sin tener necesidad de buscar en ella cada vez que necesitemos algo. El buffer es un depósito de transferencia para que un bloque de datos sea transferido entre un almacenamiento secundario y el programa del usuario. En lugar de traer los datos de uno en uno del almacenamiento secundario, el sistema operativo extrae un bloque completo y luego toma los registro s individualmente del buffer y los manda al área del programa. TRANSFERENCIA DE DATOS ENTRE LA MEMORIA PRINCIPAL Y LA UNIDAD DE ALMACENAMIENTO SECUNDARIO Una operación de entrada causará que los datos requeridos sean llevados desde un almacenamiento secundario a través de una unidad de control y un procesador de E/S hasta la memoria principal, de donde una operación de salida causará su movimiento a través de pasos similares en orden inverso, para ser guardados en la base de datos. Un procesador de E/S inicia la transferencia de datos entre el dispositivo de almacenamiento externo y la memoria principal, mandando señales a la unidad de control (o controlador), el cual posiciona la cabeza de lectura/escritura (Read/Write) sobre el área de datos objetivo en el dispositivo de almacenamiento para la transmisión de los datos. PROCESADOR DE ENTRADA/SALIDA Y ADITAMIENTO DE UNIDAD DE CONTROL Los procesadores de E/S están conectado a la memoria principal para controlar la transmisión de datos entre el dispositivo de almacenamiento y la memoria principal para que las lentas operaciones de E/S puedan llevarse a cabo simultáneamente con la ejecución del CPU. El procesador de E/S es una computadora en sí misma; ejecuta sus propios programas. Un procesador de E/S, generalmente está conectado a varios dispositivos de almacenamiento secundarios. La mayoría de las computadoras medianas o grandes tienen varios procesadores E/S. Una unidad de control es un procesador con una función especial que sirve como interfase entre un procesador de E/S y una unidad de almacenamiento. Interpreta las señales que envía el procesador de E/S a la unidad de XXXXXXXXXXXXXXXXX Es posible agregar al ssitema una variedad de dispositivos de almacenamiento, siempre y cuando esté disponible un controlador adecuado para interpretar las señales enviadas a o desde la computadora huésped. La unidad de control puede integrarse como parte del dispositivo E, S o separadamente. La trayectoria de los datos en una operación E/S es como sigue: 23 Petición E/S Métodos de acceso básicos del sistema operativo y Administrador de archivos Procesador E/S Unidad de control Datos en la unidad de almacenamiento secundario ORGANIZACIÓN DE LOS DATOS Una computadora, por pequeña que sea, puede manejar gran cantidad de datos, pero a condición de que éstos estén organizados de una manera determinada para poder acceder a ellos de forma más fácil y rápida. La información se encuentra almacenada en los dispositivos o unidades de almacenamiento externo de memoria, siendo en los soportes de estas unidades donde los datos están organizados de una manera especial. Esta información se puede organizar de dos maneras: física y lógicamente. La organización física depende de los soportes sobre los que estará grabada la información y, por lo tanto, puede variar según las características de cada uno de estos soportes. En cambio la organización lógica varía a voluntad del usuario, aunque las herramientas que éste tiene a su disposición para definir esta organización son fijas. La diferencia entre estas dos organizaciones estriba en el hecho de que los datos no están grabados tal como un usuario los ve. Físicamente, los datos están grabados de una manera, pero el usuario se los imagina de otra. A pesar de esta apariencia, todo es correcto, ya que el propio sistema operativo el que se encarga d realizar la transformación; es decir, el usuario trabaja con los datos (graba, lee, actualiza, etc.) mediante las herramientas que posee, pero siempre viéndolos organizados lógicamente, siendo el sistema operativo el que transforma estas órdenes para que dicha información quede alterada físicamente. El usuario no tiene porqué preocuparse de la organización física, ya que, como hemos dicho antes, es el sistema operativo el que realiza la transformación de la organización lógica a la organización física. Por lo tanto, en este apartado solamente nos vamos a ocupar de la organización lógica de los datos. • Dentro de la organización lógica de los datos, las dos agrupaciones de información más importantes son los registros y ficheros. Ficheros y registros Un fichero es un conjunto de elementos que contienen información relativa a un mismo tema y en el que cada uno de estos elementos es un registro. Un registro forma parte de un fichero y a su vez está divido en campos, de tal manera que cada campo contiene un dato referente a tal registro. Por ejemplo, podemos encontrarnos ficheros que contienen información relativa a los artículos contenidos en un almacén, en los que cada registro contiene informaciones tales como el número de artículo, su nombre, la cantidad que hay de él en el almacén, la fecha de la última entrada de este artículo en el almacén etcétera. Registro físico y registro lógico 24 El registro lógico es el conjunto de información relativa a cada elemento de un fichero. El registro físico es la cantidad de información que puede leerse o grabarse de una sola vez y que depende de las características técnicas de la unidad de almacenamiento externo de memoria que contenga el soporte del que forma parte el fichero. De esto se deduce que un registro físico puede contener varios registro lógicos (es lo más normal) o , al revés, un registro físico puede ser una parte de un registro lógico (no es normal); ello significa que , en el primer caso, en una operación de lectura física se leerán varios registros lógicos y, en el segundo caso, para leer un registro lógico habrá que realizar varias lecturas físicas. Pongamos por caso el ejemplo: sea la longitud del registro de cada artículo de 128 caracteres o bytes. Supongamos también que las características técnicas de la unidad de lectura hacen que cada vez que se haga una lectura física se lean 512 bytes, es decir que la longitud del registro físico es de 512. de estas dos suposiciones se deduce que un registro físico constará de 4 registros lógicos (512/128=4) o, lo que es lo mismo, al efectuar una operación de lectura física sobre el fichero de los artículos contenidos en el almacén, se leerá de golpe a la información correspondiente a 4 artículos (4 registros lógicos). De la misma manera, si suponemos que la longitud del registro de cada empleado del almacén es de 1024 bytes o caracteres, entonces, para leer la información de un artículo, habrá que efectuar dos lecturas físicas. Nótese que estos dos términos están relacionados con el de la lectura física y la lectura lógica. Si nos fijamos en los dos párrafos anteriores, veremos que se está utilizando mucho el término lectura física. Este término significa lo que realmente quiere decir, o sea, un desplazamiento de los cabezales de lectura/grabación a una zona determinada del disco para obtener de golpe 512 bytes; se identifica con el registro físico porque, como vemos, cada vez que se hace una lectura física se obtiene un récord físico. Sin embargo, el término lectura lógica significa cualquier orden de lectura que el programador o usuario especifique en forma de instrucción dentro de un programa y que no coincida con una lectura física, sino que sea la lectura de un registro lógico. Pensemos entonces, que por cada 4 lectura lógicas en forma de instrucción que efectuará el programa, solamente se efectuará un programa, solamente se efectuará una de física. Para comprenderlo mejor véase el cuadro lectura física y lectura lógica. El usuario es completamente ajeno a este proceso y sólo ve que, cuando su programa efectúa una lectura, obtiene el registro de un artículo. Campos de un registro Los registros de un fichero, como ya hemos dicho antes, se dividen en campos, cuyo contenido se corresponde con cada dato específico de la información a la que representa el registro. Existen varias clases de campos atendiendo a su contenido o a su función dentro del registro. Si tomamos en cuenta su contenido, los campos pueden ser: • Numéricos, si solo contienen números • Alfanuméricos, si contienen números, letras y otros signos de puntuación y especiales Atendiendo a la función del campo dentro del registro, podemos tener: • Campos normales 25 • Campos claves Los normales son todos los demás campos que no sean claves. Los campos claves son campos numéricos o alfanuméricos que sirven para identificar al registro. En el ejemplo anterior, en el fichero cuyos registros son la información de cada artículo podemos tener un campo clave, que es el número de artículo, que sirve para identificar a cada uno de ello. Existen también campos que se subdividen en otros que reciben el nombre de zonas. Pongamos un ejemplo, campo fecha última entrada, este campo se subdivide en tres zonas, que serán día, mes y año. Clave primaria y clave aspirante Un campo clave aspirante tiene una propiedad tal que su valor de campo sólo puede identificar a cada registro lógico en un archivo, de manera única. Un registro puede tener más de una clave aspirante. Una clave primaria es una clave aspirante. Sin embargo, cuando dos o más claves aspirantes se encuentran en un registro, sólo una de las aspirantes está señalada como la primaria. En otras palabras, en cada registro sólo puede haber una clave primaria. Una clave primaria también es llamada clave de registro. CLASES DE FICHEROS Podemos establecer dos grandes grupos de ficheros, según su función y según la organización de sus registros. Los ficheros de dividen en tres tipos según la función que desempeñan: • Ficheros maestros • Ficheros de trabajo • Ficheros de movimiento FICHEROS MAESTROS Son ficheros permanentes, es decir, que una vez creados sufren la introducción de nuevos registros, la modificación de los ya existentes o la anulación de algunos de ellos y en ningún caso se destruyen para volverlos a crear posteriormente. La información que almacenan es muy importante y normalmente se necesita consultar muy a menudo. FICHEROS DE TRABAJO Son ficheros cuya vida es muy corta. Normalmente, como su nombre indica, sirven de trabajo, es decir, de medio para obtener otros ficheros mucho más importantes, como pueden ser los maestros. La información que almacenan es importante, pero solamente durante un corto espacio de tiempo. FICHEROS DE MOVIMIENTOS Son ficheros que pueden ser permanentes, pero que también pueden no serlo. Se trata de ficheros que sufren muchas altas y muy pocas bajas. Normalmente, la información que contienen es información de consulta o información que más tarde será utilizada por otro programa para ayudar en la construcción de otro fichero de movimientos o para actualizar los registros de un fichero maestro. Es decir, que pueden contener informaciones de dos tipos: de consulta y de trabajo. Los que contienen información de consulta, si no sobrepasan la capacidad que tienen asignada, no serán destruidos; pero, si la sobrepasan, serán destruidos para volver a generarlos con nueva información. La vieja información que contenían normalmente se imprime en papel y se guarda archivada en tal papel. Los que contienen información para actualizar otro fichero siempre 26 son destruidos una vez producida tal actualización. Los ficheros también se dividen en tres tipos según la manera en que están organizados sus registros: • Ficheros de organización directa o al azar • Ficheros de organización secuencial • Ficheros de organización secuencial indexada Ficheros de organización directa o al azar Un fichero puede estar ordenada mediante un campo clave presente en cada uno de sus registros para facilitar el acceso a ellos, sin embargo, es importante tener en cuenta que ene este tipo de organización no es necesario que el fichero esté clasificado. Nos encontramos con un fichero de organización directa cuando existe una relación entre las claves de los registros y las posiciones que ocupan éstos dentro del fichero. Estos ficheros, según la forma de acceso a sus registros, se dividen en muchas clases; sin embargo, únicamente describiremos las dos más sencillas y más usadas: • Ficheros de direccionamiento directo • Ficheros de direccionamiento por tabla Ficheros de direccionamiento directo En este tipo de organización, la clave coincide con la posición que ocupa el registro que contiene esta clave dentro del fichero. Es decir, si suponemos como de acceso directo el fichero de artículos descrito anteriormente y utilizamos el campo n de artículos como campo clave, resultará que el registro 1 se corresponderá con el del n de artículo 1, el registro 2 con el N de artículo 2, y así sucesivamente. N de artículo Nombre Registro 1 00001 Tijeras Registro 2 00002 Agujas Registro 3 00003 Dedales Registro 4 00004 Cinta métrica ... para encontrar un registro que contenga un número de artículo determinado, por ejemplo el N 00003, se leerá el registro 3 y se encontrará el registro. Uno de los inconvenientes de esta organización radica en que la clave tiene que ser forzosamente numérica. Ficheros de direccionamiento por tabla En este tipo de organización se construye una tabla a través de la cual se puede acceder directamente al registo del fichero que se desee. El método consiste en asociar cada clave con la posición del registro, que contiene esta clave dentro del fichero, y agrupar todas estas asociaciones en una tabla. 27 Supongamos el ejemplo de la columna siguiente: N artículo Registro 1 00001 Registro 2 01001 Registro 3 01510 Registro 4 00200 Registro 5 10250 Dado este fichero de artículos, para que su organización sea de direccionamiento al azar por tabla habrá que construir una tabla: Direccionamiento al azar por tabla Clave Posición N Artículo 00001 1 00001 00200 4 01001 01001 2 01510 01510 3 00200 10250 5 10250 ... Como vemos en esta tabla, las claves están clasificadas de mayor a menor. Para leer un determinado registro, por ejemplo, el de la clave N artículo 00200, primero se accederá a la primera parte de la tabla para encontrar dicho n de artículo (si están clasificadas, existe métodos para encontrarlo rápidamente). Una vez encontrado, se leerá la posición asociada a tala clave o número, que en este caso será 4. Con esto ya sabremos en que registro se encuentra en N de artículo 00200, con lo que bastará leer tal registro, el número 4. Ficheros de organización secuencial Los ficheros de organización secuencial son aquellos en los que sus registros están almacenados consecutivamente y en el mismo orden en el que se grabaron. Son ficheros en los que la única forma de acceder a ellos es secuencialmente, es decir accediendo al primer registro y después sucesivamente al 2º, 3º, 4º etc. De esta manera, si se quiere acceder a un determinado registro de uno de estos ficheros, la única manera de llegar a él consiste en leer todos los registros, empezando por el 1º hasta dar con el deseado. Como vemos, estos ficheros no sirve como ficheros maestros, sino más bien como ficheros de trabajo, ya que su organización hace que su acceso y actualización sean, en la mayoría de los casos, muy lentas. 28 Normalmente, siempre se suelen tener clasificados, ya que de este modo al acceder secuencialmente a ellos, sabemos que el primer registro contendrá el campo más pequeño o más grande (depende de la clasificación ascendente o descendente) por el que se ha realizado la clasificación, el 2º registro contendrá el segundo campo más grande o más pequeño, etc... Este tipo de ficheros no se utilizan muy a menudo. Fichero de organización secuencial indexada Un fichero de organización secuencial indexada consta de tres áreas: • Un área de índices o claves • Un área de datos • Un área de overflow Área de índices por claves Esta área está compuesta de entradas, cada una de las cuales contiene una clave o índice y una dirección. La descripción detallada de la información que se encuentra en esta área y su organización es muy difícil de explicar; para hacer más fácil la explicación, solamente diremos que contiene información de la clave más alta que hay en cada cilindro y de la clave más alta que hay en cada pista, de tal manera que siempre se sabe, al entrar un nuevo registro o clave, dónde le corresponderá entrar, es decir, en qué cilindro o pista. El manejo de esta área viene soportado por el sistema operativo. Área de datos En esta área se almacenan los registros, es decir, la información más importante. Estos registros se grabarán automáticamente clasificados en orden ascendente de la clave. Esta grabación automática la realiza el propio sistema, porque antes ha pasado por el área de índices y de ahí ha tomado la información que le dice dónde debe grabar el registro para que quede bien clasificado. Lógicamente tanto las operaciones de anulación de un registro como las de lecturas y actualización siguen el mismo camino; una vez especificada la clave que quiere leerse, anularse o actualizarse, el sistema consulta en el área de índices, donde obtiene información física sobre la pista/cilindro en que se encuentra el registro perteneciente a esa clave; a partir de ahí, lo puede anular, leer o modificar. Área de overflow Es posible que en un momento determinado, el espacio físico destinado al área de datos se agote; entonces, para que un usuario no se quede a mitad de trabajo, los registros que deberían grabarse en el área de datos se grabarán en un área del mismo fichero llamada overflow. Esta situación quedará reflejada en el área de índices. Más tarde puede realizarse una reorganización del fichero, con lo cual se consigue dar más espacio al área de datos y trasladas los registros que se encuentran en el área de overflow al lugar que les corresponde en el área de datos. Por lo tanto, vemos que esta área es sólo para uso transitorio, para que el fichero, en un momento determinado, no haga que el programa que lo está utilizando se interrumpa a causa de un error al no haber más espacio en el área de datos. NOCIONES GENERALES SOBRE BASES DE DATOS 29 Un sistema de bases de datos es un sistema computarizado de información para el manejo de datos por medio de paquetes de software llamados sistemas de manejo de bases de datos (DBMS). Los tres componentes principales de un sistema de bases de datos son el hardware, el software DBMS y los datos por manejar. BASE DE DATOS Una base de datos es una colección de archivos interrelacionados creados con un DBMS. El contenido de una base se obtiene combinando datos de todas las diferentes fuentes en una organización, de tal manera que los datos estén disponibles para todos los usuarios, y los datos redundantes puedan eliminarse, o al menos minimizarse. El usuario podrá recobrar datos de varias partes de la base ya que los archivos ahí almacenados, están conectados directa o indirectamente. SISTEMAS DE MANEJO DE BASES DE DATOS Un DBMS es una colección de numerosas rutinas de software interrelacionadas, cada una de las cuales es responsable de alguna tarea específica. Las funciones principales de un DBMS son: • Crear y organizar bases de datos • Establecer y mantener las trayectorias de acceso a la base de datos, de tal manera que los datos en cualquier parte de la base se puedan accesar rápidamente. • Manejar los datos de acuerdo con las peticiones del usuario • Registrar el uso de las bases. El DBMS interpreta y procesa las peticiones del usuario para recobrar información de la base. Las preguntas a la base pueden tener distintas formas, pueden teclearse directamente desde la terminal o codificarse como programas en lenguajes de alto nivel y presentarse para procesamiento interactivo o por lotes. En la mayoría de los casos, una petición de consulta tendrá que atravesar varias capas de software en el DBMS y el sistema operativo antes de que se pueda accesar la base de datos física. El DBMS responde a una pregunta llamando a los subprogramas apropiados, cada uno de los cuales realizará su función especial para interpretar la petición o localizar los datos deseados en la base y presentarlos en el orden solicitado. Así, el DBMS protege a los usuarios de la tediosa programación que tendrían que hacer para organizar el almacenamiento de los datos, o accesarlos una vez almacenados. FORMATO DE REGISTROS Y REPRESENTACIÓN DE CAMPOS FORMATOS DE REGISTROS Los registros lógicos representan la percepción del programador de los datos contenidos en un archivo. Se han usado varios formatos de registro en distintos sistemas de computadoras para facilitar la programación. Un programador puede especificar cualquiera de los formatos disponibles en el sistema cuando se crea algún archivo. Existen tres tipos principales de registros de organización: • Longitud fija, desbloqueado: todos los registros dentro del archivo tienen la misma longitud y cada bloque (o registro físico) contiene un registro lógico • Longitud fija, bloqueado: todos los registros dentro del archivo tienen la misma longitud. Cada bloque que contiene varios registros como el programador los definió y todos los bloques en el archivo tienen la misma longitud. • Longitud variable, desbloqueado: los registros en el archivo son de longitud variable. La longitud del 30 registro (LR) se almacena en un campo de 4 bytes antes del registro lógico, y es igual a la longitud de un registro lógico más 4. La longitud del bloque (LB) se guarda en un campo de 4 bytes, indicando el número de bytes en el bloque incluyéndose a sí mismo. La disposición del área de datos es como sigue: ...LB, LR, Registro, LB, LR... • Longitud variable, bloqueado: este tipo de formato es similar al formato de longitud variable desbloqueado; excepto que cada bloque contiene varios registros de longitud variable. .... LB, LR, Registro, LR, Registro, LR, Registro, LB, LR, Registro... • Indefinidos: este tipo de formatos se usa cuando el formato de registros de algún archivo no corresponde a ninguno de los formatos de registros definidos en el sistema. REPRESENTACIÓN DE LOS CAMPOS Existen cuatro formas diferentes de representar los campos: la posicional, la relacional, la indexada, y la etiquetada. • Posicional: los datos de un registro se almacenan en campos consecutivos de longitud fija en un orden predeterminado. Esta disposición es sencilla de realizar y conveniente para recuperar la información, pero tiene la desventaja de que desperdicia espacio si la información guardada no utiliza todo el espacio definido, quedando éste vacío. • Relacional: esta técnica elimina los espacios desperdiciados mediante el uso de un delimitador que indica el final de un campo. El delimitador debe ser un carácter especial que no se usará en ningún otro sitio en la base de datos. • Indexada: se utilizan aquí señaladores para indicar el principio de cada campo en un registro almacenado. El señalador puede ser una dirección absoluta o relativa. • Etiquetada: cuando un archivo tiene muchos valores por omisión, se puede usar, la técnica etiquetada para almacenar únicamente los valores diferentes a los omitidos. El balance en el diseño de la representación de los campos se encuentra entre la cantidad de espacio de almacenamiento y la velocidad de recuperación, por lo que la elección para el diseño deberá hacerse considerando estos dos parámetros. Ninguna de las disposiciones anteriores es superior a todas las otras si consideramos ambos parámetros. ORGANIZACIÓN DE ARCHIVOS PARA SISTEMAS CONVENCIONALES DE MANEJOS DE DATOS Aquí se usará el manejo de datos de una manera más técnica, nos referimos al uso de procedimientos computarizados para la captura de datos, almacenamiento y procesamiento de la información. El uso de computadoras en el manejo de datos se ha generalizado, desde las grandes corporaciones a los pequeños negocios y aún en el manejo del hogar. Esto se debe principalmente a la reducción del costo de las computadoras y la disponibilidad de software fácil de usar, en donde se puede ver la información en forma de gráficas, mapas y otras imágenes, además del despliegue tradicional de texto y tablas. Es mucho más sencillo desarrollar un sistema de manejo de datos en lenguaje de alto nivel que en algún lenguaje ensamblador; sin embargo, una de las complicaciones que aparecieron en ese período durante el diseño de un sistema de información, fue que el almacenamiento de datos quedaba limitado a dispositivos de almacenamiento secuencial. 31 Comparación del desarrollo del Hardware y del software de los sistemas de manejo de datos Hardware: dispositivos de almacenamiento secundario Años Años setentas Ochenta Principio de los setentas Mediados de los sesentas Cinta magnética Disco magnético Disco magnético Cinta de papel Tambor magnético Tambor magnético Maquina base de datos PC Mainframe COBOL Software FORTRAN Tipo de procesamiento Métodos básicos de FMS acceso del sistema operativo DBMS Interfase PC Base de datos distribuídas Bases de Secuencial Aleatorio Distribuídas datos En la actualidad, los fabricantes de computadoras incluyen como parte del sistema operativo, métodos básicos de acceso secuencial aleatorio. TABLAS DE CONSULTA Una solución sencilla al problema anterior consiste en crear una tabla de consulta, para asociar la clave primaria de cada registro con su dirección relativa correspondiente: Clave Primaria Dirección relativa •3 •8 •2 .. .. .. cuando se trate de recobrar algún registro usando una clave primaria, se buscará en el directorio para localizar la dirección relativa del registro. El problema de este método de conversión clave−dirección es el espacio extra necesario para crear y mantener la tabla en algún orden lógico que facilite la búsqueda. El método se vuelve poco práctico, especialmente cuando un archivo de organización relativa contiene una gran cantidad de registros. ALGORITMO DE CONVERSIÓN CLAVE/DIRECCION Uno de los métodos más conocidos para esta conversión se llama distribución segmentada (HASHING). Los programadores lo usan frecuentemente para obtener acceso directo a un archivo de organización relativa con clave primaria. (Los sistemas operativos también usan la dispersión para procesar archivos de organización 32 directa). En este método, la clave se divide entre un número cercano al número de registros en el archivo, y el residuo de la división se toma como la dirección relativa. Este residuo, más uno se toma como dirección relativa del registros. Este procedimiento conduce frecuentemente a un problema al que se le llama colisión de dispersión. Una colisión o choque de distribución ocurre cuando dos o más claves se transforman a la misma dirección. Aquellas claves que se dispersan en la misma dirección relativa se llaman sinónimas. Para minimizar colisiones, se escoge un divisor que pueda, uniformemente, hacer aleatoria a las claves. En general se recomienda que se escoja como divisor un número primo, si es que el número de espacios de almacenamiento por ocupar no es un número primo. Si ocurre una colisión, el registro de colisión (también llamado registro de sobreflujo, overflow record) se debe guardar en alguna otra parte. Para mantener las colisiones bajo control, es regla general que no esté ocupado más del 60% del espacio del archivo, lo que permitirá mantener el desbordamiento por debajo del 20%. El factor de carga (loading factor) de un archivo se define como la proporción entre el número real de registros almacenados en un archivo y el número máximo de casillas asignadas para el archivo: Factor de carga: número de casillas ocupadas/número máximo de casillas asignadas El porcentaje de desbordamiento crece conforme aumenta el factor de carga Solución del problema de colisión de distribución por medio del direccionamiento abierto Si un registro se lleva − mediante una distribución − a una posición de registro ocupada, la solución más sencilla es efectuar una búsqueda lineal hasta encontrar el sitio libre más cercano, e insertar ahí el registro de sobreflujo. Este método para resolver colisiones por dispersión se llama método de direccionamiento abierto. La localización de una clave primaria en la tabla de dispersión se determina efectuando la función de dispersión al valor de la clave primaria. En la entrada calculada de la tabla de distribución, se escriben el valor de la clave primaria correspondiente y su dirección relativa. Así se crea una tabla mediante la operación de dispersión del valor de la clave primaria de cada registro en el archivo en la posición apropiada en la tabla. Se busca secuencial y descendentemente desde el lugar ocupado hasta que se encuentre uno vacante. Una tabla de distribución segmentada es, en efecto, una tabla de consulta para tener acceso aleatorio a un archivo relativo usando valores de las claves primarias en vez de direcciones relativas. Se compara la clave buscada con el valor de la clave primaria en la segunda entrada de la tabla de dispersión. Como las claves coinciden, el valor 3 de la clave relativa en la misma entrada de la tabla, se usará como dirección relativa para tener acceso al registro correspondiente en el archivo relativo. Las ventajas principales del direccionamiento abierto son su simplicidad en la realización y la proximidad de los registros con sobreflujo con sus bloques iniciales. Como un registro con sobreflujo se guarda en una 33 vecindad de su bloque inicial, el usuario evitará la larga espera en el tiempo de búsqueda del mecanismo de lectura/escritura para llegar al registro desbordado. El mayor inconveniente del direccionamiento abierto es que las colisiones por dispersión pueden ser causadas no sólo por registros con claves sinónimas sino también por sobreflujos indirectos. Un sobreflujo indirecto ocurre cuando un registro, es distribuido a un bloque inicial que ya está ocupado por sobreflujos anteriores. Puede verse que el direccionamiento abierto no resuelve completamente el problema de asignación rápida y sencilla de dirección en un archivo relativo. EL CONCEPTO DEL CUBO Una dirección puede tener un grupo de registros, en este caso el espacio ocupado por los registros se llama cubo. Cada dirección inicial en el área principal de datos puede tener dos registros, lo que significa que el tamaño del cubo es dos. El mérito evidente del uso de cubos para almacenar varios registros en cada dirección, es que los desbordamientos directos o indirectos se pueden minimizar. Como quiera que sea, el reservar gran cantidad de espacio para registros desbordados puede ser un desperdicio si no ocurre ninguna colisión. Los registros desbordados caen sucesivamente ya sea en una parte reservada del mismo archivo o en un archivo totalmente distinto. ENCADENAMIENTO POR SEPARADO Con esta técnica, se crea una lista de los registros con sobreflujo en el área separada de sobreflujo. Los registros en ésta área se pueden localizar siguiendo una cadena apropiada hasta encontrar su extremo final. Un apuntador nulo significa que es el final de la cadena (esta técnica de encadenamiento es análoga al tratamiento de ISAM de los registros desbordados, el cual describirá más adelante) ORGANIZACIÓN DIRECTA DE ARCHIVOS Con la organización directa de archivos, el sistema operativo efectúa la distribución automáticamente con una rutina ya incluida en él, para determinar las direcciones físicas de los registros por guardar. Sin embargo, el usuario también puede proporcionar su propia rutina de distribución. Un registro se almacena en un archivo directo mediante la dispersión de su clave primaria para asignarle un bloque inicial. El sistema operativo puede usar cubos y encadenamiento para el control de desbordamientos de manera similar a como se usa en archivos relativos. Los registros en un archivo de organización directa se guardan en bloques sin ninguna secuencia lógica aparente, como es el caso de los archivos relativos. La diferencia entre las organizaciones de archivos directa y relativa es que el usuario efectúa la distribución en un archivo relativo, vía una clave primaria. En otras palabras, el usuario debe proporcionar el número del registro relativo del registro deseado antes de que el acceso directo pueda llevarse a cabo. Comparando, en sistemas directos, la dispersión se efectúa automáticamente. El sistema localiza y recupera el registro deseado con el número de cuenta dado. El punto principal por notar es que la dispersión es enteramente transparente para el usuario. Distribución de archivos directos: cuando se accesa un archivo directo, un algoritmo de distribución transforma la clave de búsqueda del registro objetivo en el número de bloque donde el registro reside. Un registro puede localizarse con un solo acceso al disco si es que no ocurre alguna colisión. Por tanto, los archivos directos son convenientes para aplicaciones que requieren de un rápido acceso directo. Sin embargo, el procesamiento secuencial en un archivo directo es lento, porque cada registro en el archivo se localiza por 34 medio de la distribución, en vez de hacerlo por su cercanía física. Estructura de cubo inicial: un archivo directo soportado por el método de acceso avanzado del Cyber Record Manager, consiste en un número específico de bloques iniciales. Los registros en un archivo directo se dispersan en cubos iniciales de longitud fija, llamados bloques iniciales. El programador define el tamaño y la cantidad de cubos al crear el archivo. El encabezado es seguido por el número de registros, los que pueden ser de longitud fija o variable. Los registros de datos en un bloque se guardan vía distribución y no se mantiene ningún orden lógico. Cada señalador al final del bloque apunta a la dirección inicial del registro de datos en ese bloque. Los bloques de sobreflujo son del mismo tamaño que los bloques iniciales. Todos los bloques de sobreflujo del mismo bloque inicial se encadenan y el primer bloque de sobreflujo queda indicado por un señalador en el encabezado del bloque inicial. VENTAJAS Y DESVENTAJAS DE LA ORGANIZACIÓN DIRECTA DE ARCHIVOS El principal atractivo de usar la organización directa, es que cualquier registro puede recuperarse por un solo acceso de Entrada/Salida a disco, siempre y cuando no ocurra ninguna colisión. Sin embargo, el desempeño en el acceso se deteriora conforme los registros desbordados construyen gradualmente largas cadenas en el área de sobreflujo. Los archivos directos pueden requerir de una reorganización constante para incorporar los registros desbordados hacia el área principal para asegurar una buena eficiencia. Un programador debe determinar periódicamente en número promedio de operaciones de E/S por transacción, para decidir cuando es necesaria una reorganización del archivo directo. Además de los problemas del manejo de los registros de desbordamiento, los archivos directos tienen generalmente un uso pobre del espacio, debido a que el factor de carga debe mantenerse a un nivel bajo para controlar los sobreflujos. ORGANIZACIÓN SECUENCIAL INDEXADA DE LOS ARCHIVOS Los registros en un archivo secuencial indexado se guardan en unidades de almacenamiento de acceso directo, de acuerdo con el oren lógico de las claves primarias. Un archivos secuencial indexado se puede procesar, ya sea secuencialmente como cualquier archivos secuencial o aleatoriamente (vía el índice) especificando el valor de la clave primaria del registro objetivo. Esta organización de archivos es, por lo tanto, conveniente para aplicaciones en las cuales se necesitan tanto el procesamiento por lotes como el acceso directo a registros. ESTRUCTURA BASICA DE LOS ARCHIVOS Los registros en un archivo secuencial indexado se agrupan en bloques de longitud fija. Cada registro está identificado por su clave primaria o principal. La secuencia física del archivo va en orden ascendente, de acuerdo con la clave primaria. INDICES SIMPLES Y DE NIVELES MULTIPLES Para establecer las trayectorias de datos para el acceso aleatorio en un archivo secuencial indexado, se crea una tabla de consulta llamada directorio o bien ,un índice. Las entradas del índice contienen sólo algunas claves representativas, es decir, no incluyen todas las claves primarias de todos los registros. Cada entrada del directorio está formada por la calve más grande en el bloque y la dirección del primer registro en el bloque. Un archivo de índices puede ser un archivo grande por sí solo. Las entradas en el índice se agrupan en bloques 35 y se puede crear un índice de segundo nivel para proporcionar trayectorias de acceso al índice del primer nivel. El número de registros en un bloque de índices puede o no ser el mismo que el número de registros en un bloque de índices de datos correspondiente. Cada entrada en el índice de segundo nivel contiene la clave mayor del bloque en el índice de primer nivel y un apuntador hacia la primera clave del bloque. El método de acceso establece un índice cuando se crea un archivo secuencial indexado. Para el acces o aleatorio de un registro, dada su clave, se busca el índice para encontrar la dirección del bloque en que se encuentra el registro. La figura muestra un ejemplo para recobrar un registro con clave 210. Para encontrar la dirección del bloque inicial que contiene el registro, se busca el índice de segundo nivel, empezando por la primera entradad hasta encontrar aquella que contenga una clave mayor o igual que la buscada. Pueden crearse índices de tres o más niveles si el de segundo nivel se hace muy largo para ser analizado secuencialmente. Así un índice grande puede disponerse en estructura de árbol para una búsqueda más rápida. Dos tipos comunes de estructuras indexadas de varios niveles son el árbol balanceado y el árbol−B. El método de acceso secuencia indexado (ISAM) de IBM es un ejemplo de un árbol balanceado, mientras que el índice de método de acceso de almacenamiento virtual (VSAM) de IBM también es una forma adaptada de un árbol−B. ARBOL BALANCEADO/ARBOLB Un ejemplo de un árbol balanceado de nivel 2 es en el cual un número de entradas de cada bloque se mantiene constante. La estructura de árbol−B fue diseñada como una mejora del árbol balanceado. No es necesario que cada bloque en un árbol−B contenga el mismo número de claves. El orden N de un árbol−B es igual al máximo número de claves por bloque más uno. Los árboles−B tienen la propiedad especial de que el número de apuntadores de un bloque de índices es igual al número de claves en el bloque más uno. Una de las ventajas del árbol−B sobre el árbol balanceado es que el árbol−B es lo suficientemente flexible como para acomodar inserciones de claves nuevas. RELLENOS DE BLOQUES DE DATOS Boque de datos de un archivo secuencial indexado, creado por el método de acceso avanzado: cada bloque de datos contiene un encabezado, registros, relleno, y señaladores de registro. Para registros de longitud variable, es necesario un señalador de registro para cada registro en el bloque. Si los registros son de longitud fija, sólo se necesita un señalador por bloque. Los registros están clasificados en orden ascendente por clave primaria. Para reducir el número de registros con sobreflujo, a cada bloque se le puede proporcionar espacio de relleno para acomodar registros insertados posteriormente. Cuando se crea un archivo, el programador puede especificar el porcentaje de espacio de relleno para los bloques de datos y de los índices, basándose en la expansión esperada del archivo. Sólo hay un apuntador porque las entradas para las claves son de longitud fija. Cada entrada para clave contiene la clave primaria del primer registro que se encuentra en un bloque de datos al siguiente nivel inferior, y un apuntador hacia ese bloque. MÉTODO DE ACCESO SECUENCIAL INDEXADO (ISAM) El método de acceso secuencial indexado, comúnmente llamado ISAM es un método de acceso de IBM. Con ISAM las direcciones físicas se expresan en términos de pistas y cilindros. BLOQUES DE DATOS DE ISAM 36 En ISAM, una pista es equivalente a un bloque de datos. Los registros en un archivo ISAM se almacenan en una pista uno detrás de otro, en orden ascendente por la clave primaria hasta que la pista está totalmente ocupada. Los registros subsecuentes se mandan a la siguiente pista del mismo cilindro, de manera que no es necesario el movimiento del brazo de lectura/escritura; esto es , no habrá retraso en el tiempo de búsqueda. Cuando se llena el cilindro, la grabación se inicia en el siguiente cilindro. Dependiendo de las especificiaciones del archivo, los registros desbordados se colocan en pistas de sobreflujo designadas en el mismo cilindro o en un área de sobreflujo en algún otro cilindro. INDICE DE PISTAS Cada cilindro tiene un índice de pistas para indicar la clave más alta que se encuentra en cada pista del cilindro. Las entradas en un índice de pistas son de dos dipos: Normal y Overflow. Cuando no existe registro desbordado en alguna pista, las entradas normal y desbordada correspondientes contienen el mismo valor. Se examinará ahora como se reflejan en el índice de pistas las entradas de registros en el área de sobreflujo: la clave más grande de cada pista se guarda en un índice de pistas. Cada entrada en el índice consiste en un componente normal y uno de sobreflujo. Ambas contienen el mismo valor si es que no han ocurrido sobreflujos en la pista. Inserción de registros en un archivo ISAM: la pista principal se reorganiza para mantener la misma secuencia física y lógica. La entrada de sobreflujo de un índice de pistas contiene la clave mayor del registro con sobreflujo de una pista inicial, y un apuntador al primer registro con sobreflujo con la menor clave de esa pista inicial. Los registros rebasados de distintas pistas se pueden entremezclar en un área de sobreflujo. INDICE PRINCIPAL Y DE CILINDRO En una estructura de varios niveles de índices ISAM, en índice del cilindro está en un nivel superior respecto al índice de pistas. Para cada índice de pistas hay una entrada en el índice del cilindro. Si los datos son almacenados en N cilindros, habrá N índices de pistas y N entradas en el índice del cilindro. Cuando el archivo es muy grande, el índice del cilindro puede ocupar varias pistas. Para esto, ISAM crea un índice principal o maestro además del índice del cilindro. El índice principal puede contener hasta tres niveles. REORGANIZACIÓN DE UN ARCHIVO ISAM Cuando se agrega un registro a un archivo ISAM, la pista principal donde se inserta el registro, se reorganiza para darle espacio al nuevo registro. Mientras tanto, se remueve y agrega el último registro de la pista en el área de desborde. Si el archivo ISAM es volátil, se agregarán al área de desborde largas listas de registros con sobreflujo dando como resultado la degradación en la rapidez de acceso al archivo. Esta debilidad es evidente sise le compara con una libreta de direcciones. Supóngase que las páginas asociadas a ciertas letras del alfabeto están llenas. Si se trata de agregar nombres con inicial igual a alguna de tales letras, se tendría que hacer en una segunda libreta. Eventualmente, estos nombres con sobreflujo pueden ser más que aquellos de la libreta original. En algún momento se desearía conseguir una nueva libreta más grande y ahí conciliar dos listas para no tener que buscar en dos libretas por separado cada vez que se desea llamar a alguien. Análogamente, un archivo ISAM debe reorganizarse de vez en cuando para incorporar los registros con sobreflujo en el área principal de datos. Otro beneficio de la reorganización, es que se puede reutilizar el espacio que se ha dejado libre al borrar 37 registros. Un registro en un archivo ISAM se borra marcándolo con FF en el primer byte del registro, pero los registros borrados no son eliminados físicamente del archivo. Es posible reorganizar un archivo ISAM leyéndolo secuencialmente (los registros marcados con FF se saltan automáticamente) para crear un archivo secuencial temporal, que se usa entonces como archivo de ingresos para recrear un nuevo archivo ISAM y sus índices necesarios. MÉTODO DE ACCESO DE ALMACENAMIENTO VIRTUAL (VSAM) El VSAM pretendía reemplazar a sus sistemas de archivos secuenciales, secuenciales indexados y relativos. Hay tres tipos de archivos VSAM: ♦ Archivos secuenciales por clave para una organización de archivos secuenciales indexados. ♦ Archivos de entrada secuenciales para una organización de archivos secuenciales ♦ Archivos de registro relativos para una organización de archivos relativos. Los registros en un archivo VSAM se direccionan internamente no por sus direcciones físicas, sino por medio de sus desplazamientos relativos desde el origen del archivo. Por lo tanto, los archivos VSAM alcanzan cierto grado de independencia del dispositivo donde se almacenan. Los bloques en un sistema VSAM se llaman intervalos de control. Un intervalo de control es un área contigua de almacenamiento con longitud fija. Representa un registro físico, que es una unidad de transferencia entre la memoria y el almacenamiento externo. Un archivo VSAM consta de diversos intervalos de control. El tamaño de un intervalo de control varía de archivo a archivo y es independiente de las unidades de almacenamiento. El tamaño de los intervalos de control se puede asignar ya sea por el usuario o por el sistema, basándose en el tamaño lógico del registro, el tamaño del depósito de transferencia y el tipo de dispositivo. Los registros de un archivo secuenciado por clave o secuenciado por entrada pueden ser de longitud fija o variable, pero los de un archivo relativo deben ser de longitud fija. La longitud de cada registro se guarda en un campo de definición apropiado y la longitud y posición del espacio libre se guarda en un campo de definición de información de control. Los intervalos de control se agrupa n en área de control. El VSAM determina el número de intervalos de control en cada área. Los registros en un intervalo de control se clasifican en orden ascendente conforme a la clave primaria, aunque el orden de la clasificación no se mantiene en toda un área de control. ARCHIVOS VSAM SECUENCIADOS POR CLAVE Es adecuado tanto para el proceso secuencial como para el de acceso aleatorio. A diferencia de los archivos ISAM, en donde un bloque está restringido a una psita única, el tamaño de un intervalo de control puede ser especificado por el usuario sin importar el tipo de dispositivo de almacenamiento. Los registros dentro de un intervalo de control se almacenan en orden descendente de la clave del registro. Cada área de control contiene varios intervalos de control y algo de espacio libre. El índice de un archivo VSAm secuenciado por clave consisten de un conjunto secuencia y un conjunto índice. El índice de nivel más bajo se llama el conjunto secuencial. Cada entrada de un conjunto secuencia contiene la clave mayour en un intervalo de control y un apuntador al inicio del intervalo. El conjunto secuencia corresponde al índice de pistas de los archivos ISAM. Los índices de alto nivel, llamados colectivamente conjuntos de índices son instalados por VSAM para facilitar la búsqueda de un conjunto de índices consiste en la clave mayor de un registro de índice en el nivel inferior siguiente y en un apuntador al principio de ese registro índice. El objeto de crear un conjunto de índices es facilitar la búsqueda del conjunto secuencial. Durante el proceso de carga inicial, se reserva espacio libre para cada intervalo de control y algunos de estos 38 intervalos se dejan enteramente libres dentro de un área de control para colocar futuras inserciones de registros de datos. Sin embargo, si un registro está por ser insertado de un intervalo de control en donde no hay espacio libre, ese intervalo se separará. La secuencia lógica de los intervalos de control, dentro de un área de control, se mantiene por medio de apuntadores en el conjunto secuencia. El uso de los conjuntos secuencicales permite la flexibilidad de mover intervalos de control a cualquier parte dentro del área mientras se mantiene la secuencia lógica d los registros de datos. Un archivo VSAM se puede expandir sin crear registros de sobreflujo, porque los nuevos registros siempre se pueden incorporar en el archivo VSAM separando intervalos y área de control. Así el tiempo de acceso para los registros recién insertados es el mismo que para otros. En el caso de ISAM, las inserciones agrupadas dan lugar a largas cadenas de registros desbordados, dando como resultado una degradación en el tiempo de recuperación. El uso del espacio libre distribuido en VSAM necesita mayor disponibilidad de espacio de almacenamiento, pero el costo del espacio extra para almacenamiento se compensa por la rapidez de acceso. Además, la reorganización de archivos, requerida por ISAM, ya no se necesita. ARCHIVOS VSAM SECUENCIADOS POR ENTRADA En este tipo de archivo VSAM, los registros se cargan en forma seriada en intervalos de control, como en un archivo secuencial. VSAM no mantiene ningún orden lógico en particular ni crea índices asociados con el archivo. PROCESAMIENTO DE DIVERSAS ESTRUCTURAS DE ARCHIVOS RESPALDADAS POR LOS MÉTODOS BÁSICOS DE ACCESO En el caso de un archivo secuencial el método de acceso hace uso del depósito de transferencia y del bloqueo−desbloqueo para la conversión entre los registros físicos y los lógicos. Ya que el compilador es capaz de traducir proposiciones estándar de E/S en las llamadas CALL apropiadas para rutinas en los métodos de acceso, la técnica de direccionamiento y la creación y mantenimiento de la trayectoria de datos son transparentes para el usuario. Así, es posible incluir proposiciones estándar de E/S en lenguajes de alto nivel para crear y procesar archivos de diferentes organizaciones por los métodos básicos de acceso sin el conocimiento de los mismos. SISTEMAS DE MANEJO DE ARCHIVOS Sistemas de manejo de archivos (File Management Systems, FMS): se asemeja a uno de manejo de base de datos (DBMS) en que se pueden desarrollar aplicaciones sin necesidad de escribir programas en lenguajes de alto nivel. De hecho, los FMS son anteriores a los DBMS y usan los métodos básicos de acceso como su principal característica en el manejo de datos. Los FMS se desarrollaron a finales de los años sesentas como resultado de la creciente demanda de un software eficiente y sencillo para el procesamiento de información. Aunque se puede establecer un sistema de información usando un lenguaje de alto nivel, hay algunas desventajas al hacerlo así: ♦ Altos costos del software: pueden requerirse meses y a veces años de esfuerzo de programadores expertos antes de desarrollar un sistema convencional de información; por lo tanto, su costo puede ser muy elevado. ♦ Poca eficiencia en las consultas. El acceso aleatorio en un archivo solo puede efectuarse usando valores de claves únicas. La programación de consultas en línea usando claves múltiples muy tediosas. Por ello se desarrolló el FMS, para proporcionar a los usuarios un lenguaje efectivo de cuarta generación para 39 realizar recuperaciones usando claves múltiples, mejorando así la productividad del programador. QUE ES UN FMS? Consiste en varios programas de aplicación. Permite escribir programas con un lenguaje simple de cuarta generación para alcanzar el mismo resultado que el que se obtendría usando un largo programa convencional. El objetivo de un FMS no es sólo incrementar la productividad de los programadores sino también proporcionar a los usuarios finales, sin experiencia en programación, la capacidad de desarrollar consultas con un lenguaje especial. Por ejemplo el RPG (Report Program Generator) se usa para generar reportes rutinarios de negocios. El usuario define los campos de entrada llenando una forma de especificaciones. Análogamente se puede especificar el formato de salida llenado otra forma de especificación de salida. El paquete es relativamente fácil de aprender y de usar. LIMITACIONES DE LOS FMS Si un programa en FMS puede tomar menos tiempo de ejecución que uno equivalente escrito en lenguaje de alto nivel porque los algoritmos de clasificación , mezcla y generador de reportes han sido optimizados por el FMS. Sin embargo, el manejo de matrices y las operaciones aritméticas complejas no pueden manejarse fácilmente con el FMS. Otra limitación es que el manejo de los datos queda restringido a los métodos básicos de acceso; los archivos no quedan ligados física o lógicamente, para facilitar las consultas de claves múltiples en archivos múltiples. Aún cuando un FMS es un herramienta poderosa y fácil de usar para generar reportes, no reemplaza a los lenguajes de alto nivel ni puede efectuar recuperaciones complejas de información como lo hacen los sistemas de manejo de bases de datos. ORGANIZACIÓN DE ARCHIVOS DE ALTO NIVEL PARA DBMS INTRODUCCIÓN Los programas desarrollados en lenguajes de alto nivel dependen de los métodos básicos de acceso del sistema operativo para manejar operaciones de E/S de datos. Sin embargo, las organizaciones de archivos creadas por los métodos básicos de acceso del sistema operativo, se limitan sólo a las recuperaciones por medio de clave primaria, esto es, el acceso aleatorio de un registro puede lograrse sólo cuando se conoce el valor de su clave primaria. En circunstancias normales, las consultas en una base de datos rara vez se basan en los valores de la clave primaria, porque estos valores están representados frecuentemente por números de serie únicos, que son difíciles de recordar. Los tipos de búsqueda más comunes utilizados para la recuperación de información son: • Recuperación basada en la clave primaria • Recuperación basada en clave secundaria • Recuperación basada en claves múltiples RECUPERACIÓN BASADA EN CLAVE PRIMARIA Este tipo de búsqueda recupera un registro de un archivo basándose en el valor de la clave primaria. RECUPERACIÓN BASADA EN CLAVE SECUNDARIA 40 Esta se refiere a la recuperación de registros basándose en un valor de un campo designado como secundario. Cualquier campo de datos puede designarse como campo de clave secundaria. La recuperación con un valor de clave secundaria no es una característica normal de los lenguajes de alto nivel. Puede llevarse a cabo con estos lenguajes sólo si los métodos básicos de acceso lo facilitan y si es compilador puede comunicarse en interfase con estos elementos. En vista de que más de un registro puede contener un valor dado de la clave secundaria, persiste el problema de la recuperación de los registros apropiados. Existen tres tipos distintos de recuperación sobre la clave secundaria: • Recuperación por clave única • Recuperación basada en un rango de valores de clave • Recuperación de claves múltiples Las recuperaciones basadas en claves múltiples son esenciales en las consultas de bases de datos. Una organización de alto de nivel diseñada para facilitar recuperaciones sobre claves secundarias y en particular, sobre claves múltiples para aplicaciones en bases de datos, se describe en las siguientes secciones. RECUPERACIÓN BASADA EN CLAVES MULTIPLES Una consulta de claves múltiples especifica más de una clave de búsqueda en la condición de consulta. Las consultas de claves múltiples como la anterior, son las más comunes en las recuperaciones en bases de datos, donde las condiciones de búsqueda no se restringen a un solo valor de la clave principal. Pero las recuperaciones en claves múltiples, aún con lenguajes de alto nivel con la capacidad para recuperaciones de clave secundaria, no pueden manejarse sin algún esfuerzo de programación. Uno de los motivos principales para el desarrollo de sistemas sofisticados de manejo de bases de datos fue la necesidad de l software sencillo de usar que permitiera efectuar consultas sobre claves múltiples, de tal manera que el usuario pudiera recuperar datos sin necesidad de demasiada programación. Las organizaciones de archivos estudiadas anteriormente (secuencial, directa, relativa os secuencial indexada) no son adecuadas para las recuperaciones sobre la clave secundaria. En contraste, un DBMS totalmente desarrollado, proporciona facilidades para establecer organizaciones de archivos de alto nivel para consultas de claves múltiples en uno o varios archivos. Una organización de alto nivel se llama a veces organización de archivos secundaria porque generalmente está construida sobre los métodos básicos de acceso. Un DBMS puede tener integrados sus propios métodos de acceso para crear bases de datos con organizaciones de alto nivel, pero también puede utilizar los métodos básicos de acceso del sistema operativo y otros componentes del subsistema de E/S para efectuar el manejo de datos. Las estructuras de alto nivel usadas comúnmente por los DBMS son: • Organización inversa de archivos • Organización multilista de archivos • Organización multianillo de archivos 41 FLUJO DE DATOS PARA CONSULTAS DE CLAVES MÚLTIPLES Un sistema DBMS establece trayectorias de datos para consultas basadas en una organización de alto nivel de archivo, la cual a su vez, llama a rutinas de los métodos básicos de acceso del sistema operativo antes de que ocurra la transferencia de los datos. ORGANIZACIÓN INVERSA DE ARCHIVOS En un archivo inverso, se crea un índice, para un archivo directo o secuencial indexado basado en los valores de los campos clave−secundaria. Todo índice contiene un valor clave−secundaria y señaladores hacia las direcciones de los registros que contienen el valor de la clave secundaria. Esto es similar l índice de un archivo secuencial indexado en el que cada valor de la clave principal se asocia con la dirección del registro. Sin embargo, un valor de una clave secundaria puede estar asociado con más de una dirección de registro. Se usan ambos tipos de índices para la búsqueda de direcciones de los registros objeto por medio de un solo valor de clave. TIPOS DE ÍNDICES El campo clave−secundaria sobre el cual se crea un índice se llama clave inversa o clave indexada. Se dice entonces que el campo es inverso para la recuperación por clave secundaria. 42 Cada entrada del índice valor clave consiste en un valor de clave secundaria y en un conjunto de señaladores a los registros de datos. Un señalador puede contener una dirección relativa, una dirección física o una clave principal de los registros objetos. DIRECCIÓN RELATIVA El campo señalador en el índice valor clave de la figura 3.5 contiene direcciones relativas. SEÑALADOR SIMBÓLICO Un señalador simbólico es un identificador de registro, pero no una dirección de registros. DIRECCIÓN FÍSICA El campo señalador puede contener direcciones físicas, las cuales pueden usarse para accesar registros directamente sin necesidad de traducir la dirección. Sin embargo, la mayor desventaja del uso de las direcciones reales, es que los valores del señalador dependen entonces del dispositivo. Por ejemplo, hay que recrear un índice si los datos del archivo emigran de un disco a otro. MANEJO DE ÍNDICES Cada vez que se inserta, borra o actualiza un registro, las entradas afectadas de un índice deben ser modificadas por el sistema para que así, el índice pueda proporcionar las trayectoria de datos correctas. Inserción: si se va a agregar datos, se debe modificar el índice valor−clave para incorporar los valores insertados en los campos clave inversa. Eliminación: Si se va a eliminar un registro de un archivo, cada señalador dirigido a este registro se debe borrar. La dirección relativa del registro eliminado, se ha quitado de las entradas antes indexadas. Un registro eliminado se marca como tal, pero no se le remueve físicamente del archivo de datos. Sin embargo, las entradas afectadas en el índice también se deben actualizar porque algunas consultas se responden solamente barriendo el directorio. Estableciendo un índice: una de las complicaciones en la implantación y mantenimiento de un índice inverso es que las entradas del índice son de longitud variable. Si se crea un archivo índice que contenga solo registros de longitud fija, el tamaño del registro debe ser lo suficientemente grande como para que quepa el máximo número de señaladores en una entrada de índice. Consecuentemente, se desperdiciará sólo un número pequeño de señaladores. Más aún, las inserciones de nuevos registros pueden requerir la inserción de nuevos señaladores en lagunas campos. Es difícil predecir el número máximo de señaladores que se necesitarán en el campo señalador. Además, muchos compiladores pueden manejar sólo registros de longitud fija en archivos secuenciales indexados o en archivos dirigidos. En este caso, el índice inverso debe implementarse como registros de longitud fija. Como en otras decisiones de implementación, deben hacerse concesiones entre flexibilidad y espacio desperdiciado. Para convertir el archivo índice en registros de longitud fija, se asignan tres espacios de señalador para cada registro de índice y una bandera para indicar es que vienen más señaladores en el siguiente registro indice. Para la creación de una organización inversa de archivos se requiere de los siguientes requisitos principales: • Espacio de almacenamiento extra para índices 43 • Mantenimiento de los índices cuando se efectúen las operaciones de inserción, borrado o actualización en el archivo. Un archivo índice por sí solo puede ser tan grande como uno de datos si involucra un alto grado de inversión. Por tanto, no deben crearse índices para campos de datos que tengan posibilidad de uso en condiciones de búsqueda. Muchos DBMS permiten al usuario escoger campos clave−secundaria para la inversión. La elección de campos por invertir depende de su posible uso en alguna condición de búsqueda. Si el campo no es inverso pero se usa para búsqueda, el DBMS buscará secuencialmente el archivo hasta encontrar el registro deseado. Por lo tanto, antes de invertir un campo, debe compararse la eficiencia en el acceso con el costo extra de crear y mantener los índices. CONSULTA SOBRE CLAVES MÚLTIPLES EN UN ARCHIVO INVERSO En consultas sobre claves múltiples, distintas condiciones son conjuntadas mediante el uso de operaciones relacionales. Si las condiciones de búsqueda se unen con OR en lugar de AND, el resultado final será la unión de todos los registros que satisfagan una o ambas condiciones. ORGANIZACIÓN MULTILISTA DE ARCHIVOS Su implantación es más sencilla que la de un archivo inverso porque sus registros índices son de longitud fija en vez de variable. Sin embargo, un archivo multilista es menos eficaz que un archivo inverso para las recuperaciones. Básicamente, una estructura multilista consiste en diversas listas entrelazadas entre sí. ESTRUCTURA DE LISTA ENLAZADA Una estructura de lista enlazada consisten en una lista de registros o datos ligados entre sí por medio de señaladores. Los registros están aleatoriamente dispersos en una unidad de almacenamiento; ya que el sistema guardará registros en cualquier espacio libre, su secuencia lógica se mantiene por medio de señaladores. Esto contrasta con lo que sucede en un archivo secuencial, en el cual la secuencia lineal lógica coincide con la contigüidad física de los registros. Cada registro en una estructura de lista enlazada incluye un campo señalador dirigido al siguiente registro en la secuencia lógica. Una lista enlazada es una estructura práctica para el mantenimiento de la secuencia lógica de un archivo en el que se efectúan frecuentes operaciones de actualización. La inserción y la eliminación se llevan a cabo sin necesidad de reorganizar el archivo. 44 Inserción: Cuando se va a insertar un registro en una lista enlazada, éste puede insertarse en cualquier espacio libre del archivo. Sin embargo, los señaladores de los nodos (registros) afectados, deben ajustarse para que reflejen la secuencia lógica deseada. Eliminación: Se elimina un registro de la lista enlazada cuando éste queda desconectado del enlace. En una estructura de lista enlazada, un campo señalador está dentro de cada registro señalando al siguiente registro en la secuencia lógica. La flexibilidad en la inserción o eliminación de registros compensa la mayor necesidad de almacenamiento extra y el trabajo de mantener el sistema de señaladores. UNA ESTRUCTURA MULTILISTA Una multilista también se llama lista con enlaces múltiples. Cada lista enlazada en una multilista se establece con base en un valor de clave en un campo clave. Una entrada de índice incluye tres campos: • Un valor de clave secundaria • Un señalador hacia el primer registro en una lista enlazada cuyos miembros contienen el mismo valor asociado de clave secundaria. • Un contador de campos para indicar el número de registros en la lista enlazada. Cada entrada en una estructura multilista tiene sólo un valor de señalador orientado hacia el principio de la lista enlazada. El campo señalador dentro de cada registro se usa para encadenar registros con el mismo valor clave−secundaria en una lista enlazada. El final de la lista enlazada queda señalado por un caracter especial, #. Se establece una lista enlazada para cada valor clave−secundaria. En una organización multilista, puede establecerse un índice para más de un campo clave−secundaria. Sólo un valor del señalador está contenido en un índice de la organización multilista, y está dirigido al primer registro en una lista enlazada. En contraste, en un archivo inverso, el campo señalador de un índice incluye las direcciones de todos los registros que contienen el mismo valor clave−secundaria. El índice en un archivo inverso es de longitud variable debido a que hay un número variable de señaladores implícitos en el índice 45 mismo. Por otro lado, el índice de un archivo multilista es de longitud fija, por el hecho que cada campo señalador contiene un solo señalador. En un índice multilista se incluye un campo contador para llevar nota del número de registros en una lista enlazada. El campo contador se usa para procesar consultas conjuntivas, las cuales se analizarán más adelante. EXAMINANDO UNA MULTILISTA PARA CONSULTAS EN CLAVES MÚLTIPLES Aunque una organización multilista es satisfactoria para recuperaciones sobre la clave secundaria con un solo valor clave, resulta ineficiente para consultas que llevan más de una clave. Condiciones de consulta unidas por AND: una consulta conjuntiva une condiciones de consulta por medio de un operador relacional AND. Condiciones de consulta unidas por OR: una consulta disyuntiva une las condiciones de consulta por medio de un operador OR. Para evitar respuestas duplicadas en las consultas disyuntivas, se crea una tabla interna de referencia para tomar en cuenta los registros que ya han sido procesados. El objeto es responder correctamente a una consulta en un número mínimo de accesos E/S sin dar respuestas duplicadas. Si la condición de la consulta involucra N claves indexadas (clave1, clave2, ) habrá entonces N listas por recorrer. La travesía se inicia con el acceso de todos los registros de la lista uno. Cuando se lee cada uno, se examina el contenido de los campos. Si cualquiera de estos campos clave del registro en uso contiene un valor de clave que coincide con el valor especificado por la condición de consulta, la dirección del registro y el contenido del campo señalador correspondiente serán registrados en al tabla de referencia. Así la tabla de referencia contendrá una dirección de registro y un señalador para cada una de las listas. Antes de accesar un registro de la lista1, se compara su dirección con los datos en el campo dirección−de−registro de la tabla de referencia. Si no coincide con ninguna otra, el registro se recupera y nuevamente, se examina su contenido en los campos clave1 ... para una posible coincidencia entre estos campos clave y los valores correspondientes en las condiciones de búsqueda. Si se encuentra una coincidencia, la dirección del registro en uso y el contenido del campo señalador correspondiente del registro se registrarán en los campos señaladores apropiados en la tabla de referencia. Por otro lado, si la dirección del siguiente registro por ser recuperado coincide con un valor del campo dirección−de−registro de la tabla de referencia, el registro se pasará por alto. La travesía termina cuando se ha analizado totalmente la lista claveN. También pueden efectuarse consultas disyuntivas en multilistas por medio de la travesía paralela de las listas en cuestión. El algoritmo requiere que los registros en una lista individual se enlacen en orden ascendente a sus direcciones. Para empezar, los señaladores iniciales de ambas listas entra n en un conjunto para su comparación. El registro recuperable es el que tiene el índice de menor dirección relativa en el conjunto. Una vez recuperado, el valor mínimo del conjunto será reemplazado con el contenido del campo señalador correspondiente en el registro recuperado. Un nodo en el archivo representa un registro, mientras que la etiqueta numérica de un nodo representa una dirección relativa. Los registros de cada lista contiene el mismo valor en una clave inversa particular. ACTUALIZACIÓN DE MULTILISTA 46 Los registros en cada sublista de una multilista pueden o no estar ordenados. En una lista sin orden, se puede insertar un registro al principio de la lista sin recorrer la misma. Las listas de este tipo se pueden reorganizar periódicamente. Por otro lado, la inserción de un registro en una lista ordenada requiere la revisión de toda la lista para que el registro quede insertado en la secuencia lógica apropiada. Una lista enlazada es una estructura flexible para la inserción y eliminación de registros, por lo tanto, la actualización de un archivo multilista ordenado se consigue casi directamente. Las operaciones de inserción y eliminación en una multilista involucran las operaciones estándar de ajuste de los señaladores afectados. Las entradas de índices se modifican sólo cuando ocurre alguna de las siguientes condiciones: • Se actualiza un registro con un nuevo valor clave que no existen en la entrada del índice. • Un registro insertado contiene uno o más valores clave nuevos • Está por insertarse un registro nuevo a la cabeza de una lista • Se borra un registro del principio de la lista. MULTILISTA CELULARES Para evitar una larga búsqueda secuencial en extensas listas enlazadas, se establece una multilista cecluar. En una organización, multilista celular las listas largas se dividen en segmentos, cada uno limitado dentro de una frontera física. Tal división de listas elnazadas evita retrasos prolongados ocasionados por el tiempo de búsqueda cuando la cabeza de lectura/escritura accesa datos de varias zonas físicas. Una zona física puede ser una pista, cilindro o disco. Una multilista celular es una relación entre un archivo inverso y un archivo multilista. Si cada sublista en una zona física contiene solo un registro, entonces el índice de la multilista celular se asemeja al índice para el archivo inverso correspondiente, excepto que este último no requiere de campo contador para enlistar las longitudes. Para consultas sobre claves múltiples, la zona física que contiene los registros objetivo puede localizarse directamente desde el índice clave−secundaria. Ya que los registros en una sublista de una organización ceclular están confinados a cierta zona física de celdas, es posible ordenar las celdas en un paquete de discos de tal manera que los registros se puedan recuperar simultáneamente de más de una celda, o, si un volumen de disco se designa como zona, se puede buscar simultáneamente en las sublistas mediante distintas cabezas de lectura/escritura y microprocesadores para buscar registros en distintas zonas al mismo tiempo. A estas celdas se las conoce como celdas paralelas. La rapidez en el rendimiento para consultas disyuntivas puede mejorar mucho si se busca en las celdas en paralelo. ORGANIZACIÓN MULTIANILLO DE ARCHIVOS Un anillo es una cadena circular en la que el último registro se encadena al primero. La búsqueda en el anillo se puede hacer en ambas direcciones, hacia adelante o hacia atrás. Esto requiere que cada registro tenga un señalador extra que señale hacia atrás. La única diferencia que hay entre un anillo y una lista enlazadas, es que el último registro de un anillo se enlaza con el primero. Un señalador inverso es útil para accesar el predecesor del registro en eso. Si no se proporciona un señalador retrospectivo, la única manera de regresar al predecesor del registro en uso sería recorrer hacia adelante todo el anillo, hasta llegar a dicho registro. 47 CONSTRUCCIÓN DE UNA ESTRUCTURA MULTIANILLO Una estructura multianillo consta de diversos anillos interconectados dispuestos jerárquicamente. Todos los valores clave de esos campos clave−secundaria están enlazados en un anillo. En otras palabras, se crearon dos anillos que contienen en cada valor clave de las dos claves secundarias, como lo muestran los anillos superior e inferior respectivamente. Cada valor individual clave−secundaria forma la cabeza de su propio subanillo. Un subanillo consta de los registros asociados a un valor clave−secundaria particular. Un subanillo es similar a una lista enlazada en el archivo multilista, en que también enlaza a todos los registros que tienen un mismo valor de clave−secundaria. Cuando se separa de los registros un segmento que contiene una clave secundaria, nos e le almacena de manera redundante en los registros de datos. Para el caso de un archivo multianillo, se requiere de una búsqueda secuencial para encontrar algún registro en un subanillo y se pueden necesitar varios accesos E/S antes de encontrar el registro deseado. SEÑALADORES DIRECCIONALES PARA ESTRUCTURAS MULTIANILLO Un nodo en una estructura multianillo se llama a veces segmento, el cual consiste en un campo o un grupo de campos. Un segmento de datos puede contener varios señaladores para enlazar segmentos diferentes de distintos niveles jerárquicos. • Señaladores gemelos: se usan para conectar incidencias dentro del mismo tipo segmento. Los segmentos de datos indicados por señaladores gemelos tienen el mismo nivel jerárquico. • Señalador hijo: esto está dirigido al primer segmento de un subanillo en un nivel estructural distintos. Por lo tanto, una organización multianillo se llama a veces organización jerárquica • Señalador padre: un señalador padre en un segmento hijo señala de regreso hacia el segmento padre. Un señalador padre se usa para accesar pasando por los registros restantes que intervienen entre el segmento examinado y la cabeza del subanillo. RECUPERACIÓN EN ARCHIVOS MULTIPLES BASADA EN CLAVES MÚLTIPLES Los ejemplos de las secciones anteriores fueron de indagaciones basadas en claves multiples en un solo archivo. En realidad, una base de datos consta de distintos archivos en donde se efectúan las consultas. Antes de empezar a tratar el procesado de varios archivos, se ilustrará brevemente cómo los elementos globales 48 datos (aquellos elemetnos que se necesitan para todos los usos potenciales) se agrupan en varios tipos de registros en una base de datos, y cómo los registros relacionados se enlazan entonces para así procesar los distintos archivos. ENLACE DE ARCHIVOS Los registros en distintos archivos se pueden enlazar por medio de apuntadores, de la misma manera en que se enlazan los registros en listas en un archivo multilista por medio de apuntadores. Además del uso de señaladores, otra estrategia para enlazar registros relacionados de dos archivos distintos es usar un campo común incluído en ambos archivos. En otras palabras, se enlazan los registros de dos archivos diferentes asociando un valor clave en el campo común de ambos archivos. La clave principal de cada archivo aparece subrayada. Puede establecerse un enlace entre dos tipos de registros distintos al colocar el valor clave−principal de un registro padre en el campo clave−secundaria correspondiente a sus registros hijos. La relación entre los registros tipo padre y tipo hijo es uno−a−muchos. Un registro tipo padre o registro propietario se indica con una flecha con una sola punta, mientras que el tipo de registro indicado por la flecha con dos puntas se llama registro tipo hijo o registro miembro. Además de las relaciones uno−a−muchos, la relación entre registro de dos archivos distintos puede ser uno−a−uno o muchos−a−muchos. SELECCIÓN DE LOS CAMPOS CLAVE−SECUNDARIA PARA SU INVERSIÓN El primer paso es seleccionar campos apropiados para invertir. Para establecer las trayectorias de datos de la base primitiva mediante una organización inversa de archivo, se escogen los siguientes dos tipos de campo clave−secundaria. • Campos de conexión en un registro tipo hijo: para facilitar la búsqueda de registros hijo basada en el valor del campo de conexión en el registro tipo hijo. • Elementos de datos usados en las condiciones de consulta: además de los campos de conexión, se escogen campos clave con posibilidad de uso en condiciones de consulta para su inversión, par así facilitar el acceso aleatorio vía sus valores clave. CREACIÓN DE UNA BASE DE DATOS PRIMITIVA Una vez seleccionados los campos secundarios para inversión, pueden crearse los archivos individuales en la base de datos primitiva. Se establecen los archivos de la base de datos como archivos secuenciales indexados, para los cuales el sistema crea los índices inversos basándose en los campos clave−secundaria seleccionados. 46 49