Almacenamiento de datos Ing. Hernán Nina Hanco Clasificación de los medios de almacenamiento físico • Velocidad con la que se puede acceder a los datos • Coste por unidad de datos • Confiabilidad – La pérdida de datos en caso de fallo de alimentación o por fallo del sistema – Fallo físico del dispositivo de almacenamiento • El almacenamiento se puede diferenciar en: – Almacenamiento volátil: Se pierde el contenido cuando se apaga el equipo. – Almacenamiento no volátil: • Contenido persistente incluso cuando se apaga el equipo. • Incluye almacenamiento secundario y terciario, así como copia de seguridad. Medios físicos de almacenamiento • Cache – Más rápido y costoso. La memoria caché es pequeña; su uso lo gestiona el Hardware del sistema informático. • Memoria principal: – Acceso rápido (10s a 100s de nanosegundos; 1 nanosegundo = 10–9 segundos) – Demasiado pequeña (o demasiado cara) para almacenar una base de datos completa. – Volátil — contenido de la memoria se pierde si la fuente de poder falla o problemas con el sistema. Medios físicos de almacenamiento(Cont.) • Memoria flash – Los datos sobreviven a la falta de energía – Los datos pueden escribirse una vez, pero no se pueden sobrescribir de manera directa. • Ciclos de borrado limitado – Es un tipo de memoria sólo de lectura programable y borrable eléctricamente. – Llaves USB Medios físicos de almacenamiento(Cont.) • Almacenamiento en discos magnéticos – El principal medio de almacenamiento persistente. – Generalmente se guarda en ellos toda la base datos. – Para acceder a los datos es necesario trasladarlos desde el disco a la memoria principal. Después de realizar la operación deseada se deben escribir en el disco los datos que se hayan modificado. – El almacenamiento en disco resiste los fallos del suministro eléctrico y las caídas del sistema. Medios físicos de almacenamiento (Cont.) • Almacenamiento óptico – Los datos se almacenan ópticamente en el disco y se leen mediante un laser. – La mas popular forma de discos ópticos es: CD-ROM (640 MB) y DVD (4.7 a 17 GB) – Escritura única y lectura múltiple (WORM): CD-R, DVD-R, DVD+R) – Para escribir muchas veces: (CD-RW, DVD-RW, DVD+RW, and DVD-RAM) – Los cambiadores automáticos - Juke-box Discos ópticos que contienen varias unidades y numerosos discos que pueden cargarse de manera automática en las diferentes unidades (mediante un brazo robotizado) a petición de los usuarios. Medios físicos de almacenamiento (Cont.) • Almacenamiento en cinta – No volátil, utilizado inicialmente para copia de seguridad – Acceso secuencial – mas lento que los discos – Capacidad elevada (40 a 300 GB) – Removibles de la unidad de lectura – Los jukeboxes disponibles para grandes cantidades de datos • Cientos de terabytes (1 terabyte = 109 bytes) o también petabyte (1 petabyte = 1012 bytes) • Datos satelitales. Jerarquía de almacenamiento Jerarquía de almacenamiento (Cont.) • Almacenamiento primario: Rápido pero volátil (cache, memoria principal). • Almacenamiento secundario: El siguiente nivel de la Jerarquía, no-volátil, tiempo de acceso a los datos relativamente rápido. – También llamado almacenamiento on-line – Ejemplo memoria flash, Discos magnéticos. • Almacenamiento terciario: Es el nivel mas bajo de la jerarquía, no volátil, Tiempo de acceso lento. – También llamado Almacenamiento off-line – Ejemplo. Cintas magnéticas, almacenamiento óptico Características físicas de los discos duros magnéticos NOTA: Esquema simple de los discos duros Discos magnéticos • Cabeza de Lectura - Escritura – Se mantienen tan próximas como sea posible a la superficie de los discos para aumentar la densidad de grabación. – Lee o escribe magnéticamente información codificada • La superficie del plato esta dividido en pistas (tracks) circulares – Encima de los 50K-100K pistas por plato para un disco típico • Cada pista esta dividido en sectores. – Un sector es una pequeña unidad de datos donde podemos leer o escribir – Tamaño típico de un Sector es 512 bytes – Típicamente la cantidad de sectores por pista es: 500 (en las pistas internas) a 1000 (en las pistas externas) • Cilindro i consiste de ith pistas de todos los platos Subsistema de disco • Múltiples discos conectados a un sistema de computo a través de un controlador – Funcionalidad de controlador (checksum, remapping de sectores malos) • Interface estandar entre familias de discos – – – – ATA (AT adaptor) rango de estándares SATA (Serial ATA) SCSI (Small Computer System Interconnect) rango de estándar Variantes de cada estándar (diferentes velocidades y capacidades) Medida del rendimiento de los discos • Las principales medidas de la calidad de los discos son: – Capacidad – Tiempo de acceso Es la suma de: • Tiempo de búsqueda (4 – 10 ms.). • Tiempo de latencia rotacional (4500 rpm ≈ 4 – 11 ms/rotación). – Velocidad de transferencia de datos (25-100 MB/s) – Fiabilidad (tiempo medio entre fallos): 500,000 – 1´200,00o horas. (57 – 136 años) Optimización del acceso a los bloques de disco • Las solicitudes de E/S al disco las generan tanto el sistema de archivos como el gestor de la memoria virtual de los sistemas operativos. • Los datos se transfieren por bloques de sectores. • Algunas técnicas para mejorar el acceso a los bloques son: – Planificación del brazo del disco (ej. Algoritmo del ascensor). – Organización de archivos. – Memoria intermedia de escritura no volátil (NV-RAM) – Disco de registro histórico (utilizados en sistemas de archivos de diario) RAID • Para conseguir mayor rendimiento y fiabilidad se han propuesto varias técnicas de organización de los discos denominadas colectivamente disposición redundante de discos independientes: RAID. • Aunque existen seis niveles distintos de RAID, los niveles más comúnmente usados son: – RAID 0: Conjunto dividido – RAID 1: Conjunto en espejo – RAID 5: Conjunto dividido con paridad distribuida Mejora de la fiabilidad mediante la redundancia (imágenes o sombras) • La solución al problema de la fiabilidad es introducir la redundancia. • Cada unidad lógica puede tener 2 unidades físicas. • Cada operación de escritura se realiza por duplicado. • El tiempo medio entre fallos (pérdida de datos) de un disco con imagen depende del tiempo medio entre fallos de cada disco y del tiempo medio de reparación (sustitución del disco averiado). Mejora del rendimiento mediante el paralelismo • Se puede mejorar la velocidad de transferencia con varios discos distribuyendo los datos entre ellos. • Se puede dar: – Distribución a nivel de bits. – Distribución a nivel de bloques. • Número de discos = n • El bloque lógico i se almacena en el disco físico (i mod n)+1, en el bloque físico (i/n). • En un sistema de discos, el paralelismo busca: – Equilibrar la carga de varios accesos de pequeño tamaño. – Convertir en paralelos los accesos de gran tamaño.