Almacenamiento de datos Ing. Hernán Nina Hanco

Anuncio
Almacenamiento de datos
Ing. Hernán Nina Hanco
Clasificación de los medios de
almacenamiento físico
• Velocidad con la que se puede acceder a los datos
• Coste por unidad de datos
• Confiabilidad
– La pérdida de datos en caso de fallo de alimentación o por fallo
del sistema
– Fallo físico del dispositivo de almacenamiento
• El almacenamiento se puede diferenciar en:
– Almacenamiento volátil: Se pierde el contenido cuando se apaga
el equipo.
– Almacenamiento no volátil:
• Contenido persistente incluso cuando se apaga el equipo.
• Incluye almacenamiento secundario y terciario, así como copia de
seguridad.
Medios físicos de almacenamiento
• Cache – Más rápido y costoso. La memoria
caché es pequeña; su uso lo gestiona el
Hardware del sistema informático.
• Memoria principal:
– Acceso rápido (10s a 100s de nanosegundos; 1
nanosegundo = 10–9 segundos)
– Demasiado pequeña (o demasiado cara) para
almacenar una base de datos completa.
– Volátil — contenido de la memoria se pierde si la
fuente de poder falla o problemas con el sistema.
Medios físicos de
almacenamiento(Cont.)
• Memoria flash
– Los datos sobreviven a la falta de energía
– Los datos pueden escribirse una vez, pero no se
pueden sobrescribir de manera directa.
• Ciclos de borrado limitado
– Es un tipo de memoria sólo de lectura
programable y borrable eléctricamente.
– Llaves USB
Medios físicos de
almacenamiento(Cont.)
• Almacenamiento en discos magnéticos
– El principal medio de almacenamiento persistente.
– Generalmente se guarda en ellos toda la base
datos.
– Para acceder a los datos es necesario trasladarlos
desde el disco a la memoria principal. Después de
realizar la operación deseada se deben escribir en
el disco los datos que se hayan modificado.
– El almacenamiento en disco resiste los fallos del
suministro eléctrico y las caídas del sistema.
Medios físicos de almacenamiento
(Cont.)
• Almacenamiento óptico
– Los datos se almacenan ópticamente en el disco y se leen
mediante un laser.
– La mas popular forma de discos ópticos es: CD-ROM (640 MB) y
DVD (4.7 a 17 GB)
– Escritura única y lectura múltiple (WORM): CD-R, DVD-R,
DVD+R)
– Para escribir muchas veces: (CD-RW, DVD-RW, DVD+RW, and
DVD-RAM)
– Los cambiadores automáticos - Juke-box Discos ópticos que
contienen varias unidades y numerosos discos que pueden
cargarse de manera automática en las diferentes unidades
(mediante un brazo robotizado) a petición de los usuarios.
Medios físicos de almacenamiento
(Cont.)
• Almacenamiento en cinta
– No volátil, utilizado inicialmente para copia de
seguridad
– Acceso secuencial – mas lento que los discos
– Capacidad elevada (40 a 300 GB)
– Removibles de la unidad de lectura
– Los jukeboxes disponibles para grandes cantidades de
datos
• Cientos de terabytes (1 terabyte = 109 bytes) o también
petabyte (1 petabyte = 1012 bytes)
• Datos satelitales.
Jerarquía de almacenamiento
Jerarquía de almacenamiento (Cont.)
• Almacenamiento primario: Rápido pero volátil
(cache, memoria principal).
• Almacenamiento secundario: El siguiente nivel de
la Jerarquía, no-volátil, tiempo de acceso a los
datos relativamente rápido.
– También llamado almacenamiento on-line
– Ejemplo memoria flash, Discos magnéticos.
• Almacenamiento terciario: Es el nivel mas bajo de
la jerarquía, no volátil, Tiempo de acceso lento.
– También llamado Almacenamiento off-line
– Ejemplo. Cintas magnéticas, almacenamiento óptico
Características físicas de los discos
duros magnéticos
NOTA: Esquema simple de los discos duros
Discos magnéticos
• Cabeza de Lectura - Escritura
– Se mantienen tan próximas como sea posible a la superficie de los
discos para aumentar la densidad de grabación.
– Lee o escribe magnéticamente información codificada
• La superficie del plato esta dividido en pistas (tracks) circulares
– Encima de los 50K-100K pistas por plato para un disco típico
• Cada pista esta dividido en sectores.
– Un sector es una pequeña unidad de datos donde podemos leer o
escribir
– Tamaño típico de un Sector es 512 bytes
– Típicamente la cantidad de sectores por pista es: 500 (en las pistas
internas) a 1000 (en las pistas externas)
• Cilindro i consiste de ith pistas de todos los platos
Subsistema de disco
• Múltiples discos conectados a un sistema de computo a través de un
controlador
– Funcionalidad de controlador (checksum, remapping de sectores malos)
• Interface estandar entre familias de discos
–
–
–
–
ATA (AT adaptor) rango de estándares
SATA (Serial ATA)
SCSI (Small Computer System Interconnect) rango de estándar
Variantes de cada estándar (diferentes velocidades y capacidades)
Medida del rendimiento de los discos
• Las principales medidas de la calidad de los discos
son:
– Capacidad
– Tiempo de acceso Es la suma de:
• Tiempo de búsqueda (4 – 10 ms.).
• Tiempo de latencia rotacional (4500 rpm ≈ 4 – 11
ms/rotación).
– Velocidad de transferencia de datos (25-100 MB/s)
– Fiabilidad (tiempo medio entre fallos): 500,000 –
1´200,00o horas. (57 – 136 años)
Optimización del acceso a los bloques
de disco
• Las solicitudes de E/S al disco las generan tanto el
sistema de archivos como el gestor de la memoria
virtual de los sistemas operativos.
• Los datos se transfieren por bloques de sectores.
• Algunas técnicas para mejorar el acceso a los bloques
son:
– Planificación del brazo del disco (ej. Algoritmo del
ascensor).
– Organización de archivos.
– Memoria intermedia de escritura no volátil (NV-RAM)
– Disco de registro histórico (utilizados en sistemas de
archivos de diario)
RAID
• Para conseguir mayor rendimiento y fiabilidad se
han propuesto varias técnicas de organización de
los discos denominadas colectivamente
disposición redundante de discos
independientes: RAID.
• Aunque existen seis niveles distintos de RAID, los
niveles más comúnmente usados son:
– RAID 0: Conjunto dividido
– RAID 1: Conjunto en espejo
– RAID 5: Conjunto dividido con paridad distribuida
Mejora de la fiabilidad mediante la
redundancia (imágenes o sombras)
• La solución al problema de la fiabilidad es
introducir la redundancia.
• Cada unidad lógica puede tener 2 unidades
físicas.
• Cada operación de escritura se realiza por
duplicado.
• El tiempo medio entre fallos (pérdida de datos)
de un disco con imagen depende del tiempo
medio entre fallos de cada disco y del tiempo
medio de reparación (sustitución del disco
averiado).
Mejora del rendimiento mediante el
paralelismo
• Se puede mejorar la velocidad de transferencia con
varios discos distribuyendo los datos entre ellos.
• Se puede dar:
– Distribución a nivel de bits.
– Distribución a nivel de bloques.
• Número de discos = n
• El bloque lógico i se almacena en el disco físico (i mod n)+1, en el
bloque físico (i/n).
• En un sistema de discos, el paralelismo busca:
– Equilibrar la carga de varios accesos de pequeño tamaño.
– Convertir en paralelos los accesos de gran tamaño.
Descargar