Informe ARQUITECTURA DE INVULNERABILIDAD DE DATOS DE EMC DATA DOMAIN: MEJORA DE LA CAPACIDAD DE RECUPERACIÓN Y LA INTEGRIDAD DE LOS DATOS Análisis detallado Resumen Ningún mecanismo por sí mismo es suficiente para garantizar la integridad de los datos en un sistema de almacenamiento. La capacidad de recuperación de datos solo se puede garantizar mediante la cooperación de una gran cantidad de mecanismos que establecen líneas de defensa contra todos los orígenes de errores. A diferencia de los sistemas de almacenamiento de uso general, los sistemas de almacenamiento con deduplicación EMC® Data Domain® han sido diseñados específicamente como el almacenamiento del último recurso. Los sistemas de almacenamiento Data Domain priorizan la recuperación sobre todo lo demás, con funcionalidades de protección de la integridad de los datos incorporadas mediante la arquitectura de invulnerabilidad de datos de EMC Data Domain. Este informe se centra en cuatro elementos clave de la arquitectura de invulnerabilidad de datos de Data Domain, que, al combinarse, proporcionan los mayores niveles de capacidad de recuperación e integridad de datos del sector: • Verificación de punto a punto • Evasión y contención de fallos • Detección de fallos y reparación continuas • Capacidad de recuperación del sistema de archivos septiembre 2013 Copyright © 2013 EMC Corporation. Todos los derechos reservados. EMC considera que la información de esta publicación es precisa en el momento de su publicación. La información está sujeta a cambios sin previo aviso. La información contenida en esta publicación se proporciona “tal como está”. EMC Corporation no se hace responsable ni ofrece garantía de ningún tipo con respecto a la información de esta publicación y específicamente renuncia a toda garantía implícita de comerciabilidad o capacidad para un propósito determinado. El uso, la copia y la distribución de cualquier software de EMC descrito en esta publicación requieren una licencia de software correspondiente. Para obtener una lista actualizada de nombres de productos de EMC, consulte las marcas comerciales de EMC Corporation en http://spain.EMC.com. Número de referencia h7219-3.1 Arquitectura de invulnerabilidad de datos de EMC Data Domain 2 Índice Resumen ................................................................................................................. 4 Integridad de datos del sistema de almacenamiento.......................................................... 4 Introducción............................................................................................................ 4 Audiencia ........................................................................................................................... 4 Arquitectura de invulnerabilidad de datos de Data Domain ...................................... 5 Verificación de punto a punto............................................................................................. 5 Evasión y contención de fallos ........................................................................................... 6 Los datos nuevos nunca sobrescriben los datos correctos ............................................. 6 Menos estructuras de datos complejas............................................................................. 6 NVRAM para un reinicio seguro y rápido ........................................................................... 7 Sin escrituras parciales de fracciones ............................................................................... 7 Detección de fallos y reparación continuas ........................................................................... 8 RAID 6: Protección contra fallos de dos discos y corrección de errores de lectura ........... 8 Detección y corrección de errores de manera inmediata ................................................. 8 Limpieza para impedir que se dañen los datos ............................................................... 9 Capacidad de recuperación del sistema de archivos .......................................................... 9 Formato de datos autodescriptivo para garantizar la capacidad de recuperación de los metadatos ................................................................................................................ 9 La comprobación de FS, en caso de ser necesaria, es rápida ........................................ 10 Conclusiones ........................................................................................................ 10 Arquitectura de invulnerabilidad de datos de EMC Data Domain 3 Resumen Integridad de datos del sistema de almacenamiento Detrás de todo el valor añadido, los sistemas de almacenamiento especializados se basan en componentes computacionales de propósito general y herramientas de software que pueden presentar errores. Algunos fallos tienen un impacto visible e inmediato, por ejemplo, el fallo total de una unidad de disco. Otros fallos son sutiles y están ocultos, por ejemplo, un error de software que provoca daños latentes en el sistema de archivos que solo se descubren en el momento de la lectura. Para garantizar la integridad de los datos ante dichos fallos, los mejores sistemas de almacenamiento incluyen varias comprobaciones de integridad de los datos y, generalmente, cuentan con características optimizadas de rendimiento y disponibilidad del sistema, no de invulnerabilidad de los datos. En el análisis final, suponen que todas las copias de seguridad se efectúan, y presentan disyuntivas relacionadas con el diseño que priorizan la velocidad con respecto a la capacidad de recuperación de datos garantizada. Por ejemplo, ningún sistema de archivos de almacenamiento primario de uso general lee datos desde el disco para garantizar que se hayan almacenado correctamente, pues, si lo hiciera, afectaría el rendimiento. Sin embargo, los datos no se pueden considerar invulnerables si no se almacenan correctamente en primer lugar. Con los dispositivos especialmente diseñados para copia de seguridad, se debe priorizar la invulnerabilidad de los datos sobre el rendimiento e incluso sobre la disponibilidad. A menos que el interés se centre en la integridad de los datos, los datos de copia de seguridad y de archivo están expuestos a riesgo. Si los datos están expuestos a riesgo, cuando se pierde la copia primaria de los datos, la recuperación también se encuentra expuesta a riesgo. La mayoría de los dispositivos especialmente diseñados para copia de seguridad son simplemente sistemas de almacenamiento primario creados a partir de discos más económicos. Por lo tanto, heredan la filosofía de diseño de sus antecesores de almacenamiento primario. Si bien se etiquetan como dispositivos especialmente diseñados para copia de seguridad, sus diseños destacan el rendimiento a costa de la invulnerabilidad de los datos. Introducción Este informe se centra en cuatro elementos clave de la arquitectura de invulnerabilidad de datos de EMC® Data Domain®, que, al combinarse, proporcionan los mayores niveles del sector en cuanto a capacidad de recuperación e integridad de los datos. Audiencia Este informe está orientado a los clientes de EMC, los consultores técnicos, los socios y los miembros de la comunidad de servicios profesionales de EMC y de socios que estén interesados en obtener más información acerca de la arquitectura de invulnerabilidad de datos de Data Domain. Arquitectura de invulnerabilidad de datos de EMC Data Domain 4 Arquitectura de invulnerabilidad de datos de Data Domain Los sistemas de almacenamiento con deduplicación Data Domain representan un claro desprendimiento del pensamiento de diseño convencional de sistemas de almacenamiento y presentan una premisa radical: ¿qué ocurriría si la capacidad de recuperación y la integridad de los datos fueran el objetivo más importante? Si uno imaginara un departamento de TI sin cintas, tendría que imaginar un almacenamiento en disco sumamente resistente y protector. Los sistemas Data Domain se han diseñado desde el principio como almacenamiento de último recurso. El sistema operativo Data Domain (DD OS) está especialmente diseñado para la invulnerabilidad de los datos. Existen cuatro áreas de enfoque importantes: • Verificación de punto a punto • Evasión y contención de fallos • Detección de fallos y reparación continuas • Capacidad de recuperación del sistema de archivos Incluso con este modelo, resulta importante recordar que DD OS es simplemente tan bueno como los datos que recibe. Puede realizar una prueba de punto a punto de los datos que recibe dentro de los límites del sistema, pero DD OS no puede saber si esos datos estuvieron protegidos durante cada paso de la red en su trayecto hacia el sistema. Si se produce un error en la red que ocasiona daños en los datos o si los datos se dañan en el almacenamiento primario, DD OS no puede repararlos. Recomendamos probar la recuperación a nivel de aplicaciones de manera periódica. Verificación de punto a punto Dado que todos los componentes de un sistema de almacenamiento pueden introducir errores, la manera más sencilla de garantizar la integridad de los datos es realizar una prueba de punto a punto. La verificación de punto a punto implica leer los datos después de que se escriben y compararlos con los que se enviaron al disco, con lo que se comprueba que es posible acceder a ellos en el disco por medio del sistema de archivos y Figura 1. La comprobación de punto a punto que no están dañados. Cuando verifica todos los datos y metadatos del sistema DD OS recibe una solicitud de de archivos. escritura del software de copia de seguridad, computa una suma de verificación para los datos. Luego, el sistema almacena los datos exclusivos y los vuelve a leer para validarlos, con lo que se corrigen de inmediato los errores de E/S. Debido a que los datos se validan después de la escritura a disco y antes de su liberación de la memoria/NVRAM, la corrección de los errores de E/S no requiere un reinicio del trabajo de copia de seguridad. Arquitectura de invulnerabilidad de datos de EMC Data Domain 5 La verificación de punto a punto confirma que los datos sean correctos y puedan recuperarse desde cualquier nivel del sistema. Si existen problemas en cualquier parte del trayecto (por ejemplo, si se han perdido algunos datos en la unidad), se detectarán. Los errores también se pueden corregir mediante un proceso de autorreparación, como se describe en la sección siguiente. Los sistemas de almacenamiento primario convencionales no pueden realizar este tipo de verificaciones tan exigentes. No obstante, los dispositivos especialmente diseñados para copia de seguridad las requieren. La gran reducción de datos que se logra mediante Data Domain Global Compression™ disminuye la cantidad de datos que se deben verificar y posibilita la realización de estas verificaciones. Evasión y contención de fallos El próximo paso para la protección de datos es garantizar que los datos que se confirmaron como correctos lo sigan siendo. Paradójicamente, el mayor riesgo en cuanto a la integridad del sistema de archivos son los errores de software del sistema de archivos en el momento de escribir datos nuevos. Solo las nuevas escrituras pueden sobrescribir accidentalmente los datos existentes y solo las nuevas Figura 2. Los datos nuevos nunca ponen en riesgo actualizaciones de metadatos del los datos antiguos. El log contenedor de datos nunca sistema de archivos pueden dañar sobrescribe ni actualiza los datos existentes. Los las estructuras existentes. Dado que datos nuevos siempre se escriben en nuevos el objetivo principal del sistema de contenedores (en rojo). Las referencias y los archivos Data Domain es proteger contenedores antiguos permanecen en su lugar y los datos, su diseño ofrece están seguros, incluso, ante errores de software o hardware que puedan producirse durante el protección incluso contra errores de almacenamiento de las copias de seguridad nuevas. su propio software que puedan poner en riesgo los datos existentes. Esto se logra por medio de una combinación de simplicidad en el diseño (que, en primer lugar, reduce la posibilidad de errores), además de diversas características de contención de errores que dificultan la posibilidad de que los errores de software dañen los datos existentes. Los sistemas Data Domain cuentan con un sistema de archivos especializado y estructurado en logs que ofrece cuatro beneficios importantes. Los datos nuevos nunca sobrescriben los datos correctos A diferencia de los sistemas de archivos tradicionales, que, generalmente, sobrescriben bloques cuando se modifican datos, los sistemas Data Domain solo escriben en bloques nuevos. Esto aísla cualquier sobrescritura incorrecta (un tipo de problema de error de software) a los datos de copia de seguridad y archivo más nuevos exclusivamente. Las versiones anteriores permanecen seguras. Menos estructuras de datos complejas En un sistema de archivos tradicional, existen muchas estructuras de datos (por ejemplo, recuentos de referencia y mapas de bits de bloques libres) que admiten actualizaciones de bloques muy rápidas. En una aplicación de copia de seguridad, la Arquitectura de invulnerabilidad de datos de EMC Data Domain 6 carga de trabajo consta principalmente de escrituras secuenciales más simples de datos nuevos, lo que implica que se requieren menos estructuras de datos para admitirla. En tanto el sistema pueda hacer un seguimiento del encabezado del log, las escrituras nuevas no afectarán a los datos antiguos. Esta simplicidad de diseño reduce considerablemente las posibilidades de errores de software que pueden ocasionar daños en los datos. NVRAM para un reinicio seguro y rápido El sistema incluye un buffer de escritura RAM no volátil en el cual coloca todos los datos que aún no están protegidos en el disco. El sistema de archivos aprovecha la seguridad de este buffer de escritura a fin de implementar una funcionalidad de reinicio rápida y segura. El sistema de archivos utiliza muchas comprobaciones lógicas internas y de integridad de estructura de datos. Si se detecta un problema en una de estas comprobaciones, el sistema de archivos se reinicia. Las comprobaciones y los reinicios proporcionan detección y recuperación tempranas de errores que ocasionan daños en los datos. Cuando se reinicia, el sistema de archivos Data Domain verifica la integridad de los datos en el buffer NVRAM antes de colocarlos en un sistema de archivos, lo que impide la pérdida de datos como consecuencia del reinicio. Dado que NVRAM es un dispositivo de hardware independiente, protege los datos contra errores que pueden dañar los datos en la memoria RAM. Dado que la memoria RAM no es volátil, también ofrece protección contra fallos en la energía. Si bien NVRAM es importante para garantizar el éxito de las nuevas copias de seguridad, el sistema de archivos garantiza la integridad de las copias de seguridad antiguas, incluso ante un fallo de NVRAM. Sin escrituras parciales de fracciones Las cabinas de discos de almacenamiento primario tradicionales, ya sean RAID 1, RAID 3, RAID 4, RAID 5 o RAID 6, pueden perder datos antiguos si, durante una operación de escritura, se produce un fallo en la energía que genera errores en un disco. Esto se debe a que la reconstrucción de disco depende de que todos los bloques en una fracción RAID sean consistentes, pero, durante una escritura de bloque, existe una ventana de transición durante la cual la fracción no es consistente, por lo que la reconstrucción de la fracción puede fallar y los datos antiguos del disco con errores se pueden perder. Los sistemas de almacenamiento empresariales ofrecen protección al respecto con fuentes de alimentación sin interrupción o NVRAM. Sin embargo, si estas fallan debido a una interrupción prolongada de energía, se pueden perder los datos antiguos y puede fallar cualquier intento de recuperación. Por este motivo, los sistemas Data Domain nunca actualizan solamente un bloque en una fracción. De acuerdo con la política de no sobrescritura, todas las nuevas escrituras apuntan a nuevas fracciones RAID, y esas fracciones se escriben en su totalidad 1. La verificación con posterioridad a la escritura garantiza la consistencia de la nueva fracción. Las escrituras nuevas no ponen en riesgo los datos existentes. Los sistemas Data Domain están diseñados para minimizar la cantidad de errores estándares en el sistema de almacenamiento. Si se producen errores más desafiantes, se tarda menos tiempo en encontrarlos, corregirlos y notificar al operador. 1 El producto de gateway, que utiliza RAID externo, no puede garantizar la ausencia de escrituras parciales de fracciones. Arquitectura de invulnerabilidad de datos de EMC Data Domain 7 Detección de fallos y reparación continuas Independientemente de las medidas de seguridad de software que se apliquen, los productos de hardware computacional presentan errores ocasionales por naturaleza. De manera más visible en un sistema de almacenamiento, se pueden producir errores en las unidades de disco, pero también se pueden producir otros errores más localizados o transitorios. Es posible que un bloque de disco individual no se pueda leer o que haya una alternación de bits en la interconexión de almacenamiento o en el bus interno del sistema. Por este motivo, DD OS emplea niveles adicionales de protección de datos para detectar fallos y recuperarse de ellos inmediatamente a fin de garantizar resultados óptimos en las operaciones de restauración de datos. RAID 6: Protección contra fallos de dos discos y corrección de errores de lectura RAID 6 constituye la base de la funcionalidad de detección y reparación continuas de fallos que ofrece Data Domain. Su eficiente arquitectura de paridad doble ofrece ventajas significativas con respecto a las arquitecturas convencionales, que incluyen enfoques de paridad única RAID 1 (espejeado), RAID 3, RAID 4 o RAID 5. RAID 6: • Ofrece protección contra fallos en dos discos. • Ofrece protección contra errores de lectura de disco durante el proceso de reconstrucción. • Ofrece protección contra la extracción del disco incorrecto por parte del operador. • Garantiza la consistencia de las fracciones RAID incluso durante un fallo en la energía sin depender de NVRAM ni UPS. • Verifica la integridad de los datos y la consistencia de las fracciones después de las escrituras. Figura 3. La funcionalidad de detección y reparación continuas de fallos ofrece protección contra fallos en el sistema de almacenamiento. El sistema vuelve a comprobar periódicamente la integridad de las fracciones RAID y el log contenedor, y utiliza la redundancia del sistema RAID para solucionar cualquier fallo que se produzca. En cada una de las lecturas, se vuelve a verificar la integridad de los datos y se repara cualquier error de manera inmediata. Cada bandeja incluye una unidad de repuesto global, que reemplaza automáticamente una unidad fallida en cualquier parte del sistema Data Domain. Cuando EMC reemplaza una unidad fallida reemplazable en caliente, esa unidad se convierte en la nueva unidad de repuesto global. En comparación, una vez que un solo disco deja de funcionar en los otros enfoques de RAID, cualquier otro error de disco simultáneo genera la pérdida de datos. Todo sistema de almacenamiento del último recurso debe incluir el nivel de protección adicional que ofrece RAID 6. Detección y corrección de errores de manera inmediata Para garantizar que todos los datos devueltos al usuario durante una restauración sean correctos, el sistema de archivos Data Domain almacena todas sus estructuras Arquitectura de invulnerabilidad de datos de EMC Data Domain 8 de datos en disco en bloques de datos con formato. Estos se identifican automáticamente y se incluyen en una sólida suma de verificación. En cada lectura desde el disco, el sistema, primero, verifica que el bloque leído sea el esperado. Luego, utiliza la suma de verificación para comprobar la integridad de los datos. Si se detecta un problema, le solicita a RAID 6 que utilice su nivel adicional de redundancia para corregir el error en los datos. Debido a que las fracciones RAID nunca se actualizan de manera parcial, se garantiza su consistencia, al igual que la capacidad de reparar un error en el momento de su descubrimiento. Limpieza para impedir que se dañen los datos La detección de errores de manera instantánea funciona correctamente con los datos que se leen, pero no afronta los problemas con los datos que no se leen durante semanas o meses antes de que se requieran para una recuperación. Por este motivo, los sistemas Data Domain vuelven a verificar activamente la integridad de todos los datos mediante un proceso continuo que se ejecuta en segundo plano. Este proceso de limpieza encuentra y repara de manera inteligente los errores en el disco antes de que puedan representar un problema. Mediante la detección y la corrección de errores de manera inmediata y la limpieza constante de datos de RAID 6, la mayoría de los errores generados en la unidad de disco y en el sistema informático se pueden aislar y solucionar sin provocar ningún impacto en el funcionamiento del sistema y sin riesgos para los datos. Capacidad de recuperación del sistema de archivos Si bien se realizan muchos esfuerzos para garantizar que no haya problemas en el sistema de archivos, la arquitectura de invulnerabilidad de datos prevé que, al ser creado por el hombre, cualquier sistema puede presentar un problema en cierto momento. Por lo tanto, incluye características para reconstruir metadatos perdidos o dañados del sistema de archivos y, asimismo, herramientas de comprobación del sistema de archivos que pueden volver a poner en línea un sistema con problemas de manera segura y rápida. Formato de datos autodescriptivo para garantizar la capacidad de recuperación de los metadatos Las estructuras de metadatos, como los índices que aceleran el acceso, se pueden reconstruir a partir de los datos en disco. Todos los datos se almacenan junto con los metadatos que los describen. Si una estructura de metadatos se daña de algún modo, existen dos niveles de capacidad de Figura 4. Los datos se escriben en un formato autodescriptivo. Si es necesario, recuperación. En primer lugar, se crea se puede volver a crear el sistema de una instantánea de los metadatos del archivos mediante el análisis del log y la sistema de archivos cada cierta reconstrucción a partir de los metadatos cantidad de horas, y la capacidad de almacenados con los datos. recuperación puede depender de esta copia de punto en el tiempo. En segundo lugar, se pueden analizar los datos en el disco y se puede reconstruir la estructura de metadatos. Estas funcionalidades Arquitectura de invulnerabilidad de datos de EMC Data Domain 9 hacen posible la capacidad de recuperación incluso si se produce el peor de los daños en el sistema de archivos o en sus metadatos. La comprobación de FS, en caso de ser necesaria, es rápida En un sistema de archivos tradicional, no se comprueba constantemente la consistencia en línea. Los sistemas Data Domain realizan la comprobación mediante una verificación inicial en línea a fin de garantizar la consistencia de todas las escrituras nuevas. El tamaño utilizable de un sistema de archivos tradicional, generalmente, está limitado por el tiempo que llevaría recuperar el sistema de archivos si se produjera algún tipo de daño. Imagine la ejecución de fsck en un sistema de archivos tradicional con más de 80 TB de datos. El motivo por el cual el proceso de comprobación puede tardar tanto es que el sistema de archivos debe distinguir dónde se ubican los bloques libres para que las escrituras nuevas no sobrescriban los datos existentes de manera accidental. Por lo general, esto implica la comprobación de todas las referencias para reconstruir los mapas de bloques libres y los recuentos de referencia. Cuantos más datos haya en el sistema, más tiempo tardará este proceso. Por el contrario, dado que el sistema de archivos Data Domain nunca sobrescribe datos antiguos ni tiene que reconstruir mapas de bloques ni recuentos de referencia, solo debe verificar dónde se ubica el encabezado del log para volver a poner el sistema en línea de manera segura a fin de restaurar los datos importantes. Conclusiones Ningún mecanismo por sí mismo es suficiente para garantizar la integridad de los datos en un sistema de almacenamiento. La capacidad de recuperación de datos solo se puede garantizar mediante la cooperación de una gran cantidad de mecanismos que establecen líneas de defensa contra todos los orígenes de errores. A diferencia de los sistemas de almacenamiento tradicionales, cuyo propósito ha cambiado del almacenamiento primario a la protección de datos, los sistemas Data Domain están diseñados desde el principio específicamente para el almacenamiento de datos de último recurso. La innovadora arquitectura de invulnerabilidad de datos ofrece la mejor protección del sector contra los problemas de integridad de datos. La verificación avanzada garantiza que los nuevos datos de copia de seguridad y de archivo se almacenen correctamente. La arquitectura estructurada en logs y sin sobrescritura del sistema de archivos Data Domain, junto con la reiteración de escrituras de fracciones completas, garantiza que los datos antiguos siempre estén seguros, incluso, ante posibles errores de software ocasionados por los nuevos datos. Mientras tanto, una implementación simple y sólida reduce la posibilidad de errores en el software, en primer lugar. Los mecanismos mencionados ofrecen protección contra problemas durante el almacenamiento de datos de copia de seguridad y de archivo, pero los fallos en el almacenamiento en sí también ponen en peligro la capacidad de recuperación de los datos. Por este motivo, la arquitectura de invulnerabilidad de datos incluye una implementación propietaria de RAID 6 que ofrece protección contra fallos en hasta dos discos; puede reconstruir un disco con errores, incluso si se presenta un error de lectura de datos; y corrige errores de manera instantánea durante la Arquitectura de invulnerabilidad de datos de EMC Data Domain 10 lectura. Asimismo, incluye un proceso de limpieza constante que busca y repara de manera activa los fallos latentes antes de que se conviertan en un problema. La última medida de defensa es la función de recuperación del sistema de archivos Data Domain. El formato de datos autodescriptivo permite reconstruir los datos de archivo, incluso si se dañan o se pierden varias estructuras de metadatos. Además, la comprobación y la reparación rápidas del sistema de archivos logran que hasta un sistema con docenas de terabytes de datos no esté fuera de línea durante mucho tiempo en caso de que se presente algún tipo de problema. Los sistemas Data Domain son la única solución que incluye esta atención incesante a la integridad de los datos, lo que le permite tener la máxima confianza en su capacidad de recuperación. Arquitectura de invulnerabilidad de datos de EMC Data Domain 11