w h ite p a p e r Protección y seguridad de los datos Estrategias de Backup, deduplicación y replicación. Protección y seguridad de los datos. 1 La alta dependencia de las organizaciones de la información que generan y almacenan diariamente es uno de sus mayores retos. No solo el negocio depende directamente del acceso a los datos correctos en el momento oportuno sino que además hoy es un imperativo la protección de la información por razones de conformidad normativa, de acuerdo con las leyes sectoriales y generales, y en las condiciones que marca la Ley Orgánica de Protección de Datos (LOPD) para garantizar la confidencialidad y privacidad. Una buena estrategia de protección y seguridad de los datos debe combatir los riesgos debidos al accesos indebidos o sustracción de información, y a la pérdida de datos por errores humanos o fallo de los sistemas. El presente documento se centra en diversos aspectos como las copias de seguridad, la deduplicación o la replicación todo ellos de vital importancia par prevenir los riesgos relacionados con la pérdida de datos. No proteger y securizar los datos, especialmente los críticos, tiene un precio tanto en costes como en pérdida de reputación y de imagen de marca. A veces puede ser tan elevado como la misma desaparición del negocio. COPIAS DE SEGURIDAD (BACKUP) Para garantizar la disponibilidad de los datos es hoy imprescindible para la práctica totalidad de empresas realizar copias periódicas de seguridad mediante procesos de backup que permitan recuperar la información original en caso de fallos del sistema, eliminación involuntaria, corrupción de datos, robos, incendios o desastres naturales. Los planes de backup deberían además formar parte de un plan de contingencias global que permita mantener la continuidad del negocio en caso de que se produzca cualquier incidencia. ¿Dentro o fuera? Las copias de seguridad de los datos corporativos pueden almacenarse dentro o fuera de las instalaciones de la organización: − Dentro de las instalaciones (on-site). Si se opta por almacenar las copias de seguridad dentro de la empresa, al menos se deberán ubicar en un lugar apartado de donde residen los sistemas por motivos de seguridad. Una alternativa son las cajas fuertes ignífugas. − Fuera de las instalaciones (off-site). Como medida de protección muchas empresas prefieren ubicar las copias de seguridad fuera de las instalaciones de la empresa, ya sea en un centro de recuperación de desastres o una instalación más modesta habilitada para contener medios de almacenamiento. − Backup en remoto. La amplia disponibilidad de servicios de banda ancha a precios razonables está popularizando el backup en remoto, antes solo accesible a empresas con líneas propias. Incluso se pueden utilizar servicios de terceros en la nube que se responsabilizan del proceso y almacenamiento en su totalidad. De este modo se elimina el riesgo de que la actividad de la compañía se detenga ante un desastre o accidente, además de la necesidad de ocuparse de la custodia de los datos. Esta opción, sin embargo, requiere accesos con grandes anchos de banda puesto que las conexiones Internet tienden a ser más lentas que los dispositivos de almacenamiento locales. Asimismo, para garantizar la confidencialidad e integridad de los datos será preciso securizar la información mediante técnicas como la encriptación. En la actualidad existen diferentes técnicas para optimizar los procedimientos de backup, como la compresión, encriptación y deduplicación de los datos. No obstante, hay que tener en cuenta siempre el riesgo que supone el factor humano, presente en cualquier proceso de backup. SNAPSHOT O “COPIA INSTANTÁNEA” La tecnología de snapshot se puede considerar una técnica peculiar de backup que permite realizar una ‘copia instantánea’ (de ahí el término en inglés tomado de la fotografía) de solo lectura de los datos con una mínima incidencia en las aplicaciones, que permite realizar backups frecuentes (incluso cada hora) para reducir al máximo la 2 Protección y seguridad de los datos. pérdida de información y los tiempos de recuperación. Cada día con mayores seguidores, esta técnica de protección de datos está especialmente indicada para realizar backups óptimos en entornos de alta disponibilidad con grandes volúmenes de datos cuyo respaldo exige largos periodos de tiempo. Snapshot realiza una copia de los datos del sistema en un momento dado sin que ello afecte al funcionamiento de las aplicaciones, de modo que pueden seguir escribiendo datos, una ventaja crítica para entornos con elevados requisitos de disponibilidad e independente del volumen de datos a respaldar. Un enfoque de snapshot que permite reducir el espacio de disco a utilizar consiste en realizar instantáneas solo de los datos modificados desde la instantánea anterior. Esta modalidad recurre a un sistema de punteros para hacer referencia a la instantánea inicial. DEDUPLICACIÓN Ante el imparable crecimiento del volumen de la información que manejan las empresas para su funcionamiento diario, la deduplicación brinda la posibilidad de reducir el volumen de datos a administrar, almacenar y en consecuencia proteger mediante la identificación y eliminación de los datos redundantes por múltiples técnicas. También aplicable al tráfico en la WAN para reducir el consumo de ancho de banda, ya sea mediante soluciones hardware o software, la deduplicación permite optimizar el espacio de almacenamiento básicamente guardando solo una vez un archivo y reemplazándolo en las demás ocasiones en que aparece por un enlace o indicador a dicho archivo, lo que ahorra costes y agiliza el proceso de backup y recuperación de datos. Aunque los procesos de backup omiten por lo general las redundancias, no se consigue del todo eliminar las duplicaciones, especialmente cuando se manejan grandes archivos en los que solo se han producido pequeños cambios. Por el contrario, la efectividad de la deduplicación está contrastada por múltiple estudios, como el realizado por ESG (Enterprise Strategy Group) en 2010, que reportaba niveles de reducción del volumen de datos de 10 a 20 veces en el 56% de los casos y de 20 veces en el 11% de los encuestados. Los resultados concretos obtenidos dependen de distintas variables como el tipo de datos de que se trate, la frecuencia del backup o el tipo de deduplicación y de algoritmos utilizados. ¿Archivo, bloque o byte? Son muchas las técnicas y los métodos de deduplicación disponibles. Cada uno ofrece sus propias ventajas y sus propias debilidades. − A nivel de archivo. Es el más rápido y sencillo pero el menos preciso. Consiste en suprimir los datos duplicados en los archivos y las copias de dichos archivos redundantes en el soporte de respaldo. − A nivel de bloque o fragmento. Opera a nivel de bloque o fragmento de los datos analizando su posible redundancia aplicándoles un indicador o ‘huella digital’. Cuando el bloque es original se guarda en el espacio de almacenamiento y su indicador en un índice. Cuando el contenido es redundante solo se registra en dicho índice el indicador que remite al bloque. Según los expertos, este método tiene el inconveniente de generar falsos positivos y de no ser demasiado ágil cuando se trabaja con grandes volúmenes de información. − A nivel de byte. El análisis comparativo se realiza byte a byte entre los datos nuevos y los ya almacenados. Obviamente, este mecanismo tiene un gran nivel de precisión a la hora de eliminar las redundancias, pero suele ofrecer un rendimiento pobre. Para agilizar el proceso algunos fabricantes introducen análisis ‘conscientes del contenido’, por tipo y nombre de archivo o fecha y hora. ¿En origen o en destino? Las técnicas de deduplicación también se diferencian según dónde y cuándo se produce la comparación de los datos. − La deduplicación en el lado del cliente se realiza antes de que se realice el proceso de respaldo de los datos a través de la red, reduciendo así el ancho de banda. Protección y seguridad de los datos. 3 − En la deduplicación en destino, también conocida como deduplicación post-proceso, el análisis de los datos se efectúa en una imagen de respaldo escrita en la caché del disco antes de proceder a la deduplicación a la velocidad del disco. − La deduplicación intermedia se lleva a cabo en pleno tránsito de los datos por la red antes de que lleguen al disco, por lo que puede verse afectado su rendimiento por condicionantes de la propia red o del volumen de la información o de la complejidad del sistema en que esté organizada. REPLICACIÓN Aunque la replicación tiene un amplio campo de aplicación, con propósitos de almacenamiento se refiere a diversas técnicas utilizadas para la protección de la información que permite, ya sea mediante hardware o software, copiar datos a nivel de archivo o de bloque entre sistemas de discos mediante actualizaciones. De este modo los datos creados en una aplicación y almacenados en un sistema de discos primario pueden ser replicados sin cambios en sistemas de almacenamiento secundarios locales o externos para su salvaguarda. Por ello, la replicación, junto con el backup, son componentes clave de las estrategias de continuidad del negocio, especialmente cuando se produce en remoto entre ubicaciones separadas físicamente. Las aplicaciones locales de la replicación suelen tomar la forma de ‘discos en espejo’ (disk mirroring). ¿Síncrona o asíncrona? No existe una sola técnica de replicación y la variedad aplicada incide en el volumen de datos replicados y en última instancia en el consumo de ancho de banda. Básicamente, la replicación puede ser síncrona o asíncrona. − Replicación síncrona. Las réplicas se producen inmediatamente entre el disco primario y el secundario dentro de una misma transacción, de modo que se garantiza que los datos en el destino siempre están actualizados y de que solo existe una versión de dichos datos. Este tipo de replicación garantiza que no se producirán pérdidas de datos porque las aplicaciones esperan a que estén replicados para seguir operando, incidiendo así en su rendimiento. También influye en el rendimiento la distancia, siendo ambos inversamente proporcionales. Para una distancia de 10 kilómetros, en el mejor de los casos se alcanzan latencias de 67 microsegundos. Además, si realmente se desea no perder ningún dato, un fallo en la réplica remota o en la interconexión entre ambos sistemas detiene el sistema de almacenamiento local. Esta es la principal diferencia con los sistemas asíncronos. − Replicación asíncrona. Los inconvenientes inherentes a la replicación síncrona se pueden eliminar con el método asíncrono, pero a costa de correr el riesgo de no disponer de copias realmente actualizadas. Aunque existen hoy técnicas para minimizar el problema, se ha de disponer del ancho de banda suficiente y un nivel de latencia óptimo. Asimismo, en el caso de que se produzca un fallo en el almacenamiento local se pueden perder datos y correr el riesgo de que el almacenamiento secundario no esté actualizado. Una variedad de la replicación asíncrona es la llamada replicación periódica o `point-in-time’. Consiste en realizar réplicas ‘instantáneas’ periódicas, generalmente cada hora, solo de los datos que han cambiado, no del volumen de datos en su totalidad. La ventaja es que consume menos ancho de banda que la replicación asíncrona pura, puesto que el volumen de datos transmitidos es menor y lleva menos tiempo. Además, si se produce un fallo se dispone de la instantánea inmediatamente anterior. Teléfono: 934 090 770 www.almacenamientodlink.es www.youtube.com/user/DLINKIberiaTV www.dlink.es 4 Protección y seguridad de los datos.