La complejidad se comió mi presupuesto Descubra cómo varias soluciones puntuales de protección de datos en varios entornos están sumando caos y costos. Introducción Cada semana, nuestros partners del canal, o nuestros clientes en común, nos cuentan cuáles fueron sus desafíos recientes en la protección de datos. No es que sea el fin del mundo (de todos modos, a nadie le importaría), o que su centro de datos, sus oficinas o instalaciones sean un enorme agujero humeante. No, el desafío generalmente tiene que ver con la complejidad de hacer algo que toda organización ha estado haciendo durante mucho tiempo: el aburrido y poco atractivo backup. Con un telón de fondo que exhibe crecimiento de datos sostenido y, aparentemente, incontrolable, ¡no es ninguna sorpresa que sea difícil! Pero esperen, ¡hay más! No se trata tanto del backup como de la capacidad de recuperación en una gran variedad de circunstancias, desde la simple corrupción de datos lógica, pérdida de datos causada por error humano (no creerían lo que soy capaz de hacerle a mi computadora portátil), migraciones y sí… interrupciones no programadas. Hemos creado un monstruo Actualmente, lo que está convirtiéndose en un problema operativo significativo, sino el más importante, es la complejidad de la infraestructura de protección de datos. Es posible que en cualquier momento tenga varios esquemas de protección de datos ejecutándose al mismo tiempo en su entorno de TI. ¿Mejor prevenir que curar? ¡No! Mejor ser consistente que curar. Y conservar la simpleza… por favor. arcserve WHITE PAPER | 1 DOCUMENTO TÉCNICO Hagamos una autoevaluación rápida (es una estrategia para lograr que siga leyendo, pero por favor, siga la corriente): 1 Hay demasiados datos y es difícil hacer un backup 2 Tengo proveedores/aplicaciones/procesos diferentes 3 Mis aplicaciones tienen requisitos de recuperación distintos 4 Nadie se pone de acuerdo sobre qué es una aplicación crítica de todos modos 5 No conozco mi RPO para todo 6 Tengo algo de conocimiento sobre mi RTO 7 Tengo muchas MV y todo se hace cuesta arriba 8 No tengo presupuesto/dinero/personal 9 No le agrado a nadie (no tomemos ese camino…) 10 No verifico mi plan de continuidad del negocio desde hace un tiempo y, honestamente, no quiero hacerlo. Si contestó afirmativamente a la mayoría de estas preguntas… ¡es una persona normal! Aunque eso no significa necesariamente que esté fuera de peligro. La evolución de su infraestructura ha colocado una capa sobre otra de “soluciones” (¿puedo sugerir irónicamente “problemas”?) de hardware, software y protección de datos a medio hacer. Además, la madurez y la adopción de la tecnología de virtualización de servidores han creado un mundo nuevo que requiere de su propio conjunto de reglas para una protección de datos efectiva. Algunos proveedores quisieran proponer que ahora sólo importan los entornos virtuales, porque son los que mantienen la infraestructura en marcha… ¡no! Como administrador de protección de datos, su trabajo es proteger todo lo que importa, sea virtual o físico. ¡No todo es virtual o está en la nube! La nube, esa cosa nebulosa y amorfa en la que se supone que debería ejecutar y hacer todo, puede ser bastante confusa, ¿y a qué costo? ¿Dónde encaja en su estrategia de protección de datos planificada? Porque es cierto que puede tener un papel que jugar. ¿Se está dividiendo? Nosotros/usted hemos creado un monstruo con capas de asombrosas tecnologías de protección de datos cuando se las considera aisladamente, pero que son un verdadero caos cuando se combinan. arcserve WHITE PAPER | 2 DOCUMENTO TÉCNICO Veamos un sencillo ejemplo reciente de un cliente mediano: 1 Backup de escritorio: solución online (tal vez 2… no estamos seguros) 2 Backup de Exchange: disco : y cinta con el proveedor A. 3 Backup en NAS: backup tradicional B (NDMP) 4 Oracle: herramientas de Oracle con replicación 5 MV: proveedor C 6 Backup de computadoras portátiles: le decimos a los usuarios que copien los archivos críticos a un servicio “box” (nube 7 Algún clustering en Linux y Windows, pero no para todo 8 Un dispositivo de backup para un departamento (en las instalaciones) 9 Y… la política de retención de datos varía según el departamento/usuario… y existen algunas cintas fuera de las instalaciones para satisfacer los requisitos de cumplimiento…en fin, la idea se entiende. A pesar del uso de API y algún nivel de estándares de la industria, es imposible esperar tener un panorama claro de lo que realmente está ocurriendo, y lo que es más importante, ¿cuál es la actualidad de los datos en todas las áreas? ¿Por qué debería importarme? • Ocurre un desastre: digamos que ocurre una interrupción y necesita un “buen” punto en el tiempo para restablecerse. ¿Cómo determina cuál será ese punto? ¿Cómo maneja la coherencia en todas las áreas? • Dinero: las islas de protección de datos le están generando pérdidas de eficiencia significativas y es posible que no pueda mantener la experiencia necesaria para ejecutar con éxito varias aplicaciones de protección de datos. • Visibilidad: a nadie le importa el backup y representa un costo. Sin embargo, sí les importa la disponibilidad y la recuperación, ¿y adivine de quién será la culpa? • Exageración: muchos productos que ofrecen una única solución tienen un muy buen desempeño con un sólo sistema operativo, o área, pero muy pocos pueden abordar realmente sus necesidades. • Otra vez, dinero: es su presupuesto y si está gastando, en lugar de invirtiendo, entonces no obtendrá ningún retorno. Todo lo anterior es suficiente para interrumpir un buen descanso, pero sería mirar la mitad del vaso vacío, como bien dice el proverbio. Las apariencias engañan. arcserve WHITE PAPER | 3 DOCUMENTO TÉCNICO RPO, SLA y la sopa de letras Se podría argumentar que tener muchas tecnologías diferentes es simplemente algo dado en la tecnología de la información. Eventualmente, surgirá una solución y el desgaste natural de la tecnología se llevará lo mejor de las pocas tecnologías de protección de datos. Mientras tanto, está reparando un auto viejo en marcha y eso no va a mejorar. Lo sé. He estado ahí… afortunadamente con un auto… no con una infraestructura de backup. Todo esto tiene que ver con la criticidad de las aplicaciones en comparación con los SLA de recuperación de aplicaciones/datos en el contexto de un presupuesto optimizado. Suena muy bien, lo sé, pero en la práctica, ¿qué significa y cómo se logra? Paso 1: Identificar aplicaciones críticas Advertencia: es posible que deba recurrir a terapia grupal con sus colegas o alguien cercano para lograrlo. Mi punto es: no todas las aplicaciones son iguales y hay una dimensión dinámica vinculada a la criticidad de las aplicaciones empresariales. En otras palabras, las cosas cambian todo el tiempo y los distintos interesados van a enfocarse en lo que más les importa. A fin de cuentas, ya sea que estén alojadas en servidores virtuales o no, hacer una lista de sus 5 aplicaciones críticas es clave. Estas son las aplicaciones que probablemente llevan adelante su negocio y, por lo tanto, la protección de datos que debe entregar en términos de tecnología, personas, proceso y dinero será diferente a una aplicación interna (donde el RPO puede ser de muchas horas o días, frente a minutos o segundos). arcserve WHITE PAPER | 4 FAILOVER MONITORING CONTINUOUS REPLICATION VIRTUAL SERVERS PHYSICAL OR VIRTUAL PHYSICAL SERVERS DOCUMENTO REPLICA SERVERTÉCNICO COSTO DE LA SOLUCIÓN INCIDENTE (REDUCIR RIESGO) OBJETIVO DE TIEMPO DE RECUPERACIÓN (RTO) OBJETIVO DE PUNTO DE RECUPERACIÓN (RPO) BACKUP TRADICIONAL BASADO EN CINTA BACKUP BASADO EN IMÁGENES ALTA DISPONIBILIDAD CONTINUA RESTAURACIÓN BASADA EN IMÁGENES RESTAURACIÓN TRADICIONAL BASADA EN CINTA TIEMPO DE RECUPERACIÓN SEMANAS DÍAS HORAS MINUTOS SEGUNDOS MINUTOS HORAS DÍAS SEMANAS Fig. 1: Relación entre RPO y RTO, y un mapeo básico de las tecnologías de protección de datos comúnmente utilizadas para cumplir con las métricas correspondientes. Paso 2: Identificar el RPO Es una cuestión de números, y su capacidad de identificar claramente sus principales números de protección de datos hará toda la diferencia. No los encontrará en una galleta de la fortuna, por más tentador que suene. Recuerde, la administración ama los números y no podrá controlar o mejorar algo que no puede medir. Evaluar la pérdida de datos o la exposición a la pérdida de datos redundará en unas pocas métricas principales. El RPO es una de ellas. ¿Cuántos datos realmente puede permitirse perder? Hace poco tiempo, leí el artículo Protección de Datos para Centros de Datos Virtuales escrito por el experto en TI, autor y analista Jason Buffington. Me gustó mucho su definición, así que permítame compartirla: “Si sus metas de negocios establecen que no debe perder más de dos horas de datos, ese es su RPO, es decir, su objetivo o meta para saber con cuánta frecuencia debe tener un punto de recuperación confiable”. Esta definición resalta verdaderamente por qué debería importarnos controlar los RPO: es un objetivo del negocio. En el análisis definitivo, la tecnología (o las tecnologías) que aplique para implementar sus estrategias de RPO deben funcionar para todas las aplicaciones críticas e ir más allá, de manera coherente y predecible. arcserve WHITE PAPER | 5 DOCUMENTO TÉCNICO Paso 3: Identificar las dependencias de RTO “El RTO es el tiempo que requiere restablecer sus sistemas, datos, aplicaciones, etcétera. Es el tiempo necesario para volver a ‘levantar cabeza’”. ¡Es un objetivo, no una garantía! Participé de un debate muy interesante el otro día sobre por qué creo personalmente que el RTO no es en realidad una cuestión vinculada a la tecnología. La definición anterior respalda mi teoría. Por supuesto, estoy exagerando un poco en el sentido de que muchas tecnologías entrarán en juego para lograr que una organización o departamento levante cabeza. Al igual que el RPO, el RTO se trata de los objetivos, pero en este caso la dependencia en la tecnología se reduce por… las personas. Son las personas, los procesos y la tecnología involucrada frente a simplemente haber diseñado la infraestructura adecuada y haber seleccionado las tecnologías de protección de datos correctas. Este tema ya fue analizado en innumerables ocasiones por muchas personas, y muy inteligentes; por eso, sólo resumiré lo que piensa la persona de negocios que hay en mí: 1 El RTO es un objetivo, no una realidad 2 Verificar su plan de continuidad del negocio/recuperación de datos y, mientras tanto, validar su RPO es clave 3 Verificar su plan de RTO real es absolutamente crítico 4 La gente se interpone 5 Tecnologías como la virtualización han complicado aún más el proceso Las personas tienden a regresar rápidamente a casa cuando ocurre un desastre… así que lo mejor es que envíe el failover a otro lugar donde la gente esté trabajando. Sólo imagine qué haría. ¿Puedo venderle alta disponibilidad ahora? arcserve WHITE PAPER | 6 DOCUMENTO TÉCNICO La virtualización complicó mi vida La virtualización de servidores y de escritorio se ha generalizado en la mayoría de las organizaciones, no sólo en la empresa. Si bien los índices de adopción pueden variar según la industria, el tamaño de la empresa y la afinidad para implementar tecnologías de TI, el hecho es que atrás quedaron los días de la virtualización para “prueba/desarrollo” del lado de los servidores. La virtualización de escritorio también está creciendo rápidamente, ofreciendo muchas opciones nuevas al área de TI. Todo el mundo está de acuerdo en que la virtualización de servidores ofrece muchas ventajas, ahorra dinero, brinda más flexibilidad, etcétera. Además, puede ayudar en los escenarios de recuperación de desastres e incluso puede llegar a ofrecer algo de alta disponibilidad. Muchos informes de analistas convalidan estos puntos y los ejemplos de clientes abundan. Sin embargo, cuando de protección de datos se trata, debemos recordar algunos factores importantes que agregan una cantidad importante de complejidad a su ecuación. Si bien puede parecer que esto va en contra de la noción de que la virtualización es algo bueno para la protección/recuperación de datos, no es así. Sólo digo que genera mucha complejidad que, a su vez, complica su infraestructura de protección de datos. Aquí va: 1 Tiene aplicaciones ejecutándose en estas MV y necesitan protección. Es decir, tiene aplicaciones críticas…pero también tiene MV críticas. 2 Existe una proliferación de MV y aplicaciones (cantidades masivas) 3 Las métricas de RPO y RTO impulsadas por el negocio aún aplican 4 La granularidad de la restauración de aplicaciones/restauración de datos es necesaria 5 No todo ha sido migrado de un entorno físico a uno virtual 6 Necesita una gran experiencia para implementar y administrar el entorno 7 Los componentes físicos que respaldan la virtualización no son inmunes al error… por el contrario. Si pierde un sistema, puede perder decenas de máquinas virtuales: sistema operativo, aplicaciones y acceso de usuarios. Es decir que puede llegar a “perder” más en un solo instante. 8 Debe optimizar el almacenamiento que necesitan todas estas imágenes de sistema operativo; a fin de cuentas, ¡el almacenamiento no es tan barato! Por supuesto que puede y debe crear clústers para una mayor disponibilidad. Entonces, ahora tiene clústers críticos que ejecutan MV críticas que ejecutan aplicaciones críticas… sólo decía. Con todas estas aplicaciones, algunas críticas (y datos asociados), sigue necesitando un sitio de recuperación de desastres, de modo que todo debe replicarse en caso de que su sitio principal no esté disponible. Una cosa más… ¿Tiene más de una tecnología de virtualización? ¿VMware? ¿Hyper-V? ¿XenServer? ¿RedHat KVM? Las técnicas de protección no son iguales… de hecho, varían bastante. arcserve WHITE PAPER | 7 DOCUMENTO TÉCNICO Aún cuenta con algunos servidores físicos que no ha migrado o bien no quiere migrar y (oh sí), también está el tema de la nube. Algunos datos y MV están en la nube, lo que hace que la recuperación operativa sea más difícil de planificar. De nuevo, no es una mala técnica necesariamente, pero agrega complejidad. Recuerde que aún necesita backups para recuperar un punto en el tiempo en caso de corrupción de datos lógicos (integridad/consistencia de datos); entonces, ¿cuál es la granularidad de sus backups? ¿Hay niveles? ¿Cómo integra MV nuevas en su esquema? ¿Quién lo decide? Mi punto es que existe una complejidad agregada significativa en la protección de datos con implementaciones de virtualización. No es malo necesariamente, sólo debe comprenderse y planificarse. De otro modo, perderá el control. La gran pregunta es: ¿qué tipo de infraestructura de protección de datos necesita para simplificar esta complejidad mientras mantiene sus SLA? Tener múltiples soluciones puntuales de protección de datos no es la respuesta, ya que tiene un efecto compuesto sobre la complejidad. Para mantener el control de un centro de datos virtualizado, los administradores necesitan abordar la planificación y la ejecución de la protección de datos desde una perspectiva integral. El resultado neto es que las políticas existentes deben revisarse y adaptarse para asegurar lo que probablemente sea una infraestructura híbrida de entornos virtuales y físicos, más la nube. ¿Adónde va el dinero? Ahora que recordó cosas que ya sabía, pero que probablemente eligió ignorar hasta que verdaderamente tuviera que lidiar con ellas (que probablemente sería muy tarde), hablemos sobre el depresivo tema de aquello que actualmente nos hace falta en los presupuestos de TI: presupuesto. Mientras observa lo compleja que es su infraestructura de protección de datos en la actualidad, puede resultar útil hacer una revisión taxonómica de los costos que están agotando sus recursos, su tiempo, su presupuesto de mantenimiento y, lo que es más importante, su capacidad de cumplir con los SLA, que es para lo que se le paga (perdón por la franqueza). arcserve WHITE PAPER | 8 DOCUMENTO TÉCNICO Aquí va entonces mi lista rápida de verificación de áreas (incluye comentarios entretenidos). El objetivo no es hacer una lista exhaustiva, sino generar un punto de partida hacia un debate más profundo. Algunos de estos costos son directos, otros son indirectos (no soy contador, así que no nos pongamos demasiado académicos). Lo más importante es que muchos de estos costos están entrelazados y lo afectan o afectan a su organización de protección de datos. De modo que, mientras considera su costo total de propiedad (TCO), considere lo siguiente: 1 Administradores/personal: ¡son geniales! Pero necesita herramientas para hacer más con menos, y necesita una vida. 2 Capacitación: ¿así que de verdad hizo un curso? Sí, claro. Hablando en serio, muchos costos están 3 Licencias: siempre es un tema sensible. Comuníquese con compras. directamente asociados a la complejidad de la tecnología/falta de capacitación. 4 Ancho de banda/red: muy crítico cuando observa la cantidad de datos que está copiando de un lado a otro, en particular a través de grandes distancias. Esto puede arruinar cualquier trato en el caso de los SLA con RPO cero a través de grandes distancias (failover, replicación). 5 Almacenamiento (cinta; disco, dispositivos): son adorables, pero debe encontrar un equilibrio entre el rendimiento, la capacidad, el costo, las pruebas futuras…La provisión en exceso no será olvidada (ni perdonada). 6 Energía: a menos que realmente le guste pedalear y generar su propia energía, esta es una dimensión 7 Cumplimiento: personas, procesos, auditorías, abogados, backups adicionales y medios asociados fuera importante a considerar. Otros costos de centros de datos incluyen espacio y refrigeración. de las instalaciones. 8 Interrupción del negocio: volvemos a la pregunta sobre el RPO: ¿cuánto le está costando la pérdida de datos? Puede conducir a pérdida de ingresos, que es un costo tanto directo como indirecto a considerar. 9 Pérdida de productividad: sólo le ocurre a otros, ¿no es así? Y… fallas en el cumplimiento: multas, prisión, costos legales y cómo lo obligan a enviar una carta a TODOS sus clientes diciéndoles que sus datos personales pueden haber estado expuestos porque alguien perdió la cinta de backup. Un marketing increíble. Otra forma de verlo es enfocarse en los riesgos. La mitigación de riesgos es crítica para el negocio, y si enfocamos nuestra atención en los riesgos de TI, existen algunas áreas que vale la pena analizar. Típicamente, considerar amenazas del sistema como fallas en el hardware, problemas de red, problemas de software, corrupción de datos, errores, etc., es un gran comienzo. Existen otras áreas de riesgo, que incluyen amenazas externas como hackers y problemas relacionados con la utilización por ejemplo, pero realmente es clave considerar riesgos asociados con la interdependencia cada vez mayor de nuestras aplicaciones (piense en la cadena de valor). Todos conocemos los actos de la naturaleza y son una fuente muy válida de amenazas, en particular, a medida que vemos comportamientos climáticos extremos cada vez con más frecuencia a causa del calentamiento global. Estas amenazas deberían clasificarse según su importancia y pueden utilizarse para desarrollar una evaluación de riesgos completa de su infraestructura de protección de datos o de TI. Así, considerar tanto los costos como el riesgo en conjunto es esencial, en particular, en el contexto de la planificación de la recuperación de desastres; pero, dicho en términos más simples, lo importante es respaldar el negocio. arcserve WHITE PAPER | 9 DOCUMENTO TÉCNICO Conclusión Las infraestructuras de TI están en constante evolución mientras intentan adaptarse al crecimiento exponencial de datos que enfrentamos cada año. Esto está afectando directamente la infraestructura de protección de datos y, con el tiempo, la ha hecho más compleja a raíz del surgimiento de muchas soluciones para atender la diversidad de plataformas, aplicaciones y conjuntos de datos. Si bien la virtualización ha sido una tecnología fantástica para adquirir mayor productividad y flexibilidad, comprender el costo oculto de la virtualización y sus implicancias para las estrategias de protección de datos es crítico para continuar cumpliendo con sus SLA… y sacar el mayor provecho a su presupuesto. ¡Ya es hora de domar el monstruo que creamos! 1 Tener múltiples soluciones puntuales para la protección de datos no es la respuesta ya que aporta. al caos y obstaculiza su capacidad de ofrecer SLA consistentes. La respuesta probablemente sea adoptar una visión más integral de la infraestructura, una que unifique los esquemas de protección de datos comenzando por las necesidades de su negocio y una comprensión exhaustiva de las aplicaciones y de los conjuntos de datos que deben protegerse. Como sugirió un iluminado de la industria, el backup se rompió1. Reparémoslo. Sobre el autor Christophe Bertrand es VP de Marketing de Productos de Arcserve. Su vasta experiencia en software y hardware en la industria del almacenamiento incluye responsabilidades de marketing de productos en empresas como Legato Systems (ahora parte de EMC), VERITAS (ahora parte de Symantec), Maxtor, Hitachi Data Systems y DataDirect Networks. Christophe se graduó con honores en Administración de Empresas y fue alumno de Middlesex University (Maestría en Administración de Empresas). 1 “Gartner: The Broken State of Backup”, Dave Russell Para más información sobre arcserve, visite arcserve.com/ar Copyright © 2015 Arcserve. Todos los derechos reservados. Microsoft, Hyper-V y Windows son marcas registradas o marcas comerciales de Microsoft Corporation en los Estados Unidos y/o en otros países. Linux® es marca registrada de Linus Torvalds en los Estados Unidos y en otros países. Todas las marcas comerciales, nombres comerciales, marcas de servicio y logotipos restantes aquí mencionados pertenecen a sus respectivas compañías. El presente documento tiene únicamente fines informativos. Arcserve no asume ninguna responsabilidad por la exactitud o integridad de la información. En la medida permitida por la ley aplicable, Arcserve proporciona este documento “en el estado en que se encuentra” sin garantía de ningún tipo, incluida, sin limitación, cualquier garantía implícita de comerciabilidad, adaptación para un propósito particular o no contravención. En ningún caso, Arcserve será responsable por cualquier pérdida o daño, directo o indirecto o, derivado de la utilización de este documento, incluido, sin limitación, lucro cesante, interrupción de negocios, renombre de marca o pérdida de datos, incluso si Arcserve ha sido expresamente notificada de la posibilidad de tales daños.