Capítulo 9 Capítulo 9: Continuidad del servicio .................................................................................................197 Requisitos de negocio para la continuidad del servicio .....................................................................197 Características comunes de infraestructura y almacenamiento .............................................197 Funcionalidad de nivel básico....................................................................................198 Funcionalidad de nivel secundario.............................................................................198 Funcionalidad de nivel terciario.................................................................................200 Datos: prioridad número uno .................................................................................................201 Identificación de recursos y sistemas clave ...........................................................................202 Lista de asignación de requisitos de continuidad del servicio para activos...............204 Continuidad del servicio en entornos distribuidos.................................................................205 Falta de control centralizado de recuperación ...........................................................205 Expansión del almacenamiento..................................................................................206 Evaluación del impacto de ataques y fallas ...........................................................................208 Pérdida de capacidad de producción..........................................................................209 Pérdida de oportunidades de negocio........................................................................209 Pérdida de información confidencial y exclusiva ......................................................210 Violación de normas ..................................................................................................210 Planes de respaldo y recuperación .....................................................................................................211 Aspectos de infraestructura....................................................................................................211 Uso de la capacidad de almacenamiento ...................................................................211 Cálculo de operaciones de recuperación....................................................................212 Aspectos organizacionales .........................................................................................214 Prácticas para asegurar la continuidad del servicio ...........................................................................216 Definición de requisitos de negocio..... ..................................................................................216 Preservación y protección de la integridad de los datos ........................................................217 Continuidad del servicio como control de riesgos.................................................................217 Aspectos técnicos y organizacionales....................................................................................217 Resumen.............................................................................................................................................218 i Capítulo 9 Declaración de derechos de autor © 2006 Realtimepublishers.com, Inc. Todos los derechos reservados. Este sitio contiene material que ha sido creado, desarrollado, o autorizado por, y publicado con el permiso de Realtimepublishers.com, Inc. (los “Materiales”). Además, este sitio y todos los Materiales están protegidos por leyes internacionales de derechos de autor y de marcas comerciales. LOS MATERIALES SE PRESENTAN “EN EL ESTADO EN QUE SE ENCUENTRAN” Y ESTÁN DISPONIBLES SIN GARANTÍA DE NINGÚN TIPO, YA SEA EXPRESA O TÁCITA, INCLUYENDO, PERO SIN LIMITARSE A, CUALQUIER GARANTÍA IMPLÍCITA DE COMERCIABILIDAD, IDONEIDAD PARA UN FIN ESPECÍFICO, TÍTULO O DE NO VIOLACIÓN. Los Materiales se encuentran sujetos a cambios sin previo aviso y no representan un compromiso por parte de Realtimepublishers.com, Inc. o los patrocinadores de su sitio web. En ningún caso, Realtimepublishers.com, Inc. o los patrocinadores de su sitio web serán responsables por errores u omisiones técnicas o editoriales de los Materiales, incluyendo sin limitación, cualquier daño directo, indirecto, accidental, especial, ejemplar o consiguiente que resulte del uso de cualquier información incluida en los Materiales. Los Materiales (incluyendo sin limitación, textos, imágenes, audio y/o videos) no pueden copiarse, reproducirse, reeditarse, cargarse, publicarse, transmitirse o distribuirse de ningún modo, de manera total o parcial; excepto que una copia se descargue para uso personal y no comercial en la computadora de un solo usuario. En relación con tal uso, no puede modificar ni ocultar ningún derecho de autor u otra notificación de propiedad. Los Materiales pueden incluir marcas comerciales, marcas de servicios y logotipos que son propiedad de terceros. Usted no está autorizado para utilizar estas marcas comerciales, marcas de servicios o logotipos sin el previo consentimiento por escrito de dichos terceros. Realtimepublishers.com y el logotipo de Realtimepublishers están registrados en la Oficina de Patentes y Marcas Comerciales de los EE. UU. (US Patent & Trademark Office). Todos los nombres de servicios o productos son propiedad de sus respectivos propietarios. Si tiene alguna pregunta sobre estos términos o si desea más información sobre materiales de licencias de Realtimepublishers.com, comuníquese con nosotros por correo electrónico a [email protected]. ii Capítulo 9 Capítulo 9: Continuidad del servicio La administración de seguridad no se detiene con la prevención. Las cosas pueden salir mal, independientemente de qué tan bien se controlen las amenazas y las vulnerabilidades, y se implementen los controles de acceso. Una administración de seguridad prudente refleja que usted asume la posibilidad de que alguna vez existan fallas dentro de su infraestructura de TI. Las fallas no se limitan a las violaciones de la seguridad, aunque; los desastres naturales, las fallas eléctricas, el funcionamiento defectuoso del hardware y las fallas del software pueden afectar la habilidad de la organización para funcionar. La continuidad del servicio es la práctica o preparación para dichas complicaciones y la creación de estrategias para recuperar con el mínimo impacto posible las operaciones de la empresa. Este capítulo se centra en los principales aspectos de las prácticas para la continuidad del servicio: Identificar los requisitos de la empresa para la continuidad del servicio Formular planes de respaldo y recuperación Explorar las mejores prácticas para mantener la continuidad del servicio Como sucede con otras áreas de la administración de seguridad, la continuidad de los servicios y otras operaciones de TI se superponen en gran medida. En el caso de la continuidad del servicio, gran parte del contenido descrito en este capítulo pertenece al área de administración de almacenamiento. Por supuesto, la administración de almacenamiento no trata sólo de la continuidad del servicio, así como la administración de seguridad abarca más que la continuidad del servicio. Las dos, sin embargo, están estrechamente combinadas, y las técnicas desarrolladas en ambas áreas se complementan entre sí para proporcionar un enfoque integral destinado a la planificación de la continuidad del servicio. Requisitos de negocio para la continuidad del servicio El primer paso para comprender el alcance de los requisitos de la continuidad del servicio es comprender los datos y activos necesarios para mantener las operaciones de la organización. La planificación de la continuidad del servicio no consiste simplemente en el respaldo de todos los datos, en el almacenamiento de medios de respaldo fuera del sitio o en la restauración de los datos según sea necesario. Aunque ese enfoque puede funcionar para empresas muy pequeñas, la mayoría de las organizaciones con infraestructuras de TI han evolucionado hacia entornos más complejos que requieren una amplia gama de soluciones. Características comunes de infraestructura y almacenamiento Considere las características típicas de una infraestructura de TI de una empresa mediana a grande: Un departamento de TI centralizado es responsable de administrar activos de información; estos activos incluyen servidores, computadoras de escritorio, computadoras portátiles, dispositivos móviles, infraestructura de red y aplicaciones. El entorno puede incluir un sistema mainframe y plataformas Microsoft Windows, UNIX, Linux y otras. 197 Capítulo 9 Existen miles de usuarios; la mayoría se encuentra ubicada en las oficinas principales pero muchos trabajan de manera remota utilizando una Red Privada Virtual (VPN) para acceder a la red corporativa. Todos los usuarios que acceden a la red corporativa son autenticados por un sistema operativo de red. Los usuarios externos, incluyendo los clientes y socios de negocio, tienen acceso limitado a los recursos a través del portal. Las aplicaciones se ejecutan en sistemas mainframe, servidores del departamento, computadoras de escritorio y computadoras portátiles. Algunas aplicaciones, como las del sistema mainframe, se encuentran bajo estrictas prácticas de control; otras, como las bases de datos de Microsoft Access, son creadas según sea necesario por los usuarios habilidosos fuera del control de TI. La organización ha estandarizado un único programa de correo electrónico y calendarios para todos los usuarios. Los datos y las aplicaciones se almacenan en diferentes ubicaciones y en varias tecnologías de hardware, las cuales pueden incluir Redes de Área de Almacenamiento (SAN), dispositivos de Almacenamiento Adjunto de Red (NAS) y Almacenamiento de Conexión Directa (DAS) en computadoras de escritorio, portátiles, servidores y sistema mainframe. Se les asignan roles a los usuarios y privilegios asociados para acceder y utilizar activos de información mediante múltiples mecanismos de autorización. Entonces en este entorno, ¿qué servicios son necesarios para mantener las operaciones y cómo pueden ser protegidos de manera rentable? Desde la perspectiva de la continuidad del servicio, es mejor pensar en términos de niveles operacionales que funcionan dentro del contexto de un punto de recuperación. Un punto de inicio aproximado es considerar tres niveles de funcionalidad. Funcionalidad de nivel básico El nivel básico de la funcionalidad incluye aquellos servicios necesarios para asegurar las operaciones esenciales (los SO y los hardware básicos también se incluyen dentro del punto de recuperación), así como también aquellos que se encuentran adjuntos a los flujos de ingresos o que requieren por norma. Si estos sistemas no funcionan, la empresa no puede llevar a cabo sus operaciones de negocio. Para un fabricante, los sistemas centrales incluyen sistemas de bases de datos y módulos ERP que controlan las operaciones de envío y producción; para un minorista, el sistema de puntos de venta es esencial; para los proveedores de atención médica, los sistemas electrónicos de administración de registros de pacientes son esenciales para la continuidad operacional. En todos los casos, los puntos operacionales subyacentes de recuperación se incluyen dentro del punto de recuperación. Por supuesto, las aplicaciones principales, tales como las bases de datos y los sistemas ERP, pueden depender de los servicios de seguridad, incluyendo la autenticación, desde los sistemas operativos y otros sistemas. Estas dependencias deben tenerse en cuenta cuando se define el nivel básico de la funcionalidad. Funcionalidad de nivel secundario Luego de definir las operaciones y funciones del nivel básico, el próximo nivel corresponde a las funciones secundarias. Estos son sistemas que proporcionan servicios adicionales y pueden no estar disponibles por un período de tiempo corto sin producir un serio impacto en los ingresos o 198 Capítulo 9 en el cumplimiento de regulaciones. Por ejemplo, un portal de clientes puede desconectarse pero los usuarios pueden ser dirigidos a un centro de atención telefónica donde un empleado procesa un pedido o se ocupa de alguna inquietud mediante un sistema de procesamiento de transacciones internas. Del mismo modo, una red ATM de un banco puede dejar de funcionar aún cuando se brindan servicios en las sucursales. 199 Capítulo 9 Funcionalidad de nivel terciario El último grupo de funciones de alto nivel abarca los servicios que pueden dejar de funcionar por períodos de tiempo extensos, como un día o más, sin afectar de manera adversa a una empresa. A pesar de que los ejecutivos y administradores pueden acostumbrarse a las actualizaciones diarias de la producción y las operaciones; si el panel de información de un ejecutivo o el almacenamiento de datos se encuentran fuera de servicio durante un día o dos, la organización podría continuar en busca de sus objetivos de producción y de satisfacción de los clientes. Del mismo modo, si un sistema de administración de documentos se encuentra fuera de servicio por un día, pueden producirse demoras para algunas operaciones administrativas y proyectos, pero los empleados podrían recuperarse con un impacto razonable, una vez que el sistema se encuentre nuevamente en línea. Gráfico 9.1: La planificación de la continuidad del servicio depende de la prioridad que se dé a los servicios y las operaciones. Si bien esta descripción se centra en las aplicaciones y en los tipos de servicios que proporcionan, contradice la principal prioridad de la continuidad del servicio que abarca todos los niveles de aplicación, para preservar la integridad de los datos. 200 Capítulo 9 Datos: prioridad número uno Los datos constituyen uno de los recursos más importantes en una organización. Considere este caso relativamente sencillo: Si un vendedor pierde una computadora portátil en un aeropuerto, su preocupación principal será la pérdida de información exclusiva; reemplazar el hardware es relativamente un problema menor. La computadora portátil probablemente contiene listas de contactos, propuestas, documentos estratégicos, correos electrónicos con posibles clientes, hojas de precios y otra información que podría ser difícil de reemplazar sin un respaldo reciente. Además, existe la amenaza de que un competidor descubra la información. En algunos casos, la pérdida del control de los datos de clientes puede desencadenar una violación de cumplimiento que requiere que la empresa notifique a los clientes que su información personal puede haber sido divulgada. Por eso, en cuanto a la administración de seguridad, las áreas de control de acceso y protección de ataques desempeñan una función clave para evitar el tiempo de inactividad de un sistema ocasionado por los daños de un código malicioso. Últimamente, los ataques de gusanos y otros malware han causado daños considerables. Por consiguiente, la administración de seguridad cumple una función clave para evitar los problemas que implican el tiempo de inactividad del sistema y el robo de información confidencial. Consulte el capítulo 7 para obtener más información sobre el cumplimiento y otros problemas relacionados con el costo de la pérdida y divulgación de la información. Los mismos problemas que surgen al proteger información en una única computadora portátil, se intensifican aún más al proteger datos en una red de sistemas mainframe, servidores y computadoras de escritorio. Uno de los factores que causa mayor complejidad es la diversidad de datos que se encuentran en una red. Por ejemplo: La información de autorización y autenticación que subyace a la administración de identidades; la información sobre usuarios, funciones y privilegios se distribuye en múltiples aplicaciones y sistemas operativos. Los datos de sistemas operacionales, tales como aplicaciones de Puntos De Venta (POS), que se actualizan constantemente. Los datos de sistemas de software intermedio (middleware); por ejemplo las colas de mensajes que trasfieren datos en tiempo real, o casi en tiempo real, entre sistemas operacionales; los sistemas middleware a menudo formatean nuevamente y transforman datos a medida que los transfieren entre aplicaciones, y básicamente crean un nuevo grupo de datos derivados que deben administrarse por separado de la información de origen. Los datos en almacenamientos de datos y sistemas de Procesamiento Analítico en Línea (OLAP) que incorporan datos operacionales durante períodos adicionales (3 años es un período típico para mantener datos históricos). Estos datos son esenciales para el planeamiento estratégico y análisis de operaciones pero no necesitan estar constantemente disponibles como un sistema POS. 201 Capítulo 9 Los mensajes de correo electrónico almacenados en servidores compartidos y, de manera local, en computadoras portátiles y de escritorio. Los mensajes de correo electrónico relevantes para operaciones reguladas pueden estar sujetos a reglas de cumplimiento sobre pistas de auditoría y preservación. Otros correos electrónicos son inofensivos y no es necesario prestarles atención (“alguien dejó las luces encendidas en el estacionamiento…”); otros deben eliminarse ya que malgastan recursos, como por ejemplo aquellos correos con archivos adjuntos enormes no relacionados con operaciones de negocio. Los datos almacenados en una base de datos de Microsoft Access de un departamento para informes personalizados. Ya que el departamento no logró que el grupo de informes de TI elaborara los informes necesarios a tiempo, un usuario avanzado creó una solución personalizada. La aplicación ad hoc utilizó una macro para descargar e importar los datos necesarios desde un servidor, cada semana. El usuario avanzado luego generó informes distribuidos por todo el departamento. Con el transcurso del tiempo, el departamento comenzó a depender de estos informes. Sin embargo, la administración de TI no conoce la aplicación y por eso no la incluye en ninguna planificación de recuperación de desastres. Datos duplicados, especialmente en archivos adjuntos de correos electrónicos. El correo electrónico ha hecho que compartir archivos adjuntos sea tan fácil que está desacreditando mejores prácticas para compartir datos. En lugar de adjuntar un archivo de 5 MB y enviarlo a seis receptores (en tal caso, el archivo se copia seis veces), una mejor práctica sería colocar el original en un sistema de administración de documentos o disco de red compartido. Cualquier persona que necesite acceder al archivo recibirá permisos de lectura para ver el documento. Desafortunadamente, existen más pasos implicados en el método para compartir archivos, por eso es probable que no se utilicen. Evidentemente, no existe un único tipo de datos como se da a entender en la frase “realizar un respaldo de todos los datos”. Algunos datos son esenciales y requieren ser protegidos hasta el último momento. Un minorista no se puede permitir perder transacciones de ventas durante períodos pico de vacaciones ni tampoco puede detener las operaciones para restaurar las transacciones que se llevaron a cabo desde el último respaldo. En el otro extremo de la escala, los datos en almacenamientos que tienen 4 años de antigüedad y que fueron archivados hace un año porque no se utilizaban pueden quedar fuera de línea indefinidamente hasta que se solicite específicamente restaurarlos. El primer paso en la planificación de la continuidad del servicio es identificar los recursos y sistemas clave y priorizar su importancia para las operaciones. Identificación de recursos y sistemas clave En los comienzos de TI, identificar los recursos clave era bastante fácil; el recurso crucial era el sistema mainframe, inclusive algunos componentes como discos y terminales. La llegada de la informática distribuida ha hecho que la imagen de la infraestructura sea mucho más complicada en el entorno actual. La informática distribuida ha sido de gran ayuda para los desarrolladores y usuarios de negocio. Aunque todavía tenemos sistemas mainframe para operaciones centralizadas de gran escala, las tecnologías de servidor y red han permitido la existencia de modelos de desarrollo basados en la Web y de cliente/servidor más ágiles para aplicaciones más pequeñas y 202 Capítulo 9 específicas. La adopción de estas tecnologías más actuales ha sido increíble; muchas infraestructuras de TI combinan los tres modelos (sistemas mainframe, cliente/servidor y Web). Esta combinación ha creado un desafío para los planificadores de la continuidad del servicio. Ya no se puede dar por sentado que las aplicaciones que proporcionan funcionalidad de nivel básico se ejecutan en una única plataforma. Por ejemplo, un sistema de procesamiento de pedidos puede funcionar con un sistema mainframe, pero depende de un sistema de administración de inventario alojado en un servidor UNIX y una aplicación de verificación de créditos que se ejecuta en un grupo de servidores de Windows. Después del primer paso en la planificación de la continuidad del servicio (priorizar los requisitos de negocio), se debe continuar inmediatamente con el segundo paso (identificar los activos que se requieren para cumplir con esos requisitos). 203 Capítulo 9 Lista de asignación de requisitos de continuidad del servicio para activos Para identificar los activos que se requieren para mantener operaciones y preservar datos, y para priorizarlos como corresponde, las organizaciones necesitan responder varias preguntas: En cuanto a cada operación, por ejemplo el procesamiento de pedidos, ¿cuál es la aplicación primaria? En algunos casos, pueden existir múltiples aplicaciones. Las organizaciones que se desarrollan por adquisición pueden continuar ejecutando una aplicación de una empresa adquirida durante un tiempo, antes de consolidar un único sistema. ¿Dónde se almacenan los datos de esa aplicación? ¿Los datos se almacenan en almacenamientos administrados y adjuntos en forma local o se guardan en un activo compartido, como por ejemplo una SAN o un NAS? Si se encuentran en un activo compartido, ese activo adquiere la misma prioridad que la aplicación de mayor prioridad que utiliza el activo. ¿Cómo se lleva a cabo la administración de identidades? ¿Los silos de autenticación y autorización, se utilizan en toda la organización o se encuentra en funcionamiento un sistema de administración de identidades centralizado? En el primer caso, la recuperación es más difícil ya que se debe descargar nuevamente la información sobre los usuarios, roles y privilegios para cada aplicación. ¿Qué aplicaciones dependen de los datos de la aplicación primaria? ¿Cuáles de ellas prestan servicio a la aplicación primaria?, (por ejemplo un sistema de administración de inventario que proporciona niveles de inventario de productos para una aplicación de procesamiento de pedidos). ¿Cuáles son consumidores exclusivos de datos, como por ejemplo un almacenamiento de datos? Las aplicaciones que prestan servicios a la aplicación primaria tendrán la misma prioridad que la aplicación primaria; la prioridad de esas aplicaciones que son exclusivamente consumidoras de datos se determinará por la prioridad de negocio de la aplicación del consumidor. ¿Qué aplicaciones prestan servicios de infraestructura a otras aplicaciones? Los servicios de autenticación de red y de inicio de sesión único (SSO) pueden utilizarse en un entorno distribuido. La autenticación de red puede ser esencial para permitir que los usuarios accedan a una aplicación principal; de esta manera es un servicio de alta prioridad. Si un servidor SSO no estuviera funcionando, los usuarios aún podrían utilizar múltiples aplicaciones; simplemente necesitarían autenticación en cada una por separado. Este tipo de servicio debería recibir menos prioridad que otros para los cuales no existe una solución simple y segura. Cuando identifique activos clave, recuerde estas cuatro categorías: ● Aplicaciones ● Datos ● Servicios de infraestructura ● Información de administración de identidades y acceso 204 Capítulo 9 Después de priorizar requisitos de negocio y asignarlos a requisitos funcionales que describen qué activos de TI se requieren para cumplir dichos requisitos, es hora de prestar atención a los problemas de administración de esos activos de información. Continuidad del servicio en entornos distribuidos El crecimiento en torno de los tres modelos de desarrollo, muchas veces ha sido dinámico en el mejor de los casos y ad hoc en el peor de ellos. Ya que el sistema mainframe fue lo primero que se desarrolló, presenta las mejores prácticas para mantener la integridad y confiabilidad de las aplicaciones. La administración de cambios y el control de versiones son prácticas comunes en entornos de sistemas mainframe. Varios entornos de desarrollo Web y cliente/servidor siguen prácticas disciplinadas en forma similar, pero ese no es siempre el caso. Una de las razones por las cuales el control de cambios es más difícil en entornos distribuidos, es que sus administradores de sistemas y usuarios cuentan con más opciones. Agregar un disco a un sistema mainframe no es un asunto trivial; adjuntar otro disco SCSI a un servidor es una práctica común. La flexibilidad de la tecnología de almacenamiento ha provocado uno de los problemas más difundidos en la administración de almacenamiento: la expansión del almacenamiento. Por ejemplo, un minorista podría poseer datos esenciales e información de control de acceso dispersos en múltiples plataformas: Los sistemas principales, como los puntos de venta y el sistema CRM del minorista, pueden utilizar un almacenamiento de sistema mainframe. Los datos de dichos sistemas están bien protegidos por procedimientos de respaldo altamente estructurados y monitoreados. La información de control de acceso se administra de acuerdo con políticas estrictas. Un portal de clientes puede ejecutarse en un servidor UNIX conjuntamente con una base de datos relacional interna en un cluster Linux. Ambos usan una combinación de SAN y almacenamiento adjunto local. La base de datos utiliza el proceso de replicación para garantizar una alta disponibilidad. Los discos locales que contienen el SO y la base de datos relacional son respaldados en cinta. Los administradores de sistemas administran cuentas de manera local. El grupo de comercialización lleva a cabo operaciones de extracción de datos y otras operaciones analíticas desde sistemas mainframe y aplicaciones web, así como también datos adquiridos de proveedores externos. Almacenan sus datos en un servidor Windows a nivel departamental, con un arreglo de disco RAID-5 local. Un usuario avanzado del departamento es responsable de respaldar datos en CD como también de crear directorios compartidos y otorgar acceso cuando sea necesario. El problema de este escenario tiene dos aspectos: la falta de un control centralizado y la expansión del almacenamiento y de la información asociada de control de acceso. Falta de control centralizado de recuperación El primer problema es la falta de una administración centralizada de datos a los fines de recuperación. Los datos del sistema mainframe están bien administrados; pero incluso si esos datos se recuperan después de un desastre natural, el portal de clientes podría no funcionar después de una falla hasta que la base de datos del portal se restaure. Los procedimientos para restaurar el sistema mainframe y los servidores UNIX y Linux son independientes. Es probable 205 Capítulo 9 que dos grupos diferentes con TI los administren, posiblemente con diferentes estrategias de recuperación. El departamento de comercialización puede conservar respaldos en el sitio que podrían dañarse junto con su servidor, en caso de un desastre natural. Gráfico 9.2: La capacidad de una organización para recuperarse de complicaciones operacionales es como una cadena, es tan fuerte como lo es el eslabón más débil. Expansión del almacenamiento El segundo problema es la expansión del almacenamiento como solución a los problemas de administración de datos. Cuando los sistemas de correo electrónico se quedan sin espacio, resulta más rápido, y a corto plazo menos costoso, agregar más espacio de disco que analizar en forma metodológica los contenidos de las carpetas de correo electrónico y archivar y borrar datos como corresponde. De igual forma, cuando un almacenamiento de datos sobrepasa su capacidad, los usuarios pueden insistir en que necesitan guardar información detallada durante muchos años “en caso” de que se necesite en el futuro. Un mejor método es archivar los datos más antiguos utilizados con menor frecuencia y mantener datos históricos resumidos en línea. Al igual que el ejemplo del correo electrónico, este proceso requiere más tiempo y análisis para comprender los datos que se podrían necesitar frente a la posibilidad de que el administrador de bases de datos simplemente agregue más espacio de disco. Aunque estas respuestas parecen apropiadas a corto plazo, simplemente producirían más trabajo y gastos en el futuro. El costo de eliminar almacenamientos ante un problema de administración de datos incluye los costos de administración, respaldo y recuperación, así como también los costos iniciales para el hardware. Esto se ilustra en los siguientes ejemplos. Correo electrónico no administrado A medida que los volúmenes de datos aumentan, las estrategias de administración son más elaboradas. Los sistemas de correo electrónico pueden requerir servidores adicionales aunque la cantidad de usuarios no aumente. Ya que algunas características como búsqueda e indización se llevan a cabo en carpetas de archivos cada vez más grandes, el tiempo que se requiere para completar las operaciones aumenta. Los resultados son predecibles: el tiempo de respuesta empeora, 206 Capítulo 9 Los usuarios se quejan Los administradores invierten en una mayor cantidad de hardware El círculo continúa Un método puede incluir activar múltiples servidores en ubicaciones separadas para mejorar el rendimiento. Este método, a su vez, requiere una sincronización de carpetas de correo electrónico en toda una WAN (Red de Comunicación Extendida), lo que agrega carga adicional al ancho de banda de la red. El administrador de correo electrónico ha delegado la responsabilidad al administrador de red y ha convertido un problema de administración de datos en un problema de rendimiento de red. Además, los administradores de sistemas perciben el impacto de una administración de datos poco satisfactoria. Los volúmenes de datos en aumento reducen los límites de sistemas de recuperación y respaldo. Las ventanas de tiempo para realizar respaldos a menudo están fijadas y determinadas por otros requisitos de negocio. Para poder cumplir con los tiempos asignados, los administradores han recurrido a una mayor cantidad de hardware de respaldo o a hardware de respaldo más rápido, con costos obviamente más altos. Nuevamente, al no solucionar el problema de raíz, el impacto de una administración deficiente de almacenamiento repercute en otras operaciones de TI. Además del costo del hardware, el personal y los medios requeridos para realizar respaldos, pueden existir costos adicionales por almacenamientos físicos, especialmente en instalaciones de almacenamiento externas altamente seguras. La capacidad de recuperación ante un fallo de seguridad o desastre natural también está influenciada por el volumen de datos que se respaldan. Mientras más datos deban almacenarse, más tiempo se necesitará. Como se menciona más adelante en este capítulo, comprobar los medios de respaldo es la mejor forma de asegurar la continuidad del servicio. Será necesario recoger muestras más extensas y variadas a partir de los medios de respaldo, a medida que el número y los tipos de cintas y discos aumenten. El efecto dominó de poner en funcionamiento un nuevo hardware para que los respaldos puedan finalizar en una ventana de tiempo predeterminada persiste durante mucho tiempo después de que comience a funcionar el nuevo hardware, especialmente con respecto a los procedimientos de recuperación y comprobación. Los sistemas de correo electrónico, obviamente, no son las únicas aplicaciones que presentan estos problemas. Sacrificio de lo ideal por lo práctico Considere otro ejemplo. Debido a que el almacenamiento de datos aumenta, los administradores se ven forzados a ajustar la indización y a distribuir estrategias para acomodar los crecientes volúmenes de información que puede resultar no tan necesaria como otros datos. Debido a que no existe una política en vigencia para administrar diferentes tipos de datos, todos los datos reciben el mismo tratamiento. El esquema físico de los archivos y espacios de tabla de una base de datos diseñado para cientos de gigabytes de datos no funcionará de la misma manera con cientos de terabytes de datos. Una mejor solución es analizar los patrones de uso en el almacenamiento de datos. Normalmente, los usuarios de almacenamiento de datos revisan datos resumidos, tal como el número de un producto en particular vendido en una región durante un período determinado (un 207 Capítulo 9 día, una semana y un mes son períodos comunes). Ocasionalmente, los usuarios deben centrarse en la información detallada, como escuchar todos los detalles de cada venta de producto en una tienda particular durante un día determinado. Simplemente porque una situación como esta puede ocurrir, no significa que todas las instancias posibles de la misma deban acomodarse al mismo nivel de rendimiento. Por ejemplo, considere la necesidad de los gerentes de venta de obtener datos detallados cuando analizan ventas de productos: Los gerentes de venta se centran en detalles el 10 por ciento del tiempo que pasan revisando los informes de almacenamiento de datos. Cuando realmente se centran en los detalles un 90 por ciento del tiempo, es cuando los datos tienen menos de 30 días de antigüedad. El 99 por ciento del tiempo se destina a analizar los datos de menos de 90 días de antigüedad. ¿Deben almacenarse los datos detallados de los últimos 3 años simplemente porque los datos de resumen deben conservarse durante todo ese tiempo? Una mejor estrategia es conservar los detalles durante 3 meses y no durante 36 meses. En esos casos fuera de lo común en los cuales se solicitan datos detallados, éstos pueden rastrearse a partir de un archivo. Cumplir con requisitos de negocio, a veces, requiere el sacrificio del ideal teórico (“almacenar todos los datos durante 3 años”) para establecer el ideal práctico (“almacenar todos los datos necesarios para responder ante el 99 por ciento de las consultas en línea; archivar el resto”). El beneficio es un sistema más razonable y menos costoso. Es sencillo aumentar el almacenamiento; puede ser difícil administrar el sistema resultante. Cuando se brinda apoyo a la continuidad del servicio en entornos distribuidos, es importante equilibrar el ideal de mantener la misma accesibilidad de todos los datos todo el tiempo con la necesidad de rendimiento y manejabilidad. No todos los datos se crean de la misma forma. Los requisitos de negocio, el cumplimiento con las normas y los costos frente a los intercambios de beneficios deben determinar qué datos se almacenan, cómo se almacenan y cómo se realizan los respaldos. Como se ilustra en los ejemplos, no existen datos aislados. Una administración de datos precaria en un sistema de correo electrónico puede degradar el rendimiento general de una red. La falta de entendimiento de cómo utilizar datos puede llevar a malas elecciones en la retención de datos, aumentado en última instancia el costo del análisis de datos. El dinero que se utiliza para almacenar datos que no se utilizan con frecuencia podría invertirse de mejor manera en una herramienta analítica o en la adquisición de datos más relevantes. Otro factor crítico en la administración de datos es entender cómo la pérdida de datos o aplicaciones impactará en las operaciones organizacionales. Evaluación del impacto de ataques y fallas La continuidad de servicio es fundamentalmente una forma de control de riesgo. Se identifican los activos esenciales, se priorizan sus funciones y motivos y se evalúa el impacto relativo de la pérdida de esos activos. Luego, se formulan planes para minimizar el riesgo de esos activos mientras se mantienen los costos en proporción con el valor del activo. 208 Capítulo 9 Para obtener más información sobre control de riesgos, consulte el capítulo 4. El potencial de ataques y fallas presenta varios tipos de consecuencias adversas: Pérdida de la capacidad de producción Pérdida de oportunidades de negocio Pérdida de información confidencial y exclusiva Violación de normas Aunque se describen de manera separada, pueden ocurrir juntas, y de hecho lo hacen, como resultado de un único incidente. Pérdida de capacidad de producción La pérdida de capacidad de producción es generalmente una de las más sencillas de cuantificar. Si un centro de llamadas no se encuentra disponible y no se reciben los pedidos, una empresa puede calcular, según el rendimiento anterior, la pérdida de ingresos durante ese período. Es más difícil evaluar la probabilidad de una pérdida de capacidad de producción. En regiones propensas a desastres naturales estacionales, como huracanes en la costa sudeste de los Estados Unidos, las personas pueden prepararse razonablemente para obtener luz a fin de moderar las interrupciones de servicios esenciales, como la electricidad. Sin embargo, estos tipos de desastres naturales algo predecibles justifican sólo una fracción de las interrupciones en los servicios de TI. Uno de los problemas más comunes es el error humano. Aunque uno no puede calcular fácilmente el tipo exacto de error humano o el impacto específico, las organizaciones deben planificar las interrupciones que resultan de causas imprevistas. Las organizaciones también deben considerar el tiempo necesario para restaurar los controles de acceso a niveles apropiados. Aún después de que se reemplaza el hardware y se restauran los datos, los sistemas de producción permanecerán apagados hasta que se restaure la información de autorización y de autenticación actualizada para el sistema de control de acceso. Pérdida de oportunidades de negocio La pérdida de oportunidades de negocio es más difícil de cuantificar. ¿Qué contratos potenciales se pierden cuando un vendedor pierde una computadora portátil con propuestas prometedoras? ¿La computadora portátil tenía un respaldo o el vendedor canceló los más recientes respaldos debido a problemas de rendimiento con conexiones de red lentas y poco confiables? Los dispositivos móviles, como las computadoras portátiles, presentan desafíos especiales con respecto a estrategias de respaldo. De hecho, este problema es sólo un tipo de error humano que lidera la lista de causas comunes de fallas en los activos de TI. Las oportunidades de negocio también pueden sufrir filtraciones de información. Actualmente, los robos de computadoras portátiles se mencionan en los titulares con demasiada frecuencia. Junto con el hardware robado, las empresas arriesgan perder información confidencial del cliente, detalles de operaciones exclusivas y otra información que puede comprometer la situación definitiva de una empresa. Las soluciones anti-malware ayudan a mitigar la amenaza de filtraciones de información a través de troyanos, keylogger y otras formas de software espía; sin embargo, estas soluciones no son suficientes para proteger los dispositivos 209 Capítulo 9 móviles. La información confidencial debe cifrarse en los dispositivos móviles y se debe considerar una autenticación de múltiples factores cuando se almacenan datos totalmente confidenciales en un dispositivo móvil. Pérdida de información confidencial y exclusiva La pérdida de información confidencial y exclusiva puede ser particularmente costosa. La mayoría de las empresas no poseen información exclusiva tan secreta como la fórmula de la Coca Cola; no obstante, la pérdida de información detallada sobre estrategias de ventas, desarrollo de productos y situación competitiva puede tener consecuencias costosas. Una simple computadora portátil dejada en la sala de una conferencia sobre perspectiva de venta y tomada por un competidor, podría costarle un cliente a la empresa. Los empleados descontentos pueden significar una pérdida de datos causada por robo de identidades, violación de normas o daño a la imagen pública de una organización. Las nuevas leyes de divulgación permiten que el público actualmente tenga más conocimiento sobre las violaciones de seguridad que en el pasado, incluyendo aquellas causadas por personal interno. Violación de normas Los gobiernos desde el nivel estatal hasta el nivel transnacional han aprobado legislaciones protegiendo la privacidad de las personas. Algunas de las más comunes son: Ley 1386 del Senado de California (California Senate Bill 1386) Ley de Portabilidad y Responsabilidad del Seguro Médico de los Estados Unidos (HIPAA) Ley de Modernización de Privacidad Financiera de 1999 (también conocida como Ley Gramm-Leach-Bliley) Directiva de Privacidad de la Unión Europea Ley de Privacidad de Canadá (Canadian Privacy Act) Ley Canadiense de Protección de Información Personal y Documentos Electrónicos (Canadian Personal Information Protection and Electronics Document Act) Estas leyes protegen tipos específicos de información, tales como información de atención médica protegida por la HIPAA, así como también información personal más amplia, como la que protege la Ley 1386 del Senado de California, la cual dicta los procedimientos cuando se divulga involuntariamente información que identifica a una persona. Aunque en el pasado las organizaciones podían evitar la divulgación pública de una violación de seguridad, la aparición de normas de seguridad ha cambiado las opciones disponibles para las empresas que son víctimas de delitos cibernéticos. El impacto de los ataques y fallas es muy variado. Las consecuencias financieras son directas (pérdida de ingresos como resultado de pérdida de capacidad de producción) e indirectas (pérdida de la confianza del cliente). El costo del cumplimiento representa costos adicionales para las empresas al solicitarles que se preparen para una pérdida o infracción. Uno de los factores más importantes que determina el costo total de las operaciones de recuperación es la calidad de los servicios de recuperación y respaldo de una organización. 210 Capítulo 9 Planes de respaldo y recuperación Un plan de respaldo y recuperación bien diseñado tiene varias características: Los datos se respaldan de acuerdo con la prioridad de su valor empresarial. Los datos se respaldan con una frecuencia suficiente para minimizar el costo y el tiempo necesarios para recrear los datos no capturados en la operación de respaldo más reciente. Los medios de respaldo se prueban regularmente. Los medios de respaldo conservan adecuadamente los datos durante el período de tiempo que exige la política de respaldo. Los datos pueden restaurarse oportunamente. Llamativamente, esta lista no incluye características sobre los tipos y ubicaciones de los dispositivos que se respaldan. Por ejemplo, no se tiene en cuenta si la información de contacto de un cliente se distribuye a través de un grupo de computadoras portátiles, de escritorio y servidores; ese tipo de información es muy valiosa para una empresa. El desafío para los administradores de sistemas es asegurar que todos los datos de los clientes se distribuyan a través de los dispositivos que se respaldan de manera consistente y confiable. Los desafíos para implementar planes de respaldo y recuperación confiables se clasifican, a grandes rasgos, en dos categorías: aspectos de infraestructura y aspectos organizacionales. Aspectos de infraestructura Los aspectos de infraestructura relacionados con el respaldo y la recuperación se centran en el entendimiento del uso de la capacidad de almacenamiento y en la identificación de las tendencias de ese uso. Específicamente, se deben contestar las siguientes preguntas al formular e implementar un plan de respaldo y recuperación: ¿Qué capacidad de almacenamiento se utiliza? ¿Para qué se utiliza? ¿Cuáles son las tendencias de uso? ¿Qué espacios no se utilizan? ¿Qué espacio se encuentra ocupado por datos que no poseen valor o que poseen poco valor empresarial? Gracias a las respuestas a estas preguntas, los administradores de sistemas pueden identificar activos de información de negocios clave, medir el volumen de los activos y entender cómo estos volúmenes aumentarán con el tiempo. Uso de la capacidad de almacenamiento No todos los datos almacenados en un disco deben contar con un respaldo. Respaldar simplemente todos los discos y dispositivos puede extender el tiempo necesario para realizar operaciones de recuperación y respaldo; así como también puede provocar el uso ineficiente de los fondos de TI al obtener dispositivos y medios de respaldo innecesarios. Evitar grandes pero innecesarias fuentes de datos puede proteger recursos de respaldo significativos. En algunas áreas potenciales de ahorro se puede evitar los siguientes puntos: 211 Capítulo 9 Archivos multimedia almacenados en carpetas personales del correo electrónico Almacenamiento temporal de aplicaciones, como espacio de clasificación utilizado por bases de datos Archivos de intercambio y otro almacenamiento temporal del sistema operativo En algunos casos, los administradores de sistemas pueden intercambiar tiempo por almacenamiento al no respaldar datos que pueden regenerarse. Por ejemplo, un gran almacenamiento de datos a menudo utiliza muchos índices para mejorar el rendimiento de las consultas. Dependiendo de la cantidad y el tipo, estos índices pueden agregar decenas de porcentajes a la capacidad total de un almacenamiento de datos. Debido a que los índices son fáciles de reconstruir, asumiendo que el almacenamiento de datos no debe estar disponible de inmediato, los insignificantes ahorros en almacenamiento y tiempo justifican el tiempo extra de recuperación. Tal es especialmente el caso de las operaciones de respaldo que exceden o se encuentran cerca de exceder los intervalos de tiempo permitidos. Cálculo de operaciones de recuperación Existen dos medidas clave de operaciones de recuperación: Tiempo de recuperación Objetivo del punto de recuperación El tiempo de recuperación calcula el tiempo que tarda una operación de recuperación. Una restauración a partir de una cinta puede tardar horas; la recuperación a partir de un disco puede realizarse en minutos. El objetivo del punto de recuperación calcula la antigüedad de los datos restaurados. El peor de los casos para un disco que se respalda todos los días es un objetivo de punto de recuperación de menos de 24 horas; esto ocurriría, por ejemplo, cuando un disco falla justo antes del comienzo del respaldo diario. El tiempo de recuperación y el objetivo del punto de recuperación variarán con el tipo de tecnología de respaldo. Las cintas, aunque relativamente económicas, necesitan mayor cantidad de tiempo de recuperación y objetivos de puntos de recuperación más antiguos. La replicación y clonación de discos puede minimizar ambas características. Advertencias sobre la replicación Antes de considerar que la replicación es una panacea, es conveniente notar dos problemas significativos de este tipo de respaldo inmediato. Primero, la replicación de discos copia tanto datos malos como los buenos. Si se agregan datos de mala cantidad a una base de datos, estos se replican de inmediato en el dispositivo de respaldo. Realizar una restauración a partir del dispositivo de replicación simplemente restaura los mismos datos de mala calidad. Con servicios más lentos e interrumpidos, como las cintas, existe una oportunidad para corregir los datos incorrectos antes de que se graben en el dispositivo de respaldo. Segundo, los respaldos inmediatos a nivel de disco pueden dejar aplicaciones en un estado inconsistente. Considere el clásico ejemplo de un proceso de transacción: transferir fondos de una cuenta de ahorro a una cuenta corriente. La operación de transferencia consiste en dos pasos: deducir fondos de la cuenta de ahorro y acreditar fondos en la cuenta corriente. 212 Capítulo 9 Ahora, asuma que el primer paso se completa exitosamente y los fondos se deducen de la cuenta de ahorro. Esta operación cambia un bloque de datos en la base de datos, que luego se replica en el dispositivo de respaldo. Mientras la base de datos procesa el segundo paso (acreditar fondos a la cuenta corriente) el disco falla. Luego, el estado de la base de datos se restaura a partir del dispositivo de replicación y refleja la extracción de fondos de la cuenta de ahorro sin la acreditación de fondos a la cuenta corriente. Las aplicaciones sólidas, como las bases de datos, están diseñadas para manejar este tipo de situaciones (consulte la barra lateral Recuperación de transacciones para obtener más información) pero no todo los sistemas son tan flexibles. Asegúrese de entender el comportamiento de las aplicaciones en relación con la recuperación de transacciones antes de restaurar a partir de datos replicados. Recuperación de transacciones Nadie desearía transferir fondos desde una cuenta a otra si existiese la posibilidad de que los fondos se perdieran a causa de una falla del sistema. Por fortuna, los diseñadores de base de datos han creado estrategias sólidas de recuperación para remediar dichas situaciones. (Los sistemas de base de datos pueden utilizar diferentes técnicas pero existen principios básicos de recuperación de transacciones). Una transacción es una unidad de trabajo que debe completarse en forma total o parcial. Una transacción de transferencia de fondos, por ejemplo, no está completa a menos que se realice la deducción y la adición. Para mantener la integridad de las transacciones, las bases de datos desempeñarán los siguientes pasos: ● Escribir un informe en un archivo de registro que indica el comienzo de la transacción. ● Escribir un informe que describe la primera operación antes de que la misma se lleve a cabo. ● Una vez que el informe de registro se escribe exitosamente, se ejecuta la operación (tal como la deducción de fondos de la cuenta de ahorro). ● Escribir un informe de registro que indica que los fondos se agregan a la cuenta corriente. ● Una vez que el informe de registro se escribe de manera exitosa, se ejecuta el cambio a la cuenta corriente. ● Se completa la transacción y los informes de registros relacionados con la transacción se eliminan del registro. Si la base de datos falla luego de deducir los fondos de la cuenta de ahorro pero antes de que se agreguen a la cuenta corriente, la base de datos se encontrará en un estado inconsistente. Verificar y resolver dichos estados inconsistentes es uno de los primeros procesos que la base de datos lleva a cabo cuando se recupera. Inmediatamente luego de reiniciarse, la base de datos analizará el archivo de registro para determinar si se inició alguna transacción pero nunca se completó. En este caso, encontrará que la transacción de transferencia había comenzado pero no se completó. Entonces la base de datos anula la transacción parcial al regresar los fondos a la cuenta de ahorro. Como resultado, la transacción de transferencia continuará fallando pero al menos la base de datos se encontrará en un estado consistente. Los términos tales como recuperación de transacciones y objetivo de punto de recuperación pueden hacer que la continuidad del servicio parezca un problema tecnológico. La tecnología es sólo un aspecto de esta área de administración de la seguridad. 213 Capítulo 9 Aspectos organizacionales Muchas de las decisiones que se toman sobre la base de las operaciones de respaldo y recuperación son decisiones organizacionales: ¿A qué datos se les debería realizar un respaldo? ¿De qué manera influyen las normas en las operaciones de continuidad del servicio? ¿De qué manera se puede restaurar la información de administración de identidades actualizada en caso de que surja alguna complicación? ¿Cuáles son las políticas de organización con respecto al almacenamiento de correo electrónico? ¿Qué deben hacer los usuarios de computadoras portátiles para garantizar la realización permanente de respaldos? ¿Qué procedimientos están en funcionamiento para adaptarse a los cambios en los formatos de almacenamiento y en los medios, especialmente con respecto a los archivos a largo plazo? ¿Cómo se evalúan los dispositivos y los medios de respaldo? Estos aspectos organizacionales reflejan la naturaleza de control de riesgos de las prácticas de continuidad del servicio. Idealmente, debería realizarse un respaldo de todos los datos en todos los dispositivos. Sin embargo, este ideal no se cumple en la realidad. No sólo la mayoría de los datos tienen valor empresarial limitado (por ejemplo, fotos personales adjuntas a correos electrónicos), sino que el costo de la administración de una política completa de respaldo es prohibitivo. Tenga en cuenta algunos de los desafíos para las políticas ideales de respaldo. Desafíos para crear políticas prácticas 1: Usuarios móviles Considere los usuarios de computadoras portátiles. Los vendedores, los asesores, y otros que pasan la mayor parte de su vida laboral viajando, generalmente tienen acceso limitado a la red corporativa. A menudo, verifican sus correos electrónicos y algunas veces acceden desde hoteles y aeropuertos a herramientas de colaboración corporativa, tales como portales de administración de conocimiento y sistemas de administración de documentos. Es difícil planificar una estrategia de respaldo sin un patrón permanente de conexión a la red corporativa. Por ejemplo, un administrador de sistemas podría exigir regularmente la realización de un respaldo. Si el dispositivo no está conectado a la red en el momento programado para la realización de un respaldo, éste se realizará la próxima vez que el dispositivo se conecte a la red. En teoría, esta opción parece razonable pero en la práctica es muy probable que no funcione. Si un vendedor se conecta por VPN a la red corporativa desde un aeropuerto mientras que espera un vuelo de conexión, lo último que necesita es que comience una extensa operación de respaldo que utilice todo el ancho de banda. Incluso con sólo un respaldo incremental puede ser que no haya tiempo suficiente para completar la operación antes de que la computadora portátil se desconecte de la red. Desafíos para crear políticas prácticas 2: Metadatos Otro desafío para la creación de una política práctica es clasificar las características de los datos que se utilizan para definir las políticas de respaldo. Estas características incluyen la naturaleza 214 Capítulo 9 de los datos en sí, por ejemplo, archivos de multimedia, bases de datos y mensajes de correo electrónico, así como también la ubicación de los datos en un servidor de producción en comparación con un servidor de desarrollo. Se necesita mucho tiempo para realizar un seguimiento de este tipo de información en servidores múltiples que ejecutan varios SO y una variedad de aplicaciones. (Los productos de administración de almacenamiento emergentes están comenzando a tratar estos temas; para más información, consulte la barra lateral que se detalla a continuación). Administración de almacenamiento La administración de almacenamiento es un segmento emergente del mercado de TI que incluye operaciones de respaldo y recuperación. La administración de almacenamiento surgió como respuesta a la expansión del almacenamiento causada, en parte, por la idea de que "el almacenamiento es económico: resuelve problemas agregando más hardware". Los resultados de esta práctica son claros: ● Los datos se expanden a través de computadoras de escritorio y servidores descentralizados. ● Es más complicado realizar un seguimiento del valor empresarial de los datos. ● Los volúmenes de respaldo aumentan y exceden los límites de tiempo permitidos para realizar respaldos. ● Cada vez se hace más difícil encontrar información. El creciente interés por la búsqueda empresarial y las tecnologías similares es un indicador de las dificultades que tienen los usuarios para encontrar información. La administración de almacenamiento trata todos estos problemas al combinar las soluciones de los proveedores de hardware y software en una solución centralizada. Como hemos visto repetidamente a lo largo de este libro, el crecimiento distribuido descentralizado en la infraestructura de TI ha generado silos de información. Una tendencia actual en numerosas áreas de TI consiste en continuar con implementaciones descentralizadas pero agregando un nivel de administración centralizada. La administración de almacenamiento utiliza el mismo enfoque. Algunas de las características clave de la administración de almacenamiento son: ● La capacidad para trabajar con varios dispositivos ● La capacidad para trabajar con varias plataformas ● La realización de un seguimiento del uso y capacidad de los servidores ● La clasificación de los metadatos sobre los objetos de almacenamiento, tales como archivos, carpetas y dispositivos La administración de almacenamiento es un campo emergente y de ningún modo es una panacea para todos los problemas que enfrentan los administradores de sistemas. Sin embargo, ha comenzado a brindar herramientas para una administración central de los servicios de almacenamiento distribuido. Asimismo, es difícil hacer cumplir los procedimientos operativos estándar con respecto a algunas prácticas de administración de almacenamiento. Por ejemplo, tenga en cuenta una directiva como: No envíe adjuntos de más de 1 MB a más de dos receptores, en su lugar, guarde una sola copia del adjunto en el portal de negocio y envíe un URL a los receptores. Técnicamente, se puede implementar un procedimiento dentro de una aplicación de correo electrónico para hacer cumplir esta práctica, pero ¿con qué consecuencias? ¿Qué sucede si el remitente es un empleado nuevo sin acceso al portal de negocio? ¿Puede el empleado no enviar un documento urgente a sus colegas? 215 Capítulo 9 Los portales generalmente utilizan controles de acceso para proteger la integridad y confidencialidad de su contenido. ¿Qué sucede si los receptores no tienen acceso a una ubicación en común en el portal? ¿Debería el remitente crear una carpeta sólo para este grupo de receptores? Actualmente el costo de administrar el almacenamiento excesivo de correos electrónicos ha cambiado para crear y administrar documentos en un depósito centralizado. Este ejemplo tipifica de qué manera se han interconectado los desafíos técnicos y organizacionales de la continuidad del servicio. De hecho, algunos de los desafíos más importantes que abarcan las áreas técnica y organizacional no pueden solucionarse con facilidad. ¿Quién decide que datos hay que proteger? Ésta es una cuestión de gobernabilidad. Alguien en un centro de datos puede estar tomando decisiones sobre los datos cuando no es conoce el impacto de éstos en la empresa. Del mismo modo, posiblemente un empresario no comprenda el costo de realizar respaldos de datos o del valor en los procedimientos siguientes para rastrear metadatos sobre almacenamiento. ¿Cuánto almacenamiento se considera demasiado? El crecimiento del almacenamiento está impactando en los respaldos, en el ancho de banda y en el desempeño del sistema. No podemos seguir comprando hardware. El entorno informático se desestabiliza sin las herramientas de administración de almacenamiento para administrar y prever el crecimiento. Los problemas de administración se están agravando con los accesos directos y las reparaciones rápidas basadas en la adición de más hardware. Las operaciones de respaldo y recuperación son las bases técnicas de la continuidad del servicio. Una vez que se comprende los datos en una organización, el paso siguiente para prepararse para una pérdida catastrófica de los servicios informáticos es formular planes de respaldo y recuperación. Estos planes deben tener en cuenta los temas organizacionales y de infraestructura que desafían la continuidad del servicio. Afortunadamente, esta área de administración de seguridad cuenta con la experiencia suficiente como para haber creado un conjunto de procesos óptimos. Prácticas para asegurar la continuidad del servicio El objetivo de la continuidad del servicio es preservar la capacidad de una organización para continuar funcionando a pesar de desastres naturales o fallas técnicas. Existen cuatro pasos de alto nivel para cumplir con este objetivo: Definir los requisitos de negocio Preservar y proteger la integridad de los datos, incluyendo la administración de identidades y los datos relacionados con el control de acceso Poner en práctica la continuidad del servicio como una forma de control de riesgos Tratar los problemas organizacionales y técnicos relacionados con la continuidad del servicio Definición de requisitos de negocio Los requisitos de negocio deberían clasificarse en niveles de funcionalidad. La funcionalidad de nivel básico incluye todos los servicios que deben funcionar para que una organización lleve a cabo operaciones centrales mínimas. Los vendedores minoristas deben tener un sistema POS 216 Capítulo 9 para recibir órdenes; los fabricantes deben tener sistemas de control de producción para continuar con las operaciones; los diseñadores deben tener sistemas CAD para continuar trabajando. Las funciones secundarias brindan servicios adicionales que deberían comenzar a funcionar a la brevedad. Sin ellas, el servicio pierde calidad pero no se termina. Las funciones terciarias son aquellos servicios que pueden realizarse durante períodos extendidos (por ejemplo, hasta un día o más) sin afectar de manera adversa las operaciones. Con las aplicaciones y los activos clasificados en estos niveles de manera clara, los administradores de sistemas pueden crear planes de respaldo y recuperación para centrar la restauración de activos de acuerdo con las prioridades de negocio. Preservación y protección de la integridad de los datos Los datos constituyen el activo más importante en un entorno de TI. El hardware y el software pueden reemplazarse. Los datos recopilados desde diversas fuentes, procesados a través de operaciones de negocio exclusivas, y asociados e incorporados para ser analizados, son más que una simple información sin procesar. Se han transformado y reorganizado, a menudo por medio de procesos costosos que requieren de mucho tiempo. La integridad de los datos se preserva a través del cumplimiento del control de acceso adecuado. Sólo deberían tener acceso a los datos aquellos que tienen una necesidad legítima. Esta configuración requiere de controles de acceso bien definidos y protección de la infraestructura, tal como servidores de seguridad (firewalls), sistemas de prevención de intrusos y auditorias inalterables. Asimismo necesita políticas y procedimientos de administración de cambios y parches que identifiquen y corrijan las vulnerabilidades a medida que se conocen. Además del valor empresarial de los datos procesados, existen requisitos normativos que indican cómo se debe administrar y preservar cierta información. Continuidad del servicio como control de riesgos La continuidad del servicio requiere de un equilibrio entre los beneficios o servicios de recuperación y sus costos. Los factores clave para tener en cuenta desde una perspectiva de control de riesgo son los siguientes: Pérdida de la capacidad de producción Pérdida de oportunidades de negocio Pérdida de información confidencial y exclusiva Violación de normas Las organizaciones deben también tener en cuenta de qué manera las soluciones a corto plazo (por ejemplo, agregar más hardware para compensar el crecimiento de almacenamiento), en lugar de las mejoras a largo plazo en los procedimientos de administración incrementan el costo de la continuidad del servicio. Aspectos técnicos y organizacionales La continuidad del servicio no es tan sólo un problema técnico. Toda solución razonable debe tratar temas organizacionales, tales como políticas de almacenamiento, patrones de uso entre los usuarios móviles, uso ineficiente de aplicaciones (especialmente correo electrónico) y cumplimiento normativo. El campo emergente de administración de almacenamiento está 217 Capítulo 9 brindando herramientas que ayudan a los administradores de sistemas a entender qué tipo de datos se están almacenando en un entorno de TI y el impacto de las tendencias en el uso del almacenamiento. Resumen La planificación de la continuidad del servicio reconoce que las fallas pueden ocurrir independientemente de la protección de los activos de TI por parte de las organizaciones. Los desastres naturales y las infracciones de seguridad perjudican y continuarán afectando negativamente las operaciones de negocio. La planificación efectiva de la continuidad del servicio se prepara para estas complicaciones a través de una formulación equilibrada de procedimientos de respaldo y recuperación en base a requisitos de negocio. Estos requisitos incluyen las aplicaciones más visibles en una organización, tales como un sistema ERP de fabricación, y servicios de infraestructura, tales como sistemas de administración de identidades y acceso. Como en otras formas de control de riesgos, el objetivo no es evitar todos los riesgos sino equilibrar los costos y los beneficios de la planificación de la continuidad del servicio. 218