Política de Continuidad del Negocio de BME Clearing BME Clearing Versión: Política de Continuidad del Negocio de BME Clearing Fecha: <06/06/14> <1.3> Contenido 1. Introducción 1 2. Objetivos globales de la Política de Continuidad 1 3. Alcance de la Política de Continuidad del Negocio de BME CLEARING 1 4. Estrategias de recuperación 2 5. Distribución de capacidades de respaldo 2 6. Servicios de Liquidación y Gestión de Garantías Funciones soportadas 3 3 7. Infraestructura de Tecnología de la Información de Clearing Infraestructura de sistema central 7.1.1 Hosts y aplicación de clearing 7.1.2 Equipos de telecomunicación y seguridad 7.1.3 Servidores de comunicaciones centrales Infraestructura de nodo de acceso 7.2.1 Líneas de telecomunicación 7.2.2 Equipos de telecomunicación Infraestructura de Miembro 7.3.1 Líneas y equipos de telecomunicación 7.3.2 Servidores de acceso Servicios corporativos 3 3 8. Entorno e instalaciones físicas 5 9. Plan de formación y pruebas de continuidad 5 3 4 4 4 4 4 4 4 5 5 10. Revisión de los planes de continuidad 6 11. Plan de Auditorias 6 Anexo I. Opciones de redundancia en infraestructura de miembro BME Clearing, 2014 7 ii BME Clearing Versión: Política de Continuidad del Negocio de BME Clearing Fecha: <06/06/14> <1.3> 1. Introducción De acuerdo con la normativa vigente, la Política de Continuidad de Negocio de BME Clearing ha sido aprobada por el Consejo de Administración de la compañía de fecha XX/XX/XXXX. La coordinación general de la Continuidad de Negocio recae en la Dirección General. Nuestra empresa cuenta con tres localizaciones, dos en Madrid y una en Barcelona. En la concepción de la Política de Continuidad del Negocio se ha procurado dotar a estos centros con la capacidad y recursos necesarios para que en caso de situación de desastre en uno de ellos se puedan asumir la mayoría de las funciones desde otro. El presente documento describe los servicios cubiertos por el plan, ofreciendo una visión general de las estrategias que se emplean para conseguir la continuidad de los servicios, pero no contiene detalles personales de los empleados ni nombres específicos de recursos. 2. Objetivos globales de la Política de Continuidad Los objetivos globales de la Política de Continuidad de Negocio de BME Clearing son: Mantener la seguridad y la integridad física de los empleados Minimizar el impacto de la situación de emergencia en el servicio a nuestros miembros y clientes. Ante una situación de desastre en cualquiera de las localizaciones, obtener la rápida recuperación de los servicios críticos en otra. Siempre que sea viable, proteger los equipos y demás activos parcialmente afectados o sin dañar de una afectación mayor. Conseguir la vuelta al estado de normalidad en la localización afectada una vez que la situación de desastre ha sido mitigada. Lograr una comunicación efectiva tanto en el procedimiento de notificación a sus empleados como para clientes y miembros. Cumplir con los requisitos contemplados en la normativa vigente. 3. Alcance de la Política de Continuidad del Negocio de BME CLEARING Los principales procesos de negocio de BME Clearing son la Gestión de Garantías y la Liquidación Diaria, Para ambos procesos BME Clearing analiza los diferentes riesgos, incluyendo su impacto y su probabilidad. El resultado de dicho Análisis de Impacto de Negocio sirve como elemento fundamental para definir los Planes de Recuperación específicos de la compañía. La Política de Continuidad del Negocio engloba acciones y procedimientos definidos en detalle en los planes de recuperación específicos de las áreas de la compañía. Para cada una de estas áreas existe un responsable de mantener al día el correspondiente plan y uno o varios planes de recuperación. Las áreas tratadas en este documento son: Área Servicios de liquidación Infraestructuras de TI de Clearing Entorno e instalaciones físicas Responsable Director de Operaciones Responsable de Sistemas UNIX Responsable de Servicios Generales - Mantenimiento Algunas de las capacidades de respaldo provistas son automáticas, otras requieren la intervención manual. Para estas últimas, minimizar el tiempo sin servicio es un objetivo esencial. Se contemplan varias situaciones de desastre. Para cada uno de los escenarios se han definido los eventos que los desencadenarían y unas acciones y medidas de protección específicas para cada nivel. Para definir los escenarios de contingencia, se ha tenido en cuenta también el periodo horario o temporal relativo en que sufrimos la contingencia. 1 BME Clearing Versión: Política de Continuidad del Negocio de BME Clearing Fecha: <06/06/14> <1.3> 4. Estrategias de recuperación Las estrategias de recuperación de BME Clearing son: Puestos de trabajo alternativos en la misma zona geográfica, accesibles de forma inmediata. Centros de proceso de datos diversificados y ubicados en zonas con diferente perfil de riesgo geográfico que permitan la recuperación de todas las infraestructuras y servicios críticos en un tiempo objetivo de 15 minutos y en todo caso, por debajo de las 2h que marca la regulación vigente. Acceso remoto para la mayor parte del personal. Personal entrenado para la realización de tareas críticas de negocio. 5. Distribución de capacidades de respaldo Los sistemas centrales están replicados en dos localizaciones, Barcelona y Madrid, separadas por una distancia de más de 500 kilómetros. Por otra parte, otros sistemas considerados de menor criticidad están replicados en dos localizaciones en el área de Madrid, separadas por una distancia de 15 kilómetros. La tabla siguiente muestra la distribución de capacidades de respaldo y los roles de cada localización en estado de normalidad, así como el RPO (Objetivo de Punto de Recuperación) y el RTO (Objetivo de Tiempo de Recuperación): Barcelona Madrid_1 Madrid_2 RPO RTO Servicio de nodo de acceso (comunicaciones con clientes y miembros) Activo Activo Activo T Inmediato Sistema de Cámara Contrapartida Central Pasivo Activo No disponible T 15’ <2h Entorno de Simulación No disponible Activo No disponible - - Servicios Corporativos No disponible Activo Pasivo T 4h Servicios Web No disponible Activo Pasivo T 4h No disponible Activo Pasivo T 2h Servicio de Soporte Técnico (Helpdesk Técnico) Activo Activo No disponible - - Departamento Desarrollo de Aplicaciones Activo Pasivo No disponible D-1 1 día Servicio de Soporte Liquidación (Helpdesk Clearing) de de de En la tabla anterior, el término pasivo se refiere a que no se implementa la funcionalidad en condiciones normales pero que se cuenta con la infraestructura necesaria para asumirla en situación de desastre. En los casos donde el rol de varios centros es activo, se posee la capacidad para la recuperación automática en caso de desastre. Para el resto de los servicios, una situación de desastre implicaría un tiempo sin servicio durante el que se ejecutarían acciones procedimentadas hasta restablecer la operatividad. 2 BME Clearing Versión: Política de Continuidad del Negocio de BME Clearing Fecha: <06/06/14> <1.3> 6. Servicios de Liquidación y Gestión de Garantías El plan de recuperación para los servicios críticos de Liquidación y Gestión de Garantías está concebido para que en caso de desastre en la ubicación principal puedan realizarse las funcionalidades críticas desde la ubicación pasiva por el tiempo que se precise para restaurar la situación de normalidad. Se prevé el traslado de personal entre centros de trabajo en caso necesario. Funciones soportadas Confirmación de garantías Comunicación con Banco de España Gestión de riesgo diario en tiempo real Gestión de traspasos Consultas de la liquidación del día siguiente Gestión de vencimientos (entregas) Gestión de splits. Soporte técnico telefónico El plan incluye un inventario de medios técnicos (máquinas, aplicaciones y datos) que se han replicado en otro centro de trabajo. Además se definen las tareas y la periodicidad con las que habría que ejecutarlas para conseguir el correcto funcionamiento del plan. La revisión del plan tiene lugar cada año. Se actualiza con cada introducción de nuevos servicios o modificación. 7. Infraestructura de Tecnología de la Información de Clearing El plan de recuperación de Tecnología de Información de Clearing aborda los procedimientos de supervisión, detección, notificación, recuperación y restablecimiento de la normalidad al producirse una situación de desastre que pueda impactar en activos de hardware, servicios de telecomunicación y aplicaciones críticas. Como parte del plan también se ha incorporado el entrenamiento de los técnicos que gestionan líneas, equipos de comunicación, sistemas de seguridad y aplicaciones. Como criterio general se persigue evitar los puntos únicos de fallo, ya sea en las instalaciones de Miembro, en los nodos de acceso o en los centros de trabajo. A continuación se resumen los componentes más importantes a proteger y los mecanismos que se activarían en caso de desastre parcial o total: Infraestructura de sistema central En las instalaciones centrales se han implementado configuraciones de redundancia automática basadas en la duplicación del equipamiento, en muchos casos, en configuraciones de alta disponibilidad. 7.1.1 Hosts y aplicación de clearing El hardware en el que se ejecuta la aplicación de Clearing está compuesto por los hosts del sistema de clearing, los arrays de discos y las unidades de almacenamiento extraíble. Los arrays de discos están configurados para tolerancia a fallos y máxima velocidad en el acceso mediante el sistema RAID 5. En el sitio de Madrid existen dos equipos que están sincronizados mediante un mecanismo de réplica local. En estado de normalidad, la aplicación de clearing que corre en las máquinas de Madrid es la que tiene el rol de activa. El host de Barcelona actúa como pasiva. La información de clearing está almacenada en una base de datos en cluster en Madrid. Existe una máquina adicional en Barcelona donde se replican en caliente las actualizaciones realizadas en la Base de Datos principal. 3 BME Clearing Versión: Política de Continuidad del Negocio de BME Clearing Fecha: <06/06/14> <1.3> 7.1.2 Equipos de telecomunicación y seguridad Switches, routers y cortafuegos centrales. Sistemas duplicados in situ y dotados de opciones de redundancia automáticas con respaldo adicional en otro centro. El fallo de un componente individual sería totalmente transparente para los servicios. Una situación de contingencia en una de las ubicaciones, dispararía la conmutación hacia los equipos del otro sitio central. 7.1.3 Servidores de comunicaciones centrales Son los servidores a los que conectan los sistemas de miembros y personal interno del departamento de soporte de clearing. Tienen conexiones redundantes con las máquinas de clearing de ambas ubicaciones, pudiendo conmutar a cualquiera de ellas en caso de fallo del hardware de la máquina principal. Infraestructura de nodo de acceso Hay dos nodos de acceso en cada una de las siguientes ciudades: Barcelona, Bilbao, Madrid. La ubicación de uno de los nodos de Barcelona y de uno de los nodos de Madrid coinciden con los de los hosts centrales. 7.2.1 Líneas de telecomunicación Los dos nodos de cada ciudad están interconectados entre sí y con uno de los nodos de Madrid, de forma que siempre existen dos caminos para acceder desde cualquiera de los nodos a cualquiera de los hosts centrales. Se han combinado los proveedores de comunicaciones para evitar que ambos caminos puedan depender de un mismo proveedor. 7.2.2 Equipos de telecomunicación Los routers emplean mecanismos de redundancia basados el protocolo HSRP, de forma que al ocurrir un fallo en uno de ellos el otro asuma sus funciones y se mantenga la continuidad del servicio. También los switches están duplicados. Para la conexión de los servidores de acceso a los switches se tiene en cuenta una distribución de conexiones de manera que el fallo de uno de los switches no implique una afectación severa en el servicio al continuar funcionando normalmente los servidores conectados al otro. Cada miembro tiene asignados varios servidores de acceso para aplicaciones de terceros (API GATE) en nodos de acceso diferentes, de forma que la aplicación cliente puede prever mecanismos automáticos de conmutación en caso de problemas con el acceso a un equipo o nodo de acceso. Infraestructura de Miembro Los componentes de una instalación estándar de Miembro se instalan por duplicado de modo que, ante el fallo de cualquier dispositivo o línea, el Miembro puede continuar operando sin necesidad de intervención. 7.3.1 Líneas y equipos de telecomunicación Se instalan dos líneas de telecomunicación conectadas a nodos de acceso diferentes y contratadas a proveedores de servicio distintos siempre que es posible. Cada línea se conecta a un router. El protocolo de routing está configurado de modo que queden resueltas automáticamente las situaciones en que se produce un fallo en una de las líneas de telecomunicación. Los switches y routers tienen las mismas opciones de redundancia que las de los nodos de acceso. 4 BME Clearing Versión: Política de Continuidad del Negocio de BME Clearing Fecha: <06/06/14> <1.3> 7.3.2 Servidores de acceso El servidor de comunicaciones Access establece una conexión TCP/IP con los nodos de acceso a través de los cuales intercambia mensajes con los sistemas centrales. En el servidor Access se configura una lista de nodos de acceso con una preferencia de conexión asociada a cada uno. La aplicación de este servidor de comunicaciones está dotada de la capacidad de detectar los problemas de conexión a su nodo de acceso principal y, en caso necesario, conmutar automáticamente al siguiente nodo de acceso de su lista. Servicios corporativos En el contexto de este documento, los servicios corporativos son aquellos que, si bien no pueden clasificarse como extremadamente críticos para la operativa de Clearing, afectan a la respuesta eficiente de los empleados a los Miembros y entidades clientes en caso de verse afectados. Ejemplos de éstos serían: Sistemas de correo electrónico Sistemas Antivirus Acceso a servidores de ficheros corporativos Navegación por Internet Acceso a bases de datos y programas corporativos Servicios de dominio interno: DNS, DHCP, Intranet La red corporativa de BME comprende un solo dominio interno con varios servidores que actúan como controladores de dominio (DCs) y que se encuentran en las distintas localizaciones. Los servicios de dominio como el Directorio Activo, DNS, DHCP y WEB también se encuentran distribuidos. El Plan de Recuperación para los servicios corporativos contiene los eventos y las condiciones de fallo que dispararían los procedimientos de acciones del plan de continuidad específico para esta área, así como los datos de los empleados encargados de las funciones de gestión y puesta en marcha del programa de recuperación. 8. Entorno e instalaciones físicas El grupo de seguridad física mantiene el Plan de Emergencia y de Evacuación y gestiona los medios técnicos necesarios para detectar una situación de desastre. Los responsables de Seguridad Física mantienen el control de los procedimientos a ejecutar ante una situación de desastre, incluyendo los mecanismos de notificación a las demás personas responsables del plan y los enlaces con las autoridades públicas (policía, bomberos y gobierno local) a contactar. 9. Plan de formación y pruebas de continuidad La realización de manera regular de pruebas de continuidad ayuda a mejorar la vigencia y eficacia de los planes de recuperación, al tiempo que permite que todos los miembros del equipo de recuperación estén familiarizados con los planes. Los criterios a tener en cuenta para la formación en procedimientos de continuidad y para la realización de las pruebas de continuidad son: El personal que las realice deberá ser debidamente formado antes de su realización. El personal que las realice debe rotar, de forma que todos los integrantes de los departamentos implicados hayan participado. La realización de pruebas de contingencia no debe poner en riesgo la operación normal de los sistemas. Existirá un plan de pruebas de contingencia documentado. Las pruebas de contingencia se deberán realizar al menos una vez al año para los elementos que soportan los elementos críticos de negocio. Los resultados de las pruebas quedarán debidamente documentados. El programa de pruebas comprende los siguientes tipos: Componentes individuales. Se prueban con mayor frecuencia. Ejemplos: Sistemas 5 BME Clearing Versión: Política de Continuidad del Negocio de BME Clearing Fecha: <06/06/14> <1.3> eléctricos, equipos cortafuegos centrales. Simulaciones para entrenar en sus respectivos papeles al personal que gestiona las crisis. Pruebas de recursos y servicios de proveedores. Ejemplo: Pruebas con líneas de telecomunicación. 10. Revisión de los planes de continuidad El plan de continuidad en BME CLEARING se realimenta con la introducción de nuevas tecnologías, los resultados de las simulaciones de desastre, la experiencia de su personal técnico y de dirección, así como mediante la formación constante de los empleados involucrados en el plan. Los planes deben revisarse: Cada vez que se introduzca un cambio significativo en alguno de los Servicios Críticos de Negocio Cuando se identifiquen nuevos riesgos en el Análisis de Impacto de Negocio. Como mínimo una vez al año se realizará una revisión de los planes de recuperación. Después de cada auditoría de los planes de continuidad, para analizar las posibles recomendaciones recibidas. Cualquier revisión en los planes deberá comunicarse por parte del responsable a la Dirección General de BME Clearing. 11. Plan de Auditorias En BME CLEARING se auditan anualmente tanto aspectos administrativos de los procesos de la Política de Continuidad del Negocio como su estructura, contenido, acciones definidas y la documentación de los procedimientos de control. Estas revisiones son independientes, y se realizan dentro de las auditorías anuales. 6 BME Clearing Versión: Política de Continuidad del Negocio de BME Clearing Fecha: <06/06/14> <1.3> Anexo I. Opciones de redundancia en infraestructura de miembro 1. Enlaces redundantes con la red del Miembro y una sola dirección IP virtual como puerta de enlace a la red de BME CLEARING 2. Routers duplicados 3. Líneas duplicadas, diferentes proveedores y conectadas a diferentes puntos de acceso 4. Línea entre nodos de acceso permite la comunicación con el sistema central de respaldo en caso de fallo de la línea que conecta con el centro principal. 5. Los clientes en la instalación del Miembro pueden conectarse a cualquiera de los servidores en los nodos de acceso 6. Los servidores Back-end se encuentran replicados en localizaciones centrales separadas 7. Líneas duplicadas de alta velocidad, de proveedores diferenciados entre las localizaciones centrales. 7