Política de Continuidad del Negocio de BME Clearing

Anuncio
Política de Continuidad del
Negocio de BME Clearing
BME Clearing
Versión:
Política de Continuidad del Negocio de BME Clearing
Fecha: <06/06/14>
<1.3>
Contenido
1.
Introducción
1
2.
Objetivos globales de la Política de Continuidad
1
3.
Alcance de la Política de Continuidad del Negocio de BME CLEARING
1
4.
Estrategias de recuperación
2
5.
Distribución de capacidades de respaldo
2
6.
Servicios de Liquidación y Gestión de Garantías
Funciones soportadas
3
3
7.
Infraestructura de Tecnología de la Información de Clearing
Infraestructura de sistema central
7.1.1 Hosts y aplicación de clearing
7.1.2 Equipos de telecomunicación y seguridad
7.1.3 Servidores de comunicaciones centrales
Infraestructura de nodo de acceso
7.2.1 Líneas de telecomunicación
7.2.2 Equipos de telecomunicación
Infraestructura de Miembro
7.3.1 Líneas y equipos de telecomunicación
7.3.2 Servidores de acceso
Servicios corporativos
3
3
8.
Entorno e instalaciones físicas
5
9.
Plan de formación y pruebas de continuidad
5
3
4
4
4
4
4
4
4
5
5
10.
Revisión de los planes de continuidad
6
11.
Plan de Auditorias
6
Anexo I. Opciones de redundancia en infraestructura de miembro
 BME Clearing, 2014
7
ii
BME Clearing
Versión:
Política de Continuidad del Negocio de BME Clearing
Fecha: <06/06/14>
<1.3>
1. Introducción
De acuerdo con la normativa vigente, la Política de Continuidad de Negocio de BME Clearing
ha sido aprobada por el Consejo de Administración de la compañía de fecha XX/XX/XXXX. La
coordinación general de la Continuidad de Negocio recae en la Dirección General.
Nuestra empresa cuenta con tres localizaciones, dos en Madrid y una en Barcelona. En la
concepción de la Política de Continuidad del Negocio se ha procurado dotar a estos centros
con la capacidad y recursos necesarios para que en caso de situación de desastre en uno de
ellos se puedan asumir la mayoría de las funciones desde otro.
El presente documento describe los servicios cubiertos por el plan, ofreciendo una visión
general de las estrategias que se emplean para conseguir la continuidad de los servicios, pero
no contiene detalles personales de los empleados ni nombres específicos de recursos.
2. Objetivos globales de la Política de Continuidad
Los objetivos globales de la Política de Continuidad de Negocio de BME Clearing son:
Mantener la seguridad y la integridad física de los empleados






Minimizar el impacto de la situación de emergencia en el servicio a nuestros miembros
y clientes.
Ante una situación de desastre en cualquiera de las localizaciones, obtener la rápida
recuperación de los servicios críticos en otra.
Siempre que sea viable, proteger los equipos y demás activos parcialmente afectados
o sin dañar de una afectación mayor.
Conseguir la vuelta al estado de normalidad en la localización afectada una vez que la
situación de desastre ha sido mitigada.
Lograr una comunicación efectiva tanto en el procedimiento de notificación a sus
empleados como para clientes y miembros.
Cumplir con los requisitos contemplados en la normativa vigente.
3. Alcance de la Política de Continuidad del Negocio de BME CLEARING
Los principales procesos de negocio de BME Clearing son la Gestión de Garantías y la
Liquidación Diaria, Para ambos procesos BME Clearing analiza los diferentes riesgos,
incluyendo su impacto y su probabilidad. El resultado de dicho Análisis de Impacto de Negocio
sirve como elemento fundamental para definir los Planes de Recuperación específicos de la
compañía.
La Política de Continuidad del Negocio engloba acciones y procedimientos definidos en detalle
en los planes de recuperación específicos de las áreas de la compañía. Para cada una de
estas áreas existe un responsable de mantener al día el correspondiente plan y uno o varios
planes de recuperación. Las áreas tratadas en este documento son:
Área
Servicios de liquidación
Infraestructuras de TI de Clearing
Entorno e instalaciones físicas
Responsable
Director de Operaciones
Responsable de Sistemas UNIX
Responsable
de
Servicios
Generales - Mantenimiento
Algunas de las capacidades de respaldo provistas son automáticas, otras requieren la
intervención manual. Para estas últimas, minimizar el tiempo sin servicio es un objetivo
esencial.
Se contemplan varias situaciones de desastre. Para cada uno de los escenarios se han
definido los eventos que los desencadenarían y unas acciones y medidas de protección
específicas para cada nivel.
Para definir los escenarios de contingencia, se ha tenido en cuenta también el periodo horario
o temporal relativo en que sufrimos la contingencia.
1
BME Clearing
Versión:
Política de Continuidad del Negocio de BME Clearing
Fecha: <06/06/14>
<1.3>
4. Estrategias de recuperación
Las estrategias de recuperación de BME Clearing son:

Puestos de trabajo alternativos en la misma zona geográfica, accesibles de forma
inmediata.

Centros de proceso de datos diversificados y ubicados en zonas con diferente perfil
de riesgo geográfico que permitan la recuperación de todas las infraestructuras y
servicios críticos en un tiempo objetivo de 15 minutos y en todo caso, por debajo de
las 2h que marca la regulación vigente.

Acceso remoto para la mayor parte del personal.

Personal entrenado para la realización de tareas críticas de negocio.
5. Distribución de capacidades de respaldo
Los sistemas centrales están replicados en dos localizaciones, Barcelona y Madrid, separadas
por una distancia de más de 500 kilómetros. Por otra parte, otros sistemas considerados de
menor criticidad están replicados en dos localizaciones en el área de Madrid, separadas por
una distancia de 15 kilómetros.
La tabla siguiente muestra la distribución de capacidades de respaldo y los roles de cada
localización en estado de normalidad, así como el RPO (Objetivo de Punto de Recuperación)
y el RTO (Objetivo de Tiempo de Recuperación):
Barcelona
Madrid_1
Madrid_2
RPO
RTO
Servicio de nodo de acceso
(comunicaciones con clientes y
miembros)
Activo
Activo
Activo
T
Inmediato
Sistema
de
Cámara
Contrapartida Central
Pasivo
Activo
No disponible
T
15’
<2h
Entorno de Simulación
No disponible
Activo
No disponible
-
-
Servicios Corporativos
No disponible
Activo
Pasivo
T
4h
Servicios Web
No disponible
Activo
Pasivo
T
4h
No disponible
Activo
Pasivo
T
2h
Servicio de Soporte Técnico
(Helpdesk Técnico)
Activo
Activo
No disponible
-
-
Departamento Desarrollo de
Aplicaciones
Activo
Pasivo
No disponible
D-1
1 día
Servicio
de
Soporte
Liquidación
(Helpdesk
Clearing)
de
de
de
En la tabla anterior, el término pasivo se refiere a que no se implementa la funcionalidad en
condiciones normales pero que se cuenta con la infraestructura necesaria para asumirla en
situación de desastre.
En los casos donde el rol de varios centros es activo, se posee la capacidad para la
recuperación automática en caso de desastre. Para el resto de los servicios, una situación de
desastre implicaría un tiempo sin servicio durante el que se ejecutarían acciones
procedimentadas hasta restablecer la operatividad.
2
BME Clearing
Versión:
Política de Continuidad del Negocio de BME Clearing
Fecha: <06/06/14>
<1.3>
6. Servicios de Liquidación y Gestión de Garantías
El plan de recuperación para los servicios críticos de Liquidación y Gestión de Garantías está
concebido para que en caso de desastre en la ubicación principal puedan realizarse las
funcionalidades críticas desde la ubicación pasiva por el tiempo que se precise para restaurar
la situación de normalidad.
Se prevé el traslado de personal entre centros de trabajo en caso necesario.
Funciones soportadas








Confirmación de garantías
Comunicación con Banco de España
Gestión de riesgo diario en tiempo real
Gestión de traspasos
Consultas de la liquidación del día siguiente
Gestión de vencimientos (entregas)
Gestión de splits.
Soporte técnico telefónico
El plan incluye un inventario de medios técnicos (máquinas, aplicaciones y datos) que se han
replicado en otro centro de trabajo. Además se definen las tareas y la periodicidad con las que
habría que ejecutarlas para conseguir el correcto funcionamiento del plan.
La revisión del plan tiene lugar cada año. Se actualiza con cada introducción de nuevos
servicios o modificación.
7. Infraestructura de Tecnología de la Información de Clearing
El plan de recuperación de Tecnología de Información de Clearing aborda los procedimientos
de supervisión, detección, notificación, recuperación y restablecimiento de la normalidad al
producirse una situación de desastre que pueda impactar en activos de hardware, servicios de
telecomunicación y aplicaciones críticas.
Como parte del plan también se ha incorporado el entrenamiento de los técnicos que gestionan
líneas, equipos de comunicación, sistemas de seguridad y aplicaciones.
Como criterio general se persigue evitar los puntos únicos de fallo, ya sea en las instalaciones
de Miembro, en los nodos de acceso o en los centros de trabajo. A continuación se resumen
los componentes más importantes a proteger y los mecanismos que se activarían en caso de
desastre parcial o total:
Infraestructura de sistema central
En las instalaciones centrales se han implementado configuraciones de redundancia
automática basadas en la duplicación del equipamiento, en muchos casos, en configuraciones
de alta disponibilidad.
7.1.1 Hosts y aplicación de clearing
El hardware en el que se ejecuta la aplicación de Clearing está compuesto por los hosts del
sistema de clearing, los arrays de discos y las unidades de almacenamiento extraíble. Los
arrays de discos están configurados para tolerancia a fallos y máxima velocidad en el acceso
mediante el sistema RAID 5. En el sitio de Madrid existen dos equipos que están sincronizados
mediante un mecanismo de réplica local.
En estado de normalidad, la aplicación de clearing que corre en las máquinas de Madrid es la
que tiene el rol de activa. El host de Barcelona actúa como pasiva.
La información de clearing está almacenada en una base de datos en cluster en Madrid. Existe
una máquina adicional en Barcelona donde se replican en caliente las actualizaciones
realizadas en la Base de Datos principal.
3
BME Clearing
Versión:
Política de Continuidad del Negocio de BME Clearing
Fecha: <06/06/14>
<1.3>
7.1.2 Equipos de telecomunicación y seguridad
Switches, routers y cortafuegos centrales. Sistemas duplicados in situ y dotados de opciones
de redundancia automáticas con respaldo adicional en otro centro. El fallo de un componente
individual sería totalmente transparente para los servicios. Una situación de contingencia en
una de las ubicaciones, dispararía la conmutación hacia los equipos del otro sitio central.
7.1.3 Servidores de comunicaciones centrales
Son los servidores a los que conectan los sistemas de miembros y personal interno del
departamento de soporte de clearing. Tienen conexiones redundantes con las máquinas de
clearing de ambas ubicaciones, pudiendo conmutar a cualquiera de ellas en caso de fallo del
hardware de la máquina principal.
Infraestructura de nodo de acceso
Hay dos nodos de acceso en cada una de las siguientes ciudades: Barcelona, Bilbao, Madrid.
La ubicación de uno de los nodos de Barcelona y de uno de los nodos de Madrid coinciden
con los de los hosts centrales.
7.2.1 Líneas de telecomunicación
Los dos nodos de cada ciudad están interconectados entre sí y con uno de los nodos de
Madrid, de forma que siempre existen dos caminos para acceder desde cualquiera de los
nodos a cualquiera de los hosts centrales. Se han combinado los proveedores de
comunicaciones para evitar que ambos caminos puedan depender de un mismo proveedor.
7.2.2 Equipos de telecomunicación
Los routers emplean mecanismos de redundancia basados el protocolo HSRP, de forma que
al ocurrir un fallo en uno de ellos el otro asuma sus funciones y se mantenga la continuidad del
servicio.
También los switches están duplicados. Para la conexión de los servidores de acceso a los
switches se tiene en cuenta una distribución de conexiones de manera que el fallo de uno de
los switches no implique una afectación severa en el servicio al continuar funcionando
normalmente los servidores conectados al otro.
Cada miembro tiene asignados varios servidores de acceso para aplicaciones de terceros (API
GATE) en nodos de acceso diferentes, de forma que la aplicación cliente puede prever
mecanismos automáticos de conmutación en caso de problemas con el acceso a un equipo o
nodo de acceso.
Infraestructura de Miembro
Los componentes de una instalación estándar de Miembro se instalan por duplicado de modo
que, ante el fallo de cualquier dispositivo o línea, el Miembro puede continuar operando sin
necesidad de intervención.
7.3.1 Líneas y equipos de telecomunicación
Se instalan dos líneas de telecomunicación conectadas a nodos de acceso diferentes y
contratadas a proveedores de servicio distintos siempre que es posible. Cada línea se conecta
a un router. El protocolo de routing está configurado de modo que queden resueltas
automáticamente las situaciones en que se produce un fallo en una de las líneas de
telecomunicación.
Los switches y routers tienen las mismas opciones de redundancia que las de los nodos de
acceso.
4
BME Clearing
Versión:
Política de Continuidad del Negocio de BME Clearing
Fecha: <06/06/14>
<1.3>
7.3.2 Servidores de acceso
El servidor de comunicaciones Access establece una conexión TCP/IP con los nodos de
acceso a través de los cuales intercambia mensajes con los sistemas centrales. En el servidor
Access se configura una lista de nodos de acceso con una preferencia de conexión asociada
a cada uno. La aplicación de este servidor de comunicaciones está dotada de la capacidad de
detectar los problemas de conexión a su nodo de acceso principal y, en caso necesario,
conmutar automáticamente al siguiente nodo de acceso de su lista.
Servicios corporativos
En el contexto de este documento, los servicios corporativos son aquellos que, si bien no
pueden clasificarse como extremadamente críticos para la operativa de Clearing, afectan a la
respuesta eficiente de los empleados a los Miembros y entidades clientes en caso de verse
afectados. Ejemplos de éstos serían:
 Sistemas de correo electrónico
 Sistemas Antivirus
 Acceso a servidores de ficheros corporativos
 Navegación por Internet
 Acceso a bases de datos y programas corporativos
 Servicios de dominio interno: DNS, DHCP, Intranet
La red corporativa de BME comprende un solo dominio interno con varios servidores que
actúan como controladores de dominio (DCs) y que se encuentran en las distintas
localizaciones. Los servicios de dominio como el Directorio Activo, DNS, DHCP y WEB también
se encuentran distribuidos.
El Plan de Recuperación para los servicios corporativos contiene los eventos y las condiciones
de fallo que dispararían los procedimientos de acciones del plan de continuidad específico para
esta área, así como los datos de los empleados encargados de las funciones de gestión y
puesta en marcha del programa de recuperación.
8. Entorno e instalaciones físicas
El grupo de seguridad física mantiene el Plan de Emergencia y de Evacuación y gestiona los
medios técnicos necesarios para detectar una situación de desastre.
Los responsables de Seguridad Física mantienen el control de los procedimientos a ejecutar
ante una situación de desastre, incluyendo los mecanismos de notificación a las demás
personas responsables del plan y los enlaces con las autoridades públicas (policía, bomberos
y gobierno local) a contactar.
9. Plan de formación y pruebas de continuidad
La realización de manera regular de pruebas de continuidad ayuda a mejorar la vigencia y
eficacia de los planes de recuperación, al tiempo que permite que todos los miembros del
equipo de recuperación estén familiarizados con los planes.
Los criterios a tener en cuenta para la formación en procedimientos de continuidad y para la
realización de las pruebas de continuidad son:






El personal que las realice deberá ser debidamente formado antes de su realización.
El personal que las realice debe rotar, de forma que todos los integrantes de los
departamentos implicados hayan participado.
La realización de pruebas de contingencia no debe poner en riesgo la operación
normal de los sistemas.
Existirá un plan de pruebas de contingencia documentado.
Las pruebas de contingencia se deberán realizar al menos una vez al año para los
elementos que soportan los elementos críticos de negocio.
Los resultados de las pruebas quedarán debidamente documentados.
El programa de pruebas comprende los siguientes tipos:

Componentes individuales. Se prueban con mayor frecuencia. Ejemplos: Sistemas
5
BME Clearing
Versión:
Política de Continuidad del Negocio de BME Clearing
Fecha: <06/06/14>
<1.3>
eléctricos, equipos cortafuegos centrales.

Simulaciones para entrenar en sus respectivos papeles al personal que gestiona las
crisis.

Pruebas de recursos y servicios de proveedores. Ejemplo: Pruebas con líneas de
telecomunicación.
10. Revisión de los planes de continuidad
El plan de continuidad en BME CLEARING se realimenta con la introducción de nuevas
tecnologías, los resultados de las simulaciones de desastre, la experiencia de su personal
técnico y de dirección, así como mediante la formación constante de los empleados
involucrados en el plan.
Los planes deben revisarse:




Cada vez que se introduzca un cambio significativo en alguno de los Servicios Críticos
de Negocio
Cuando se identifiquen nuevos riesgos en el Análisis de Impacto de Negocio.
Como mínimo una vez al año se realizará una revisión de los planes de recuperación.
Después de cada auditoría de los planes de continuidad, para analizar las posibles
recomendaciones recibidas.
Cualquier revisión en los planes deberá comunicarse por parte del responsable a la Dirección
General de BME Clearing.
11. Plan de Auditorias
En BME CLEARING se auditan anualmente tanto aspectos administrativos de los procesos de
la Política de Continuidad del Negocio como su estructura, contenido, acciones definidas y la
documentación de los procedimientos de control. Estas revisiones son independientes, y se
realizan dentro de las auditorías anuales.
6
BME Clearing
Versión:
Política de Continuidad del Negocio de BME Clearing
Fecha: <06/06/14>
<1.3>
Anexo I. Opciones de redundancia en infraestructura de miembro
1. Enlaces redundantes con la red del Miembro y una sola dirección IP virtual como
puerta de enlace a la red de BME CLEARING
2. Routers duplicados
3. Líneas duplicadas, diferentes proveedores y conectadas a diferentes puntos de acceso
4. Línea entre nodos de acceso permite la comunicación con el sistema central de
respaldo en caso de fallo de la línea que conecta con el centro principal.
5. Los clientes en la instalación del Miembro pueden conectarse a cualquiera de los
servidores en los nodos de acceso
6. Los servidores Back-end se encuentran replicados en localizaciones centrales
separadas
7. Líneas duplicadas de alta velocidad, de proveedores diferenciados entre las
localizaciones centrales.
7
Descargar