UNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA DEPARTAMENTO DE ELECTRÓNICA VALPARAÍSO - CHILE “Gestión del Riesgo en Infraestructura y Comunicaciones TI, para Empresa del Sector Financiero” FERNANDO ENRIQUE MONTERO GONZALEZ Memoria de titulación para optar al título de Ingeniero Civil Telemático Profesor Guía: Sr. Walter Grote H. Abril 2011 Agradecimientos A mi madre por todo el esfuerzo que ha realizado para mi preparación profesional, a mi novia Milena Chaparro y a toda su familia y especialmente a mis compañeros que se han convertido como en mi familia: Ariel Acuña, Elías Gómez, Álvaro Cofre, Ricardo Toloza, Garri Figueroa, Nicolás Grandón, Carlos Patricio Santibañez y Francisca Giroz. 2 “Gestión del Riesgo en Infraestructura y Comunicaciones TI, para Empresa del Sector Financiero” Trabajo de Memoria presentado por Fernando Enrique Montero González. para optar al título de Ingeniero Civil Telemático. Profesor Guía: Walter Grote H. Abril 2011 RESUMEN En empresas del sector financiero, se destinan grandes esfuerzos para mantener la continuidad de los servicios de telecomunicaciones, por ser esenciales en mantener los sistemas informáticos de la empresa en funcionamiento en todo momento. La relevancia de ello radica en el hecho de que los sistemas informáticos permiten actualizar y almacenar todos los movimientos contables y relacionados con el giro de la empresa, haciendo posible que pueda operar eficientemente, proveyendo servicios en diferentes sucursales. Para evitar las consecuencias derivadas de amenazas tales como ataques informáticos, fallas de equipos y catástrofes naturales, es que se debe llevar a cabo un análisis y evaluación de riesgos, a los cuales se exponen todos los servicios informáticos e infraestructuras y comunicaciones TI, con la finalidad de mitigar la presencia o consecuencias de estos riesgos generando para ello alternativas de mejoras, controles y documentación. Este proyecto se centra en el análisis y evaluación de riegos, a los cuales se expone el servicio de interconexión del sitio principal a la red MPLS corporativa, para una empresa que opera en el rubro de seguros, permitiendo poder identificar, analizar y evaluar todos los posibles riesgos y consecuencias a los cuales se expone el servicio. Con esta información se establecen las alternativas de desarrollo para mitigar la magnitud de los riegos. El desarrollo de las alternativas seleccionadas, se realiza a través del software GNS3, el cual admite diseñar y simular las topologías de interconexión para el tratamiento de los riesgos establecidos. Lo anterior permite bajar los índices de magnitud de los riesgos, disminuyendo su impacto o probabilidad de ocurrencia, así como también su priorización, es decir el grado de atención que estos deben tener. Palabras claves: Análisis y evaluación de riesgos, redes de computadoras, plan de contingencias, plan de continuidad de negocios, plan de recuperación ante desastres. 3 “Risk Management on Communications Infrastructure TI for Financial Sector Company” Fernando Enrique Montero González. Final Project Report towards the partial fulfillment of the requirements of the Electronic Engineering Degree, majoring in Telecommunications (6 year program). Advising professor: Walter Grote April 2011 ABSTRACT Nowadays, financial sector companies, assign great efforts to keep the continuity of telecommunication services, because they are essential to keep the company’s information systems available at all time. Its relevance lies in the fact that information systems update and keep track of all accounting movements and those related to the company’s line of business, making it possible to efficiently provide services to different branches. To avoid the consequences derived from threats such as cyber attacks, hardware failures and natural disaster, an analysis and risks assessment is to be carried out of all computer services infrastructure and communications, in order to mitigate the risks, generating improved alternatives, controls and documentation. This project focuses on analysis and risk assessment, in which the interconnection service to the main site corporate MPLS network is exposed for a company offering insurance services, identifying, analyzing and evaluating all possible risks and its consequences, to which the service is exposed. Then different ways to lower the risks are established. The selected alternatives are developed using GNS3 software, which allows designing and simulating the existing and proposed network topologies, subjecting them to all possible risk situations, considered in the present work. Key words: Analysis and risk assessment, computer networks, contingency plan, business continuity plan, disaster recovery plan. 4 Índice de Contenido 1 2 3 4 5 6 7 Introducción ..................................................................................................................................7 1.1 Escenarios de contingencia ..................................................................................................7 1.2 Plan de Continuidad de Negocios (BCP) .............................................................................8 1.2.1 Tipos de planes que complementan el BCP .....................................................................8 1.2.2 ¿Cuáles son las fases que conforman un Plan de Continuidad de Negocio? ...................9 1.2.3 Fase de Análisis y evaluación de riesgos .......................................................................10 1.3 Objetivos ............................................................................................................................10 1.4 Alcance ..............................................................................................................................10 Servicio de interconexión del Sitio Principal a la red MPLS corporativa ..................................11 2.1 Análisis de la red de interés ...............................................................................................11 Análisis y evaluación de riesgos .................................................................................................13 3.1 Introducción .......................................................................................................................13 3.2 Proceso de Administración de Riesgos (AS/NZS 4360:2004) ..........................................13 3.3 Análisis y Evaluación de riesgos para servicio de interconexión a la red MPLS del Sitio Principal .........................................................................................................................................14 3.3.1 Establecer Contexto Externo e Interno ..........................................................................14 3.3.2 Identificación de Riesgos ...............................................................................................15 3.3.3 Análisis de Riesgos ........................................................................................................17 3.3.4 Evaluación de riesgos.....................................................................................................19 3.3.5 Tratamientos de Riesgos ................................................................................................21 Desarrollo de alternativas seleccionadas ....................................................................................26 4.1 Implementación planes de tratamiento ..............................................................................26 4.1.1 Diseño a implementar ....................................................................................................26 4.1.2 Herramienta de trabajo ...................................................................................................27 4.1.3 Protocolos utilizados ......................................................................................................28 4.2 Interrupción servicio de Internet ........................................................................................35 4.2.1 Análisis previo ...............................................................................................................35 4.2.2 Integración clúster de Núcleos de Comunicaciones.......................................................36 4.2.3 Configuración Previa .....................................................................................................37 4.2.4 Ejecución alternativa seleccionada ................................................................................38 4.2.5 Paso a producción (vuelta a atrás)..................................................................................39 4.3 Interrupción servicio WebBlocker .....................................................................................40 4.3.1 Análisis previo ...............................................................................................................40 4.3.2 Integración clúster de Núcleos de Comunicaciones.......................................................40 4.3.3 Ejecución alternativa seleccionada ................................................................................41 4.3.4 Paso a producción (vuelta a atrás)..................................................................................42 4.4 Interrupción Firewall .........................................................................................................43 4.4.1 Análisis previo ...............................................................................................................43 4.4.2 Integración clúster de Núcleos de Comunicaciones.......................................................43 4.4.3 Ejecución alternativa seleccionada ................................................................................44 4.4.4 Paso a producción (vuelta a atrás)..................................................................................45 4.5 Resumen Planes de tratamiento .........................................................................................46 Análisis de Resultados ................................................................................................................47 5.1 Mediciones en Clúster........................................................................................................47 5.2 Mediciones en Proveedores ...............................................................................................48 5.3 Análisis alternativas seleccionadas ....................................................................................49 Conclusiones ...............................................................................................................................51 Bibliografía .................................................................................................................................52 5 Índice de Ilustraciones Ilustración 1: Tipos de planes que complementan el BCP [1] .............................................................8 Ilustración 2: Topología actual red MPLS .........................................................................................11 Ilustración 3: Proceso de administración de riesgos [7].....................................................................14 Ilustración 4: Matriz de Priorización [8] ............................................................................................18 Ilustración 5: Criterios de evaluación de riesgos [9]..........................................................................20 Ilustración 6: Evaluación opciones de tratamiento [10].....................................................................21 Ilustración 7: Matriz de priorización sin tratamiento .........................................................................25 Ilustración 8: Matriz de priorización con tratamiento ........................................................................25 Ilustración 9: Topología Propuesta ....................................................................................................26 Ilustración 10: Herramienta de trabajo...............................................................................................27 Ilustración 11: Configuración HRSP .................................................................................................29 Ilustración 12: Enrutamiento HSRP y EIGRP ...................................................................................31 Ilustración 13: Diagrama de estados, STP [12]..................................................................................33 Ilustración 14: Topología Final ..........................................................................................................35 Ilustración 15: Topología Internet Sitio Principal..............................................................................36 Ilustración 16: Nueva Topología Internet Sitio Principal ..................................................................38 Ilustración 17: Topología Internet Sitio Contingencia .......................................................................39 Ilustración 18: Topología interconexión Internet...............................................................................40 Ilustración 19: Nueva Topología interconexión Internet ...................................................................41 Ilustración 20: Topología de interconexión Internet alternativa ........................................................42 Ilustración 21: Topología interconexión Servidores ..........................................................................43 Ilustración 22: Nueva Topología interconexión Servidores...............................................................44 Ilustración 23: Topología interconexión Servidores alternativa ........................................................45 Ilustración 24: Equipos involucrados en la medición de disponibilidad del Clúster .........................47 Ilustración 25: Tiempo de recuperación Clúster v/s n° de medición .................................................47 Ilustración 26: Equipos involucrados en la medición de disponibilidad de proveedores ..................48 Ilustración 27: Tiempo de recuperación proveedores v/s n° de medición ........................................48 Índice de Tablas Tabla 1: Detalle enlaces de comunicaciones......................................................................................12 Tabla 2: Identificación de Riesgos .....................................................................................................17 Tabla 3: Análisis de Riesgos ..............................................................................................................19 Tabla 4: Evaluación de riesgos ..........................................................................................................20 Tabla 5: Alternativas de manejo de riesgos .......................................................................................21 Tabla 6: Evaluación de alternativas ...................................................................................................23 Tabla 7: Impacto esperado .................................................................................................................24 Tabla 8: Índices de magnitud y prioridad esperados..........................................................................25 Tabla 9: Resumen planes de ejecución ..............................................................................................46 6 1 Introducción En Chile las instituciones del sector financiero poseen una gran dependencia de los sistemas de información para el manejo interno de aplicaciones y servicios a sus clientes en general. A su vez para impulsar sus negocios cada vez más apuntan a la incorporación de nuevas tecnologías, lo que se traduce en asumir nuevos riesgos. En primer lugar figura el riesgo de la intrusión a la red de la institución, donde la información puede verse comprometida, y los sistemas informáticos pueden resultar dañados o alterados. Las organizaciones hacen grandes esfuerzos por prevenir este tipo de intrusiones, desarrollando mecanismos de protección y detección para frustrar los robos. En segundo lugar las empresas financieras deben mantener una gran disponibilidad de sus servicios, cualquiera que estos sean y más aun si estos son fundamentales para el giro de la empresa. Por lo tanto las entidades deben buscar sistemas que eliminen o rebajen el costo de los cortes de servicios, relacionados con los productos de seguridad, con las soluciones de red y con los proveedores de servicio de Internet. Las firmas financieras normalmente cuentan con muchas redes de sucursales y deben ser capaces de reforzar las políticas de seguridad, y gestionar la infraestructura de seguridad de forma efectiva en costos. Una solución que se utiliza frecuentemente hoy en día es la gestión centralizada de todos los componentes. Si el equipo de una sucursal pierde la conexión con la gestión central debido a un error en la configuración por parte del administrador, el equipo de la oficina sucursal volverá automáticamente a una versión previa conocida y solucionará el problema de conectividad. Para entornos críticos de producción en los que no se permiten las interrupciones de los servicios, son indispensables soluciones que contemplen un servicio global utilizando un conjunto de servidores (clustering de dispositivos), múltiples proveedores simultáneos de servicio de Internet y conexiones del tipo Multi-Link Virtual Private Network (Red Privada Virtual). De este modo, en caso de un malfuncionamiento global de un sitio, los demás, que aún permanecen operativos pueden recuperar automáticamente las conexiones de las comunicaciones perdidas. Se trata, en definitiva, de buscar una plataforma que reúna características básicas para la continuidad de negocio, como son la alta disponibilidad, la seguridad avanzada y el balanceo de carga dinámico. En el sector financiero, más que en ningún otro, conocen muy bien el coste que puede suponer un desliz en la protección de los activos de información, o unos segundos de cortes de servicios en los sistemas. Escenarios de contingencia 1.1 Es de vital importancia definir escenarios de contingencia, los cuales son condiciones previamente definidas y que suponen un impacto no aceptable en la capacidad de las organizaciones para cumplir con sus objetivos como por ejemplo: • • • • Interrupción de funcionamiento normal de sistemas Incendio Falla eléctrica mayor Indisponibilidad enlaces de comunicaciones La definición de estos escenarios ayuda a planificar los pasos a seguir para salir de esta condición de contingencia y así volver a un estado de producción normal. 7 1.2 Plan de Continuidad de Negocios (BCP) La documentación de un conjunto de instrucciones o procedimientos predeterminados que describen como las funciones de negocios deben actuar durante y después de una interrupción mayor, es lo que se considera un Plan de Continuidad de Negocios (en inglés: Business Continuity Plan: BCP). A su vez existen muchos planes que complementan el BCP y se interrelacionan directamente con el BCP tal como muestra la ilustración 1. 1.2.1 Tipos de planes que complementan el BCP Ilustración 1: Tipos de planes que complementan el BCP [1] Se aprecia en la ilustración 1 que existen los siguientes planes complementarios al BCP. Plan de comunicación de crisis: documento que contiene los procedimientos internos y externos que las organizaciones deben preparar ante un desastre. Este plan debe estar coordinado con los demás planes para asegurar que sólo comunicados aprobados sean divulgados y que solamente personal autorizado sea el responsable de responder las diferentes inquietudes y de diseminar los reportes de estado al personal y al público. Planes de evacuación por edificio: contiene los procedimientos que deben seguir los ocupantes de una instalación o facilidad en el evento en que una situación se convierta en una amenaza potencial a la salud y seguridad del personal, el ambiente o la propiedad. Tales eventos podrían incluir fuego, terremoto, huracán, ataque criminal o una emergencia médica. Plan de continuidad de operaciones por sede o filial (COOP por sus siglas en inglés, Continuity of Operations Plan): orientado a restaurar las funciones esenciales de una sede o filial de la entidad (ej: una agencia, la fábrica, el almacén de ventas) en una sede alterna y realizar aquellas funciones por 8 un período máximo de 30 días antes de retornar a las operaciones normales. Debido a que un COOP se enfoca en sedes o filiales, debe ser desarrollado y ejecutado independientemente del BCP. Interrupciones menores que no requieren reubicación en una sede alterna típicamente no son cubiertas en un COOP. Plan de respuesta a ciber-incidentes: Establece procedimientos para responder a los ataques en el ciberespacio contra un sistema de Tecnología Informática (TI) de una entidad. Estos procedimientos son diseñados para permitirle al personal de seguridad identificar, mitigar y recuperarse de incidentes de cómputo maliciosos tales como: Acceso no autorizado a un sistema o dato, Negación de servicio, Cambios no autorizados a HW, SW o datos. Planes de contingencia de TI: orientado a ofrecer un método alterno para sistemas de soporte general y para aplicaciones importantes Debido a que un Plan de contingencia de TI debe ser desarrollado por sistema de soporte general y por cada aplicación importante, existirán múltiples planes de contingencia. Plan de recuperación de desastres (DRP): Orientado a responder a eventos importantes, usualmente catastróficos que niegan el acceso a la facilidad normal por un período extendido. Frecuentemente, el DRP se refiere a un plan enfocado en TI diseñado para restaurar la operabilidad del sistema, aplicación o facilidad de cómputo objetivo en un sitio alterno después de una emergencia. El alcance de un DRP puede solaparse con el de un Plan de Contingencia de TI; sin embargo, el DRP es más amplio en alcance y no cubre interrupciones menores que no requieren reubicación. Plan de recuperación del negocio: Permite restaurar un proceso de negocio después de una emergencia, pero al contrario del BCP, carece de procedimientos para asegurar la continuidad de procesos críticos durante una emergencia o interrupción, [2]. Se desprende de lo anterior la conveniencia de que un Plan de Continuidad del Negocio se complemente con otros planes que ayudan a su efectividad. Sin embargo, debido a la carencia de definiciones estándar para estos tipos de planes, en algunos casos, el alcance de los mismos puede variar entre las diferentes organizaciones. 1.2.2 ¿Cuáles son las fases que conforman un Plan de Continuidad de Negocio? Estas fases han sido formuladas por el Instituto de Recuperación de Desastres (DRI – Disaster Recovery Institute) [3]. • • • • • • • • • • Inicio y gestión del proyecto. Análisis y Evaluación del riesgo. Análisis de impacto del negocio (BIA). Desarrollo de estrategias para la continuidad del negocio. Respuesta ante emergencias. Desarrollo e implementación del BCP Programa de concientización y capacitación. Mantenimiento y ejercicio del BCP Comunicación de crisis. Coordinación con Autoridades públicas. 9 1.2.3 Fase de Análisis y evaluación de riesgos El objetivo de la evaluación de riesgos, es identificar, analizar, medir y prevenir las amenazas internas y externas, incluyendo concentraciones de riesgos, que pueden causar la interrupción o pérdida de las actividades críticas de una organización, así como la probabilidad (o frecuencia) de que ocurra una amenaza, permitiendo priorizar y manejar un plan de acción de gestión del riesgo [4]. 1.3 Objetivos Objetivo Principal Minimizar o el eliminar los riesgos, a los cuales se expone el servicio de interconexión del Sitio Principal a la red MPLS corporativa, en una empresa del sector financiero, desarrollando e implementado las alternativas seleccionadas para la mitigación de la magnitud de los riesgos. Objetivos particulares: • • • 1.4 Estudiar y comprender el servicio de interés. Identificar, analizar y evaluar, los riegos a los cuales se expone el servicio de interconexión. Desarrollar e implementar planes de tratamiento para los riesgos. Alcance El proyecto contempla la implementación de la fase de “Análisis y evaluación de riesgos” según el estándar AS/NZS 4360:2004, sobre el servicio de interconexión del Sitio Principal a la red MPLS corporativa, en una empresa del sector financiero. Dentro de todas las alternativas seleccionadas para mitigar los riesgos establecidos, solo se desarrollarán las medidas en que el área de Infraestructura y Comunicaciones sea el responsable directo de la ejecución de estas mismas. 10 2 2.1 Servicio de interconexión del Sitio Principal a la red MPLS corporativa Análisis de la red de interés La situación actual contempla una red MPLS (Multiprotocol Label Service: en español: Conmutación multiprotocolo mediante etiquetas) y corresponde a un mecanismo de transporte de datos estándar creado por la IETF y definido en el RFC 3031. Opera entre la capa de enlace de datos y la capa de red del modelo OSI. Es una nueva tecnología de conmutación creada para proporcionar circuitos virtuales en las redes IP [5]. Esta red MPLS abarca todo el territorio nacional, en donde todas las agencias acceden a la red a través de un enlace único dedicado, a diferencia de la casa matriz ubicada en Valparaíso y de su agencia ubicada en Santiago, las cuales se interconectan a la red a través de dos enlaces dedicados de diferentes proveedores, uno principal (Telmex) y otro de redundancia (Entel), debido a que en estos sitios se encuentran ubicados los centros de datos principal y secundario respectivamente. Su arquitectura tanto en su casa matriz como en su agencia de respaldo considera un equipo central Core (en español: Núcleo) 3750, al cual se interconectan los dos enlaces MPLS de comunicaciones, estando siempre ambos enlaces operativos, pero solo utilizando el principal. El resto de las agencias se interconectan a la red MPLS a través de un equipo Gateway Cisco 1861, los cuales están interconectados únicamente por el proveedor de enlace principal (Telmex) no teniendo otra alternativa de acceso a la red. La siguiente imagen ilustra la topología a nivel nacional, en donde se puede apreciar como los diferentes sitios están interconectados a la red MPLS. Ilustración 2: Topología actual red MPLS Se enmarca con líneas segmentadas, el enlace de interconexión de interés. 11 Detalle de los enlaces: Tipo de enlace Principal Sitio de Producción Respaldo Sitio Producción Principal Sitio Contingencia Respaldo Sitio Contingencia Enlaces Secundarios Descripción Enlace del proveedor Telmex que interconecta al sitio principal Enlace del proveedor Entel que interconecta al sitio principal Enlace del proveedor Telmex que interconecta al sitio de contingencia Enlace del proveedor Entel que interconecta al sitio de contingencia Enlaces que interconectan, a través del proveedor Telmex, al resto de las agencias. Tabla 1: Detalle enlaces de comunicaciones El centro de datos principal, ubicado en Valparaíso provee de todos los servicios para las aplicaciones internas como externas y está siempre activo, a su vez el centro de datos de respaldo o contingencia, ubicado en Santiago, siempre está activo, pero solo opera cuando algunos servicios dejan de funcionar en el sitio principal. La capacidad del centro de datos de respaldo o contingencia no permite operar con el 100% de los servicios, ya que la capacidad de éste es limitada respecto al sitio principal. El principio básico con el cual se trabaja es siempre poder recuperar los servicios en el sitio principal antes de tener que operar en un estado de contingencia, por ende se procura ampliar siempre la disponibilidad de los servicios en el sitio principal. Los proyectos futuros apuntan esencialmente a eliminar puntos únicos de falla entre estos servicios y los usuarios finales. Si bien se cuenta con una estructura de respaldo, ésta no alberga todos los servicios que el sitio principal otorga, por ende existe una gran dependencia de la disponibilidad de los servicios y de la infraestructura de comunicaciones que soporta estos servicios, para el normal funcionamiento de la empresa. Para que un servicio alojado en el sitio principal deje de funcionar correctamente, no solo es necesario que este deje de operar, sino que además el servicio se puede detener si, por ejemplo, se ve afectado el switch (en español: conmutador) al cual está conectado, o sí falla el Núcleo de comunicaciones, o quizás si el enlace principal falla y el de respaldo no puede traficar el servicio por saturación del enlace. En todos los casos mencionados anteriormente, para el usuario, el servicio simplemente cesó y no podrá ejecutar su trabajo. Los dos enlaces en el sitio de producción se encuentran siempre operativos, pero solo se trafica por el enlace principal, a menos que éste deje de operar. En tal caso y solo en éste entra a operar el enlace secundario. Con esta configuración no se tiene exacta certeza del estado del enlace secundario, el cual podría estar indisponible, sin que el sistema de monitoreo registrase alguna alteración. Además perfectamente se podría utilizar este enlace para descongestionar el enlace principal, en algunos servicios, y así también de paso serviría para el monitoreo de éste. 12 3 Análisis y evaluación de riesgos 3.1 Introducción El riesgo es inherente a todo lo que se hace, se convive con él todos los días, aunque no se esté consciente de ello. Aunque siempre se piensa en desastres, el riesgo más común que las empresas enfrentan, es el de no cumplir con sus objetivos y metas. La administración de riesgos es reconocida como una parte integral de las buenas prácticas gerenciales. Es un proceso iterativo que consta de pasos, los cuales, cuando son ejecutados en secuencia, posibilitan una mejora continua en el proceso de toma de decisiones. Administración de riesgos es el término aplicado a un método lógico y sistemático de establecer el contexto, identificar, analizar, evaluar, tratar, monitorear y comunicar los riesgos asociados con una actividad, función o proceso de una forma que permita a las organizaciones minimizar pérdidas y maximizar oportunidades. Administración de riesgos es tanto identificar oportunidades como evitar o mitigar pérdidas. El proceso de administración de riegos (AS/NZS 4360:2004), establece cómo se debe llevar a cabo el análisis de los diferentes riesgos que potencialmente podrían afectar a la institución, sus procesos, infraestructura o cualquier actividad en general. En este capítulo se aplica el procedimiento de administración de riesgos (AS/NZS 4360:2004) al servicio de interconexión del Sitio Principal a la red MPLS, el cual se analiza desde el punto de vista de la empresa, con cualquier motivo que pueda interrumpir la interconexión, como del punto de vista del proveedor, con algún corte de servicio en el enlace MPLS. Proceso de Administración de Riesgos (AS/NZS 4360:2004) 3.2 El estándar provee una guía genérica para la administración de riesgos, además de entregar los componentes de la administración de riegos. Es genérico e independiente de cualquier tipo de industria o sector económico y su diseño e implementación depende de las necesidades de la organización [6]. El objetivo de este estándar es proveer una guía a las organizaciones que lo adopten para alcanzar: • • • • • • • • Una mejor base para la planeación y la toma de decisiones. Mejor identificación de oportunidades y riesgos. Ganar valor de la incertidumbre y la variabilidad. Administración proactiva en vez de reactiva. Mayor efectividad en la distribución y uso de recursos. Mejora en la administración de incidencias con una reducción de pérdidas y costos, incluyendo primas de seguros. Mejorar la confianza y credibilidad de las partes interesadas. Mejora en el cumplimiento con la legislación relevante. 13 A continuación se ilustra el proceso de administración de riesgos AS/NZS 4360:2004 Ilustración 3: Proceso de administración de riesgos [7]. 3.3 Análisis y Evaluación de riesgos para servicio de interconexión a la red MPLS del Sitio Principal 3.3.1 • • • Establecer Contexto Externo e Interno Es necesario establecer el contexto para poder definir que es un riesgo. Para poder identificar los riesgos se requiere una total comprensión de los objetivos. Riesgo es todo aquello que pudiera afectar el logro exitoso de los objetivos. 14 En este caso cualquier evento que interrumpa la conexión física, lógica o sensación de conectividad por parte de los usuarios, respecto a la interconexión del Sitio Principal con la red MPLS, debe ser considerado como riesgo. 3.3.2 Identificación de Riesgos En la siguiente tabla se establecen todos los potenciales riesgos a los cuales se podría ver afectado el servicio de interconexión a la red MPLS del Sitio Principal. La identificación incluye los riesgos independientemente de que estén bajo control o no en la organización. 1 Tipo de Riesgo Descripción Riesgo Externo/Interno Corte de energía Falla red eléctrica, que alimenta a los equipos de comunicaciones. 2 Interno Falla en la UPS Falla equipo de respaldo eléctrico 3 Interno Falla en equipos de ventilación Temperatura no adecuada 4 Externo/Interno Inundaciones Agua en las instalaciones 5 Externos Terremotos Eventos naturales 6 Externo Tsunami Eventos naturales 7 Externo/Interno Incendios Fuego en las instalaciones 8 Interno Corte cable, cable desconectado o en mal estado 9 Interno 10 Interno Desconexión física hacia proveedor principal Desconexión física hacia proveedor de respaldo Corte de servicio en Posibles consecuencias Inoperatividad de los equipos de comunicaciones y de acceso. Desconexión de la red MPLS. Interrupción del servicio de interconexión momentáneamente. Baja el desempeño de los equipos de comunicaciones a la red MPLS Daño total del equipamiento y Desconexión de la red MPLS Daño total del equipamiento y Desconexión de la red MPLS Daño total del equipamiento y Desconexión de la red MPLS Daño total del equipamiento y Desconexión de la red MPLS Desconexión de la red MPLS. Corte cable, cable desconectado o en mal estado No hay desconexión, pero enlace principal queda sin respaldo Servicios no disponibles Usuarios no obtendrán el acceso a servicios 15 11 Interno 12 Interno 13 Externo 14 Externo 15 Interno servidores internos Corte de servicio en servidores externos Interrupción de servicio Callmanager Corte servicio MPLS proveedor principal Corte servicio MPLS proveedor de respaldo Falla sobre Núcleo de comunicaciones internos ni tampoco a intranet. Servicios Web y DNS no Usuarios externos no disponibles tendrán acceso web y pérdida de navegación web para usuarios internos. Servidor de enrutamiento Interrupción del servicio de llamadas deja de telefónico entre anexos y funcionar local hacia Valparaíso. Cualquier motivo atribuible Desconexión al proveedor principal, que momentánea, mientras se origine un corte conmuta al enlace de respaldo. Posible pérdida del servicio de Internet, debido a que el mismo equipo físico provee ambos servicios. Cualquier motivo atribuible No hay desconexión, al proveedor de respaldo, pero enlace principal que origine un corte queda sin respaldo Desperfecto eléctrico o cualquier problema interno en el núcleo de comunicaciones. Problemas en memoria, procesamiento entre otras 16 Interno Saturación en el núcleo de comunicaciones 17 Interno Saturación de carga en el enlace Por sobrecarga de tráfico el servicio colapsa 18 Externo Interrupción servicio de Internet Falla en el acceso al servicio de internet Interrupción servicio WebBlocker 20 Interno/Externo Interrupción Firewall Falla en el equipo de filtraje Web 19 Interno Falla en el equipo de filtraje Desconexión de la red MPLS Pérdida de desempeño hasta posible desconexión de la red MPLS Pérdida de desempeño hasta posible desconexión de la red MPLS, en este último caso se conmutará al enlace de respaldo. Operaciones que necesiten internet para efectuarse se ven afectadas. Posible desconexión de la red MPLS, debido a que el mismo equipo físico provee ambos servicios. Pérdida momentánea del servicio de internet Desconexión hacia servidores y hacia Internet 16 21 Interno Acceso no autorizado al Núcleo de comunicaciones Acceso de personas, sin permiso, a la configuración del Núcleo de comunicaciones. Desconexión de la red MPLS Tabla 2: Identificación de Riesgos Detalle de Consecuencias Desconexión red MPLS: Todos los usuarios externos al sitio principal quedan desconectados de la red MPLS, no obteniendo el acceso a los sistemas internos, internet, correo eléctrico y aplicaciones. Desconexión equipos de acceso: La desconexión de estos equipos, afecta a los usuarios locales del sitio de principal, no permitiéndoles el acceso a la red. Desconexión equipos de comunicaciones: Estos equipos permiten las comunicaciones entre los usuarios y los servidores, por ende una desconexión de estos, producirá una interrupción en el acceso a los sistemas internos, corte en internet, correo eléctrico e interrupción de las aplicaciones a nivel nacional. Daño total equipamiento Sitio principal inoperativo, todos los usuarios quedan sin servicios. Como se ha mencionado antes, el proceso de administración de riesgos contempla la identificación de de todos los posibles riesgos a los cuales el servicio de interconexión a la red MPLS del Sitio Principal, se vea afectado. Estos riesgos son de diversos tipos y de variados orígenes tanto internos como externos. Cabe resaltar que existen riesgos directos e indirectos, que pueden afectar el funcionamiento o la percepción de disponibilidad de servicio, por ejemplo un desperfecto eléctrico del Núcleo de comunicaciones es un riesgo directo, ya que este equipo es un componente físico que permite la interconexión del sitio. A su vez un riesgo indirecto puede ser una interrupción del servicio DNS, ya que si bien este no participa en la disponibilidad del servicio, para los usuarios finales no será posible la comunicación. 3.3.3 Análisis de Riesgos Se debe tener un total entendimiento y comprensión de los riesgos, para poder determinar cómo deben ser tratados de manera costo-efectiva. Involucra: • La probabilidad de ocurrencia. • La determinación de su impacto potencial (consecuencias). • Análisis de riesgos, mediante una combinación de Impacto y su probabilidad de ocurrencia. Evaluación de Controles • • Se deben identificar los controles existentes en los procesos y actividades que ayudan a minimizar los riesgos negativos o mejoran los riesgos positivos. Se debe evaluar sus fuerzas y debilidades de los controles. 17 La Magnitud del Riesgo La Magnitud de un riesgo se determina por su probabilidad de ocurrencia y sus consecuencias o impactos asociados. Matriz de Priorización El riesgo se debe medir de acuerdo al impacto y la probabilidad y se debe ubicar en la Matriz de Priorización. Probabilidad: Frecuencia que podría presentar el riesgo. ALTA: Es muy factible que el riesgo se presente MEDIA: Es factible que el riesgo se presente BAJA: Es muy poco factible que el riesgo se presente Impacto: Forma en la cual el riesgo podría afectar los resultados del proceso. ALTO: afecta en alto grado la disponibilidad del servicio MEDIO: afecta en grado medio la disponibilidad del servicio BAJO: afecta en grado bajo la disponibilidad del servicio A continuación se presenta la Matriz de Priorización, con la cual se clasificarán los riesgos de acuerdo a su Magnitud, donde: Probabilidad Magnitud A: Nivel Alto de riesgo Magnitud B: Nivel Medio de riesgo Magnitud C: Nivel Bajo de riesgo ALTA B A A MEDIA B B A BAJA C B B MEDIA ALTO BAJO Impacto Ilustración 4: Matriz de Priorización [8] En la siguiente tabla, primordialmente, se entrega información sobre la magnitud de los riesgos analizados. La cual será de suma importancia para la etapa de evaluación, en donde serán priorizados o clasificados según los criterios definidos. 18 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Riesgo Corte de energía Falla en la UPS Falla en equipos de ventilación Inundaciones Terremotos Tsunami Incendios Desconexión física hacia proveedor principal Desconexión física hacia proveedor de respaldo Corte de servicio en servidores internos Corte de servicio en servidores externos (Web y DNS) Interrupción de servicio Call manager Corte servicio MPLS proveedor principal Corte servicio MPLS proveedor de respaldo Falla sobre Núcleo de Comunicaciones Saturación en el Núcleo de comunicaciones Saturación de carga en el enlace Interrupción servicio de Internet Interrupción servicio WebBlocker Interrupción Firewall Acceso no autorizado al Núcleo de comunicaciones Control existente UPS y Grupo electrógeno Mantención mensual Piso elevado Data center en 3° piso de altura Extinguidores Control de acceso y monitoreo Control de acceso y monitoreo Respaldo en contingencia Respaldo en contingencia Probabilidad Baja Impacto Medio Magnitud B Baja Baja Alto Bajo B C Baja Baja Baja Alto Alto Medio B B B Baja Baja Alto Alto B B Baja Medio B Baja Alto B Baja Medio B Call manager de respaldo Enlace de respaldo Baja Bajo C Media Alto A Enlace principal Media Medio B - Media Alto A - Media Alto A - Media Alto A Enlace de respaldo Media Alto A - Media Medio B Baja Baja Alto Alto B B Lista de acceso y conexión a través de SSH2 Tabla 3: Análisis de Riesgos 3.3.4 Evaluación de riesgos El propósito de la evaluación de riesgos es tomar decisiones basadas en los resultados del análisis de riesgos, identificar cuáles deben ser tratados y la prioridad para su tratamiento. 19 Establecer prioridades o criterios 1 • Riesgos con Magnitud alta (A), sin controles efectivos, requieren acciones preventivas inmediatas. 2 • Riesgos con Magnitud alta (A) y media (B) con controles no efectivos, requieren acciones de preventivas. 3 • Riesgos con Magnitud alta (A) y media (B) con controles efectivos, pero no documentados, requieren acciones de preventivas. 4 • Riesgos con priorización baja (C) o alta (A) y media (B) que tienen controles documentaddos y efectivos, requieren seguimiento. Ilustración 5: Criterios de evaluación de riesgos [9] A continuación se presenta la tabla de evaluación de riesgos, en la cual se establece la prioridad de cada riesgo y la determinación del tratamiento. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Riesgo Corte de energía Falla en la UPS Falla en equipos de ventilación Inundaciones Terremotos Tsunami Incendios Desconexión física hacia proveedor principal Desconexión física hacia proveedor de respaldo Corte de servicio en servidores internos Corte de servicio en servidores externos Interrupción de servicio Call manager Corte servicio MPLS proveedor principal Corte servicio MPLS proveedor de respaldo Falla sobre Núcleo de Comunicaciones Saturación en el Núcleo de comunicaciones Saturación de carga en el enlace Interrupción servicio de Internet Interrupción servicio WebBlocker Interrupción Firewall Acceso no autorizado al Núcleo de comunicaciones Criterio 4 3 4 3 2 3 2 4 4 3 3 4 3 3 1 1 2 2 2 2 4 Tratar riesgo NO SI NO NO SI NO SI NO NO SI SI NO SI SI SI SI SI SI SI SI NO Tabla 4: Evaluación de riesgos 20 3.3.5 Tratamientos de Riesgos El tratamiento de los riesgos involucra identificar el rango de opciones para tratar los riesgos, evaluar esas opciones, preparar planes para tratamiento de los riesgos e implementarlos. Estas alternativas corresponden a la forma con la cual se pretende enfrentar el riesgo. La evaluación de las opciones debe considerar: • • • Factibilidad Costos Beneficios Identificación alternativas Evaluación alternativas Preparar planes de tratamiento Implementar planes de tratamiento Ilustración 6: Evaluación opciones de tratamiento [10] 3.3.5.1 Identificación de alternativas Alternativas de manejo Reducir Probabilidad Reducir Impacto Transferir el riesgo Compartir el riesgo Evitar el riesgo Descripción Bajar la cantidad de veces que se presenta el riesgo en un periodo de tiempo Mitigar las consecuencias negativas cuando se presenta el riesgo. Traspasar el riesgo a otra compañía (contrato de outsourcing, póliza de seguro). C Consiste onsiste en intentar extender el riesgo de un área en concreto, a diferentes secciones, con el fin de impedir la pérdida de todo el negocio. Si prestar de un servicio supone un gran riesgo, el servicio se deja de entregar Tabla 5: Alternativas de manejo de riesgos 3.3.5.2 Evaluación de alternativas Las opciones deberían ser evaluadas sobre la base del alcance de la reducción del riesgo, y el alcance de cualquier beneficio u oportunidad adicional, tomando en cuenta los criterios desarrollados. Pueden considerarse y aplicarse una cantidad de opciones ya sea individualmente o combinadas. En la siguiente tabla se iden identifican tifican las alternativas a implementar, en el caso que aplique. En caso de . haber más de una alternativa se selecciona mediante el símbolo 21 Riesgo 1 2 Corte de energía Falla en la UPS 3 4 5 Falla en equipos de ventilación Inundaciones Terremotos 6 7 Tsunami Incendios 8 9 10 11 12 13 14 15 Desconexión física hacia proveedor principal Desconexión física hacia proveedor de respaldo Corte de servicio en servidores internos Corte de servicio en servidores externos Interrupción de servicio Callmanager Corte servicio MPLS proveedor principal Corte servicio MPLS proveedor de respaldo Falla sobre Núcleo de Comunicaciones 16 Saturación en el Alternativas de manejo Reducir Impacto - Alternativas • • • Conexión a otra UPS disponible Conexión directa a la red eléctrica Área responsable Mantención y Electricidad Reducir Impacto Reducir probabilidad e impacto • - - - - - - Reducir impacto • Generar documentación, para traspaso de servicios a contingencia Sistemas Reducir impacto • Generar documentación, para traspaso de servicios a contingencia Sistemas - - Reducir Impacto • • • Reducir impacto • • Reducir impacto • • • • Reducir • Revisión mensual de rack y bastidores Revisión instalaciones eléctricas periódicamente Mantención e instalación de extintores Mantención Electricidad y Prevención de riesgos. - Utilización enlace proveedor de respaldo Declarar estado de contingencia Infraestructura y Comunicaciones Utilización enlace proveedor principal Declarar estado de contingencia Infraestructura y Comunicaciones Reemplazo de equipo Declarar estado de contingencia Establecer un Núcleo de respaldo Establecer un Núcleo para trabajar en conjunto, generando un clúster de comunicaciones Reiniciar el equipamiento Infraestructura y Comunicaciones Infraestructura y 22 Núcleo de comunicaciones probabilidad • 17 Saturación de carga en el enlace 18 Interrupción servicio de Internet Reducir probabilidad • • • 19 Interrupción servicio WebBlocker Reducir impacto 20 Interrupción Firewall Reducir Impacto y probabilidad Reducir Impacto • • • • • • 21 Acceso no autorizado al Núcleo de comunicaciones - • - Distribuir la carga con otro equipo Declarar estado de contingencia Declarar estado de contingencia Distribuir carga entre los enlaces actuales Utilización enlace de respaldo Utilización de otro equipo, por parte del proveedor, para la entrega del servicio de internet independientemente Desconexión equipamiento y navegación sin filtro de contenido Declarar estado de contingencia Conexión directa de la red de servidores a la red LAN Desconexión del servicio de Internet. Declarar estado de contingencia Comunicaciones Infraestructura y Comunicaciones Infraestructura y Comunicaciones Infraestructura y Comunicaciones Infraestructura y Comunicaciones - Tabla 6: Evaluación de alternativas 3.3.5.3 Preparar planes de tratamiento Los planes deberían documentar cómo deben ser implement implementadas adas las opciones seleccionadas. El plan de tratamiento debería identificar las responsabilidades, los resultados esperados de los tratamientos, las medidas de desempeño y el proceso de revisión a establecer. De acuerdo al alcance, sólo se desarrollarán las medidas en que el área de Infraestructura y Comunicaciones sea el responsable directo de la ejecución de estas mismas, por ende se considera el siguiente plan de tratamiento. La implementación de las alternativas seleccionadas para los riesgos: • • • • • Falla sobre Núcleo de Comunicaciones Saturación en el Núcleo de comunicaciones Saturación de carga en el enlace Corte servicio MPLS proveedor principal Corte servicio MPLS proveedor principal Corte servicio MPLS proveedor de respaldo Serán desarrolladas de manera conjunta, mientras que las alternativas seleccionadas para los riesgos: 23 • • • Interrupción servicio de Internet Interrupción servicio WebBlocker Interrupción servicio Firewall Serán desarrolladas de manera independiente. A continuación se presenta el impacto esperado, con la implementación de las alternativas seleccionadas, para el área de Infraestructura y comunicaciones. Riesgo Falla sobre Núcleo de Comunicaciones Saturación en el Núcleo de comunicaciones Saturación de carga en el enlace Corte servicio MPLS proveedor principal Corte servicio MPLS proveedor de respaldo Interrupción servicio de Internet Interrupción servicio WebBlocker Interrupción Firewall Impacto esperado Reducción de los tiempos de indisponibilidad de un tiempo dependiente del proveedor, alrededor de 3 días, a no más de 5 segundos. Ver ilustración 9. La distribución de carga, permitirá minimizar la probabilidad de saturación en el clúster de Núcleos de comunicaciones, mejorando significativamente el desempeño de la red. La distribución de carga, entre los proveedores permitirá minimizar la probabilidad de saturación, debido a la utilización en paralelo de los enlaces. Ver ilustración 10. Poder entender el funcionamiento del protocolo EIGRP configurado, y poder enrutar las redes manualmente, en caso que el enlace de respaldo falle y no pueda hacerlo automáticamente. Poder entender el funcionamiento del protocolo EIGRP configurado, y poder enrutar las redes manualmente, en caso que el enlace de respaldo falle y no pueda hacerlo automáticamente. El desarrollo y documentación de la alternativa seleccionada, permitirá actuar de forma eficiente ante la presencia de este riesgo. Además de minimizar la probabilidad de ocurrencia debido, a la inclusión de un equipo independiente para la entrega del servicio. Los tiempos de ejecución y recuperación serán aproximadamente de 10 minutos. El desarrollo y documentación de la alternativa seleccionada, permitirá recuperar la navegación Web sin filtros de contenidos. Los tiempos de ejecución y recuperación del servicio serán aproximadamente de 10 minutos. El desarrollo y documentación de la alternativa seleccionada, permitirá recuperar el acceso a los servidores, sin filtros de paquetes para los usuarios locales, desconectando para ello la navegación a internet. Los tiempos de ejecución y recuperación del servicio serán aproximadamente de 15 minutos. Tabla 7: Impacto esperado La siguiente tabla ilustra la baja en los índices de magnitud y prioridad esperados con la implementación de las alternativas. 24 Riesgo Falla sobre el Núcleo de comunicaciones Saturación en el Núcleo de comunicaciones Saturación de carga en el enlace Corte servicio MPLS proveedor principal Corte servicio MPLS proveedor de respaldo Interrupción servicio de Internet Interrupción servicio WebBlocker Interrupción Firewall Sin Tratamiento Magnitud Prioridad A 1 A 1 A 2 A 3 B 3 A 2 B 2 B 2 Con Tratamiento Magnitud Prioridad B 3 B 3 B 3 A 4 B 4 B 4 B 4 B 4 Tabla 8: Índices de magnitud y prioridad esperados ALTA B A A MEDIA B B A BAJA C B B BAJO MEDIA ALTO Impacto Ilustración 7: Matriz de priorización sin tratamiento Probabilidad Probabilidad La misma información que la tabla anterior expresada en la Matriz de priorización, donde se establecen con círculos todos los riesgos identificados y clasificados según su magnitud (A, B y C). Los colores de los círculos representan su prioridad o criterio, según la ilustración 4, en el la etapa de evaluación de riesgos. ALTA B A A MEDIA B B A BAJA C B B BAJO MEDIA ALTO Impacto Ilustración 8: Matriz de priorización con tratamiento Para la verificación de que las medidas optadas, efectivamente minimizan los riesgos a tratar, es que se presenta el siguiente plan de pruebas de conectividad. • • • • • • • • Pruebas de conectividad de toda la red de interconexión. Pruebas de distribución de carga en clúster de Núcleos de comunicaciones. Pruebas de cortes en equipos pertenecientes al clúster y comprobación de respaldo mutuo. Pruebas de distribución de carga en enlaces con proveedores. Pruebas de respaldo mutuo entre proveedores. Pruebas de redistribución de rutas hacia internet. Navegación Web, sin filtro de contenido. Conexión red servidores, de forma directa, sin la utilización de filtros y con desconexión del servicio de Internet. 25 4 Desarrollo de alternativas seleccionadas 4.1 Implementación planes de tratamiento A continuación se especifica la implementación del plan de tratamiento para la reducción del impacto de los riesgos: • • • • • Falla sobre Núcleo de Comunicaciones Saturación en el Núcleo de comunicaciones Saturación de carga en el enlace Corte servicio MPLS proveedor principal Corte servicio MPLS proveedor de respaldo Estos riesgos afectan directamente al Núcleo de comunicaciones, por ende se trabajará en el desarrollo de las alternativas seleccionadas de manera conjunta. 4.1.1 Diseño a implementar La propuesta está diseñada, en base a las alternativas seleccionadas para la reducción del impacto de los riesgos mencionados. • • • • • Establecer otro equipo que trabaje en conjunto generando un clúster Distribuir la carga con otro equipo Distribuir carga entre los enlaces actuales Utilización enlace proveedor de respaldo Utilización enlace proveedor principal En este diseño se crea un clúster de comunicaciones, el cual permite una distribución de carga entre los equipos pertenecientes al clúster y una distribución de carga entre los enlaces actuales de los proveedores. A continuación se presenta la topología propuesta para la interconexión del sitio principal a la red MPLS. Ilustración 9: Topología Propuesta 26 Para lograr esto básicamente se utilizará el protocolo HSRP (Hot Standby Router Protocol), para la interacción de los dos núcleos en el Sitio Principal. Este Protocolo generará un tercer núcleo virtual, al cual todos los equipos internos utilizarán como su puerta de enlace, así ante el corte de servicio de uno de los núcleos, el tráfico seguirá siendo enrutado por el núcleo que este operativo. Cada proveedor de servicios de comunicación MPLS, llegará a cada uno de los núcleos en el Sitio Principal, con el cual funcionarán con el protocolo EIGRP configurado con dos sistemas autónomos, EIGRP 100, para el enrutamiento del tráfico de los usuarios y EIGRP 200, para el enrutamiento del tráfico generado por los sistemas de sincronización, siendo cada sistema autónomo el respaldo del otro. Finalmente par los conmutadores de acceso se establecerán enlaces etherchannel para la interconexión de estos con el Núcleo 4500. Estos enlaces solo serán para los conmutadores que brinden acceso a las áreas más relevantes e importantes y para la interconexión de los servidores. 4.1.2 Herramienta de trabajo La herramienta de trabajo es GNS3, que es un simulador gráfico de redes, el cual se puede obtener directamente de su página oficial [11] y que permite la creación y configuración de redes. En comparación con otros existentes como por ejemplo “Cisco Packet Tracer”, este soporta protocolos de enrutamiento como también protocolos de alta disponibilidad. A continuación se presenta una imagen del software GNS3, con la simulación de la red propuesta. Ilustración 10: Herramienta de trabajo 27 4.1.3 4.1.3.1 Protocolos utilizados HSRP HSRP (Hot Standby Router Protocol) es un protocolo propiedad de CISCO que permite el despliegue de enrutadores redundantes tolerantes a fallos en una red. Este protocolo evita la existencia de puntos de fallo únicos en la red mediante técnicas de redundancia y comprobación del estado de los enrutadores. En la topología propuesta, este protocolo es configurado entre el Núcleo 4500 y 3700 de la siguiente manera: VLAN 200 en Núcleo 4500 Core4500(config)# interface Vlan200 Core4500(config-if)# ip address 192.168.200.2 255.255.255.0 Core4500(config-if)# standby ip 192.168.200.1 Core4500(config-if)# standby priority 255 Core4500(config-if)# standby preempt ! Creación interfaz VLAN Asignación IP y máscara Asignación IP Virtual Prioridad la mayor Asumir estado activo Vlan 200 en Núcleo 3700 Core3700(config)# interface Vlan200 Creación interfaz VLAN Core3700(config-if)# ip address 192.168.200.3 255.255.255.0 Asignación IP y máscara Core3700(config-if)# standby ip 192.168.200.1 Asignación IP Virtual Core3700(config-if)# standby priority 1 Prioridad menor Core3700(config-if)# standby preempt Asumir estado activo ! Esta configuración es igual para todas las VLAN pertenecientes a las áreas más relevantes. VLAN 80 en Núcleo 4500 Core4500(config)# interface Vlan80 Core4500(config-if)# ip address 192.168.80.2 255.255.255.0 Core4500(config-if)# standby ip 192.168.80.1 Core4500(config-if)# standby priority 1 Core4500(config-if)# standby preempt ! Creación interfaz VLAN Asignación IP y máscara Asignación IP Virtual Prioridad menor Asumir estado activo VLAN 80 en Núcleo 3700 Core3700(config)# interface Vlan80 Creación interfaz VLAN Core3700(config-if)# ip address 192.168.80.3 255.255.255.0 Asignación IP y máscara Core3700(config-if)# standby ip 192.168.80.1 Asignación IP Virtual Core3700(config-if)# standby priority 255 Prioridad alta Core3700(config-if)# standby preempt Asumir estado activo ! Esta configuración es igual para todas las VLAN que no pertenecen a áreas relevantes. 28 Con esta configuración todos los dispositivos de la red local tendrán como puerta de enlace, la IP virtual, por VLAN, generada por el clúster de Núcleos de comunicaciones. Así ante un corte de servicio de cualquiera de estos equipos, la comunicación entre VLANs y entre agencias no se verá afectada. Las VLANs que dan soporte a las áreas más relevantes de la institución, como por ejemplo la VLAN 200, estarán conectadas con mayor prioridad al Núcleo 4500 y las restantes, como por ejemplo la VLAN 80, tendrán mayor prioridad con el Núcleo 3700, a su vez estas configuraciones serán complementadas con la implementación del protocolo STP (spanning tree protocol). La siguiente imagen ilustra como las VLAN 80 y 200 se comunican al Núcleo virtual a través de sus respectivos Núcleos de enrutamiento. Ilustración 11: Configuración HRSP 4.1.3.2 EIGRP EIGRP es un protocolo de encaminamiento híbrido, propiedad de Cisco Systems, que ofrece lo mejor de los algoritmos de vector de distancias y del estado de enlace. Se considera un protocolo avanzado que se basa en las características normalmente asociadas con los protocolos del estado de enlace. Algunas de las mejores funciones son las actualizaciones parciales y la detección de vecinos. Aunque no garantiza el uso de la mejor ruta, es bastante usado porque mejora las propiedades de convergencia y opera con mayor eficiencia. En la topología se configuran dos EIGRP, uno para la propagación de rutas por el enlace principal y otra para la propagación de rutas por el enlace de respaldo. La configuración debe efectuarse en ambos Núcleos de comunicaciones y en los enrutadores pertenecientes a los dos proveedores. En las configuraciones de los Núcleos, el sistema EIGRP 100, propaga la información de conectividad de las redes por el enlace principal y el sistema EGRP 200, propaga la información de conectividad de las redes por el enlace de respaldo. Ambos sistemas están configurados para proveerse entre ellos de redundancia mutua, ya que a falta de uno de ellos, el otro asume la propagación de la información de conectividad de las redes del otro. La conexión con ambos proveedores de hacen a través de inter-redes, es decir redes exclusivas para la interconexión entre el proveedor y el cliente. Considerando que ambos Núcleos de comunicaciones establecen una interconexión con cada uno de los proveedores, estas deben ser configuradas y propagadas por los respectivos sistemas autónomos EIGRP. 29 A continuación se presenta la configuración EIGRP de ambos Núcleos de comunicaciones y la configuración de los proveedores de comunicaciones. Núcleo 4500 Core4500(config)# router eigrp 100 Core4500(config-router)# redistribute eigrp 200 Core4500(config-router)# network 10.10.10.0 0.0.0.7 Core4500(config-router)# network 192.168.100.0 Core4500(config-router)# network 192.168.200.0 Core4500(config-router)# network 192.168.99.0 Core4500(config-router)# no auto-summary Core4500(config-router)# exit Creación sistema autónomo Redistribución sistema 200 Inter-red con proveedor principal Agregar redes locales Agregar redes locales Agregar redes locales No sumarizar mascaras Salir Core4500(config)# router eigrp 200 Core4500(config-router)# redistribute eigrp 100 Core4500(config-router)# network 10.10.10.16 0.0.0.7 Core4500(config-router)# network 192.168.80.0 Core4500(config-router)# no auto-summary Core4500(config-router)# exit Creación sistema autónomo Redistribución sistema 100 Inter-red con proveedor respaldo Agregar redes locales No sumarizar mascaras Salir Núcleo 3700 Core3700(config)# router eigrp 100 Core3700(config-router)# redistribute eigrp 200 Core3700(config-router)# network 10.10.10.8 0.0.0.7 Core3700(config-router)# network 192.168.100.0 Core3700(config-router)# network 192.168.200.0 Core3700(config-router)# network 192.168.200.0 Core3700(config-router)# no auto-summary Core3700(config-router)# exit Creación sistema autónomo Redistribución sistema 200 Inter-red con proveedor principal Agregar redes locales Agregar redes locales Agregar redes locales Core3700(config)# router eigrp 200 Core4500(config-router)# redistribute eigrp 100 Core4500(config-router)# network 10.10.10.24 0.0.0.7 Core4500(config-router)# network 192.168.80.0 Core4500(config-router)# no auto-summary Core4500(config-router)# exit Creación sistema autónomo Redistribución sistema 100 Inter-red con proveedor respaldo Agregar redes locales No sumarizar mascaras Salir Configuración proveedor principal (Telmex) Telmex(config)# interface FastEthernet1/0 Telmex(config-if)# bandwidth 150000 Telmex(config-if)# ip address 10.10.10.4 255.255.255.248 Interface inter-red Asignación ancho de banda IP inter-red Núcleo 4500 Telmex(config)# interface FastEthernet1/1 Telmex(config-if)# bandwidth 50000 Telmex(config-if)# ip address 10.10.10.12 255.255.255.248 Interface inter-red Asignación ancho de banda IP inter-red Núcleo 3700 Telmex(config)# router eigrp 100 Telmex(config-router)# network 7.7.7.0 0.0.0.3 Sistema autónomo Agregar red Proveedor 30 Telmex(config-router)# network 10.10.10.0 0.0.0.7 Telmex(config-router)# network 10.10.10.8 0.0.0.7 Telmex(config-router)#no auto-summary Inter-red Núcleo 4500 Inter-red Núcleo 3700 No sumarizar Configuración proveedor de respaldo (Entel) Entel(config)# interface FastEthernet1/0 Entel(config-if)# bandwidth 50000 Telmex(config-if)# ip address 10.10.10.19 255.255.255.248 Interface inter-red Asignación ancho de banda IP inter-red Núcleo 4500 Entel(config)# interface FastEthernet1/1 Entel(config-if)# bandwidth 150000 Entel(config-if)# ip address 10.10.10.28 255.255.255.248 Interface inter-red Asignación ancho de banda IP inter-red Núcleo 3700 Entel(config)# router eigrp 200 Entel(config-router)# network 8.8.8.0 0.0.0.3 Entel(config-router)#network 10.10.10.16 0.0.0.7 Entel(config-router)# network 10.10.10.24 0.0.0.7 Entel(config-router)#no auto-summary Sistema autónomo Agregar red Proveedor Inter-red Núcleo 4500 Inter-red Núcleo 3700 No sumarizar La siguiente imagen ilustra las interconexiones establecidas, luego de configurar los protocolos HSRP e EIGRP, y estableciendo las inter-redes con los respectivos proveedores. Para poder ejemplificar de mejor forma, se considera una red propagada por el proveedor principal, como es el caso de la VLAN 200 (en rojo) y otra red propagada por el enlace de respaldo, como lo es la VLAN 80 (en Azul). Aquí se completa la implementación de la distribución de carga entre los Núcleos de comunicaciones y entre los enlaces de los proveedores. Ilustración 12: Enrutamiento HSRP y EIGRP Es preciso resaltar que en ambos Núcleos de comunicaciones se configuran los dos sistemas autónomos EIGRP 100 y 200, Con el fin de poder enrutar todas las redes, en ausencia de algún enlace de proveedor. 31 4.1.3.3 VTP VTP son las siglas de VLAN Trunking Protocol, un protocolo usado para configurar y administrar VLANs en equipos Cisco. VTP opera en 3 modos distintos: 1. Servidor: Son los equipos en los cuales se configuran las VLAN que posteriormente se distribuirán a través de los enlaces. 2. Trasparente: No aplican las configuraciones VLAN que reciben, ni envían las suyas a otros dispositivos, sin embargo los dispositivos en modo transparente que usan la versión 2 del protocolo VTP enviarán la información que reciban (publicaciones VTP) a otros dispositivos a los que estén conectados. 3. Cliente: No aplican las configuraciones VLAN que reciben, ni envían las suyas a otros dispositivos, sin embargo los dispositivos en modo transparente que usan la versión 2 del protocolo VTP enviarán la información que reciban (publicaciones VTP) a otros dispositivos a los que estén conectados. En la topología propuesta los Núcleos 4500 y 3700 están configurados como VTP Servidor, mientras que los conmutadores de acceso están configurados como VTP cliente, de la siguiente manera: Núcleos de comunicaciones Core4500(config)# VTP mode server Core4500(config)# VTP password cisco Core4500(config)# VTP domain cisco Core4500(config)# VTP versión 2 Core4500(config)# exit Establecer modo servidor Establecer clave Establecer dominio Establecer versión Core3700(config)# VTP mode server Core3700(config)# VTP password cisco Core3700(config)# VTP domain cisco Core3700(config)# VTP versión 2 Core3700(config)# exit Establecer modo servidor Establecer clave Establecer dominio Establecer versión Conmutadores de acceso Sw(config)# VTP mode client Sw(config)# VTP password cisco Sw(config)# VTP domain cisco Sw(config)# VTP versión 2 Sw(config)# exit Establecer modo cliente Establecer clave, igual al servidor Establecer dominio, igual al servidor Establecer versión, igual al servidor De esta manera todas la VLAN creadas en los Núcleos de comunicaciones son propagadas hacia los equipos configurados como clientes. 32 4.1.3.4 STP Protocolo STP (Spanning tree), gestiona la presencia de bucles en topologías de red, debido a la existencia de enlaces redundantes (necesarios en muchos casos para garantizar la disponibilidad de las conexiones). El protocolo permite a los dispositivos de interconexión activar o desactivar automáticamente los enlaces de conexión, de forma que se garantice que la topología está libre de bucles. STP es transparente a las estaciones de usuario. Bridge Protocol Data Units (BPDU) son paquetes que contienen información del protocolo STP, los cuales son intercambiados por todos los elementos que interactúan en algún bucle. El intercambio de estos paquetes generará el árbol final. Una vez establecido el árbol o topología lógica, los eestados stados en los que puede estar un puerto son los siguientes: • Desactivado: A este estado se llega desde cualquier otro. Se produce cuando se deshabilita el puerto o éste falla. No se procesan las BPDU. • Bloqueo: En este estado se pueden recibir BPDU pero no las enviará. • Escucha: A este estado se llega desde el Bloqueo. En este estado, los conmutadores determinan si existe alguna otra ruta hacia el puente raíz. En el caso que la nueva ruta tenga un coste mayor, se vuelve al estado de Bloqueo. Las tramas de datos se descartan y no se actualizan las tablas ARP. Se procesan las BPDU. • Aprendizaje: A este estado se llega desde Escucha. Las ttramas ramas de datos se descartan, pero se actualizan las tablas de direcciones MAC (mac-address-table), aquí es donde se aprenden por primera vez. Se procesan las BPDU. • Envío: A este estado se llega desde Aprendizaje. Las tramas de datos se envían y se actualizan las tablas de direcciones MAC. Se procesan las BPDU. El siguiente diagrama, explica la interacción de los estados de los puertos según el protocolo STP. Ilustración 13: Diagrama de estados, STP [12]. 1. Se habilita el puerto, ya sea por el administrador de red o inicialización. 2. Puerto deshabilitado, ya sea por el administrador de red o por falla. 3. STP selecciona puerto como designado o root. 33 4. STP no selecciona puerto como designado o root 5. Contador de reenvió, expira. En este caso el Núcleo 4500 fue configurado como la raíz primaria de las VLAN que dan soporte a las áreas relevantes y su similar, el Núcleo 3700 como raíz primaria del resto de las VLAN de la institución, de la siguiente manera: Núcleo 4500 Core4500(config)# spanning-tree vlan 80 root secundary Core4500(config)# spanning-tree vlan 99 root primary Core4500(config)# spanning-tree vlan 100 root primary Core4500(config)# spanning-tree vlan 200 root primary Asignación de prioridad media-alta Prioridad alta Prioridad alta Prioridad alta Núcleo 3700 Core3700(config)# spanning-tree vlan 80 root primary Core3700(config)# spanning-tree vlan 99 root secundary Core3700(config)# spanning-tree vlan 100 root secundary Core3700(config)# spanning-tree vlan 200 root secundary Prioridad alta Prioridad media-alta Prioridad media-alta Prioridad media-alta Con esto se anulan los bucles producidos por la redundancia de enlaces y se establecen prioridades en la elección de los nodos raíz. De esta forma los conmutadores de acceso pueden conectarse a ambos Núcleos sin problema de generar bucles. 4.1.3.5 Etherchannel Un Etherchannel nos permite sumar la velocidad nominal de cada puerto físico y así obtener un único enlace troncal de alta velocidad [13]. En la topología se establecen etherchannel solo hacia el Núcleo 4500 y solo para aquellos conmutadores que den acceso a áreas críticas dentro de la institución. Núcleo 4500 Core4500(config)# interface FastEthernet1/0 Ingreso a la interfaz Core4500(config-if)# switchport trunk native vlan 99 Modo troncal con VLAN nativa Core4500(config-if)# switchport mode trunk Asignación de modo troncal Core4500(config-if)# mls qos trust cos Aplicar calidad de servicio Core4500(config-if)# channel-group 1 mode on Nombre y habilitación del grupo Core4500(config-if)# exit ! Core4500(config)# interface FastEthernet1/1 Ingreso a la interfaz Core4500(config-if)# switchport trunk native vlan 99 Modo troncal con VLAN nativa Core4500(config-if)# switchport mode trunk Asignación de modo troncal Core4500(config-if)# mls qos trust cos Aplicar calidad de servicio Core4500(config-if)# channel-group 1 mode on Nombre y habilitación del grupo Core4500(config-if)# exit ! Con esta configuración se crea automáticamente la siguiente interfaz 34 Core4500(config)# interface Port-channel1 Core4500(config-if)# switchport trunk native vlan 99 Core4500(config-if)# switchport mode trunk ! Creación de interfaz Port-channel1 Modo troncal con VLAN nativa Asignación de modo troncal De igual manera de debe configurar en el conmutador a conectar. La topología final, luego de implementados todos los protocolos establecidos, es la que se muestra a continuación. Ilustración 14: Topología Final 4.2 4.2.1 Interrupción servicio de Internet Análisis previo Todos los usuarios acceden a internet a través del enlace ubicado en el sitio principal, por ende ante una interrupción de este servicio, todos los usuarios deben poder acceder a internet a través del enlace de respaldo ubicado en el sitio de contingencia. Para el desarrollo de esta alternativa es importante entender que el acceso a internet tanto en el sitio principal como contingencia es a través de rutas estáticas, generadas en los propios núcleos de comunicaciones de cada sitio, por ende, para permitir que las agencias puedan navegar hacia internet, es necesario que estas conozcan estas rutas, las cuales deben ser redistribuidas por los núcleos de comunicaciones. Otro aspecto relevante a considerar, es la utilización, por parte del proveedor, del mismo equipo de comunicaciones para la entrega de dos servicios deferentes, uno de ellos precisamente es Internet y el otro es el servicio de interconexión a la red de datos. Las medidas consideras para la mitigación de estos riesgos, es la utilización del enlace de respaldo en caso de falla del enlace principal de internet y la utilización de un equipo independiente para la entrega del servicio. En producción, todas las agencias navegan a través del sitio principal tal cual como se muestra en la siguiente ilustración: 35 Respaldo Sitio Producción MPLS Respaldo Sitio Contingencia Núcleo Núcleo Principal Sitio Producción LAN Principal Sitio Contingencia LAN MPLS Internet Internet 2.2.1.2 3.3.3.4 Enlaces Secundarios Enlaces Secundarios LAN LAN LAN Ilustración 15: Topología Internet Sitio Principal Todas las agencias que se interconectan a la red MPLS, exclusivamente por el proveedor principal, las cuales tienen configuradas el mismo protocolo autónomo de enrutamiento EIGRP (100), a diferencia de los sitios principal y contingencia, los cuales tienen configurados dos sistemas autónomos como se ha explicado anteriormente. A través de estos dos sistemas autónomos, EIGRP (100 y 200), se debe configurar la propagación de la ruta estática que da acceso a internet. Existen dos rutas estáticas responsables de la navegación a internet, una está configurada en el sitio principal y la otra en el sitio de contingencia. 4.2.2 Integración clúster de Núcleos de Comunicaciones Antes de especificar la configuración previa, debe considerar en este caso, la integración con el clúster de Núcleos de comunicaciones de la siguiente manera: Núcleo 4500 Core4500(config)# interface Vlan9 Core4500(config-if)# ip address 3.3.3.2 255.255.255.248 Core4500(config-if)# standby ip 3.3.3.1 Core4500(config-if)# standby priority 255 Core4500(config-if)# standby preempt Core4500(config-if)#exit Core4500(config)# spanning-tree Vlan 9 root primary Creación interfaz VLAN Asignación IP y máscara Asignación IP Virtual Prioridad la mayor Asumir estado active Salir Asignación de prioridad Núcleo 3700 Core3700(config)# interface Vlan9 Core3700(config-if)# ip address 3.3.3.3 255.255.255.248 Core3700(config-if)# standby ip 3.3.3.1 Creación interfaz VLAN Asignación IP y máscara Asignación IP Virtual 36 Core3700(config-if)# standby priority 1 Core3700(config-if)# standby preempt Core3700(config-if)#exit Core3700(config)# spanning-tree Vlan 9 root secundary Prioridad menor Asumir estado active Salir Asignación de prioridad Con esto ambos Núcleos podrán implementar la ruta estática para la navegación hacia internet en el sitio principal. 4.2.3 Configuración Previa A continuación, la configuración previa de los dos Núcleos de comunicación del sitio principal y contingencia, donde la IP de la interfaz, que brinda conexión a internet es: 3.3.3.4 para el sitio principal y 2.2.1.2 para el sitio de contingencia. Configuración del clúster comunicación sitio principal (configuración en común para ambos Núcleos de comunicaciones): Cores# configure terminal Cores(config)# ip route 0.0.0.0 0.0.0.0 3.3.3.4 Cores(config)# ip access-list standard Rutas Cores(config-std-nacl)# permit 0.0.0.0 Cores(config)# router eigrp 100 Cores(config-router)# redistribute static route-map Internet Cores(config)# route-map Internet Cores(config-route-map)# match ip address Rutas Configuración global Ruta estática para internet Creación lista con rutas Agregar ruta para internet Configuración EIGRP Redistribuir rutas estáticas Se redistribuyen solo la s rutas pertenecientes a la lista Rutas Con esta configuración, se está redistribuyendo la ruta estática que permita la navegación a internet, a su vez cualquier ruta estática que se desea redistribuir debe ser agregada a la lista de acceso “Rutas”. Configuración del Nucleo de comunicación sitio de contingencia: Core# configure terminal Core(config)# ip access-list standard Rutas Core(config)# router eigrp 100 Core(config-router)# redistribute static route-map Internet Core(config)# route-map Internet Core(config-route-map)# match ip address Rutas Configuración global Creación lista con rutas Configuración EIGRP Redistribuir rutas estáticas Se redistribuyen solo las rutas pertenecientes a la lista Rutas Esta configuración solo tiene creada la lista de acceso, pero no tiene ninguna ruta estática a redistribuir. La siguiente imagen representa la misma topología de la ilustración 17, pero considerando la utilización de un equipo diferente por parte del proveedor para entregar la entrega del servicio y la consideración del clúster de Núcleos, para la redistribución de la ruta hacia Internet. 37 Ilustración 16: Nueva Topología Internet Sitio Principal 4.2.4 Ejecución alternativa seleccionada Entrar a los Núcleos en el sitio principal (Core 4500 y 3700) y ejecutar los siguientes comandos: Cores# configure terminal Cores(config)# no ip route 0.0.0.0 0.0.0.0 3.3.3.4 Cores(config)# ip access-list standard Rutas Cores(config-std-nacl)# no permit 0.0.0.0 Cores(config-std-nacl)# exit Cores# do clear ip route * Modo de configuración global Quitar ruta estática para internet Lista de acceso con rutas a distribuir Quitar ruta de la lista de redistribución Salir de la lista de acceso Limpiar la tabla de rutas Entrar al Núcleo de Contingencia y ejecutar los siguientes comandos: Core# configure terminal Core(config)# ip route 0.0.0.0 0.0.0.0 2.2.1.2 Core(config)# ip access-list standard Rutas Core(config-std-nacl)# permit 0.0.0.0 Core(config-std-nacl)# exit Core(config)# do clear ip route * Modo de configuración global Agregar ruta estática para internet Lista de acceso con rutas a distribuir Agregar ruta a redistribuir Salir de la lista de acceso Limpiar la tabla de rutas Luego de aplicados estos comandos la navegación hacia internet será por el enlace de contingencia, tal como muestra la siguiente ilustración: 38 Ilustración 17: Topología Internet Sitio Contingencia Es preciso especificar el proceso de vuelta a atrás, el cual se detalla a continuación. 4.2.5 Paso a producción (vuelta a atrás) Entrar al Núcleo de Contingencia y ejecutar los siguientes comandos: Core# configure terminal Core(config)# no ip route 0.0.0.0 0.0.0.0 2.2.1.2 Core(config)# ip access-list standard Rutas Core(config-std-nacl)# no permit 0.0.0.0 Core(config-std-nacl)# exit Core(config)# do clear ip route * Modo de configuración global Quitar ruta estática para internet Lista de acceso con rutas a distribuir Quitar ruta de la lista de redistribución Salir de la lista de acceso Limpiar la tabla de rutas Entrar a los Núcleos en el sitio principal (Core 4500 y 3700) y ejecutar los siguientes comandos: Cores# configure terminal Cores(config)# ip route 0.0.0.0 0.0.0.0 3.3.3.4 Cores(config)# ip access-list standard Rutas Cores(config-std-nacl)# permit 0.0.0.0 Cores(config-std-nacl)# exit Cores(config)# do clear ip route * Modo de configuración global Agregar ruta estática para internet Lista de acceso con rutas a distribuir Agregar ruta a redistribuir Salir de la lista de acceso Limpiar la tabla de rutas 39 4.3 4.3.1 Interrupción servicio WebBlocker Análisis previo Todos los usuarios que acceden a internet, lo hacen previamente a través de un WebBlocker (filtro de contenido web), el cual restringe la navegación hacia sitios no apropiados. Este equipo se encuentra entre el Núcleo y el Firewall, por ende una interrupción de este afecta directamente la navegación web. Por ende, para garantizar al acceso a internet se debe desconectar lógicamente el equipamiento, dejando momentáneamente sin filtro de contenido web a los usuarios. A continuación se presenta la topología de interconexión hacia Internet. Ilustración 18: Topología interconexión Internet 4.3.2 Integración clúster de Núcleos de Comunicaciones Se debe considerar en este caso la integración con el clúster de Núcleos de comunicaciones de la siguiente manera: Núcleo 4500 Core4500(config)# interface Vlan8 Core4500(config-if)# ip address 2.2.2.2 255.255.255.248 Core4500(config-if)# standby ip 2.2.2.1 Core4500(config-if)# standby priority 255 Core4500(config-if)# standby preempt Core4500(config-if)#exit Core4500(config)# spanning-tree Vlan 8 root primary Creación interfaz VLAN Asignación IP y máscara Asignación IP Virtual Prioridad la mayor Asumir estado activo Salir Asignación de prioridad Núcleo 3700 Core3700(config)# interface Vlan8 Core3700(config-if)# ip address 2.2.2.3 255.255.255.248 Core3700(config-if)# standby ip 2.2.2.1 Core3700(config-if)# standby priority 1 Core3700(config-if)# standby preempt Core3700(config-if)#exit Core3700(config)# spanning-tree Vlan 8 root secundary Creación interfaz VLAN Asignación IP y máscara Asignación IP Virtual Prioridad menor Asumir estado active Salir Asignación de prioridad 40 La siguiente imagen representa la misma topología de la ilustración 20, considerando la integración del clúster de comunicaciones para la interconexión de los equipos. Internet LAN Vlan 8 2.2.2.4/29 Vlan 8 WebBlocker 2.2.2.5/29 Cluster Firewall 3.3.3.1/29 Vlan 9 3.3.3.4/29 2.2.2.1/29 Ilustración 19: Nueva Topología interconexión Internet 4.3.3 Ejecución alternativa seleccionada Entrar al clúster de Núcleos, en el sitio principal y ejecutar los siguientes comandos: Cores# configure terminal Cores(config)# no ip route 0.0.0.0 0.0.0.0 3.3.3.4 Cores(config)# ip route 0.0.0.0 0.0.0.0 2.2.2.4 Cores(config)# do wr Modo de configuración global Quitar ruta estática para internet Agregar nueva ruta para internet Guardar cambios Entrar al Firewall y ejecutar el siguiente comando. FW# configure terminal FW(config)# no route inside 192.168.0.0 255.255.0.0 2.2.2.5 FW(config)# no route inside 172.16.0.0 255.255.0.0 2.2.2.5 FW(config)# no route inside 10.10.10.0 255.255.255.0 2.2.2.5 FW(config)# route inside 192.168.0.0 255.255.0.0 2.2.2.1 FW(config)# route inside 172.16.0.0 255.255.0.0 2.2.2.1 FW(config)# route inside 10.10.10.0 255.255.0.0 2.2.2.1 FW(config)# do wr Modo de configuración global Quitar ruta estática a LAN Quitar ruta estática a telefonía Quitar ruta estática a DMZ Agregar ruta estática a LAN Agregar ruta estática a telefonía Agregar ruta estática a DMZ Guardar cambios A continuación se presenta la interconexión de los equipos luego de aplicado el procedimiento de recuperación. 41 Internet LAN Vlan 8 2.2.2.4/29 Vlan 8 WebBlocker 2.2.2.5/29 Cluster Firewall 3.3.3.1/29 Vlan 9 3.3.3.4/29 2.2.2.1/29 Ilustración 20: Topología de interconexión Internet alternativa La imagen anterior muestra la interconexión hacia internet, sin pasar por el equipo WebBlocker, quedando momentáneamente la navegación web sin filtros. 4.3.4 Paso a producción (vuelta a atrás) Para volver a conectar el equipo WebBlocker se debe seguir el siguiente procedimiento: Entrar al clúster y ejecutar los siguientes comandos: Cores# configure terminal Cores(config)# no ip route 0.0.0.0 0.0.0.0 2.2.2.4 Cores(config)# ip route 0.0.0.0 0.0.0.0 3.3.3.4 Cores(config)# do wr Modo de configuración global Quitar ruta estática para internet Agregar nueva ruta para internet Guardar cambios Entrar al Firewall y ejecutar el siguiente comando. FWl# configure terminal FW(config)# no route inside 192.168.0.0 255.255.0.0 2.2.2.1 FW(config)# no route inside 172.16.0.0 255.255.0.0 2.2.2.1 FW(config)# no route inside 10.10.10.0 255.255.255.0 2.2.2.1 FW(config)# route inside 192.168.0.0 255.255.0.0 2.2.2.5 FW(config)# route inside 172.16.0.0 255.255.0.0 2.2.2.5 FW(config)# route inside 10.10.10.0 255.255.0.0 2.2.2.5 FW(config)# do wr Modo de configuración global Quitar ruta estática a LAN Quitar ruta estática a telefonía Quitar ruta estática a DMZ Agregar ruta estática a LAN Agregar ruta estática a telefonía Agregar ruta estática a DMZ Guardar cambios 42 4.4 4.4.1 Interrupción Firewall Análisis previo Todos los usuarios que acceden a los servidores, lo hacen previamente a través de un Firewall (filtraje de paquetes), el cual restringe el acceso por IP origen y por puerto. Tanto los servidores como el equipo Firewall, están conectados directamente al Núcleo de comunicaciones, siendo este a través de rutas estáticas, quien hace la conexión lógica. En caso de falla del equipo Firewall se puede recuperar el acceso a los servidores, conectando directamente estos a la red LAN. Cabe resaltar que al realizar estos cambios, al acceso a los servidores quedará sin la seguridad brindada por el Firewall, por lo que se debe desconectar el servicio de Internet y utilizar el enlace de respaldo. A continuación se presenta la topología de interconexión hacia los servidores. Ilustración 21: Topología interconexión Servidores 4.4.2 Integración clúster de Núcleos de Comunicaciones Se debe considerar en este caso la integración con el clúster de Núcleos de comunicaciones de la siguiente manera: Núcleo 4500 Core4500(config)# spanning-tree Vlan 15 root primary Core4500(config)# spanning-tree Vlan 14 root primary Asignación de prioridad primaria Asignación de prioridad primaria Núcleo 3700 Core3700(config)# spanning-tree Vlan 15 root secundary Core3700(config)# spanning-tree Vlan 14 root secundary Asignación de prioridad Asignación de prioridad Con esta configuración se evita la generación de bucles por parte de la redundancia del clúster. La siguiente imagen representa la misma topología de la ilustración 23, considerando la integración del clúster de comunicaciones para la interconexión de los equipos. 43 Ilustración 22: Nueva Topología interconexión Servidores 4.4.3 Ejecución alternativa seleccionada Entrar a los Núcleos y ejecutar los siguientes comandos: Núcleo 4500 Core4500(config)# interface Vlan14 Core4500(config-if)# ip address 192.168.14.2 255.255.255.0 Core4500(config-if)# standby ip 192.168.14.1 Core4500(config-if)# standby priority 255 Core4500(config-if)# standby preempt Core4500(config-if)#exit Core4500(config)# interface Vlan15 Core4500(config-if)# ip address 10.10.15.2 255.255.255.248 Core4500(config-if)# standby ip 10.10.15.1 Core4500(config-if)# standby priority 255 Core4500(config-if)# standby preempt Core4500(config-if)#exit Creación interfaz VLAN Asignación IP y máscara Asignación IP Virtual Prioridad la mayor Asumir estado activo Salir Creación interfaz VLAN Asignación IP y máscara Asignación IP Virtual Prioridad la mayor Asumir estado activo Salir Núcleo 3700 Core3700(config)# interface Vlan14 Core3700(config-if)# ip address 192.168.14.3 255.255.255.0 Core3700(config-if)# standby ip 192.168.14.1 Core3700(config-if)# standby priority 1 Core3700(config-if)# standby preempt Core3700(config-if)#exit Core3700(config)# interface Vlan15 Core3700(config-if)# ip address 10.10.15.3 255.255.255.248 Core3700(config-if)# standby ip 10.10.15.1 Core3700(config-if)# standby priority 1 Core3700(config-if)# standby preempt Core3700(config-if)#exit Creación interfaz VLAN Asignación IP y máscara Asignación IP Virtual Prioridad menor Asumir estado active Salir Creación interfaz VLAN Asignación IP y máscara Asignación IP Virtual Prioridad menor Asumir estado active Salir 44 Entrar al Clúster y ejecutar los siguientes comandos: Cores# configure terminal Cores(config)# no ip route 192.168.14.0 255.255.255.0 2.2.2.4 Cores(config)# no ip route 10.10.15.0 255.255.255.248 2.2.2.4 Cores(config)# ip access-list standard Rutas Cores(config-std-nacl)# no permit 192.168.14.0 0.0.0.255 Cores(config-std-nacl)# no permit 10.10.15.0 0.0.0.7 Cores(config-std-nacl)# exit Cores(config)# router eigrp 100 Cores(config-router)# network 192.168.14.0 0.0.0.255 Cores(config-router)# network 192.168.15.0 0.0.0.7 Cores(config-router)# exit Cores(config)# do wr Configuración global Quitar ruta acceso a servidores Quitar ruta acceso a servidores Acceso a lista de rutas No redistribuir ruta de acceso No redistribuir ruta de acceso Salir Ingresar a configuración EIGRP Agregar red de servidores Agregar red de servidores Salir Guardar Ilustración 23: Topología interconexión Servidores alternativa 4.4.4 Paso a producción (vuelta a atrás) Para volver a conectar el equipo Firewall y filtrar el acceso a los servidores, se debe seguir el siguiente procedimiento. Entrar a los Núcleos y ejecutar los siguientes comandos: Núcleo 4500 Core4500(config)# interface Vlan14 Core4500(config-if)# no ip address 192.168.14.2 255.255.255.0 Core4500(config-if)# no standby ip 192.168.14.1 Core4500(config-if)# no standby priority 255 Core4500(config-if)# no standby preempt Core4500(config-if)# exit Core4500(config)# interface Vlan15 Core4500(config-if)# no ip address 10.10.15.2 255.255.255.248 Core4500(config-if)# no standby ip 10.10.15.1 Core4500(config-if)# no standby priority 255 Ingreso interfaz VLAN Quitar IP y máscara Quitar IP Virtual Quitar Prioridad Quitar estado activo Salir Ingreso interfaz VLAN Quitar IP y máscara Quitar IP Virtual Quitar Prioridad 45 Core4500(config-if)# no standby preempt Core4500(config-if)# exit Quitar estado activo Salir Núcleo 3700 Core3700(config)# interface Vlan14 Core3700(config-if)# no ip address 192.168.14.3 255.255.255.0 Core3700(config-if)# no standby ip 192.168.14.1 Core3700(config-if)# no standby priority 1 Core3700(config-if)# no standby preempt Core3700(config-if)# exit Core3700(config)# interface Vlan15 Core3700(config-if)# no ip address 10.10.15.3 255.255.255.248 Core3700(config-if)# no standby ip 10.10.15.1 Core3700(config-if)# no standby priority 1 Core3700(config-if)# standby preempt Core3700(config-if)#exit Ingreso interfaz VLAN Quitar IP y máscara Quitar IP Virtual Quitar Prioridad Quitar estado activo Salir Ingreso interfaz VLAN Quitar IP y máscara Quitar IP Virtual Quitar Prioridad Quitar estado activo Salir Entrar al Clúster y ejecutar los siguientes comandos: Cores# configure terminal Cores(config)# ip route 192.168.14.0 255.255.255.0 2.2.2.4 Cores(config)# ip route 10.10.15.0 255.255.255.248 2.2.2.4 Cores(config)# ip access-list standard Rutas Cores(config-std-nacl)# permit 192.168.14.0 0.0.0.255 Cores(config-std-nacl)# permit 10.10.15.0 0.0.0.7 Cores(config-std-nacl)# exit Cores(config)# router eigrp 100 Cores(config-router)# no network 192.168.14.0 0.0.0.255 Cores(config-router)# no network 10.10.15.0 0.0.0.7 Cores(config-router)# exit Cores(config)# do wr 4.5 Configuración global Agregar ruta acceso a servidores Agregar ruta acceso a servidores Acceso a lista de rutas Redistribuir ruta de acceso Redistribuir ruta de acceso Salir Ingresar a configuración EIGRP Quitar red de servidores Quitar red de servidores Salir Guardar Resumen Planes de tratamiento Se presenta un resumen con los planes a ejecutar, en presencia de los riesgos establecidos, luego de aplicadas las medidas de mitigación establecidas. Riesgo Falla sobre el Núcleo de comunicaciones Saturación en el Núcleo de comunicaciones Saturación de carga en el enlace Corte servicio MPLS proveedor principal Corte servicio MPLS proveedor de respaldo Interrupción servicio de Internet Interrupción servicio WebBlocker Interrupción Firewall Plan de ejecución Seguimiento Seguimiento Seguimiento Seguimiento Seguimiento Subcapítulo 4.2.2 Subcapítulo 4.2.3 Subcapítulo 4.2.4 Actualización Trimestral Trimestral Trimestral Cuatrimestral Cuatrimestral Semestral Semestral Semestral Tabla 9: Resumen planes de ejecución 46 5 Análisis de Resultados 5.1 Mediciones en Clúster A continuación se presentan los resultados de pruebas iterativas sobre el clúster de comunicaciones, estas pruebas consisten en la interrupción de uno de los núcleos pertenecientes al clúster y en la respuesta en segundos, que demora el servicio en restablecerse por parte del otro núcleo de comunicaciones y viceversa. En la siguiente ilustración se especifican los equipos involucrados en la medición. Ilustración 24: Equipos involucrados en la medición de disponibilidad del Clúster El resultado de las mediciones es el presentado en el siguiente gráfico. Tiempo de recuperacion Cluster de Núcleos, [s] 3,5 3 Tiempo [s] 2,5 2 1,5 1 0,5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 N° de Medicion Núcleo 4500 Núcleo 3700 Ilustración 25: Tiempo de recuperación Clúster v/s n° de medición En la ilustración anterior se puede apreciar en color azul, los tiempos que demora el núcleo 4500, en restablecer el servicio, ante una interrupción del Núcleo 3700. Y en color rojo se puede apreciar, los tiempos que demora el Núcleo 3700, en restablecer el servicio, ante una interrupción del Núcleo. Por ejemplo en la medición número 3, ante la falla del Núcleo 1, el Núcleo 2 demoraría 3 segundos en restablecer la interconexión del enlace. 47 El tiempo promedio de recuperación de las 30 mediciones es de 1.83 segundos y la varianza es de 1,14 segundos en el núcleo 1, mientras que en el núcleo 2 el tiempo promedio de recuperación de las 30 mediciones es de 1.86 segundos y la varianza es de 1,01 segundos. 5.2 Mediciones en Proveedores A continuación se presentan los resultados de pruebas iterativas sobre los enlaces MPLS principal y de respaldo, estas pruebas consisten en la interrupción de uno de los servicios de enrutamiento por parte de un proveedor y la respuesta en segundos, que demora el otro proveedor de comunicaciones en restablecer la interconexión y viceversa. En la siguiente ilustración se especifican los equipos involucrados en la medición. Ilustración 26: Equipos involucrados en la medición de disponibilidad de proveedores El resultado de las mediciones es el presentado en el siguiente gráfico. Tiempo de recuperación proveedores, [s] Tiempo [s] 18 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 N° de Medicion Entel Telmex Ilustración 27: Tiempo de recuperación proveedores v/s n° de medición 48 En la ilustración anterior se puede apreciar en color azul, los tiempos que demora el proveedor Entel, en restablecer el servicio, ante una interrupción del proveedor Telmex. Y en color rojo se puede apreciar, los tiempos que demora el proveedor Telmex, en restablecer el servicio, ante una interrupción del proveedor Entel. Por ejemplo en la medición número 8, ante la falla del proveedor Entel, el tiempo que demoraría el proveedor Telmex en recuperar el servicio seria de 16 segundos. El tiempo promedio de recuperación de las 30 mediciones es de 13,07 segundos y la varianza es de 3,04 segundos para el proveedor de servicios Entel, mientras que para el proveedor de servicios Telmex el tiempo promedio de recuperación de las 30 mediciones es de 13,2 segundos y la varianza es de 3,36 segundos. 5.3 Análisis alternativas seleccionadas a) Las alternativas desarrolladas en el subcapítulo “Implementación de planes de tratamiento”, permiten verificar efectivamente que: 1. Existe distribución de carga entre los equipos pertenecientes al clúster de Núcleos 2. Se realiza una distribución de carga, entre los enlaces de los proveedores desde el sitio principal hacia el sitio de contingencia, siendo cada enlace el respaldo del otro. 3. Ante una falla de cualquiera de los equipos pertenecientes al clúster, el equipo que se mantenga operativo asumirá la carga total. 4. Ante una falla de cualquier proveedor, la carga es traspasada automáticamente al proveedor que este operativo. b) Las alternativas seleccionadas para la mitigación de los riesgos, reducen la magnitud y la priorización de los riesgos tratados, según el siguiente detalle. 1. Ante el riesgo, falla sobre el Núcleo de comunicaciones, se reduce la magnitud del riesgo de A a B, en consecuencia de la reducción del impacto ante la presencia de este riesgo. Así también se reduce su prioridad de 1 a 3. Los tiempos de recuperación, ante la falla de un núcleo, son los esperados, alrededor de 2 segundos, ver ilustración 24 y 25. 2. Ante el riesgo, Saturación en el Núcleo de comunicaciones, se reduce la magnitud de este de A a B, en consecuencia de la distribución de carga entre los Núcleos de comunicaciones y por ende una baja en la probabilidad de ocurrencia. Así también se reduce su prioridad de 1 a 3. 3. Ante el riesgo, Saturación de carga en el enlace, se disminuye la magnitud del riesgo de A a B, como consecuencia de la distribución de carga entre los proveedores. Además se reduce su prioridad de 2 a 3, en consecuencia de la documentación generada para la distribución de carga. 4. Ante el riesgo, Corte de servicio MPLS, de cualquier proveedor, se reduce la priorización de este en un grado, debido a la documentación generada, como consecuencia de la implementación de las medidas de los 3 riesgos mencionados anteriormente. Los tiempos de recuperación, ante la falla de un proveedor, ya se primario o secundario, es alrededor de 12 segundos promedio, un poco menor de lo esperado, ver ilustraciones 26 y 27. 49 c) En el tratamiento de los riesgos: “Interrupción del servicio de Internet, WebBlocker y Firewall, lo más relevante es la creación de planes de emergencia, los cuales permiten poder actuar de forma rápida y segura ante la presencia de los riesgos, recuperando la conectividad necesaria para continuar con el giro de la institución. En estos escenarios aparte de la disminución de la magnitud del riesgo, principalmente se disminuye la priorización de estos, es decir el nivel o grado de atención que deben tener. d) De todos los riesgos de magnitud A estudiados, solo uno de ellos no disminuyó su magnitud, “Corte de servicio MPLS proveedor principal”, sin embargo logra disminuir su priorización, debido a la implementación de las medidas seleccionadas de los riesgos tratados en conjunto. 50 6 Conclusiones El sector financiero está sometido a grandes cambios, por efecto de su proprio entorno y naturaleza de mercado. Por esta razón es un sector pionero en la introducción de tecnología e intensivo en su uso logrando así ventajas competitivas. En consecuencia las entidades financieras deben renovar permanentemente sus infraestructuras de TI para adaptarlas a la constante evolución de los canales de distribución con objeto de incrementar su presencia y mejorar la cantidad y calidad de los servicios financieros. En este sentido, afrontan dos retos fundamentales: por un lado deben flexibilizar el negocio para adaptarse rápidamente a la evolución del mercado; y por otro, encontrar elementos diferenciadores en un entorno competitivo muy agresivo. En este contexto, la innovación tecnológica es un factor clave. Como resultado de la implementación del Análisis y evaluación de riesgos sobre el servicio de interés, se puedo mitigar o minimizar gran parte de los riesgos directos a los cuales se ve expuesto el Núcleo de comunicaciones y que en gran medida afectan de manera muy negativa al servicio. La solución de clúster es la responsable del desarrollo de las alternativas seleccionadas, ya que con ella se pueden implementar las redundancias y distribuciones de carga necesarias. Las alternativas seleccionadas, en el caso de interrupción de los servicios de Internet, WebBlocker y Firewall, corresponden al desarrollo de planes de emergencia, en los cuales se especifican los pasos a seguir para la recuperación de la conectividad necesaria, para poder continuar con el giro de la institución. El tiempo en que estos planes actúan, no debe ser más de 24 horas. Como se mencionó al inicio, existen muchos planes que complementan al BCP y que se interrelacionan entre sí como los son: El plan de comunicación de crisis; Plan de evacuación; Plan de respuesta a ciber-incidentes; Plan de recuperación de desastres entre otros. Es vital poder generar estos planes en colaboración con la administración y con las áreas involucradas, ya que en muchos escenarios la aplicación de un plan conlleva la aplicación de otro o se debe trabajar en más de uno a la vez. Como consecuencia del análisis realizado, se entiende lo vital que es contar con una infraestructura de comunicaciones flexible que permita ir incorporando todos los productos y servicios de la institución por cualquiera de sus canales. La mejor forma de potenciar al máximo la infraestructura de TI es contar con un socio capaz de integrar soluciones de telecomunicaciones con soluciones de TI. De esta forma es posible contar con una red capaz de transportar información de forma segura, a gran velocidad y la mayor cantidad de tiempo disponible. 51 7 Bibliografía [1] Juan Gaspar M.,” El plan de continuidad de negocios”, Díaz de Santos, España, 2006. [2] http://www.sisteseg.com/files/Microsoft_Word_-_PLAN_DE_CONTINUIDAD_DEL_NEGOCIO.pdf [3] http://www.sisteseg.com/files/Microsoft_Word_-_Articulo_BS_25999_DEF1.pdf [4] http://www.sisteseg.com/files/Microsoft_Word_-_Articulo_BS_25999_DEF1.pdf [5] http://ewh.ieee.org/r10/kerala/paper/mpls.ppt [6] http://www.jccconta.gov.co/foro2006/3.pdf [7] http://www.eduardoleyton.com/apuntes/Administracion_de_riesgo_Estandar%20Australiano.pdf [8] http://www.utp.edu.co/php/controlInterno/docsFTP/ADMINISTRACION_DE_RIESGOS172.ppt [9] http://www.utp.edu.co/php/controlInterno/docsFTP/ADMINISTRACION_DE_RIESGOS172.ppt [10] http://www.jccconta.gov.co/foro2006/3.pdf [11] http://www.gns3.net/ [12] http://support.3com.com/infodeli/tools/switches/4000/4007/13673/prttrans.gif [13] http://sysandnet.blogspot.com/2008/07/soluciones-con-etherchannel-de-l2.html 52