UNIVERSIDAD CIENTIFICA DEL SUR ESCUELA DE INGENIERIA DE SISTEMAS EMPRESARIALES Sistema Integral de Gestión Mejora de los servicios de TI Por María Isabel Rojas Acuña Trabajo Profesional para optar por el título de Ingeniero de Sistemas. 2005 AGRADECIMIENTO Este trabajo representa el esfuerzo por alcanzar uno de mis objetivos profesionales que hoy se ve hecho realidad. Primeramente agradezco a Dios por sus bendiciones y a mis padres por apoyarme y ser mi constante pilar de motivación en esta carrera que he emprendido sin ellos este camino recorrido hubiera sido más dificil. INDICE I. INTRODUCCION................................................................................................................... 5 l. l. EMPRESA ................................................................................................. 6 I.l.l.MISION.............................................................................................................. 6 !.1.2. VISION .............................................................................................................. 6 I.l.3.0BJETIVOS ESTRATEGICOS ................................................................. 6 I.l.4.ESTRATEGIAS............................................................................................... 7 I.2. ANTECEDENTES ..................................................................................................... 8 I.2.l.PRODUCTOS .................................................................................................. 9 I.2.2.INFRAESTRUCTURA ............................................................................... 11 II. I.3. DEFINICIONDELPROBLEMA ....................................................................... 2l I.4. FINALIDAD Y ALCANCES DEL ESTUDIO ................................................ 22 MARCO TEORICO ............................................................................................................. 23 III. DISEÑO DEL ESTUDIO ..................................................................................................... 27 IV. ANALISIS DEL ESTUDI0................................................................................................. 31 IV.l. GESTIONDEFALLOS ......................................................................................... 31 IV.l.l.FALLOS EN REDES E INSTANCIAS .............................................. 31 IV .1.2.FALLOS EN SISTEMAS ....................................................................... 35 IV.l.3.FALLOS EN SERVICIOS U APLICACIONES .............................. 46 IV.2. GESTION DE RENDIMIENT0 .......................................................................... 49 IV.2.l.GESTION DE ELEMENTOS Y SERVICIOS DE LA RED. ....... 50 IV.2.2.GESTION DE RENDIMIENTO DE APLICACIONES ................ 52 IV.3. GESTION DE CONFIGURACION ................................................................... 54 IV.3.l.GESTION DE LA CONFIGURACION DE RED ........................... 55 IV .3.2.GESTION DE LA CONFIGURACION DE SISTEMAS ............. 56 IV.3.3.GESTION DE INVENTARI0 ............................................................... 56 IV .4. GESTION DE CAMBIOS ..................................................................................... 57 V. SERVICE DESK ................................................................................................................... 61 V.l. ACUERDODENIVELDESERVICI0 ........................................................... 64 VI. HERRAMIENTAS ACTUALES EN EL MERCADO .............................................. 70 VII. CONCLUSIONES................................................................................................................. 71 VIII. GLOSARIO ............................................................................................................................. 73 IX. REFERENCIA ....................................................................................................................... 75 UNIVERSIDAD CIENTIFICA DEL SUR - 5- L JNTRODUCCION En los últimos años el ámbito de la gestión de sistemas se ha visto sometido a una gran evolución. Las posibilidades que brindan las nuevas tecnologías unidas a las nuevas necesidades empresariales, han impulsado el cambio: desde un monitoreo de sistemas, hemos pasado a sofisticadas herramientas proactivas que gestionan de forma centralizada todos los componentes de los actuales sistemas de TI empresariales, con el objetivo de conseguir un óptimo nivel del servicio de los mismos. Gestionar las Tecnologías de la Información (TI) nunca ha sido sencillo: el asunto es complejo y las esperanzas depositadas por los usuarios son altas. A medida que las aplicaciones de negocio se extienden más allá de las fronteras lógicas de la empresa, las Tecnologías de Información necesitan soportar una lista cada vez más amplia de elementos. Las Tecnologías de Información se ven obligadas a proporciOnar servicio de calidad a los usuarios internos. Igualmente es necesario seguir brindando servicios de calidad a nuestros clientes. El futuro es que el Banco llegue a gestionar los servicios que es muy diferente a gestionar infraestructura. La Gestión de Infraestructuras no sólo se limita a mantener en perfecto estado de funcionamiento todos los componentes de la misma, sino que evoluciona constantemente en función de las demandas de los usuarios. El presente trabajo pretende establecer las bases para mejorar el soporte de los servicios para que en un futuro estos se puedan gestionar con niveles de calidad. Para lograrlo es necesario mejorar y optimizar el Sistema de Gestión de Redes existente para que se desarrolle paralelamente con la demanda de los usuarios. UNIVERSIDAD CIENTIFICA DEL SUR 1.1. -6- EMPRESA La empresa sobre la que se desarrolló este trabajo tiene por giro de negocio la Banca y Finanzas. Esta empresa brinda servicios bancarios desde el año 1966. En los últimos cinco años, su infraestructura y número de trabajadores ha ido creciendo rápidamente, inaugurando un mayor número de agencias y oficinas especiales a nivel nacional así como la instalación de más cajeros automáticos. Entre sus principales servicios se encuentran el de: Ahorros, Cuentas Corrientes, Pagaduría, y Corresponsalía. 1.1.1. MISION "Brindar servicios financieros de calidad a sus proveedores, trabajadores y público en general. Contribuir con la descentralización económica y financiera del país". 1.1.2. VISION "Ser un banco reconocido por la excelencia en la calidad de sus servicios, la integridad de su gente y por su contribución al desarrollo nacional." 1.1.3. OBJETIVOS ESTRATEGICOS l. Mejorar la atención de nuestros clientes, brindándoles servicios de calidad. UNIVERSIDAD CIENTIFICA DEL SUR -7- 2. Mejorar los procesos operativos del banco. 3. Mantener la autosostenibilidad financiera. 4. Reducción de todo riesgo operacional, financiero y de seguridad. LJ.4. ESTRATEGIAS l. Ampliar la red de oficinas y cajeros automáticos a nivel Nacional. 2. Implantar tumos en las Agencias de mayor carga operativa, con la finalidad de mejorar la imagen y calidad de servicio. 3. Innovar canales de distribución de servicios, acercándolos al cliente y ampliando la capacidad de atención, mejorando la calidad y costo de los servicios que el Banco presta. 4. Implementar un sistema de comunicaciones amplio y confiable a través de una conexión directa que permita integramos con los sistemas de los clientes. 5. Mantener un soporte informático integrado y oportuno a las necesidades del cliente, basado en la aplicación de tecnologías de información de vanguardia. 6. Aplicar mecanismos que conlleven a perfeccionar integralmente al personal, incrementar la productividad, mejorar la calidad de atención, logrando una organización competitiva, proactiva, moderna y eficiente. UNIVERSIDAD CIENTIFICA DEL SUR 1.2. -8- ANTECEDENTES Actualmente esta empresa cuenta con un Sistema de Gestión que tiene por objetivo controlar en un 100%, todos los servicios del banco. Hoy es posible ingresar al sistema para buscar o detectar algún problema en la red del banco. La detección de fallas es automática, ya que emite una alarma; y la notificación es inmediatamente enviada a las personas responsables para la acción correctiva o darle la solución. El control total del banco tanto a nivel de hardware como software, se encuentra centralizado en un Servidor SUN con sistema operativos Solaris; donde se encuentra corriendo el software denominado PEM (PATROL ENTERPRlSE MANAGEMENT). El sistema PEM, captura todos los eventos de los diferentes elementos que conforma la red del banco. Además el sistema realiza la captura de los LOG de los equipos con los que va a interactuar. En este centro de gestión, el operador tiene el control del estado de todos los cajeros, de agencias, de la red Wan y Lan del banco al mismo tiempo. El servidor central es alimentado de información proveniente de los otros servidores que conforman el sistema. El objetivo de la solución entregada ha sido establecer la infraestructura para el monitoreo y administración de los eventos en la red. Una solución integral de Monitoreo y Administración de Eventos para la Red del banco, que permita mejorar los niveles de atención a los usuarios aumentando la disponibilidad y performance de los sistemas, automatizando tareas de Administración. La solución se construyó alrededor del producto PATROL Enterprise Manager de BMC Software, el cual proporciona Administración Centralizada de las diversas operaciones de sistemas de informática. Hace esto consolidando alarmas y -9- UNIVERSIDAD CIENTIFICA DEL SUR consolas de los componentes y administradores de nivel intermedio en la empresa, incluyendo la capacidad de automatización para facilitar el diagnóstico de problemas, la notificación al área de soporte y tareas repetitivas. A partir de esto, se pudo conseguir un Punto de Control Único de los procesos de sus operaciones. Los objetivos de este sistema son: • Establecer una infraestructura para el monitoreo y administración de los eventos en la red del banco. • Mejorar el nivel de servicio al público, aumentando la disponibilidad y performance de los sistemas. • Optimizar el uso de los recursos: hombre, eqmpo y aplicativo, automatizando las tareas operativas y administrativas. • Notificación de alertas en línea a los responsables de los sistemas. 1.2.1. PRODUCTOS Para la actual solución se cuenta con los siguientes productos: Soft" are Cantidad l. Componentes Básicos PATROL Enterprise Manager (PATROL EM) V 4.2 1 PATROL Explorer V.2.3.01 5 2. Notificación con tecnología de voz y acceso por teléfono PATROL ALARMPOINT V 3.2 1 3. Host TANDEM Himalaya S7000 (2 procesadores) PATROL EM Connect Classified System 1 4. Host IBM 9672 RAS PATROL EM Connect Z-SERIES V 2.1.01 1 - 10- UNIVERSIDAD CIENTIFICA DEL SUR Soft" art' Cantidad MAINVIEW AutoOPERATOR for CICS V 5.1.01 1 MAINVIEW for CICS V 5.4.00 1 MAINVIEW for Z-SERIES V 2.5.02 1 CMF Monitor V 5.3.02 1 MAINVIEW for VTAM V 1.1.0 1 MAINVIEW for IP V 1.1.0 1 MAINVIEW Explorer V 1.3.0 1 MAINVIEW for UNIX System Services V 1.1.0 1 S. Servidores Corporativos PATROL for Microsoft Windows 2000 Servers V 2.1 15 6. Monitor de Comunicaciones W AN PATROL Integration for HP OpenView NNM - Enterprise 1 Edition V 1.3.01 HP OpenView Network Node Manager V6.X Hardn arr 1 Cantidad l. Componentes Básicos Sun Blade 1000 Model600 512MB RAM Monl7" 1 Samsung Monitor 19" 1 2. Notificación con tecnología de voz y acceso por teléfono Dialogic Card D/41EPCI 1 3. Monitor de Comunicaciones W AN Workstation HP B2000, 400 MHZ PA-RISC 8500 CPU mini 1 tower workstation La mayoría de estos productos están instalados para gestionar los siguientes elementos: • IBM Z/SERIES- CICS, DATACOM y VTAM • Tandem Himalaya 7000- NonStopKemel Cajeros Automáticos UNlVERSIDAD CrENTTFICA DEL SUR 1.2.2. - JI - • Red de Comunicación Wan - Switches y Ruteadores • Red Lan Agencias - Servidores, PCs • Protocolos SNA, TCPIIP, X.25, FrameRelay y SDLC. INFRAESTRUCTURA Rut~ Moln'llawfa- h :oleru--...ent NV J\~·AA"''ORfor ~ NYA-'oOPERATORfa- CICI MVtor o soeo, CII!F ""'rwtor .... MVfor VTAM, NVI«IP ~TR D l . . OPIII~ NVtor UHIM SS MV lboptor w ¡y COMIGI 8P- n=~~==~==~====~====;t===========!========~====~ ~ ......_.. ........ Con sol• Alteraas • 1.2.2.1. .~ ........... ......_ E~pecbllz.,•• c ...... C•tralluda " O UT • t•• I""'* Kitft , M.. IM ~· . .. . . par ..-Wit~ t CONSOLA CENTRALIZADA PATROL EM proporciona la consola centralizada a escala empresarial. Este producto se instaló bajo el sistema operativo Solaris, en la computadora Sun Blade 1000 Model600. PATROL EM proporciona las funciones de administración de todos los eventos recibidos de los diferentes componentes y plataformas, apoyado por el sistema de gestión de base de datos Sybase Adaptive Server Enterprise (ASE), Version 11.9.2.3. Sybase, parte integrante del sistema. UNJVERSIDAD CIENTIFICA DEL SUR - 12- Debido a la heterogeneidad de los componentes a ser administrados, en cada caso se implantó una solución específica de administración y monitoreo para cada uno. PATROL EM integra estas soluciones en una sola consola centralizada. Cada solución administra los eventos correspondientes localmente, ejecutando las acciones de recuperación definidas, notificando a la consola central PATROL EM de los eventos, acciones tornadas y las alertas generadas por eventos que no pudieron ser manejados localmente; estas últimas son tratadas por PATROL EM según que requieran intervención del operador, que puedan ser objeto de respuestas automáticas remotas o que ingresen a un proceso de correlación con otras alertas. PATROL EM se adhiere al estándar de color OSF para las alertas: 4 Un servicio está en peligro inminente de caer. Se MlW: requiere una acción preventiva. 3 Mm. r..- Hay un problema en progreso. Analizu. tomar decisión. 2 Warning Informet.ional o Clearing Hay síntomas que deben ser observados. Mllt'lsejl!ll de E.stet.us, Recuperación Cietnn otns alertas. Uso administrativo, intemo. PATROL EM proporciona la capacidad de asignar la responsabilidad de las alertas a un operador. La linea de alerta en el Panel de Alertas Activas de PATROL EM (Active Alert Display AAD) se colorea de acuerdo con el nivel de severidad de la alerta El AAD proporciona la capacidad de incluir el nombre del operador que aceptó la responsabilidad por la alerta Cuando la responsabilidad por las alertas es aceptada el color es extendido a través de la línea de alerta entera. El color para alertas no aceptadas 'NO' es identificación de la alerta sobre la linea de alerta extendido a través del campo de - 13- UNIVERSIDAD CIENTIFICA DEL SUR Cuando el problema es resuelto, a la alerta correspondiente se le da el estatus de cerrada "closed" sea automáticamente cuando se detecta el evento que el componente afectado ha vuelto a su estatus de servicio, o manualmente cuando el operador da por resuelto el problema. De cualquier modo todos los eventos relacionados con una alerta son registrados en la base de datos. a. Control de acceso a los usuarios PATROL EM cuenta con un mecanismo de administración de usuarios. Solo los usuarios registrados a través de este mecanismo pueden usar sus servicios. Se registraron todos los usuarios que pueden recibir notificaciones a través de AlarmPoint, a quienes se les puede asignar la responsabilidad por una alerta y a quienes pueden tener acceso a las facilidades de Patrol Explorer. A todos estos usuarios se les asigna el nivel de operador. Los usuarios de Patrol Explorer requieren el registro de autorizaciones más específicas. Los niveles de usuario supervisor y planner se han reservado sólo para el administrador de PATROL EM identificado como NetCmmnd. b. Acceso descentralizado a través de consolas especializadas. El producto PATROL Explorer se instaló en cinco estaciones Windows 2000 server. Patrol Explorer, permite compartir la información producida por PATROL EM en una arquitectura cliente/servidor, convirtiendo a cada estación PATROL Explorer en una consola especializada, configurada según los requerimientos del usuario. Se diseñaron y se pusieron en operación mapas tópicos para mostrar la empresa geográficamente y lógicamente. La integración total con PATROL Enterprise Manager le da al operador despliegues de información con base en los requisitos del usuario. UNIVERSIDAD CIENTIFICA DEL SUR - 14- c. Acceso a Mapas: presentación gráfica. Se requiere que el usuario además de MS Internet Explorer 5 o superior, tenga instalado en su estación Windows 2000, todo el producto Patrol Explorer, pues los mapas aún teniendo un navegador, no pueden ser presentados sin estos requisitos. Se mantiene el límite de cinco usuarios simultáneamente conectados al sistema, incluyendo las estaciones Patrol Explorer. d. Gráficos de la disponibilidad y utilización y reportes estadísticos. Los diferentes administradores de los componentes del sistema: Mainview, HP Openview NNM, Patrol, monitorean permanentemente la utilización de los recursos en sus respectivas áreas generando alertas cuando los umbrales de operatividad de la red y sus componentes son excedidos, las que finalmente son reflejadas en la consola central en la forma de mensajes texto y elementos gráficos en las vistas. Cada una de estas herramientas proporciona facilidades especiales para producir gráficos y reportes especializados para cada caso. Todas las alertas recibidas en la consola centralizada son grabadas en una base de datos Sybase. En realidad la información sobre todos los eventos detectados por los diferentes administradores y elementos administrados pueden ser recibidos y almacenados en la base de datos Sybase. Esto proporcionará el acceso a información histórica sobre los niveles de servicio, disponibilidad, falta de recursos, los casos en que se excedieron los umbrales de operatividad. PATROL EM proporciona herramientas para la creación inmediata de queries y reportes de formato básico a través de paneles. Pero además el acceso a la base de datos central, se realiza desde la misma estación de trabajo Sun donde corre PATROL EM (Utilizando SQL, ISQL, REXX, bajo Solaris); como parte de la explotación del sistema se desarrollan los reportes de gestión sobre disponibilidad, niveles de servicio, y otras estadísticas, cuya producción se planifica adecuadamente para su distribución periódica automática a través de e-mail. UNIVERSIDAD CIENTIFICA DEL SUR - 15- Desde las estaciones donde corre PATROL Explorer se consigue la rápida y fácil creación de gráficos, cuadros y reportes de los sistemas administrados a través de la integración avanzada con aplicaciones Microsoft Office, tales como Microsoft Excel. En realidad, es posible crear reportes desde cualquier estación con la herramienta basada en SQL de la preferencia del usuario. e. Supervisión y administración automatizadas de eventos de la red de cajeros automáticos y el Host Tandem. El sistema centraliza las fallas de ATMs, lleva a cabo las funciones de distribución de las mismas y notificará a los técnicos. La distribución esta basada en la presentación de la información a las unidades correspondientes utilizando la interfase gráfica de PATROL Explorer- PATROL Enterprise Manager. Las notificaciones externas al sistema se realizan a través de llamadas telefónicas (AlarmPoint), beeper, email u otro medio disponible. PATROL EM recibe los mensajes de ATMs (Cajeros) producidos por Base 24 a partir del Logger del Tandem, a través de una conexión TCPIIP. El mensaje es transformado para agregarle información que caracteriza al ATM pero que no esta incluida en el mensaje original. Cada mensaje es comparado con reglas, que definen alertas que son creadas conteniendo los datos proporcionados por este y la información de diagnóstico producida por la regla en español. Esta alerta constituye el objeto básico en el sistema y esta disponible a todas las entidades que la necesiten. L2.2.2. MAINVIEW (Host IBM) La instalación de los productos Mainview permitió la integración de la administración y operación del sistema Z-SERIES a la consola Mainview, y su - 16- UNIVERSIDAD CIENTIFICA DEL SUR integración con la Consola Centralizada PATROL EM, por medio de Patrol EM Connect Z-SERIES. a. MainView AutoOperator for MVS y Mainview AutoOperator for CICS han permitido la implantación de: • Detección de eventos a través de reglas para administrar los mensajes más críticos de Z-SERIES, JES y de los subsistemas estándar. • Automatización de sistemas y subsistemas de Z-SERIES: MVS, CICS, VTAM, TCPIIP, UNIX SS. • Supervisión y Administración Avanzadas para CICS, VTAM, IP. • Detección de eventos y automatización avanzados de los principales componentes del teleproceso en Z-SERIES. • Extensión de la capacidad básica de detección de eventos generales en Z-SERIES y sus subsistemas, con la producción de eventos relacionados con la performance y operatividad de estos componentes. • Monitoreo de Performance CICS. Se puso en operación Mainview for CICS para las regiones CICS en el ambiente de producción. • Monitoreo de Performance VTAM. Se puso en operación Mainview forVTAM. • Monitoreo de Performance TCP/IP. Se puso en operación Mainview for IP. • Monitor de Performance Z-SERIES. Se puso en operación Mainview for Z-SERIES CMF Monitor y Mainview Explorer UNIVERSIDAD CIENTIFICA DEL SUR • - 17- Monitor de Performance UNIX S.S. Se puso en operación Mainview forUNIX SS. • Integración de Monitores de Performance a la generación de Alertas vía Mainview Alarm Manager y AutoOPERATOR. • Mainview Explorer proporciOna el acceso a la información de performance de Mainview vía web browser. 1.2.2.3. PATROLALARMPOINT PATROL® AlarmPoint es una tecnología de voz sofisticada que otorga capacidades de notificación automatizada, reconocimiento y escalamiento a los ambientes de operaciones y mesas de ayuda. PATROL AlarmPoint extiende las capacidades de notificación del producto PATROL Enterprise Manager a cualquier ubicación por medio de la notificación de alertas a través de llamadas telefónicas y les permite a los usuarios responder a las situaciones del problema desde cualquier teléfono de tonos-botones. Las alertas generadas por PATROL EM son entregadas al usuario por el ensamblaje de mensajes grabados digitalmente y tecnología text-tospeech que permite "leer" electrónicamente datos durante la llamada telefónica. Esta solución no solo permite la notificación por medio de llamadas telefónicas, sino que contempla que el usuario destinatario pueda responder a la llamada a través del teclado de un teléfono de tonos para: identificarse a través de una contraseña numérica, aceptar o rechazar la asignación de la responsabilidad por una alerta, solicitar el escalamiento de la alerta, confirmar o rechazar una acción automática, etc. Además el sistema puede aceptar llamadas de los usuarios que a través de un sistema de menús pueden consultar la lista de alertas pendientes de notificación para el usuario porque no contestó las llamadas o porque su teléfono no estaba operativo. - 18- UNlVERSIDAD CIENTTFICA DEL SUR PhonePoint PC Fax Patrol EM • 1.2.2.4. Pager Bi-direccional Volee Mall HPOPENVIEW- Network Node Manager La administración de las redes Wan y Lan es realizado gracias a NNM (NODE NETWORK MANAGER). El NNM provee una herramienta integrada para el control y administración de múltiples redes y sistemas y aplicaciones desde un simple grafico que representa la red a administrar. Este sistema esta instalado en un servidor HP-UX y es el que envía todas las alertas provenientes de los diferentes equipos de comunicación de la red del Banco. Esta aplicación trabaja al protocolo de administración simple SNMP. Se puso en operación la integración de este sistema a la consola centralizada para la supervisión y administración de eventos. L2.3. TAREAS AUTOMATIZADAS El Sistema del Patrol Enterprise Manager también nos permite automatizar cualquier acción que se requiera realizar manualmente. Estas acciones pueden ser una respuesta a alguna alarma o alguna tarea programada para ejecutarse a determinada hora con el objeto de cumplir con ciertos procesos. Este tipo de control - 19- UNIVERSIDAD CIENTIFICA DEL SUR que asume el PATROL se cumple para la Red de Cajeros Automáticos- Tandem; IBM - Host Z-Series; Servidores Corporativos. El sistema PATROL automatiza las siguientes tareas: • ATMNOPAGA: Este programa registra todos los cajeros que no realizan retiros antes de 15 minutos de haberse ejecutado. En este reporte, se encuentra el código del cajero, su ubicación y la hora en que hizo su último retiro. Atm_NoPaga, es una alerta de severidad WARNING y será el operador quien tome una acción (notificar, asignar, etc.) Este proceso automático se ejecutara cada 15 minutos, desde las 1O.OOhrs hasta las 18.00hrs, todos los días. • RETENIDA: Este programa sirve para verificar la cantidad de tarjetas retenidas en cada uno de los cajeros automáticos. Si la lectura es mayor que 6, se cierra automáticamente el cajero. En este reporte aparece la cantidad de tarjetas retenidas en cada uno de los cajeros automáticos, en cual se almacena en un archivo retenida.rpt. • HOPNCR y HOPOLI: HopNcr se ejecuta para los cajeros de la marca NCR y Hopüli para los cajeros Olivetti. Este programa sirve para verificar la cantidad de dinero con que cuenta cada uno de los cajeros automáticos. En este reporte aparece la cantidad de dinero que tiene cada uno de los cajeros automáticos, el cual se almacena en un archivo hopncr.rpt, que se encuentra en un archivo del PATROL EM. • LINEAS TANDEM: Este programa se encarga de verificar las líneas del Tandem al Host IBM. Al ejecutar este programa se emitirá un mensaje hacia ellog, el cual indica el estado de las líneas del Host. Se ejecuta automáticamente todos los días. • DISCOS TANDEM: Este programa tiene como propósito verificar la capacidad de espacio libre en todos los discos Tandem. En este UNIVERSIDAD CIENTIFICA DEL SUR -20- reporte se registra la capacidad libre en cada uno de los discos instalados en el Tandem. El programa se encarga de verificar si algún disco del Tandem tiene 10% o menos de espacio libre en cada uno de ellos. El tipo de alerta de los discos Tandem es recurrente. Este programa se ejecuta en forma automática todos los días a cada hora. • EROO: Este programa tiene como propósito verificar que las agencias a nivel nacional realicen transacciones es decir estén atendiendo al público. En caso que alguna agencia no este realizando operaciones esto se reflejará como una ocurrencia en el sistema. Este programa se ejecuta en forma automática todos los días cada 1O minutos en el Host. El sistema Patrol también toma acciones ante eventos o alertas que se presentan en la Red. En el Sistema PATROL se puede configurar una serie de comandos que se activarán al presentarse un alerta. Estos comandos son llamados "triggers". Los triggers son activados cuando una alerta encaja con las condiciones establecidas para el trigger o cuando un criterio particular no ha sido considerado dentro de un marco de tiempo dado. Esto quiere decir que puedes establecer un trigger automático de modo que cuando un problema es detectado en alguna parte del sistema; este se ejecuta para resolver el problema. A continuación los triggers que actualmente están definidos en el sistema: • WARMBOOT: El Warmboot es un trigger de reinicialización de comandos. Este trigger se activa cuando hay una alarma de definición de un cajero automático en la mascara del Tandem. UNIVERSIDAD CIENTIFICA DEL SUR • LEVANTAR LINEAS: Continuamente el PATROL -21 - verifica el estado de las líneas Tandem. Cuando alguna cae, este trigger se activara con la intención de poner operativa la línea con problemas. • CIERRAPU: Se ejecuta automáticamente ante la aparición de una alerta de PU Inactiva para cambiar la severidad de esta alerta de crítica a clear en los siguientes casos: o Cuando el código de PU asociado corresponde a una agencia que ya ha cerrado como parte de su operativa normal. o Cuando TOLD está inactivo indicando que las agencias no están en servicio El Sistema PATROL puede ejecutar comandos en el ambiente Z/SERIES. De esta manera existe una reacción cuando se presenta una alerta. Por ejemplo, activar las diferentes plataformas del ambiente Z/SERIES como: PCICSAP, PCICSTP, ROSCOE. 1.3. DEFINICION DEL PROBLEMA El crecimiento tecnológico por el que está atravesando esta empresa al igual que su incremento en los servicios hace que el actual sistema de gestión de la red no sea suficiente para asegurar servicios de calidad tanto internamente con nuestros usuarios ni externamente con los clientes. Eso se está manifestando en el incremento de problemas que no se han podido prevenir y que vienen afectando la imagen institucional que tanto costó recuperar durante estos últimos años. UNIVERSIDAD CIENTIFICA DEL SUR -22- Llevar a cabo un estudio de la situación actual, involucra las siguientes interrogantes: • ¿Por qué el actual Sistema de Gestión no es suficiente? • ¿Se está realizando una buena Gestión de Infraestructura? • ¿Existen procesos o áreas de gestión que no se estén considerando en la solución actual? • L4. ¿Cómo se puede mejorar esta situación? FINALIDAD Y ALCANCES DEL ESTUDIO Este trabajo tiene por objetivos: l. Identificar los factores que se pueden mejorar del actual Sistema de Gestión. 2. Establecer las bases para mejorar el soporte de servicios de este banco. UNIVERSIDAD CIENTIFICA DEL SUR -23- IL MARCO TEORICO Las tecnologías de información sustentan muchos procesos de negocios y el manejo de información que es crucial para lograr una amplia competitividad y diferenciación, por lo que la gente de sistemas debe encarar el desafio de aproximar el mundo de las tecnologías de la información con los negocios, mostrando el valor y la relevancia que aporta al interior de las organizaciones mas allá de las siglas extrañas y los gastos. La nueva estrategia corporativa es lograr administrar los servicios del negocio alineando los servicios de TI con las necesidades actuales y futuras del negocio y los clientes. Mejorar el soporte de los servicios de TI que el banco ofrece a sus usuanos será el primer paso para la integración de estos mundos teniendo como resultado la mejora de la atención al cliente y la reducción de costos y riesgos. Hoy en día, existen diversidad de frameworks, metodologías y estándares que proveen directrices para las organizaciones de servicios y proveer una alineación mas estrecha entre TI y el negocio. ITIL brinda una descripción detallada de un número de prácticas importantes en TI, a través de una amplia lista de verificación, tareas, procedimientos y responsabilidades que pueden adaptarse a cualquier organización. En algunos casos hasta se han definido las prácticas como procesos que cubren las actividades más importantes de las organizaciones de servicio TI. La vasta cantidad de temas cubiertos por las publicaciones transforma a la ITIL en un elemento de referencia útil para fijar nuevos objetivos de mejora para la organización TI. La organización puede crecer y madurar con ellos. En base a este framework se han desarrollado varios sistemas para la Administración de Servicio TI, generalmente organizaciones del negocio. Los ejemplos incluyen Hewlett & Packard (HP ITSM modelo de referencia), IBM (TI Modelo de Proceso), Microsoft (MOF) y muchos otros. Ésta es una de las razones por UNIVERSIDAD CIENTIFICA DEL SUR -24- las que ITIL se ha convertido en el estándar de facto para describir varios procesos fundamentales de la Administración de Servicio TI. Esta adopción y adaptación de ITIL es un desarrollo bienvenido ya que se ha transformado en el tan necesario orden imprescindible para el actual medio heterogéneo y dividido de TI. ITIL ofrece un marco común para todas las actividades del departamento TI, como parte de la provisión de servicios, basado en la infraestructura TI. Estas actividades se dividen en procesos, que dan un marco eficaz para lograr una administración de servicio TI más madura. Cada uno de estos procesos cubre una o más tareas del departamento TI, tal como desarrollo de servicio, administración de infraestructura, y provisión y soporte de los servicios. Este planteo del proceso permite describir las mejores prácticas de la administración de servicio TI independientemente de la estructura de organización real de la entidad. En la empresa actual, los resultados de negocio suelen estar ligados al uso de las tecnologías de la información. La coordinación de estas tecnologías a través de todos los eslabones de la cadena de valor existente, ha pasado a ser una condición necesaria para alcanzar el éxito. Los procesos de Gestión de Servicios son el corazón de ITIL, y pueden subdividirse en dos áreas bien diferenciadas. El Soporte a los Servicios generalmente se concentra en las operaciones cotidianas, así como en dar soporte a los servicios de TI. En cambio, la Prestación de Servicios se ocupa de la planificación a largo plazo y del perfeccionamiento de la provisión de estos servicios. Soporte a los Servicios: • Service Desk • Gestión de las Incidencias • Gestión de Problemas • Gestión de la Configuración UNIVERSIDAD CIENTIFICA DEL SUR • Gestión de Cambios • Gestión de Versiones -25- Prestación de servicios: • Gestión de Nivel de Servicio • Gestión Financiera para servicios de TI • Gestión de la Capacidad • Gestión de la Continuidad • Gestión de la Disponibilidad Ahora, los departamentos responsables de la explotación de los Sistemas de Información deben adquirir compromisos y acuerdos de nivel de servicio con su propia organización. Los objetivos de la gestión del servicio son: • Alinear los servicios de TI con las necesidades actuales y futuras del negocio y los clientes. • Maximizar la calidad de los servicios prestados. • Reducir el coste de la provisión de servicios a largo plazo. Con respecto a lo que es Gestión de Redes complejas se mencionan estándares como OSI la cual define una división de áreas funcionales con necesidades que deben ser cubiertas. Esta división ha sido aceptada para cualquier sistema de gestión (OSI o no). UNIVERSIDAD CIENTIFICA DEL SUR -26- Áreas funcionales definidas por OSI: • Gestión de Fallos • Gestión de Costes • Gestión de Configuración e Identificación • Gestión de Prestaciones • Gestión de Seguridad Gestionar la Red permitirá controlar mejor los recursos estratégicos de la empresa, controlar su complejidad, mejorar el servicio, balancear las necesidades y reducir los tiempos de no funcionamiento. La solución actualmente implementada en el Banco tiene por objetivos cumplir los siguientes puntos: • Alto rendimiento. • Alta disponibilidad. • Despliegue de información eficiente. • Bajo numero de incidencias. Sin embargo estos objetivos no se han logrado cumplir en un 100%. Si la infraestructura de Tecnologías de la Información y de las Comunicaciones posee un alto rendimiento y una arquitectura fluida y ágil, se convierte en un activo estratégico para la empresa. El servicio de Gestión de Red debe diseñarse para asegurar que los entornos de Infraestructuras TIC sean flexibles a los posibles cambios, sensibles a las demandas del negocio, y se encuentren bajo un control exhaustivo que garantice la más alta disponibilidad. UNIVERSIDAD CIENTIFICA DEL SUR -27- IILDISEÑO DEL ESTUDIO Para lograr un aseguramiento y mejora de la red y de los sistemas en los que se apoya el banco se analizarán cuatro áreas de gestión basado en dos frameworks: ITIL referente al soporte de servicios y las áreas funcionales definidas por OSI. Estas áreas de gestión son: l. Gestión de Fallos. 2. Gestión de Rendimiento. 3. Gestión de Configuración. 4. Gestión de Cambios. El estudio y análisis de estas áreas de gestión permitirán alcanzar los objetivos planteados en este trabajo. El área de gestión de fallos, el cual busca mantener la funcionalidad correcta de la red como un todo y cada uno de sus elementos individualmente. Cuando algo falla es importante: • Determinar exactamente cual es el fallo. • Aislar el resto de la red del fallo para que continúe funcionando sin interferencias. • Reconfigurar o modificar la red de manera que se minimice el impacto del fallo en las operaciones de la organización. UNIVERSIDAD CIENTIFICA DEL SUR • -28- Reparar o sustituir los componentes que han fallado. Los usuarios esperan soluciones rápidas, toleran los fallos ocasionales pero esperan estar informados de manera inmediata del fallo y su rápida solución. Para conseguirlo: • Necesidad de funciones muy rápidas de detección y diagnóstico. • Se puede mm1m1zar el impacto utilizando componentes y rutas redundantes. • Después de corregir un fallo el servicio debe asegurar que no se ha resuelto de verdad u no se han introducido nuevos problemas: se denomina control y seguimiento de fallos. El área de gestión de rendimiento, se ha convertido en un requisito imprescindible para garantizar la fiabilidad de los servicios y aplicaciones de red que hacen realidad tanto los procesos de negocio tradicionales como aquellos basados en las nuevas tecnologías. La gestión del rendimiento de red no sólo tiene un papel fundamental dentro del análisis de protocolos (para las pruebas de red y el análisis del empleo de la misma), en la supervisión de red, para garantizar su estado en las operaciones diarias, y la planificación de red, para determinar sus necesidades de crecimiento; asimismo, es absolutamente esencial para poder ejecutar con eficacia aplicaciones que son vitales dentro de la empresa y fundamentales para nuestro negocio. La gestión de rendimiento de red consiste básicamente en productos y personal que recopilan, analizan y proyectan por un lado, el flujo de tráfico de la red, las aplicaciones que afectan a cada nivel de negocio y, por último, las comunicaciones personales. Los productos de gestión de rendimiento de red pueden variar desde analizadores de protocolo y sondas para poder analizar redes extremo a extremo, hasta sistemas de generación de informes de rendimiento de transacciones comerciales que emplean una arquitectura distribuida abarcando de forma top-to-bottom a toda la empresa. UNIVERSIDAD CIENTIFICA DEL SUR -29- El área de gestión de configuración, provee de un modelo lógico de la infraestructura o de un servicio por medio de la identificación, control, mantenimiento y verificación de los ítems de configuración en existencia. La Administración de la Configuración es un conjunto de disciplinas y políticas para controlar y administrar activos, o en la terminología ITIL: "Elementos de Configuración (EC) de la infraestructura de TI". ECs incluyen hardware, software, elementos de red, documentación o cualquier otro elemento que la organización desee controlar. Para manejar adecuadamente y para controlar estos ECs, la Administración de la Configuración debe ser soportada por una Base de Datos (CMDB) capaz de tener información de todos los ECs inclusive de atributos y las relaciones entre ellos. Los atributos se refieren a características tales como códigos de identificación, números de serie, el dueño, la ubicación, etc. Las relaciones entre ECs se refieren a sus conexiones y asociaciones (por ejemplo. EC es conectado a, forma parte de, es un padre de, etc.). La Administración de la Configuración permite a la organización lograr el control y la administración de sus activos y proporciona información de administración de la infraestructura de TI. La Administración de la Configuración es una parte muy importante en la Administración de los Servicios de TI. Sirve como el eje central para compartir y ofrecer información. Aunque la Administración de la Configuración proporciona información a todo proceso ITIL, es especialmente útil a la Administración de Problemas, a la Administración del Cambio, a la Administración de Reléase y a la Administración de Incidentes. Estos procesos confian en la información almacenada dentro del CMDB para desarrollar sus actividades diarias. El área de gestión de cambios, asegura que métodos y procedimientos estándares son usados para un eficiente manejo de los cambios, minimizando el impacto de los incidentes relacionados a cambios en la calidad del servicio. Consecuentemente, la Administración de Cambios apunta a mejorar la operación del día a día de la organización. -30- UNIVERSIDAD CIENTLFICA DEL SUR A medida que se examine cada área de gestión se realizará un análisis de los factores que se pueden mejorar de la solución actual. Cada una de estas áreas de gestión es importante para asegurar el mejor manejo en la gestión de sistemas distribuidos y más si se quiere lograr una solución de gestión integral para mantener y mejorar los niveles de servicio que van de la mano con los objetivos fijados por la institución. GESTIONO€ FALlOS GESTIONDE CAMBIOS GESTIONDE CONFIGUAAC ON GESTIONOE RE:NOWIENTO UNIVERSIDAD CIENTIFICA DEL SUR - 31 - IV. ANALISIS DEL ESTUDIO IV.l. GESTION DE FALLOS Es la detección, diagnóstico y corrección de los fallos de la red y de los sistemas así como de las condiciones de error. Incluye: • Notificación de fallos. • Sondeo periódico en busca de mensajes de error. • Establecimiento de alarmas. Dentro de esta área de gestión podemos diferenciar tres entornos complementarios de monitoreo: l. Redes e instancias. 2. Sistemas (infraestructuras TI). 3. Servicios o aplicaciones. IV.l.l. FALLOS EN REDES E INSTANCIAS El Banco cuenta con una herramienta que abarca el aspecto de Fallos en Redes. Esta herramienta es el Hp-OpenView Network Node Manager. UNIVERSIDAD CIENTIFICA DEL SUR -32- W.l.J.l. HP-OPENVIEW (Network Node Manager) Es un software de gestión destinado a la administración de redes distribuidas. Permite analizar, mediante visualizaciones en formato gráfico e intuitivo, los dispositivos y el status de la red en todo momento. Es accesible desde cualquier punto a través de una consola Java. Permite a los usuarios conocer cuál es el estado de la red, descubriendo los dispositivos de red y creando un mapa preciso de redes TCP/IP e IPX (en NNM para Windows). Proporciona a los usuarios la posibilidad de identificar rápidamente el origen de los problemas acontecidos en la red, gracias al potente motor de correlación de eventos con tecnología Event Correlation Service (ECS) que incorpora el producto. NNM incorpora MIBs (Manager lnformation Base) preestablecidas, que permiten a los usuarios leer información desde los agentes SNMP (Simple Network Management Protocol) de la red . •~ lnltr rr1 • 1 rr:-rr-r rr r .._. ..... ... ..,.. ~ --... -~ - . -· , Imagen del HP-OPENVIEW (NMM) :: " UNIVERSIDAD CIENTIFICA DEL SUR -33- Este producto actualmente está monitoreando los siguientes objetos: • Router • Switch • Servidor Principal • Servidor Backup • Cámaras de Video La siguiente recomendación es el resultado de un análisis de la situación actual basado en esta área de gestión y buscando mejorar y optimizar la utilización de la herramienta y sus funcionalidades: a. Gestionar la red de cajeros automáticos a través de este software y no a través del producto PATROL ENTERPRISE MANAGER como se viene realizando actualmente. Para esto se recomienda la Implementación del SNMP para cajeros automáticos. Actualmente el PEM realiza una conexión telnet allog del Tandem, en el cual se registran todas las incidencias producidas en su red. Al detectar algún error en un cajero automático éste lo muestra gráficamente a través de un mapa geográfico en base a las reglas aplicadas para cada tipo de error (crítico, informativo, warning, etc.). La propuesta de mejora radica en hacer uso de la herramienta HPOpenView para detectar errores de la red de cajeros automáticos. Como se había descrito anteriormente este producto utiliza el protocolo de gestión SNMP el cual provee información del cualquier recurso de la red que lo soporte. Para nuestro caso, todos los cajeros automáticos envían tramas SNMP que aun no son interpretadas por el HP-OpenView. Con esta implementación estaríamos logrando lo siguiente: UNIVERSIDAD CIENTIFICA DEL SUR • -34- Detección de errores en periféricos y sensores de los caJeros automáticos que no son alertados a través del mismo log del tandem, pero que cuando se producen originan inoperatividad de un cajero. Por ejemplo: o Problemas de pantalla o monitor. o Problemas de CPU. o Problemas de teclado. Llevar a cabo la implementación de SNMP para cajeros automáticos implica: • Solicitar los MIBS al fabricante de nuestros cajeros automáticos. Esto esta libre de costo, ya que está incluido dentro del mantenimiento por los cajeros automáticos. • Formar un equipo de profesionales de comunicaciones y personal de soporte de cajeros del banco para realizar pruebas con los MIBs e identificar a que eventos están relacionados. Esto requiere de tiempo y dedicación y el apoyo técnico de NCR el cual significaría un costo menor que adquirir un software del mismo fabricante. Justificación: La realización de este proyecto reducirá los reclamos por el servicio de cajeros automáticos que actualmente se están incrementando. Hay muchos errores que se vienen presentando sin que el operador tenga herramientas para poder reconocerlo. Así se lograría controlar los problemas producidos por fallas del sistema operativo que están ocasionando retenciones de efectivo y de tatjetas afectando la imagen del banco y creando desconfianza en los usuarios que están optando por realizar sus operaciones de retiro por las ventanillas de las agencias lo cual genera incremento de colas. UNIVERSIDAD CIENTIFICA DEL SUR -35- IV.l.2. FALLOS EN SISTEMAS Para realizar una gestión de fallos en sistemas el banco viene utilizando la herramienta Patrol Enterprise Manager el cual identifica y reporta los eventos que se presentan tanto en la red de cajeros automáticos como en la red de agencias. Para realizar un mejor análisis de esta herramienta y su uso actual se analizará su alcance por cada sistema: IV.1.2.1. CAJEROS AUTOMATICOS Esta empresa cuenta con 436 cajeros automáticos a nivel nacional. La red de caJeros automáticos trabaja con un servidor TANDEM S7000 con dos procesadores. El PATROL alerta sobre los errores producidos por la red de cajeros automáticos y estos son mostrados de acuerdo a una calificación de criticidad en un mapa gráfico. Como se mencionó anteriormente estos errores son extraídos desde el log del tandem. Los errores que vienen siendo reportados son los que a continuación se menciOnan: • ERROR DE LECTORA DE TARJETA: Dispositivo que lee las tarjetas que son introducidas al cajero automático. • ERROR DE WINCHA AUDITORA: Dispositivo donde se graba la información de todas las transacciones realizadas en el cajero automático. • ERROR DE IMPRESORA DE RECIBOS: Dispositivo que entrega al cliente su voucher de operación. UNIVERSIDAD CIENTIFICA DEL SUR • -36- FUERA DE SERVICIO - DOWN: Cuando un cajero queda fuera de servicio. Causa: varias. • ERROR DE DISPENSADOR: Dispositivo en el cual se almacena los billetes para entregar al cliente. • SIN DINERO: Cuando el cajero automático se queda sin dinero para atender. • M19: Error que se produce cuando un cajero retiene dinero Las siguientes recomendaciones son el resultado del análisis que se realizó al proceso de Control de Cajeros Automáticos el cual es soportado por la herramienta Patrol. Esto se logró entrevistando a los operadores y operativos que manejan la red a nivel nacional. a. Incluir dentro de las alertas obtenidas a través del log del tandem, nuevos tipos de errores. La instalación de nuevos modelos de cajeros automáticos ha traído como consecuencia la aparición de nuevos errores que en un inicio no existían. Así tenemos que este sistema debería considerar también los siguientes errores: • ANOMALIA NIVEL 3: Este error produce que el cajero quede fuera de servicio, mostrando un estado de CLOSED. Para resolver este problema el operador primero tiene que revisar si el problema es de línea o no y en todo caso reportarlo a un operativo. Esto puede demorar tiempo antes que el operador se de cuenta que el cajero presenta el error ya que actualmente no viene siendo alertado. • ERROR PERIPHERICAL DEM: Otro error que deja al cajero automático inoperativo. Esta relacionado con la encriptación de las UNIVERSIDAD CIENTIFICA DEL SUR -37- claves. Cuando el operador detecta automáticamente este error debe reportarlo inmediatamente al operativo. • DISPENSADOR SUSPENDIDO: Este error generalmente impide que el cajero pueda entregar dinero. No es considerado error crítico en el manual, sin embargo en la experiencia de los operadores, este error suele impedir al usuario realizar transacciones de retiro. Este error puede ser corregido realizando el procedimiento de CARGA COMPLETA. • LECTORA SUSPENDIDA: Este error generalmente impide que el cajero pueda aceptar las trujetas. No es considerado error crítico en el manual, sin embargo en la experiencia de los operadores, este error suele impedir al usuario insertar su trujeta multired. Este error puede ser corregido realizando el procedimiento de CARGA COMPLETA. Llevar a cabo esta recomendación implicaría: • Realizar ajustes en la configuración de las reglas del Patrol. Esto puede ser realizado por el personal de soporte, para lo cual solo tendrían que identificar los códigos de errores relacionados a los mismos para ser capturados y mostrados como alertas en el mapa. Esta actividad solo es de mantenimiento y no constituye incurrir en ningún gasto. Justificación: Es importante mantenerse actualizado de la situación de la red a medida que esta crece para no perder el control de ella, ni que este crecimiento afecte el servicio que actualmente se está brindando. Es muy importante que la información que llega a los operadores sea la mas completa y exacta, de lo contrario no se estaría realizando un buen monitoreo y gestión del sistema. Siempre se debe tener presente no dormirse en los laureles y mantener la calidad de servicio que es nuestro objetivo final. UNIVERSIDAD CIENTIFICA DEL SUR -38- b. Implementar acciones correctivas automatizadas ante eventos de errores Ante la presencia de estos errores es necesario implementar acciones correctivas que aún no son realizadas por el Patrol y que mejoraría el tiempo de UPTIME de los cajeros brindando mejor servicio a los clientes. Las acciones correctivas a implementarse serían: • REBOOT: Es un procedimiento que realizan los operadores cuando un cajero queda inoperativo por alguno de los siguientes errores críticos: Lectora de Trujeta, Wincha Auditora, Impresora de recibos y peripherical DEM. • CARGA COMPLETA: Este procedimiento actualmente se realiza de manera manual, pero podría ser automatizado para corregir problemas de Lectora Suspendida y/o Dispensador Suspendido. La incidencia de estos problemas aun no viene siendo medido así que no se puede establecer cuanto es el impacto en el servicio. Sin embargo es una realidad que este error se produce diariamente por lo que es importante tener una acción correctiva inmediata que permita al cajero estar en operatividad lo más pronto posible. Llevar a cabo esta recomendación de mejora involucra: • Realizar ajustes en la configuración y reglas en las que se desenvuelve el Patrol para que cuando suceda cualquiera de los errores mencionados se ejecute la acción correctiva inmediatamente reduciendo el tiempo de uptime de los cajeros automáticos. • No se requiere de software ni herramienta adicional para realizar esta labor. Tampoco involucra caer en costos altos pero si se requiere de un tiempo de dedicación por parte del personal de soporte para realizar las afinaciones necesarias, lo cual no debería tomar más de una semana. UNIVERSIDAD CIENTIFICA DEL SUR -39- Justificación: Los errores que actualmente vienen siendo alertados más aqueJJos que se recomienda incluir producen inoperatividad en los cajeros dejando a muchos clientes sin poder realizar sus operaciones y al banco sin percibir las comisiones asignadas a esas transacciones. De los errores actualmente alertados se distinguen 3 que pueden ser corregidos inmediatamente mediante comandos realizados desde el centro de cómputo. Según experticia de los operadores, estos errores pueden ser corregidos mediante comandos en un 75% de las veces que se producen. Por lo que automatizar acciones correctivas reduciría en gran medida el tiempo de uptime de cajeros y se mantendría la disponibilidad de ellos. A continuación se presenta un cuadro con el número de errores que se presentan en la red de cajeros automáticos mensualmente. Aquellos que se encuentran resaltados en color naranja son los que el sistema Patrol podría solucionar mediante acciones automatizadas. Total de Ni1mero de enores critlcos presentados por cajeros atnomátlcos :=. ...... DIMro 167 182 511 234 212 Abril 209 Mayo 186 MH Enero Febrero Marzo ........ 1.078 ....... a...-... 5,532 3,881 334 1442 1,835 794 995 1 ,()89 988 6.342 5,S35 2/371 ......... . ........ - F-•U•• ,... 4.370 4145 4.593 303 346 308 7974 4,()04 267 959 17634 243 950 10,293 ~ Total . . 13001 1.IMO 1,()29 11,259 13 615 1.000 Estos errores representan el35% en promedio de los que se producen en la red mensualmente. T otcll efectivo de errores critkos que podríc1n ser solucionados ...... "....... ........ con atnomatlzaclón de acciones correctivas Mes Enero Febrero Marzo Abril Mayo lHICMa . . hfjetu V..... AMitora -.,.so.•• Total,. ...... al . . AI. .DS MrOIH .. ..,ans ~!jJl =m 007~ 3881 346 5256 5535 306 1 040 1029 1 000 "" 5156 6342 2S7 959 7568 2927 243 950 4120 3 942 5131 5 676 3 090 ,. ,.sz 6 641 ....... ... l5 35 -40- UNIVERSIDAD CIENTIFICA DEL SUR Según información estadística sobre el comportamiento de las transacciones en los cajeros automáticos se tiene que las horas donde se realiza el 91% de las operaciones se encuentran en el rango de 08 a.m. a 09:00p.m. El siguiente gráfico lo demuestra: Horaa en las que• nNIIIzan ln8JOI'voluiMII de~ en el primer triMMtle del afto 2005 12.00 1 10.00 8.00 1 6.00 ' ~ 4.00 2.00 0.00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Horas tr Hora 1 2 3 4 5 6 7 8 9 10 11 12 13 14 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Total % transacción 4.15 5.92 8.19 9.58 9.29 7.90 6.58 5.50 5.55 6.30 6.75 6.67 5.53 3.93 91 .84 Esto significa que de las 24 horas que los cajeros automáticos están a disposición de los usuarios, sólo en 14 horas se registra el91% de las transacciones. Estas 14 horas representan el 58% del número de hor~ de un día Los minutos producidos por inoperatividad de los cajeros automáticos son los siguientes: UNIVERSIDAD CIENTIFICA DEL SUR -41 - Minutos pérdldos por lnoperativfdad de los cajeros automáticos donde los clientes podrían estar haciendo transacciones LHtora• tarfetas ...... VIIHita ,.......,.) ,.....,.) ~-· (..-..os) Enero Febrero Marzo Abril Mayo .....,_... Rechs Total (••••tos) Total et.otlwo lex(IIIIIMitas) 160,008 143 43) 59178 50,900 52 651 47,191 27224 35,334 31 363 16,991 189473 161,059 203165 165 423 275875 247,293 287 179 229,605 133171 40,661 30,964 135,408 207,033 120.()79 166.564 Los estadísticos de los cinco primeros meses en cajeros automáticos son los siguientes: Nllmero de transacciones por su clasificación Mes Enero Febrero Marzo Abril Mayo Reversa 17.346 25160 21458 19,370 17,174 Deneqada 508.333 452 021 442 953 460,259 477,775 Aprobada 3.707.535 3 713 792 3!n7450 3,619 792 3,712,514 Total 4.233.214 4,190 973 4 401 862 4,099,423 4,207,467 Transacciones en porcentajes •.¡¡ Mes Enero Febrero Marzo Abril Mavo Promedio Reversa 0.41 0.60 0.49 0.47 0.41 0.48 Deneqada 12.01 10.79 10.06 11.23 11.36 Aprobada 87.58 88.61 89.45 88.30 88.24 11.09 88.44 Las transacciones Aprobadas son aquellas donde se encuentran los retiros, consultas y cambios de clave efectivos de los que se obtienen comisiones. Por cada una de ellas se cobra una comisión de 0.20 céntimos de soles para cada transacción. Los retiros representan el 75% del total de transacciones aprobadas y las consultas el 23%, el 2% restante corresponde a cambio de clave por lo que no se cobra comisión. También es importante considerar que por cada minuto se realiza 2 transacciones en promedio. UNIVERSIDAD CIENTIFICA DEL SUR -42- Comisiones pérdidas durante el tiempo en que los cajeros automáticos quedan fuera de seiVicio Tabi!M Mn Enero Febrero Marzo Abril Mayo Total ....os 160 008 143 430 166,564 133 171 120 079 Total .. Tr-ICc!Mis ,osllln IIX Tr-••1- .-ah•• 320 015 286!Bl 333,128 266 342 240,158 281 613 252 437 293,152 234,381 211 339 .. . ...._ ...._ AMiros 7IX Collnltas 23X 211,210 189 328 219,$4 175,7Eii 158 504 64 771 58,1Bl 67,425 53,900 48608 Callisiáiii.ZO eo.isi6ll O.ZI etws."-tira (SGIHJ SI. 42,242 SI. J'l Eal SI. 43,973 SI. 35,157 S/. 31.701 etws.CIIIIRka Total,_...s (soiH) •-b:i-s SI. SI. S/. SI. 12,954 11 ,612 13,485 10782 8/. 55196 S/. 49 478 SI. fil ,458 S/. 45 939 SI. 9.722 S/. 41,423 Total SI. 249493 Nota: Los valores de los montos y tiempos son los aproximados, obtenidos de una muestra para el análisis respectivo. c. Optimizar el proceso ATMNOPAGA La tarea automatizada ATMNOP AGA muestra información de que cajeros automáticos no están realizando operaciones en los últimos 15 minutos. Esto lo realiza ejecutando un programa de nombre STATUS4 en el tandem, el cual realiza una consulta en el archivo de transacciones. Esto consume muchos recursos de la propia red. La propuesta es mejorar este proceso cambiando la forma en que se viene realizando. Para ello se recomienda ejecutar el programa PROTDF02 el cual consulta los saldos por cajero. Este podría ejecutarse cada 10 minutos y los dos últimos resultados compararlos, así, si el saldo de un cajero no se ha reducido significará que éste no ha realizado transacciones y se activaría una alerta. La mejora de este proceso involucra: • Cambiar un programa por otro y realizar los ajustes necesarios. Esto es un trabajo de mantenimiento que no implica adquirir algún producto o hardware, solo disponer del tiempo de una semana del personal de soporte para llevarlo a cabo. Justificación: Realizar la tarea automatizada tal como está diseñada actualmente afecta a la red de cajeros automáticos por el consumo de recursos produciendo UNIVERSIDAD CIENTIFICA DEL SUR -43- lentitud tanto en las aplicaciones que se realizan para monitoreo y corrección como en las transacciones que puedan realizar los usuarios. En un día de No Campaña se ejecuta en 4 minutos aproximadamente. Este tiempo se ve incrementando hasta en media hora en fechas de pago de remuneraciones donde el uso de los cajeros automáticos se ve incrementado. La ventaja de realizar este cambio es que también se obtendría reportes cada 1O minutos del consumo de dinero en los cajeros. Esto sería una herramienta de pronóstico del consumo de dinero y programación de los abastecimientos. Esta herramienta sería entregada a la División de Canales Virtuales que son los encargados del mantenimiento y abastecimiento de los cajeros automáticos. IV.J.2.2. SUCURSALES Y AGENCIAS Este Banco cuenta con 379 agencias a nivel nacional, las cuales están conectadas a nuestra red a través de diferentes proveedores: Telefónica, Gilat, y Seditel. Para gestionar los fallos que se presentan, el Patrol viene realizando las siguientes tareas: • Emite alertas que recibe del Hpüpenview sobre problemas de enlace que afectan la operatividad de una agencia. • Emite alertas que recibe desde el ambiente Host de IBM que indican cuando una agencia queda fuera de servicio. Estas alertan estan relacionadas a caídas de una PU. Por ejemplo la falta de fluido eléctrico produce que la agencia no trabaje esto se refleja a través de una alerta en la que se indica la caída de la PU asociada a la agencia. Para cubrir mejor las incidencias que suceden en la red de agencias y sucursales se debe: UNIVERSIDAD CIENTIFICA DEL SUR -44- a. Ampliar el alcance en la detección de errores que suceden en las agencias y que afectan el servicio hacia los clientes. Como se mencionó anteriormente, el monitoreo de la operatividad en las agencias se limita a indicar si alguna de ellas está fuera de servicio. Sin embargo monitorear solo este evento es insuficiente si se pretende cumplir el objetivo de mantener la disponibilidad de servicios. Los siguientes problemas también causan inoperatividad: • Problemas del Sistema Operativo en los servidores de cada agencia. • Fallas de hardware y software Para poder capturar y alertar de estos eventos se requiere: • Gestionar estos servidores que están en provincia través del SNMP. Aprovechando el proyecto de migración de sistema operativo en los servidores de agencias de NT a Windows 2003 será posible configurar el HpOpenview para que alerte sobre problemas con los servidores de agencias. Esto requerirá de tiempo y personal para habilitar los MIB' s necesarios. Teniendo en cuenta la disponibilidad del recurso humano llevar a cabo esto podría tomar 3 meses, después de la migración de sistema operativo. • Entre las adquisiciones del próximo año está contemplado la adquisición de equipos IBM para ser distribuidos a nivel nacional para ser usados como servidores y estaciones de trabajo. Ahora IBM ofrece un pack gratuito de software entre los que destaca el IBM Director aplicación que permite administrar remotamente el equipo solo tendríamos que adquirir la licencia de servidor. • Adquirir el software SMS (System Management Server) de Microsoft e instalar agentes en las PC's de todo el banco. -45- UNIVERSIDAD CIENTIFICA DEL SUR Actualmente tenemos 3,820 máquinas. La licencia de cada agente cuesta $16 dólares para luego pagar anualmente $35,290 dólares. Actualmente ya tenemos 2,245 máquinas con agentes y nos estaría faltando 1,575 estaciones más. El SMS provee adicionalmente lo que es distribución de software y control remoto para dar asistencia de soporte. Justificación: Diariamente se presentan problemas relacionados a las estaciones y servidores de todas las agencias a nivel nacional. Problemas relacionados con el sistema operativo, problemas de hardware, problemas de memoria, etc. Estos problemas pueden dejar inoperativa a una agencia o reducir el número de estaciones disponibles de atención al público ocasionando malestar en el público y perjudicando en la atención que se vuelve más lenta incrementando las colas especialmente si estamos en fechas de pago de haberes. A continuación se presenta información relacionada sobre el tiempo promedio que las agencias están fuera de servicio por otros problemas que no están relacionados a perdidas de línea. Número de Dial por ProMttllo Ingreso Anual por otldnae a6o tervfdos IR Minatos de Pu's caitlal ajenas a calda H ealates En horas oticinas Enero 379 240 S!. 200,000,000 Febrero Marzo Ingreso x Ofidaa xHora Si. 275 393IE9 300654 465554 6551 6511 7759 Dinero u preadtlo en dempo de laoperatlvldad FEBRERO ENERO MARZO Si. 1.800.649 Si. 1.789.496 Si. 2.132,593 Nota: Los valores de los montos y tiempos son los aproximados, obtenidos de una muestra para el análisis respectivo. UNIVERSIDAD CIENTIFICA DEL SUR -46- IV./.3. FALLOS EN SERVICIOS U APLICACIONES En la actualidad, las empresas maneJan procesos empresariales complejos mediante aplicaciones personalizadas. Mantener estas aplicaciones en funcionamiento no es una tarea fácil. El banco aún no cuenta con una solución tecnológica para ello. Sin embargo puede comenzar el camino con las herramientas con las que cuenta ahora y aun no ha explotado en su totalidad. Existe una debilidad en lo que administración de los servidores corporativos se refiere ya que actualmente no se está utilizando las herramientas existentes para realizar un monitoreo de los servicios de aplicaciones. A continuación la lista de algunos servicios que se ejecutan en tales servidores y son soporte del core del banco: Lista de los principales servicios por servidor Servido Descripción Servidor Host on Demand Emulación 3270 srv_ hod, srv_ hod 1 Tsm-backup TIVOLI Storage Manage srv_backup Intranet Intranet Intranet Correo Lotus Notes y Exchange srv_notes, srv_exchange Oracle BD Oracle srv dborabn SQL BD Microsoft SQL srv_sqlbn Firmas Firmas srv firmas LBTR LBTR Tserver Tasas Comunic. con Cajeros Tasas Tasas Firewall Proxy y Firewall Isa serverl UNIVERSIDAD CIENTIFICA DEL SUR -47- Adicionalmente cuentan con 35 servidores corporativos adicionales. Algunos distribuidos en las otras sedes. a. Implementación de Patrol para monitoreo de servidores corporativos El banco cuenta con 15 agentes Patrol que deben ser instalados en los servidores corporativos. Realizar esta implementación involucra: • Identificar los eventos que pueden originar problemas en los servicios. A continuación algunos eventos que pueden ser considerados como básicos: o Eventos de servicios: Agrupa a los eventos que indican que un servicio no está activo. o Eventos de disco: grupa a los eventos relacionados al estado del disco, como por ejemplo espacio libre del disco. o Eventos de "LOGs": Agrupa a los eventos que indican que ha ocurrido un mensaje en archivos LOG propio de una aplicación. o Eventos de Comunicaciones: Agrupa a los eventos relacionados al estado de líneas de comunicación, TCPIIP de un servidor u otro equipo. (Mainframe, Tandem, etc.) Algunas características funcionales de estos agentes son: • KM Eventlog: Muestra los siguientes eventos: o Porcentaje de espac10 libre en los tres archivos archivos del eventlog. Aplicaciones, Sistema y Seguridad. El estado de UNIVERSIDAD CIENTIFICA DEL SUR -48- alarma de este parámetro es cambiado a "OK" cuando el espacio libre del archivo de eventlog es mayor al 6%. o Número de mensajes tipo error en los tres archivos de eventlog. • KM Memory: Número de megas libres en memoria. El parámetro genera una alerta cuando alcanza un valor menor o igual a 4. • KM Blue Screen: Alarma si el "reboot" de un servidor fue realizado sin control, es decir fue producto de problemas del sistema operativo. • KM CPU: Alarma si el valor del uso de CPU está por encima de 90%. • KM LOGICAL_DISKS: Alarma cuando el espacio libre de un disco es menor que 1OOMB. • KM _QUOTAS: Alarma cuando el espacio usado por un usuario en la "quota" asignada excede de 22 MB. • KM SERVICIOS: Alarma cuando un servicio este inactivo. • KM VE_IP: Este KM fue desarrollado para monitorear el enlace IP con una dirección respectiva. • KM Antivirus: Este KM fue desarrollado para monitorear el estado de actualización de la versión del programa de antivirus. b. Implementación de MOM para monitoreo de servidores corporativos con aplicaciones Microsoft. Esta empresa cuenta con el software MOM (Microsoft Operations Manager). El cual no ha sido implementado. Con el MOM se puede monitorear cualquier servidor con productos Microsoft. UNIVERSIDAD CIENTIFICA DEL SUR -49- Llevar a cabo esta implementación requerirá: • Formar un equipo de proyecto para la implementación del software, que realice los trabajos de creación de alertas, identificación de eventos y de integrarlo con el Patrol para obtener una solo punto de central en lo que es emisión de alertas y notificaciones. • Llevar a cabo este proyecto puede tomar un par de meses, además que se requerirá del soporte que pueda brindar el personal de Microsoft. Justificación: Actualmente no se está monitoreando los servicios que se encuentran en estos servidores. Se requiere de una herramienta que pueda prevenir de posibles problemas antes de que estos ocurran implementando umbrales. Ya que el banco posee más de 40 servidores y solo 15 agentes del Patrol es una buena opción integrar el MOM a la solución integral. IV.2. GESTION DE RENDIMIENTO Se define como la evaluación del comportamiento de los elementos de la red. Para poder efectuar este análisis es preciso mantener un histórico con datos estadísticos y de configuración. Para entender lo que involucra realizar una Gestión del Rendimiento de la Red, se dividirá en las siguientes ramas: l. Gestión de elementos y servicios de la red y 2. Gestión de rendimiento de aplicaciones UNIVERSIDAD CIENTIFICA DEL SUR -50- IV.2.1. GESTION DE ELEMENTOS Y SERVICIOS DE LA RED IV.2.1.1. GESTION DE RECURSOS Cubre la monitorización de los recursos hardware de los elementos de red tales como CPU o memoria. Gestión de vistas de recursos hardware de un equipo. Element views (número de tarjetas, puertos libre, ocupados, fuentes de alimentación, etc). IV.2.1.2. GESTION DE CAPACIDAD Cubre el control de métricas relacionadas con la operatividad de los elementos de red. Para esto hay que asegurar ciertos aspectos como: • Ocupación de enlaces: Corresponde al consumo del ancho de banda de los enlaces, diferenciando ambos sentidos de transmisión (bajada y subida), en un determinado periodo. • Volumen de datos. • Perdidas de datos. • Descartes de datos. Como parte de su solución integral, el Banco cuenta con la herramienta Hpüpenview-NNM vs.6.2 el cual tiene las siguientes funcionalidades: • Descubre automáticamente la red, ayudándole a conocer el ambiente. • Provee mapas y submapas de la red que se pueden customizar. UNIVERSIDAD CIENTIFICA DEL SUR • -51 - Provee herramientas de troubleshooting que ayudan a resolver problemas. • Recolecta información de la red que ayudan a identificar los problemas para luego poder adminístralos. Esta herramienta incluye algunos reportes que se generan en base a la data almacenada, pero no satisfacen completamente si se quiere evaluar el estado de la red o hacer proyecciones. Estos reportes incluyen la siguiente información: • Tiempo de respuesta del Ping y los intentos para medir la latencia a través de la nube de red. • Porcentaje usado del ancho de banda de la red. • Índices de congestión de Frame Relay para ver los cuellos de botella que ocurren. • Número y severidad de umbrales que han sido violados. Es importante que de la Gestión de Rendimiento se llegue a predecir problemas como "cuellos de botella", o realizar informes sobre la planificación de la capacidad para poder reasignar cargas a los recursos ya existentes o generar informes de nivel de servicio en el que se pueda resaltar la peor disponibilidad y el peor tiempo de respuesta con el fin de evitar violaciones de los acuerdos de nivel de calidad. Para mejorar la Gestión de Rendimiento que viene realizando el banco se recomienda: a. Adquisición de una herramienta que se integre al HpOpenView NNM La creciente infraestructura de la red del banco hace necesaria la compra de un producto que le permita realizar una buena gestión del rendimiento de sus UNIVERSIDAD CIENTIFICA DEL SUR -52- recursos. Actualmente solo se viene corrigiendo los problemas que se presentan en la red pero no se realiza ninguna predicción de estos y poder tomar medidas correctivas. Justificación: El objetivo es pasar menos tiempo en búsqueda de incidencias sin salida y dedicar las energías a una perspectiva completa: evitando problemas, optimizando el rendimiento de la red y monitorizando el balance final. Con el nuevo release del HpüpenView se esperan meJoras para la gestión de redes complejas pero si queremos empezar la transición de gestión de los servicios de red es necesario combinar la herramienta actual con otra que nos permita optimizar de forma proactiva el rendimiento general de la red y maximizar los recursos actuales. IV.2.2. GESTION DE RENDIMIENTO DE APLICACIONES Establece la necesidad de llevar a cabo un seguimiento de la Calidad en la Prestación de los Servicios de Telecomunicaciones. Este seguimiento se centra básicamente en los siguientes aspectos: • Parámetros relacionados con la falta de conectividad. • Parámetros relacionados con la velocidad de navegación y acceso a serviCIOS. El banco cuenta con una gran suite de aplicaciones web a los que accesan los usuarios internos para realizar actividades laborales diarias. Por ello es importante realizar también una gestión del rendimiento de estas aplicaciones. UNIVERSIDAD CIENTIFICA DEL SUR - 53 - Actualmente no cuentan con ninguna herramienta que brinde apoyo a esta labor y cuando se presenta un problema siempre se generan las mismas interrogantes: • ¿Problema de aplicación? • ¿Problema de Base de datos? • ¿Problema de almacenamiento? • ¿Problema del servidor? El banco cuenta con las siguientes aplicaciones: TRAHSFEREHCIA BJ,Sl!NAJ Pft!COS-S(JIAT REPORTES BALANCE COGT UORMAGON SIIS OE1lW;CtONES S.UMIU .PLAttANUA DE AOQUISIOONES AJENC!OtJ DE RECLAMOS ~ NOTAS DE CARGO/aBONO ESTADOS DE CUENTA AHORROS S!STilMA COlO DEPÓSITOS JUD!CtALESY AOM. l AVADQ DE DIIERO LOGisJICAJIIEHES CORfWfJES CA.EROS MOHEPfAQS HEPORTESNUEVATAR.ETA ESTADisTICA$ RFCMmQÓH ADMNSTRACIÓtl DE CONTRATOS Y COJMfi!OS CQNSULIA REN!EC WI.DBCD Para poder realizar esta gestión se requerirá de: a. Adquisición de una herramienta de gestión de rendimiento para aplicaciones Una herramienta que sea capaz de analizar detalladamente cada capa de las aplicaciones y que sea independiente de la aplicación y de la plataforma del sistema operativo. -54- UNIVERSIDAD CIENTIFICA DEL SUR Justificación: El banco esta adquiriendo un mayor número de aplicaciones ya sea por terceros como hechos en casa, algunas de ellas de gran importancia ya que son módulos a integrarse a un futuro ERP. Mientras no se gestionen estas aplicaciones están frente a una debilidad que puede convertirse en un gran problema para el banco a medida que estas van aumentando y lleguen a afectar el nivel de servicio. IV.3. GESTION DE CONFIGURACION El objetivo principal de la Gestión de Configuración es la identificación, registro y reporte de los componentes de la TI, incluyendo sus versiones, los componentes constituyentes y sus relaciones. La Gestión de Configuración comprende las siguientes responsabilidades: • Identificar todos los archivos relevantes, tanto hardware como software. • Mantener el control sobre los activos. • Contabilizar el estado de los activos. • Proporcionar información de auditoria sobre los activos. • Permitir la planificación. Para realizar un mejor análisis se dividirá en los siguientes puntos: l. Gestión de la Configuración de la Red. UNIVERSIDAD CIENTIFICA DEL SUR -55- 2. Gestión de la Configuración de Sistemas. 3. Gestión de Inventarios IV.3.1. GESTION DE LA CONFIGURACION DE RED Esta gestión permite controlar la configuración de comunicaciones o servicios en una topología de elementos de red de manera centralizada. De esta manera se disponen de herramientas a nuestro alcance que nos permiten mantener funcionalidades tales como: • Centralización de configuraciones en un sistema organizado. • Mantenimiento de versiones de configuración. • Mantenimiento centralizado de releases de sistemas operativos. • Mantenimiento de inventario de equipos de una determinada topología o arquitectura de servicio. • Distribuciones masivas de configuración. • Control remoto. • Control de estado mediante la gestión de eventos de comunicación en la carga de nuevas configuraciones. En la solución actual, no se viene utilizando nmguna herramienta aunque poseen el CiscoWork CiscoView que aun no ha sido implementada y que ayudaría con el monitoreo y configuración de los equipos cisco en la red del banco. Las capacidades de configuración permiten cambios a los dispositivos manteniendo el requisito de seguridad garantizado. UNIVERSIDAD CIENTIFICA DEL SUR -56- IV.3.2. GESTION DE LA CONFIGURACION DE SISTEMAS Esta área se basa en centralizar la configuración de operativos que nos permitan mantener un control de versiones de aplicaciones instaladas en una granja de equipos. De esta forma se centraliza el control y aseguramiento de los equipos informáticos, reduciendo el coste de gestión microinformática de la empresa y asegurando la correcta puesta en producción de aplicaciones corporativas mediante el blindado de configuraciones de equipos. En la red del banco se está controlando las actualizaciones y distribución de aplicaciones en la sede principal y la sede de Javier Prado ya que las máquinas se encuentran en un mismo dominio. Sin embargo esto no se lleva a cabo con las estaciones y servidores en toda la red de agencias a nivel nacional. Por lo que esta labor se vuelve lenta tomando el tiempo de un personal de soporte destinado a otras actividades para poder realizar este trabajo. No se cuenta con una herramienta que realice esta labor y que cubra todas las expectativas necesarias incluyendo la gestión de configuración de versiones de las aplicaciones desarrolladas por el departamento de Informática del banco. IV.3.3. GESTION DE INVENTARIO La gestión del inventario es muy importante como base de identificación de afectaciones de servicio o cortes del mismo en caso de intervenciones o peticiones de cambios. Mantener un inventario actualizado de su parque de elementos de red y sistemas les permitirá identificar con facilidad que afectaciones sobre su negocio tiene la realización de un cambio determinado o la consecución de una incidencia. La gestión de inventario debe basarse en un modelo de relación de entidades que permita relacionar el mundo de los recursos con el mundo de los UNIVERSIDAD CIENTIFICA DEL SUR -57- servicios. De esta manera el nivel de aseguramiento e identificación de posibles problemas aumenta exponencialmente. Por lo tanto deben contemplar el mantenimiento de inventario como: • Un mecanismo de inventariado que nos permita controlar las dimensiones de su core informático. Lo que le permitirá determinar el nivel de costes que supone el mantenimiento y actualización del mismo. • Un mecanismo de identificación básica sobre la que un cambio determinado tiene afectación. El banco cuenta con un programa pequeño de inventario el cual no está totalmente actualizado por lo que se requiere la adquisición de productos que realicen esta función y la de distribución. IV.4. GESTION DE CAMBIOS Se asegura que los métodos estandarizados y procedimientos sean usados eficientemente en el manejo de todos los cambios para minimizar el impacto de los incidentes relacionados a estos cambios en las operaciones del negocio. El control de cambios es la habilidad para administrar los cambios de una forma ordenada. Tanto el mundo de los negocios como el mundo de las tecnologías de información están continuamente cambiando. Para responder a estos cambios el equipo de Informática tiene que realizar continuos cambios a la infraestructura el cual incluye cambios de hardware, software y componentes de comunicaciones y red. UNIVERSIDAD CIENTIFICA DEL SUR -58- El requerimiento para estos continuos cambios ejercen presión en las organizaciones y esto es porque las infraestructuras de tecnologías de información han incrementado su complejidad y fragilidad elevando la posibilidad de implementar cambios rápidos y exitosos. Hay tres tipos de cambios que suceden dentro del entorno de la infraestructura de las TI: la instalación de nuevos componentes como: hardware, sistemas operativos, drivers y aplicaciones; actualización de los componentes existentes; y el retiro de algún componente. Todas estas acciones son orígenes de riesgos que de ocurrir peljudican la imagen institucional y se crea una pérdida en la productividad de los empleados. Las responsabilidades para en la gestión de cambios son: • Elevar y registrar solicitudes de cambio. • Evaluar el impacto, gastos, beneficios y riesgos de un cambio. • Obtener la aprobación correspondiente para los cambios. • Gestionar la implementación de los cambios. • Controlar e informar acerca de la implementación. • Revisar y cerrar las solicitudes de cambio. En el banco no se vienen controlando los cambios que se realizan a nivel de sistemas. Los cambios realizados a los programas casi siempre provocan incidentes que afectan la atención de servicio a los usuarios, peljudicando la imagen institucional que tanto le ha costado al banco recuperar en estos últimos años. Tampoco se controla si los cambios realizados en los equipos de comunicación provocan incidentes en la atención de las diferentes agencias a nivel nacional o si este cambio fue realmente satisfactorio. UNIVERSIDAD CIENTIFICA DEL SUR -59- Con respecto a este tema, el banco viene trabajando de la siguiente manera: Las secciones de Instalaciones de Equipos, Desarrollo y Soporte realizan cambios al hardware, software y/o aplicaciones del sistema operativo. Cada uno de ellos actúa independientemente por lo que se desconoce el impacto de tales acciones. No se especifican los servicios afectados o el hardware afectado relacionado con tales tareas. De surgir un problema, esto es reportado al Centro de Cómputo que puede resolverlo en ese momento o derivarlo al personal responsable de dicho cambio. Así se pueden observar las siguientes debilidades: • Falta de una gestión de cambios. • Base de Datos desactualizada de los componentes de la red y su localización. • No existe alguna herramienta que maneje versiones. Tanto la Gestión de Cambios y la Gestión de Configuración están ligadas íntimamente y ambas deben integrarse en una base de datos única que mantenga los datos correctos y actualizados que contengan información de los ítems de configuración de toda la empresa como: hardware, software, redes y comunicaciones, ubicaciones y estos datos deben incluir información de cual es el inventario total, de los componentes de estos recursos y configuración y su relación con otros recursos. Con esta información se puede priorizar los cambios basados en su impacto en el negocio. Para mejorar esta situación es necesario: a. Automatizar el ciclo de vida del cambio Clave para una administración efectiva del cambio y la configuración es la automatización de 4 fases: Petición, planeación, implementación y verificación. La UNIVERSIDAD CIENTIFICA DEL SUR -60- automatización de la solicitud de cambio y el flujo para su aprobación fomentan la consistencia en la revisión y en los procesos de aprobación a través de todas las solicitudes de cambios, mejora las responsabilidades y ayuda a reducir el tiempo requerido para la aprobación de un cambio. La automatización de la implementación permite hacer cumplir los estándares de configuración basados en políticas detectando y resolviendo configuraciones no estándar. b. Adquisición de una herramienta de gestión de cambios y configuración Para dirigir el reto del cambio se requiere de una herramienta que permita al personal que administra el cambio de: • Saber exactamente que es lo que hay en el ambiente y como está configurado. • Automatizar procesos de la gestión de cambios que permitan reducir tiempo y costo. Justificación: El ambiente en tecnologías de información se ha vuelto muy complejo y ahora es más dificil saber que componentes soportan los servicios críticos de negocio y lo que puede pasar si se realiza un cambio en alguno de ellos. Puede ser que el cambio sea intimidante pero también puede ser una fuerza positiva si es bien manejado y controlado. UNIVERSIDAD CIENTIFICA DEL SUR - 61 - V. SERVICE DESK EL Service Desk juega un papel importante dentro de la provisión de servicios de tecnologías de información y en la ayuda al usuario. Un Service Desk completo es como la oficina central de los otros departamentos de TI y pueden manejar las consultas de los usuarios sin necesitar personal especializado. Para el usuario, el Service Desk es el único punto de contacto con la organización de tecnologías de información que garantiza que encontrarán la persona correcta para ayudarlos con su tema o consulta. Para hacer un enfoque global de las actividades, hablamos de Service Desk en vez de Help Desk, como se hizo durante mucho tiempo. El Help Desk por lo general se dedicaba al proceso de incidentes, en tanto que el Service Desk cubre un rango de actividades de ayuda más amplio. El Service Desk manejará las siguientes actividades: • El proceso primario es la Administración de Incidentes ya que el Service Desk registra y monitorea muchos incidentes, y muchas llamadas del Service Desk se relacionan con los incidentes. Esto incluye la coordinación de actividades de terceros involucrados en el manejo de incidentes. • Se puede dar al Service Desk la responsabilidad de instalar software y hardware y por lo tanto tiene un rol en la Administración de Release o la Administración de Cambio. • Si cuando se registra un incidente el Service Desk verifica los detalles del que llama y sus recursos IT, el Service Desk tiene funciones en la Administración de Configuración. UNIVERSIDAD CIENTIFICA DEL SUR • -62- El Service Desk puede tomar actividades relacionadas con pedidos estándar, como la instalación de conexiones LAN y la reubicación de las estaciones de trabajo. En ese caso contribuirá a la evaluación de los cambios y se involucrará con la Administración de Cambio. • El Service Desk puede informar a los usuarios sobre los productos que tienen soporte y sobre los servicios a los que tienen derecho. Si el Service Desk no está autorizada a satisfacer una consulta, debe informarlo con educación al usuario y notificar de la consulta a la Administración de Nivel de Servicio. El Service Desk tiene por objetivos: • Proveer de un único punto de contacto para los usuarios. • Facilitar la restauración de los serviCios operacionales con un mínimo impacto en el negocio dentro de los acuerdos de nivel de servicio y de las prioridades del negocio. • Realiza monitoreo y escalamiento • Resuelve y cierra Actualmente las actividades relacionadas con soporte de usuario lo están realizando de la siguiente manera: El centro de cómputo del banco viene realizando las tareas de "mesa de ayuda" pero esto no es suficiente. Por el momento solo están derivando los problemas a los encargados y no se realiza seguimiento a los reportes de los usuarios por lo que no llegan a un cierre de los mismos. Existen descoordinaciones debido a que se desconoce al responsable de alguna aplicación siendo muchos de los problemas operativos y cuya solución podría ser atendida de manera rápida. -63- UNIVERSIDAD CIENTIFICA DEL SUR De esta situación surgen las siguientes interrogantes: • ¿Cuál es el costo del soporte informal en términos de la disminución de la productividad y otros recursos? • ¿Están las personas que proveen ayuda tomando demasiado tiempo de su propio trabajo? • Si existe un departamento que proporciOna serviCios de programación o de bases de datos, ¿le resulta imposible a su personal seguir respondiendo a preguntas relacionadas con soporte sin descuidar su propio trabajo? • ¿Existe agotamiento entre aquellos que proporcionan ayuda? • ¿Cuál es el costo de no proporcionar soporte efectivo en términos de pérdida o desperdicio de esfuerzos y oportunidades? • Además, intente saber qué es lo que sucede con las personas que necesitan ayuda técnica. • ¿Existe más discusión sobre usuarios insatisfechos? • ¿Ha crecido la compañía recientemente o ha cambiado significativamente la tecnología que se usa? ¿Existen cambios futuros significativos o necesidades de soporte anticipadas? Contar con un Service Desk en el banco es una necesidad que no pueden seguir ignorando. El incremento de los recursos, agencias, personas, más servicios que controlar lo hacen la adquisición más urgente para su institución. Esto traerá consigo la evaluación de las funciones del personal que viene realizando actualmente esta labor, las actividades operativas de cada área que puedan UNIVERSIDAD CIENTIFICA DEL SUR -64- pasar a ser atendidas por el Service Desk permitiendo que el personal sea mas productivo realizando funciones que permitan lograr los objetivos institucionales. Las áreas de gestión estudiadas deben integrarse y todas apoyarse en un único punto que es el Service desk para mejorar el nivel operacional de la empresa. V.J. ACUERDO DE NIVEL DE SERVICIO La tecnología está al servicio del negocio; por tanto, el departamento de Tecnologías de Información del banco ha de orientar sus esfuerzos en asegurar a sus clientes/usuarios los niveles de servicio necesarios que permitan el correcto desarrollo del negocio. Tomando como base de partida unos acuerdos de niveles de servicio medibles y demostrables, la gestión de dichos niveles (SLM) se defme como la metodología y procedimientos necesarios para asegurar, de forma proactiva, que todos los usuarios reciben los niveles de servicio acordados. Acuerdo de Nivel de Servicio (SLA), es el mantenimiento de la disponibilidad de un determinado servicio basado en un compromiso, medible y demostrable, del nivel de cumplimiento en su ejecución. UNIVERSIDAD CIENTIFICA DEL SUR -65- • Se caracteriza por ser un proceso estructurado. • Es una metodología universal, homogénea y común. • Es un instrumento que promueve la convergencia organizacional. • Es una herramienta para hacer benchmarking interno. • Es una visión multidimensional de las relaciones entre servicios • Constituye un punto de referencia para el Mejoramiento Continuo El proceso de establecer Acuerdos de Niveles de Servicio consiste en 3 fases: Recolección de datos • Recolección de información proveniente de todas las partes involucradas en la provisión y aceptación de servicios. • Creación de un Directorio de Servicios Análisis de Nivel de Servicio Compilación de datos validados, identificando: • Prioridades • Niveles de Calidad • Costos -66- UNIVERSIDAD CIENTIFICA DEL SUR Acuerdo sobre Nivel de Servicio Proceso de negociación entre proveedores y clientes internos para alcanzar alineación de niveles y costos de los servicios correspondientes. A partir del acuerdo de nivel de servicio se realizará un seguimiento del grado de cumplimiento del mismo. Cualquier desviación permitirá realizar un análisis drill-down del problema, permitiendo la perfecta identificación del evento, qué indicador lo produjo, cuándo se produjo, qué impacto tuvo en el usuario, cómo se resolvió y qué medidas se han tomado para su prevención. Buscando lograr el objetivo de meJorar los niveles de servicios ofrecidos a sus clientes a través de la red informática del Banco se requiere establecer indicadores de gestión de la red integral. Las metas que se deben cumplir son: • Proporcionar información gerencial sobre el negocio a través de la interpretación de los indicadores. • Establecer indicadores para gestionar niveles de operatividad del 99% en la red de cajeros y del 99 % en la red de agencias. • Lograr acuerdos de niveles de servicios entre clientes internos y proveedores para conseguir la plena satisfacción de sus clientes. • Definir la necesidad de introducir cambios y/o mejoras en los procesos y poder evaluar su implantación en el menor tiempo posible. • Establecer puntos de referencias en niveles de servicios para el mejoramiento continuo. • Proporcionar herramientas que les permitan realizar benchmarking. UNIVERSIDAD CIENTIFICA DEL SUR -67- Esto se justifica en: • El Departamento de Informática es responsable de obtener los indicadores de gestión de tecnologías que les permitan evaluar los niveles de servicios brindados a sus clientes y su repercusión en el negocto. • Los datos registrados por la plataforma de gestión de servicios, no están siendo totalmente explotados, lo cual justifica buscar medios de solución que les permitan obtener información para una adecuada toma de decisiones. • Al no contar con indicadores de gestión, no es posible establecer acuerdos de niveles de servicios con los proveedores, con ventaja para el Banco y que beneficie a los clientes en la utilización de los servicios prestados. Se pueden considerar los siguientes indicadores para el servicio prestado por la Red de Cajeros Automáticos: l. Tiempo total de inoperatividad de los cajeros vs. Tiempo total de atención de los mismos en un periodo dado. 2. Tiempo de inoperatividad mensual por tipo de evento. (Horas) 3. Número de averías en los cajeros por meses. 4. Tiempo tomado en atención del cajero vs Tiempo de inoperatividad. A continuación una relación de Indicadores de ANS (Acuerdos de Niveles de Servicio) que deben ser considerados: UNIVERSIDAD CIENTIFICA DEL SUR -68- a. Número de Incidencias El propósito de esta métrica es el medir el número de incidencias (o quejas) originadas por el usuario, que es un indicativo de la calidad del producto durante el ciclo de vida de su operación. b. Tiempos de respuesta para la solución de incidencias Los Tiempos de Respuesta para las Soluciones a Incidencias miden el grado de respuesta del proveedor del servicio a las incidencias. El propósito de esta métrica es el cuantificar el grado de respuesta a las incidencias y facilitar una rápida solución y cierre de las mismas debidas a defectos en los productos o servicio. c. Entregas a tiempo Las Entregas a Tiempo es una medida de la precisión en el tiempo de las entregas de todas las peticiones de productos hardware y software del usuario d. Indisponibilidad de los sistemas La Indisponibilidad del Sistema es una medición de la pérdida de la funcionalidad principal de todo o parte de una aplicación dentro de alcance del servicio. El propósito de esta métrica es evaluar las características de tiempo de caída y la frecuencia de las indisponibilidades durante la explotación, buscando reducir ambas, la frecuencia y la duración de las indisponibilidades y el impacto asociado en costes. e. Calidad del servicio La Calidad del Servicio es un conjunto de medidas de la conformidad de un servicio a criterios especificados. UNlVERSIDAD CIENTIFICA DEL SUR -69- El propósito de esta métrica es proporcionar información de las mediciones de la calidad para establecer la evaluación y la mejora continua del serviCIO. f. Instalación y Mantenimiento de SW Las mediciones de Instalación y Mantenimiento de software hacen un seguimiento de la instalación de nuevas aplicaciones y del esfuerzo de mantenimiento asociado con el software. Estas métricas se usan para evaluar el nivel de instalaciones de software defectuosas y actividades de mantenimiento del software defectuosas, con el objetivo de minimizar los impactos asociados sobre el cliente. Pueden estar asociadas a instalación de nuevas aplicaciones, a nuevas versiones de aplicaciones existentes y/o a los parches o correcciones: • Abortos en la instalación de Aplicaciones. • Calidad de las actualizaciones software (Las actualizaciones software reemplazan código existente con nuevo software). • Calidad de los Parches Correctivos Finalmente la propuesta tomará la siguiente forma: TECNOLOGIAS UNIVERSIDAD CIENTIFICA DEL SUR -70- VI. HERRAMIENTAS ACTUALES EN EL MERCADO A continuación una lista de herramientas actuales que existen en el mercado y que son parte de la solución en algunas empresas latinoamericanas. l. Gestión del Rendimiento - Gestión de elementos y servicios de red • Hp Openview Performance Insight Manager: El costo de este producto se encuentra entre los $80,000. 2. Gestión del Rendimiento - Gestión de calidad de servicio End-to-End • Veritas 13: El costo de este producto se encuentra entre los $20,000 $35,000. 3. Gestión de Cambio, Configuración y Service Desk • BMC Change & Configuration Management. El costo de esta solución fluctúa entre los $100,000 y $120,000 • BMC Remedy Help Desk - lntegration with Change & Configuration. El costo de ésta solución $200,000 UNIVERSIDAD CIENTIFICA DEL SUR VII. - 71 - CONCLUSIONES Las compañías dependen de su tecnología para ejecutar operaciones criticas de sus negocios. De hecho cualquier interrupción o problema en el servicio de TI puede provocar graves daños al negocio. Por eso los profesionales en tecnologías de información están sometidos a una presión considerable para alcanzar los elevados niveles de servicio que los usuarios necesitan y demandan. El banco debe establecer las bases de su soporte de servicio para que en un futuro pueda embarcarse en la gestión de sus servicios. En este trabajo se realizó un análisis de las áreas de gestión que el banco debería cubrir para garantizar un buen soporte y se explicó la importancia de cada una de ellas en la actualidad. Se detectaron varias debilidades que deben ser superadas con prontitud ya que vienen repercutiendo en los servicios que se ofrecen. La institución debería invertir en una solución que le ayude a cubrir la mayoría de estas áreas de gestión preocupándose por alinearlas con los objetivos estratégicos del negocio. Se deberá tener en cuenta que un servicio de TI especializado y de alta calidad permite una mayor productividad con menos frustración. Las razones para la adquisición de estas herramientas se reflejó en el análisis de gestión de Fallos de Errores donde se calculó el ingresó no producido en tiempos de inoperatividad de la red de cajeros y de agencias. En los primeros 5 meses no se percibiría el monto de s/.249, 493 soles en la red de cajeros y de s/.5, 722, 738 soles en los primeros tres meses de la red de agencias. Por el momento no se puede calcular el ingreso no percibido por tiempo de inoperatividad debido a cambios no controlados o por caída de aplicaciones ya que estos sucesos no se están registrando aunque ya se han presentado estos problemas por ejemplo el hecho de no poder realizar transacciones de pago de teléfonos o transacciones de cuentas corrientes los cuales han tenido hasta 2 horas de inoperatividad petjudicando a los clientes. UNIVERSIDAD CIENTIFICA DEL SUR -72- Al otorgar a la plantilla de TI la facultad para responder más rápido a las necesidades de negocio, se confiere a la compañía una agilidad de negocio sin precedentes. Las organizaciones tienen la información que necesitan para dar prioridad a las inversiones y embarcarse en nuevas iniciativas con confianza. Los directores de TI pueden gestionar el impacto que los cambios de tecnología de información tienen en el negocio y el que tendrá los nuevos requisitos de negocio en TI. Esto significa que los problemas se pueden evitar sin que el negocio se vea afectado. Siempre hay que tener presente que el ciclo de alineación TI-negocio está formado por cuatro fases clave: Planificar con el negocio: Identificar los objetivos estratégicos de negocio y los niveles de servicio necesarios para alcanzar los objetivos; el plan se perfecciona de forma continua utilizando mediciones precisas del rendimiento. Modelar los servicios clave y la infraestructura subyacente: Vincular los sistemas y componentes de TI a los servicios críticos de negocio y dar prioridad a dichos sistemas basándose en los objetivos de negocio. Gestionar operaciones: Dar soporte a los usuarios y gestionar los recursos de las infraestructuras para garantizar el suministro de los niveles de servicio acordados. Medir resultados: Comprobar y comumcar que los compromisos se están cumpliendo y utilizar datos para mejorar las operaciones de forma continua. Este ciclo ayuda a la gestión de TI a garantizar la alineación continua de los objetivos de negocio con las capacidades de TI. Fomenta las expectativas globales de la organización compartidas entre el negocio y TI, y define un marco común para una amplia gama de actividades que sirven para alinear los objetivos tecnológicos con los objetivos de negocio. El ciclo también ayuda a identificar los circuitos de producción y procesos comunes dentro y entre los grupos funcionales de TI para que la alineación TI-negocio sea sostenible y escalable. UNIVERSIDAD CIENTIFICA DEL SUR -73- VIII. GLOSARIO l. Cics.- Sistema de control de información de clientes), es un servidor de transacciones que se ejecuta principalmente en mainframes IBM con los sistemas operativos zJOS. 2. ERP.- Sistema o Software administrativo que integra todas las áreas de una empresa (Como contabilidad, compras, o inventarios), mediante procesos transparentes y en tiempo real en bases de datos relacionales y centralizadas. 3. Frame Relay.- Protocolo para intercambio de datos. Basado en el protocolo X.25, que trabaja solamente en los dos primeros niveles del modelo OSI (nivel fisico y nivel de enlace). 4. Log.- Archivo que registra movimientos y actividades de un determinado programa. 5. Mib.- Es una base de datos donde se guarda toda la información relativa a la gestión de la red. El MIB tiene una estructura en árbol, donde en la parte superior se encuentra la información más general sobre la red, y conforma avanzamos por las ramas se consigue información más específica y detallada 6. Operador.- Persona que maneja una computadora mediante un programa, ya sea para ingresar datos, procesar datos o monitorear la red. 7. Patrol Km's.- Son colecciones de instrucciones usados por un agente para monitorear un sistema operativo o una aplicación de uno o más sistemas administrados. 8. Sna.- Es el protocolo de red utilizado por IBM para conectividad con sus hosts o mainframes -grandes ordenadores y servidores muy robustos que soportan millones de transacciones que por lo general son utilizados en bancos. UNIVERSIDAD CIENTIFICA DEL SUR -74- 9. Snmp.- Simple Network Management Protocol (SNMP), o protocolo simple de gestión de redes, es aquel que permite la gestión remota de dispositivos de red, tales como switches, routers y servidores. 10. Sms.- Es un producto de administración de grupos de computadoras en plataforma Microsoft. Provee control remoto, distribución de software, inventario de hardware y software. 11. TIC.- Tecnologías de la Información y de las Comunicaciones. 12. Uptime.- Cantidad de tiempo que un recurso de la red se encuentra disponible. 13. Vtam.- Es el principal sistema de gestión para operaciones de coma flotante con mainframes de IBM, entre terminales y aplicaciones. Pertenece a la arquitectura SNA. UNIVERSIDAD CIENTIFICA DEL SUR -75- IX REFERENCIA BMC (2005). Change and Configuration Management Perspectiva del Negocio, BMC Software Inc. Salem, E. (2004). Bussiness Service Management: La Estrategia del Negocio. Beltrán, M. (2003). Indicadores de Gestión. 3 R editores PC-News (2005). Artículo de Indicadores de Gestión para la Función de Tecnología de Información. Universidad V. (2005). Artículos sobre Gestión de Redes, Universidad Salamanca de España . Página Oficial de ITIL Gerencia (2005). ITIL y BSM, siglas mágicas para acortar la brecha entre el mundo de las TI y los negocios, Revista de Tecnologías de Información. Bon,J. (2005) Gestión de Servicios de TI. Una introducción a ITIL