Cómo evitar que se dañen los datos ante un corte prolongado en el suministro eléctrico Por Ted Ives Informe interno N° 10 Revisión 1 Resumen ejecutivo A pesar de los avances en la tecnología informática, las interrupciones en el suministro eléctrico siguen siendo una de las principales causas del tiempo de inactividad de computadoras personales y servidores. La protección de los sistemas informáticos con hardware para sistema de energía ininterrumpible (UPS) es solo parte de la solución total. También se necesita contar con software de administración de energía para evitar que se dañen los datos tras cortes prolongados del suministro. Analizaremos diversas configuraciones de software y presentaremos las mejores prácticas para garantizar el tiempo productivo. 2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-1 2 Información de referencia Un corte prolongado en el suministro de energía puede ocurrir en cualquier momento y puede evitar que las computadoras que no están protegidas inicien el proceso de cierre necesario. Los sistemas operativos de computadoras personales y servidores no están diseñados para tolerar cortes abruptos en el suministro de energía, es decir la “desconexión total” del sistema, sino que se basan en una serie de procesos integrados que preparan la computadora para el cierre, como guardar la información de la memoria, detener las aplicaciones y servicios, etcétera. Es común referirse a este tipo de cierre del sistema como “cierre sin inconvenientes”. La desconexión total, por su parte, puede causar la pérdida o alteración de los datos y un mayor tiempo de recuperación una vez que se reanuda el suministro. Un sistema de energía ininterrumpible (UPS) puede proteger al sistema de los daños causados por problemas en la alimentación y aumentar la disponibilidad de los servidores al permitir que los usuarios sigan trabajando sin interrupciones durante cortes breves en el suministro. Si el sistema está equipado con software de comunicación con la UPS, el software puede cerrar el sistema operativo en forma automática y sin inconvenientes antes de que se agote la batería de la UPS durante un corte prolongado en el suministro, es decir, cualquier corte que dure más que la autonomía de la UPS. Introducción Existen muchos motivos por los cuales puede haber interrupciones prolongadas en el suministro eléctrico, desde una falla en un transformador local causada por un rayo hasta la caída de una red de distribución en la zona. Deben tomarse recaudos para proteger los sistemas informáticos y los datos que e stos almacenan de los efectos dañinos de la desconexión total del sistema. Una de las causas de la posible alteración de datos en caso de una interrupción prolongada en el suministro eléctrico es el cierre irregular de aplicaciones o del sistema operativo mientras se manipulan datos. Esto puede afectar documentos, estructuras de sistemas de archivos clave (como las tablas FAT) o datos dinámicos de aplicaciones. En muchos casos, también puede significar un mayor tiempo de recuperación cuando se reanuda el suministro, durante el cual el sistem a operativo o la aplicación intentan reconstruir las tablas dañadas, etcétera. Otro elemento que debe tenerse en cuenta es el disco duro de las computadoras. Aunque durante la última década la industria progresó en lo que se refiere a la tecnología de los discos duros a la hora de evitar los “contactos de cabezal” (en los cuales los cabeza les de lectura/escritura del disco duro podían dañar la superficie del disco si no se lo "detenía" correctamente), otro avance en esta tecnología en realidad contribuyó a que se incrementaran las probabilidades de daños en los datos. Para lograr niveles elevados de rendimiento, los controladores de discos duros suelen diseñarse de forma tal que se aprovechen las 2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-1 3 técnicas de memoria cache, mediante las cuales se guarda información en la memoria temporalmente para luego guardar los datos en el disco. En caso de un corte en el suministro eléctrico, la información de la memoria cache se pierde, y esto puede conducir a que se dañen archivos o datos. No es necesario hacer una búsqueda exhaustiva en las publicaciones corporativas y oficiales para ver que, a pesar de los avances tecnológicos, el daño de datos debido a interrupciones en el suministro e léctrico sigue siendo un problema de conocimiento generalizado en la industria informática. Las siguientes citas de la industria hacen hincapié en ese punto: “Incluso una interrupción de un instante puede tener efectos devastadores para los clientes que dependen del suministro de energía, como los proveedores de servicios de Internet, los centros de datos, las redes de telecomunicaciones inalámbricas, las empresas de comercio online, los fabricantes de chips para computadoras y los centros de investigación médica. Para esos clientes, las interrupciones en el suministro de energía pueden dar como resultado datos dañados, tableros de circuitos quemados, componentes y archivos dañados, y la pérdida de clientes”. - Electrical Power Interruption Cost Estimates for Individual Industries, Sectors, and U.S. Economy. Secretaría de Energía de los EE.UU., Oficina de Tecnologías Energéticas, febrero de 2002 “Por lo general, las fallas en el arranque tras una interrupción en el suministro eléctrico se deben a que se dañaron archivos o el disco duro, y la Última configuración válida conocida no puede hacer nada al respecto". - MCSE Microsoft® Windows® XP Professional Readiness Review Examen 70-270, Sección 70-270.04.03.002, 28/11/2001 “Los cortes generales, o apagones, implican la pérdida total del suminis tro eléctrico que alimenta los equipos integrados en red o informáticos (...) Estos cortes pueden ocasionar la caída del sistema o de la red, bloqueos de computadoras y el daño o pérdida de datos valiosos en los servidores o las estaciones de trabajo”. - “Power Protection Basics”, revista Contingency Planning Management, marzo de 2002 "Una interrupción en el suministro de energía puede dañar el sistema y los datos que este maneja... Una UPS puede proteger el sistema si se interrumpe el suministro. Una UPS suele brindar (...) un suministro de energía temporal que puede ser suficiente para cerrar los sistemas sin inconvenientes”. - Publicación Especial 800-34, Contingency Planning Guide for Information Technology Systems. Instituto Nacional de Estándares y Tecnología, junio de 2002 2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-1 4 Configuraciones recomendadas para software de UPS Configuración 1: Protección de una computadora con una UPS En esta configuración, cada computadora tiene el respaldo de su propia UPS. La UPS se comunica con la computadora por medio de un cable serial o USB. Se instala el software para UPS en la computadora, lo que permite cerrar el sistema e n forma automática y sin inconvenientes ante un corte prolongado en el suministro de energía. En este caso, se administra la UPS en forma local por medio de la computadora a la cual se conecta. Esta es la configuración más sencilla y se la implementa mucho en servidores y estaciones de trabajo. Figura 1 – Protección de una computadora con una UPS Servidor con software para UPS Consola de administración UPS Energía Comunicación serial o USB Configuración 2: Protección de dos o tres computadoras con una UPS En esta configuración se conectan varias computadoras a una UPS más grande (por lo general, de 1500 VA o más). Una computadora se conecta directamente al puerto serial de la UPS y las otras dos se conectan a una tarjeta de expansión, que se instala en la UPS para brindarle dos puertos seriales adicionales. En este caso, las tres computadoras podrán hacer un cierre sin inconvenientes, pero se administrará la UPS desde la computadora a la cual esta está conectada en forma directa. Tenga en cuenta que, dado que el estándar USB solamente permite la comunicación con un único sistema, no se pueden utilizar conexiones USB en esta configuración. Aunque este esquema se puede ampliar para contemplar hasta 24 computadoras (por medio de encadenamiento), APC no recomienda este enfoque porque requiere de cableado adicional. 2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-1 5 Figura 2 – Protección de dos o tres computadoras con una UPS Servidores con software para UPS Tarjeta de expansión Consola de administración UPS con bahía de expansión integrada Energía Comunicación serial o USB Configuración 3: Protección de tres computadoras o más con una UPS Un enfoque cada vez más popular consiste en administrar la UPS directamente a través de una red Ethernet. Si se instala una tarjeta de gestión de redes (con sistema operativo en tiempo real y un chip de vigilancia [watchdog] de hardware) en la UPS, ya no se necesita la administración desde el servidor. Un ejemplo de este tipo de configuración es la arquitectura InfraStruXure de APC, que aplica ese enfoque. El software instalado en las computadoras que se utilizan en esta configuración solo debe incluir la funcionalidad de cierre, ya que las capacidades de administración están integradas en la propia UPS. Figura 3 – Protección de tres computadoras o más con una UPS Servidores con software UPS para Consola de administración tarjeta de gestión de redes UPS con bahía de expansión integrada Energía Red 2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-1 6 Diferentes tipos de cierre de sistemas operativos Los sistemas operativos modernos, como Microsoft Windows®, cada vez incluyen enfoques más avanzados en lo que se refiere a administración de energía, entre los que se cuentan nuevos métodos de cierre. Aunque estos avances se deben, en gran medida, a los requerimientos de los usuarios de computadoras portátiles, seleccionar el método de cierre adecuado para utilizar con el software para UPS puede disminuir el tiempo de recuperación tras un corte prolongado en el suministro de energía. Cierre Este es el método tradicional en el cual el sistema operativo de la computadora recibe una instrucción de cierre del software de cierre de la UPS y comienza a suprimir los procesos activos para luego cerrarse. En un sistema Windows®, p or ejemplo, este proceso hace que, en cierto momento, la computadora muestre un mensaje que dice “Ahora puede apagar el equipo". Cierre y “apagado” Este método es similar al que recién mencionamos, pero en este caso, al final del proceso el sistema operativo le ordena a la computadora que se apague y esta pasa a un estado en el que deja de tomar energía. Este puede ser un buen enfoque para la Configuración 2; una computadora puede cerrarse y apagarse para aumentar la autonomía de las computadoras restantes (este enfoque se conoce como “desconexión de cargas”). La capacidad de cierre y “apagado” a veces requiere de un cambio en la configuración de la BIOS para permitir que la función de “apagado” se lleve a cabo. Hibernación El proceso de hibernación (como el que se encuentra, por ejemplo, en los últimos sistemas operativos Windows® de Microsoft) es similar a los procesos descritos anteriormente, pero con el agregado de algunos valiosos pasos adicionales. 1. Primero se guarda el estado del escritorio de la computadora, con todos los archivos y documentos abiertos. Esto se logra al guardar toda la RAM en un archivo grande del disco duro. 2. Luego se cierra y apaga el sistema. 3. Cuando se reanuda el suministro de energía y el sistema se reinicia, la RAM vuelve a cargarse desde el disco duro. 4. El escritorio y todos los archivos y aplicaciones abiertos aparecen tal como estaban antes de que ocurriera el proceso de hibernación. Esto presenta importantes ventajas respecto de los otros métodos, ya que preserva el trabajo que se estaba realizando y el estado del equipo antes del cierre. Por estos motivos, APC les recomienda enfáticamente a sus clientes que seleccionen este método de cierre para el software de sus sistemas UPS. 2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-1 7 Modo standby Cuando una computadora entra en modo "standby", no se apaga por completo, sino que queda en un estado de bajo consumo en el que ciertos componentes (monitor, circuitos integrados de E/S, etcétera) se apagan. La memoria DRAM se sigue actualizando, etcétera, y cuando la computadora sale del modo "standby", por lo general, vuelve al estado anterior muy rápidamente. Si se elige una configuración standby para la computadora, es importante asegurarse de que la UPS que se utilice pueda "despertar" al sistema en caso de una interrupción prolongada en el suministro, para así poder iniciar un cierre sin inconvenientes. De lo contrario, el sistema puede permanecer en el modo standby hasta que la UPS se haya agotado por completo y el suministro al sistema se interrumpa (desconexión total). Mejores prácticas √ Comprar una UPS que admita la incorporación de autonomía extendida y/o un generador La cantidad de datos estandarizados sobre la confiabilidad de la alimentación de CA es limitada. Sin embargo, existen dos encuestas significativas en lo que se refiere a la confiabilidad de la alimentación de CA en los Estados Unidos, una realizada por AT&T Bell Labs y otra, por IBM. Además, American Power Conversion tiene experiencia en el tema, ya que instaló cerca de 8 millones de sistemas UPS, muchos de los cuales pueden guardar registros de los inconvenientes en el suministro. Los datos obtenidos en las encuestas realizadas en los Estados Unidos concuerdan con la experiencia de APC y revelan los siguientes aspectos esenciales: En promedio, 15 cortes en el suministro de energía por año son suficientes para que falle el sistema informático en una instalación típica: • El 90% de los cortes dura menos de 5 minutos (a la inversa, el 10% dura más d e 5 minutos) • El 99% de los cortes dura menos de 1 hora (a la inversa, el 1% dura más de 1 hora) • La duración total acumulada de los cortes es de aproximadamente 100 minutos por año Esta información es sumamente variable de instalación a instalación. En algunas regiones geográficas de los Estados Unidos, como Florida, la tasa de cortes en el suministro es diez veces mayor. Los problemas relacionados con la construcción de cada establecimiento pueden hacer que esta tasa sea incluso hasta 3 órdenes de magnitud (1000 veces) mayor. Se considera que estos datos también son representativos de Japón y Europa occidental. Dado que el 10% de los cortes en el suministro dura más de 5 minutos y que el 1% dura más de una hora, se debe considerar seriamente la com pra de una UPS que admita la incorporación de autonomía extendida y/o un generador cuando el costo del tiempo de inactividad es elevado. 2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-1 8 √ Proteger los equipos de la red con sistemas UPS Las aplicaciones están disponibles cuando la red por la que se accede a ellas también lo está. La protección de energía para hubs, routers y switches es un aspecto esencial, pero a veces se lo pasa por alto al implementar métodos para garantizar la disponibilidad de las aplicaciones . Además, si las computadoras tienen el software de cierre de la UPS, como en la Configuración 3, este requiere que la red esté en funcionamiento durante la interrupción en el suministro de energía para que pueda establecerse correctamente la comunicación. Si la red está desprotegida, no se puede realizar el cierre sin inconvenientes de la computadora. √ Contemplar el tiempo que cada servidor necesita para realizar el cierre El tiempo que se necesita para el cierre adecuado del sistema operativo varía de acuerdo con el sistema; se sabe que, por ejemplo, algunos servidores de correo electrónico con muchas cuentas tardan hasta 20 minutos en cerrarse. Asegúrese de que las configuraciones del software de la UPS contemplen los requisitos específicos de cada computadora y sean adecuadas. Conclusión Si no se instaló el software de cierre en la computadora que se quiere proteger, la UPS solo demorará lo inevitable. Independientemente de la configuración, las mejores prácticas y el software para UPS que se utilicen, APC recomienda enfáticamente que los clientes no pasen por alto este requisito, ya que el pequeño esfuerzo que requiera la instalación y configuración de ese software puede valer la pena en caso de una interrupción prolongada en el suministro que supere el tiempo de autonomía de la UPS. Referencias “Monitoring of Computer Installations for power line disturbances”, Allen y Segall, IBM, Conferencia de Invierno de IEEE PES, 1974 Estudio llevado a cabo entre 1969 y 1970 por medio de 38 monitoreos de datos de un mes de duración “The Quality of US Commercial AC Power”, Goldstein y Speranza, ATT Bell Labs, Conferencia Intellec, 1982 Estudio llevado a cabo entre 1977 y 1979 en 24 instalaciones de los Estados Unidos “Power Quality Site Surveys: Facts, Fiction, and Fallacies”, Martzloff, IEEE Transactions on Industry Applications, volumen 24, Nº 6 2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-1 9 Acerca del autor: Ted Ives es el Gerente de la Línea de Productos para la Administración de Dispositivos de APC en West Kingston y está a cargo de las tarjetas de gestión de redes y el software PowerChute de APC. 2004 American Power Conversion. Todos los derechos reservados. Queda prohibida la utilización, reproducción, fotocopiado, transmisión o almacenamiento en cualquier sistema de recuperación de cualquier tipo de esta publicación, en todo o en parte, sin el consentimiento escrito del titular del derecho de autor. www.apc.com Rev 2004-1 10