Un artículo técnico de los expertos en Business-Critical ContinuityTM Un análisis del impacto financiero debido a la vulnerabilidad de la infraestructura de IT Resumen ejecutivo Durante la década pasada, los negocios empresariales han cambiado sustancialmente. Entre los muchos cambios que se dieron, ninguno fue más profundo que el incremento en la dependencia en los sistemas de tecnología de la información (IT, por sus siglas en inglés) para realizar las aplicaciones fundamentales de negocios. Para muchas empresas de hoy, entre estas, bancos, proveedores de servicios de internet e instalaciones de internet/ coemplazamiento, el rendimiento del centro de datos se convirtió en un producto monetizado. La disponibilidad del centro de datos, que ya no solo consiste en brindar apoyo a las necesidades internas de la organización, se volvió esencial para muchas compañías cuyos clientes pagan un acceso premium a una variedad de aplicaciones de IT. Esta dependencia sin precedentes en los sistemas IT ha construido una conexión todavía mayor entre la disponibilidad del centro de datos y el costo total de propiedad. Un solo periodo de inactividad ahora tiene el potencial de producir un impacto significativo en la rentabilidad (y, en casos extremos, la viabilidad) de una empresa. Desafortunadamente, existe una grave falta de comprensión del personal de IT y de sus contrapartes, los ejecutivos de los altos mandos, con respecto a la frecuencia y el costo del tiempo de inactividad del centro de datos. Al reconocer la necesidad de abordar estas ideas equivocadas, Emerson Network Power se unió con el Ponemon Institute para realizar dos estudios detallados de estas percepciones, causas y los costos monetarios reales de la inactividad de los centros de datos—para un total de miles de dólares por minuto en promedio—así como cuáles vulnerabilidades de infraestructura tienen el impacto más significativo y costoso en la disponibilidad de los sistemas IT fundamentales (véase “National Survey on Unplanned Data Center Outages” y “ The Cost of Data Center Outages”). Además de examinar las diferentes percepciones entre el personal de IT y los ejecutivos de los altos mandos, este artículo técnico aborda en detalle los potenciales costos resultantes del tiempo inactivo del centro de datos y examina como las deficiencias de la electricidad, el enfriamiento, la supervisión y los servicios pueden contribuir al riesgo de periodos de inactividad en las instalaciones. 2 Introducción: percepciones del tiempo de inactividad versus los hechos Desde el boom del “punto com” (y la subsiguiente caída) de finales de la década de los 90 y principios de la década del 2000, las redes IT y los sistemas de centros de datos han experimentado un resurgimiento en el papel principal que juegan en la generación de ingresos y el crecimiento de los negocios. A partir de un mejorado servicio al cliente y conexión de redes para facilitar una variedad de comercio electrónico y servicios de IT para empresas, los centros de datos evolucionaron para convertirse en las bases para las compañías en un amplio rango de industrias. Además, conforme los servicios IT se vuelven cada vez más cotidianos (con el coemplazamiento, los servicios de recuperación de desastres informáticos y computación en nube), el impacto económico de las operaciones del centro de datos seguirán creciendo a una tasa sin precedentes. Sin embargo, aunque más empresas dependen más que nunca antes de sus centros de datos para dar apoyo a las aplicaciones fundamentales para sus negocios, las vulnerabilidades significativas de las instalaciones y las ideas equivocadas sobre la frecuencia y el costo de las fallas de IT han puesto a muchas compañías en un mayor riesgo de costosos periodos de inactividad. De acuerdo con un estudio de setiembre de 2010 del Ponemon Institute, comisionado por Emerson Network Power, las ideas equivocadas sobre la frecuencia y el impacto de la inactividad del centro de datos se han vuelto comunes en empresas en todo EE. UU. La encuesta a más de 400 centros de datos y profesionales de operaciones IT reveló un desconocimiento creciente en las percepciones entre los ejecutivos de los altos mandos y los empleados no gerenciales: • El 71% de los participantes gerenciales creen que el modelo de su compañía depende de su centro de datos para generar ingresos y realizar comercio electrónico. Solo el 58% de los participantes no gerenciales compartieron esta creencia. Aunque los participantes experimentaron un promedio de dos periodos de inactividad en los dos años del estudio (que duraron hasta 120 minutos cada uno, en promedio), el 62% de los participantes gerenciales coincidieron que los apagones no planeados no se dieron frecuentemente. El 41% de los participantes no gerenciales también concordaron con esta afirmación. • El 75% de los participantes gerenciales sintieron que la administración gerencial de sus compañías apoya totalmente los esfuerzos para prevenir y administrar apagones no planeados, mientras que solo un 31% de los empleados a nivel de supervisor e inferior coincidieron con esta afirmación. • Menos de un 32% de todos los participantes coincidieron en que la compañía utiliza las mejores prácticas para maximizar la disponibilidad del equipo IT fundamental (un 40% a nivel ejecutivo; un 29% a nivel no gerencial). Con base en estas conclusiones, es claro que los participantes ejecutivos tienen gran conocimiento de la importancia económica de las operaciones del centro de datos de su compañía. Esto no sorprende, pues la principal responsabilidad de la administración gerencial y de los ejecutivos de altos mandos (incluidos los Directores de Comunicaciones Corporativas, CIO, por sus siglas en inglés) es entender como todas las facetas del negocio contribuyen al crecimiento y rendimiento de la empresa. 3 Las respuestas de la encuesta también indicaron que la mayoría de estos ejecutivos no se encuentran tan al día con las operaciones cotidianas del centro de datos como se encuentran los empleados no gerenciales encargados de mantener la infraestructura IT de la compañía. Como tales, muchos ejecutivos encuestados no están tan conscientes de la frecuencia de los periodos de inactividad y las vulnerabilidades de las infraestructuras de sus centros de datos que contribuyen a estos periodos. la infraestructura de su centro de datos, es esencial que los empleados de todos los niveles de la organización tengan un conocimiento extenso de las verdaderas implicaciones financieras de la inactividad. Estas alarmantes ideas equivocadas sobre la frecuencia y el impacto de los periodos de inactividad del centro de datos provocaron la conducción de un segundo estudio para determinar los puntos de referencia del costo promedio de los periodos de inactividad en los Estados Unidos de América. En cambio, el personal de IT no gerencial está más consciente, que sus contrapartes ejecutivas, de la frecuencia de los fallos del sistema y de las vulnerabilidades específicas en la infraestructura de los centros de datos de sus compañías. Empero, menos participantes no gerenciales tienen un conocimiento activo del papel de las operaciones de los centros de datos de sus compañías en la generación de ingresos y facilitación del comercio electrónico. Superficialmente, estas conclusiones pueden parecer ejemplos claros de cómo grupos de trabajo aislados pueden promover malentendidos en cómo se perciben problemas comunes. Pero, para las compañías cuyo rendimiento está directamente ligado a la disponibilidad de las operaciones IT de la empresa, pueden llevar a aumentos dramáticos en los riesgos adversos del rendimiento y, potencialmente, en la viabilidad del negocio. Al cerrar la brecha entre la percepción de los ejecutivos de los altos mandos y el personal IT no gerencial, las compañías estarán mejor posicionadas para maximizar la disponibilidad de las aplicaciones IT críticas sin inflar excesivamente el costo total de la propiedad del centro de datos. Asimismo, para asegurar que la organización entera tenga una percepción exacta del estado de 4 2% 2% 2% 2% 12% 2% 5% 12% 5% 5% 10% 7% 7% 10% 7% 2% 7% 12% 7% Transporte Defensa Comunicación Hospitalidad Medios masivos Productos de consumo Sector público Industrial Servicios 5% 10% Venta al detalle convencional Tecnología y software Educación Venta al detalle por comercio electrónico Servicios de colocación Servicios financieros Cuidado de la salud Figura 1. Distribución de las organizaciones participantes por sector industrial. Metodología: encontrar los puntos de referencia de los costos de la inactividad Se les pidió a los representantes de todos los niveles del personal IT que participaran en el estudio: Se les pidió a los profesionales de los centros de datos de 41 instalaciones independientes en todo EE. UU., que incluyen una variedad de responsabilidades organizacionales, que participaran en el estudio. Los centros de datos participantes representaron una amplia variedad de sectores de la industria, entre estos, los servicios financieros, telecomunicaciones, ventas al detalle (convencional y por comercio electrónico), salud, gobierno y servicios IT de terceras partes. Para asegurar que los costos fueran representativos con respecto al de un centro de datos promedio de una empresa, los centros de datos participantes debían tener un mínimo de aproximadamente 232 m2. • Gerentes de las instalaciones • Directores de Comunicaciones Corporativas • Personal administrativo del centro de datos • Director de seguridad de la información • Directores de cumplimiento de IT Para calcular el costo integral, los investigadores usaron un modelo de costos basado en actividades el cual tomó en consideración los costos directos, indirectos y de oportunidad. Como se muestra en la Figura 2, los costos se categorizaron de acuerdo con los centros de actividad interna y las consecuencias del costo externo. Los participantes brindaron estimados de los costos directos, indirectos y de oportunidad (por separado) de un solo apagón reciente Centros de Actividad Consecuencias de los costos Detección Equipo Contención Recuperación Modelo de costos basado en actividades Productividad de IT Productividad del usuario Terceras partes Respuesta posterior al hecho Pérdida de ingresos Costos directos Costos indirectos Interrupción de los negocios Costos de oportunidad Figura 2. Marco de los costos con base en las actividades. 5 basado en un rango de variables establecidas. Para asegurar que las pérdidas reportadas incluidas en el estudio fueran lo mas integrales posible, se realizaron entrevistas de seguimiento para obtener información adicional sobre mas pérdidas de ingresos como resultado de los apagones de los centros de datos. Cuantificar el costo de la inactividad El estudio, que terminó en 2011, descubrió una serie de conclusiones relacionadas con el costo de la inactividad. Con base en estimaciones de los costos de los participantes de la encuesta, el costo promedio de la inactividad del centro de datos fue de aproximadamente $5.600 por minuto. Con base en el incidente promedio reportado de 90 minutos de duración, el costo promedio de un solo periodo de inactividad fue de aproximadamente $505.500. Estos costos se basan en una variedad de factores, que incluyen pero no se limitan a la pérdida o corrupción de datos, pérdidas de productividad, daño del equipo, detección de la causa principal y acciones de recuperación, repercusiones legales y regulatorias, pérdida de ingresos y repercusiones a largo plazo en la reputación y confianza de los principales accionistas. Interrupción de los negocios Pérdida de ingresos Productividad del usuario final Productividad de IT Detección Recuperación Actividades posteriores al hecho Costos del equipo Terceras partes Aunque los costos directos fueron responsables de casi un tercio de todos los costos reportados, los costos indirectos y de oportunidad— significativamente más difíciles de percibir por el personal no gerencial—demostraron ser mucho más costosos, al alcanzar el 62% de todos los costos resultantes de la inactividad del centro de datos. Mientras que la interrupción de los negocios y la pérdida de ingresos se citaron dentro de las consecuencias más importantes de los costos de la inactividad, otros costos menos obvios, como pérdidas del usuario final y la productividad de IT también tuvo un impacto significativo en el costo de un periodo promedio de inactividad (Figura 3). Sorprendentemente, los costos del equipo se encontraron entre los costos más bajos reportados durante un periodo de inactividad, con un promedio de aproximadamente $9.000 por periodo. Esto significa que los efectos residuales y hacia abajo del apagón del centro de datos son comúnmente más costosos que los costos de detección y reparación de la causa principal de un apagón después de que este ocurrió. $179.827 $118.080 $96.226 $42.530 $22.347 $20.884 $9.537 $9.063 $7.008 $- $40.000 $80.000 $120.000 $160.000 $200.000 Figura 3. Costo promedio de los apagones no planeados del centro de datos en nueve categorías. 6 Cuando se toma en cuenta que el típico centro de datos en los EE. UU. experimenta un promedio de dos periodos de inactividad1 en el curso de dos años, los costos de la inactividad del centro de datos promedio con facilidad supera el $1 millón en menos de un periodo de dos años. Para las empresas con modelos de ingresos que dependen únicamente de la habilidad de los centros de datos para entregar servicios de red e IT a los clientes—tales como los proveedores de servicios de telecomunicaciones y compañías de comercio electrónico—la inactividad puede ser particularmente costosa con el costo más alto de un solo periodo que alcanza $1 millón (más de $11.000 por minuto). En total, el costo de los periodos de inactividad más recientes de los 41 centros de datos participantes alcanzó un total de $20.735.602. Otras conclusiones principales del estudio incluyen: • El costo total tanto de los apagones no planeados parciales como totales pueden representar un gasto significativo para las organizaciones (aproximadamente $258.000 y $680.000 por periodo en promedio, respectivamente). • El periodo promedio de recuperación de un apagón total fue más del doble que el de un apagón parcial (134 y 59 minutos, respectivamente). • El costo total de los apagones se relaciona sistemáticamente con la duración del apagón y el tamaño del centro de datos. • Las causas primordiales de la inactividad reportadas por los participantes se relacionaron directamente con las vulnerabilidades de la infraestructura de electricidad y enfriamiento de los centros de datos. El costo de la vulnerabilidad de la infraestructura Además de los costos en los ingresos, asociados con los periodos de inactividad, una variedad de costos están directamente relacionados con las actividades de respuesta necesarias para restablecer el servicio e identificar y resolver las causas principales del más reciente apagón en la organización así como los costos relacionados con la identificación y resolución de la causa principal para restablecer las operaciones del centro de datos. Como se evidencia en la Figura 4, mientras los participantes de la encuesta citaron una variedad de causas principales—entre estas, el fallo del sistema UPS (batería), fuga de Otro Fallo del equipo IT Fallo del generador Relacionado con la climatización 5% 10% 29% 12% 15% 1 Los periodos de inactividad no se limitan a apagones totales del centro de datos. Los apagones de los racks y de las filas también se toman en cuenta en este agregado así como los costos asociados a la inactividad. Fallo del sistema UPS (batería) 5% Agua, calor o fallo del aire acondicionado de la sala de computadoras 24% Error humano/accidental Figura 4. Las causas principales de los apagones no planeados reportados. 7 agua y fallos del equipo IT—la mayoría de las causas principales se pueden atribuir a vulnerabilidades de la infraestructura eléctrica y de enfriamiento del centro de datos. Estas causas principales reflejan en detalle aquellas identificadas por los participantes en el primer estudio del Ponemon Institute. En las siguientes secciones, este artículo examinará más detalladamente los costos incurridos debido a las vulnerabilidades en las infraestructuras eléctricas y de enfriamiento de los participantes así como las acciones y mejores prácticas que pueden implementarse para minimizar los costos de recuperación y el riesgo general de inactividad2. Como se explora en el artículo técnico de Emerson Network Power “Addressing the Leading Root Causes of Downtime”, muchas de las causas principales de la inactividad pueden atribuirse a una serie de factores—primordial entre estos la necesidad de “obtener más con menos”. Conforme las demandas para incrementar el rendimiento y eficiencia aumentaron en medio de la reciente recesión económica estadounidense, los gerentes de los centros de datos empezaron a implementar estrategias de diseño que lograron estos beneficios con el precio de exponerse a vulnerabilidades críticas en sus infraestructuras. Afortunadamente, el riesgo de experimentar muchas de las principales causas de la inactividad puede minimizarse al revisar las mejores prácticas en el diseño de la infraestructura y redundancia del sistema, así como el implementar un servicio preventivo integral y un régimen de mantenimiento. Apagones relacionados con la electricidad De acuerdo con los participantes de la encuesta, más del 39% de los apagones reportados del centro de datos se atribuyó directamente a vulnerabilidades en la electricidad del centro de datos. Entre las principales causas generales de la inactividad relacionadas con la electricidad, los fallos asociados al UPS (se incluye las baterías) demostraron ser los más costosos ($687.700) seguidos por los fallos de los generadores ($46.890). Una de las razones principales por la cúal las vulnerabilidades de la electricidad son tan costosas para los centros de datos consiste 2 NOTA: Para recomendaciones detalladas sobre como fortalecer la infraestructura del centro de datos contrapuestas a las principales causas más comunes de la inactividad, véase el artículo técnico relacionado “Addressing the Leading Root Causes of Downtime: Technology Investments and Best Practices for Assuring Data Center Availability”. Fallo del equipo IT $750.326 Fallo del sistema UPS (batería) $687.700 Otras causas principales $612.993 Agua, calor o fallo del aire acondicionado de la sala de computadoras $489.100 Fallo del generador $463.890 Relacionado con la climatización $395.065 Error humano/accidental $298.099 $0 $200.000 $400.000 $600.000 Figura 5. Costo total promedio de las causas principales de un apagón no planeado. 8 $800.000 en que un fallo en la infraestructura eléctrica probablemente se convertirá en una catástrofe, un apagón total no planeado. Esto significa que además de cualquier costo directo incurrido para resolver la causa del apagón, los costos indirectos y de oportunidad también serán significativos pues los accionistas se verán afectados por el apagón. Por definición, las instalaciones de los centros de datos Tier I y II no están equipadas con la tecnología necesaria para aislar la falla del sistema eléctrico, como la redundancia, la alimentación eléctrica dual y los interruptores estáticos. Como resultado, la disponibilidad de estas infraestructuras eléctricas de los centros de datos depende totalmente de la integridad del único sistema de respaldo de la instalación. Como los centros de datos Tier I y II pueden hacer relativamente poco para prevenir los costos indirectos y de oportunidad incurridos debido a un apagón total del centro de datos causado por una falla eléctrica, se recomienda enfáticamente el invertir para minimizar el impacto de una falla del sistema eléctrico en las operaciones del centro de datos. Una de las mejores maneras para lograrlo es asegurar que todos los sistemas eléctricos se encuentran respaldados por un nivel adecuado de redundancia. Implementar la redundancia les permite a los gerentes de las instalaciones eliminar puntos únicos de fallo en sus infraestructuras eléctricas. Debido a que siempre existe la posibilidad de que falle el equipo con el pasar del tiempo, la redundancia asegura que siempre haya un respaldo. Siempre se incurrirá en los costos directos para reparar o reemplazar el módulo dañado, pero la falla del equipo no tendrá un impacto catastrófico en la disponibilidad del centro de datos y, por lo tanto, la organización no incurriría en sustanciales costos indirectos o de oportunidad asociados con un apagón total no planeado. Cuando se agrega un UPS para redundancia o para remplazar un módulo existente o dañado, la fiabilidad a largo plazo de la solución debería ser la prioridad máxima. Algunos sistemas de UPS, entre estos Liebert NXL, son capaces también de lograr una disponibilidad y rendimiento óptimo con componentes redundantes, componentes en reducida cantidad, tolerancias de fallo para corrientes de entrada y capacidad de supervisión de las baterías integradas. Además de establecer la redundancia en la infraestructura eléctrica, el servicio y mantenimiento adecuado de los sistemas eléctricos críticos pueden jugar un papel significativo para minimizar el riesgo de falla del equipo eléctrico. De hecho, aun una sola visita anual de mantenimiento preventivo puede aumentar “el tiempo entre fallos” (MTBF, por sus siglas en inglés) de una unidad UPS multiplicado por diez. Finalmente, la implementación de herramientas para una supervisión y administración integral de la infraestructura como Libert Nform, Liber SiteScan y Albert Battery Monitoring también pueden minimizar los costos intrínsecos de las actividades para detectar y recuperarse de los fallos del sistema eléctrico. El incorporar una solución de supervisión integral, que incluye la batería y la supervisión del circuito ramal, le permite al personal IT identificar, aislar y solucionar los problemas del equipo eléctrico con rapidez. 9 Apagones relacionados con la climatización Junto con las vulnerabilidades en la infraestructura eléctrica, las vulnerabilidades de la climatización también fueron responsables de una porción notable de las causas principales que citaron los participantes de la encuesta. El 15% de todas las causas principales se atribuyeron directamente a problemas con la temperatura, entre estos la fuga de agua y fallos en el equipo IT relacionados con la densidad del calor y la capacidad de enfriamiento. Los costos asociados con el detectar y recuperarse de estos fallos también fue significativo, con más de $489.000 por incidente. Los problemas de climatización también fueron la causa primordial de los fallos de equipo IT. De hecho, aunque los fallos del equipo IT Figura 6. Las soluciones de los centros de datos para optimizar el enfriamiento de precisión, como SmartAisle de Emerson Network Power, subsana necesidades específicas con soluciones desplegables rápidamente que a un costo razonable agregan capacidad al centro de datos, mejoran el control de IT y aumentan la eficiencia. 10 solo fueron responsables del 5% de las causas principales citadas por los participantes de la encuesta, estos fallos llevaron a incurrir en el costo general más alto: más de $750.000. En muchos casos, un solo fallo puede causar una reacción en cadena de fallos del equipo IT que requieren extensos esfuerzos de detección y recuperación para identificar la causa principal además de reemplazar el equipo IT dañado. Por ejemplo, una fuga de agua fría en el sistema en filas de enfriamiento en el centro de datos puede causar la falla del sensitivo equipo IT. Además de identificar y reparar el problema de enfriamiento que causó el apagón, los servidores y otro equipo IT dañado deberá ser reemplazado. También, es de suma importancia subrayar que el equipo de enfriamiento NO necesita fallar para causar una falla del equipo IT. En cambio, estos fallos, típicamente causados por altas densidades de calor y “puntos calientes” dentro del rack, frecuentemente ocurren como resultado de una infraestructura inadecuada de enfriamiento más que debido a una falla del equipo de climatización. Esto refuerza aún más la importancia de una optimizada infraestructura de enfriamiento. Mientras que algunos apagones relacionados con la infraestructura de enfriamiento del centro de datos pueden estar más aislados que los fallos relacionados con la electricidad, que contribuyen tanto a apagones parciales como totales del centro de datos, una infraestructura integral de enfriamiento sigue siendo fundamental para minimizar los periodos de inactividad y sus costos asociados. Esto es particularmente verdad al tomar en cuenta las muchas conexiones entre la infraestructura de enfriamiento del centro de datos y la viabilidad del equipo crítico IT, donde los sistemas de enfriamiento no deben fallar para causar fallas catastróficas y dañar equipo sensible y costoso. Afortunadamente, existe una serie de buenas prácticas e inversiones que pueden hacerse en la infraestructura de enfriamiento del centro de datos para minimizar el riesgo de fallos catastróficos del equipo y los periodos de inactividad asociados. Muchas de estas buenas prácticas se exploran en el artículo técnico “Addressing the Leading Root Causes of Downtime”, que incluyen: • Minimizar el riesgo de inundación al usar soluciones con base en refrigerantes en vez de soluciones a base de agua. Estas soluciones integradas también ofrecen el beneficio de un eficiente enfriamiento de precisión gracias a la contención del frío por aislamiento (Véase la Figura 6), y maximiza la efectividad de la solución integrada de enfriamiento. Estas características juegan un papel primordial al enfocar el enfriamiento con base en las necesidades en tiempo real del equipo dentro de los racks, minimizando el riesgo de puntos calientes y otras fallas comunes en el entorno de las computadoras de alta densidad mientras opera con un nivel de alta eficiencia. • Eliminar los puntos calientes y altas densidades de calor al traer el enfriamiento de precisión más cerca de la carga con soluciones de enfriamiento de precisión con base en filas. • Instalar soluciones consolidadas de supervisión y administración que funcionan con supervisión remota. • Fortalecer las inversiones en equipo de enfriamiento e IT con visitas de servicio y mantenimiento preventivo regular. Mientras estas recomendaciones incorporan muchas de las buenas prácticas para maximizar la disponibilidad, efectividad y eficiencia de la infraestructura de enfriamiento del centro de datos, algunos vendedores, entre estos Emerson Network Power, ahora le ofrecen a los gerentes de las instalaciones la posibilidad de implementar una solución optimizada e integrada para un desempeño eficiente de alta disponibilidad de electricidad y de enfriamiento. Estas soluciones ofrecen todas las mejores prácticas de diseño mencionadas anteriormente, algunas con el beneficio adicional del rápido despliegue para la expansión del centro de datos o recuperación después de un desastre. 11 Fundamentar la optimización de infraestructura 3 Estas ideas equivocadas llevan a hacer la pregunta obvia: si los ejecutivos entienden el papel de sus centros de datos en la generación de ingresos y mantener sus respectivos modelos de negocios, ¿por qué muchos han dudado en realizar las inversiones necesarias para fortalecer sus infraestructuras contra la inactividad? La posible respuesta es que, antes de cuantificar el costo de la inactividad del centro de datos, la mayoría de ejecutivos no pudieron reconocer como la prevención de la inactividad acelera el rendimiento de las inversiones en su infraestructura. 3 NOTA: Aunque se basan en situaciones de la vida real, los costos detallados en el análisis son aproximaciones de los costos de mercado con un modelo de centro de datos como referencia (presentado en el Anexo A). Para obtener un estimado detallado para optimizar la infraestructura de su propio centro de datos de acuerdo con las siguientes recomendaciones por favor contacte a su representante de Emerson Network Power. 12oC Compresor Condensador Ventilador del evaporador Total Ahorro 17oC Racks IT Racks IT 34oC Enfriamiento de precisión 17oC Racks IT Racks IT 32oC 33oC 29oC Enfriamiento de precisión 12oC Racks IT Racks IT 24oC Como se evidenció en las conclusiones del Ponemon Institute, la inactividad puede resultar en una variedad de costos recurrentes a largo plazo, los cuales incluyen costos directos asociados con la identificación y resolución de las causas principales, así como los costos indirectos relacionados con la interrupción de operaciones críticas de 36oC Enfriamiento de precisión Como se detalló en las secciones pasadas, las vulnerabilidades de la infraestructura del centro de datos pueden tener un impacto dramático en la susceptibilidad de unas instalaciones para los costosos periodos de inactividad que alcanzan cientos de miles de dólares. No obstante, como este artículo demostró, solo el 29% del personal de IT no gerencial creen que sus compañías implementaron la tecnología y mejores prácticas necesarias para minimizar la ocurrencia e impacto de la inactividad del centro de datos. 17oC 17oC Enfoque convencional de enfriamiento Con contención al aislar el frio (CAC, en inglés) Con CAC y control inteligente 69,7% 9,3% 21,0% 100% - 50,9% 9,3% 18,5% 78,7% 21% 50,4% 9,3% 7,2% 66,9% 33% Figura 7. Un control dinámico brinda un 15% adicional de incremento en la eficiencia total del sistema con solo la contención al aislar el frío. a 12 negocios. Mientras el minimizar el riesgo de los periodos de inactividad y su impacto financiero general podría necesitar una significativa inversión inicial de capital cuando se toma en cuenta las ganancias sobre los costos directos e indirectos de la inactividad, así como el ahorro producto de los aumentos en la eficiencia que reduce los gastos operacionales – las inversiones selectivas pueden en realidad acelerar el tiempo del rendimiento de la inversión de una empresa al mismo tiempo que reducen el costo total de propiedad del centro de datos con el pasar del tiempo. Para enfatizar este punto, solo se debe comparar el costo de la optimización de la infraestructura con el costo promedio y la frecuencia de la inactividad con el pasar del tiempo. Es importante entender primero cómo el costo de la inactividad afecta la velocidad del rendimiento de las inversiones de la infraestructura del centro de datos. Optimización de la infraestructura eléctrica Primero, se toma en cuenta que un típico centro de datos sin optimizar de una corporación experimenta un promedio de diez periodos de inactividad en diez años, con una variedad de causas principales. Con un costo promedio por periodo de aproximadamente $500.000 (que incluye costos directos, indirectos y de oportunidad), un típico centro de datos corporativo puede incurrir en más de $5 millones en costos de inactividad durante este tiempo. $3.500.000,00 $3.000.000,00 $2.500.000,00 $2.000.000,00 $1.500.000,00 $1.000.000,00 $500.000,00 $- 1 2 3 4 5 6 7 8 9 10 Año 1 2 3 4 5 Costo total de la inactividad (potencial) $451.000 $631.400 $1.082.400 $1.262.800 $1.713.800 Inversión total de optimización $368.000 $388.000 $408.000 $428.000 $448.000 6 7 8 9 10 Año Costo total de la inactividad (potencial) Inversión total de optimización $1.894.200 $2.345.200 $2.525.600 $2.976.600 $3.157.000 $468.000 $488.000 $508.000 $528.000 $548.000 Figura 8. Los costos potenciales de la inactividad (en azul) comparados con la inversión de capital y las inversiones de servicio continuo para la optimización de la infraestructura eléctrica y de enfriamiento (en gris oscuro). 13 Los costos por una falla del sistema de UPS fueron responsables del 29% de los apagones de los centros de datos reportados por los participantes de la encuesta. Extrapolado durante 10 años, estos centros de datos pueden esperar sufrir al menos tres periodos de inactividad relacionados con el fallo del sistema de UPS, con un costo total promedio que supera los $2 millones en costos totales de inactividad. Se debe comparar esta cifra con los costos aproximados relacionados con el agregar redundancia de UPS a un centro de datos de aproximadamente 232m2 con 105 racks de alta densidad (1.000 servidores) e instalaciones de consumo de energía de aproximadamente 1.200 kW. Agregar redundancia del UPS al centro de datos de este tamaño posiblemente requerirá una inversión de capital inicial de aproximadamente $250.000 y una inversión anual de hasta $15.000 de dos visitas de servicio preventivo anuales (aumenta el tiempo entre fallos, MTBF, para los sistemas UPS hasta 23 veces). Con base en estas cifras, cuando se extrapola estas inversiones en diez años, la inversión total en fortalecer la infraestructura de los sistemas UPS de este centro de datos sería de aproximadamente $400.000. Comparado con el costo total promedio de los periodos de inactividad causados por un fallo de los sistemas UPS según lo respondido por los participantes ($607.000), el rendimiento de inversión se logra con facilidad gracias a la prevención de un solo periodo de inactividad relacionado con el UPS. Asimismo, durante un periodo de diez años, el rendimiento de la inversión se puede lograr triplicar solo en los costos potenciales de la inactividad, sin tomar en cuenta las ganancias en eficiencia y gastos operativos asociados con las visitas de servicio reactivo. 14 Optimización de la infraestructura de enfriamiento Un análisis similar puede realizarse con respecto a la optimización de la infraestructura de enfriamiento del centro de datos. Los apagones del centro de datos relacionados con las fallas o insuficiencias de los sistemas críticos de enfriamiento fueron responsables de aproximadamente el 20% de los apagones reportados, entre estos, los fallos del equipo IT. Colectivamente, el costo promedio de estas causas principales fue de aproximadamente $554.000. Esto significa que si un centro de datos promedio experimenta diez periodos de inactividad en diez años, un promedio de dos periodos (con un costo total promedio de más de un $1,1 millón en costos de inactividad) se relacionarán con las vulnerabilidades en la infraestructura de enfriamiento del centro de datos. Para contrastar estos costos con el costo de la optimización de la infraestructura, se puede volver a estudiar el “modelo” del centro de datos mencionado anteriormente. En este caso, se asume que el modelo de centro de datos depende de ocho soluciones enfriadoras a base de agua fría para abastecer el equipo IT, los sistemas UPS y las unidades de distribución de energía, así como las salidas del edificio y la carga humana. Con base en estos parámetros, se recomienda enfáticamente que los gerentes de los centros de datos inviertan en una evaluación del espacio de su centro de datos. Estos servicios pueden variar desde una auditoría del centro de datos realizada por un representante capacitado de servicio (con regularidad, gratis como parte de un contrato de servicio vigente) o una evaluación térmica más integral realizada con un modelado de dinámica de fluidos computacional (aproximadamente $12.000 para el centro de datos base del Anexo A), el cual revela una clara imagen de las vulnerabilidades en la infraestructura de enfriamiento del centro de datos y las áreas donde las ganancias significativas en la eficiencia se pueden lograr con la optimización del enfriamiento. Con frecuencia, estas evaluaciones concluyen que las inversiones en equipos adicionales pueden posponerse al optimizar la configuración de los sistemas de enfriamiento, racks y equipo IT. Al optimizar la infraestructura de enfriamiento existente de un centro de datos con una estrategia para contener el frío (una solución de contención particionada que cuesta tan solo $15.000), los gerentes de los centros de datos pueden mejorar dramáticamente la efectividad de su equipo de enfriamiento con el beneficio adicional de ganancias significativas en el ahorro de energía. El agregar herramientas inteligentes (Liebert iCOM) y supervisión remota a una infraestructura de contención (aproximadamente $80.000 para el centro de datos base presentado en el Anexo A) puede también mejorar la eficiencia del enfriamiento al menos en un 12% y asegurar que todo el equipo IT se enfría de manera adecuada y precisa con base en densidades de calor en tiempo real (véase la Figura 7). Finalmente, se recomienda invertir en mantenimiento preventivo continuo (una inversión anual aproximada de $2000) y la instalación de una solución integral para detectar fugas para todas las unidades de enfriamiento (aproximadamente $5.000). Lo que es más, en caso de optimizar la infraestructura eléctrica, en un periodo de diez años, el rendimiento de la inversión se puede lograr muchas veces cuando se toma en cuenta los costos potenciales de la inactividad así como las significativas ganancias en la eficiencia de la energía: al reducir el uso de la energía para enfriamiento en hasta un 33%. Otras oportunidades de optimización Además de las vulnerabilidades en la infraestructura eléctrica y de enfriamiento del centro de datos, los accidentes y errores humanos pueden provocar costosos eventos de inactividad. El 24% de los participantes del estudio citaron errores humanos como la causa principal de su más reciente periodo de inactividad, con la inactividad causada por un error humano responsable por casi $300.000 en costos por incidente. En un periodo de diez años, los periodos de inactividad relacionados con los errores humanos y accidentes pueden con facilidad costarle a una organización $600.000 de más. En el transcurso de diez años, la inversión total de fortalecer la infraestructura de enfriamiento del centro de datos sumaría aproximadamente $135.000 ($115.000 en un solo año). Comparado con el costo total promedio de un solo periodo de inactividad debido a una falla de los sistemas IT o apagones relacionados con la temperatura según lo informado por los participantes ($554.000), estas inversiones pueden justificarse con facilidad si previenen un solo periodo de inactividad relacionado con la temperatura. 15 Afortunadamente, las mejores prácticas para minimizar el riesgo de los periodos de inactividad causados por errores humanos se encuentran entre los gastos menos caros de implementación. Como se explica en el artículo técnico (“Addressing the Leading Root Causes of Downtime”), las acciones recomendadas para minimizar la frecuencia de los errores humanos y situaciones de paradas de emergencia accidentales incluyen: • Botones protectores de parada de emergencia • Hacer cumplir enfáticamente políticas de comidas y bebidas • Evitar contaminantes • Establecer políticas de acceso seguro • Realizar capacitaciones continuas del personal • Promover estándares consistentes de operación • Etiquetar todos los componentes con exactitud • Documentar los procedimientos de mantenimiento De acuerdo con los expertos de Libebert Services de Emerson Network Power, el implementar estas recomendaciones tendrá un costo aproximado de $3.500. Cuando se toma en cuenta el alto costo general de la inactividad, estas inversiones representan un costo nominal que puede con facilidad alcanzar un rendimiento de inversión multiplicado por 100 al prevenir un solo error o accidente. 16 Una comparación integral Para poner todos estos cálculos en una perspectiva más amplia, las vulnerabilidades en la infraestructura de UPS y de enfriamiento de un centro de datos, así como el error humano y situaciones de parada de emergencia accidentales, colectivamente son responsables de casi tres cuartos de las causas principales de la inactividad reportadas por los participantes de las encuestas con un costo promedio de más de $450.000 por incidente. Como tal, los centros de datos experimentan un promedio de diez periodos serios y no tan importantes de inactividad en un periodo de diez años, los apagones relacionados con el UPS, enfriamiento y errores humanos se espera sean responsables de al menos siete periodos serios y no tan importantes de inactividad, con un costo total promedio que supera los $3,15 millones. Como se ilustró en la Figura 8, el rendimiento de inversión de la optimización de la infraestructura puede hacerse inmediatamente cuando se compara el costo potencial de la inactividad con el costo aproximado de las inversiones recomendadas capaces de minimizar el riesgo de tres causas principales: $548.000 que incluyen diez años de mantenimiento preventivo del equipo eléctrico y de enfriamiento; $368.000 el primer año. Asimismo, cuando se toma en cuenta las ganancias en la eficiencia adicional lograda como resultado de estos cambios, el rendimiento de la inversión de la optimización de la infraestructura eléctrica y de enfriamiento es particularmente evidente, especialmente cuando se toma en cuenta los ahorros a largo plazo en los costos indirectos y de oportunidad de los periodos de inactividad recurrentes. Establecer prioridades: evaluar la infraestructura existente Mientras que las acciones recomendadas en este artículo son críticas para minimizar el riesgo de las principales causas de inactividad (y sus costos asociados), muchas empresas desearían establecer prioridades con respecto a estas inversiones en el tiempo. Estas decisiones se basan con regularidad en una variedad de factores, entre estos, la inversión de capital y los gastos operativos necesarios para una optimización integral, el aspecto crítico de las operaciones del centro de datos y el impacto de la inactividad no planeada de las operaciones del centro de datos. Si una reforma integral de la infraestructura no es posible, repartir las inversiones en el tiempo puede convertirse en una forma efectiva de balancear la inversión de capital y los gastos operacionales a corto plazo con los costos a largo plazo y el riesgo de las principales causas de la inactividad de las operaciones del centro. Por ejemplo, muchas de las acciones recomendadas para salvaguardar el centro de datos en contra de de los errores humanos y paradas de emergencia accidentales corresponden a las opciones primarias y son relativamente económicas de implementar. Como resultado, algunos centros de datos podrían escoger la implementación de estas y otras opciones de optimización mínimamente invasivas (como la partición en filas) primero y planear las opciones de optimización más intensivas con base en la disponibilidad de recursos y un tiempo necesario de rendimiento de inversión. Sin embargo, a pesar de si la empresa decide implementar una reforma de la infraestructura o separar estas mejoras en el tiempo, muchos pasan por alto la necesidad de realizar evaluaciones integrales de sus infraestructuras existentes, un paso crítico que puede evitar inversiones innecesarias que ofrecen poco valor adicional en la disponibilidad o eficiencia. Como se subraya en el artículo técnico “Addressing the Leading Root Causes of Downtime: Technology Investments and Best Practices for Assuring Data Center Availability” de Emerson Network Power, una evaluación integral de las instalaciones así como de los sistemas eléctricos y térmicos pueden ofrecer una idea detallada de cómo el centro de datos existente puede optimizarse para aumentar la eficiencia sin comprometer la disponibilidad de los sistemas críticos. Además del desempeño de los sistemas eléctrico y de enfriamiento del centro de datos, las evaluaciones de los centros de datos toman en cuenta una serie de factores adicionales no relacionados directamente con el desempeño del equipo que puede afectar la disponibilidad y desempeño de los sistemas críticos que incluyen las densidades de calor en racks y filas, la obstrucción del piso elevado y las vulnerabilidades de arcos eléctricos en la infraestructura eléctrica del centro de datos. Con base en la evaluación realizada por el personal de servicio capacitado especialmente, el gerente del centro de datos puede evaluar con claridad donde se necesita hacer inversiones de capital (que incluye los sistemas eléctricos redundantes y equipo de enfriamiento de precisión diseñado para los ambientes de alta densidad) y donde la infraestructura existente puede ajustarse o ser optimizada de acuerdo con las mejores prácticas para minimizar el riesgo de inactividad del centro de datos. 17 Conclusión Como se evidenció en las conclusiones del Ponemon Institute, un solo periodo de inactividad ahora tiene el potencial de afectar significativamente la rentabilidad (y, en casos extremos, la viabilidad) de una empresa. Esta tendencia puede atribuirse a una variedad de tendencias económicas, prácticas de negocios en desarrollo y la aparición de flujo de ingresos que dependen totalmente de la disponibilidad de sistemas IT críticos. Con un costo promedio de inactividad para el centro de datos de una empresa que alcanza los miles de dólares por minuto, es vital cerrar la brecha creciente entre el personal de IT y sus contrapartes de los altos mandos. Una forma efectiva de alcanzar este objetivo es promover una comprensión a fondo de la frecuencia, costo y causas de la inactividad del centro de datos. Si se deja sin supervisión, una infraestructura inadecuada del centro de datos contribuirá a periodos de inactividad recurrentes y podrá traducirse en pérdidas financieras así como daño permanente a la reputación de la compañía y a la buena voluntad del cliente. Mientras identificar estas vulnerabilidades y corregirlas con base en algunas de las mejores prácticas mencionadas anteriormente podría requerir un costo inicial significativo, los profesionales del centro de datos ganarían una comprensión clara de cómo los costos directos e indirectos pueden afectar los ingresos con el paso del tiempo. 18 Anexo A: Suposiciones de un centro de datos modelo (antes de la optimización) • La entrada del UPS es de 480 V fase 3. • La eficiencia de la distribución de la energía es del 97,5%. El centro de datos hipotético con 232m aproximadamente tiene 105 racks con una densidad promedio de 5,6 kW cada uno. Los racks están acomodados en una configuración de pasillos de calor/pasillos de frío. Los pasillos de frío tienen aproximadamente 1,2 metros de ancho y los de calor tienen 0,9 metros de ancho. Con base en esta configuración y los parámetros de operación, el consumo de energía de las instalaciones se calculó en 1,127 kW. Sistema de UPS 2 A continuación se presentan detalles adicionales usados en el análisis: • Ocho sistemas de enfriamiento de 146kW de precisión enfriados con agua colocados al final de cada pasillo de calor. Incluye una unidad redundante. • La fuente del agua fría es una planta enfriadora que consiste de tres enfriadores (chillers) de 200 toneladas (n+1) con condensadores complementarios para rechazar el calor y cuatro bombas de agua fría (n+2). • El enfriador (chiller), bombas y aires acondicionados se alimentan del tablero de distribución del edificio (480 V trifásico). Servidores • La edad se basa en el ciclo promedio de reemplazo de servidores de 4-5 años. Sistema de enfriamiento • El sistema de enfriamiento se enfría con agua • El procesador de potencia de diseño térmico promedia 91W/procesador. • • Todos los servidores tienen suministros duales de energía redundante. La eficiencia promedio de conversión corriente continua-corriente continua se supone es del 85% y la eficiencia promedio de conversión corriente alterna-corriente continua se asume que es del 79% para la mezcla de servidores de entre 4 años y nuevos. La carga térmica sensible total en el sistema de enfriamiento de precisión incluye calor generado por el equipo IT, UPS y unidades de distribución de la energía, salidas del edificio y carga humana. • Componentes del sistema de enfriamiento: • • - Ocho sistemas de enfriamiento de 146kW de precisión enfriados con agua colocados al final de cada pasillo de calor. Incluye una unidad redundante. El consumo de energía durante el día se asume que se da durante 14 horas entre semana y 4 horas los fines de semana. En la noche el consumo de energía es del 80% del consumo durante el día. - La fuente del agua fría es una planta enfriadora que consiste de tres enfriadores (chillers) de 200 toneladas (n+1) con condensadores complementarios para rechazar el calor y cuatro bombas de agua fría (n+2). Véase la Figura 16 para más detalles sobre la configuración del servidor y los parámetros de operación. Almacenamiento • Tipo de almacenamiento: almacenamiento adjunto a la red. • La capacidad es de 120 terabytes. • El consumo de energía promedio es 49kW. Equipo de comunicación • • Los routers, interruptores y concentradores de red (hubs) necesitan interconectar los servidores, almacenamiento y puntos de acceso con la Red de Área Local y brindar acceso seguro a las redes públicas. El consumo de energía promedio es de 49kW. - El enfriador (chiller), bombas y aires acondicionados se alimentan del tablero de distribución del edificio (480 trifásico). Subestación del edificio • La subestación del edificio brinda electricidad de 480V trifásico a los sistemas de UPS y enfriamiento. • La carga promedio de la subestación del edificio es de 1.099 kW. • La entrada de electricidad es de 13,5 kVA, conexión trifásica. • El sistema consiste en un transformador con un conjunto de interruptores, interruptores de circuitos y panel de distribución en una línea de bajo voltaje. • La eficiencia compuesta de la subestación, transformador e interruptores de la entrada del edificio es del 97,5%. Unidades de distribución de energía (PDU): • Brinda una salida de 208V, trifásico, con contactos múltiples de whips y racks para servidores de energía, almacenamiento, equipo de comunicación e iluminación (la carga promedio es de 539 kW). 19 Emerson Network Power Global Headquarters 1050 Dearborn Drive, Columbus, Ohio 43229, USA Emerson Network Power Oficinas en EMEA Via Leonardo Da Vinci 16/18 Zona Industriale Tognana 35028 Piove di Sacco (PD) Italia Tel: +39 049 9719 111 Fax: +39 049 5841 257 [email protected] Emerson Network Power América Latina y el Caribe 1300 Concord Terrace, Suite 400, Sunrise, Florida 33323. Tel: +1-954-984-3452 [email protected] Emerson Network Power APAC 7/F, Dah Sing Financial Centre 108 Gloucester Road, Wanchai Hong Kong Tel: +852 2572220 Fax: +852 28029250 Aunque se tomaron todas las precauciones para asegurar que esta literatura esté completa y exacta, Liebert Corporation no asume ninguna responsabilidad y renuncia a cualquier demanda por daños como resultado del uso de esta información o de cualquier error u omisión. © 2011 Liebert Corporation. Todos los derechos reservados en todo el mundo. Las especificaciones son objeto de cambio sin previo aviso. Todos los nombres a los que se hace referencia son marcas o marcas registradas de sus dueños respectivos. ® Liebert es una marca registrada de la Liebert Corporation. Business-Critical Continuity, Emerson, Business-Critical Continuity y Emerson Network Power son marcas registradas de Emerson Electric Co. o de una de sus empresas filiales. ©2011 Emerson Electric Co. SL-24661SP (R08-11) Emerson Network Power. El líder mundial en permitir Business-Critical Continuity™. Líder mundial en Business-Critical Continuity EmersonNetworkPower.com Energía de CA Informática integrada Planta externa Racks y gabinetes integrados Conectividad Fuentes de alimentación incorporadas Controles y conmutadores de potencia Servicios Energía de CC Administración de infrastructura y monitoreo Aire acondicionado Protección contra sobretensiones