Un análisis del impacto financiero debido a la vulnerabilidad de la infraestructura de IT

Anuncio
Un artículo técnico de los expertos
en Business-Critical ContinuityTM
Un análisis del impacto financiero debido
a la vulnerabilidad de la infraestructura de IT
Resumen ejecutivo
Durante la década pasada, los negocios empresariales han cambiado sustancialmente. Entre
los muchos cambios que se dieron, ninguno fue más profundo que el incremento en la
dependencia en los sistemas de tecnología de la información (IT, por sus siglas en inglés) para
realizar las aplicaciones fundamentales de negocios. Para muchas empresas de hoy, entre estas,
bancos, proveedores de servicios de internet e instalaciones de internet/ coemplazamiento,
el rendimiento del centro de datos se convirtió en un producto monetizado. La disponibilidad
del centro de datos, que ya no solo consiste en brindar apoyo a las necesidades internas de la
organización, se volvió esencial para muchas compañías cuyos clientes pagan un acceso premium
a una variedad de aplicaciones de IT.
Esta dependencia sin precedentes en los sistemas IT ha construido una conexión todavía mayor
entre la disponibilidad del centro de datos y el costo total de propiedad. Un solo periodo de
inactividad ahora tiene el potencial de producir un impacto significativo en la rentabilidad (y, en
casos extremos, la viabilidad) de una empresa. Desafortunadamente, existe una grave falta de
comprensión del personal de IT y de sus contrapartes, los ejecutivos de los altos mandos, con
respecto a la frecuencia y el costo del tiempo de inactividad del centro de datos.
Al reconocer la necesidad de abordar estas ideas equivocadas, Emerson Network Power se unió
con el Ponemon Institute para realizar dos estudios detallados de estas percepciones, causas y
los costos monetarios reales de la inactividad de los centros de datos—para un total de miles de
dólares por minuto en promedio—así como cuáles vulnerabilidades de infraestructura tienen el
impacto más significativo y costoso en la disponibilidad de los sistemas IT fundamentales (véase
“National Survey on Unplanned Data Center Outages” y “ The Cost of Data Center Outages”).
Además de examinar las diferentes percepciones entre el personal de IT y los ejecutivos de
los altos mandos, este artículo técnico aborda en detalle los potenciales costos resultantes
del tiempo inactivo del centro de datos y examina como las deficiencias de la electricidad, el
enfriamiento, la supervisión y los servicios pueden contribuir al riesgo de periodos de inactividad
en las instalaciones.
2
Introducción: percepciones del tiempo
de inactividad versus los hechos
Desde el boom del “punto com” (y la
subsiguiente caída) de finales de la década
de los 90 y principios de la década del 2000,
las redes IT y los sistemas de centros de datos
han experimentado un resurgimiento en el
papel principal que juegan en la generación
de ingresos y el crecimiento de los negocios.
A partir de un mejorado servicio al cliente
y conexión de redes para facilitar una
variedad de comercio electrónico y servicios
de IT para empresas, los centros de datos
evolucionaron para convertirse en las bases
para las compañías en un amplio rango de
industrias. Además, conforme los servicios
IT se vuelven cada vez más cotidianos
(con el coemplazamiento, los servicios de
recuperación de desastres informáticos y
computación en nube), el impacto económico
de las operaciones del centro de datos seguirán
creciendo a una tasa sin precedentes.
Sin embargo, aunque más empresas
dependen más que nunca antes de sus
centros de datos para dar apoyo a las
aplicaciones fundamentales para sus negocios,
las vulnerabilidades significativas de las
instalaciones y las ideas equivocadas sobre
la frecuencia y el costo de las fallas de IT han
puesto a muchas compañías en un mayor
riesgo de costosos periodos de inactividad.
De acuerdo con un estudio de setiembre de
2010 del Ponemon Institute, comisionado
por Emerson Network Power, las ideas
equivocadas sobre la frecuencia y el impacto
de la inactividad del centro de datos se han
vuelto comunes en empresas en todo EE. UU.
La encuesta a más de 400 centros de datos
y profesionales de operaciones IT reveló un
desconocimiento creciente en las percepciones
entre los ejecutivos de los altos mandos y los
empleados no gerenciales:
• El 71% de los participantes gerenciales
creen que el modelo de su compañía
depende de su centro de datos para
generar ingresos y realizar comercio
electrónico. Solo el 58% de los
participantes no gerenciales compartieron
esta creencia. Aunque los participantes
experimentaron un promedio de dos
periodos de inactividad en los dos años del
estudio (que duraron hasta 120 minutos
cada uno, en promedio), el 62% de los
participantes gerenciales coincidieron
que los apagones no planeados no se
dieron frecuentemente. El 41% de los
participantes no gerenciales también
concordaron con esta afirmación.
• El 75% de los participantes gerenciales
sintieron que la administración gerencial
de sus compañías apoya totalmente los
esfuerzos para prevenir y administrar
apagones no planeados, mientras que
solo un 31% de los empleados a nivel de
supervisor e inferior coincidieron con esta
afirmación.
• Menos de un 32% de todos los
participantes coincidieron en que la
compañía utiliza las mejores prácticas para
maximizar la disponibilidad del equipo IT
fundamental (un 40% a nivel ejecutivo; un
29% a nivel no gerencial).
Con base en estas conclusiones, es claro
que los participantes ejecutivos tienen gran
conocimiento de la importancia económica
de las operaciones del centro de datos de
su compañía. Esto no sorprende, pues la
principal responsabilidad de la administración
gerencial y de los ejecutivos de altos mandos
(incluidos los Directores de Comunicaciones
Corporativas, CIO, por sus siglas en inglés) es
entender como todas las facetas del negocio
contribuyen al crecimiento y rendimiento
de la empresa.
3
Las respuestas de la encuesta también
indicaron que la mayoría de estos ejecutivos
no se encuentran tan al día con las operaciones
cotidianas del centro de datos como se
encuentran los empleados no gerenciales
encargados de mantener la infraestructura
IT de la compañía. Como tales, muchos
ejecutivos encuestados no están tan
conscientes de la frecuencia de los periodos
de inactividad y las vulnerabilidades de las
infraestructuras de sus centros de datos que
contribuyen a estos periodos.
la infraestructura de su centro de datos, es
esencial que los empleados de todos los niveles
de la organización tengan un conocimiento
extenso de las verdaderas implicaciones
financieras de la inactividad.
Estas alarmantes ideas equivocadas sobre
la frecuencia y el impacto de los periodos
de inactividad del centro de datos provocaron
la conducción de un segundo estudio para
determinar los puntos de referencia del costo
promedio de los periodos de inactividad en los
Estados Unidos de América.
En cambio, el personal de IT no gerencial
está más consciente, que sus contrapartes
ejecutivas, de la frecuencia de los fallos del
sistema y de las vulnerabilidades específicas en
la infraestructura de los centros de datos
de sus compañías. Empero, menos
participantes no gerenciales tienen un
conocimiento activo del papel de las
operaciones de los centros de datos de sus
compañías en la generación de ingresos y
facilitación del comercio electrónico.
Superficialmente, estas conclusiones pueden
parecer ejemplos claros de cómo grupos
de trabajo aislados pueden promover
malentendidos en cómo se perciben
problemas comunes. Pero, para las compañías
cuyo rendimiento está directamente ligado
a la disponibilidad de las operaciones IT
de la empresa, pueden llevar a aumentos
dramáticos en los riesgos adversos del
rendimiento y, potencialmente, en la viabilidad
del negocio.
Al cerrar la brecha entre la percepción
de los ejecutivos de los altos mandos y el
personal IT no gerencial, las compañías
estarán mejor posicionadas para maximizar
la disponibilidad de las aplicaciones IT críticas
sin inflar excesivamente el costo total de la
propiedad del centro de datos. Asimismo,
para asegurar que la organización entera
tenga una percepción exacta del estado de
4
2%
2%
2% 2%
12%
2%
5%
12%
5%
5%
10%
7%
7%
10%
7%
2%
7%
12%
7%
Transporte
Defensa
Comunicación
Hospitalidad
Medios masivos
Productos de
consumo
Sector público
Industrial
Servicios
5%
10%
Venta al detalle
convencional
Tecnología y software
Educación
Venta al detalle por
comercio electrónico
Servicios de colocación
Servicios financieros
Cuidado de la salud
Figura 1. Distribución de las organizaciones
participantes por sector industrial.
Metodología:
encontrar los puntos de referencia
de los costos de la inactividad
Se les pidió a los representantes de todos los
niveles del personal IT que participaran en el
estudio:
Se les pidió a los profesionales de los centros
de datos de 41 instalaciones independientes
en todo EE. UU., que incluyen una variedad
de responsabilidades organizacionales,
que participaran en el estudio. Los centros
de datos participantes representaron una
amplia variedad de sectores de la industria,
entre estos, los servicios financieros,
telecomunicaciones, ventas al detalle
(convencional y por comercio electrónico),
salud, gobierno y servicios IT de terceras
partes. Para asegurar que los costos fueran
representativos con respecto al de un centro
de datos promedio de una empresa, los
centros de datos participantes debían tener un
mínimo de aproximadamente 232 m2.
• Gerentes de las instalaciones
• Directores de Comunicaciones
Corporativas
• Personal administrativo del centro de datos
• Director de seguridad de la información
• Directores de cumplimiento de IT
Para calcular el costo integral, los
investigadores usaron un modelo de costos
basado en actividades el cual tomó en
consideración los costos directos, indirectos y
de oportunidad. Como se muestra en la Figura
2, los costos se categorizaron de acuerdo
con los centros de actividad interna y las
consecuencias del costo externo.
Los participantes brindaron estimados de los
costos directos, indirectos y de oportunidad
(por separado) de un solo apagón reciente
Centros de Actividad
Consecuencias de los costos
Detección
Equipo
Contención
Recuperación
Modelo de
costos basado
en actividades
Productividad de IT
Productividad del usuario
Terceras partes
Respuesta posterior al hecho
Pérdida de ingresos
Costos directos
Costos indirectos
Interrupción de los negocios
Costos de oportunidad
Figura 2. Marco de los costos con base en las actividades.
5
basado en un rango de variables establecidas.
Para asegurar que las pérdidas reportadas
incluidas en el estudio fueran lo mas integrales
posible, se realizaron entrevistas de seguimiento
para obtener información adicional sobre mas
pérdidas de ingresos como resultado de los
apagones de los centros de datos.
Cuantificar el costo de la inactividad
El estudio, que terminó en 2011, descubrió una
serie de conclusiones relacionadas con el costo
de la inactividad. Con base en estimaciones de
los costos de los participantes de la encuesta,
el costo promedio de la inactividad del centro
de datos fue de aproximadamente $5.600 por
minuto.
Con base en el incidente promedio reportado
de 90 minutos de duración, el costo promedio
de un solo periodo de inactividad fue de
aproximadamente $505.500. Estos costos se
basan en una variedad de factores, que incluyen
pero no se limitan a la pérdida o corrupción
de datos, pérdidas de productividad, daño
del equipo, detección de la causa principal
y acciones de recuperación, repercusiones
legales y regulatorias, pérdida de ingresos y
repercusiones a largo plazo en la reputación y
confianza de los principales accionistas.
Interrupción de los negocios
Pérdida de ingresos
Productividad del usuario final
Productividad de IT
Detección
Recuperación
Actividades posteriores al hecho
Costos del equipo
Terceras partes
Aunque los costos directos fueron responsables
de casi un tercio de todos los costos reportados,
los costos indirectos y de oportunidad—
significativamente más difíciles de percibir por el
personal no gerencial—demostraron ser mucho
más costosos, al alcanzar el 62% de todos los
costos resultantes de la inactividad del centro de
datos.
Mientras que la interrupción de los negocios y
la pérdida de ingresos se citaron dentro de las
consecuencias más importantes de los costos de
la inactividad, otros costos menos obvios, como
pérdidas del usuario final y la productividad de
IT también tuvo un impacto significativo en el
costo de un periodo promedio de inactividad
(Figura 3).
Sorprendentemente, los costos del equipo
se encontraron entre los costos más bajos
reportados durante un periodo de inactividad,
con un promedio de aproximadamente $9.000
por periodo. Esto significa que los efectos
residuales y hacia abajo del apagón del centro
de datos son comúnmente más costosos que
los costos de detección y reparación de la
causa principal de un apagón después de que
este ocurrió.
$179.827
$118.080
$96.226
$42.530
$22.347
$20.884
$9.537
$9.063
$7.008
$-
$40.000
$80.000
$120.000
$160.000
$200.000
Figura 3. Costo promedio de los apagones no planeados del centro de datos en nueve categorías.
6
Cuando se toma en cuenta que el típico
centro de datos en los EE. UU. experimenta un
promedio de dos periodos de inactividad1 en el
curso de dos años, los costos de la inactividad
del centro de datos promedio con facilidad
supera el $1 millón en menos de un periodo de
dos años.
Para las empresas con modelos de ingresos que
dependen únicamente de la habilidad de los
centros de datos para entregar servicios de red
e IT a los clientes—tales como los proveedores
de servicios de telecomunicaciones y
compañías de comercio electrónico—la
inactividad puede ser particularmente costosa
con el costo más alto de un solo periodo
que alcanza $1 millón (más de $11.000 por
minuto).
En total, el costo de los periodos de
inactividad más recientes de los 41 centros
de datos participantes alcanzó un total de
$20.735.602.
Otras conclusiones principales del estudio
incluyen:
• El costo total tanto de los apagones no
planeados parciales como totales pueden
representar un gasto significativo para
las organizaciones (aproximadamente
$258.000 y $680.000 por periodo en
promedio, respectivamente).
• El periodo promedio de recuperación de
un apagón total fue más del doble que el
de un apagón parcial (134 y 59 minutos,
respectivamente).
• El costo total de los apagones se relaciona
sistemáticamente con la duración del
apagón y el tamaño del centro de datos.
• Las causas primordiales de la inactividad
reportadas por los participantes se
relacionaron directamente con las
vulnerabilidades de la infraestructura de
electricidad y enfriamiento de los centros
de datos.
El costo de la vulnerabilidad
de la infraestructura
Además de los costos en los ingresos,
asociados con los periodos de inactividad,
una variedad de costos están directamente
relacionados con las actividades de respuesta
necesarias para restablecer el servicio e
identificar y resolver las causas principales
del más reciente apagón en la organización
así como los costos relacionados con la
identificación y resolución de la causa principal
para restablecer las operaciones del centro de
datos.
Como se evidencia en la Figura 4, mientras
los participantes de la encuesta citaron una
variedad de causas principales—entre estas,
el fallo del sistema UPS (batería), fuga de
Otro
Fallo del
equipo IT
Fallo del
generador
Relacionado con
la climatización
5%
10%
29%
12%
15%
1
Los periodos de inactividad no se limitan a apagones
totales del centro de datos. Los apagones de los racks y de
las filas también se toman en cuenta en este agregado así
como los costos asociados a la inactividad.
Fallo del sistema
UPS (batería)
5%
Agua, calor o fallo del aire
acondicionado de la sala
de computadoras
24%
Error humano/accidental
Figura 4. Las causas principales de los apagones
no planeados reportados.
7
agua y fallos del equipo IT—la mayoría de
las causas principales se pueden atribuir a
vulnerabilidades de la infraestructura eléctrica
y de enfriamiento del centro de datos. Estas
causas principales reflejan en detalle aquellas
identificadas por los participantes en el primer
estudio del Ponemon Institute.
En las siguientes secciones, este artículo
examinará más detalladamente los costos
incurridos debido a las vulnerabilidades en las
infraestructuras eléctricas y de enfriamiento
de los participantes así como las acciones y
mejores prácticas que pueden implementarse
para minimizar los costos de recuperación y el
riesgo general de inactividad2.
Como se explora en el artículo técnico de
Emerson Network Power “Addressing the Leading
Root Causes of Downtime”, muchas de las causas
principales de la inactividad pueden atribuirse
a una serie de factores—primordial entre estos
la necesidad de “obtener más con menos”.
Conforme las demandas para incrementar
el rendimiento y eficiencia aumentaron en
medio de la reciente recesión económica
estadounidense, los gerentes de los centros de
datos empezaron a implementar estrategias
de diseño que lograron estos beneficios con el
precio de exponerse a vulnerabilidades críticas
en sus infraestructuras.
Afortunadamente, el riesgo de experimentar
muchas de las principales causas de la
inactividad puede minimizarse al revisar
las mejores prácticas en el diseño de la
infraestructura y redundancia del sistema, así
como el implementar un servicio preventivo
integral y un régimen de mantenimiento.
Apagones relacionados con la electricidad
De acuerdo con los participantes de la encuesta,
más del 39% de los apagones reportados del
centro de datos se atribuyó directamente a
vulnerabilidades en la electricidad del centro de
datos. Entre las principales causas generales de
la inactividad relacionadas con la electricidad,
los fallos asociados al UPS (se incluye las
baterías) demostraron ser los más costosos
($687.700) seguidos por los fallos de los
generadores ($46.890).
Una de las razones principales por la cúal las
vulnerabilidades de la electricidad son tan
costosas para los centros de datos consiste
2
NOTA: Para recomendaciones detalladas sobre como fortalecer
la infraestructura del centro de datos contrapuestas a las
principales causas más comunes de la inactividad, véase el
artículo técnico relacionado “Addressing the Leading Root Causes of
Downtime: Technology Investments and Best Practices for Assuring
Data Center Availability”.
Fallo del equipo IT
$750.326
Fallo del sistema UPS (batería)
$687.700
Otras causas principales
$612.993
Agua, calor o fallo del aire acondicionado
de la sala de computadoras
$489.100
Fallo del generador
$463.890
Relacionado con la climatización
$395.065
Error humano/accidental
$298.099
$0
$200.000
$400.000
$600.000
Figura 5. Costo total promedio de las causas principales de un apagón no planeado.
8
$800.000
en que un fallo en la infraestructura eléctrica
probablemente se convertirá en una catástrofe,
un apagón total no planeado. Esto significa que
además de cualquier costo directo incurrido
para resolver la causa del apagón, los costos
indirectos y de oportunidad también serán
significativos pues los accionistas se verán
afectados por el apagón.
Por definición, las instalaciones de los centros
de datos Tier I y II no están equipadas con la
tecnología necesaria para aislar la falla del
sistema eléctrico, como la redundancia, la
alimentación eléctrica dual y los interruptores
estáticos. Como resultado, la disponibilidad de
estas infraestructuras eléctricas de los centros
de datos depende totalmente de la integridad
del único sistema de respaldo de la instalación.
Como los centros de datos Tier I y II pueden
hacer relativamente poco para prevenir los
costos indirectos y de oportunidad incurridos
debido a un apagón total del centro de datos
causado por una falla eléctrica, se
recomienda enfáticamente el invertir para
minimizar el impacto de una falla del sistema
eléctrico en las operaciones del centro de datos.
Una de las mejores maneras para lograrlo es
asegurar que todos los sistemas eléctricos
se encuentran respaldados por un nivel
adecuado de redundancia.
Implementar la redundancia les permite a
los gerentes de las instalaciones eliminar
puntos únicos de fallo en sus infraestructuras
eléctricas. Debido a que siempre existe la
posibilidad de que falle el equipo con el
pasar del tiempo, la redundancia asegura
que siempre haya un respaldo. Siempre se
incurrirá en los costos directos para reparar
o reemplazar el módulo dañado, pero la falla
del equipo no tendrá un impacto catastrófico
en la disponibilidad del centro de datos y,
por lo tanto, la organización no incurriría en
sustanciales costos indirectos o de oportunidad
asociados con un apagón total no planeado.
Cuando se agrega un UPS para redundancia
o para remplazar un módulo existente o
dañado, la fiabilidad a largo plazo de la solución
debería ser la prioridad máxima. Algunos
sistemas de UPS, entre estos Liebert NXL, son
capaces también de lograr una disponibilidad
y rendimiento óptimo con componentes
redundantes, componentes en reducida
cantidad, tolerancias de fallo para corrientes
de entrada y capacidad de supervisión de las
baterías integradas.
Además de establecer la redundancia en
la infraestructura eléctrica, el servicio y
mantenimiento adecuado de los sistemas
eléctricos críticos pueden jugar un papel
significativo para minimizar el riesgo de falla
del equipo eléctrico. De hecho, aun una sola
visita anual de mantenimiento preventivo
puede aumentar “el tiempo entre fallos” (MTBF,
por sus siglas en inglés) de una unidad UPS
multiplicado por diez.
Finalmente, la implementación de
herramientas para una supervisión y
administración integral de la infraestructura
como Libert Nform, Liber SiteScan y Albert
Battery Monitoring también pueden minimizar
los costos intrínsecos de las actividades
para detectar y recuperarse de los fallos del
sistema eléctrico. El incorporar una solución
de supervisión integral, que incluye la batería
y la supervisión del circuito ramal, le permite
al personal IT identificar, aislar y solucionar los
problemas del equipo eléctrico con rapidez.
9
Apagones relacionados con la climatización
Junto con las vulnerabilidades en la
infraestructura eléctrica, las vulnerabilidades
de la climatización también fueron
responsables de una porción notable de las
causas principales que citaron los participantes
de la encuesta. El 15% de todas las causas
principales se atribuyeron directamente
a problemas con la temperatura, entre
estos la fuga de agua y fallos en el equipo
IT relacionados con la densidad del calor y
la capacidad de enfriamiento. Los costos
asociados con el detectar y recuperarse de
estos fallos también fue significativo, con
más de $489.000 por incidente.
Los problemas de climatización también fueron
la causa primordial de los fallos de equipo
IT. De hecho, aunque los fallos del equipo IT
Figura 6. Las soluciones de los centros de datos
para optimizar el enfriamiento de precisión,
como SmartAisle de Emerson Network Power,
subsana necesidades específicas con soluciones
desplegables rápidamente que a un costo
razonable agregan capacidad al centro de
datos, mejoran el control de IT y aumentan la
eficiencia.
10
solo fueron responsables del 5% de las causas
principales citadas por los participantes de la
encuesta, estos fallos llevaron a incurrir en el
costo general más alto: más de $750.000.
En muchos casos, un solo fallo puede causar
una reacción en cadena de fallos del equipo IT
que requieren extensos esfuerzos de detección
y recuperación para identificar la causa
principal además de reemplazar el equipo IT
dañado. Por ejemplo, una fuga de agua fría en
el sistema en filas de enfriamiento en el centro
de datos puede causar la falla del sensitivo
equipo IT. Además de identificar y reparar
el problema de enfriamiento que causó el
apagón, los servidores y otro equipo IT dañado
deberá ser reemplazado.
También, es de suma importancia subrayar
que el equipo de enfriamiento NO necesita
fallar para causar una falla del equipo IT. En
cambio, estos fallos, típicamente causados por
altas densidades de calor y “puntos calientes”
dentro del rack, frecuentemente ocurren como
resultado de una infraestructura inadecuada
de enfriamiento más que debido a una falla
del equipo de climatización. Esto refuerza
aún más la importancia de una optimizada
infraestructura de enfriamiento.
Mientras que algunos apagones relacionados
con la infraestructura de enfriamiento del
centro de datos pueden estar más aislados que
los fallos relacionados con la electricidad, que
contribuyen tanto a apagones parciales como
totales del centro de datos, una infraestructura
integral de enfriamiento sigue siendo
fundamental para minimizar los periodos de
inactividad y sus costos asociados. Esto es
particularmente verdad al tomar en cuenta las
muchas conexiones entre la infraestructura de
enfriamiento del centro de datos y la viabilidad
del equipo crítico IT, donde los sistemas de
enfriamiento no deben fallar para causar fallas
catastróficas y dañar equipo sensible y costoso.
Afortunadamente, existe una serie de buenas
prácticas e inversiones que pueden hacerse
en la infraestructura de enfriamiento del
centro de datos para minimizar el riesgo de
fallos catastróficos del equipo y los periodos
de inactividad asociados. Muchas de estas
buenas prácticas se exploran en el artículo
técnico “Addressing the Leading Root Causes of
Downtime”, que incluyen:
• Minimizar el riesgo de inundación al usar
soluciones con base en refrigerantes en
vez de soluciones a base de agua.
Estas soluciones integradas también ofrecen
el beneficio de un eficiente enfriamiento de
precisión gracias a la contención del frío por
aislamiento (Véase la Figura 6), y maximiza
la efectividad de la solución integrada de
enfriamiento. Estas características juegan un
papel primordial al enfocar el enfriamiento
con base en las necesidades en tiempo real
del equipo dentro de los racks, minimizando
el riesgo de puntos calientes y otras fallas
comunes en el entorno de las computadoras
de alta densidad mientras opera con un nivel
de alta eficiencia.
• Eliminar los puntos calientes y altas
densidades de calor al traer el enfriamiento
de precisión más cerca de la carga con
soluciones de enfriamiento de precisión
con base en filas.
• Instalar soluciones consolidadas de
supervisión y administración que
funcionan con supervisión remota.
• Fortalecer las inversiones en equipo de
enfriamiento e IT con visitas de servicio y
mantenimiento preventivo regular.
Mientras estas recomendaciones incorporan
muchas de las buenas prácticas para maximizar
la disponibilidad, efectividad y eficiencia de
la infraestructura de enfriamiento del centro
de datos, algunos vendedores, entre estos
Emerson Network Power, ahora le ofrecen a
los gerentes de las instalaciones la posibilidad
de implementar una solución optimizada
e integrada para un desempeño eficiente
de alta disponibilidad de electricidad y de
enfriamiento. Estas soluciones ofrecen todas
las mejores prácticas de diseño mencionadas
anteriormente, algunas con el beneficio
adicional del rápido despliegue para la
expansión del centro de datos o recuperación
después de un desastre.
11
Fundamentar la optimización de
infraestructura 3
Estas ideas equivocadas llevan a hacer la
pregunta obvia: si los ejecutivos entienden el
papel de sus centros de datos en la generación
de ingresos y mantener sus respectivos
modelos de negocios, ¿por qué muchos han
dudado en realizar las inversiones necesarias
para fortalecer sus infraestructuras contra
la inactividad? La posible respuesta es que,
antes de cuantificar el costo de la inactividad
del centro de datos, la mayoría de ejecutivos
no pudieron reconocer como la prevención
de la inactividad acelera el rendimiento de las
inversiones en su infraestructura.
3
NOTA: Aunque se basan en situaciones de la vida real, los costos
detallados en el análisis son aproximaciones de los costos de
mercado con un modelo de centro de datos como referencia
(presentado en el Anexo A). Para obtener un estimado detallado
para optimizar la infraestructura de su propio centro de datos de
acuerdo con las siguientes recomendaciones por favor contacte a
su representante de Emerson Network Power.
12oC
Compresor
Condensador
Ventilador del evaporador
Total
Ahorro
17oC
Racks IT
Racks IT
34oC
Enfriamiento
de precisión
17oC
Racks IT
Racks IT
32oC
33oC
29oC
Enfriamiento
de precisión
12oC
Racks IT
Racks IT
24oC
Como se evidenció en las conclusiones del
Ponemon Institute, la inactividad puede
resultar en una variedad de costos recurrentes
a largo plazo, los cuales incluyen costos
directos asociados con la identificación
y resolución de las causas principales, así
como los costos indirectos relacionados con
la interrupción de operaciones críticas de
36oC
Enfriamiento
de precisión
Como se detalló en las secciones pasadas,
las vulnerabilidades de la infraestructura del
centro de datos pueden tener un impacto
dramático en la susceptibilidad de unas
instalaciones para los costosos periodos
de inactividad que alcanzan cientos de
miles de dólares. No obstante, como este
artículo demostró, solo el 29% del personal
de IT no gerencial creen que sus compañías
implementaron la tecnología y mejores
prácticas necesarias para minimizar la
ocurrencia e impacto de la inactividad del
centro de datos.
17oC
17oC
Enfoque
convencional
de enfriamiento
Con contención
al aislar el frio
(CAC, en inglés)
Con CAC y
control inteligente
69,7%
9,3%
21,0%
100%
-
50,9%
9,3%
18,5%
78,7%
21%
50,4%
9,3%
7,2%
66,9%
33%
Figura 7. Un control dinámico brinda un 15% adicional de incremento en la eficiencia total del
sistema con solo la contención al aislar el frío. a
12
negocios. Mientras el minimizar el riesgo de los
periodos de inactividad y su impacto financiero
general podría necesitar una significativa
inversión inicial de capital cuando se toma en
cuenta las ganancias sobre los costos directos e
indirectos de la inactividad, así como el ahorro
producto de los aumentos en la eficiencia
que reduce los gastos operacionales – las
inversiones selectivas pueden en realidad
acelerar el tiempo del rendimiento de la
inversión de una empresa al mismo tiempo
que reducen el costo total de propiedad del
centro de datos con el pasar del tiempo.
Para enfatizar este punto, solo se debe
comparar el costo de la optimización de la
infraestructura con el costo promedio y la
frecuencia de la inactividad con el pasar del
tiempo. Es importante entender primero cómo
el costo de la inactividad afecta la velocidad
del rendimiento de las inversiones de la
infraestructura del centro de datos.
Optimización de la infraestructura eléctrica
Primero, se toma en cuenta que un típico
centro de datos sin optimizar de una
corporación experimenta un promedio de diez
periodos de inactividad en diez años, con una
variedad de causas principales. Con un costo
promedio por periodo de aproximadamente
$500.000 (que incluye costos directos,
indirectos y de oportunidad), un típico centro
de datos corporativo puede incurrir en más de
$5 millones en costos de inactividad durante
este tiempo.
$3.500.000,00
$3.000.000,00
$2.500.000,00
$2.000.000,00
$1.500.000,00
$1.000.000,00
$500.000,00
$-
1
2
3
4
5
6
7
8
9
10
Año
1
2
3
4
5
Costo total de la
inactividad (potencial)
$451.000
$631.400
$1.082.400
$1.262.800
$1.713.800
Inversión total
de optimización
$368.000
$388.000
$408.000
$428.000
$448.000
6
7
8
9
10
Año
Costo total de la
inactividad (potencial)
Inversión total
de optimización
$1.894.200
$2.345.200
$2.525.600
$2.976.600
$3.157.000
$468.000
$488.000
$508.000
$528.000
$548.000
Figura 8. Los costos potenciales de la inactividad (en azul) comparados con la inversión de
capital y las inversiones de servicio continuo para la optimización de la infraestructura eléctrica
y de enfriamiento (en gris oscuro).
13
Los costos por una falla del sistema de UPS
fueron responsables del 29% de los apagones
de los centros de datos reportados por los
participantes de la encuesta. Extrapolado
durante 10 años, estos centros de datos
pueden esperar sufrir al menos tres periodos
de inactividad relacionados con el fallo del
sistema de UPS, con un costo total promedio
que supera los $2 millones en costos totales de
inactividad.
Se debe comparar esta cifra con los costos
aproximados relacionados con el agregar
redundancia de UPS a un centro de datos de
aproximadamente 232m2 con 105 racks de alta
densidad (1.000 servidores) e instalaciones
de consumo de energía de aproximadamente
1.200 kW. Agregar redundancia del UPS al
centro de datos de este tamaño posiblemente
requerirá una inversión de capital inicial de
aproximadamente $250.000 y una inversión
anual de hasta $15.000 de dos visitas de
servicio preventivo anuales (aumenta el
tiempo entre fallos, MTBF, para los sistemas
UPS hasta 23 veces).
Con base en estas cifras, cuando se extrapola
estas inversiones en diez años, la inversión
total en fortalecer la infraestructura de los
sistemas UPS de este centro de datos sería
de aproximadamente $400.000. Comparado
con el costo total promedio de los periodos
de inactividad causados por un fallo de los
sistemas UPS según lo respondido por los
participantes ($607.000), el rendimiento
de inversión se logra con facilidad gracias
a la prevención de un solo periodo de
inactividad relacionado con el UPS.
Asimismo, durante un periodo de diez años,
el rendimiento de la inversión se puede lograr
triplicar solo en los costos potenciales de la
inactividad, sin tomar en cuenta las ganancias
en eficiencia y gastos operativos asociados con
las visitas de servicio reactivo.
14
Optimización de la infraestructura
de enfriamiento
Un análisis similar puede realizarse con
respecto a la optimización de la
infraestructura de enfriamiento del centro
de datos. Los apagones del centro de datos
relacionados con las fallas o insuficiencias de
los sistemas críticos de enfriamiento fueron
responsables de aproximadamente el 20%
de los apagones reportados, entre estos,
los fallos del equipo IT. Colectivamente, el
costo promedio de estas causas principales
fue de aproximadamente $554.000. Esto
significa que si un centro de datos promedio
experimenta diez periodos de inactividad en
diez años, un promedio de dos periodos (con
un costo total promedio de más de un $1,1
millón en costos de inactividad) se relacionarán
con las vulnerabilidades en la infraestructura
de enfriamiento del centro de datos.
Para contrastar estos costos con el costo de la
optimización de la infraestructura, se puede
volver a estudiar el “modelo” del centro de
datos mencionado anteriormente. En este
caso, se asume que el modelo de centro de
datos depende de ocho soluciones enfriadoras
a base de agua fría para abastecer el equipo IT,
los sistemas UPS y las unidades de distribución
de energía, así como las salidas del edificio y la
carga humana.
Con base en estos parámetros, se recomienda
enfáticamente que los gerentes de los centros
de datos inviertan en una evaluación del
espacio de su centro de datos. Estos servicios
pueden variar desde una auditoría del centro
de datos realizada por un representante
capacitado de servicio (con regularidad,
gratis como parte de un contrato de servicio
vigente) o una evaluación térmica más integral
realizada con un modelado de dinámica de
fluidos computacional (aproximadamente
$12.000 para el centro de datos base del
Anexo A), el cual revela una clara imagen
de las vulnerabilidades en la infraestructura
de enfriamiento del centro de datos y las
áreas donde las ganancias significativas en la
eficiencia se pueden lograr con la optimización
del enfriamiento. Con frecuencia, estas
evaluaciones concluyen que las inversiones
en equipos adicionales pueden posponerse al
optimizar la configuración de los sistemas de
enfriamiento, racks y equipo IT.
Al optimizar la infraestructura de enfriamiento
existente de un centro de datos con una
estrategia para contener el frío (una solución
de contención particionada que cuesta tan solo
$15.000), los gerentes de los centros de datos
pueden mejorar dramáticamente la efectividad
de su equipo de enfriamiento con el beneficio
adicional de ganancias significativas en el
ahorro de energía. El agregar herramientas
inteligentes (Liebert iCOM) y supervisión
remota a una infraestructura de contención
(aproximadamente $80.000 para el centro de
datos base presentado en el Anexo A) puede
también mejorar la eficiencia del enfriamiento
al menos en un 12% y asegurar que todo el
equipo IT se enfría de manera adecuada y
precisa con base en densidades de calor en
tiempo real (véase la Figura 7). Finalmente,
se recomienda invertir en mantenimiento
preventivo continuo (una inversión anual
aproximada de $2000) y la instalación de
una solución integral para detectar fugas
para todas las unidades de enfriamiento
(aproximadamente $5.000).
Lo que es más, en caso de optimizar la
infraestructura eléctrica, en un periodo de
diez años, el rendimiento de la inversión se
puede lograr muchas veces cuando se toma en
cuenta los costos potenciales de la inactividad
así como las significativas ganancias en la
eficiencia de la energía: al reducir el uso de la
energía para enfriamiento en hasta un 33%.
Otras oportunidades de optimización
Además de las vulnerabilidades en la
infraestructura eléctrica y de enfriamiento
del centro de datos, los accidentes y errores
humanos pueden provocar costosos eventos
de inactividad.
El 24% de los participantes del estudio citaron
errores humanos como la causa principal de
su más reciente periodo de inactividad, con
la inactividad causada por un error humano
responsable por casi $300.000 en costos por
incidente. En un periodo de diez años, los
periodos de inactividad relacionados con los
errores humanos y accidentes pueden con
facilidad costarle a una organización
$600.000 de más.
En el transcurso de diez años, la inversión total
de fortalecer la infraestructura de enfriamiento
del centro de datos sumaría aproximadamente
$135.000 ($115.000 en un solo año).
Comparado con el costo total promedio de un
solo periodo de inactividad debido a una falla
de los sistemas IT o apagones relacionados
con la temperatura según lo informado por los
participantes ($554.000), estas inversiones
pueden justificarse con facilidad si previenen
un solo periodo de inactividad relacionado con
la temperatura.
15
Afortunadamente, las mejores prácticas
para minimizar el riesgo de los periodos de
inactividad causados por errores humanos
se encuentran entre los gastos menos caros
de implementación. Como se explica en
el artículo técnico (“Addressing the Leading
Root Causes of Downtime”), las acciones
recomendadas para minimizar la frecuencia de
los errores humanos y situaciones de paradas
de emergencia accidentales incluyen:
• Botones protectores de parada de
emergencia
• Hacer cumplir enfáticamente políticas de
comidas y bebidas
• Evitar contaminantes
• Establecer políticas de acceso seguro
• Realizar capacitaciones continuas del
personal
• Promover estándares consistentes de
operación
• Etiquetar todos los componentes con
exactitud
• Documentar los procedimientos de
mantenimiento
De acuerdo con los expertos de Libebert
Services de Emerson Network Power, el
implementar estas recomendaciones tendrá
un costo aproximado de $3.500. Cuando
se toma en cuenta el alto costo general de la
inactividad, estas inversiones representan un
costo nominal que puede con facilidad alcanzar
un rendimiento de inversión multiplicado por
100 al prevenir un solo error o accidente.
16
Una comparación integral
Para poner todos estos cálculos en una
perspectiva más amplia, las vulnerabilidades en
la infraestructura de UPS y de enfriamiento de
un centro de datos, así como el error humano
y situaciones de parada de emergencia
accidentales, colectivamente son responsables
de casi tres cuartos de las causas principales de
la inactividad reportadas por los participantes
de las encuestas con un costo promedio de
más de $450.000 por incidente. Como tal, los
centros de datos experimentan un promedio
de diez periodos serios y no tan importantes
de inactividad en un periodo de diez años,
los apagones relacionados con el UPS,
enfriamiento y errores humanos se espera sean
responsables de al menos siete periodos serios
y no tan importantes de inactividad, con
un costo total promedio que supera
los $3,15 millones.
Como se ilustró en la Figura 8, el
rendimiento de inversión de la optimización
de la infraestructura puede hacerse
inmediatamente cuando se compara el
costo potencial de la inactividad con el costo
aproximado de las inversiones recomendadas
capaces de minimizar el riesgo de tres causas
principales: $548.000 que incluyen diez años
de mantenimiento preventivo del equipo
eléctrico y de enfriamiento; $368.000
el primer año.
Asimismo, cuando se toma en cuenta
las ganancias en la eficiencia adicional
lograda como resultado de estos cambios,
el rendimiento de la inversión de la
optimización de la infraestructura eléctrica y
de enfriamiento es particularmente evidente,
especialmente cuando se toma en cuenta los
ahorros a largo plazo en los costos indirectos y
de oportunidad de los periodos de inactividad
recurrentes.
Establecer prioridades: evaluar la
infraestructura existente
Mientras que las acciones recomendadas en
este artículo son críticas para minimizar el
riesgo de las principales causas de inactividad
(y sus costos asociados), muchas empresas
desearían establecer prioridades con respecto
a estas inversiones en el tiempo. Estas
decisiones se basan con regularidad en una
variedad de factores, entre estos, la inversión
de capital y los gastos operativos necesarios
para una optimización integral, el aspecto
crítico de las operaciones del centro de datos y
el impacto de la inactividad no planeada de las
operaciones del centro de datos.
Si una reforma integral de la infraestructura no
es posible, repartir las inversiones en el tiempo
puede convertirse en una forma efectiva de
balancear la inversión de capital y los gastos
operacionales a corto plazo con los costos
a largo plazo y el riesgo de las principales
causas de la inactividad de las operaciones del
centro. Por ejemplo, muchas de las acciones
recomendadas para salvaguardar el centro de
datos en contra de de los errores humanos
y paradas de emergencia accidentales
corresponden a las opciones primarias y son
relativamente económicas de implementar.
Como resultado, algunos centros de datos
podrían escoger la implementación de estas y
otras opciones de optimización mínimamente
invasivas (como la partición en filas) primero
y planear las opciones de optimización más
intensivas con base en la disponibilidad de
recursos y un tiempo necesario de rendimiento
de inversión.
Sin embargo, a pesar de si la empresa decide
implementar una reforma de la infraestructura
o separar estas mejoras en el tiempo, muchos
pasan por alto la necesidad de realizar
evaluaciones integrales de sus infraestructuras
existentes, un paso crítico que puede evitar
inversiones innecesarias que ofrecen poco
valor adicional en la disponibilidad o eficiencia.
Como se subraya en el artículo técnico
“Addressing the Leading Root Causes of
Downtime: Technology Investments and Best
Practices for Assuring Data Center Availability”
de Emerson Network Power, una evaluación
integral de las instalaciones así como de los
sistemas eléctricos y térmicos pueden ofrecer
una idea detallada de cómo el centro de datos
existente puede optimizarse para aumentar la
eficiencia sin comprometer la disponibilidad de
los sistemas críticos.
Además del desempeño de los sistemas
eléctrico y de enfriamiento del centro de
datos, las evaluaciones de los centros de
datos toman en cuenta una serie de factores
adicionales no relacionados directamente con
el desempeño del equipo que puede afectar
la disponibilidad y desempeño de los sistemas
críticos que incluyen las densidades de calor
en racks y filas, la obstrucción del piso elevado
y las vulnerabilidades de arcos eléctricos en la
infraestructura eléctrica del centro de datos.
Con base en la evaluación realizada por el
personal de servicio capacitado especialmente,
el gerente del centro de datos puede
evaluar con claridad donde se necesita
hacer inversiones de capital (que incluye los
sistemas eléctricos redundantes y equipo
de enfriamiento de precisión diseñado para
los ambientes de alta densidad) y donde la
infraestructura existente puede ajustarse o
ser optimizada de acuerdo con las mejores
prácticas para minimizar el riesgo de
inactividad del centro de datos.
17
Conclusión
Como se evidenció en las conclusiones del Ponemon Institute, un solo periodo de inactividad
ahora tiene el potencial de afectar significativamente la rentabilidad (y, en casos extremos,
la viabilidad) de una empresa. Esta tendencia puede atribuirse a una variedad de tendencias
económicas, prácticas de negocios en desarrollo y la aparición de flujo de ingresos que
dependen totalmente de la disponibilidad de sistemas IT críticos.
Con un costo promedio de inactividad para el centro de datos de una empresa que alcanza
los miles de dólares por minuto, es vital cerrar la brecha creciente entre el personal de IT y sus
contrapartes de los altos mandos. Una forma efectiva de alcanzar este objetivo es promover una
comprensión a fondo de la frecuencia, costo y causas de la inactividad del centro de datos.
Si se deja sin supervisión, una infraestructura inadecuada del centro de datos contribuirá a
periodos de inactividad recurrentes y podrá traducirse en pérdidas financieras así como daño
permanente a la reputación de la compañía y a la buena voluntad del cliente. Mientras identificar
estas vulnerabilidades y corregirlas con base en algunas de las mejores prácticas mencionadas
anteriormente podría requerir un costo inicial significativo, los profesionales del centro de datos
ganarían una comprensión clara de cómo los costos directos e indirectos pueden afectar los
ingresos con el paso del tiempo.
18
Anexo A: Suposiciones de un centro de datos
modelo (antes de la optimización)
•
La entrada del UPS es de 480 V fase 3.
•
La eficiencia de la distribución de la energía es del 97,5%.
El centro de datos hipotético con 232m aproximadamente
tiene 105 racks con una densidad promedio de 5,6 kW cada
uno. Los racks están acomodados en una configuración de
pasillos de calor/pasillos de frío. Los pasillos de frío tienen
aproximadamente 1,2 metros de ancho y los de calor tienen
0,9 metros de ancho. Con base en esta configuración y los
parámetros de operación, el consumo de energía de las
instalaciones se calculó en 1,127 kW.
Sistema de UPS
2
A continuación se presentan detalles adicionales usados en el
análisis:
•
Ocho sistemas de enfriamiento de 146kW de precisión
enfriados con agua colocados al final de cada pasillo de
calor. Incluye una unidad redundante.
•
La fuente del agua fría es una planta enfriadora que
consiste de tres enfriadores (chillers) de 200 toneladas
(n+1) con condensadores complementarios para
rechazar el calor y cuatro bombas de agua fría (n+2).
•
El enfriador (chiller), bombas y aires acondicionados
se alimentan del tablero de distribución del edificio
(480 V trifásico).
Servidores
•
La edad se basa en el ciclo promedio de reemplazo de
servidores de 4-5 años.
Sistema de enfriamiento
•
El sistema de enfriamiento se enfría con agua
•
El procesador de potencia de diseño térmico promedia
91W/procesador.
•
•
Todos los servidores tienen suministros duales de energía
redundante. La eficiencia promedio de conversión
corriente continua-corriente continua se supone es del
85% y la eficiencia promedio de conversión corriente
alterna-corriente continua se asume que es del 79% para
la mezcla de servidores de entre 4 años y nuevos.
La carga térmica sensible total en el sistema de
enfriamiento de precisión incluye calor generado por el
equipo IT, UPS y unidades de distribución de la energía,
salidas del edificio y carga humana.
•
Componentes del sistema de enfriamiento:
•
•
- Ocho sistemas de enfriamiento de 146kW de
precisión enfriados con agua colocados al final
de cada pasillo de calor. Incluye una unidad
redundante.
El consumo de energía durante el día se asume que se
da durante 14 horas entre semana y 4 horas los fines de
semana. En la noche el consumo de energía es del 80%
del consumo durante el día.
- La fuente del agua fría es una planta enfriadora
que consiste de tres enfriadores (chillers)
de 200 toneladas (n+1) con condensadores
complementarios para rechazar el calor y cuatro
bombas de agua fría (n+2).
Véase la Figura 16 para más detalles sobre la
configuración del servidor y los parámetros de operación.
Almacenamiento
•
Tipo de almacenamiento: almacenamiento
adjunto a la red.
•
La capacidad es de 120 terabytes.
•
El consumo de energía promedio es 49kW.
Equipo de comunicación
•
•
Los routers, interruptores y concentradores de red (hubs)
necesitan interconectar los servidores, almacenamiento
y puntos de acceso con la Red de Área Local y brindar
acceso seguro a las redes públicas.
El consumo de energía promedio es de 49kW.
- El enfriador (chiller), bombas y aires acondicionados
se alimentan del tablero de distribución del edificio
(480 trifásico).
Subestación del edificio
•
La subestación del edificio brinda electricidad de 480V
trifásico a los sistemas de UPS y enfriamiento.
•
La carga promedio de la subestación del edificio es de
1.099 kW.
•
La entrada de electricidad es de 13,5 kVA,
conexión trifásica.
•
El sistema consiste en un transformador con un conjunto
de interruptores, interruptores de circuitos y panel de
distribución en una línea de bajo voltaje.
•
La eficiencia compuesta de la subestación, transformador
e interruptores de la entrada del edificio es del 97,5%.
Unidades de distribución de energía (PDU):
•
Brinda una salida de 208V, trifásico, con contactos
múltiples de whips y racks para servidores de energía,
almacenamiento, equipo de comunicación e iluminación
(la carga promedio es de 539 kW).
19
Emerson Network Power
Global Headquarters
1050 Dearborn Drive,
Columbus, Ohio 43229, USA
Emerson Network Power
Oficinas en EMEA
Via Leonardo Da Vinci 16/18
Zona Industriale Tognana
35028 Piove di Sacco (PD) Italia
Tel: +39 049 9719 111
Fax: +39 049 5841 257
[email protected]
Emerson Network Power
América Latina y el Caribe
1300 Concord Terrace, Suite 400,
Sunrise, Florida 33323.
Tel: +1-954-984-3452
[email protected]
Emerson Network Power APAC
7/F, Dah Sing Financial Centre
108 Gloucester Road, Wanchai
Hong Kong
Tel: +852 2572220
Fax: +852 28029250
Aunque se tomaron todas las precauciones para asegurar que esta
literatura esté completa y exacta, Liebert Corporation no asume
ninguna responsabilidad y renuncia a cualquier demanda por daños
como resultado del uso de esta información o de cualquier error u
omisión.
© 2011 Liebert Corporation. Todos los derechos reservados en todo el
mundo. Las especificaciones son objeto de cambio sin previo aviso.
Todos los nombres a los que se hace referencia son marcas o marcas
registradas de sus dueños respectivos.
® Liebert es una marca registrada de la Liebert Corporation.
Business-Critical Continuity, Emerson, Business-Critical Continuity y
Emerson Network Power son marcas registradas de Emerson Electric
Co. o de una de sus empresas filiales. ©2011 Emerson Electric Co.
SL-24661SP (R08-11)
Emerson Network Power.
El líder mundial en permitir Business-Critical Continuity™.
Líder mundial en Business-Critical Continuity
EmersonNetworkPower.com
Energía de CA
Informática integrada
Planta externa
Racks y gabinetes integrados
Conectividad
Fuentes de alimentación incorporadas
Controles y conmutadores de potencia
Servicios
Energía de CC
Administración de infrastructura y monitoreo
Aire acondicionado
Protección contra sobretensiones
Descargar