WHITE PAPER La promesa del almacenamiento virtual: transformación de TI en un servicio Auspiciado por: EMC Benjamin Woo Sede internacional: 5 Speen Street Framingham, MA 01701 Estados Unidos Telf. +1 508.872.8200 Fax +1 508.935.4015 www.idc.com Mayo de 2010 RESUMEN La tecnología de la información (TI) se está redefiniendo como servicio. Esto requiere, entre otros aspectos, una infraestructura virtualizada más flexible, en la cual el almacenamiento virtual pueda complementarse con servidores virtuales para liberar información desde los sistemas físicos. Es bien sabido que los servidores virtuales ofrecen agilidad, eficiencia y muchos otros beneficios. La estrategia de almacenamiento virtual y la ejecución inicial (VPLEX) de EMC amplían muchos de los beneficios de procesamiento/servidor para el almacenamiento. En el núcleo del almacenamiento virtual, se encuentra la coherencia de caché distribuida de EMC, que integra el conocimiento de los datos en todas las plataformas (Local, Metro, Global) y en la nube privada. La información puede distribuirse a distancia, lo que permite lograr un almacenamiento federado. Las organizaciones ya no deben anticipar cada eventualidad mediante el posicionamiento previo de toda la información en otra ubicación. El almacenamiento virtual permite una infraestructura más dinámica y flexible, la cual, en muchos casos de uso, ofrece cambios profundos y positivos para TI y los negocios. DESCRIPCIÓN GENERAL DE LA SITUACIÓN A medida que se fue afianzando el concepto de abstracción de los recursos de TI, los profesionales de TI consideraron que la virtualización podía adaptarse a diversos recursos informáticos, desde el hardware hasta los sistemas operativos o las aplicaciones. Sin embargo, prácticamente en todas las situaciones, la información se encontraba asociada con el hardware de almacenamiento físico. Ahora es posible federar los datos a distancia para abstraerlos. En este contexto, los datos pueden almacenarse en una multitud de ubicaciones físicas, pero solo es posible visualizarlos o acceder a ellos mediante la plataforma de TI como un recurso centralizado de almacenamiento virtual. La federación amplía la metáfora del procesamiento/servidor para el almacenamiento. Los datos se abstraen del sistema de hardware físico y, de este modo, el tiempo, la ubicación y la distancia se vuelven prácticamente irrelevantes para los usuarios. Más importante aún, al combinar la virtualización con la federación, TI puede automatizar por completo la ubicación de datos para ajustarse a cualquier configuración del negocio o escenario de uso. De esta manera, se logra un acceso a los datos ininterrumpido, independiente, coherente y transparente entre los arreglos de almacenamiento. Gracias a esto, el uso de la información se hace realidad mediante una propuesta de valor que, hasta este momento, había sido un contexto imposible de materializar. La evolución de la virtualización del almacenamiento Sin lugar a duda, la virtualización ha reducido los costos de TI y ha creado un nuevo modelo para la asignación de recursos: un servidor virtual cumple y supera cualquier principio de la ley de Moore en relación con el rendimiento informático unitario. Durante algún tiempo, la virtualización de datos se consideró la última pieza del mapa virtual; pero, luego, los profesionales del almacenamiento comenzaron a contemplar la posibilidad de abstraer el almacenamiento lógico del almacenamiento físico. De esta manera, sería posible liberar información y obtener no solo independencia de los datos, sino también independencia virtual. Si los recursos de procesamiento pueden distribuirse y ubicarse en puntos más urgentes para necesidades o aplicaciones específicas, deduce que el almacenamiento debe implementarse para lograr inmediato que los datos estén disponibles, actualizados y sincronizados tiempo real con una independencia total de tiempo y distancia. almacenamiento virtual implica que el uso de datos trasciende el ancho banda, la coherencia de caché y la latencia geográfica. los se de en El de El usuario y los datos pueden estar en cualquier punto, y los datos son actuales, consistentes y recientes. De inmediato, el usuario obtiene la información necesaria sin tener que preocuparse en absoluto por el sistema o los datos. Coherencia de caché distribuida Desde la presentación de las unidades de disco fijas, a finales de la década de 1950, la administración del almacenamiento ha sido una actividad bastante básica: los datos se almacenan de manera democrática, uniforme y lógica sin mayor consideración por el acceso o el uso frecuentes, ni tampoco, en ese sentido, por el acceso expedito. En resumen, el problema para el usuario era la latencia. El almacenamiento en caché significó un paso rápido hacia delante y permitió mejorar las velocidades de acceso a los datos y el rendimiento de las unidades de disco fijas más lentas y viejas. La memoria caché de estado sólido no requiere piezas móviles, como un disco giratorio o dispositivos de lectura/escritura, y cumple muchos propósitos útiles de almacenamiento, entre los cuales se destaca la posibilidad de tener a mano los datos de acceso frecuente, sin discriminación ni latencia. El almacenamiento en caché saltó a la vanguardia como una solución para un problema nuevo después de que la implementación de la informática distribuida y de las relaciones cliente-servidor ganó popularidad. El manejo de archivos y el control de versiones debían gestionarse, y la memoria caché era ideal para este tipo de gestión de cambios, denominado coherencia de caché. Actualmente, a medida que nos adentramos en el ambiente virtual, el almacenamiento en caché se redefine como coherencia de caché distribuida. Obviamente, el rendimiento de almacenamiento se mejora mediante el uso de flash, pero, en mayor medida, mediante la distribución dinámica entre los distintos tipos de dispositivos de almacenamiento. En ambos casos, los datos están más cerca del usuario, y mientras menor sea la distancia, mayor será el beneficio. La mayor cercanía implica que los datos se transforman en información. Debido a la corta distancia entre la memoria caché virtual y el usuario, se mejora la mayoría de los aspectos que intervienen en el trabajo con información: alta disponibilidad, recuperación inmediata, control de versiones, backup y seguridad. 2 # ©2010 IDC Se ha determinado que la memoria caché enfrenta dos problemas importantes. Obviamente, un problema es la velocidad de acceso. El otro es la capacidad de priorizar las solicitudes de acceso a los datos. Un disco fijo no cuenta con tal inteligencia, mientras que los datos utilizados o reutilizados con frecuencia que se almacenan en la memoria caché siempre ofrecen un acceso más expedito. Con el almacenamiento virtual, la caché virtual también se transforma en caché distribuida, y se mejoran considerablemente la velocidad y el acceso. Además, la coherencia de caché distribuida, que es por naturaleza independiente de la distancia, requiere nuevos algoritmos para garantizar la integridad de los datos y el control de versiones. Los siguientes puntos se han considerado los elementos claves de la coherencia de caché distribuida y son esenciales para su funcionalidad: Transparencia de los arreglos de almacenamiento en todo el sistema y a cualquier distancia. Acceso virtual a cualquier sistema, en cualquier momento y en cualquier lugar. Seguimiento de la transferencia de datos para la administración de archivos y el control de versiones. Escalabilidad para adaptarse a las necesidades individuales, de grupos de trabajo, de ubicación geográfica o empresariales. Administración de la capacidad total en dispositivos físicos y virtuales. Espejeado de datos y aplicaciones, independientemente de la plataforma. Ninguno de estos elementos, por sí solo, parece ser un problema particularmente nuevo ni difícil de solucionar. Sin embargo, si se consideran en conjunto y se tiene en cuenta el diseño para la implementación de la federación de almacenamiento global, la solución del problema se torna más compleja. El objetivo —crear un pool de datos dinámico y global para los recursos de información y las aplicaciones que se requieren para el trabajo con esa información, a la que puedan acceder todas las personas, en cualquier lugar y con la velocidad y la agilidad con que acceden a su equipo de escritorio— es una meta necesaria si se apunta a obtener sistemas de TI realmente virtualizados. Los beneficios que se ofrecen en todos los niveles son tiempo, dinero, productividad y un perfil competitivo más sólido. Desde un punto de vista tecnológico, la federación produce un recurso globalmente consistente para acceder a la información y emplea los recursos de caché y de almacenamiento con elevados niveles de rendimiento. La coherencia de caché distribuida permite mejorar la velocidad y la inteligencia de casi todas las tareas, además de garantizar un alto nivel de integridad de los datos. Aparentemente, el enfoque más viable comienza a nivel local, luego, avanza hacia el nivel global y, finalmente, lo traspasa. Consideración de cargas de trabajo empresariales diversas Los grupos de trabajo y las aplicaciones con características diferentes presentan cargas de trabajo de datos distintas a través del tiempo y espacio. Los servidores distribuidos comenzaron a hacer frente a estos problemas, pero no lograron superar por completo los retos de los datos almacenados en diversas ubicaciones remotas. Una de las primeras soluciones para los usuarios fue ©2010 IDC # 3 almacenar los datos que empleaban con mayor frecuencia en sus propios equipos de escritorio. Con el paso del tiempo, las granjas de discos locales o los dispositivos locales de almacenamiento trataron de administrar los datos para grupos con ubicaciones geográficas específicas. Los servidores virtuales permitieron enfrentar los problemas de administración de datos mediante la disponibilidad de los datos remotos y la creación de una mayor adaptabilidad a las cargas de trabajo; no obstante, la mayoría de las veces, los usuarios debían recurrir al uso del mismo conjunto local de datos limitado. Si otros necesitaban esos datos, se replicaba el conjunto de datos para otro data center localizado. En este punto, se magnificaron los problemas de redundancia, administración de archivos y control de versiones. Las organizaciones de TI que han logrado la transición de servidores independientes a virtuales concuerdan en que ha sido un proceso transformacional y en que ahora es posible lograr la misma evolución con el almacenamiento. Desde un principio, las capacidades de virtualización de EMC VMware y EMC Symmetrix VMAX demostraron qué podía lograrse: VMware emplea tecnología que permite ejecutar varios sistemas operativos de manera simultánea e independiente en el mismo servidor o en la misma estación de trabajo estándar de la industria (utilizados como máquinas virtuales). Es posible acceder a las aplicaciones activas o implementar dichas aplicaciones en diversos sistemas sin interrupciones para el negocio. Los servidores virtuales VMware permitieron que los usuarios visualizaran los recursos de información distantes como si fueran locales, lo que representó un avance crítico hacia el entendimiento de la necesidad del almacenamiento virtual. EMC Symmetrix VMAX, que aprovecha un ambiente de data center virtual, brinda alta capacidad de almacenamiento (hasta 2 petabytes) para lograr una consolidación de la carga de trabajo y un rendimiento escalable de las aplicaciones. Este producto, que se basa en la plataforma de almacenamiento Symmetrix, enfrentó la necesidad de aumentar la disponibilidad y el rendimiento del almacenamiento para las aplicaciones críticas en los servidores físicos y virtuales, complementado con VMware. Otra revelación necesaria para comprender los sistemas virtuales es que los servidores pueden fallar y, en efecto, fallan a menudo. Sin embargo, cuando esto ocurre, los dispositivos de almacenamiento suelen permanecer activos. Por lo tanto, además de mejorar la respuesta del sistema y aumentar la disponibilidad de la información, la federación de la virtualización de almacenamiento y la integración de la coherencia de caché distribuida pueden redireccionar los datos a un servidor en línea sin interrupciones. Este tipo de sistema no solo es más confiable y productivo, sino que también reduce significativamente el objetivo de punto de recuperación (RPO) y el objetivo de tiempo de recuperación (RTO). Aunque el almacenamiento en caché de los datos puede parecer simple y viable, su desplazamiento a una cierta distancia continúa siendo uno de los problemas más desconcertantes para TI. VPLEX: el surgimiento del almacenamiento de datos federado El almacenamiento en caché de servidores y aplicaciones alguna vez fue sencillo y viable, pero dependía de la proximidad local. La transferencia de servidores o aplicaciones dispersas siempre ha sido más sencilla que la distribución de datos 4 # ©2010 IDC a distancia. La solución del problema requería volver a considerar el modelo informático fundamental. A medida que EMC comenzó a explorar el concepto de federación y a desarrollar una comprensión más cabal de los problemas asociados con el ancho de banda, la latencia y la coherencia de caché distribuida, surgieron diversas perspectivas nuevas: Concebir TI como servicio, de la misma manera que con otros servicios distribuidos. Desarrollar data centers comunes que replicaran equipos y procesos idénticos. Generar modelos de almacenamiento virtuales basados en modelos de servidores virtuales. Solucionar el problema de la distribución de datos a distancia (DaaD). Liberar información de los dispositivos físicos. Federar los sistemas para que fueran completamente consistentes desde la escala local hasta la global. A medida que estas soluciones comenzaron a tomar forma, se volvió evidente que la terminología de virtualización anterior, “virtualización de almacenamiento”, no se adecuaba al nuevo modelo del almacenamiento de datos federado. Sin embargo, con la denominación “almacenamiento virtual”, surgió una definición más precisa: Almacenamiento virtual: la administración de la coherencia de caché distribuida a distancia. EMC ha presentado su visión integral del almacenamiento virtual. El producto es VPLEX. Es una plataforma de hardware y software para uso con granjas de datos que emplean arreglos de EMC, Hitachi, IBM y otros fabricantes. De la misma manera en que pueden federarse servidores, VPLEX puede federar dispositivos de almacenamiento para generar coherencia de caché o datos a distancia. Los datos, en megabytes o petabytes, se presentan al usuario como datos locales. El almacenamiento de datos federado, desde el nivel local hasta el nivel global o de infraestructura de nube privada, significa una reducción y, a menudo, una eliminación total de los problemas asociados con la latencia y el ancho de banda. En su lugar, se genera una coherencia de caché distribuida. Varios ambientes informáticos, sin importar su ubicación geográfica, consultan un gran pool compartido de datos/información al que se puede acceder desde cualquier servidor y mediante distintas aplicaciones. Los usuarios ubicados en distintos puntos geográficos mundiales pueden acceder a información idéntica y trabajar con ella de manera simultánea mientras el archivo maestro se mantiene en sincronía. VPLEX permite conceptualizar un nuevo modelo de ambiente de TI virtualizado mediante la aplicación de los principios de la evolución de los servidores virtuales al almacenamiento virtual. Desde la pantalla del usuario, el ambiente de TI se visualiza como consistente e independiente de los dispositivos, aunque no lo sea. Así como los usuarios han aprendido a despreocuparse de la ubicación de los recursos de procesamiento o de la aplicación del host, ahora pueden trabajar ©2010 IDC # 5 con la información como si estuviera almacenada en el equipo local, sin importar el lugar en el que esté almacenada físicamente. VPLEX aprovecha la flexibilidad dinámica del almacenamiento en niveles completamente automatizado (FAST), lo que ejemplifica la situación ideal de tener la información o los datos en el lugar adecuado y en el momento oportuno (en este caso, en la memoria caché coherente). En resumen, VPLEX es el conjunto de herramientas fundamental para crear un sistema de información federado y virtual (hardware, software y red) como una infraestructura de nube privada, capaz de abarcar todas las distancias, cortas o largas. En el proceso, ofrece estos beneficios: El espejeado global de un ambiente maestro permite eliminar los recursos físicos redundantes y reemplazarlos con dispositivos virtuales. La replicación de datos para superar las restricciones de la distancia es cosa del pasado. Las economías de escala descendente permiten un desempeño de TI con menos problemas, más rápido y más barato. Dado que ahora los recursos físicos se suman y se basan en un modelo virtual, la ubicación de un data center ya no reviste importancia alguna y, de esta manera, la transferencia de las operaciones a ambientes más económicos se torna viable. Consideraciones para el futuro VPLEX es una solución diseñada para cumplir con requisitos actuales y futuros. Muchas operaciones de TI aún deben desarrollar funcionalidades virtuales, y VPLEX comienza a asomarse como una alternativa conveniente para ellas. Al observar que se encuentra allí, en el horizonte, y que su adopción puede permitir aprovechar ventajas para el negocio como una solución integral para diversos problemas persistentes, es posible que estas operaciones se vean atraídas por VPLEX. VPLEX es una solución basada en bloques que inicialmente se ofrece mediante dos productos: VPLEX Local y VPLEX Metro. Metro extiende la funcionalidad descrita anteriormente a una distancia síncrona de hasta 100 km. Es posible imaginar los casos de uso potenciales de la liberación de los datos. A continuación, se presentan algunas de las ventajas potenciales que vienen a la mente de inmediato: Balanceo y uso compartido transparente de los recursos dentro de los data centers físicos y entre ellos. Balanceo de cargas de trabajo. Transferencia de cargas de trabajo a ubicaciones con bajos costos de energía. Soporte para VMware VMotion. Acceso a datos en tiempo real para usuarios remotos. 6 Acceso de lectura y escritura simultáneo a datos desde múltiples hosts. # ©2010 IDC Acceso a datos desde data centers físicos y remotos sin almacenamiento local. Espejeado distribuido en plataformas combinadas. Aumento de la disponibilidad y de la capacidad de recuperación. Ejecución continua de aplicaciones. Pooling y agregación de capacidad. Mejor utilización del almacenamiento. Inicialmente, es posible que VPLEX se adecue mejor a las aplicaciones con gran actividad de lectura. Sin embargo, para las aplicaciones, las tecnologías de servidores y los ambientes de aplicaciones con gran actividad de escritura (múltiples usuarios con permisos de escritura), como el procesamiento de transacciones, es posible que deba actualizarse. A pesar de eso, la perspectiva de un data center global y federado es intrigante y convierte la visión de la infraestructura de nube privada, tan efervescente por estos días, en una consideración mucho más viable. Un hecho es claro: la infraestructura de nube privada o pública requiere un nivel de administración de la virtualización para manejar todos los recursos de tecnología como un sistema integrado. Dentro de la infraestructura de nube privada, los usuarios ahora pueden emplear todos los recursos (los servidores, las aplicaciones, la información y las diversas conexiones de red) como si residieran en su equipo personal. Esta es la solución informática para usuarios finales que muchos han buscado durante los últimos cuarenta años. Los beneficios de ahorro que ofrece para TI son aún mayores. La federación en un data center virtual es independiente de los proveedores y unifica las plataformas para los servidores y las granjas de almacenamiento. Esto significa que los datos son completamente transparentes y están disponibles 24x7. Las cargas y las capacidades de almacenamiento se balancean en la nube mediante la coherencia de caché. Se reduce o se elimina por completo la redundancia de los dispositivos de almacenamiento y los servidores, en especial, a medida que el modelo del data center principal se clona y se propaga en la nube. Resulta factible obtener un nivel de eficiencia seis veces mayor. En este proceso, TI logra un gran progreso hacia la concreción de una verdadera organización de servicios. El almacenamiento virtual y federado promete un paso importante en la evolución de TI. Los profesionales con experiencia encontrarán muchos métodos y modos de implementación, además de una gran variedad de aplicaciones, para esta nueva tecnología disruptiva. Desde un enfoque prudente, un axioma difundido y real es pensar de manera local y actuar de manera global. A nivel local, el usuario percibirá una solución simple para el flujo de trabajo. A nivel de la nube, la federación lo cambia todo, ya que todos los distintos recursos están totalmente integrados y, por ende, agregados (o, al menos, tienen la capacidad de estarlo). Entonces, el objetivo de VPLEX es el siguiente: implementar un ambiente de TI federado que ofrezca una vista global y transparente del almacenamiento que pueda distribuirse en la memoria caché, con coherencia consistente en todo el ambiente de nube privada. Ahora, múltiples usuarios con permisos de escritura pueden trabajar con la misma información y obtener niveles de integridad que ©2010 IDC # 7 sean consistentes con un ambiente empresarial. Cuando se implementa con el nivel adecuado de abstracción, casi todos los integrantes de la organización, independientemente de su perspectiva, pueden apreciar los grandes beneficios que puede otorgar. Con VM y VPLEX, EMC crea una nueva definición de virtualización. Juntos, generan una herramienta competitiva para el siglo XXI y un ambiente de TI orientado a los servicios. RETOS Y OPORTUNIDADES Las oportunidades para EMC son significativas debido a su expansión en todo el mundo y a la gran aceptación que recibe entre las grandes empresas. Las organizaciones pequeñas y grandes han tratado de solucionar el problema de la distancia durante mucho tiempo. Con la globalización, la movilidad y las expectativas siempre presentes de los usuarios individuales y de las organizaciones y sus clientes, la disponibilidad de datos actualizados y consistentes en cualquier momento y lugar le otorgará a EMC un liderazgo tecnológico que obligará a la competencia a encontrar soluciones (o, mejor aún, desarrollarlas) para igualar la promesa de EMC. Sin embargo, aunque EMC cree que VPLEX resolverá el problema de la distancia, debido a la persistencia de este problema durante tanto tiempo y a los reiterados intentos de muchas compañías para solucionarlo, es posible que despierte un gran escepticismo. Además, VPLEX tampoco es una solución mágica para los problemas de distancia. Solamente constituirá una solución en cierto tipo de ambientes. Los usuarios finales no deben esperar que VPLEX solucione cualquier problema relacionado con la distancia. Por ejemplo, las aplicaciones con requisitos exigentes de latencia y con gran actividad de transacciones no resultan óptimas para el uso de VPLEX. (En pos de la sinceridad, EMC no promocionará VPLEX como una solución adecuada para este tipo de aplicaciones). VPLEX requerirá servicios asociados para convertir esta promesa en una realidad. Dichos servicios incluyen consultoría previa a las ventas, servicio de soporte posventa y mantenimiento a largo plazo para garantizar que la solución funcione de manera óptima. Por último, EMC debe ayudar a los usuarios a hacer una distinción entre las funciones globales de distribución de datos de EMC Atmos y la funcionalidad que ofrece VPLEX. CONCLUSIÓN VPLEX, junto con la visión y las guías que ofrece, brinda asistencia para superar el problema de la distancia y, asimismo, una solución necesaria para la coherencia de caché distribuida. IDC espera que EMC siga expandiendo esta guía con otras soluciones con el transcurso del tiempo. 8 # ©2010 IDC Los usuarios finales y los clientes potenciales de VPLEX deben trabajar junto con el equipo de EMC para aprovechar al máximo VPLEX. Para ello, deben trascender el pensamiento tradicional basado en un data center físico y emplear su creatividad a fin de idear diversas oportunidades que permitan obtener el máximo beneficio de una inversión en VPLEX. En términos generales, VPLEX representa un enfoque único (y, no menos importante, integrado) para enfrentar el problema persistente de la integración de los data centers distribuidos y la reducción del mundo (de TI). Aviso de copyright Publicación externa de información y datos de IDC: cualquier información de IDC que se utilice en material publicitario o promocional o comunicados de prensa requiere el permiso previo por escrito del vicepresidente o gerente regional de IDC correspondiente. La solicitud de permiso debe enviarse junto con un borrador del documento propuesto. IDC se reserva el derecho de denegar la aprobación de uso externo por cualquier motivo. Copyright 2010 IDC. Queda totalmente prohibida la reproducción sin el correspondiente permiso por escrito. ©2010 IDC # 9