Informe - mexico.EMC.com

Anuncio
Informe técnico
EMC Isilon: Una plataforma de
almacenamiento escalable para big data
Por Nik Rouda y Terri McClure, analistas ejecutivos
Abril de 2014
EMC Isilon encargó este informe técnico de ESG y se
distribuye con licencia de ESG.
© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.
Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data
2
Contenido
Big data necesita mucho almacenamiento .................................................................................................. 3
Las empresas desean que big data tenga un impacto considerable ........................................................................ 3
Criterios de selección de almacenamiento para big data ............................................................................ 5
Ventajas del almacenamiento de escalamiento horizontal de Isilon para Hadoop ..................................... 6
Muchos protocolos, pero solo una copia de datos .................................................................................................. 6
Analítica en el lugar con su variante preferida de Hadoop ...................................................................................... 7
El almacenamiento de clase empresarial aumenta la eficiencia y la seguridad ...................................................... 7
La gran verdad .............................................................................................................................................. 8
Todos los nombres de marcas comerciales son propiedad de sus respectivas empresas. La información incluida en esta publicación se obtuvo
por medio de fuentes que The Enterprise Strategy Group (ESG) considera confiables, pero no está garantizada por ESG. Esta publicación puede
contener opiniones de ESG que están sujetas a cambios periódicos. Los derechos de esta publicación pertenecen a The Enterprise Strategy
Group, Inc. Cualquier reproducción o redistribución de esta publicación, en su totalidad o en parte, ya sea en formato impreso, electrónico o de
otro tipo, a personas no autorizadas para recibirla sin el consentimiento expreso de The Enterprise Strategy Group, Inc., constituye una violación
de las leyes de derechos de autor de los Estados Unidos y estará sujeta a una acción por daños civiles y, en caso de ser pertinente, a un juicio
penal. Si tiene consultas, comuníquese con ESG Client Relations llamando al 508-482-0188.
© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.
Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data
3
Big data necesita mucho almacenamiento
Empresas en todo el mundo están recopilando, analizando y procesando una creciente ola de información. Sin
embargo, esta cantidad abrumadora de datos implica tantos retos como soluciones. A medida que las empresas se
basen cada vez más en los datos para realizar una amplia variedad de actividades, necesitarán que sus
implementaciones de big data de producción cumplan con los requisitos empresariales habituales, como alto
rendimiento, escalabilidad, disponibilidad, seguridad y cumplimiento de normas. Más allá de las bases de datos y de
los motores de analítica, otros componentes de la pila de tecnología resultan críticos para proporcionar estas
cualidades, y la elección de las plataformas de almacenamiento no es menos importante. Los sistemas de
almacenamiento pueden desarrollar o destruir una implementación de big data. EMC Isilon es líder en
almacenamiento de escalamiento horizontal y ofrece muchas ventajas como base para la analítica de big data, las
cuales derivan de los años de experiencia de EMC en centros de datos empresariales de gran tamaño.
Las empresas desean que big data tenga un impacto considerable
Se han publicado varios artículos periodísticos sobre las numerosas aplicaciones prácticas de big data en todos los
sectores y giros comerciales. Muchas de estas historias son anécdotas convincentes y, a menudo, específicas de las
actividades y los objetivos de una organización en particular. Sin embargo, pueden encontrarse algunas tendencias
comunes sobre analítica de datos en los diferentes sectores industriales. Recientemente, ESG concluyó su encuesta
2014 IT Spending Intentions Survey e identificó los principales beneficios para el negocio que buscan las
organizaciones encuestadas a partir de sus inversiones en Business Intelligence y analítica. 1
Figura 1. Beneficios para el negocio a partir de las inversiones en datos
Fuente: Enterprise Strategy Group, 2014.
1
Fuente: Informe de investigación de ESG, 2014 IT Spending Intentions Survey, febrero de 2014. Todas las referencias y los gráficos de ESG
que se incluyen en este informe técnico se extrajeron de dicho informe de investigación.
© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.
Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data
4
Implícita en todos estos objetivos está la necesidad de suministrar a las empresas no solo más datos, sino también
informes más oportunos. Para muchas empresas, el tiempo que se necesita para obtener una respuesta es el
criterio clave para adoptar un método de toma de decisiones impulsado por datos. Ya no confeccionan informes
trimestrales en lotes para satisfacer sus necesidades. En cambio, las actualizaciones diarias, las alertas en tiempo
real y las consultas ad hoc se están convirtiendo en los requisitos estándares para analistas y ejecutivos.
Ahora los proveedores están incorporando una gran variedad de tecnologías de datos, desde las tradicionales bases
de datos relacionales hasta NoSQL y Hadoop, y desde las aplicaciones avanzadas de analítica hasta la visualización
de datos y las herramientas de creación de informes. Estas herramientas vienen acompañadas por opciones
complementarias en los modelos de arquitectura: servidores genéricos, dispositivos listos para usar o servicios de
nube y software de propiedad o de código abierto. Cada una de estas opciones tendrá un impacto en las
funcionalidades generales de la solución, lo que afectará las percepciones de rendimiento, flexibilidad y
disponibilidad del usuario final.
Estas altas expectativas de los ejecutivos del negocio ejercen una presión excesiva en los departamentos
empresariales de TI, ya que deben ofrecer una solución bien implementada. Y, por lo general, esto no se trata de
una tarea sencilla si tenemos en cuenta que las iniciativas de big data a menudo suponen una integración de
diferentes orígenes de datos, plataformas de big data y aplicaciones de analítica nuevos con data warehouse y
bases de datos de transacciones existentes. Esta complejidad en la arquitectura abarca muchas disciplinas de TI, y
encontramos dependencias en todo nivel: aplicaciones, servidores, redes y almacenamiento. Si observamos la
investigación de ESG en la Figura 2, es evidente que muchas de las diez principales prioridades de TI que más se
mencionaron están directamente relacionadas con la administración adecuada de los datos empresariales, y ello
incluye big data.
Figura 2. Las diez prioridades más importantes de TI para 2014
Fuente: Enterprise Strategy Group, 2014.
© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.
Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data
5
En algunas ocasiones, estos problemas son fácilmente subestimados debido a la suposición de que el sistema de
archivos distribuido Hadoop (HDFS) ofrece un aprovisionamiento de bajo costo y armonioso que permite almacenar
y administrar enormes cantidades de big data. La verdad es que los requisitos de almacenamiento para las
empresas están siendo cada vez más exigentes, sobre todo a medida que más tomadores de decisiones quedan
supeditados a la información valiosa que obtienen de big data.
Criterios de selección de almacenamiento para big data
Como ya se mencionó, la elección de la plataforma de almacenamiento debe respaldar la eficacia general de la pila
de tecnología e implicará derivaciones que deben ser evaluadas cuidadosamente. Se debe considerar una serie de
factores, entre ellos:
•
La escalabilidad y la eficiencia tendrán un impacto notorio en la capacidad para recopilar y almacenar
datos. Se debe prestar especial atención a los mecanismos que reducen el espacio físico total, como la
deduplicación, la compresión y la redundancia requerida a fin de evitar las pérdidas de datos. También
debe analizarse el capital humano necesario para administrar el sistema en términos de eficiencia, ya que
las organizaciones no pueden permitirse seguir incorporando personal para administrar el ambiente a
medida que crecen los datos.
•
El costo total de propiedad (TCO) es importante, ya que los beneficios de la iniciativa de big data se
comparan con los gastos operativos y de capital, incluidos el mantenimiento, el soporte, el espacio físico y
el capital humano. Una estructura menos costosa debe permitir una mayor cantidad de datos almacenados
(porque las organizaciones podrán solventarlos) e información valiosa más rica (como beneficio de tener
más datos para analizar).
•
El rendimiento parece ser un requisito obvio, aunque puede ser difícil de obtener, dado que más usuarios
realizarán análisis más completos y con volúmenes de datos más grandes. Por lo tanto, resulta fundamental
encontrar un sistema de almacenamiento que pueda manejar las exigencias de I/O del ambiente, incluida
cualquier tarea de extracción, transformación y carga (ETL) en otros repositorios de datos. La ubicación de
los datos tiene un impacto significativo en esta área, sobre todo si se deben mover grandes cantidades de
datos antes del procesamiento de analítica.
•
Las utilidades de protección de datos, de seguridad y de gobierno corporativo se están volviendo
obligatorias para los ambientes de big data. A medida que los lagos o los concentradores de datos
comienzan a encapsular todo tipo de información confidencial en una ubicación centralizada, sin duda esto
deberá tratarse con sumo cuidado. El cumplimiento de normas gubernamentales y del sector industrial
relevantes debe abordarse de forma directa y explícita. Al ser una tecnología más nueva, Hadoop en sí
mismo no ha alcanzado en estas áreas el grado de madurez que las empresas podrían llegar a necesitar.
•
La accesibilidad tal vez sea uno de los atributos menos reconocidos de la decisión de almacenamiento, pero
puede brindar importantes ventajas en cuanto a la flexibilidad de modelos y permitir que diferentes grupos
o herramientas aprovechen los datos sin tener que moverlos a otras plataformas antes de comenzar con el
procesamiento. Los controles de acceso también deben estar bien desarrollados y ser granulares.
Estos son factores importantes para decidir el nivel de adecuación de una plataforma de almacenamiento para
ambientes de big data. Una gama de opciones tradicionales para plataformas de almacenamiento incluye:
almacenamiento de conexión directa (DAS), red de almacenamiento SAN y almacenamiento conectado en red
(NAS) genéricos. La sabiduría convencional ha consistido en usar almacenamiento genérico en la forma de unidades
internas. No obstante, cuando se pondera el impacto de las opciones de infraestructura de almacenamiento en la
analítica y en la administración de los datos, esa sabiduría resulta deficiente para las prestaciones.
© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.
Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data
6
Ventajas del almacenamiento de escalamiento horizontal de Isilon para
Hadoop
En la actualidad, todavía existe un relativo nivel de inmadurez en lo que respecta a la funcionalidad y a la solidez del
almacenamiento en muchas de las pilas de tecnología de big data. A pesar de que Hadoop y HDFS pueden
simplificar el modelo de escalamiento en servidores genéricos con DAS, determinadas alternativas proporcionan
ventajas atractivas para la empresa y ayudan a superar algunos de los retos asociados al enfoque tradicional.
Entre los retos de usar el enfoque de almacenamiento integrado/DAS, podemos mencionar protección y
aprovechamiento de datos, procesos de negocios prolongados y, sorprendentemente, costos. Con respecto a la
protección de datos, HDFS usa múltiples copias de datos, lo que significa que consume mucho almacenamiento.
Resultan afectados tanto el aprovechamiento de datos como los procesos de negocios debido a que solo se puede
acceder a los datos mediante HDFS y no es posible usar otras aplicaciones que requieran otras interfaces (por
ejemplo, aplicaciones RESTful basadas en objetos o aplicaciones NFS/CIFS/SMB basadas en archivos). Esto significa
que deben realizarse operaciones de ETL para recopilar o aprovechar datos en otros procesos de negocios. Por lo
tanto, esos procesos se prolongarán cada vez que deban ejecutarse tareas de ETL. Esto también significa que las
organizaciones deben tener múltiples repositorios de datos para la misma información y en varios formatos a fin de
respaldar diferentes procesos de negocios. Por lo tanto, superficialmente, puede sonar atractivo usar
configuraciones de DAS genéricas y, de hecho, puede ser una buena opción para muchas organizaciones. Sin
embargo, aquellas empresas que necesitan analizar datos provenientes de múltiples orígenes o aprovecharlos para
respaldar múltiples procesos de negocios incurren en más costos para obtener infraestructura adicional y, tal vez,
necesiten investigar enfoques alternativos.
Un enfoque alternativo que ayuda a superar estos retos consiste en la adopción de una plataforma de
almacenamiento compartida diseñada para cumplir con los requisitos de operaciones de TI. EMC Isilon es un
óptimo ejemplo en este caso, ya que incorpora Hadoop a sus datos, en lugar de mover todos esos datos a clústeres
de Hadoop. Permite que los usuarios creen un concentrador de datos centralizado que admite múltiples
aplicaciones y procesos de negocios, lo que reduce costos y ciclos de negocios debido a que se elimina la mayoría
de los requisitos de ETL.
Muchos protocolos, pero solo una copia de datos
Isilon es una plataforma de almacenamiento flexible que admite acceso multiprotocolo a un único objeto de datos,
lo que elimina la decisión de un protocolo inicial, ya que NFS, los objetos RESTful, HTTP, FTP, SMB y HDFS son todos
compatibles. Por lo tanto, los usuarios pueden recopilar un objeto desde una aplicación web y acceder a él a través
de NFS para editarlo. O mejor aún, un usuario podría acceder a los registros web directamente desde una aplicación
web, en lugar de exportarlos a una hoja de cálculo, y verlos a través de la interfaz nativa de HDFS para ejecutar la
analítica. Esta capacidad de que solo esté disponible una copia para múltiples usos implica un importante beneficio
para reducir los costos generales del almacenamiento y el tiempo de los ciclos, dado que no es necesario exportar
los datos a múltiples sistemas para los distintos casos de uso. Un único repositorio también simplifica en gran
medida los requisitos de auditoría de cumplimiento de normas, pues ya no se deberán rastrear diferentes
ubicaciones y orígenes.
© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.
Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data
7
Figura 3. Acceso multiprotocolo al sistema operativo Isilon OneFS
Fuente: EMC Isilon, 2014.
Analítica en el lugar con su variante preferida de Hadoop
Aprovechando la compatibilidad con el acceso multiprotocolo a un único objeto de datos, las organizaciones
pueden llevar a cabo de forma eficaz tareas de analítica “en el lugar” sobre sus datos sin necesidad de una extensa
recopilación de información a partir de otros orígenes de datos de almacenamiento primario en el sistema Hadoop.
A menudo, con esto se logran resultados más rápido. Aunque a veces puedan ser más rápidos otros enfoques y
diseños de datos más especializados para efectuar consultas y análisis, con Isilon, los análisis de datos pueden
iniciarse inmediatamente. Al no requerir ETL, obtendrá menos esfuerzo y menos demoras en el tiempo de inicio, lo
que a menudo le permitirá superar esa diferencia. Además, pueden ejecutarse instancias simultáneas de diferentes
distribuciones de Hadoop en paralelo y en el mismo sistema de almacenamiento subyacente, lo que otorga mucha
más flexibilidad para aprovechar las relativas fortalezas de cada una y sin necesidad de mover grandes cantidades
de datos.
El almacenamiento de clase empresarial aumenta la eficiencia y la seguridad
Aunque HDFS puede ser un modelo confiable y escalable para recopilar y almacenar grandes volúmenes y
variedades de datos en un típico ambiente de big data, no es necesariamente el más eficaz. Algunas de las
© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.
Informe técnico: EMC Isilon: Una plataforma de almacenamiento escalable para big data
8
características que brindan esa solidez en el hardware genérico, en realidad, pueden afectar negativamente la
eficiencia general. El espejeado con el almacenamiento de conexión directa de Hadoop es un buen ejemplo, ya que
normalmente se genera una redundancia de tres a cinco veces mayor, y esto afecta de manera significativa la
relación de uso eficaz de la capacidad total de la unidad. Por el contrario, Isilon, con protección de datos
incorporada, alta disponibilidad y solidez general, puede ejecutarse con una utilización del 80 % de los niveles de
capacidad (en comparación con el 20-33 % de HDFS), y esto mejora todavía más gracias a la reducción de datos
de hasta el 30 % con SmartDedupe. Todo esto ayuda a reducir el espacio físico de almacenamiento y proporciona
las reducciones de costo asociadas en cuanto al consumo de espacio y energía en el centro de datos. La separación
de servidores y almacenamiento gracias a que cada uno se desarrolla de forma independiente, en lugar de siempre
agregar otro servidor genérico de unidad fija, también permite un escalamiento más específico del ambiente a fin
de satisfacer las cargas de trabajo actuales.
Desde el punto de vista del gobierno corporativo y la seguridad, el sistema de almacenamiento Isilon ofrece
cumplimiento de normas WORM (Write Once, Read Many) para que el archiving pueda cumplir, a su vez, con las
normativas del sector y de gobierno corporativo, la autenticación estándar de Kerberos y las listas de control de
acceso (ACL) a fin de garantizar que el usuario que llegue al concentrador de datos centralizado sea un usuario
autorizado.
Todas estas características se combinan para reducir el costo de compra inicial, los costos operativos constantes y el
riesgo de falla o vulneración de seguridad de la información confidencial.
La gran verdad
Habiendo explorado el rápido crecimiento de big data en cuanto a adopción e importancia, así como el posible
impacto de la infraestructura subyacente, es evidente que las empresas deben repensar las implicancias en la
arquitectura de sus opciones de almacenamiento para sus iniciativas de big data. Existen múltiples ventajas cuando
se adopta un enfoque de almacenamiento compartido que abarca una amplia variedad de características deseadas,
entre las que se incluyen mayor eficiencia, menor costo total, velocidad general de respuesta, menor riesgo de
pérdida de datos o acceso inadecuado y flexibilidad en la analítica.
Isilon es una solución innovadora, ya que desafía las suposiciones del paradigma de almacenamiento
predeterminado de los profesionales de big data, y su enfoque merece una evaluación de sus méritos y una
comparación con el estándar real de almacenamiento de conexión directa con respecto al hardware de servidor
genérico. Isilon se beneficia de una larga trayectoria de desarrollo de plataformas de almacenamiento escalables y
flexibles para satisfacer los exigentes requisitos empresariales, lo que le permite abordar muchos de los retos
habituales del almacenamiento de big data. Esta experiencia también beneficia a los clientes. En particular, los
actuales clientes de Isilon deben experimentar y ejecutar Hadoop en sus sistemas existentes. Tal vez, descubran
que la respuesta adecuada ya se encuentra implementada.
© 2014, The Enterprise Strategy Group, Inc. Todos los derechos reservados.
20 Asylum Street | Milford, MA 01757 | Tel.: 508-482-0188 Fax: 508-482-0218 | www.esg-global.com
Descargar