Infraestructuras Cientíticas y Tecnicas Singulares Novas do Centro de Supercomputación de Galicia Agosto 2016 NOVAS INFRAESTRUTURAS CESGA Fundación Pública Galega Centro Tecnolóxico de Supercomputación de Galicia DIRECCIÓN Javier García Tobío COORDINACIÓN Fernando Bouzas Sierra COLABORAN Ignacio López Cabido Carlos Fernández Sánchez Javier López Cacheiro Natalia Costas Lago Aurelio Rodríguez López Ramón Basanta Cheda María José Rodríguez Malmierca Andrés Gómez Tato DESEÑO, GRAFISMO E MAQUETACIÓN Grupo Código Cero Comunicación, S.L. FOTOMECÁNICA E IMPRESIÓN Gráficas Garabal, S.L. DEPÓSITO LEGAL C 1604-1998 ISSN 1139-563X EDITA FUNDACIÓN CESGA Avenida de Vigo, s/n (Campus Vida) 15705 Santiago de Compostela Telf. 981 569 810 - Fax. 981 594 616 [email protected] CONTIDOS [ 2 - 3 ] Novas infraestruturas CESGA 2015 [ 4 - 5 ] Servizos de cómputo de altas prestacións [ 6 - 7 ] Servizo Big Data [ 8 - 9 ] Actualización da infraestrutura SVG e de computación HPC na nube Novas infraestruturas CESGA 2015 O CESGA realizou durante o ano 2015 unha profunda renovación das súas infraestruturas tecnolóxicas que permitirá nos vindeiros anos ofrecer un conxunto moi completo de servizos de alta calidade aos seus usuarios. A situación económica motivou un atraso na actualización da infraestrutura máis relevante do Centro, FinisTerrae, pero tras o esforzo de CESGA e o decidido apoio institucional da Xunta de Galicia, o Ministerio de Economía y Competitividad e o CSIC conseguiuse renovar a infraestrutura de supercomputación e FinisTerrae II é xa unha realidade no centro. A vocación do CESGA sempre foi proporcionar servizos demandados polos seus usuarios e prestalos de modo eficiente tanto desde o punto de vista computacional como económico, polo que o CESGA dispón de diferentes infrastruturas específicas para os diferentes tipos de problemas. FinisTerrae II [ 10 - 11 ] Visualización remota [ 12 ] Clúster de cómputo para usos Industriais [ 13 ] Humanidades Dixitais [ 14 - 15 ] Modificación da contorna de execución de aplicacións no FinisTerrae II A Fundación CESGA é unha organización sen animo de lucro ao servizo da investigación científica, o desenvolvemento tecnolóxico e a innovación dende 1993. Participan na Fundación CESGA a Xunta de Galicia e o Consello Superior de Investigacións Científicas (CSIC). Infraestructuras Cientíticas y Tecnicas Singulares As infraestruturas xestionadas pola Fundación CESGA foron parcialmente financiadas pola Unión Europea, a través do Fondo Europeo de Desenvolvemento Rexional (FEDER) e do Goberno de España, a través do Ministerio de Economía e Competitividade (MINECO), así como pola Xunta de Galicia e o CSIC. A Fundación CESGA xestiona unha infraestrutura integrada na Rede Española de Supercomputación, unha Infraestrutura Científico Tecnolóxica Singular (ICTS) do Estado. 2 díxitos agosto 2016 Así, a infraestrutura de supercomputación Finis Terrae II, está entendida fundamentalmente para a resolución eficiente de grandes problemas paralelos, polo que o seu deseño estivo baseado neste factor. Finis Terrae II incorpora un total de 7712 núcleos de procesador da tecnoloxía Intel Xeon E5 Hasswel, interconectados por unha rede de comunicacións de baixa latencia de tipo Infiniband. Dado que habitualmente os grandes traballos de computación procesan ou producen grandes cantidades de datos, FinisTerrae II incorpora un sistema de almacenamento paralelo de altas prestacións, capaz de proporcionar simultaneamente unha elevada capacidade (760 Terabytes netos) e sobre todo un elevado rendemento (maior que 20 Gi- gabytes por segundo). Deste xeito os cálculos non son retardados polas operacións de entrada/saída cara aos discos. No deseño de Finis Terrae II procurouse dedicar a maioría dos recursos aos casos máis utilizados no centro, polo que a súa arquitectura está fundamentalmente baseada en nodos lixeiros (thin nodes) que utilizan procesadores estandar de Intel, adecuados para a meriande parte das aplicacións utilizadas polos usuarios do CESGA. Tamén se incluíu un nodo de cálculo groso (FAT node) para dar resposta a necesidades de gran cantidade de memoria compartida, é dicir, nun único nodo de cálculo. Os problemas resoltos neste tipo de nodos, aínda que non son tan frecuentes, representan a maioría das veces casos non resolubles noutros sistemas, polo que consideróuse moi adecuada a súa inclusión. Tamén quixose dar resposta a aqueles usuarios e aplicacións que son capaces de aproveitar as vantaxes do procesado de propósito xeral en unidades de procesado gráfico (GPGPU), polo que en Finis Terrae II incorporáronse oito procesadores NVIDIA Tesla K80. Por último, e para dar acceso á tecnoloxía de tipo many-core de Intel, no sistema incluíronse 4 procesadores Intel Xeon Phi. SVG e computación na nube O cálculo de altas prestacións non é a única necesidade de cálculo científico que o CESGA cobre, posto que os problemas de moitos dos usuarios son de tipo alta produtividade, é dicir, o usuario realiza cálculos independentes que non precisan unha arquitectura específica nin grandes recursos nos nodos de computación, pero realiza moitos cálculos e necesita moitos computadores onde realizalos. Esta problemática foi cuberta desde hai anos no CESGA pola Centro de Supercomputación de Galicia CESGA infraestrutura que denominamos SVG, que tamén foi actualizada nos últimos meses. CESGA presta tamén servizos de cloud computing. En realidade, hoxe en día non existen apenas diferenzas entre o tipo de infraestrutura adecuada para prestar ambos os tipos de servizo, SVG e CLOUD, adquiríronse un conxunto de servidores que poden ser dedicados a unha ou outra función dependendo da necesidade. Así se adquiriron un total de 72 servidores que acumulan un total de 1440 núcleos de procesador e 9,2 TB de memoria para este propósito. Big Data Big Data é un paradigma en pleno auxe e o número de proxectos que requiren esta tecnoloxía en CESGA está a medrar. Os proxectos Big Data teñen en común coa Supercomputación, que cando necesitan facer algo, precisan gran cantidade de recursos para levalo a cabo, polo que para favorecelos, é necesario dispoñer dunha infraestrutura específica. Deste xeito conséguese por unha banda ter os recursos dispoñibles cando son necesarios e por outra, a capacidade de adaptar a infraestrutura ás necesidades concretas de cada proxecto. Isto último é especialmente relevante por ser unha tecnoloxía nova e moi cambiante. Os proxectos Big Data teñen como característica común a necesidade de procesar gran cantidade de datos, polo que para mellorar a súa eficiencia, os computadores nos que se executen deben dispor dun correcto balance entre as ca- racterísticas dos discos e a capacidade de proceso dos nodos, sendo este factor o que máis condiciona o seu deseño. A infraestrutura adquirida neste proxecto achega un total de 42 nodos servidores, acumulando un total de 480 núcleos de procesador, 2,4 TB de memoria e 800 TB de disco. Visualización remota A visualización científica é unha ferramenta de gran axuda para unha correcta interpretación dos resultados dos cálculos realizados nos computadores. A tecnoloxía actual permite realizar visualización remota con gran calidade, de modo que un usuario pode visualizar os resultados dunha aplicación dende o seu posto no seu centro de traballo, sen ter a aplicación que representa eses datos nel, senón nun servidor remoto. Para proporcionar resposta especialmente a aqueles casos en que non resulta eficiente o envío dos datos ao centro do usuario e proporcionar capacidades avanzadas de visualización, tamén implantouse unha solución dedicada a visualización remota de altas prestacións, dispoñéndose dunha infraestrutura de 4 servidores con tarxeta gráfica suficiente para permitir o uso simultáneo de varias aplicacións con certos requirimentos gráficos. en numerosas iniciativas relacionadas coa promoción do uso de tecnoloxías avanzadas de computación nas PEMEs, entre as que cabe citar o proxecto FORTISSIMO, ou a Rede Europea de Centros de Competencias en Computación de Altas Prestacións para PEMEs (SESAME Net) entre outras. Desde a Axencia Galega de Innovación (GAIN) quíxose dotar ao CESGA dunha infraestrutura de cálculo específica para proxectos empresariais, de modo que poidan prestar os servizos requiridos polas empresas sen competir polo uso dos recursos xerais do CESGA, dispoñibles para unha ampla comunidade de usuarios. Todas as infraestruturas anteriormente descritas atópanse xa a disposición dos usuarios e permitirán a CESGA manter un nivel de servizo de alta calidade nos próximos anos. A actualización tecnolóxica das infraestruturas do CESGA supuxo un investimento de 5,2 millóns de euros que foron financiados pola Xunta de Galicia e o Ministerio de Economía e Competitividade con achega do Fondo Europeo de Desenvolvemento Rexional (FEDER). Cluster de Cómputo para usos industriais A infraestrutura de cálculo específica para proxectos empresariais foi financiada pola Consellería de Economía e Industria da Xunta de Galicia a través de Axencia Galega de Innovavión (GAIN). Nos últimos anos produciuse no CESGA un notable incremento de proxectos de tipo empresarial. CESGA está involucrado Ignacio López Cabido Subdirector Técnico (CESGA) [email protected] agostoo 2016 díxitos 3 CESGA Centro de Supercomputación de Galicia Servizo de cómputo de altas prestacións F inisTerrae II é o novo sistema de supercomputación adquirido recentemente a empresa Bull e que foi posto a disposición dos usuarios en abril de 2016. Este supercomputador proporciona un rendemento pico de 328 TFlops e un rendemento sostido en Linpack de 213 Tflops. En total está constituido por 317 servidores con 7712 cores, 44,8 TB de memoria e 1500 TB de almacenamento en disco. O consumo total do sistema é de 118 Kw. A solución completa Finis Terrae II foi adquirida á empresa Bull e ocupa un total de 8 armarios (racks) dispostos en duas filas. O incremento na capacidade computacional respecto da anterior versión de FinisTerrae é de 20 veces (16 Tflops vs 328 TFlops pico), con 5 veces menos consumo (620 kW fronte a 118 kW), o que supón multiplicar por 100 a mellora do cociente de eficiencia Tflops/kW. A arquitectura e configuración deste novo equipamento singular é o resultado do traballo multidisciplinar e conxunto do equipo técnico do CESGA e os usuarios do centro, especialmente as universidades galegas, centros do CSIC e tamén os requisitos doutros centros tecnolóxicos e institucións como Meteogalicia ou Portos do Estado. Para o seu deseño tivéronse en conta os requisitos e necesidades de computación actuais e futuras. Partindo das estatísticas de uso con que conta o CESGA, que recopila todas as simulacións enviadas aos seus sistemas de supercomputación, e a información destas simulacións, incluíndo as demandas computacionais e as aplicacións utilizadas, puidéronse perfilar as necesidades de computación ao redor de tres eixos: -- Sinxeleza de utilización e flexibilidade: acceso sinxelo a grandes cantidades de recursos computacionais, non só procesamento, senón tamén memoria e acceso aos datos. a capacidade de memoria e flexibilidade para que todos os nodos tivesen un mínimo de 128 GB de memoria e acceso ao sistema de almacenamento. Tamén se recolleu a necesidade de dispoñer dun sistema de maiores capacidades, de imaxe única, cunha memoria e capacidade de procesamento e xestión de información superior, que se denominaría Fat-node. Por último, e co fin de explorar as capacidades das novas tecnoloxías de procesamento, incorporáronse nodos con aceleradores, baseados en GPUs e tecnoloxías many-core/multi-core. -- Utilización por un amplo espectro de aplicacións de todos os campos da ciencia: Bioquímica, Ciencias da Terra, Física ou modelización numérica, entre outros En ningún momento do deseño expúxose como obxectivo entrar na lista Top500 (entraría na posición 482 na lista de Novembro de 2015). Baseada na experiencia adquirida cos sistemas de supercomputación do centro e as solucións dispoñibles no mercado, deseñouse un sistema consistente nun cluster de computación cunha rede de altas prestacións que intercomunicase todos os elementos do cluster e que permitise un acceso homoxéneo. Ao mesmo tempo tivéronse en conta as altas demandas en canto Finis Terrae II está composto por varios tipos diferentes de nodos de computación: -- Escalabilidade da solución: deben permitir realizar simulacións con miles de procesadores 4 díxitos agosto 2016 -- 306 nodos de cómputo lixeiros cada un con 2 procesadores Haswell 2680v3, 24 cores, 128 GB memoria, 1 disco de 1TB, 2 conexións 1GbE e 1 conexión Infiniband FDR@56Gbps. Centro de Supercomputación de Galicia CESGA Diagrama infraestrutura FinisTerrae II -- 4 Nodos de cómputo con aceleradores GPUs, onde ademáis das características dos nodos lixeiros cada nodo inclúe 2 GPUs NVIDIA Tesla K80 (2 GPUs por cada tarxeta, 4 GPUs por nodo en total. Actualmente están dispoñibles máis de 25 aplicacións de distintas ramas da ciencia (química, física ou ciencias da terra), así como os compiladores de Intel, Portland Group ou NVIDIA para xerar código para as aceleradoras baseadas en CUDA, ademais dos de GNU e librerías matemáticas como as Intel MKL. Incorporará máis aplicacións ao longo das próximas semanas. Para acceder ao novo sistema os usuarios poderán utilizar as súas credenciais habituais a través do portal de usuarios do centro ou conectándose a ft2.cesga.es e aqueles que non sexan usuarios poderán darse de alta a través da web www.altausuarios. cesga.es -- 2 nodos de cómputo con aceleradores Xeon Phi, onde ademáis das características dos nodos lixeiros cada nodo inclúe 2 procesadores Intel Xeon Phi 7120P. -- Un FAT node de computación con 8 procesadores Intel Haswell 8867v3, 128 cores, 4096 GB memoria, 24 discos SAS de 1,2 TB e dous discos SAS de 300 GB. FinisTerrae II 328 TFLOPS 7712 cores Entre algúns primeiros resultados, realizáronse simulacións que 44,8 TB RAM permitiron avances significativos no estudo do cambio climáti2015 1,5 PB Disk co e que contribuirán aos informes do IPCC (Intergovernmental Tamén conta con 4 nodos de login e transferencia, para a conexión ao sistema e a transferencia de arquivos, equipados con 2 procesadores Haswell 2680v3, 24 cores, 128 GB memoria, 2 Panel on Climate Change), a predición do rendemento de superNodes 306 4 2 1 4 discos de 1TB, 2 conexións 10Gbit Ethernet e 1 conexión Infinicomputadores ou o estudo da determinación dos parámetros Cores/node 24 24 24 fundamentais do 128Modelo Estándar24 band FDR@56Gbps. da Física de Partículas no que concierne ao sector dos Quarks. Algunhas destas análises requiProc/node 2 Xeon E5-2680v3 2 Xeon E5-2680v3 2 Xeon E5-2680v3 8 Xeon E7-8867v3 2 Xeon E5-2680v3 Todos os equipos do sistema están conectados mediante unha riron a utilización simultánea de miles de procesadores, xerando 2 NVIDIAInfiniband 2 Xeon Phi rede deAccel/node interconexión de -alto rendemento Mellanox decenas de terabytes de almacenamento, e non serían posibles Tesla k80 7120P FDR@56Gbps con topoloxía Fat-tree e acceden a un sistema de sen esta nova infraestrutura. almacenamento paralelo Lustre capacidade neta 128GB RAM/node 128GBcon 760 TB de 128GB 4096GB 128GB Carlos Fernández Sánchez, Dpto. Sistemas (CESGA) e superior a 20GB/s de rendemento en operacións de lectura e Network InfiniBand FDR InfiniBand FDR InfiniBand FDR InfiniBand FDR InfiniBand FDR [email protected] escritura. GbE GbE GbE 10GbE Storage/node 1TB 1TB 1TB 28,8TB 2TB Finis Terrae II foi financiado 80 % co Fondo Europeo de Desenvolvemento Rexional (FEDER),Lustre co apoio do MinisterioLustre de Economía Shared storage nunLustre 768TB Lustre 768TB Lustre 768TB 768TB 768TB e Competitividade e 2 2 con financiación da Xunta de Galicia a través da Axencia do Programa FEDER Galicia 2007-2013, Eixo EMC2 120TB EMC2Galega 120TB de Innovación EMC2 (GAIN) 120TB no marcoEMC 120TB Operativo EMC 120TB E3, Tema Prioritario OE01. agosto 2016 díxitos 5 CESGA Centro de Supercomputación de Galicia Servizo Big Data O servizo Big Data permite o procesamento de datos en paralelo, de modo similar a como o servizo HPC permite a computación paralela. No caso do servizo HPC tratamos de distribuir a computación realizada pola nosa aplicación entre os nodos dun cluster utilizando ferramentas como MPI, mentres que no servizo Big Data tratamos de distribuir o procesado de datos utilizando ferramentas como Spark ou MapReduce. Co servizo Big Data temos a nosa disposición modernas ferramentas que simplifican enormemente a tarefa do procesamento paralelo de datos, as mesmas ferramentas que son utilizadas por grandes compañías como Yahoo, Facebook, Twitter ou Google. Existen distintos tipos de problemas que podemos abordar no CESGA. Unha clasificación común é o modelo das 3Vs:: • Volume: Grandes cantidades de información, por exemplo a análise da información histórica dos resultados de predicións meteorolóxicas. • Velocidade: Datos que se producen con grande rapidez e que queremos recoller e procesar, por exemplo a análise en tempo real das medicións instantáneas dos sensores instalados nunha fábrica. • Variedade: Datos procedentes de distintos tipos de orixes e en distintos formatos, por exemplo analizar conxuntamente datos en formato textual con datos procedentes dunha base de datos SQL. Co transcorrer do tempo, foron aparecendo problemas máis grandes e o servizo era insuficiente para a execución dalgúns problemas de elevado tamaño que foron aparecendo posteriormente. Para estes casos especiais despregábanse clusters Hadoop adicados no clúster SVG. Estes clusters permitían un rendemento maior que o obtido coa plataforma cloud pero tiñan a limitación de que a arquitectura dos nodos do SVG non é a máis axeitada para traballos Big Data. Nova Infraestrutura Por iso durante o 2015 levouse a cabo unha análise dos requisitos hardware1 específicos que serían necesarios para unha solución Big Data baseada en Apache Hadoop, Apache Spark e Apache HBase. Baseándose nesta análise realizouse a adquisición dunha infraestrutura específica para Big Data que conta coas seguinte características Cando CESGA lanzou o servizo Big Data en novembro de 2013, as tecnoloxías Big Data eran unha área emerxente e o obxectivo que perseguimos naquel momento co servizo era que os usuarios puideran tomar contacto coas tecnoloxías Big Data e co modelo de programación MapReduce. Este servizo inicial permitía aos usuarios despregar de modo moi sinxelo clusters Hadoop sobre a plataforma cloud do centro. 4 nodos mestres Modelo: Lenovo System x3550 M5: CPU: 2x Intel Xeon E5-2620 v3 @ 2.40GHz Cores: 12 (2x6) HyperThreading: On (24 threads) Total memory: 64GB Network: 1x10Gbps + 2x1Gbps Disks: 8x 480GB SSD SATA 2.5" MLC G3HS Controller: ServeRAID M5210 1GB Cache FastPath 34 nodos escravo Modelo: Lenovo System x3650 M5 CPU: 2x Intel Xeon E5-2620 v3 @ 2.40GHz Cores: 12 (2x6) HyperThreading: On (24 threads) Total memory: 64GB Network: 1x10Gbps + 2x1Gbps Disks: 12x 2TB NL SATA 6Gbps 3.5" G2HS Controller: N2215 SAS/SATA HBA 1 6 díxitos agosto 2016 http://bit.ly/2954zCJ Centro de Supercomputación de Galicia CESGA Diagrama infraestrutura servizo BIG DATA Software dispoñible O servizo conta con dúas contornas diferenciadas co obxectivo de poder satisfacer tódalas necesidades, tanto as cubertas polo enorme ecosistema de Hadoop como aquelas que caen fora del. Plataforma Hadoop HDP 2.4 • Ofrece unha plataforma estándar que permite soportar tódolos compoñentes do ecosistema de Hadoop: YARN, MapReduce, Spark, Storm, Flume, Mahout, Pig, Hive, HBase, ... • Trátase dunha evolución da plataforma que o CESGA leva ofrecendo dende o 2013 • Ofrece unha solución probada e estable • CobreNodes a maior parte dos casos de uso 34 • Virtualmente esta plataforma permite despregar calquera tipo de servizo, incluído o propio Hadoop. • Permite aproveitarse completamente dos recursos hardware sen as penalizacións de rendemento da antiga plataforma cloud. • Ofrece una planificación avanzada de recursos baseada nun sistema novidoso de scheduling en dous pasos que permite ofrecer unha mellor localidade dos datos con respecto aos planificadores tradicionais. • Inclúe un avanzado servizo de descubrimento de servizos que pode ser explotado • para despregar servizos tolerantes a fallos e para o autodescubrimento de servizos. SVG Big Data Cores/node Plataforma PaaS 2015 Posibilidades de utilización 4 12 12 O obxectivo da nova plataforma é satisfacer as crecentes necesidades de utilización de Proc/node 2 Xeon E5- 2680v3 2 Xeon E5-2680v3 • Para casos onde se precisa ir máis alá tecnoloxías Big Data dos usuarios do CESdo queRAM/node ofrece o ecosistema de Hadoop GA, sexa para procesar grandes volumes 64GB 64GB • Ofrece unha plataforma onde desprede datos astronómicos, para a execución Network 10GbEBig Data 10GbE de intelixencia artificial, para gar automaticamente clusters de algoritmos baseados en contedores Docker sobre a análise de imaxes PET ou para a análise Storage/node 24TB 3,8TB Mesos. de datos xenéticos. Ata agora o servizo Big Data permitiu entre outras cousas que investigadores do Laboratorio Interdisciplinar de Intelixencia Artificial da UDC analizasen datos enmarcados dentro de Gaia, unha misión da Axencia Espacial Europea (ESA) que ten por obxectivo producir un mapa tridimensional da nosa galaxia, a Vía Láctea. Este servizo tamén permitiu que investigadores do IRLab (CITIC) poidan desenvolver mellores algoritmos de recomendación para seren ser aplicados a grandes volumes de datos (FilmYou), e que investigadores do CiTIUS poidan desenvolver a ferramenta Perldoop, unha solución de software libre que acelerará o procesamento de textos e documentos publicados na web. Para facilitar que os usuarios con menos experiencia no ámbito Big Data tamén se poidan aproveitar dos avances tecnolóxicos nesta área, durante o próximo mes de outubro realizaremos un curso no que explicaremos como usar a plataforma Big Data para resolver distintos tipos de problemas. 456 cores 2688 GB RAM 831,3 TB Disk Shared storage EMC2 120TB Javier López Cacheiro, Dpto. Sistemas (CESGA) [email protected] EMC2 120TB As infraestruturas de Big Data foron adquiridas mediante axuda pública da Secretaría de Estado de Investigación, Desenvolvemento e Innovación do Ministerio de Economía e Competitividade e a Xunta de Galicia a través da GAIN. Axudas a infraestruturas e equipamento científico-técnico, correspondentes ao Programa Estatal de Fomento da Investigación Científica e Técnica de Excelencia, no marco do Plan Estatal de Investigación Científica e Técnica e de Innovación 2013- 2016. En resolución de 10 de decembro de 2014, concederonselle ao CESGA as actuacións de referencias CESG13-1E-1790. agosto 2016 díxitos 7 CESGA Centro de Supercomputación de Galicia Actualización da infraestrutura SVG e de computación HPC na nube O CESGA proporciona diferentes arquitecturas de cómputo deseñadas para resolver un número grande de problemas con diversa complexidade computacional nun período curto de tempo. Unha destas é o Superordenador Virtual Galego (SVG), o cal permite executar de forma eficiente cálculos de tipo HTC (High Throughput Computing). Os superordenadores HTC están deseñados para executar un gran número de tarefas ou procesos con pouca dependencia entre eles. O SVG incorpora un número elevado de procesadores con acceso rápido a memoria local de tamaño limitado e unha rede de interconexión de latencia medio-alta. Este tipo de arquitectura é ideal para moitas casuísticas: algoritmos xenéticos, procesado masivo de datos experimentais, renderizado de imaxes, computación paramétrica, etc. O SVG foi utilizado por empresas e institucións no eido da investigación. A empresa Health in Code, Spin-off da Universidade da Coruña, ao abeiro do proxecto europeo Cloudpyme, puido aproveitar ditas capacidades computacionais para analizar o xenoma de pacientes e realizar con eles diagnósticos xenéticos. O grupo de Figura 1.- Esquema de envío de traballos a un cluster de computo Ciencias da Computación da Universidade de Coruña, dirixido polo profesor Alejandro Pazos, fai uso de sistemas como o SVG para a execución de algoritmos de intelixencia artificial que permiten automatizar a análise da información de sinais de electroencefalogramas, realizando en paralelo o estudo dos diferentes pacientes. Adicionalmente ao servizo de cálculo, a nova infraestrutura adquirida polo CESGA tamén permite ofrecer servizos de computación na nube. 8 díxitos agosto 2016 Centro de Supercomputación de Galicia CESGA O uso do cloud está moi estendido e demandado na actualidade. Cabe mencionar como exemplo de uso de cloud do CESGA o feito pola empresa Schnell Software, en colaboración co Instituto de Biocomputación e Física de Sistemas Complexos da Universidade de Zaragoza e o propio CESGA, no ámbito do proxecto europeo Fortissimo. Neste caso constuíuse sobre o cloud un servizo de optimización na nube para a industria de corte e dobrado de aceiro de reforzo. Dito servizo permitirá optimizar o proceso de corte de barras de aceiro para reducir ao mínimo o consumo de materia prima ao tempo que se optimiza tamén o seu almacenamento. Diagrama infraestrutura SVG e HPC Cloud Este servizo permite ao CESGA dar servidores “virtuais” aos nosos usuarios que poden instalar o sistema operativo e as ferramentas que requiran para o seu traballo de igual forma que farían con un servidor instalado na súa propia institución. SVG Cloud Ditos servidores virtuais son facilmente configurables, podendo variar o seu tamaño en CPU, RAM, espazo en disco, entre outros, segundo a súa necesidade. Nodes 68 Un servidor virtual permite Cores/node 20 garantir parte dos recursos do servidor físico exclusivamente para Proc/node 2 Xeonque E5- está 2650v3 o usuario, dentro dun servidor sendo compartido con outros usuarios. RAM/node 64GB 4 Segundo se observa na figura anterior, consiste nunha granxa de 72 nodos con 2 procesadores Intel Xeon con 10 procesadores cada ún a 2.3Ghz de velocidade; 68 destes nodos contan con conectividade xigabit ethernet, 64GB de RAM e 600GB de disco. Outros 4 nodos contan adicionalmente con conectividade ethernet de alta velocidade, a 2x10Gbps e 4.5TB de almacenamento cada un. 20 2 Xeon E5-2650v3 64GB Network 10GbE 10GbE Storage/node 900GB 3,8TB Shared storage EMC2 120TB EMC2 120TB 2015 Natalia Costas Lago, Dpto. de Comunicacións (CESGA) [email protected] 1440 cores 4608 GB RAM 64,8 TB Disk As infraestruturas Cloud foron adquiridas mediante axuda pública da Secretaría de Estado de Investigación, Desenvolvemento e Innovación do Ministerio de Economía e Competitividade e da Xunta de Galicia a través da GAIN. Axudas a infraestruturas e equipamento científico-técnico, correspondentes ao Programa Estatal de Fomento da Investigación Científica e Técnica de Excelencia, no marco do Plan Estatal de Investigación Científica e Técnica e de Innovación 2013- 2016. En resolución de 10 de decembro de 2014, concederonselle ao CESGA as actuacións de referencias CESG13-1E-1650. agosto 2016 díxitos 9 CESGA Centro de Supercomputación de Galicia Visualización remota P ermitir a usuarios remotos visualizar interactivamente grandes conxuntos de datos producidos pola simulación numérica e que residen nunha infraestrutura de datos centralizada é un requirimento persistente ao longo dos anos nun centro de supercomputación como o noso. Os usuarios remotos, moi posiblemente estean conectados usando redes WAN de baixa velocidade e utilicen equipos de uso común, que hoxe en día presentan gran variabilidade, desde PCs de sobremesa a tablets ou móbiles. A aproximación tradicional para a visualización, consistía na transferencia dos datos remotos ao sistema local do usuario, onde se executaba a aplicación encargada da visualización. Esta aproximación ten serios inconvenientes:O sistema local ha de ter recursos computacionais suficientes para manexar os datos. 1.O sistema local debe contar con recursos computacionais suficientes para manexar os datos. 2.A latencia concéntrase no paso inicial de transferencia de datos. 3.A necesidade explicita dunha transferencia de datos completa impide o axuste directo entre simulación e visualización (o concepto chamado steering).As diferentes solucións de visualización remota diferéncianse, principalmente, pola clase de información que é transmitida e se a solución depende ou non dunha aplicación específica. Diferentes casos de uso Interface VDI. Dentro do software usado para simulación destacan sobre todo, o software relacionado co deseño e simulación en enxeñaría, en xeral análise de elementos finitos e simulación numérica en mecánica estrutural e multifísica. Este tipo de software leva etapas iniciais de preproceso onde se constrúe a malla do sistema necesaria para a realización da simulación. Este proceso require unha gran interactividade e unha visualización complexa que permita o proceso de refinamento necesario. Xunto a isto, despois da execución do solver, chégase ao postproceso, onde a representación gráfica dos resultados é primordial. Nestes casos un interface VDI (Virtualization Desktop Infrastructure) é esencial. Visualización de altas prestacións. O continuo incremento no tamaño dos datos xerados polas solucións numéricas executadas nun centro de supercomputación é unha realidade. Por este motivo a visualización hoxe xoga un papel cada vez máis importante en axudar ao ciéntífico na súa tarefa de comprender e racionalizar as saídas derivadas dos modelos executados nunha simulación. Os últimos algoritmos e sistemas de visualización requiren unir capacidades de procesado gráfico á lectura/escritura de grandes conxuntos de datos por este motivo é fundamental dispoñer de tarxetas gráficas de altas prestacións xunto aos sistemas de ficheiros paralelos de alta capacidade. Infraestrutura Visualización Científica As diferentes solucións de visualización remota diferéncianse, principalmente, pola clase de información que é transmitida e se a solución depende ou non dunha aplicación específica. Unha solución de visualización remota require responder a moi diferentes necesidades presentes na nosa ampla comunidade de usuarios. A solución debe ser independente dunha aplicación concreta, de maneira que o uso por parte do usuarios sexa o máis transparente posible eliminando, na medida do posible, a necesidade de programación específica ou adaptación a unha solución concreta. Os sistemas de ficheiros remotos son unha solución pero que non son viables (moi inestables) cando o usuario está en redes WAN con alta latencia e pequeno ancho de banda. Por estes motivos, é necesario unha infraestrutura deseñada para proporcionar escritorios completos remotos en dispositivos de uso común polo usuario, permitindo o procesamento e renderizado dos datos combinando CPUs e GPUs. 10 díxitos agosto 2016 Centro de Supercomputación de Galicia CESGA Servidor: vis.cesga.es1 Comandos: getdesktop: nova URL asociada a escritorio desktops: URLs activas vglrun [comando]: Execución da aplicación con demanda gráfica Utilización Opción OFF do menú elimina o escritorio A infraestrutura adquirida configurouse por defecto para proporcionar escritorios remotos Linux e Windows, aínda que é suficientemente versátil para poder ser configurada para responder a un proxecto de visualización moi demandante. Escritorios Windows: Escritorios Linux: Estes escritorios son proporcionados a través dunha solución baseada en VNC/ VirtualGL servidos totalmente a través de web con soporte de HTML5. Os usuarios poden acceder a través dun navegador web a sesións interactivas gráficas usando toda a potencia da tarxeta gráfica presente no nodo. Visualization Nodes 4 Cores/node 20 Proc/node 2 Xeon E5-2650v3 https://portalusuarios.cesga.es/shell_vis Accel/node NVIDIA / Grid K2 RAM/node 256GB Network InfiniBand FDR @56Gbps/ 10GbE Os escritorios Windows son proporcionados a través dunha plataforma baseada en XenDesktop. Os usuarios, baixo petición, poden demandar o acceso a un escritorio remoto Windows de alta capacidade (128GB de RAM, 10 Cores) e aceleración gráfica dedicada proporcionada polas tarxetas virtuais NVIDIA Grid K2. 2015 80 cores 1024 GB RAM Aurelio Rodríguez López, Dpto. Aplicacións e Proxectos (CESGA) [email protected] 7,2 TB Disk Storage/node 1,8TB As infraestruturas de Visualización Científica foron adquiridas mediante axuda pública da Secretaría de Estado de Investigación, Desenvolvemento e Innovación do Ministerio de Economía e Competitividade e a Xunta de Galicia a través da GAIN. Axudas a infraestruturas e equipamento científicotécnico, correspondentes Estatal de Fomento da Investigación Científica e Técnica de Excelencia, no marco do Plan Estatal de Investigación Shared storageao Programa EMC2 120TB Científica e Técnica e de Innovación 2013- 2016. En resolución de 10 de decembro de 2014, concederonselle ao CESGA as actuacións de referencias CESG13-1E-1791. agosto 2015 díxitos 11 CESGA Centro de Supercomputación de Galicia Clúster de cómputo para usos Industriais D e acordo coas directrices que veñen emanando, cada vez con máis intensidade, dos organismos europeos, estatais, ou da Xunta de Galicia, o CESGA leva tempo desenvolvendo actividades orientadas á transferencia de proxectos e servizos á industria. Neste marco, o CESGA vén de instalar un equipamento de cálculo específico para servizos destinados á mesma. A infraestrutura, froito da iniciativa da Axencia Galega de Innovación (GAIN) e da colaboración con esta Axencia e co CIS Galicia, está adicada ao apoio á industria e á pequena e mediana empresa en especial. Con ela se pretenden acometer proxectos que impliquen requirimentos de cálculo intensivo ou especializado, así coma os que precisen unha alta capacidade de proceso gráfico xa que este é un dos puntos fortes do novo cluster. Se prevé a utilización do clúster en diferentes eidos de traballo, desde a enxeñería, ao cálculo químico, a biotecnoloxía, Ciencias da Terra, ou o procesado de imaxe, fotogrametría, codificación/ decodificación de vídeo en tempo real, render, etc., así coma para campos das Humanidades xa citados no parágrafo anterior. Con esta infraestrutura, ademáis de cumplir cas directrices que buscan aproximar os centros tecnolóxicos ao mundo da empresa, o CESGA pretende intensificar e ampliar as súas posibilidades de servizo á mesma, cousa que ven facendo desde hai xa anos, así coma animar á industria galega a utilizar o cálculo intensivo e o cloud. No CESGA estamos empezando as probas de utilización da infraestrutura, e para iso animamos as empresas galegas SVG Industry Os servizos deste computador están orientados a utilización por diferentes sectores dentro das políticas da GAIN, de Industria 4.0 e das estratexias RIS3. Nodes 8 Así, por exemplo, o sector naval, Cores/node o aeronáutico 20 a automoción, e os UAV, a industria manufactureira, a Proc/node 2 Xeon E5-2650v3 biotecnolóxica, o audiovisual, turismo, arquitectura e patrimonio,NVIDIA computación Accel/node / Grid K2 emocional e semántica, etc. RAM/node 128GB Network GbE Storage/node 4TB con proxectos de I+D ou de innovación a que contacten con nós para avaliar as posibilidades de utilización do clúster. Para coñecer máis sobre a infraestrutura e as súas posibilidades de uso pode contactar con [email protected] A infraestrutura adquirida está constituida por 12 servidores de computación HP Proliant DL380 Gen9, cada un equipado con 2 procesadores de arquitectura Hasswel Intel Xeon E5-2650 v3, funcionando a unha frecuencia de 2,3 GHz. En total, estes nodos dispoñen de 20 núcleos de procesador, 128 GB de memoria DDR4 e 4 TB repartidos en dous discos duros. Oito dos servidores incorporan un procesador gráfico Nvidia Grid K2. Os servidores están interconectados mediante unha rede de interconexión de tecnoloxía gigabit ethernet. Diagrama Cluster Industria 2015 160 cores 2560 GB RAM 32 TB Disk Ramón Basanta Cheda Dpto. Transferencia (CESGA) [email protected] O Cluster de cómputo para usos Industriais 2 120TBfoi financiado pola Xunta de Galicia a través da GAIN mediante Resolución do Conselleiro de Economía e Shared storage EMC Industria para a concesión dunha subvención directa á Fundación Pública Galega Centro Tecnolóxico de Supercomputación de Galicia (CESGA) para o subministro dun sistema de computación e comunicacións destinados á industria. 12 díxitos agosto 2016 Centro de Supercomputación de Galicia CESGA Humanidades Dixitais A iinformática é un ámbito de traballo transversal que se pode aplicar a múltiples campos da investigación. As humanidades son un área que tradicionalmente vese alonxada da informática, pero que polo contrario, pode beneficiarse moito dela. O CESGA, dentro das accións de difusión dos novos recursos ao dispor da investigación que ofreceu dentro do último mes, reuníuse no mes de xuño con grupos de investigación en humanidades do SUG, onde ademáis sentáronse as bases de futuras colaboracións con grupos das facultades de xeografía e historia, filosofía e filoloxía. As humanidades dixitais comprenden esa intersección entre a informática e as humanidades, cunha ampla variedade de temas de interese que van dende o tratamento informático de contidos textuais (clasificación, organización, aplicación de algoritmos, extracción de información de grandes cantidades de datos, etc.) así como a colaboración entre investigadores, proxectos e outros ámbitos para contrastar ideas e avanzar no estudo. Esta colaboración de dous mundos, aparentemente tan diferentes, ten unha influencia bidireccional, non só mediante a aplicación das ferramentas e métodos dixitais nas humanidades tradicionais, senon que éstas tamén inflúen e modelan as ferramentas e as formas de traballar na informática, ofrecendo enfoques humanistas á grandes cuestións na informática, como por exemplo, aos sistemas homocéntricos de interacción entre a persoa e a máquina, a intelixencia artificial, etc. O CESGA ofrece os seus recursos de computación de altas prestacións, almacenamento, visualización, así como os de sistemas de información xeográfica, colaboración e aprendizaxe electrónico a estes grupos de humanidades, á vez que invita aos mesmos investigadores a plantexar as súas necesidades específicas para a resolución de problemas na súa área de coñecemento e así ampliar as ferramentas e o coñecemento a dispor no CESGA para este ámbito. Como froito desta colaboración, para o 2016-17 o CESGA participa no curso de doutoramento común de humanidades da USC, impartindo dous módulos de formación: Introdución ás ferramentas TIC para a investigación de Arte e Humanidades, e Aplicación das TIX (Tecnoloxías da Información Xeográfica) para Artes e Humanidades. María José Rodríguez Malmierca Dpto. e-Learning e Ferramentas Colaborativas (CESGA) [email protected] agosto 2016 díxitos 13 CESGA Centro de Supercomputación de Galicia Modificación da contorna de execución de aplicacións no FinisTerrae II N os últimos anos, o CESGA estivo utilizando nos seus computadores de cálculo varias ferramentas que facilitan o seu uso e repartición de carga entre os usuarios: modules e SGE. Coa actualización do supercomputador FinisTerrae, fixéronse algúns cambios para actualizar tecnoloxicamente estes xestores, mellorando as capacidades dispoñibles para o usuario e solucionando algunhas das dificultades que se atoparon nas anteriores versións. Así, a contorna modules migrouse a un novo sistema, compatible en moitos casos co anterior, chamado Lmod. Os comandos de uso básicos, como module loade <aplicación> seguen funcionando, pero existe unha xerarquía de chamada. Os paquetes de software están organizados en tres niveles: a.Paquetes core. Como os compiladores (punto fundamental de arranque). Son os que se necesitan cargar primeiramente e darán acceso ao segundo nivel. b.Paquetes básicos. Dependendo do compilador seleccionado, poderanse cargar algunhas librerías, aplicacións e as contornas de execución paralelo, como o MPI solicitado. c.Aplicacións. Finalmente, unha vez seleccionado un compilador e unha contorna de execución paralelo, poderase cargar a aplicación. A execución destes módulos o que fai fundamentalmente é modificar as variables de contorna para garantir o acceso correcto ás aplicacións. En caso necesario, ademais, un módulo cargará aqueles módulos adicionais que o usuario non cargase previamente. Por exemplo, supoñamos que se quere utilizar a aplicación OpenFoam. Esta aplicación depende do compilador gcc (versión 5.3.0) e da contorna de execución paralelo OpenMPI (versión 1.10.2). Se nun primeiro momento, xusto despois de entrar no sistema, execútase o comando module avail, obterase exclusivamente a lista de aplicacións core. 14 díxitos agosto 2016 Centro de Supercomputación de Galicia CESGA Para cargar a configuración da contorna para OpenFOAM, executaranse os comandos module loade gcc openmpi openfoam. A contorna estará agora xa configurada para executar a aplicación OpenFOAM. Ademais, agora, a lista de aplicacións dispoñibles será diferente: Que pasa se non sabemos as dependencias dunha aplicación ou non sabemos se está instalada? Neste caso, disponse do comando module spider que permite buscar unha aplicación en concreto. Por exemplo, se queremos saber se existe a aplicación OpenFOAM, deberase executar o comando module spider openfoam. O sistema devolverá as versións que están instaladas (na figura a 3.0+) e as dependencias que necesitan cargarse (gcc e openmpi). Se se desexa reinicializar a contorna, simplemente fai falta executar module purge. Ou se queremos eliminar unha aplicación, module unload <aplicación> (por exemplo, para descargar OpenFOAM, module unload openfoam). Hai que ter coidado neste caso, xa que se se descarga un paquete que é necesario para outras aplicacións (por exemplo, o gcc), haberá aplicacións que quedarán inactivas e non poderán usarse. O comando informará diso na saída, indicando que aplicacións quedaron deshabilitadas. Andrés Gómez Tato, Dpto. Aplicacións e Proxectos (CESGA) [email protected] agosto 2016 díxitos 15 ¿MÁXIMA DISPONIBILIDAD, ÓPTIMO RENDIMIENTO O RETORNO DE INVERSIÓN MÁS RÁPIDO? ... TÉNGALO TODO. THAT’S THE CRITICAL DIFFERENCE. El SAI Trinergy™ Cube va más allá de lo revolucionario en cuanto a potencia al escalar en caliente desde 150 kW hasta 3,4 MW en una sola unidad y conseguir una media del 98,5 % de rendimiento operativo. Emerson Network Power presenta una nueva generación de la tecnología de SAI más avanzada para instalaciones de alta disponibilidad que exijan un tiempo de actividad crítico y un máximo rendimiento. El SAI Trinergy™ Cube ofrece el retorno de inversión más rápido del sector, el menor TCO y la máxima disponibilidad, de modo que puede tenerlo todo. Venga y vea por sí mismo el SAI en el Customer Experience Center de Bolonia (Italia). Obtenga más información en EmersonNetworkPower.es/Trinergy-Cube Emerson. Consider it Solved., Emerson Network Power y el logotipo de Emerson Network Power son marcas comerciales y marcas de servicio de Emerson Electric Co. ©2015 Emerson Electric Co. Todos los derechos reservados.