infraestruturas

Anuncio
Infraestructuras
Cientíticas y Tecnicas
Singulares
Novas do Centro de Supercomputación de Galicia
Agosto 2016
NOVAS
INFRAESTRUTURAS
CESGA
Fundación Pública Galega Centro Tecnolóxico
de Supercomputación de Galicia
DIRECCIÓN
Javier García Tobío
COORDINACIÓN
Fernando Bouzas Sierra
COLABORAN
Ignacio López Cabido
Carlos Fernández Sánchez
Javier López Cacheiro
Natalia Costas Lago
Aurelio Rodríguez López
Ramón Basanta Cheda
María José Rodríguez Malmierca
Andrés Gómez Tato
DESEÑO, GRAFISMO E MAQUETACIÓN
Grupo Código Cero Comunicación, S.L.
FOTOMECÁNICA E IMPRESIÓN
Gráficas Garabal, S.L.
DEPÓSITO LEGAL
C 1604-1998
ISSN
1139-563X
EDITA
FUNDACIÓN CESGA
Avenida de Vigo, s/n (Campus Vida)
15705 Santiago de Compostela
Telf. 981 569 810 - Fax. 981 594 616
[email protected]
CONTIDOS
[ 2 - 3 ] Novas infraestruturas CESGA 2015
[ 4 - 5 ] Servizos de cómputo de altas prestacións
[ 6 - 7 ] Servizo Big Data
[ 8 - 9 ] Actualización da infraestrutura SVG e
de computación HPC na nube
Novas
infraestruturas
CESGA 2015
O
CESGA realizou durante o ano
2015 unha profunda renovación
das súas infraestruturas tecnolóxicas que permitirá nos vindeiros
anos ofrecer un conxunto moi completo de servizos de alta calidade aos
seus usuarios. A situación económica
motivou un atraso na actualización da
infraestrutura máis relevante do Centro, FinisTerrae, pero tras o esforzo de
CESGA e o decidido apoio institucional da Xunta de Galicia, o Ministerio de
Economía y Competitividad e o CSIC
conseguiuse renovar a infraestrutura
de supercomputación e FinisTerrae II é
xa unha realidade no centro.
A vocación do CESGA sempre foi proporcionar servizos demandados polos
seus usuarios e prestalos de modo
eficiente tanto desde o punto de vista
computacional como económico, polo
que o CESGA dispón de diferentes
infrastruturas específicas para os diferentes tipos de problemas.
FinisTerrae II
[ 10 - 11 ] Visualización remota
[ 12 ] Clúster de cómputo para usos Industriais
[ 13 ] Humanidades Dixitais
[ 14 - 15 ] Modificación da contorna de execución de aplicacións no FinisTerrae II
A Fundación CESGA é unha organización sen animo de lucro ao servizo da
investigación científica, o desenvolvemento tecnolóxico e a innovación dende
1993. Participan na Fundación CESGA
a Xunta de Galicia e o Consello Superior
de Investigacións Científicas (CSIC).
Infraestructuras
Cientíticas y Tecnicas
Singulares
As infraestruturas xestionadas pola
Fundación CESGA foron parcialmente
financiadas pola Unión Europea, a través
do Fondo Europeo de Desenvolvemento
Rexional (FEDER) e do Goberno de España, a través do Ministerio de Economía
e Competitividade (MINECO), así como
pola Xunta de Galicia e o CSIC.
A Fundación CESGA xestiona unha infraestrutura integrada na Rede Española
de Supercomputación, unha Infraestrutura Científico Tecnolóxica Singular (ICTS)
do Estado.
2
díxitos agosto 2016
Así, a infraestrutura de supercomputación Finis Terrae II, está entendida
fundamentalmente para a resolución
eficiente de grandes problemas paralelos, polo que o seu deseño estivo
baseado neste factor. Finis Terrae II
incorpora un total de 7712 núcleos de
procesador da tecnoloxía Intel Xeon
E5 Hasswel, interconectados por unha
rede de comunicacións de baixa latencia de tipo Infiniband. Dado que
habitualmente os grandes traballos
de computación procesan ou producen grandes cantidades de datos,
FinisTerrae II incorpora un sistema de
almacenamento paralelo de altas prestacións, capaz de proporcionar simultaneamente unha elevada capacidade
(760 Terabytes netos) e sobre todo un
elevado rendemento (maior que 20 Gi-
gabytes por segundo). Deste xeito os cálculos non son retardados polas operacións
de entrada/saída cara aos discos.
No deseño de Finis Terrae II procurouse
dedicar a maioría dos recursos aos casos
máis utilizados no centro, polo que a súa
arquitectura está fundamentalmente baseada en nodos lixeiros (thin nodes) que
utilizan procesadores estandar de Intel,
adecuados para a meriande parte das
aplicacións utilizadas polos usuarios do
CESGA. Tamén se incluíu un nodo de cálculo groso (FAT node) para dar resposta a
necesidades de gran cantidade de memoria compartida, é dicir, nun único nodo de
cálculo. Os problemas resoltos neste tipo
de nodos, aínda que non son tan frecuentes, representan a maioría das veces casos non resolubles noutros sistemas, polo
que consideróuse moi adecuada a súa
inclusión.
Tamén quixose dar resposta a aqueles
usuarios e aplicacións que son capaces
de aproveitar as vantaxes do procesado
de propósito xeral en unidades de procesado gráfico (GPGPU), polo que en Finis
Terrae II incorporáronse oito procesadores
NVIDIA Tesla K80.
Por último, e para dar acceso á tecnoloxía
de tipo many-core de Intel, no sistema incluíronse 4 procesadores Intel Xeon Phi.
SVG e computación na nube
O cálculo de altas prestacións non é a única necesidade de cálculo científico que o
CESGA cobre, posto que os problemas de
moitos dos usuarios son de tipo alta produtividade, é dicir, o usuario realiza cálculos
independentes que non precisan unha arquitectura específica nin grandes recursos
nos nodos de computación, pero realiza
moitos cálculos e necesita moitos computadores onde realizalos. Esta problemática
foi cuberta desde hai anos no CESGA pola
Centro de Supercomputación de Galicia CESGA
infraestrutura que denominamos SVG, que
tamén foi actualizada nos últimos meses.
CESGA presta tamén servizos de cloud
computing. En realidade, hoxe en día non
existen apenas diferenzas entre o tipo de
infraestrutura adecuada para prestar ambos os tipos de servizo, SVG e CLOUD,
adquiríronse un conxunto de servidores
que poden ser dedicados a unha ou outra función dependendo da necesidade.
Así se adquiriron un total de 72 servidores
que acumulan un total de 1440 núcleos de
procesador e 9,2 TB de memoria para este
propósito.
Big Data
Big Data é un paradigma en pleno auxe e
o número de proxectos que requiren esta
tecnoloxía en CESGA está a medrar. Os
proxectos Big Data teñen en común coa
Supercomputación, que cando necesitan
facer algo, precisan gran cantidade de recursos para levalo a cabo, polo que para
favorecelos, é necesario dispoñer dunha
infraestrutura específica. Deste xeito conséguese por unha banda ter os recursos
dispoñibles cando son necesarios e por
outra, a capacidade de adaptar a infraestrutura ás necesidades concretas de cada
proxecto. Isto último é especialmente relevante por ser unha tecnoloxía nova e moi
cambiante. Os proxectos Big Data teñen
como característica común a necesidade de procesar gran cantidade de datos,
polo que para mellorar a súa eficiencia, os
computadores nos que se executen deben
dispor dun correcto balance entre as ca-
racterísticas dos discos e a capacidade
de proceso dos nodos, sendo este factor o que máis condiciona o seu deseño.
A infraestrutura adquirida neste proxecto
achega un total de 42 nodos servidores,
acumulando un total de 480 núcleos de
procesador, 2,4 TB de memoria e 800 TB
de disco.
Visualización remota
A visualización científica é unha ferramenta
de gran axuda para unha correcta interpretación dos resultados dos cálculos realizados nos computadores. A tecnoloxía actual
permite realizar visualización remota con
gran calidade, de modo que un usuario
pode visualizar os resultados dunha aplicación dende o seu posto no seu centro de
traballo, sen ter a aplicación que representa eses datos nel, senón nun servidor remoto. Para proporcionar resposta especialmente a aqueles casos en que non resulta
eficiente o envío dos datos ao centro do
usuario e proporcionar capacidades avanzadas de visualización, tamén implantouse unha solución dedicada a visualización
remota de altas prestacións, dispoñéndose
dunha infraestrutura de 4 servidores con
tarxeta gráfica suficiente para permitir o
uso simultáneo de varias aplicacións con
certos requirimentos gráficos.
en numerosas iniciativas relacionadas coa
promoción do uso de tecnoloxías avanzadas de computación nas PEMEs, entre as
que cabe citar o proxecto FORTISSIMO, ou
a Rede Europea de Centros de Competencias en Computación de Altas Prestacións
para PEMEs (SESAME Net) entre outras.
Desde a Axencia Galega de Innovación
(GAIN) quíxose dotar ao CESGA dunha
infraestrutura de cálculo específica para
proxectos empresariais, de modo que poidan prestar os servizos requiridos polas
empresas sen competir polo uso dos recursos xerais do CESGA, dispoñibles para
unha ampla comunidade de usuarios.
Todas as infraestruturas anteriormente
descritas atópanse xa a disposición dos
usuarios e permitirán a CESGA manter un
nivel de servizo de alta calidade nos próximos anos.
A actualización tecnolóxica das infraestruturas do CESGA supuxo un investimento
de 5,2 millóns de euros que foron financiados pola Xunta de Galicia e o Ministerio de
Economía e Competitividade con achega
do Fondo Europeo de Desenvolvemento
Rexional (FEDER).
Cluster de Cómputo para usos
industriais
A infraestrutura de cálculo específica para
proxectos empresariais foi financiada pola
Consellería de Economía e Industria da
Xunta de Galicia a través de Axencia Galega de Innovavión (GAIN).
Nos últimos anos produciuse no CESGA
un notable incremento de proxectos de
tipo empresarial. CESGA está involucrado
Ignacio López Cabido
Subdirector Técnico (CESGA)
[email protected]
agostoo 2016 díxitos
3
CESGA Centro de Supercomputación de Galicia
Servizo de cómputo de
altas prestacións
F
inisTerrae II é o novo sistema de supercomputación adquirido recentemente a empresa Bull e que foi posto a disposición dos usuarios en abril de 2016. Este supercomputador
proporciona un rendemento pico de 328 TFlops e un rendemento
sostido en Linpack de 213 Tflops. En total está constituido por
317 servidores con 7712 cores, 44,8 TB de memoria e 1500 TB
de almacenamento en disco. O consumo total do sistema é de
118 Kw. A solución completa Finis Terrae II foi adquirida á empresa Bull e ocupa un total de 8 armarios (racks) dispostos en
duas filas.
O incremento na capacidade computacional respecto da anterior versión de FinisTerrae é de 20 veces (16 Tflops vs 328 TFlops
pico), con 5 veces menos consumo (620 kW fronte a 118 kW), o
que supón multiplicar por 100 a mellora do cociente de eficiencia Tflops/kW.
A arquitectura e configuración deste novo equipamento singular
é o resultado do traballo multidisciplinar e conxunto do equipo
técnico do CESGA e os usuarios do centro, especialmente as
universidades galegas, centros do CSIC e tamén os requisitos
doutros centros tecnolóxicos e institucións como Meteogalicia
ou Portos do Estado.
Para o seu deseño tivéronse en conta os requisitos e necesidades de computación actuais e futuras. Partindo das estatísticas
de uso con que conta o CESGA, que recopila todas as simulacións enviadas aos seus sistemas de supercomputación, e a
información destas simulacións, incluíndo as demandas computacionais e as aplicacións utilizadas, puidéronse perfilar as
necesidades de computación ao redor de tres eixos:
-- Sinxeleza de utilización e flexibilidade: acceso sinxelo a grandes cantidades de recursos computacionais, non só procesamento, senón tamén memoria e acceso aos datos.
a capacidade de memoria e flexibilidade para que todos os
nodos tivesen un mínimo de 128 GB de memoria e acceso ao
sistema de almacenamento. Tamén se recolleu a necesidade
de dispoñer dun sistema de maiores capacidades, de imaxe
única, cunha memoria e capacidade de procesamento e xestión de información superior, que se denominaría Fat-node. Por
último, e co fin de explorar as capacidades das novas tecnoloxías de procesamento, incorporáronse nodos con aceleradores, baseados en GPUs e tecnoloxías many-core/multi-core.
-- Utilización por un amplo espectro de aplicacións de todos os
campos da ciencia: Bioquímica, Ciencias da Terra, Física ou
modelización numérica, entre outros
En ningún momento do deseño expúxose como obxectivo entrar na lista Top500 (entraría na posición 482 na lista de Novembro de 2015).
Baseada na experiencia adquirida cos sistemas de supercomputación do centro e as solucións dispoñibles no mercado,
deseñouse un sistema consistente nun cluster de computación
cunha rede de altas prestacións que intercomunicase todos os
elementos do cluster e que permitise un acceso homoxéneo. Ao
mesmo tempo tivéronse en conta as altas demandas en canto
Finis Terrae II está composto por varios tipos diferentes de
nodos de computación:
-- Escalabilidade da solución: deben permitir realizar simulacións con miles de procesadores
4
díxitos agosto 2016
-- 306 nodos de cómputo lixeiros cada un con 2 procesadores
Haswell 2680v3, 24 cores, 128 GB memoria, 1 disco de 1TB,
2 conexións 1GbE e 1 conexión Infiniband FDR@56Gbps.
Centro de Supercomputación de Galicia CESGA
Diagrama infraestrutura FinisTerrae II
-- 4 Nodos de cómputo con aceleradores GPUs, onde ademáis
das características dos nodos lixeiros cada nodo inclúe 2
GPUs NVIDIA Tesla K80 (2 GPUs por cada tarxeta, 4 GPUs por
nodo en total.
Actualmente están dispoñibles máis de 25 aplicacións de distintas ramas da ciencia (química, física ou ciencias da terra), así
como os compiladores de Intel, Portland Group ou NVIDIA para
xerar código para as aceleradoras baseadas en CUDA, ademais
dos de GNU e librerías matemáticas como as Intel MKL. Incorporará máis aplicacións ao longo das próximas semanas. Para
acceder ao novo sistema os usuarios poderán utilizar as súas
credenciais habituais a través do portal de usuarios do centro
ou conectándose a ft2.cesga.es e aqueles que non sexan usuarios poderán darse de alta a través da web www.altausuarios.
cesga.es
-- 2 nodos de cómputo con aceleradores Xeon Phi, onde ademáis das características dos nodos lixeiros cada nodo inclúe 2
procesadores Intel Xeon Phi 7120P.
-- Un FAT node de computación con 8 procesadores Intel Haswell
8867v3, 128 cores, 4096 GB memoria, 24 discos SAS de 1,2
TB e dous discos SAS de 300 GB.
FinisTerrae II
328 TFLOPS
7712 cores
Entre algúns primeiros resultados, realizáronse simulacións que
44,8 TB RAM
permitiron avances significativos no estudo do cambio climáti2015
1,5 PB Disk
co e que contribuirán aos informes do IPCC (Intergovernmental
Tamén conta con 4 nodos de login e transferencia, para a conexión ao sistema e a transferencia de arquivos, equipados con
2 procesadores Haswell 2680v3, 24 cores, 128 GB memoria, 2
Panel on Climate Change), a predición do rendemento de superNodes
306
4
2
1
4
discos de 1TB, 2 conexións 10Gbit Ethernet e 1 conexión Infinicomputadores ou o estudo da determinación dos parámetros
Cores/node
24
24
24 fundamentais do
128Modelo Estándar24
band FDR@56Gbps.
da Física de Partículas no que
concierne ao sector dos Quarks. Algunhas destas análises requiProc/node
2 Xeon E5-2680v3 2 Xeon E5-2680v3 2 Xeon E5-2680v3 8 Xeon E7-8867v3 2 Xeon E5-2680v3
Todos os equipos do sistema están conectados mediante unha
riron a utilización simultánea de miles de procesadores, xerando
2 NVIDIAInfiniband 2 Xeon
Phi
rede deAccel/node
interconexión de -alto rendemento Mellanox
decenas
de terabytes
de almacenamento,
e non serían posibles
Tesla k80
7120P
FDR@56Gbps con topoloxía Fat-tree e acceden a un sistema de
sen esta nova infraestrutura. 
almacenamento
paralelo Lustre
capacidade neta 128GB
RAM/node
128GBcon 760 TB de
128GB
4096GB
128GB Carlos Fernández Sánchez,
Dpto. Sistemas (CESGA)
e superior a 20GB/s de rendemento en operacións de lectura e
Network
InfiniBand FDR
InfiniBand FDR
InfiniBand FDR
InfiniBand FDR
InfiniBand FDR
[email protected]
escritura.
GbE
GbE
GbE
10GbE
Storage/node
1TB
1TB
1TB
28,8TB
2TB
Finis Terrae
II foi financiado
80 % co
Fondo Europeo
de Desenvolvemento
Rexional
(FEDER),Lustre
co apoio
do MinisterioLustre
de Economía
Shared
storage nunLustre
768TB
Lustre
768TB
Lustre
768TB
768TB
768TB e Competitividade e
2
2
con financiación da Xunta de Galicia
a través da Axencia
do Programa
FEDER
Galicia 2007-2013, Eixo
EMC2 120TB
EMC2Galega
120TB de Innovación
EMC2 (GAIN)
120TB no marcoEMC
120TB Operativo
EMC
120TB
E3, Tema Prioritario OE01.
agosto 2016 díxitos
5
CESGA Centro de Supercomputación de Galicia
Servizo Big Data
O
servizo Big Data permite o procesamento de datos en paralelo, de modo
similar a como o servizo HPC permite
a computación paralela. No caso do servizo HPC tratamos de distribuir a computación realizada pola nosa aplicación entre
os nodos dun cluster utilizando ferramentas
como MPI, mentres que no servizo Big Data
tratamos de distribuir o procesado de datos utilizando ferramentas como Spark ou
MapReduce.
Co servizo Big Data temos a nosa disposición modernas ferramentas que simplifican
enormemente a tarefa do procesamento
paralelo de datos, as mesmas ferramentas
que son utilizadas por grandes compañías
como Yahoo, Facebook, Twitter ou Google.
Existen distintos tipos de problemas que
podemos abordar no CESGA. Unha clasificación común é o modelo das 3Vs::
• Volume: Grandes cantidades de información, por exemplo a análise da información histórica dos resultados de predicións meteorolóxicas.
• Velocidade: Datos que se producen
con grande rapidez e que queremos
recoller e procesar, por exemplo a
análise en tempo real das medicións
instantáneas dos sensores instalados nunha fábrica.
• Variedade: Datos procedentes de
distintos tipos de orixes e en distintos formatos, por exemplo analizar
conxuntamente datos en formato
textual con datos procedentes dunha base de datos SQL.
Co transcorrer do tempo, foron aparecendo problemas máis grandes e o servizo
era insuficiente para a execución dalgúns
problemas de elevado tamaño que foron
aparecendo posteriormente. Para estes
casos especiais despregábanse clusters
Hadoop adicados no clúster SVG. Estes
clusters permitían un rendemento maior
que o obtido coa plataforma cloud pero
tiñan a limitación de que a arquitectura
dos nodos do SVG non é a máis axeitada
para traballos Big Data.
Nova Infraestrutura
Por iso durante o 2015 levouse a cabo
unha análise dos requisitos hardware1
específicos que serían necesarios para
unha solución Big Data baseada en Apache Hadoop, Apache Spark e Apache
HBase. Baseándose nesta análise realizouse a adquisición dunha infraestrutura
específica para Big Data que conta coas
seguinte características
Cando CESGA lanzou o servizo Big
Data en novembro de 2013, as tecnoloxías Big Data eran unha área emerxente e o obxectivo que perseguimos
naquel momento co servizo era que os
usuarios puideran tomar contacto coas
tecnoloxías Big Data e co modelo de
programación MapReduce. Este servizo inicial permitía aos usuarios despregar de modo moi sinxelo clusters
Hadoop sobre a plataforma cloud do
centro.
4 nodos mestres
Modelo: Lenovo System x3550 M5:
CPU: 2x Intel Xeon E5-2620 v3 @
2.40GHz
Cores: 12 (2x6)
HyperThreading: On (24 threads)
Total memory: 64GB
Network: 1x10Gbps + 2x1Gbps
Disks: 8x 480GB SSD SATA 2.5" MLC
G3HS
Controller: ServeRAID M5210 1GB
Cache FastPath
34 nodos escravo
Modelo: Lenovo System x3650 M5
CPU: 2x Intel Xeon E5-2620 v3 @
2.40GHz
Cores: 12 (2x6)
HyperThreading: On (24 threads)
Total memory: 64GB
Network: 1x10Gbps + 2x1Gbps
Disks: 12x 2TB NL SATA 6Gbps 3.5"
G2HS
Controller: N2215 SAS/SATA HBA
1
6
díxitos agosto 2016
http://bit.ly/2954zCJ
Centro de Supercomputación de Galicia CESGA
Diagrama infraestrutura servizo BIG DATA
Software dispoñible
O servizo conta con dúas contornas diferenciadas co obxectivo de poder satisfacer tódalas necesidades, tanto as cubertas polo enorme ecosistema de Hadoop
como aquelas que caen fora del.
Plataforma Hadoop HDP 2.4
• Ofrece unha plataforma estándar que
permite soportar tódolos compoñentes do ecosistema de Hadoop: YARN,
MapReduce, Spark, Storm, Flume, Mahout, Pig, Hive, HBase, ...
• Trátase dunha evolución da plataforma
que o CESGA leva ofrecendo dende o
2013
• Ofrece unha solución probada e estable
• CobreNodes
a maior parte dos casos
de uso
34
• Virtualmente esta plataforma permite
despregar calquera tipo de servizo, incluído o propio Hadoop.
• Permite aproveitarse completamente dos
recursos hardware sen as penalizacións
de rendemento da antiga plataforma
cloud.
• Ofrece una planificación avanzada de
recursos baseada nun sistema novidoso
de scheduling en dous pasos que permite ofrecer unha mellor localidade dos
datos con respecto aos planificadores
tradicionais.
• Inclúe un avanzado servizo de descubrimento de servizos que pode ser explotado
• para despregar servizos tolerantes a fallos e para o autodescubrimento de servizos.
SVG Big Data
Cores/node
Plataforma
PaaS
2015
Posibilidades
de utilización
4
12
12
O obxectivo
da nova plataforma é satisfacer
as crecentes necesidades de utilización de
Proc/node
2 Xeon E5- 2680v3
2 Xeon E5-2680v3
• Para casos onde se precisa ir máis alá
tecnoloxías Big Data dos usuarios do CESdo queRAM/node
ofrece o ecosistema
de Hadoop
GA, sexa
para procesar grandes volumes
64GB
64GB
• Ofrece unha plataforma onde desprede datos astronómicos, para a execución
Network
10GbEBig Data
10GbE de intelixencia artificial, para
gar automaticamente
clusters
de algoritmos
baseados en contedores Docker sobre
a análise de imaxes PET ou para a análise
Storage/node
24TB
3,8TB
Mesos.
de datos xenéticos.
Ata agora o servizo Big Data permitiu entre
outras cousas que investigadores do Laboratorio Interdisciplinar de Intelixencia Artificial da UDC analizasen datos enmarcados
dentro de Gaia, unha misión da Axencia
Espacial Europea (ESA) que ten por obxectivo producir un mapa tridimensional da
nosa galaxia, a Vía Láctea.
Este servizo tamén permitiu que investigadores do IRLab (CITIC) poidan desenvolver
mellores algoritmos de recomendación para
seren ser aplicados a grandes volumes de
datos (FilmYou), e que investigadores do
CiTIUS poidan desenvolver a ferramenta
Perldoop, unha solución de software libre
que acelerará o procesamento de textos e
documentos publicados na web.
Para facilitar que os usuarios con menos
experiencia no ámbito Big Data tamén se
poidan aproveitar dos avances tecnolóxicos nesta área, durante o próximo mes de
outubro realizaremos un curso no que
explicaremos como usar a plataforma
Big Data para resolver distintos tipos de
problemas. 
456 cores
2688 GB RAM
831,3 TB Disk
Shared storage
EMC2 120TB
Javier López Cacheiro,
Dpto. Sistemas (CESGA)
[email protected]
EMC2 120TB
As infraestruturas de Big Data foron adquiridas mediante axuda pública da Secretaría de Estado de Investigación, Desenvolvemento e Innovación do Ministerio de Economía e Competitividade e a Xunta de Galicia a través da GAIN. Axudas a infraestruturas e equipamento científico-técnico, correspondentes ao Programa Estatal de Fomento da Investigación Científica e Técnica de Excelencia, no marco do Plan Estatal de Investigación Científica e Técnica
e de Innovación 2013- 2016. En resolución de 10 de decembro de 2014, concederonselle ao CESGA as actuacións de referencias CESG13-1E-1790.
agosto 2016 díxitos
7
CESGA Centro de Supercomputación de Galicia
Actualización da
infraestrutura SVG
e de computación
HPC na nube
O
CESGA proporciona diferentes arquitecturas de cómputo deseñadas para resolver
un número grande de problemas con diversa complexidade computacional nun período
curto de tempo. Unha destas é o Superordenador Virtual Galego (SVG), o cal permite executar
de forma eficiente cálculos de tipo HTC (High
Throughput Computing).
Os superordenadores HTC están deseñados
para executar un gran número de tarefas ou
procesos con pouca dependencia entre eles.
O SVG incorpora un número elevado de procesadores con acceso rápido a memoria local de
tamaño limitado e unha rede de interconexión de
latencia medio-alta. Este tipo de arquitectura é
ideal para moitas casuísticas: algoritmos xenéticos, procesado masivo de datos experimentais,
renderizado de imaxes, computación paramétrica, etc.
O SVG foi utilizado por empresas e institucións
no eido da investigación. A empresa Health in
Code, Spin-off da Universidade da Coruña, ao
abeiro do proxecto europeo Cloudpyme, puido
aproveitar ditas capacidades computacionais
para analizar o xenoma de pacientes e realizar
con eles diagnósticos xenéticos. O grupo de
Figura 1.- Esquema de envío de traballos a un cluster de computo
Ciencias da Computación da Universidade de Coruña, dirixido polo profesor Alejandro Pazos, fai uso de sistemas como o
SVG para a execución de algoritmos de
intelixencia artificial que permiten automatizar a análise da información de sinais de
electroencefalogramas, realizando en paralelo o estudo dos diferentes pacientes.
Adicionalmente ao servizo de cálculo, a
nova infraestrutura adquirida polo CESGA
tamén permite ofrecer servizos de computación na nube.
8
díxitos agosto 2016
Centro de Supercomputación de Galicia CESGA
O uso do cloud está moi estendido e demandado na actualidade. Cabe
mencionar como exemplo de uso de cloud do CESGA o feito pola empresa Schnell Software, en colaboración co Instituto de Biocomputación e Física de Sistemas Complexos da Universidade de Zaragoza e o
propio CESGA, no ámbito do proxecto europeo Fortissimo. Neste caso
constuíuse sobre o cloud un servizo de optimización na nube para a
industria de corte e dobrado de aceiro de reforzo. Dito servizo permitirá
optimizar o proceso de corte de barras de aceiro para reducir ao mínimo
o consumo de materia prima ao tempo que se optimiza tamén o seu
almacenamento.
Diagrama infraestrutura SVG e HPC Cloud
Este servizo permite ao CESGA dar servidores
“virtuais” aos nosos usuarios que poden instalar
o sistema operativo e as ferramentas que requiran para o seu traballo de igual forma que farían
con un servidor instalado na súa propia institución.
SVG Cloud
Ditos servidores virtuais son facilmente configurables, podendo variar o seu tamaño en CPU,
RAM, espazo en disco, entre outros, segundo a
súa necesidade.
Nodes
68
Un servidor
virtual permite
Cores/node
20 garantir parte dos
recursos do servidor físico exclusivamente para
Proc/node
2 Xeonque
E5- está
2650v3
o usuario,
dentro dun servidor
sendo
compartido con outros usuarios.
RAM/node
64GB
4
Segundo se observa na figura anterior, consiste nunha granxa de 72
nodos con 2 procesadores Intel Xeon con 10 procesadores cada ún a
2.3Ghz de velocidade; 68 destes nodos contan con conectividade xigabit ethernet, 64GB de RAM e 600GB de disco. Outros 4 nodos contan adicionalmente con conectividade ethernet de alta velocidade, a
2x10Gbps e 4.5TB de almacenamento cada un.
20
2 Xeon E5-2650v3
64GB
Network
10GbE
10GbE
Storage/node
900GB
3,8TB
Shared storage
EMC2 120TB
EMC2 120TB
2015
Natalia Costas Lago,
Dpto. de Comunicacións (CESGA)
[email protected]
1440 cores
4608 GB RAM
64,8 TB Disk
As infraestruturas Cloud foron adquiridas mediante axuda pública da Secretaría de Estado de Investigación, Desenvolvemento e Innovación do Ministerio
de Economía e Competitividade e da Xunta de Galicia a través da GAIN. Axudas a infraestruturas e equipamento científico-técnico, correspondentes ao
Programa Estatal de Fomento da Investigación Científica e Técnica de Excelencia, no marco do Plan Estatal de Investigación Científica e Técnica e de
Innovación 2013- 2016. En resolución de 10 de decembro de 2014, concederonselle ao CESGA as actuacións de referencias CESG13-1E-1650.
agosto 2016 díxitos
9
CESGA Centro de Supercomputación de Galicia
Visualización remota
P
ermitir a usuarios remotos visualizar interactivamente grandes conxuntos de datos producidos pola simulación numérica e que residen nunha infraestrutura de datos centralizada é un requirimento persistente ao longo dos anos nun centro
de supercomputación como o noso.
Os usuarios remotos, moi posiblemente estean conectados
usando redes WAN de baixa velocidade e utilicen equipos de
uso común, que hoxe en día presentan gran variabilidade, desde PCs de sobremesa a tablets ou móbiles.
A aproximación tradicional para a visualización, consistía na
transferencia dos datos remotos ao sistema local do usuario,
onde se executaba a aplicación encargada da visualización.
Esta aproximación ten serios inconvenientes:O sistema local ha
de ter recursos computacionais suficientes para manexar os datos.
1.O sistema local debe contar con recursos computacionais suficientes para manexar os datos.
2.A latencia concéntrase no paso inicial de transferencia de datos.
3.A necesidade explicita dunha transferencia de datos completa impide o axuste directo entre simulación e visualización (o
concepto chamado steering).As diferentes solucións de visualización remota diferéncianse, principalmente, pola clase
de información que é transmitida e se a solución depende ou
non dunha aplicación específica.
Diferentes casos de uso
Interface VDI.
Dentro do software usado para simulación destacan sobre todo,
o software relacionado co deseño e simulación en enxeñaría, en
xeral análise de elementos finitos e simulación numérica en mecánica estrutural e multifísica. Este tipo de software leva etapas
iniciais de preproceso onde se constrúe a malla do sistema necesaria para a realización da simulación. Este proceso require unha
gran interactividade e unha visualización complexa que permita o
proceso de refinamento necesario. Xunto a isto, despois da execución do solver, chégase ao postproceso, onde a representación
gráfica dos resultados é primordial. Nestes casos un interface VDI
(Virtualization Desktop Infrastructure) é esencial.
Visualización de altas prestacións.
O continuo incremento no tamaño dos datos xerados polas solucións numéricas executadas nun centro de supercomputación é
unha realidade. Por este motivo a visualización hoxe xoga un papel
cada vez máis importante en axudar ao ciéntífico na súa tarefa
de comprender e racionalizar as saídas derivadas dos modelos
executados nunha simulación. Os últimos algoritmos e sistemas
de visualización requiren unir capacidades de procesado gráfico
á lectura/escritura de grandes conxuntos de datos por este motivo
é fundamental dispoñer de tarxetas gráficas de altas prestacións
xunto aos sistemas de ficheiros paralelos de alta capacidade.
Infraestrutura Visualización Científica
As diferentes solucións de visualización remota diferéncianse,
principalmente, pola clase de información que é transmitida e se
a solución depende ou non dunha aplicación específica.
Unha solución de visualización remota require responder a moi
diferentes necesidades presentes na nosa ampla comunidade
de usuarios. A solución debe ser independente dunha aplicación
concreta, de maneira que o uso por parte do usuarios sexa o
máis transparente posible eliminando, na medida do posible, a
necesidade de programación específica ou adaptación a unha
solución concreta. Os sistemas de ficheiros remotos son unha solución pero que non son viables (moi inestables) cando o usuario
está en redes WAN con alta latencia e pequeno ancho de banda.
Por estes motivos, é necesario unha infraestrutura deseñada
para proporcionar escritorios completos remotos en dispositivos
de uso común polo usuario, permitindo o procesamento e renderizado dos datos combinando CPUs e GPUs.
10
díxitos agosto 2016
Centro de Supercomputación de Galicia CESGA
Servidor:
vis.cesga.es1
Comandos:
getdesktop: nova URL asociada a escritorio
desktops: URLs activas
vglrun [comando]: Execución da aplicación con
demanda gráfica
Utilización
Opción OFF do menú elimina o escritorio
A infraestrutura adquirida configurouse por defecto para proporcionar escritorios
remotos Linux e Windows, aínda que é suficientemente versátil para poder ser
configurada para responder a un proxecto de visualización moi demandante.
Escritorios Windows:
Escritorios Linux:
Estes escritorios son proporcionados a través dunha solución baseada en VNC/
VirtualGL servidos totalmente a través de web con soporte de HTML5. Os usuarios poden acceder a través dun navegador web a sesións interactivas gráficas
usando toda a potencia da tarxeta gráfica presente no nodo.
Visualization
Nodes
4
Cores/node
20
Proc/node
2 Xeon E5-2650v3
https://portalusuarios.cesga.es/shell_vis
Accel/node
NVIDIA / Grid K2
RAM/node
256GB
Network
InfiniBand FDR @56Gbps/ 10GbE
Os escritorios Windows son proporcionados a través dunha plataforma baseada en XenDesktop.
Os usuarios, baixo petición, poden demandar o
acceso a un escritorio remoto Windows de alta
capacidade (128GB de RAM, 10 Cores) e aceleración gráfica dedicada proporcionada polas
tarxetas virtuais NVIDIA Grid K2. 
2015
80 cores
1024 GB RAM
Aurelio Rodríguez López,
Dpto. Aplicacións e Proxectos (CESGA)
[email protected]
7,2 TB Disk
Storage/node
1,8TB
As infraestruturas
de Visualización
Científica foron adquiridas mediante axuda pública da Secretaría de Estado de Investigación, Desenvolvemento e
Innovación do Ministerio de Economía e Competitividade e a Xunta de Galicia a través da GAIN. Axudas a infraestruturas e equipamento científicotécnico, correspondentes
Estatal de Fomento da Investigación Científica e Técnica de Excelencia, no marco do Plan Estatal de Investigación
Shared storageao Programa
EMC2 120TB
Científica e Técnica e de Innovación 2013- 2016. En resolución de 10 de decembro de 2014, concederonselle ao CESGA as actuacións de referencias
CESG13-1E-1791.
agosto 2015 díxitos
11
CESGA Centro de Supercomputación de Galicia
Clúster de cómputo para
usos Industriais
D
e acordo coas directrices que veñen emanando, cada vez con máis
intensidade, dos organismos europeos, estatais, ou da Xunta de Galicia, o CESGA leva tempo desenvolvendo
actividades orientadas á transferencia
de proxectos e servizos á industria.
Neste marco, o CESGA vén de instalar un equipamento de cálculo específico para servizos destinados
á mesma.
A infraestrutura, froito da iniciativa da Axencia Galega de
Innovación (GAIN) e da colaboración con esta Axencia e
co CIS Galicia, está adicada
ao apoio á industria e á pequena e mediana empresa
en especial. Con ela se pretenden acometer proxectos
que impliquen requirimentos
de cálculo intensivo ou especializado, así coma os que
precisen unha alta capacidade de proceso gráfico xa que
este é un dos puntos fortes
do novo cluster.
Se prevé a utilización do clúster en diferentes eidos de traballo, desde a enxeñería, ao cálculo químico, a biotecnoloxía, Ciencias da Terra, ou o procesado
de imaxe, fotogrametría, codificación/
decodificación de vídeo en tempo real,
render, etc., así coma para campos das
Humanidades xa citados no parágrafo
anterior.
Con esta infraestrutura, ademáis de
cumplir cas directrices que buscan
aproximar os centros tecnolóxicos ao
mundo da empresa, o CESGA pretende
intensificar e ampliar as súas posibilidades de servizo á mesma, cousa que ven
facendo desde hai xa anos, así coma
animar á industria galega a utilizar o cálculo intensivo e o cloud.
No CESGA estamos empezando as probas de utilización da infraestrutura, e
para iso animamos as empresas galegas
SVG Industry
Os servizos deste computador
están orientados a utilización
por diferentes sectores dentro
das políticas da GAIN, de Industria
4.0 e das estratexias
RIS3.
Nodes
8
Así, por exemplo, o sector naval,
Cores/node o aeronáutico
20
a automoción,
e os
UAV, a industria manufactureira, a
Proc/node
2 Xeon E5-2650v3
biotecnolóxica, o audiovisual, turismo,
arquitectura
e patrimonio,NVIDIA
computación
Accel/node
/ Grid K2
emocional e semántica, etc.
RAM/node
128GB
Network
GbE
Storage/node
4TB
con proxectos de I+D ou de innovación
a que contacten con nós para avaliar as
posibilidades de utilización do clúster.
Para coñecer máis sobre a infraestrutura e as súas posibilidades de uso pode
contactar con [email protected]
A infraestrutura adquirida está constituida por 12 servidores de computación
HP Proliant DL380 Gen9, cada un equipado con 2 procesadores de arquitectura Hasswel Intel Xeon E5-2650 v3, funcionando a unha frecuencia de 2,3 GHz.
En total, estes nodos dispoñen de 20
núcleos de procesador, 128 GB de memoria DDR4 e 4 TB repartidos en dous
discos duros. Oito dos servidores incorporan un procesador gráfico Nvidia Grid
K2. Os servidores están interconectados
mediante unha rede de interconexión
de tecnoloxía gigabit ethernet. 
Diagrama Cluster Industria
2015
160 cores
2560 GB RAM
32 TB Disk
Ramón Basanta Cheda
Dpto. Transferencia (CESGA)
[email protected]
O Cluster de
cómputo
para usos
Industriais
2
120TBfoi financiado pola Xunta de Galicia a través da GAIN mediante Resolución do Conselleiro de Economía e
Shared
storage
EMC
Industria para a concesión dunha subvención directa á Fundación Pública Galega Centro Tecnolóxico de Supercomputación de Galicia (CESGA) para
o subministro dun sistema de computación e comunicacións destinados á industria.
12
díxitos agosto 2016
Centro de Supercomputación de Galicia CESGA
Humanidades
Dixitais
A
iinformática é un ámbito de traballo transversal que se pode aplicar
a múltiples campos da investigación. As humanidades son un área
que tradicionalmente vese alonxada da
informática, pero que polo contrario, pode
beneficiarse moito dela.
O CESGA, dentro das accións de difusión dos novos recursos ao dispor da investigación que ofreceu dentro do último
mes, reuníuse no mes de xuño con grupos de investigación en humanidades do
SUG, onde ademáis sentáronse as bases
de futuras colaboracións con grupos das
facultades de xeografía e historia, filosofía e filoloxía.
As humanidades dixitais comprenden
esa intersección entre a informática e as
humanidades, cunha ampla variedade de
temas de interese que van dende o tratamento informático de contidos textuais
(clasificación, organización, aplicación
de algoritmos, extracción de información
de grandes cantidades de datos, etc.)
así como a colaboración entre investigadores, proxectos e outros ámbitos para
contrastar ideas e avanzar no estudo.
Esta colaboración de dous mundos,
aparentemente tan diferentes, ten unha
influencia bidireccional, non só mediante
a aplicación das ferramentas e métodos
dixitais nas humanidades tradicionais,
senon que éstas tamén inflúen e modelan as ferramentas e as formas de
traballar na informática, ofrecendo enfoques humanistas á grandes cuestións
na informática, como por exemplo, aos
sistemas homocéntricos de interacción
entre a persoa e a máquina, a intelixencia artificial, etc.
O CESGA ofrece os seus recursos de
computación de altas prestacións, almacenamento, visualización, así como os
de sistemas de información xeográfica,
colaboración e aprendizaxe electrónico
a estes grupos de humanidades, á vez
que invita aos mesmos investigadores a
plantexar as súas necesidades específicas para a resolución de problemas na
súa área de coñecemento e así ampliar as
ferramentas e o coñecemento a dispor no
CESGA para este ámbito.
Como froito desta colaboración, para o
2016-17 o CESGA participa no curso de
doutoramento común de humanidades da
USC, impartindo dous módulos de formación: Introdución ás ferramentas TIC para
a investigación de Arte e Humanidades, e
Aplicación das TIX (Tecnoloxías da Información Xeográfica) para Artes e Humanidades. 
María José Rodríguez Malmierca
Dpto. e-Learning e Ferramentas Colaborativas
(CESGA)
[email protected]
agosto 2016 díxitos
13
CESGA Centro de Supercomputación de Galicia
Modificación da
contorna de execución
de aplicacións no
FinisTerrae II
N
os últimos anos, o CESGA estivo utilizando nos seus
computadores de cálculo varias ferramentas que
facilitan o seu uso e repartición de carga entre os
usuarios: modules e SGE. Coa actualización do supercomputador FinisTerrae, fixéronse algúns cambios para
actualizar tecnoloxicamente estes xestores, mellorando
as capacidades dispoñibles para o usuario e solucionando algunhas das dificultades que se atoparon nas
anteriores versións.
Así, a contorna modules migrouse a un novo sistema,
compatible en moitos casos co anterior, chamado Lmod.
Os comandos de uso básicos, como module loade <aplicación> seguen funcionando, pero existe unha xerarquía
de chamada. Os paquetes de software están organizados en tres niveles:
a.Paquetes core. Como os compiladores (punto fundamental de arranque). Son os que se necesitan cargar
primeiramente e darán acceso ao segundo nivel.
b.Paquetes básicos. Dependendo do compilador seleccionado, poderanse cargar algunhas librerías, aplicacións e as contornas de execución paralelo, como
o MPI solicitado.
c.Aplicacións. Finalmente, unha vez seleccionado un
compilador e unha contorna de execución paralelo,
poderase cargar a aplicación.
A execución destes módulos o que fai fundamentalmente é modificar as variables de contorna para garantir o
acceso correcto ás aplicacións. En caso necesario, ademais, un módulo cargará aqueles módulos adicionais
que o usuario non cargase previamente.
Por exemplo, supoñamos que se quere utilizar a aplicación OpenFoam. Esta aplicación depende do compilador gcc (versión 5.3.0) e da contorna de execución
paralelo OpenMPI (versión 1.10.2). Se nun primeiro momento, xusto despois de entrar no sistema, execútase o
comando module avail, obterase exclusivamente a lista
de aplicacións core.
14
díxitos agosto 2016
Centro de Supercomputación de Galicia CESGA
Para cargar a configuración da contorna para OpenFOAM, executaranse os comandos module loade gcc openmpi openfoam. A
contorna estará agora xa configurada para executar a aplicación
OpenFOAM. Ademais, agora, a lista de aplicacións dispoñibles
será diferente:
Que pasa se non sabemos as dependencias dunha aplicación
ou non sabemos se está instalada? Neste caso, disponse do comando module spider que permite buscar unha aplicación en
concreto. Por exemplo, se queremos saber se existe a aplicación
OpenFOAM, deberase executar o comando module spider openfoam. O sistema devolverá as versións que están instaladas (na
figura a 3.0+) e as dependencias que necesitan cargarse (gcc
e openmpi).
Se se desexa reinicializar a contorna, simplemente fai falta executar module purge. Ou se queremos eliminar unha aplicación,
module unload <aplicación> (por exemplo, para descargar
OpenFOAM, module unload openfoam). Hai que ter coidado
neste caso, xa que se se descarga un paquete que é necesario para outras aplicacións (por exemplo, o gcc), haberá aplicacións que quedarán inactivas e non poderán usarse. O comando
informará diso na saída, indicando que aplicacións quedaron
deshabilitadas.
Andrés Gómez Tato,
Dpto. Aplicacións e Proxectos (CESGA)
[email protected]
agosto 2016 díxitos
15
¿MÁXIMA DISPONIBILIDAD, ÓPTIMO RENDIMIENTO O
RETORNO DE INVERSIÓN MÁS RÁPIDO?
... TÉNGALO TODO.
THAT’S THE
CRITICAL DIFFERENCE.
El SAI Trinergy™ Cube va más allá de lo revolucionario en cuanto a
potencia al escalar en caliente desde 150 kW hasta 3,4 MW en una sola
unidad y conseguir una media del 98,5 % de rendimiento operativo.
Emerson Network Power presenta una nueva generación de la
tecnología de SAI más avanzada para instalaciones de alta
disponibilidad que exijan un tiempo de actividad crítico y un
máximo rendimiento. El SAI Trinergy™ Cube ofrece el retorno
de inversión más rápido del sector, el menor TCO y la máxima
disponibilidad, de modo que puede tenerlo todo.
Venga y vea por sí mismo el SAI en el
Customer Experience Center de Bolonia (Italia).
Obtenga más información en
EmersonNetworkPower.es/Trinergy-Cube
Emerson. Consider it Solved., Emerson Network Power y el logotipo de Emerson Network Power son marcas comerciales y marcas de servicio de Emerson Electric Co. ©2015 Emerson Electric Co. Todos los derechos reservados.
Descargar