WP Cache Charting the

Anuncio
I N T
W H
E R
S
I T E
Y S T E M S
P
A P E R
LA AGENCIA ESPACIAL EUROPEA:
TRAZADO DEL MAPA DE LA GALAXIA CON EL SATÉLITE GAIA
E INTERSYSTEMS CACHÉ
Resumen
La Agencia Espacial Europea (ESA) ha elegido InterSystems Caché®
como la tecnología de base de datos para la solución astrométrica AGIS
que se empleará para analizar los datos astronómicos capturados por el
satélite Gaia.
La misión del satélite Gaia consiste en crear un mapa de fases preciso de
unos mil millones de cuerpos celestes. Durante la misión, la solución
AGIS ajustará varias veces la precisión de las observaciones espaciales
del satélite Gaia, con lo que acabará logrando precisiones del orden de
20 microsegundos de arco.
Con el fin de estar preparados para las grandes necesidades de datos
para este proyecto, InterSystems ha participado recientemente en una
prueba de concepto que ha requerido la inserción de 5.000 millones de
objetos Java, de unos 600 bytes cada uno, en la base de datos de Caché
dentro de un periodo de 24 horas. Ejecutándose en un procesador Intel
de 64 bits y 8 núcleos con Red Hat Enterprise Linux 5.5, Caché ha proce­
sado con éxito todos los datos en 12 horas y 18 minutos, a una veloci­
dad de inserción media de 112.000 objetos/segundo.
William O'Mullane, Sciencie Operations Development Manager, Agencia Espacial Europea
Vik Nagjee, Product Manager, InterSystems Corporation
I N T
W H
E R
S
I T E
Y S T E M S
P
A P E R
LA AGENCIA ESPACIAL EUROPEA:
TRAZADO DEL MAPA DE LA GALAXIA CON EL SATÉLITE GAIA
E INTERSYSTEMS CACHÉ
Introducción
Las misiones espaciales están pensadas a largo plazo. Dado que suelen durar de 15
a 20 años, requieren tecnologías sólidas y duraderas para el procesamiento, la ma­
nipulación y el almacenamiento de datos. Estas tecnologías también deben pro­
porcionar información actualizada fundamental sobre el procesamiento de manera
que, en caso necesario, sea posible aplicar ajustes a la aeronave con rapidez.
La misión Gaia es considerada el mayor reto de procesamiento de datos hasta la
fecha en astronomía. Tal y como se menciona en una nota de prensa de InterSys­
tems de mayo de 2010, la Agencia Espacial Europea (ESA) ha elegido a InterSystems
Caché® para que dé soporte al procesamiento científico asociado a la misión Gaia.
InterSystems y el Centro Europeo de Astronomía Espacial (ESAC) trabajan juntos
desde 2008 para ver de qué manera puede InterSystems Caché ofrecer una ven­
taja para algunas o la totalidad de las necesidades de procesamiento de Gaia, así
como para crear una arquitectura informática asequible que pueda dar soporte a
las enormes necesidades de procesamiento del proyecto Gaia.
La Misión Gaia
Está previsto lanzar el satélite Gaia desde la Guayana Francesa a bordo de un
Soyuz­Fregat en 2012. Pasará un par de meses viajando por los 1,5 millones de km
desde la Tierra hasta L2, y dedicará los 5 años siguientes a la exploración de todo
el firmamento. Objetivo: crear un mapa espacial por fases de nuestra galaxia.
Con dos campos de vista, un plano focal de gigapíxeles y un espectrómetro de ve­
locidad radial, este satélite, de 2.000 kg, es un topógrafo integral. En su vida útil,
Gaia observará 1.000 millones de fuentes unas 80 veces cada una.
Además de la astrometría y la fotometría de cada fuente, Gaia medirá espectros de
unos 150.000 millones de fuentes. Se espera que la precisión en el catálogo final
sea del orden de 20 microsegundos de arco. Lograr esta precisión exige un proce­
samiento extremadamente complejo.
Todo el software de procesamiento de datos de Gaia está escrito en Java,
incluyendo la solución astrométrica principal conocida como Astrometric Global
Iterative Solution (AGIS, Solución Iterativa Global Astrométrica), que ajusta
iterativamente la precisión espacial de todas las mediciones del satélite Gaia. Dado
que Gaia rotará de forma libre y realizará observaciones relacionadas sólo con
otras observaciones efectuadas por Gaia, los datos recopilados deben reducirse
con coherencia de manera que cada una de estas observaciones individuales de
fuentes celestes, el modelo de la posición y el movimiento de cada fuente, así como
la posición, la órbita y la velocidad de Gaia, estén en armonía. Más tarde, todo el
sistema puede alinearse con el Sistema Internacional de Referencia Celeste (ICRS,
del inglés "International Celestial Reference System"). Es precisamente para AGIS,
1
I N T
W H
E R
S
I T E
Y S T E M S
P
A P E R
que supone aproximadamente del 10% al 50% de todo el procesamiento del
proyecto Gaia, para lo que se ha elegido InterSystems Caché.
Los objetivos científicos de Gaia son diversos, pero se puede considerar de forma
global que todos ellos consisten en desentrañar la estructura y la historia de la
formación de nuestra galaxia.
Retos y requisitos técnicos
Se espera que Gaia observe unos 109 (es decir, 1.000.000.000) cuerpos celestes que
pasen por su plano focal; para cada cuerpo celeste, se espera que Gaia observe unas
100 veces cada cuerpo, lo cual suma un total de 1011 (es decir, 100.000.000.000) ob­
servaciones. De éstas, se espera que se empleen aproximadamente del 10% al
50% para construir un marco de referencia global con AGIS. Una vez se hayan cal­
ibrado y ajustado los datos del marco de referencia internacional en relación con
la actitud, éstos se utilizarán para actualizar las posiciones y los movimientos del
resto de fuentes del catálogo. La Figura 1 ilustra el flujo de trabajo de alto nivel
del flujo de datos entre la base de datos principal y la base de datos de AGIS Caché.
FIGURA 1: FLUJO DE TRABAJO DE ALTO NIVEL PARA EXTRACCIÓN Y PROCESAMIENTO DE DATOS DE AGIS
Anteriormente se estimaba que la base de datos de AGIS Caché contendría los
datos para unas 100.000.000 fuentes (con un total de 10.000.000.000 observa­
ciones). Se calculaba que el tamaño de estos datos sería de unos 20 terabytes. Re­
cientemente, sin embargo, se ha sugerido que la base de datos de AGIS podría
contener hasta 500.000.000 fuentes (sumando 50.000.000.000 observaciones),
dando lugar a una base de datos de 100 terabytes. Es necesario que estos datos se
procesen (o se inserten) en la base de datos dentro de los 7 días siguientes de
manera que dicho procesamiento pueda comenzar de inmediato.
Una vez se hayan introducido los datos en AGIS, se espera que se necesiten unas 40
iteraciones para calibrar y ajustar los datos por completo, y que este proceso se re­
alice en 120 días. Al finalizar el ajuste, los datos procedentes de AGIS se vuelven a
introducir en la base de datos principal y se inicia el ciclo siguiente. Este proce­
samiento reiterativo continuará para toda la duración de la misión. Además, todo
2
I N T
W H
E R
S
I T E
Y S T E M S
P
A P E R
el procesamiento de datos de Gaia es reiterativo: las posiciones mejoradas de AGIS
permiten otros procesos, como la fotometría y la variabilidad para obtener mejores
resultados. Éstos, a su vez, se utilizan para mejorar la siguiente solución AGIS.
Procesamiento de datos en la base de datos de AGIS Caché
El modelo de datos de AGIS comprende varios objetos y se define con interfaces Java.
En especial, AGIS trata cada observación como un objeto AstroElementary discreto.
Tal como ilustra la Figura 2, el objeto AstroElementary contiene diversas propiedades
(en su mayor parte del tipo de datos largos IEEE) y ocupa unos 600 bytes en disco.
class AstroElementary {
long transitTimes[];
long transitTimeErrors[];
long HEALPIXID;
long HTMID;
double etaObs[];
double zetaRes;
double[] sourceParam;
double[] etaRes;
double zeta;
double zetaError;
float flux;
float fluxError;
float bg;
float bgError;
long id;
long telescope;
long ccdRow;
short pixelColumns[];
long detTime;
long detTimeError;
int typeFlag;
long sourceId;
}
FIGURE 2: THE ASTROELEMENTARY
DATA MODEL
Además, la base de datos de AGIS contiene varios índices de apoyo que se gen­
eran durante la fase de procesamiento. Estos índices proporcionan ayuda con con­
sultas durante el procesamiento de AGIS, así como funciones de elaboración de
informes ad hoc.
Utilizando InterSystems Caché, con su característica Caché eXTreme for Java, di­
versos programas de Java de AGIS procesarán los 100 terabytes de datos genera­
dos por Gaia como 50.000.000.000 objetos AstroElementary discretos.
Este procesamiento de datos, junto con la generación de los índices de apoyo, debe
completarse en 5 días, y así producir una velocidad sostenida de procesamiento
de datos de unos 115.000 objetos AstroElementary por segundo.
Prueba de concepto de procesamiento de datos
Como prueba de concepto, InterSystems y ESAC, en colaboración con ingenieros
de NetApp, han desarrollado un banco de pruebas para el procesamiento de 5.000
millones (5.000.000.000) de objetos AstroElementary, aproximadamente el 10%
del volumen total de datos esperado en la base de datos de AGIS para el final de
la misión. A escala, estos datos deberían procesarse en 12 horas. Sin embargo,
dado que para esta prueba de concepto se está utilizando un hardware que no es
para entornos de producción, ESAC determinó que el resultado de la prueba de
concepto se declararía positivo si estos datos se procesaran en 24 horas.
En la Tabla 1 se resumen las especificaciones del sistema de prueba proporcionado
para este test:
System
Information / Details
Server
One 8­core Intel­based system
OS
Red Hat Enterprise Linux 5.5 (2.6.18­194.el5), 64­bit
Memory
32GB RAM 11GB allocated to Caché (global buffers)
File System
ext3
Storage
NetApp FAS3160 with 176 x 1 TB SATA disks @ 7200 RPM
Network
10 GigE, single­port, single­channel, Jumbo Frames enabled
Connection between
iSCSI over 10 GigE
host and storage
Caché Version
2010.2, Field Test 6 (plus ad­hoc updates)
TABLA 1: RESUMEN DE LA ARQUITECTURA DEL SISTEMA DE PRUEBA
3
I N T
W H
E R
S
I T E
Y S T E M S
P
A P E R
Usando la funcionalidad Caché eXTreme for Java, el agente de pruebas pudo proce­
sar los 5.000.000.000 objetos AstroElementary discretos en 12 horas y 18 minu­
tos, logrando una velocidad media sostenida de 112.000 objetos por segundo.
Item
Value
Number of AstroElementary objects ingested
5,000,000,000
Total run time
44,616 seconds (~12.5 hours)
Target (allotted) run time
86,400 seconds (24 hours)
Average ingestion rate
112,000 objects/second
TABLA 2: RESUMEN DE RESULTADOS DE LA PRUEBA DE CONCEPTO DE PROCESAMIENTO DE DATOS
La prueba se consideró excepcionalmente satisfactoria, en especial porque las in­
serciones se completaron en casi la mitad de tiempo de las 24 horas asignadas, con
una configuración de sistema básica.
Es probable que las próximas pruebas de procesamiento de datos incluyan varios
programas de procesamiento paralelos, con lo que se espera poder aumentar más
la velocidad de procesamiento de datos y reducir el tiempo total necesario para
el mismo.
Conclusión
En la prueba de concepto realizada por la Agencia Espacial Europea e InterSys­
tems, se insertaron datos astrométricos de muestra en la base de datos de Inter­
Systems Caché a una velocidad media de 112.000 objetos por segundo. Toda la
prueba se completó en 12 horas y 18 minutos, justo por encima de la mitad del
tiempo asignado de 24 horas, empleando hardware de prueba básico. Como re­
sultado, se demuestra que Caché sigue siendo la elección adecuada como tec­
nología de base de datos para las enormes exigencias de procesamiento de datos
del satélite Gaia para cartografiar la galaxia.
4
I N T
W H
E R
S
I T E
Y S T E M S
P
A P E R
Acerca de Caché
InterSystems Caché® es una base de datos de alto rendimiento que permite el ac­
ceso de objetos, SQL y multidimensional a los datos, sin mapeo. Es la base de apli­
caciones de vanguardia en todo el mundo en los sectores sanitarios, financieros,
las administraciones públicas, las telecomunicaciones, el comercio y otros mer­
cados verticales.
Acerca de Caché eXTreme for Java
Caché eXTreme for Java es una nueva función de la base de datos InterSystems
Caché que expone las características de empresa y de alto rendimiento de Caché a
Java mediante la JNI (interfaz nativa de Java, del inglés "Java Native Interface"). Per­
mite la comunicación "en proceso" entre Java y Caché, proporcionando así un al­
macenamiento y una recuperación de datos de una latencia extremadamente baja.
Para obtener más información, visite InterSystems.com/java.
Acerca de ESA
La Agencia Espacial Europea (ESA) es la puerta de enlace de Europa con el espacio.
Su misión consiste en dar forma al desarrollo de las capacidades espaciales de Eu­
ropa y asegurar que la inversión en el sector espacial continúe generando ventajas
para los ciudadanos europeos y el mundo. El trabajo de la ESA consiste en planificar
el programa espacial europeo y llevarlo a cabo. Los programas de la ESA están dis­
eñados para saber más sobre la Tierra, su entorno espacial inmediato, nuestro sis­
tema solar y el universo, así como para desarrollar tecnologías y servicios basados
en los satélites, y para promover las industrias europeas. La ESA también colabora
estrechamente con organizaciones espaciales de fuera de Europa.
La ESA tiene sedes en diversos países europeos, cada una de las cuales tiene
responsabilidades distintas.
El Centro Europeo de Astronomía Espacial (ESAC, del inglés "European Space
Astronomy Centre") es el centro de la ESA dedicado a la ciencia espacial situado
cerca de Madrid, en España. ESAC es la ubicación desde la que se llevan a cabo las
operaciones científicas para los telescopios europeos, y donde todos los datos
científicos que éstas generan se archivan y se ponen a disposición del mundo.
Acerca de InterSystems
InterSystems Corporation es un líder mundial en tecnología de software con sede
central en Cambridge, Massachusetts, y oficinas en 23 países. InterSystems
proporciona tecnología avanzada para aplicaciones de vanguardia. InterSystems
Caché es una base de datos de objetos de alto rendimiento que hace las
aplicaciones más rápidas y escalables. InterSystems Ensemble® es una plataforma
perfecta para la integración y el desarrollo de aplicaciones conectables.
InterSystems HealthShare™ es una plataforma que permite la más rápida creación
de una Historia Clínica Electrónica para el intercambio de información sanitaria
regional o nacional. InterSystems DeepSee™ es un software que permite incluir
conocimiento empresarial en tiempo real en las aplicaciones transaccionales. Para
obtener más información, visite InterSystems.com.
5
InterSystems Corporation
InterSystems Iberia S.L.
World Headquarters
Oficina en España
One Memorial Drive
Avda. de Europa, 12 ­ Edif. Mónaco
Cambridge, MA 02142­1356
Parque Empresarial de la Moraleja (Madrid)
Tel: +1.617.621.0600
Telf: +34 914.841.880
Fax: +1.617.494.1631
Fax: +34 916.626.084
InterSystems.com
InterSystems.es
InterSystems Ensemble e InterSystems Caché son marcas comerciales de InterSystems Corporation. InterSystems DeepSee e InterSystems HealthShare son marcas comerciales de InterSystems Corporation. Otros
nombres de producto son marcas comerciales de sus respectivos proveedores. Copyright©2011 InterSystems Corporation. Todos los derechos reservados D01­03/11
Descargar