I N T W H E R S I T E Y S T E M S P A P E R LA AGENCIA ESPACIAL EUROPEA: TRAZADO DEL MAPA DE LA GALAXIA CON EL SATÉLITE GAIA E INTERSYSTEMS CACHÉ Resumen La Agencia Espacial Europea (ESA) ha elegido InterSystems Caché® como la tecnología de base de datos para la solución astrométrica AGIS que se empleará para analizar los datos astronómicos capturados por el satélite Gaia. La misión del satélite Gaia consiste en crear un mapa de fases preciso de unos mil millones de cuerpos celestes. Durante la misión, la solución AGIS ajustará varias veces la precisión de las observaciones espaciales del satélite Gaia, con lo que acabará logrando precisiones del orden de 20 microsegundos de arco. Con el fin de estar preparados para las grandes necesidades de datos para este proyecto, InterSystems ha participado recientemente en una prueba de concepto que ha requerido la inserción de 5.000 millones de objetos Java, de unos 600 bytes cada uno, en la base de datos de Caché dentro de un periodo de 24 horas. Ejecutándose en un procesador Intel de 64 bits y 8 núcleos con Red Hat Enterprise Linux 5.5, Caché ha proce­ sado con éxito todos los datos en 12 horas y 18 minutos, a una veloci­ dad de inserción media de 112.000 objetos/segundo. William O'Mullane, Sciencie Operations Development Manager, Agencia Espacial Europea Vik Nagjee, Product Manager, InterSystems Corporation I N T W H E R S I T E Y S T E M S P A P E R LA AGENCIA ESPACIAL EUROPEA: TRAZADO DEL MAPA DE LA GALAXIA CON EL SATÉLITE GAIA E INTERSYSTEMS CACHÉ Introducción Las misiones espaciales están pensadas a largo plazo. Dado que suelen durar de 15 a 20 años, requieren tecnologías sólidas y duraderas para el procesamiento, la ma­ nipulación y el almacenamiento de datos. Estas tecnologías también deben pro­ porcionar información actualizada fundamental sobre el procesamiento de manera que, en caso necesario, sea posible aplicar ajustes a la aeronave con rapidez. La misión Gaia es considerada el mayor reto de procesamiento de datos hasta la fecha en astronomía. Tal y como se menciona en una nota de prensa de InterSys­ tems de mayo de 2010, la Agencia Espacial Europea (ESA) ha elegido a InterSystems Caché® para que dé soporte al procesamiento científico asociado a la misión Gaia. InterSystems y el Centro Europeo de Astronomía Espacial (ESAC) trabajan juntos desde 2008 para ver de qué manera puede InterSystems Caché ofrecer una ven­ taja para algunas o la totalidad de las necesidades de procesamiento de Gaia, así como para crear una arquitectura informática asequible que pueda dar soporte a las enormes necesidades de procesamiento del proyecto Gaia. La Misión Gaia Está previsto lanzar el satélite Gaia desde la Guayana Francesa a bordo de un Soyuz­Fregat en 2012. Pasará un par de meses viajando por los 1,5 millones de km desde la Tierra hasta L2, y dedicará los 5 años siguientes a la exploración de todo el firmamento. Objetivo: crear un mapa espacial por fases de nuestra galaxia. Con dos campos de vista, un plano focal de gigapíxeles y un espectrómetro de ve­ locidad radial, este satélite, de 2.000 kg, es un topógrafo integral. En su vida útil, Gaia observará 1.000 millones de fuentes unas 80 veces cada una. Además de la astrometría y la fotometría de cada fuente, Gaia medirá espectros de unos 150.000 millones de fuentes. Se espera que la precisión en el catálogo final sea del orden de 20 microsegundos de arco. Lograr esta precisión exige un proce­ samiento extremadamente complejo. Todo el software de procesamiento de datos de Gaia está escrito en Java, incluyendo la solución astrométrica principal conocida como Astrometric Global Iterative Solution (AGIS, Solución Iterativa Global Astrométrica), que ajusta iterativamente la precisión espacial de todas las mediciones del satélite Gaia. Dado que Gaia rotará de forma libre y realizará observaciones relacionadas sólo con otras observaciones efectuadas por Gaia, los datos recopilados deben reducirse con coherencia de manera que cada una de estas observaciones individuales de fuentes celestes, el modelo de la posición y el movimiento de cada fuente, así como la posición, la órbita y la velocidad de Gaia, estén en armonía. Más tarde, todo el sistema puede alinearse con el Sistema Internacional de Referencia Celeste (ICRS, del inglés "International Celestial Reference System"). Es precisamente para AGIS, 1 I N T W H E R S I T E Y S T E M S P A P E R que supone aproximadamente del 10% al 50% de todo el procesamiento del proyecto Gaia, para lo que se ha elegido InterSystems Caché. Los objetivos científicos de Gaia son diversos, pero se puede considerar de forma global que todos ellos consisten en desentrañar la estructura y la historia de la formación de nuestra galaxia. Retos y requisitos técnicos Se espera que Gaia observe unos 109 (es decir, 1.000.000.000) cuerpos celestes que pasen por su plano focal; para cada cuerpo celeste, se espera que Gaia observe unas 100 veces cada cuerpo, lo cual suma un total de 1011 (es decir, 100.000.000.000) ob­ servaciones. De éstas, se espera que se empleen aproximadamente del 10% al 50% para construir un marco de referencia global con AGIS. Una vez se hayan cal­ ibrado y ajustado los datos del marco de referencia internacional en relación con la actitud, éstos se utilizarán para actualizar las posiciones y los movimientos del resto de fuentes del catálogo. La Figura 1 ilustra el flujo de trabajo de alto nivel del flujo de datos entre la base de datos principal y la base de datos de AGIS Caché. FIGURA 1: FLUJO DE TRABAJO DE ALTO NIVEL PARA EXTRACCIÓN Y PROCESAMIENTO DE DATOS DE AGIS Anteriormente se estimaba que la base de datos de AGIS Caché contendría los datos para unas 100.000.000 fuentes (con un total de 10.000.000.000 observa­ ciones). Se calculaba que el tamaño de estos datos sería de unos 20 terabytes. Re­ cientemente, sin embargo, se ha sugerido que la base de datos de AGIS podría contener hasta 500.000.000 fuentes (sumando 50.000.000.000 observaciones), dando lugar a una base de datos de 100 terabytes. Es necesario que estos datos se procesen (o se inserten) en la base de datos dentro de los 7 días siguientes de manera que dicho procesamiento pueda comenzar de inmediato. Una vez se hayan introducido los datos en AGIS, se espera que se necesiten unas 40 iteraciones para calibrar y ajustar los datos por completo, y que este proceso se re­ alice en 120 días. Al finalizar el ajuste, los datos procedentes de AGIS se vuelven a introducir en la base de datos principal y se inicia el ciclo siguiente. Este proce­ samiento reiterativo continuará para toda la duración de la misión. Además, todo 2 I N T W H E R S I T E Y S T E M S P A P E R el procesamiento de datos de Gaia es reiterativo: las posiciones mejoradas de AGIS permiten otros procesos, como la fotometría y la variabilidad para obtener mejores resultados. Éstos, a su vez, se utilizan para mejorar la siguiente solución AGIS. Procesamiento de datos en la base de datos de AGIS Caché El modelo de datos de AGIS comprende varios objetos y se define con interfaces Java. En especial, AGIS trata cada observación como un objeto AstroElementary discreto. Tal como ilustra la Figura 2, el objeto AstroElementary contiene diversas propiedades (en su mayor parte del tipo de datos largos IEEE) y ocupa unos 600 bytes en disco. class AstroElementary { long transitTimes[]; long transitTimeErrors[]; long HEALPIXID; long HTMID; double etaObs[]; double zetaRes; double[] sourceParam; double[] etaRes; double zeta; double zetaError; float flux; float fluxError; float bg; float bgError; long id; long telescope; long ccdRow; short pixelColumns[]; long detTime; long detTimeError; int typeFlag; long sourceId; } FIGURE 2: THE ASTROELEMENTARY DATA MODEL Además, la base de datos de AGIS contiene varios índices de apoyo que se gen­ eran durante la fase de procesamiento. Estos índices proporcionan ayuda con con­ sultas durante el procesamiento de AGIS, así como funciones de elaboración de informes ad hoc. Utilizando InterSystems Caché, con su característica Caché eXTreme for Java, di­ versos programas de Java de AGIS procesarán los 100 terabytes de datos genera­ dos por Gaia como 50.000.000.000 objetos AstroElementary discretos. Este procesamiento de datos, junto con la generación de los índices de apoyo, debe completarse en 5 días, y así producir una velocidad sostenida de procesamiento de datos de unos 115.000 objetos AstroElementary por segundo. Prueba de concepto de procesamiento de datos Como prueba de concepto, InterSystems y ESAC, en colaboración con ingenieros de NetApp, han desarrollado un banco de pruebas para el procesamiento de 5.000 millones (5.000.000.000) de objetos AstroElementary, aproximadamente el 10% del volumen total de datos esperado en la base de datos de AGIS para el final de la misión. A escala, estos datos deberían procesarse en 12 horas. Sin embargo, dado que para esta prueba de concepto se está utilizando un hardware que no es para entornos de producción, ESAC determinó que el resultado de la prueba de concepto se declararía positivo si estos datos se procesaran en 24 horas. En la Tabla 1 se resumen las especificaciones del sistema de prueba proporcionado para este test: System Information / Details Server One 8­core Intel­based system OS Red Hat Enterprise Linux 5.5 (2.6.18­194.el5), 64­bit Memory 32GB RAM 11GB allocated to Caché (global buffers) File System ext3 Storage NetApp FAS3160 with 176 x 1 TB SATA disks @ 7200 RPM Network 10 GigE, single­port, single­channel, Jumbo Frames enabled Connection between iSCSI over 10 GigE host and storage Caché Version 2010.2, Field Test 6 (plus ad­hoc updates) TABLA 1: RESUMEN DE LA ARQUITECTURA DEL SISTEMA DE PRUEBA 3 I N T W H E R S I T E Y S T E M S P A P E R Usando la funcionalidad Caché eXTreme for Java, el agente de pruebas pudo proce­ sar los 5.000.000.000 objetos AstroElementary discretos en 12 horas y 18 minu­ tos, logrando una velocidad media sostenida de 112.000 objetos por segundo. Item Value Number of AstroElementary objects ingested 5,000,000,000 Total run time 44,616 seconds (~12.5 hours) Target (allotted) run time 86,400 seconds (24 hours) Average ingestion rate 112,000 objects/second TABLA 2: RESUMEN DE RESULTADOS DE LA PRUEBA DE CONCEPTO DE PROCESAMIENTO DE DATOS La prueba se consideró excepcionalmente satisfactoria, en especial porque las in­ serciones se completaron en casi la mitad de tiempo de las 24 horas asignadas, con una configuración de sistema básica. Es probable que las próximas pruebas de procesamiento de datos incluyan varios programas de procesamiento paralelos, con lo que se espera poder aumentar más la velocidad de procesamiento de datos y reducir el tiempo total necesario para el mismo. Conclusión En la prueba de concepto realizada por la Agencia Espacial Europea e InterSys­ tems, se insertaron datos astrométricos de muestra en la base de datos de Inter­ Systems Caché a una velocidad media de 112.000 objetos por segundo. Toda la prueba se completó en 12 horas y 18 minutos, justo por encima de la mitad del tiempo asignado de 24 horas, empleando hardware de prueba básico. Como re­ sultado, se demuestra que Caché sigue siendo la elección adecuada como tec­ nología de base de datos para las enormes exigencias de procesamiento de datos del satélite Gaia para cartografiar la galaxia. 4 I N T W H E R S I T E Y S T E M S P A P E R Acerca de Caché InterSystems Caché® es una base de datos de alto rendimiento que permite el ac­ ceso de objetos, SQL y multidimensional a los datos, sin mapeo. Es la base de apli­ caciones de vanguardia en todo el mundo en los sectores sanitarios, financieros, las administraciones públicas, las telecomunicaciones, el comercio y otros mer­ cados verticales. Acerca de Caché eXTreme for Java Caché eXTreme for Java es una nueva función de la base de datos InterSystems Caché que expone las características de empresa y de alto rendimiento de Caché a Java mediante la JNI (interfaz nativa de Java, del inglés "Java Native Interface"). Per­ mite la comunicación "en proceso" entre Java y Caché, proporcionando así un al­ macenamiento y una recuperación de datos de una latencia extremadamente baja. Para obtener más información, visite InterSystems.com/java. Acerca de ESA La Agencia Espacial Europea (ESA) es la puerta de enlace de Europa con el espacio. Su misión consiste en dar forma al desarrollo de las capacidades espaciales de Eu­ ropa y asegurar que la inversión en el sector espacial continúe generando ventajas para los ciudadanos europeos y el mundo. El trabajo de la ESA consiste en planificar el programa espacial europeo y llevarlo a cabo. Los programas de la ESA están dis­ eñados para saber más sobre la Tierra, su entorno espacial inmediato, nuestro sis­ tema solar y el universo, así como para desarrollar tecnologías y servicios basados en los satélites, y para promover las industrias europeas. La ESA también colabora estrechamente con organizaciones espaciales de fuera de Europa. La ESA tiene sedes en diversos países europeos, cada una de las cuales tiene responsabilidades distintas. El Centro Europeo de Astronomía Espacial (ESAC, del inglés "European Space Astronomy Centre") es el centro de la ESA dedicado a la ciencia espacial situado cerca de Madrid, en España. ESAC es la ubicación desde la que se llevan a cabo las operaciones científicas para los telescopios europeos, y donde todos los datos científicos que éstas generan se archivan y se ponen a disposición del mundo. Acerca de InterSystems InterSystems Corporation es un líder mundial en tecnología de software con sede central en Cambridge, Massachusetts, y oficinas en 23 países. InterSystems proporciona tecnología avanzada para aplicaciones de vanguardia. InterSystems Caché es una base de datos de objetos de alto rendimiento que hace las aplicaciones más rápidas y escalables. InterSystems Ensemble® es una plataforma perfecta para la integración y el desarrollo de aplicaciones conectables. InterSystems HealthShare™ es una plataforma que permite la más rápida creación de una Historia Clínica Electrónica para el intercambio de información sanitaria regional o nacional. InterSystems DeepSee™ es un software que permite incluir conocimiento empresarial en tiempo real en las aplicaciones transaccionales. Para obtener más información, visite InterSystems.com. 5 InterSystems Corporation InterSystems Iberia S.L. World Headquarters Oficina en España One Memorial Drive Avda. de Europa, 12 ­ Edif. Mónaco Cambridge, MA 02142­1356 Parque Empresarial de la Moraleja (Madrid) Tel: +1.617.621.0600 Telf: +34 914.841.880 Fax: +1.617.494.1631 Fax: +34 916.626.084 InterSystems.com InterSystems.es InterSystems Ensemble e InterSystems Caché son marcas comerciales de InterSystems Corporation. InterSystems DeepSee e InterSystems HealthShare son marcas comerciales de InterSystems Corporation. Otros nombres de producto son marcas comerciales de sus respectivos proveedores. Copyright©2011 InterSystems Corporation. Todos los derechos reservados D01­03/11