Resultados de los primeros FTS tests T2>T1 WNs WNs - Indico

Anuncio
Resultados de los primeros FTS tests T2­­>T1
(Xavier Espinal­IFAE/PIC 31/03/2006)
Se han monitorizado las primeras pruebas de transferencia Tier2­­>Tier1. Los tests efectuados han sido de tres tipos:
a) 100 Transferencias de archivos de 100MB (emulando SIM­RAW, SIM­ESD y SIM­AOD)
b) 100 Transferencias de archivos de 1GB c) Transferencias sostenidas (1000 archivos de 100MB)
Channel
IFIC­PIC
UAM­PIC
IFAE­PIC
Test Type
OK
Failed (error)
a
100%
0%
b1
65%
35%(Failed on SRM get: SRM getRequestStatus)
b2
100%
c
<Rate>
2.47 MB/s
Streams Simultaneous
1
1
Plot#1
1
1
0%
42.8 MB/s
10
10
90%
10%(Transfer failed. ERROR the server sent an error response: 550 550 rfio write failure: No space left on device)
Plot#2
1
1
a
97%
3% (Failed on SRM put:Failed to put SURL...)
0.54 MB/s
1
1
b1
94%
6%(TRANSFER ­ Transfer timed out)
0.52 MB/s
1
1
b2
­
1
1
c
Esperando monitorización gridView
10
10
a
100%
0%
3.96MB/s
1
1
b1
100%
0%
14.9 MB/s
1
1
b2
100%
0%
58.1MB/s
10
10
1
1
c
Esperando monitorización gridView
Plot#1: Test b) IFIC­PIC
Plot#2: Test c) IFIC­PIC
WNs
WNs
En estos plots se puede ver como los transfers FTS pueden separarse de las transferencias puntuales de los WNs, ya que van de SE a SE.
Antes de empezar los tests FTS se realizaron tests de transferencia simples con SRM (dcache y CASTOR) y gridFTP para testear los canales. Los resultados están resumidos en la siguiente figura:
Incidencias y errores mas frecuentes:
+ Failed on SRM get: SRM getRequestStatus: Se ha solucionado haciendo un restart del SRM.
También hemos encontrado que la duplicidad de nombres en diferentes directorios ha causado un fallo de transferencia, el archivo se encontraba tanto en: /castor/ific.uv.es/scratch/file­test­xavi.dat como en: /castor/ific.uv.es/grid/atlas/test/preSC4T1T2/file­test.dat y SRM ha fallado al servir el fichero.
+ Transfer failed. ERROR the server sent an error response: 550 550 rfio write failure: No space left on device:
Desincronización de CASTOR, reporta un espacio en disco que realmente no existe. Se soluciona haciendo un StageIn, se sincroniza el espacio libre y las transferencias vuelven a arrancar. Esta acción se realiza automáticamente cada cierto tiempo. + Failed on SRM put: Failed To Put SURL. Error in srm__put: SOAP­ENV:Client ­ CGSI­gSOAP: Could not open connection !; also failing to do 'advisoryDelete' on target.
Se reinicia el servicio opt del servidor : dcache./opt/d­cache/bin/dcache­opt restart
+ TRANSFER ­ Transfer timed out
Transferencias que no empiezan y exceden el time out de FTS (30 minutos)
Los DataFlows según el Computing Model de ATLAS (teniendo en cuenta que la contribución española es del 5%), desde el punto de vista Tier2­Tier1, es el siguiente: (Refs. [1] y [2]) Conclusiones
+ Después de la realización de los primeros tests, podemos decir que gozamos de buena transferencia entre los Tier­2 IFIC/IFAE­PIC, pero deberíamos mejorar el canal UAM­PIC ya que los tests nos han dado una transferencia media de 0.5MB/s, hemos de entender porque tenemos este rate y solucionarlo.
+ Como hemos visto en el gráfico anterior, para el SC4 deberíamos ser capaces de tener un throughput de los Tier­2 al Tier­1 de 4MB/s (entre los tres Tier­2). De hecho conforme con los resultados de este primer test podemos decir que estamos en el buen camino.
+ El servidor FTS se ha mantenido estable durante todo el periodo de test y la nueva versión con Oracle no ha manifestado problema alguno. + La herramienta de monitorización gridView ha funcionado perfectamente para los sites que tienen funcionando RGMA. ToBeDone
+ Quedan 2 tests de transferencia entre UAM­PIC (b2 y c). Estamos a la espera de solucionar algunos problemas de transferencia y interrupciones. Se relanzarán todos los tests de este canal tan pronto como solucionemos estos problemas.
+ Estamos a la espera de la publicación de los datos por RGMA de los sites UAM y IFAE para así poder monitorizar usando gridView las transferencias, de este modo podemos seguir las evoluciones temporalmente en intervalos de una hora. Por esta razón se aplazan los tests sostenidos (c) para los canales IFAE­PIC y UAM­PIC hasta la publicación de RGMA.
+ Cuando tengamos lista la página web del Tier2­Español podriamos colgar los reportes de los tests. Referencias:
[1] Atlas Computing TDR
[2] https://uimon.cern.ch/twiki/bin/view/Atlas/Tier1DataFlow) 
Descargar