CALIDAD DE DATOS SUBTAREA 2.4 CONTROLES DE CALIDAD PARA SERIES TEMPORALES EN EL ÁMBITO DEL ESEOO GUÍA DE UTILIZACIÓN 19/01/2007 ÍNDICE I. INTRODUCCIÓN..............................................................................................3 II. CONTROL DE CALIDAD DE SERIES TEMPORALES ..................................4 1. Parámetros oceano-meteorológicos tratados .........................................4 2. Escala de índices de calidad.................................................................... 5 3. Archivos de entrada y salida ................................................................... 5 4. Controles de calidad................................................................................6 • Test de rango..................................................................................6 • Test de salto.................................................................................... 7 • Test de estacionalidad ................................................................... 7 5. Intervalo de muestreo .............................................................................8 III. REFERENCIAS ..............................................................................................9 2 I. INTRODUCCIÓN El servicio de control de calidad de series temporales, accesible a través de Internet, es un producto desarrollado de acuerdo a los objetivos de la subtarea 2.4., Calidad de Datos, del proyecto ESEOO (http://www.eseoo.org/servicios/index.htm). Este servicio tiene como objetivo facilitar al usuario una herramienta numérica para el análisis de la calidad de una serie temporal de datos. Esta herramienta, como procedimiento opcional, puede ser utilizada como fase previa al uso del servicio de Tratamiento Automático de Series Temporales (Subtarea 2.5 Análisis Homogéneo de la Información). El test de calidad analiza uno a uno todos los datos de una serie temporal asignando un “flag” o etiqueta de calidad a cada uno de ellos. Estos flags, designados por los índices qc (Quality Control), son indicativos de la validez de los datos (dato válido, dato dudoso,…). Tras esta sección introductoria, en un segundo apartado se muestran las especificaciones necesarias para el uso y la comprensión del funcionamiento del test de calidad. En particular, se hacen algunas consideraciones sobre el formato ESEOOXML, utilizado para la entrada y salida de datos en el contexto de las tareas de intercambio, análisis y difusión de series temporales en el marco de ESEOO. En un tercer apartado, se presenta un ejemplo práctico sobre el empleo de la herramienta de control de calidad de datos. 3 II. CONTROL DE CALIDAD DE SERIES TEMPORALES 1. Parámetros oceano-meteorológicos tratados El control de calidad se ha diseñado para su aplicación homogénea a todas las variables oceanográficas y meteorológicas de interés en el marco del sistema español de oceanografía operacional. Cabe señalar que los parámetros de nivel del mar no se contemplan en el análisis ya que se dispone de controles más complejos diseñados por Puertos del Estado (Begoña Pérez Ref.) La lista de los parámetros contemplados en el análisis es la siguiente: • AirPressure: Presión atmosférica. • AirTemp: Temperatura del aire. • CurrentDir: Dirección de la corriente. • CurrentSpeed: Velocidad de la corriente. • Salinity: Salinidad. • WaterTemp: Temperatura del agua. • WindDir: Dirección del viento. • WindSpeed: Velocidad del viento. • Hm0: Altura significante estimada con el momento espectral 0 • H13: Altura significante estadística del oleaje obtenida de cruce por cero. • Hmax: Altura máxima estadística. • Tm02: Periodo medio espectral estimado con el m0 y m2. • Tp: Periodo de pico. • Tzm: Periodo medio estadístico del oleaje obtenido de cruce por cero. • MeanDirPeak: Dirección media del pico espectral. • DirSpreadingPeak: Dispersión direccional del oleaje en el pico espectral. 4 2. Escala de índices de calidad Tal y como se ha mencionado anteriormente, cada dato de la serie temporal tratada tendrá asociado una etiqueta de calidad, o flag, denominado qc. Los códigos empleados son los definidos en proyectos europeos integrados (MERSEA, ARGO, SEAMER, etc.) y recomendados por organismos internacionales (UNESCO, IOC, IODE, ICES, etc.). La utilización de índices normalizados permite el intercambio de datos no sólo entre los participantes del proyecto ESEOO sino además entre los principales sistemas de oceanografía operacional europeos e internacionales. En la Tabla 1 se muestran los valores numéricos posibles para el flag de calidad, así como su significado e interpretación. Tabla 1. Significado, interpretación y valores de qc CÓDIGO qc=0 qc=1 qc=2 qc=3 qc=4 qc=5 qc=6 qc=7 qc=8 qc=9 SIGNIFICADO No se ha efectuado control de calidad sobre el dato El dato es bueno El dato es probablemente bueno Dato malo potencialmente corregible El dato es malo Valor modificado No utilizado No utilizado Dato interpolado Dato ausente El servicio de control de calidad ESEOO podrá aplicarse tanto a series temporales de datos que disponen ya de flags asociados como a series brutas sin qc. Los distintos tests que componen la herramienta se aplican sucesivamente a los datos cuyo qc es inferior o igual a 2, es decir, un qc superior o igual a 3 no se verá alterado. 3. Archivos de entrada y salida El usuario de ESEOO que desee aplicar el control de calidad a una serie temporal de datos deberá partir de un archivo tipo xml que cumpla las especificaciones ESEOOXML (ESEOO, Subtarea 2.3). Además los datos de fecha deberán tener obligatoriamente el formato (AAAAMMDD), mientras que los de la hora admiten los siguientes tres: (hh), (hhmm) y (hhmmss). Partiendo de un fichero XML que cumple las especificaciones mencionadas, y por medio de la hoja de estilos datos2txtqc.xsl (ESEOO, Subtarea 2.3), el programa genera un fichero ASCII de 40 columnas que recibe el nombre datos.txt. Estas 40 columnas corresponden a la fecha, la hora y dos columnas (parámetro, qc) por cada uno de los 19 parámetros ESEOOXML. La hoja de estilos mencionada trata los flags de la siguiente forma: • Si el dato tiene un flag de calidad asociado lo escribe. • Si el dato NO tiene un flag de calidad asociado le asigna qc=0. • Si el dato NO EXISTE en el xml asigna el valor -999 a la columna de valor y qc=6 al flag de calidad (flag de uso interno del programa). • Si el dato tiene el valor -999 le asigna un flag de calidad qc=4. Tras ejecutar el programa de control de calidad, detallado en el siguiente apartado, se obtiene un archivo tipo xml en el que cada dato tiene asignado su flag de calidad (Figura 1). Figura 1. Esquema de entrada y salida de la herramienta de control de calidad. 4. Controles de calidad El programa se basa en la aplicación de los siguientes controles de calidad al objeto de evaluar la validez de los datos: test de rango, test de salto y test de estacionalidad. Estos tests se basan en los valores máximo (maxvalor) y mínimo (minvalor) permitidos, en el máximo salto permitido entre dos medidas consecutivas (salto) y en el máximo tiempo permitido, en horas, con el que el parámetro puede mantenerse estacionario (estac). Todos estos valores están basados y deducidos del análisis estadístico de series históricas disponibles y características de la climatología regional del ámbito ESEOO. • Test de rango Se comprueba que el dato esté comprendido entre los límites inferior (minvalor) y superior (maxvalor) (Tabla 2). En caso contrario se asigna el flag qc=4 y no se procede a la aplicación de los siguientes controles. 6 • Test de salto Para cada dato, se determina si existen los datos anterior y posterior, comprobando que sus flags correspondientes sean iguales o menores a 2. Asimismo, se comprueba que los intervalos entre dato y dato sean iguales al intervalo de muestreo. Si ambos existen, se asigna el flag 4 siempre y cuando las diferencias absolutas con el dato anterior y posterior sean superiores al máximo salto permitido (salto): / Vn − Vn −1 / > salto y / Vn − Vn +1 / > salto donde Vn es el n-esimo valor de la serie temporal, Vn −1 el anterior y Vn +1 el posterior. En el caso en el que falte uno ( Vn −1 0 Vn +1 ), el test se limita a comprobar: / Vn − Vn −1 / > salto ó / Vn − Vn +1 / > salto Si se carece de datos anterior y posterior, se asigna el flag 2 indicando que no se ha podido realizar el test de salto por ser un dato aislado. Para las series vectoriales, corrientes y viento, siempre y cuando la magnitud y dirección pasen el test de salto, se ejecutan subrutinas adicionales para las componentes vectoriales. En el caso de que cualquiera de las dos componentes no pase el test, se asigna el flag 4 a las series de magnitud y dirección. • Test de estacionalidad Se considera que la serie es estacionaria cuando el dato se repite durante un tiempo superior al límite "estac" (Tabla 2), comprobando que los posibles huecos no representen más de la mitad del periodo en cuestión. 7 5. Intervalo de muestreo Los límites de los controles de calidad dependen a su vez del intervalo de muestreo de las series temporales. La Tabla 2 recoge los límites establecidos para series registradas cada 10, 30 y 60 minutos. Tabla 2. Limites superiores e inferiores, límites de salto y estacionalidad para series registradas cada 10, 30 y 60 minutos. Minvalor Maxvalor 10, 30 y 60’ 950 1050 -2 32 0 360 0 200 0 37 -2 32 0 360 0 30 0 20 0 20 0 25 0 20 0 25 0 20 0 360 0 100 Salto 10’ 30’ 10 10 3 3 360 360 40 45 2.5 2.5 1.5 2 360 360 7 7 2 2 3 3 2.5 2.5 3.5 3.5 15 15 5 5 360 360 50 50 60’ 16 4 360 50 2.5 2.5 360 10 3 3 5 5 15 5 360 50 Estac (horas) 10, 30 y 60’ 12 6 72 6 72 72 72 6 12 12 12 12 12 12 72 72 Parámetro(unidad) AirPressure (mb) AirTemp (ºC) CurrentDir (º) CurrentSpeed(cm/s) Salinity (UPS) WaterTemp (ºC) WindDir (º) WindSpeed (m/s) Hm0 (m) H13 (m) Hmax (m) Tm02 (s) Tp (s) Tzm (s) MeanDirPeak (º) DirSpreadingPeak (º) III. REFERENCIAS ARGO data management, Argo quality control manual, v2.1, 2005. CORIOLIS, French Operational Oceanography System : In-situ data quality control, 2005. ESEOO, Subtarea 2.3. EMPLEO DE XML PARA LA TRANSFERENCIA DE DATOS DE SERIES TEMPORALES EN EL ÁMBITO DE ESEOO. Fisheries and Oceans Canada, Marine Environmental Data Service. GOSUD, Global Ocean Surface Underway Data Pilot Project. ICES -GETADE Formatting Guidelines for Oceanographic Data Exchange (http://www.ices.dk/ocean/). ICES -MDM QA Guidelines - CTD - Marine Data Management working Group (CIEM) Reports. MATCOR : Analisis de datos de Corrientes, Aplicación informática en Matlab, IEO. MERSEA IP, In-situ real-time data quality control. QCDAMAR : Quality Control of Oceanographic Data, IEO. SCOOP, Software of Data Quality Control, IFREMER. UNESCO/IOC/IODE : Manual of Quality Control Procedures for validation of Oceanographic Data -Manuals and Guides 26- (GTSPP chapter). UNESCO/IOC: GTSPP Real-Time Quality Control Manual - Manuals and Guides 22, 1990.