controles de calidad para series temporales en el

Anuncio
CALIDAD DE DATOS
SUBTAREA 2.4
CONTROLES DE
CALIDAD PARA
SERIES TEMPORALES
EN EL ÁMBITO DEL
ESEOO
GUÍA DE UTILIZACIÓN
19/01/2007
ÍNDICE
I. INTRODUCCIÓN..............................................................................................3
II. CONTROL DE CALIDAD DE SERIES TEMPORALES ..................................4
1. Parámetros oceano-meteorológicos tratados .........................................4
2. Escala de índices de calidad.................................................................... 5
3. Archivos de entrada y salida ................................................................... 5
4. Controles de calidad................................................................................6
• Test de rango..................................................................................6
• Test de salto.................................................................................... 7
• Test de estacionalidad ................................................................... 7
5. Intervalo de muestreo .............................................................................8
III. REFERENCIAS ..............................................................................................9
2
I. INTRODUCCIÓN
El servicio de control de calidad de series temporales, accesible a través de
Internet, es un producto desarrollado de acuerdo a los objetivos de la subtarea
2.4.,
Calidad
de
Datos,
del
proyecto
ESEOO
(http://www.eseoo.org/servicios/index.htm).
Este servicio tiene como objetivo facilitar al usuario una herramienta numérica
para el análisis de la calidad de una serie temporal de datos. Esta herramienta,
como procedimiento opcional, puede ser utilizada como fase previa al uso del
servicio de Tratamiento Automático de Series Temporales (Subtarea 2.5 Análisis
Homogéneo de la Información).
El test de calidad analiza uno a uno todos los datos de una serie temporal
asignando un “flag” o etiqueta de calidad a cada uno de ellos. Estos flags,
designados por los índices qc (Quality Control), son indicativos de la validez de
los datos (dato válido, dato dudoso,…).
Tras esta sección introductoria, en un segundo apartado se muestran las
especificaciones necesarias para el uso y la comprensión del funcionamiento del
test de calidad. En particular, se hacen algunas consideraciones sobre el formato
ESEOOXML, utilizado para la entrada y salida de datos en el contexto de las
tareas de intercambio, análisis y difusión de series temporales en el marco de
ESEOO. En un tercer apartado, se presenta un ejemplo práctico sobre el empleo
de la herramienta de control de calidad de datos.
3
II. CONTROL DE CALIDAD DE SERIES TEMPORALES
1. Parámetros oceano-meteorológicos tratados
El control de calidad se ha diseñado para su aplicación homogénea a todas las
variables oceanográficas y meteorológicas de interés en el marco del sistema
español de oceanografía operacional. Cabe señalar que los parámetros de nivel
del mar no se contemplan en el análisis ya que se dispone de controles más
complejos diseñados por Puertos del Estado (Begoña Pérez Ref.)
La lista de los parámetros contemplados en el análisis es la siguiente:
•
AirPressure: Presión atmosférica.
•
AirTemp: Temperatura del aire.
•
CurrentDir: Dirección de la corriente.
•
CurrentSpeed: Velocidad de la corriente.
•
Salinity: Salinidad.
•
WaterTemp: Temperatura del agua.
•
WindDir: Dirección del viento.
•
WindSpeed: Velocidad del viento.
•
Hm0: Altura significante estimada con el momento espectral 0
•
H13: Altura significante estadística del oleaje obtenida de cruce por cero.
•
Hmax: Altura máxima estadística.
•
Tm02: Periodo medio espectral estimado con el m0 y m2.
•
Tp: Periodo de pico.
•
Tzm: Periodo medio estadístico del oleaje obtenido de cruce por cero.
•
MeanDirPeak: Dirección media del pico espectral.
•
DirSpreadingPeak: Dispersión direccional del oleaje en el pico espectral.
4
2. Escala de índices de calidad
Tal y como se ha mencionado anteriormente, cada dato de la serie temporal
tratada tendrá asociado una etiqueta de calidad, o flag, denominado qc. Los
códigos empleados son los definidos en proyectos europeos integrados
(MERSEA, ARGO, SEAMER, etc.) y recomendados por organismos
internacionales (UNESCO, IOC, IODE, ICES, etc.). La utilización de índices
normalizados permite el intercambio de datos no sólo entre los participantes del
proyecto ESEOO sino además entre los principales sistemas de oceanografía
operacional europeos e internacionales.
En la Tabla 1 se muestran los valores numéricos posibles para el flag de calidad,
así como su significado e interpretación.
Tabla 1. Significado, interpretación y valores de qc
CÓDIGO
qc=0
qc=1
qc=2
qc=3
qc=4
qc=5
qc=6
qc=7
qc=8
qc=9
SIGNIFICADO
No se ha efectuado control de calidad sobre el dato
El dato es bueno
El dato es probablemente bueno
Dato malo potencialmente corregible
El dato es malo
Valor modificado
No utilizado
No utilizado
Dato interpolado
Dato ausente
El servicio de control de calidad ESEOO podrá aplicarse tanto a series
temporales de datos que disponen ya de flags asociados como a series brutas sin
qc.
Los distintos tests que componen la herramienta se aplican sucesivamente a los
datos cuyo qc es inferior o igual a 2, es decir, un qc superior o igual a 3 no se
verá alterado.
3. Archivos de entrada y salida
El usuario de ESEOO que desee aplicar el control de calidad a una serie
temporal de datos deberá partir de un archivo tipo xml que cumpla las
especificaciones ESEOOXML (ESEOO, Subtarea 2.3). Además los datos de fecha
deberán tener obligatoriamente el formato (AAAAMMDD), mientras que los de
la hora admiten los siguientes tres: (hh), (hhmm) y (hhmmss).
Partiendo de un fichero XML que cumple las especificaciones mencionadas, y
por medio de la hoja de estilos datos2txtqc.xsl (ESEOO, Subtarea 2.3), el
programa genera un fichero ASCII de 40 columnas que recibe el nombre
datos.txt. Estas 40 columnas corresponden a la fecha, la hora y dos columnas
(parámetro, qc) por cada uno de los 19 parámetros ESEOOXML.
La hoja de estilos mencionada trata los flags de la siguiente forma:
•
Si el dato tiene un flag de calidad asociado lo escribe.
•
Si el dato NO tiene un flag de calidad asociado le asigna qc=0.
•
Si el dato NO EXISTE en el xml asigna el valor -999 a la columna de
valor y qc=6 al flag de calidad (flag de uso interno del programa).
•
Si el dato tiene el valor -999 le asigna un flag de calidad qc=4.
Tras ejecutar el programa de control de calidad, detallado en el siguiente
apartado, se obtiene un archivo tipo xml en el que cada dato tiene asignado su
flag de calidad (Figura 1).
Figura 1. Esquema de entrada y salida de la herramienta de control de calidad.
4. Controles de calidad
El programa se basa en la aplicación de los siguientes controles de calidad al
objeto de evaluar la validez de los datos: test de rango, test de salto y test de
estacionalidad.
Estos tests se basan en los valores máximo (maxvalor) y mínimo (minvalor)
permitidos, en el máximo salto permitido entre dos medidas consecutivas
(salto) y en el máximo tiempo permitido, en horas, con el que el parámetro
puede mantenerse estacionario (estac). Todos estos valores están basados y
deducidos del análisis estadístico de series históricas disponibles y
características de la climatología regional del ámbito ESEOO.
•
Test de rango
Se comprueba que el dato esté comprendido entre los límites inferior (minvalor)
y superior (maxvalor) (Tabla 2). En caso contrario se asigna el flag qc=4 y no se
procede a la aplicación de los siguientes controles.
6
•
Test de salto
Para cada dato, se determina si existen los datos anterior y posterior,
comprobando que sus flags correspondientes sean iguales o menores a 2.
Asimismo, se comprueba que los intervalos entre dato y dato sean iguales al
intervalo de muestreo. Si ambos existen, se asigna el flag 4 siempre y cuando las
diferencias absolutas con el dato anterior y posterior sean superiores al máximo
salto permitido (salto):
/ Vn − Vn −1 / > salto y / Vn − Vn +1 / > salto
donde Vn es el n-esimo valor de la serie temporal, Vn −1 el anterior y Vn +1 el
posterior.
En el caso en el que falte uno ( Vn −1 0 Vn +1 ), el test se limita a comprobar:
/ Vn − Vn −1 / > salto ó / Vn − Vn +1 / > salto
Si se carece de datos anterior y posterior, se asigna el flag 2 indicando que no se
ha podido realizar el test de salto por ser un dato aislado.
Para las series vectoriales, corrientes y viento, siempre y cuando la magnitud y
dirección pasen el test de salto, se ejecutan subrutinas adicionales para las
componentes vectoriales. En el caso de que cualquiera de las dos componentes
no pase el test, se asigna el flag 4 a las series de magnitud y dirección.
•
Test de estacionalidad
Se considera que la serie es estacionaria cuando el dato se repite durante un
tiempo superior al límite "estac" (Tabla 2), comprobando que los posibles
huecos no representen más de la mitad del periodo en cuestión.
7
5. Intervalo de muestreo
Los límites de los controles de calidad dependen a su vez del intervalo de
muestreo de las series temporales. La Tabla 2 recoge los límites establecidos
para series registradas cada 10, 30 y 60 minutos.
Tabla 2. Limites superiores e inferiores, límites de salto y estacionalidad para series
registradas cada 10, 30 y 60 minutos.
Minvalor Maxvalor
10, 30 y 60’
950
1050
-2
32
0
360
0
200
0
37
-2
32
0
360
0
30
0
20
0
20
0
25
0
20
0
25
0
20
0
360
0
100
Salto
10’ 30’
10 10
3
3
360 360
40 45
2.5 2.5
1.5 2
360 360
7
7
2
2
3
3
2.5 2.5
3.5 3.5
15 15
5
5
360 360
50 50
60’
16
4
360
50
2.5
2.5
360
10
3
3
5
5
15
5
360
50
Estac (horas)
10, 30 y 60’
12
6
72
6
72
72
72
6
12
12
12
12
12
12
72
72
Parámetro(unidad)
AirPressure (mb)
AirTemp (ºC)
CurrentDir (º)
CurrentSpeed(cm/s)
Salinity (UPS)
WaterTemp (ºC)
WindDir (º)
WindSpeed (m/s)
Hm0 (m)
H13 (m)
Hmax (m)
Tm02 (s)
Tp (s)
Tzm (s)
MeanDirPeak (º)
DirSpreadingPeak (º)
III. REFERENCIAS
ARGO data management, Argo quality control manual, v2.1, 2005.
CORIOLIS, French Operational Oceanography System : In-situ data quality
control, 2005.
ESEOO, Subtarea 2.3. EMPLEO DE XML PARA LA TRANSFERENCIA DE
DATOS DE SERIES TEMPORALES EN EL ÁMBITO DE ESEOO.
Fisheries and Oceans Canada, Marine Environmental Data Service.
GOSUD, Global Ocean Surface Underway Data Pilot Project.
ICES -GETADE Formatting Guidelines for Oceanographic Data Exchange
(http://www.ices.dk/ocean/).
ICES -MDM QA Guidelines - CTD - Marine Data Management working Group
(CIEM) Reports.
MATCOR : Analisis de datos de Corrientes, Aplicación informática en Matlab,
IEO.
MERSEA IP, In-situ real-time data quality control.
QCDAMAR : Quality Control of Oceanographic Data, IEO.
SCOOP, Software of Data Quality Control, IFREMER.
UNESCO/IOC/IODE : Manual of Quality Control Procedures for validation of
Oceanographic Data -Manuals and Guides 26- (GTSPP chapter).
UNESCO/IOC: GTSPP Real-Time Quality Control Manual - Manuals and
Guides 22, 1990.
Descargar