RClimTool MANUAL DEL USUARIO Lizeth Llanos Herrera, estudiante de Estadística

Anuncio
RClimTool
MANUAL DEL USUARIO
Lizeth Llanos Herrera, estudiante de Estadística
Esta herramienta ha sido diseñada para el apoyo, automatización
de procesos y análisis de series climáticas dentro del convenio
CIAT-MADR. No se pretende competir, ni suplantar otras
herramientas disponibles y desarrolladas por otras entidades. Por
el contrario, buscamos un trabajo colaborativo y de
retroalimentación constante entre metodologías.
www.aclimatesectoragropecuariocolombiano.org
RClimtool ha sido diseñada con el objetivo de facilitar a los usuarios el
análisis estadístico, control de calidad, llenado de datos faltantes,
análisis de homogeneidad y cálculo de indicadores para las series
climatológicas diarias de temperatura máxima, temperatura mínima y
precipitación.
INSTALACIÓN Y EJECUCIÓN DE R
Debido a que la herramienta fue creada bajo el lenguaje de R, es indispensable tener éste programa
instalado, específicamente la versión R 2.15.0, que puede ser descargada desde el siguiente link:
http://cran.r-project.org/bin/windows/base/old/2.15.0/
Una vez lo hemos instalado, al abrirlo aparecerá la siguiente ventana:
www.aclimatesectoragropecuariocolombiano.org
INSTALACIÓN Y EJECUCIÓN DE RClimTool
Para ejecutar la interfaz de la aplicación debemos cargar el código fuente tal como se muestra en la
siguiente figura:
Una vez se ha cargado el código exitosamente aparecerá la siguiente interfaz gráfica:
www.aclimatesectoragropecuariocolombiano.org
En la figura 1 se observa la ventana principal de la herramienta, la cual se encuentra dividida en
diferentes módulos, cada uno ubicado en los paneles de la parte izquierda de la interfaz. El contenido de
estos módulos será desarrollado más adelante.
¿QUÉ HACE RClimTool?
RClimTool ofrece diferentes opciones de análisis, diseñadas con el objetivo de brindar una aplicación
que reúna todo lo necesario para llevar a cabo un estudio completo de las series climatológicas.
Para ilustrar las funciones de cada uno de los módulos, a continuación se muestra el análisis de las series
climatológicas diaria para las variables temperatura máxima, temperatura mínima y precipitación de 10
estaciones meteorológicas.
1. Lectura de datos:
En el módulo de lectura de datos encontraremos diferentes botones que nos permitirán leer y
cargar las bases de datos que contienen la información de las variables de interés. Importante: No
utilizar tildes ni la letra “ñ” para nombrar carpetas y archivos que se utilizarán con la herramienta,
ya que esto genera conflicto al momento de usar la aplicación.
El botón cambiar directorio (1) ofrece la opción de seleccionar el directorio donde se encuentran los
archivos que se van a cargar, también será la ubicación para guardar todas las salidas de la
aplicación.
1
2
Figura 1. Ventana para lectura de datos
www.aclimatesectoragropecuariocolombiano.org
En la parte (2) de la figura 1 se encuentran los botones que permite cargar la información cada una
de las variables. Por ejemplo, al dar clic en el botón Temp. Máxima aparecerá una ventana
emergente en la cual se debe ubicar el archivo que contiene las temperaturas máximas diarias de las
diferentes estaciones. Este procedimiento se realiza para las demás variables a analizar.
i
a
g
n
o
s
Ventana emergente
t
i
c
Figura 2. Ejemplo de selección
de archivo
s
R
e
En esta ventana se selecciona la ubicación y el archivo
que deseamos cargar. Seleccionamos el
p
archivo y damos clic en ok como se ve en la figura 2. Recuerde cerrar la ventana emergente cada vez
o
que se cargue una variable diferente.
r
t
( en Anexos.
Nota: El formato de los datos de entrada se especifica
)
2. Análisis gráfico – descriptivo:
Una vez tenemos los datos cargados para todas las variables a analizar, procedemos a realizar el
análisis descriptivo para cada una de ellas, para ello debemos especificar el período de análisis, útil
si se desea analizar solo una sección de la serie, por ejemplo Marzo-1990 hasta Enero-1991, si por el
contrario se desea analizar la serie completa entonces estos campos deben estar vacíos.
www.aclimatesectoragropecuariocolombiano.org
Opción de
análisis por
período
Figura 3. Ejemplo análisis descriptivo
Después de seleccionar la variable a analizar tal como se muestra en la figura 3, procedemos a dar
clic en el boto Descriptivas, los resultados se pueden visualizar en la consola de R (ver figura 4).
Consola en R
Figura 4. Análisis descriptivo
www.aclimatesectoragropecuariocolombiano.org
Para el análisis gráfico se tiene la opción de generar diferentes tipos de Gráficos automáticos, los
cuales se generan para todas las variables. Si se desea trabajar con información climatológica
mensual (promedio mensual para temperatura y total mensual para precipitación) se debe
seleccionar Mensual en la opción Tipo de análisis, luego al dar clic en alguno de los botones
(Gráficos Plot, Gráficos Boxplot o Gráficos de dispersión) aparecerá un mensaje con la ubicación de
los gráficos generados (ver figura 5).
Opción para
gráficos mensuales
Figura 5. Análisis gráfico automático
Otra opción es realizar los gráficos de forma personalizada, al dar clic en los botones del módulo
Gráficos Personalizados aparecerá una ventana donde se encuentran los campos necesarios que se
deben especificar; para los argumentos x e y, se escogen las variables mediante un lista desplegable.
Los demás argumentos, como el título, etiquetas de los ejes, color, entre otros sirven para
personalizar el gráfico (para consultar la ayuda sobre los argumentos del gráfico dar clic en el botón
Help).
Una vez seleccionadas las variables y modificados los argumentos damos clic en ok y en una nueva
ventana se desplegará el gráfico (ver figura 6).
www.aclimatesectoragropecuariocolombiano.org
Figura 6. Análisis gráfico personalizado
3. Control de calidad:
Un aspecto importante a tener en cuenta en el análisis de las series climatológicas, es el control de
calidad, que consiste en generar algunos criterios y/o filtros para ayudar a identificar datos no
razonables y/o erróneos.
Figura 7. Control de calidad
www.aclimatesectoragropecuariocolombiano.org
En la figura 7 se encuentra el módulo Control de calidad, aquí se encuentran algunos campos
editables que deben ser llenados a criterio del usuario, como el No. de desviaciones estándar, un
criterio útil para identificar datos atípicos en la serie (por defecto son 3). El Rango de la variable se
debe especificar de acuerdo con los valores lógicos esperados que puede tomar la variable.
Al dar clic en el botón Validar aparecerá un ventana que indica el estado de cada estación respecto
al rango establecido para la variable. Los criterios ejecutados en la consola son (ver figura 8):

% Datos atípicos: Se definen como el porcentaje de datos que no se encuentran dentro del
siguiente intervalo [ ̅
], donde ̅ y es el promedio muestral y la desviación estándar
muestral de la variable a validar respectivamente. Nota: Este criterio no es recomendable para la
variable precipitación ya que su distribución suele ser asimétrica.

% Datos fuera del rango: Indica el porcentaje de datos que se encuentran por fuera de los
límites definidos para el rango de la variable. Los datos identificados para este criterio serán
automáticamente reemplazados por NA’s.

% Datos tmax<tmin: Se calcula únicamente para temperaturas e indica el porcentaje de
datos en los que la temperatura máxima fue menor que la temperatura mínima en la misma
fecha. Los datos identificados para este criterio serán automáticamente reemplazados por
NA’s.

% Datos variación≥10 (TM_10): Sólo se calcula para la variable temperatura, y éste nos
indica el porcentaje de días en los cuales la variación de un dato de temperatura con
respecto a otro fue mayor o igual a 10ºC.

% Datos consecutivos: Identifica los datos iguales en un período mayor a cinco días
consecutivos en la serie analizada y éstos son reemplazados por NA’s.
Figura 8. Criterios para el control de calidad
Para los filtros datos atípicos y datos TM_10, se crearán diferentes archivos en Excel para cada una
de las estaciones, en ellos encontraremos los datos que fueron identificados aquí, acompañados con
su respectiva fecha. Se deja a criterio del usuario el reemplazar o no por NA’s los datos identificados
www.aclimatesectoragropecuariocolombiano.org
por éstos filtros, el cual se debe llevar a cabo manualmente sobre los archivos generados en la
carpeta Datos faltantes, donde se encuentran los archivos después haber realizado el Control de
calidad a todas las variables (ver figura 9).
Si se desean reemplazar los
datos identificados en el Control
de Calidad por NA’s se deben
hacer sobre estos archivos.
Carpetas con archivos de los
datos no razonables y/o
erróneos para c/estación
Figura 9. Identificación y reemplazo de datos no razonables por NA’s
Figura 10. Creación del informe preliminar
Al dar clic en el botón generar pre-informe, automáticamente se creará un archivo Word con un
informe que incluye un análisis descriptivo preliminar y los criterios generados en el módulo del
Control de calidad, complementado con los gráficos que realiza la aplicación. El pre-informe
quedará guardado en el directorio que aparece en la ventana emergente, como se muestra en la
figura 10.
www.aclimatesectoragropecuariocolombiano.org
4. Datos faltantes:
El llenado de datos faltantes es realizado mediante el paquete RMAWGEN de R, el cual a partir de la
estimación de modelos VAR realiza el llenado de los datos. Es importante resaltar que esta
metodología es útil cuando se tienen porcentajes de datos NA bajos e información de varias
estaciones que se encuentren relacionadas y que no presenten mucha variabilidad.
Para este módulo es indispensable que se tengan datos de varias estaciones en el MISMO PERÍODO
para las variables temperatura máxima, temperatura mínima y precipitación, ya que interactúan
entre sí para completar los datos faltantes.
Figura 11. Llenado de datos faltantes
www.aclimatesectoragropecuariocolombiano.org
En la figura 11 se muestran los campos necesarios que se deben especificar para el llenado de datos
faltantes, al dar clic en el botón completar datos, se iniciará el proceso que puede tardar varios
minutos.
Una vez finalice el proceso, aparecerá de nuevo una ventana indicando que el proceso ha finalizado.
En la carpeta Datos faltantes se crearán las bases de datos para cada una de las variables y los
gráficos de la serie original versus la serie generada (ver figura 12).
Carpetas con
salidas gráficas
Archivos con datos
generados (Sin datos
faltantes)
Figura 12. Ubicación archivos Datos faltantes
5. Análisis de Homogeneidad de la serie:
En este módulo se implementaron varias pruebas estadísticas con el fin de analizar la homogeneidad
de la serie:

Pruebas de normalidad: estas pruebas comprueban si los datos de la variable en estudio
proceden de una distribución normal, si se cumple este supuesto se deben utilizar pruebas
paramétricas; sino se cumple debemos acudir a las pruebas no paramétricas.

Estacionalidad (tendencia): Se propone la prueba del Rango de Correlación de Spearman* y
el Test de Mann-Kendall. Para estimaciones futuras es necesario que se cumpla este
supuesto

Estabilidad en varianza: Test F* aplicado en subconjuntos de información.

Estabilidad en Media: Incluye el Test T* y el Test U Mann-Whiney como alternativa no
paramétrica al Test T, usando las medianas como estadístico más robusto que la media.
Nota: Las pruebas con * requieren del cumplimiento del supuesto de normalidad.
En la figura 13 se observan algunos de los resultados obtenidos para este módulo, en el ejemplo se
utilizó la variable tmax y un nivel de significancia del 5%. En la consola se muestran las tablas
www.aclimatesectoragropecuariocolombiano.org
obtenidas para cada prueba, las cuales incluyen para cada estación el valor-p y la decisión de
acuerdo al nivel de significancia escogido.
Figura 13. Análisis de homogeneidad de las series
Para este módulo se encuentra opción de generar un informe que resume todas las pruebas
estadísticas incluidas en el análisis de la homogeneidad, para realizarlo damos clic en el botón
Generar Informe.
6. Calculo de indicadores:
Para el cálculo de indicadores se tienen los siguientes sub-módulos:


Indicadores anuales: Se calcula el número de días para cada año que cumplen con la
condición indicada (Mayor que o Menor que), el valor del criterio que define la condición se
deja libre al usuario.
Indicadores mensuales: Para este sub-módulo se calculan los máximos o mínimos
mensuales para la variable escogida.
Para llevar a cabo estos cálculos, primero seleccionamos el período y la variable a analizar, luego se
escoge el valor para el indicador de interés, y procedemos a dar clic sobre el checkbox del mismo. En
la carpeta Indicadores se generarán archivos de Excel con los indicadores calculados (ver figura 14).
www.aclimatesectoragropecuariocolombiano.org
Figura 14. Cálculo de indicadores anuales y mensuales
7. Condición ENSO (El Niño/Oscilación Sur):
RClimTool cuenta con información sobre la condición ENSO desde el año 1950 hasta el 2013 que se
puede consultar (ver figura 15). Después de seleccionar el período de interés se procede a dar clic
en la consulta que se desee realizar y aparecerán los resultados en la consola de R (ver figura 16).
1
2
Figura 15. Consulta Condición ENSO
www.aclimatesectoragropecuariocolombiano.org
Figura 16. Ejemplo consulta Condición ENSO
PROBLEMAS CONOCIDOS:
Un problema identificado para esta versión se encuentra en el módulo de datos faltantes, el rango de las
fechas de las variables debe estar desde el 1 de enero del año inicial de análisis hasta el 31 de diciembre
del año final, para poder llevar a cabo el llenado de datos.
REPORTE DE PROBLEMAS
Por favor reporte cualquier problema a Lizeth Llanos [email protected] y David Arango
[email protected] junto con los mensajes de error y los datos que se usaron para el análisis. También
apreciamos las sugerencias que contribuyan a mejorar la herramienta.
www.aclimatesectoragropecuariocolombiano.org
ANEXO A: FORMATO DE ENTRADA DE LOS DATOS
Los archivos que vayan a ser utilizados deben estar en formato CSV (delimitado por comas). Se deben
emplear bases diferentes para cada una de las variables, con las estaciones que se deseen analizar. Estas
bases deben cumplir con los siguientes aspectos:
1. Columnas en las siguientes secuencias: day, month, year seguido de los nombres de las estaciones.
NOTA: unidades de Precipitación= milímetros y unidades de Temperatura= grados Celsius
2. Para los casos en el que se presenten datos faltantes, se deben codificar como NA; los registros de
datos deben estar en orden cronológico. No se permite fechas faltantes.
Ejemplo de formato de datos de entrada para RClimTool:
Nombres
Estaciones
Figura 17: Formato de entrada variable precipitación
www.aclimatesectoragropecuariocolombiano.org
Figura 18: Formato de entrada variable temperatura máxima
Figura 19: Formato de entrada variable temperatura mínima
www.aclimatesectoragropecuariocolombiano.org
Descargar