Aplicación de técnicas estadísticas en las series Climatológicas

Anuncio
CORPORACIÓN AUTONOMA REGIONAL DEL VALLE DEL CAUCA
CVC
DIRECCIÓN TÉCNICA AMBIENTAL
APLICACIÓN DE TÉCNICAS ESTADÍSTICAS EN LAS SERIES
CLIMATOLÓGICAS MENSUALES TOTALES DE PRECIPITACIÓN,
EVAPORACIÓN Y BRILLO SOLAR, CON EL FIN DE CORREGIR,
COMPLEMENTAR Y VERIFICAR LA CALIDAD DE LA INFORMACIÓN
GRUPO DE GESTIÓN Y APOYO A LA INGENIERÍA AGRÍCOLA DE COLOMBIA
GAIACOL
Ing. Sandra Teresa Escobar Carmona
Santiago de Cali
2006
CORPORACIÓN AUTONOMA REGIONAL DEL VALLE DEL CAUCA
CVC
DIRECCIÓN TÉCNICA AMBIENTAL
APLICACIÓN DE TÉCNICAS ESTADÍSTICAS EN LAS SERIES
CLIMATOLÓGICAS MENSUALES TOTALES DE PRECIPITACIÓN,
EVAPORACIÓN Y BRILLO SOLAR, CON EL FIN DE CORREGIR,
COMPLEMENTAR Y VERIFICAR LA CALIDAD DE LA INFORMACIÓN
Orden de Trabajo No. 945 de junio 16 de 2005
GRUPO DE GESTIÓN Y APOYO A LA INGENIERÍA AGRÍCOLA DE COLOMBIA
GAIACOL
Ing. Sandra Teresa Escobar Carmona
Equipo de Trabajo
Estadístico Harold Orlando González P.
Ing. Héctor Fabio Aristizabal R.
Asesor
Dr. Yesid Carvajal E.
Santiago de Cali
2006
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
2
TABLA DE CONTENIDO
1
INTRODUCCIÓN
7
2
OBJETIVOS
8
3
4
5
2.1
OBJETIVO GENERAL
8
2.2
OBJETIVOS ESPECÍFICOS
8
MARCO CONCEPTUAL
9
3.1 ANÁLISIS EXPLORATORIO DE DATOS
3.1.1 ETAPAS DEL A.E.D.
3.1.2 ANÁLISIS ESTADÍSTICO UNIDIMENSIONAL
9
9
10
3.2 ANÁLISIS CONFIRMATORIO DE DATOS
3.2.1 PRUEBAS PARAMÉTRICAS
3.2.2 PRUEBAS NO PARAMÉTRICAS
10
10
11
RESULTADOS
13
4.1
LOCALIZACIÓN ZONA DE ESTUDIO
13
4.2
RECOLECCIÓN, PROCESAMIENTO DE INFORMACIÓN
14
ANÁLISIS DE LAS SERIES DE PRECIPITACIÓN TOTAL MENSUAL
5.1 ANÁLISIS EXPLORATORIO DE DATOS SERIES HISTÓRICAS DE
PRECIPITACIÓN
5.1.1 A.E.D. SERIES HISTÓRICAS DE PRECIPITACIÓN PARA LLENADO
DE DATOS FALTANTES
5.1.1.1 NÚMERO DE CASOS
5.1.1.2 ANÁLISIS DESCRIPTIVO
5.1.1.3 VALORES EXTREMOS
5.1.1.4 ANÁLISIS GRÁFICO
5.1.2 ANÁLISIS EXPLORATORIO DE DATOS SERIES HISTÓRICAS
EXCLUIDAS DEL LLENADO DE DATOS FALTANTES
5.1.2.1 NÚMERO DE CASOS
5.1.2.2 ANÁLISIS DESCRIPTIVO
5.1.2.3 VALORES EXTREMOS
5.1.2.4 ANÁLISIS GRÁFICO
5.1.2.5 CONTRASTE DE HIPÓTESIS
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
3
15
15
15
15
16
16
17
18
19
19
20
21
22
5.2
CÁLCULO DE DATOS FALTANTES
5.3
ANÁLISIS CONFIRMATORIO DE DATOS. SERIES HISTÓRICAS
22
MEDIAS MENSUALES DE PRECIPITACIÓN
5.4
23
ANÁLISIS CONFIRMATORIO DE DATOS. SERIES HISTÓRICAS
MEDIAS MENSUALES DE PRECIPITACIÓN NO INCLUIDAS EN EL
ANALISIS DE COMPONENTES PRINCIPALES
26
6 ANÁLISIS DE LAS SERIES DE EVAPORACIÓN TOTAL, BRILLO SOLAR TOTAL Y
TEMPERATURA MEDIA
28
6.1
ANÁLISIS EXPLORATORIO DE LOS DATOS SERIES HISTÓRICAS
TOTALES MENSUALES MULTIANUALES DE EVAPORACIÓN Y BRILLO
SOLAR, ASÍ COMO LAS MEDIAS MENSUALES MULTIANUALES DE
TEMPERATURA
6.1.1 ANÁLISIS EXPLORATORIO DE DATOS. SERIES HISTÓRICAS
TOTALES DE EVAPORACIÓN
6.1.2 ANÁLISIS EXPLORATORIO DE DATOS. SERIES HISTORICAS
TOTALES DE BRILLO SOLAR
6.1.3 ANÁLISIS EXPLORATORIO DE DATOS. SERIES HISTORICAS
MEDIAS DE TEMPERATURA
7
28
28
30
33
6.2
CÁLCULO DE DATOS FALTANTES
34
6.3
ANÁLISIS CONFIRMATORIO DE DATOS
34
CONCLUSIONES Y RECOMENDACIONES
BIBLIOGRAFÍA
37
137
ANEXOS
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
4
INDICE DE TABLAS
Pag.
Tabla No. 1
Porcentaje de datos. Series históricas de precipitación total
14
Tabla No. 2
Estadísticos descriptivos. Series históricas de precipitación total
19
Tabla No. 3
Valores extremos. Series históricas de precipitación total
23
Tabla No. 4
Pruebas de contraste de hipótesis. Series históricas de
precipitación total
Tabla No. 5
39
Porcentaje de datos. Series históricas de precipitación total
excluidas del llenado de datos faltantes
Tabla No. 6
Estadísticos descriptivos. Series históricas de precipitación
total excluidas del llenado de datos faltantes
Tabla No. 7
49
Pruebas de contraste de hipótesis. Series históricas de
precipitación total excluidas del llenado de datos faltantes
Tabla No. 9
48
Valores extremos. Series históricas de precipitación total
excluidas del llenado de datos faltantes
Tabla No. 8
43
59
Resumen estadísticos de contraste, pruebas de hipótesis.
Series históricas completas de precipitación total
66
Tabla No. 10 Resumen resultados de las pruebas aplicadas a las series
históricas completas de precipitación total para detectar tendencias
67
Tabla No. 11 Resumen estadísticos de contraste, pruebas de hipótesis. Series
históricas de precipitación total excluidas del llenado de datos faltantes 71
Tabla No. 12 Resumen resultados de las pruebas aplicadas a las series
históricas de precipitación total excluidas del llenado de datos faltantes 73
Tabla No. 13 Porcentaje de datos. Series históricas de evaporación total
79
Tabla No. 14 Estadísticos descriptivos. Series históricas de evaporación total
80
Tabla No. 15 Valores extremos. Series históricas de evaporación total
81
Tabla No. 16 Pruebas de contraste de hipótesis. Series históricas de
evaporación total
87
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
5
Tabla No. 17 Porcentaje de datos. Series históricas de brillo solar total
91
Tabla No. 18 Estadísticos descriptivos. Series históricas de brillo solar total
92
Tabla No. 19 Valores extremos. Series históricas de brillo solar total
92
Tabla No. 20 Porcentaje de datos. Series históricas de temperatura media
99
Tabla No. 21 Estadísticos descriptivos. Series históricas de temperatura media
100
Tabla No. 22 Valores extremos. Series históricas de temperatura media
100
Tabla No. 23 Resumen estadísticos de contraste, pruebas de hipótesis.
Series históricas de brillo solar total
107
Tabla No. 24 Resumen estadísticos de contraste, pruebas de hipótesis.
Series históricas de evaporación total
108
Tabla No. 25 Resumen estadísticos de contraste, pruebas de hipótesis.
Series históricas de temperatura media
109
Tabla No. 26 Resumen resultados de las pruebas aplicadas a las series
históricas de brillo solar total para detectar tendencias
110
Tabla No. 27 Resumen resultados de las pruebas aplicadas a las series
históricas de evaporación total para detectar tendencias
111
Tabla No. 28 Resumen resultados de las pruebas aplicadas a las series
históricas de temperatura media para detectar tendencias
112
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
6
1 INTRODUCCIÓN
La Corporación Autónoma Regional del Valle del Cauca a lo largo de sus 51 años ha
establecido un red para el monitoreo de las variables hidroclimatológicas, que permita
conocer y caracterizar el comportamiento climático en su área de influencia, esta red
se localiza desde el departamento del Cauca, aguas arriba del Embalse Salvajina
hasta el norte del Valle del Cauca en inmediaciones del departamento de Risaralda.
Está compuesta por 94 estaciones pluviométricas, 23 pluviográficas, 15 estaciones
climatológicas y 9 evaporimétricas, cuyo manejo lo ejecuta la Corporación.
Adicionalmente pertenecen algunas estaciones que son manejadas por otras
entidades, entre ellas IDEAM, EPSA, Cenicaña, algunos ingenios azucareros y
Cenicafé.
La información registrada en las diferentes estaciones es la utilizada para realizar las
caracterizaciones climáticas de los diversos proyectos y estudios desarrollados en el
departamento, por lo tanto es de suma importancia garantizar al usuario final la
calidad de la información disponible en la Corporación. La estadística proporciona los
medios suficientes para garantizar esta calidad, mediante la aplicación de diferentes
tipos de análisis de las series de datos.
En este estudio se realizó el análisis estadístico de las series históricas mensuales
multianuales de precipitación total, evaporación total, brillo solar total y temperatura
media, dicho análisis se efectuó en dos etapas, Análisis Exploratorio y Análisis
Confirmatorio de Datos, se requirió en algunos casos el complemento de los datos,
realizado por medio del análisis de componentes principales.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
7
2 OBJETIVOS
2.1
OBJETIVO GENERAL
Aplicar técnicas estadísticas de punta que permitan corregir y complementar los vacíos
existentes en las series climatológicas mensuales totales de precipitación (268
estaciones), evaporación(46 estaciones) y brillo solar (29 estaciones), además de los
valores medios mensuales de temperatura (31 estaciones) de la red de monitoreo.
2.2
OBJETIVOS ESPECÍFICOS
•
Realizar el Análisis Exploratorio de Datos (A.E.D.) en las series históricas
climatológicas mensuales totales de precipitación y evaporación, así como en las
series medias mensuales de brillo solar y temperatura, para determinar relaciones
entre las variables analizadas.
•
Realizar el Análisis Confirmatorio de Datos (A.C.D.) en las series históricas
climatológicas mensuales totales de precipitación y evaporación, así como en las
series medias mensuales de brillo solar y temperatura, por medio de pruebas
paramétricas y no paramétricas que permitan detectar cambios y tendencias.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
8
3 MARCO CONCEPTUAL
3.1
ANÁLISIS EXPLORATORIO DE DATOS
La finalidad del Análisis Exploratorio de Datos (AED) es examinar los datos previamente a
la aplicación de cualquier técnica estadística. De esta forma el analista consigue un
entendimiento básico de sus datos y de las relaciones existentes entre las variables
analizadas.
El AED proporciona métodos sencillos para organizar y preparar los datos, detectar fallos
en el diseño y recogida de datos, tratamiento y evaluación de datos ausentes,
identificación de casos atípicos y comprobación de los supuestos subyacentes en la
mayor parte de las técnicas multivariantes. (http://www.5campus.com/leccion/aed)
El Análisis Exploratorio de Datos (A.E.D.) es un conjunto de técnicas estadísticas cuya
finalidad es conseguir un entendimiento básico de los datos y de las relaciones existentes
entre las variables analizadas. Para conseguir este objetivo el A.E.D. proporciona
métodos sistemáticos sencillos para organizar y preparar los datos, detectar fallos en el
diseño y recogida de los mismos, tratamiento y evaluación de datos ausentes (missing),
identificación de casos atípicos (outliers) y comprobación de los supuestos subyacentes
en la mayor parte de las técnicas multivariantes (normalidad, linealidad,
homocedasticidad).
El examen previo de los datos es un paso necesario, que lleva tiempo, y que
habitualmente se descuida por parte de los analistas de datos. Las tareas implícitas en
dicho examen pueden parecer insignificantes y sin consecuencias a primera vista, pero
son una parte esencial de cualquier análisis estadístico.
3.1.1 ETAPAS DEL A.E.D.
Para realizar un A.E.D. conviene seguir las siguientes etapas:
1) Preparar los datos para hacerlos accesibles a cualquier técnica estadística.
2) Realizar un examen gráfico de la naturaleza de las variables individuales a analizar y
un análisis descriptivo numérico que permita cuantificar algunos aspectos gráficos de los
datos.
3) Realizar un examen gráfico de las relaciones entre las variables analizadas y un
análisis descriptivo numérico que cuantifique el grado de interrelación existente entre
ellas.
4) Evaluar, si fuera necesario, algunos supuestos básicos subyacentes a muchas técnicas
estadísticas como, por ejemplo, la normalidad, linealidad y homocedasticidad.
5) Identificar los posibles casos atípicos (outliers) y evaluar el impacto potencial que
puedan ejercer en análisis estadísticos posteriores.
6) Evaluar, si fuera necesario, el impacto potencial que pueden tener los datos ausentes
(missing) sobre la representatividad de los datos analizados.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
9
3.1.2 ANÁLISIS ESTADÍSTICO UNIDIMENSIONAL
Una vez organizados los datos, el segundo paso de un A.E.D. consiste en realizar un
análisis estadístico gráfico y numérico de las variables del problema con el fin de tener
una idea inicial de la información contenida en el conjunto de datos así como detectar la
existencia de posibles errores en la codificación de los mismos.
El tipo de análisis a realizar depende de la escala de medida de la variable analizada.
El análisis gráfico se efectúa utilizando los gráficos:
•
•
•
Histogramas, que es un gráfico descriptivo que resumen la distribución del
conjunto univariado de datos. Este tipo de gráfico muestra con relación a los
datos: el centro, la dispersión, la asimetría, la presencia de valores atípicos y la
ocurrencia de múltiples modas.
Diagrama de Cajas: utilizado para obtener información relativa a la concentración
y variación de los datos. Cuando se obtienen varias de ellas permiten ilustrar los
cambios en las medidas de concentración y la variación entre conjunto de datos.
Diagrama de Cuantiles: en estos se confrontan los cuantiles acumuladas de una
variable con los de una distribución normal. Si la variable seleccionada coincide
con la distribución de prueba, los puntos se concentran en torno a una línea recta.
El análisis numérico se realiza por medio de las medidas de tendencia central como son,
media, moda y mediana; las medidas de dispersión desviación estándar, varianza y el
coeficiente de variación y las medidas de simetría coeficiente de asimetría y coeficiente
de Curtosis.
3.2
ANÁLISIS CONFIRMATORIO DE DATOS
Para estudiar la homogeneidad en la media y la varianza de las series al detectar cambios
y tendencias, se usaron pruebas paramétricas como no paramétricas, para este caso
específico se tuvieron en cuenta 7 de ellas, con estas se busca contrastar diversas
hipótesis, según la naturaleza de cada prueba.
Se explicará brevemente cada una de las pruebas realizadas.
3.2.1 PRUEBAS PARAMÉTRICAS
Estas pruebas son basadas en muestreos de una población con parámetros específicos,
como la media, la desviación estándar o la proporción. Estos métodos paramétricos
usualmente tienen que ajustarse a algunas condiciones completamente estrictas, así
como el requisito de que los datos de la muestra provengan de una población
normalmente distribuida. (Aviles-Garay, www.pucpr.edu/facultad/ejaviles/ED800Files)
¾ Prueba t de Student
Como todos los estadísticos de contraste se basa en el cálculo de estadísticos
descriptivos previos: el número de observaciones, la media y la desviación típica en cada
grupo. A través de estos estadísticos previos se calcula el estadístico de contraste
experimental. Con la ayuda de tablas se obtiene a partir de dicho estadístico el p-valor. Si
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
10
p <0.05 se concluye que hay diferencia entre los dos tratamientos. (www.ebiometria.com/ebiometria/conceptos_basicos/la_prueba_mas_universal.htm)
¾ Prueba t para muestras independientes y varianzas iguales
Conocida también como la prueba t homocedástica, asume que las varianzas de
ambas muestras son iguales y sirve para determinar si las medias son iguales.
(Carvajal, 2004)
¾ Prueba t para muestras independientes y varianzas desiguales
Conocida también como la prueba t heterocedástica, para varianzas desiguales en
ambas muestras, y sirve para determinar si las medias de dos muestras son iguales.
Si la significancia es mayor que 0.05 se concluye que no existen diferencias
significativas entre las medias de las muestras. (Carvajal, 2004)
3.2.2 PRUEBAS NO PARAMÉTRICAS
Aunque el término no paramétrico sugiere que la prueba no está basada en un parámetro,
hay algunas pruebas no paramétricas que dependen de un parámetro tal como la media.
Las pruebas no paramétricas, sin embargo, no requieren una distribución particular, de
manera que algunas veces son referidas como pruebas de libre distribución. (AvilesGaray, www.pucpr.edu/facultad/ejaviles/ED800Files)
¾ Prueba de Levene
Es un test de homogeneidad de varianzas que contrasta hasta que punto la muestra tiene
una varianza homogénea; no es tan exigente respecto a la normalidad de la distribución;
cuanto más próximo a 1 sea el estadístico y por tanto mayor su nivel de significancia, más
probable es que sea cierta la hipótesis nula de que las varianzas no difieren
significativamente.
¾ Prueba Kolmogorov-Smirnov para una muestra
Se utiliza para determinar el grado de ajuste de los datos a una distribución normal. Se
basa en las diferencias de porcentajes entre la distribución acumulada observada y estos
mismos porcentajes para la función acumulada teórica normal. La hipótesis nula se
plantea en términos de que la muestra procede de una población en la que la variable
sigue o se ajusta a una distribución normal, en tanto que la hipótesis alternativa, que no
es así, es decir, que los datos empíricos u observados no se ajustan a la distribución
normal.
¾ Prueba Z de Kolmogorov-Smirnov para dos muestras
Otra alternativa no paramétrica al contraste t para dos muestras con datos independientes
lo constituye esta prueba, que prueba si dos muestras proceden de poblaciones con la
misma distribución y que está basada en la comparación de la funciones de distribución
de ambas muestras. Cuando el nivel de significancia es p>0.05, se acepta la hipótesis
nula de que no existen diferencias significativas entre las distribuciones de ambas
muestras. (Carvajal, 2004)
¾ Prueba U de Mann-Whitney
Es la prueba no paramétrica homóloga a la prueba paramétrica t de Student, de
comparación de dos muestras observadas con datos independientes, se usa para
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
11
encontrar si dos muestras proceden de poblaciones simétricas que tienen la misma media
o mediana.
El procedimiento que se sigue en esta prueba, consiste en unir las dos muestras y
posteriormente ordenar sus valores que toman independientemente de la muestra a que
pertenecen para que después se les asignen los rangos a la muestra conjunta. Luego se
calcularán para cada muestra, la suma de los rangos que le correspondan y estas sumas
se utilizan para obtener la estadística de prueba. (Meneses B., http://www.
uv.mx/iiesca/revista2/bety1.html)
Se recomienda en casos donde la muestra no sigue una distribución normal, tiene
tamaños de muestra muy reducidos o varianzas desiguales, ya que no parte de ningún
requisito previo para su aplicación.
¾ Prueba de Kruskall-Wallis
El test de Kruskall-Wallis es una extensión del test de Mann-Whitney; en lugar de utilizar
los valores de cada variable, el test, utiliza sus rangos. Esta prueba permite decidir si p
muestras independientes proceden o no de una misma población. Normalmente, los dos
muestras se diferencian entre sí; el problema a resolver consiste en comprobar si tales
diferencias pueden ser explicadas por el azar, con lo cual no podría negarse que las
muestras provienen de la misma población, o más bien, las diferencias son lo
suficientemente grandes como para que no puedan ser explicadas por el azar y en ese
caso concluir que las muestras proceden de poblaciones diferentes.
Si el nivel de confianza establecido para la prueba es de 0.05 y el valor de p es superior,
no se puede rechazar la hipótesis de que las p medias provienen de una misma
distribución, dicho de otra forma, las diferencias no son
estadísticamente significativas. (Carvajal, 2004)
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
12
4
4.1
RESULTADOS
LOCALIZACIÓN ZONA DE ESTUDIO
En el sector central del Sur – Occidente colombiano se encuentra el Departamento del
Valle del Cauca, entre los 3º 05´ y 5º 0´ de Latitud Norte y los 75º 41´ y 77º33´ de Longitud
Oeste; comprende 42 municipios y presenta dentro de sus límites políticos tres regiones
bien definidas; la costa Pacífica, el valle interandino del Río Cauca y la región andina a la
que corresponden las cordilleras Occidental y Central, en dichas regiones se define
claramente el régimen de precipitación. Figura 1
Figura1 Localización general de la zona de estudio.
En la Costa Pacífica, las lluvias máximas se presentan en un solo periodo del año,
durante los meses de Septiembre, Octubre y Noviembre (más de 700 mm./mes), los
meses restantes registran lluvias pero de menor intensidad. El régimen unimodal es
producido por los vientos provenientes del Océano Pacífico que soplan la mayor parte del
tiempo, originando así una zona de alta pluviosidad durante todos los meses del año.
El Valle geográfico del Río Cauca y las Cordilleras Occidental y Central, presentan
comportamientos similares, aunque los promedios son diferentes para ambas zonas. El
régimen de distribución de la precipitación es bimodal, con dos trimestres secos en los
meses de Diciembre – Enero – Febrero y Junio – Julio – Agosto y dos periodos lluviosos
en Marzo – Abril – Mayo y Septiembre – Octubre – Noviembre. Este comportamiento es
el resultado de la actividad de la ZCIT (Zona de Confluencia Intertropical), esta se localiza
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
13
en el sur durante los meses de Enero y Febrero, comienza su desplazamiento hacia el
norte a mediados de Marzo, concluyendo su recorrido a mediados del año. Durante el
mes de Septiembre inicia el desplazamiento hacia el sur, el cual termina en el mes de
Enero.
4.2
RECOLECCIÓN, PROCESAMIENTO DE INFORMACIÓN
•
Tomando como referencia el catálogo de estaciones en funcionamiento de la red de
monitoreo de la Corporación, se procede a hacer la recopilación de la información
disponible, a su vez se determina la información a solicitar a las instituciones que
están incluidas en dicha red, pero que en la Corporación no existen registros o no se
encuentran completos.
En una primera etapa se recolecta la información
correspondiente a las series históricas de precipitación total mensual multianual, la
cual se extrae de las estaciones pluviométricas, pluviográficas, climatológicas y
evaporimétricas. Posteriormente se efectúa la recolección de las series históricas
totales mensuales multianuales de evaporación y las medias mensuales multianuales
de brillo solar y temperatura, estas son medidas en las estaciones climatológicas y
evaporimétricas de la red.
•
Seguidamente se procede a realizar el procesamiento de esta información, con el fin
de compatibilizarlo con el formato de datos requerido para su análisis y manejo; en
este caso se requiere formato de datos extensión xls (Microsoft Excel) (La información
será procesada de acuerdo a la secuencia de consecución, es decir, se iniciará con
las series totales mensuales de precipitación). Simultáneamente se lleva a cabo una
selección previa de las estaciones, en esta se excluyen las estaciones con un
porcentaje alto de datos faltantes, como es el caso del salto en los años de registro,
así como también las que poseen fechas de inicio muy recientes, estas estaciones no
ofrecen una serie de datos lo suficientemente larga para realizar los tratamientos
requeridos.
•
Pasada esta etapa de procesamiento previo de la información se realiza un análisis de
los datos de las estaciones preseleccionadas para el estudio; este análisis consistirá
en una inspección detallada de los datos con el fin de detectar la cantidad de datos
faltantes (el cual no debe exceder del 10%), la adecuada distribución geográfica (que
permita el cubrimiento de las regiones satisfactoriamente), según esta selección se
divide la información en apta para realizar el llenado de datos y en no apta para
efectuar esta actividad. Este procedimiento se ejecutó tanto para las series de
precipitación, como de evaporación, brillo solar y temperatura.
Como de antemano ya se dejó explícito el estudio se realizará dividiendo el
Departamento del Valle del Cauca en cuatro zonas por sus condiciones orográficas y
los regímenes climatológicos. De este análisis se definirá el periodo hidrológico para
cada una de las zonas en que fue dividido correspondiente a cada parámetro en
estudio.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
14
5 ANÁLISIS DE LAS SERIES DE PRECIPITACIÓN TOTAL
MENSUAL
5.1
ANÁLISIS EXPLORATORIO DE DATOS SERIES HISTÓRICAS DE
PRECIPITACIÓN
Con el propósito de facilitar el análisis de la información, dado la gran cantidad de
estaciones, se dividió este análisis en las estaciones que se les efectuará el llenado de los
datos y de manera independiente las estaciones restantes, es decir las estaciones que
poseen fechas de inicio más recientes y/o se encuentran suspendidas.
5.1.1 A.E.D. SERIES HISTÓRICAS DE PRECIPITACIÓN PARA LLENADO DE
DATOS FALTANTES
Con las series históricas de precipitación, adecuadamente organizadas y con el formato
idóneo, se procede a realizar un análisis preliminar de la información, el cual permitirá
tener un primer conocimiento del comportamiento de dichas series. Para ello se
ingresaron dichas series en el programa estadístico SPSS 11.5, que mediante la
generación de parámetros estadísticos y representaciones gráficas permiten inspeccionar
los datos, identificar valores atípicos, obtener descripciones, comprobar supuestos y
caracterizar diferencias entre subpoblaciones. La inspección de los datos puede mostrar
que existen valores inusuales, valores extremos, discontinuidades en los datos u otras
peculiaridades. Además la exploración de los datos puede ayudar a determinar si son
adecuadas las técnicas estadísticas que está teniendo en consideración para el análisis
de los datos.
A continuación se presentan los resultados de esta etapa de la metodología.
5.1.1.1 NÚMERO DE CASOS
En la Tabla No. 1 se muestra el número total de datos de cada una de las estaciones
usadas en el estudio, detectando el número de datos faltantes y asignándole su
correspondiente porcentaje. De lo cual se puede resumir que el 23.35% de las
estaciones poseen las series de datos completos, es decir, no posee datos faltantes en
sus series históricas; el 35.92% tiene entre 1 y 5 datos faltantes, el porcentaje de datos
faltantes que corresponde al rango entre 6 y 10 datos es de 10.14%, con 20.35% entre
11 y 20 datos ausentes, entre 21 y 30 datos faltantes el 7.18% y mayores a 30 datos el
2.99%.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
15
5.1.1.2 ANÁLISIS DESCRIPTIVO
En la Tabla No. 2 se organizaron los principales parámetros que permiten realizar un
primer análisis de las series de datos, en esta tabla se encuentran relacionados los
estadísticos: media, mediana, varianza, desviación estándar, coeficiente de curtosis,
coeficiente de asimetría y coeficiente de variación, los cuales serán analizados a
continuación.
¾ Coeficiente de Curtosis: En la Tabla No. 2 se puede apreciar que la Estación La
Italia posee el coeficiente de curtosis más grande (16.481), por lo cual se puede
decir que esta serie posee un comportamiento leptocúrtico, lo cual refleja la
elevada concentración de los datos alrededor de la zona central de la distribución;
del mismo modo se nota que la Estación Las Brisas - CVC también posee un
coeficiente elevado (8.670). En general el comportamiento de las series históricas
es leptocúrtico en un 85.62%, variando el coeficiente de curtosis entre 0.013 a
16.481, el porcentaje restante, es decir, el 14.38% corresponde a las series cuyo
comportamiento corresponde a una distribución platicúrtica, en la cual dicho
coeficiente se encuentra entre -0.0079 y -0.686, perteneciendo este último a la
Estación Colpuertos, lo que quiere decir que existe una reducida concentración
alrededor de los valores centrales de la distribución.
¾ Coeficiente de Asimetría: según la Tabla No. 2, se nota que la totalidad de las
estaciones posee un coeficiente de asimetría positivo, lo cual indica que la
distribución tiende a tener valores extremos a la izquierda de la media, lo que
redunda en un mayor sesgo a la izquierda de la distribución.
¾ Coeficiente de Variación: como se puede observar los coeficientes de variación
más bajos, valores entre 37.25 y 46.23% corresponden a estaciones localizadas
en la Costa Pacífica, lo que significa que la distribución de la precipitación es más
homogénea. Los CV más altos varían entre 85.4% y 80.7% correspondiendo el
más alto a la estación Tesorito, seguida por la Estación La Italia con 83.1%, esto
quiere decir que la distribución de los datos no es homogénea para estas
estaciones. En las demás estaciones el coeficiente varía entre el 50% y el 79%.
5.1.1.3 VALORES EXTREMOS
En la Tabla No. 3, se relacionan los valores extremos, tanto máximos como mínimos,
presentes en cada una de las series históricas para cada estación analizada, en el caso
de los valores máximos se adiciona el mes y año de ocurrencia del mismo, como se
puede notar la gran mayoría de los valores extremos máximos de precipitación coinciden
con los periodos lluviosos, es decir, entre marzo – mayo y octubre y noviembre.
Igualmente ocurre en las estaciones ubicadas en la Costa Pacífica en las cuales las
lluvias máximas se presentan durante los meses de septiembre, octubre y noviembre.
Algunas series de datos poseen datos extremos en meses que no se encuentran dentro
de los catalogados como lluviosos, lo cual haría sospechar que estos son valores
anómalos, por ello es necesario realizar una inspección de las causas de estos, para
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
16
poder recomendar el descarte o inclusión del mismo, ya que estos datos siempre no
corresponden a daños en el instrumento de medida, ni a lecturas erróneas, pueden
deberse a eventos extremos, por todo esto es necesario recurrir a los registros de
precipitación diaria, mediante la cual se podrá verificar la procedencia del dato total
mensual. Esta situación se dio en las estaciones Santa Teresa en la cual se presenta una
precipitación de 489 mm. en el mes de Julio del 1976, Boloblanco con 458 mm en Febrero
de 1986, San Vicente, 728 mm en Mayo de 1980, El Retiro con 601 mm en Abril de 1983,
Las Brisas – CVC, 924 mm en Mayo de 1981; todos estos casos correspondieron según
el análisis de los datos diarios a la ocurrencia de eventos fuertes en algunos casos con
precipitaciones diarias de más de 100 mm, como es el caso de las estaciones San
Vicente, Peña Mona, en la cual para Noviembre de 1988, se presentaron precipitaciones
29 días del mes, lo cual coincide con el hecho que para este año se tiene registrado la
ocurrencia del fenómeno de la Niña. Razones por las cuales se puede determinar que los
valores catalogados como extremos, no se deben excluir del estudio.
Por otra parte al realizar el análisis de los valores extremos mínimos, se encuentra que
aproximadamente el 95% de estos ocurrieron en los meses llamados secos, es decir,
entre diciembre - febrero y entre junio – agosto, los cuales son para régimen bimodal los
meses que se espera se presenten las mínimas precipitaciones.
5.1.1.4 ANÁLISIS GRÁFICO
¾ Histogramas: como se puede observar en los gráficos del Anexo 1, el
comportamiento de las series de datos de precipitación corresponden a una
distribución unimodal asimétrica a la derecha, lo cual se ve corroborado en la
Tabla No. 2, ya que los coeficientes de asimetría para todas las estaciones son
valores positivos, lo cual supone la presencia de valores muy altos de precipitación
en dichas series de datos.
En los histogramas de las series de datos de las estaciones La María, Las Brisas –
CVC, Providencia, El Vesubio, El Águila, Tesorito y La Italia, se puede apreciar el
comportamiento leptocúrtico de la distribución pues para estas series se
encuentran los coeficientes de curtosis más elevados y visualmente se
caracterizan por ser las distribuciones con mayor apuntamiento, al igual que
corresponden a ellas los más altos coeficientes de asimetría. Por lo tanto se corre
el riesgo que existan valores anormalmente altos para estas distribuciones
(Figueras, S. Y Gargallo, P.2003), estos valores altos corresponden a los periodos
húmedos que existen en la zona de estudio, es decir, en los meses de marzo a
mayo y de octubre a diciembre, para el régimen bimodal.
¾ Diagrama de Cajas: en el anexo 2 se presentan los diagramas de caja (Box-plot),
en los cuales se puede verificar la existencia de valores extremos en las series de
datos; así como también la concentración de los datos de precipitación entre 50
mm y 200 mm., aproximadamente, en la gran mayoría de las estaciones en
estudio, exceptuando las estaciones localizadas en la Costa Pacífica, que por su
alta pluviosidad tienen un rango más alto, el que oscila entre 400 mm y más de
700 mm
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
17
Por medio de estos gráficos también se puede comprobar la asimetría derecha de
las distribuciones puesto que la línea que denota la mediana no se encuentra en el
centro de la caja, tendiendo al primer cuartil de la distribución, lo cual indica que
estas distribuciones no corresponden a una normal.
¾ Diagrama de Cuantiles: de acuerdo al anexo 3 en el cual se presentan los
gráficos Q-Q de las series de datos históricos de precipitación, se puede notar la
falta de normalidad de la variable, ya que los diagramas tiene una forma de C
abierta, lo cual caracteriza a las distribuciones asimétricas a la derecha. (Figueras,
S. Y Gargallo, P., 2003). Lo cual corrobora los resultados tanto gráficos como
numéricos anteriormente descritos.
¾ Contrastes de hipótesis: En la Tabla No. 4 se muestran los resultados de la
aplicación de los test de Kolmogorov – Smirnov y Shapiro – Wilk a cada una de las
series de datos.
Cabe aclarar que la prueba de Shapiro – Wilk es recomendada para muestras con
menos de 50 observaciones, lo que la hace irrelevante para este estudio, se
evidencia en los resultados arrojados por esta prueba, en la cual se encuentran
estadísticos muy grandes frente a niveles de significación muy pequeños o nulos.
En el test de Kolmogorov-Smirnov la hipótesis nula que se pone a prueba es que
los datos proceden de una población con distribución normal frente a una
alternativa de que no es así. Cuanto más pequeño es el estadístico y el nivel de
significación más grande mejor es el ajuste de los datos a una distribución normal,
para este caso se usa como nivel de significación 0.05, es decir para valores
mayores, es aceptada la hipótesis y para valores menores es rechazada. Por lo
cual según la tabla anteriormente mencionada, existen tres estaciones que
aceptan la hipótesis nula, estas son, Cumbarco, Colpuertos y Peñas Blancas, con
0.066, 0.063 y 0.059 en el nivel de significación respectivamente. Las estaciones
restantes poseen niveles de significación menores a 0.05, por lo tanto se puede
concluir que estas distribuciones de datos no se comportan como distribuciones
normales.
5.1.2 ANÁLISIS EXPLORATORIO DE DATOS SERIES
EXCLUIDAS DEL LLENADO DE DATOS FALTANTES
HISTÓRICAS
Este análisis corresponde al realizado a las estaciones pluviométricas, pluviográficas,
evaporimétricas y climatológicas que poseen datos de precipitación total mensual
multianual, que por diversas razones no fueron incluidas en las matrices para el
correspondiente llenado de los datos, entre las que se encuentran la fecha reciente de
inicio de la toma de los datos, otro de los motivos de la exclusión de estas es la cantidad
de datos faltantes, que deben exceder el 10% de los datos para no ser tenidas en cuenta,
estaciones que en el momento se encuentran suspendidas por lo cual solo poseen datos
hasta determinado periodo; en estas se cuentan las estaciones pertenecientes a la red de
EPSA las cuales solamente tienen lecturas hasta el 1996.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
18
5.1.2.1 NÚMERO DE CASOS
En la Tabla No. 5 se puede apreciar lo anteriormente mencionado, por ejemplo la estación
Vivero Cali solamente posee 180 datos de los cuales el 11.8% pertenecen a datos
faltantes, esto también indica una fecha de inicio reciente. También se pueden notar
estaciones con gran cantidad de datos, pero en el momento en la Corporación se cuentan
con datos hasta determinada fecha, lo que hace que no se complete el periodo hidrológico
elegido para conformar las matrices. En esta tabla se presentan las fechas de inicio de la
lectura de estas estaciones para clarificar las razones de su exclusión en las matrices con
las cuales se realiza el posterior llenado de datos.
5.1.2.2 ANÁLISIS DESCRIPTIVO
En la Tabla No. 6 se muestran los estadísticos descriptivos arrojados por el Programa
SPSS 11.5, entre ellos se tiene, Media, Mediana, Varianza, Desviación Estándar,
Coeficiente de Curtosis, Coeficiente de Asimetría y Coeficiente de Variación.
¾ Medidas de Dispersión: En lo referente a la varianza y la desviación estándar de
las series de datos de estas estaciones, se puede comentar la existencia de
varianzas muestrales muy grandes, dada la magnitud de los datos, esta situación
se presenta especialmente en las estaciones localizadas en la Costa Pacífica, ya
que en ellas se dan las más altas precipitaciones, que varían entre 400 mm y 1037
mm en la estación Puerto López. Debido a esta altas varianzas muestrales se
presentan grandes desviaciones estándar, lo que hace que estas series de datos
tengan un comportamiento heterogéneo, dada su gran dispersión en torno a la
media.
¾ Coeficiente de Curtosis: Con respecto a estos se puede notar que el 21% de las
estaciones poseen una distribución platicúrtica, lo que coincide con su grado de
dispersión con respecto a la media, lo cual se refleja en los valores de la
desviación estándar. El porcentaje restante (79%) corresponde a distribuciones
leptocúrticas, es decir; poseen alto grado de concentración en torno a la media,
en algunos casos específicos como en Samarkanda se presenta una Curtosis muy
alta (84.078) que es causada por la presencia de un dato extremo, por lo cual
también se ve influenciada la desviación estándar de esta serie; por lo tanto se
hace necesario realizar un análisis detallado para este caso, con el propósito de
encontrar su justificación o poder tomar la decisión de eliminarlo.
¾ Coeficiente de Asimetría: Se puede concluir que las series corresponden a series
asimétricas a la derecha, lo que comprueba la existencia de datos extremos a la
derecha de la misma, es decir, datos muy grandes.
¾ Coeficiente de Variación: Referente a los coeficientes de variación se puede
comentar que varían en un rango entre 50% y 80%, lo cual es indicador del alto
grado de variabilidad de los datos. Se presenta un CV de 110% para la estación
pluviométrica Juanchito, en la cual se registran precipitaciones de 512 mm. En
abril del 2003 hasta 0 mm. en algunos meses del año, lo cual significa que esta
estación es muy heterogénea, la desviación estándar en ella (98.82 mm.) es mayor
que el valor de la media (89.18 mm.). También se presenta otro caso particular en
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
19
la estación Puerto López, la cual podría ser catalogada como la más homogénea
de las estaciones, puesto que posee un CV de 0.1%.
5.1.2.3 VALORES EXTREMOS
El la Tabla No. 7 se listan las estaciones incluidas en este estudio, en esta se encuentran
los 5 valores máximos presentados en las series históricas de datos de precipitación total
mensual multianual, estos valores son seleccionados por medio del Programa SPSS 11.5
y 12.0, del cual se hizo uso en esta metodología. Para optimizar el entendimiento de la
tabla se incorporó la columna de fecha de ocurrencia del evento más grande, para cada
una de las estaciones. Se puede notar que los meses más lluviosos en estas series de
datos corresponden a los conocidos en esta parte del país como los meses lluviosos; o
sea, marzo, abril, octubre y noviembre en años en los que se presentó fenómeno niña.
En general es estas estaciones no se presentaron precipitaciones máximas que dieran
incertidumbre, a menos que tuvieran que ver con el equipo de medición, al observador, y
que significaran realizar un estudio particularizado de ellas para determinar los posibles
problemas en la medición. Solamente se presentó un dato extremo “atípico” en la
estación Samarkanda, para la cual se registró una precipitación total mensual de 2874
mm. en marzo de 2002, lo cual es un dato ilógico, por ello se hizo necesario estudiar las
series diarias mensuales determinando que este dato se debe al error en la trascripción,
pues se encuentra una lectura de 2525 mm para un solo día, debido a ello este dato se
elimina de la serie histórica y se procede a tomarlo como dato faltante. Dado este
inconveniente se procede a correr de nuevo el programa SPSS para que calculase de
nuevo todos los estadísticos y gráficos que corresponden a este análisis. En ellos se
puede notar la gran influencia que ejerce este tipo de datos, ya que en presencia de este
dato se encuentra una varianza muy grande, por lo tanto la desviación estándar también
lo es; así como se puede apreciar en los gráficos, el histograma presenta una distribución
de frecuencias con rangos muy grandes, lo que hace que se den pocas barras en el
mismo. Con referencia a la curva normal que se dibuja, se muestra una distribución
leptocúrtica y con alto grado de asimetría derecha.
El gráfico Q-Q Normal muestra una gráfica casi vertical con un punto muy alejado de la
línea que define la normalidad de la distribución; similarmente el diagrama de cajas
muestra la concentración de los datos, ello hace que el rango intercuartílico de esta sea
mucho más pequeño, en este gráfico se ve claramente el dato atípico. Posteriormente se
realiza la corrección, es decir se elimina este dato y se generan todos los estadísticos y
gráficos, en los cuales se nota claramente el cambio de los mismos, con ellos se deja ver
una reducción en la media, la varianza y la desviación estándar , así como en los gráficos
en estos el comportamiento es mucho más claro, se mejora la distribución de los datos,
casi se encuentra un comportamiento normal, ya que se reduce la curtosis y la asimetría,
así como se mejora la distribución de las frecuencias, tal como se puede observar en el
histograma de Samarkanda Corregida.
A continuación se presentan los estadísticos y los gráficos correspondientes a tal
situación.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
20
Histograma
Histograma
30
100
80
20
60
40
Media = 281.5
N = 309.00
650.0
600.0
550.0
500.0
450.0
400.0
350.0
300.0
250.0
.0
00
28 .0
00
26 .0
00
24 .0
00
22 .0
00
20 0.0
0
18 .0
00
16 .0
00
14 .0
00
12 .0
00
10 0
0.
80 0
0.
60 .0
0
40 0
0.
20
0
0.
200.0
0
0.0
N = 310.00
0
Desv. típ. = 140.03
150.0
Media = 289.9
100.0
Desv. típ. = 203.04
50.0
20
Frecuencia
Frecuencia
10
SAMARKANDA CORREGIDA
Samarkanda
5.1.2.4 ANÁLISIS GRÁFICO
Para realizar el análisis gráfico de las series históricas totales de precipitación mensual
multianual que se excluyeron de las matrices de llenado de datos, dados los criterios
inicialmente expuestos, se tuvo como herramienta el Programa SPSS 11.5 y 12.0, el cual
arroja como resultados histogramas, Gráfico Q-Q Normal y Diagrama de Caja. La
totalidad de estos gráficos se anexan al final del documento.
¾ Histogramas: Estos gráficos se aprecian en el Anexo 4, en este se muestran los
gráficos generados para cada una de las estaciones que se estudian, estas
presentan un comportamiento que no corresponde a la de la distribución normal,
pues la curva que se puede trazar para este gráfico de frecuencias se encuentra
en el 99% de los casos sesgada a la derecha de la distribución, lo que indica la no
coincidencia entre la media, la mediana y la moda. El sesgo a la derecha implica
valores extremos a la derecha de la distribución, es decir valores extremos que
corresponden a precipitaciones altas. Esto se ve corroborado por el coeficiente de
asimetría que presentan las estaciones y que se pueden ver en la tabla No. 6.
¾ Diagrama de Caja: El Anexo 5 corresponde al compendio de los gráficos de caja
de las series históricas de precipitación, por medio de estos se puede verificar una
vez más la presencia de los datos atípicos y los valores máximos de precipitación
que tuvieron lugar en cada una de estas estaciones y los cuales se salen del 95%
de la distribución. También podemos notar la amplitud del rango intercuartílico el
cual varía de acuerdo a la localización geográfica de las estaciones, tales varían
entre 40 y 160 mm. para la zona localizada en el Valle del Cauca, entre 120 y 300
mm. para el departamento del Cauca y entre 500 y más de 1100 mm. para las
estaciones localizadas en la Costa Pacífica de ambos departamentos.
Se puede notar que tres de las estaciones no presentan datos atípicos, ellas son:
El Socorro, Bolivia y Morales, lo cual significa que el comportamiento de sus datos
se mueve dentro del 95% de ellos, sin presentar precipitaciones exageradas.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
21
¾ Diagrama de Cuantiles: En el anexo 6 se encuentran los gráficos de las
estaciones, en ellos se evidencia la presencia de valores extremos, ya que se
observan puntos alejados de la línea que define la distribución, también se puede
observar que la curva generada por los datos observados tiende a poseer una
concavidad hacia abajo, lo que una vez más comprueba la asimetría a la derecha.
Estas series históricas presentan menor concavidad que las estudiadas
anteriormente.
En algunos casos, los cuales corresponden a las estaciones que aceptaron la
Prueba de Kolmogorov – Smirnov, los datos observados generan una curva muy
cercana a una línea recta, con presencia de pocos outliers.
5.1.2.5 CONTRASTE DE HIPÓTESIS
Según la pruebas de normalidad realizadas por el programa SPSS 11.5 y 12.0 y de las
cuales son presentados los resultados en la Tabla No. 8, se puede decir que de las
estaciones analizadas el 18.28% de ellas aceptan la hipótesis nula de que la distribución
de los datos se aproxima a la normal, para la Prueba de Kolmogorov – Smirnov variando
las probabilidades entre 0.058 y 0.200, lo cual contrastado con el análisis gráfico de las
mismas se puede asegurar como posible.
5.2
CÁLCULO DE DATOS FALTANTES
La metodología adoptada para el cálculo de datos faltantes es la usada en la tesis de
doctorado “Uso de funciones ortogonales empíricas y análisis de correlación canónica en
el estudio de la variabilidad hidrometeorológica. Aplicación Valle del Cauca - Colombia”,
realizada en la Universidad Politécnica de Valencia – España, por el Dr. Yesid Carvajal,
2004.
Los datos faltantes fueron estimados aplicando un análisis multivariado con una subrutina
de componentes principales, utilizando la información de todo el conjunto de estaciones,
empleando el método de correlación bivariada de Pearson. Cabe aclarar que la subrutina
es propiedad de EIDENAR – Universidad del Valle, por lo cual no se poseen
características de la misma (lenguaje de programación, entre otras).
La Subrutina de componentes principales es ejecutada desde el programa MATLAB
(Matriz Laboratory), el cual es un software que permite realizar cálculos numéricos entre
matrices y vectores.
El análisis de componentes principales (ACP) o de funciones ortogonales empíricas
(FOES), como se le conoce en ciencias de la tierra, es una técnica matemática que
transforma un conjunto de variables correlacionadas en un nuevo conjunto menor de
variables no correlacionadas (ortogonales) conocidas como componentes principales,
reduciendo la dimensión del conjunto de datos. Su empleo es apropiado cuando las
variables están medidas en las mismas unidades o en unidades comparables, con
varianzas cuyas magnitudes son semejantes, (Johnson, 2000). Inicialmente, la técnica fue
descrita por Pearson (1902) y Hotelling (1935), e introducida a la meteorología por Lorenz
(1956). El método permite encontrar una base ortogonal para la matriz de vectores de las
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
22
observaciones de la evolución temporal de un campo espacial. Dicha base se extracta de
los mismos datos, de ahí su nombre de empíricas. Las FOES son los autovectores de la
matriz de correlación de rezago cero entre los diferentes datos. Cada FOE explica un
porcentaje de variabilidad de la evolución temporal del campo espacial. Por ser
ortogonales, la varianza explicada por cada una es independiente de la explicada por las
demás. Las componentes principales (CP) son los coeficientes de expansión de los
autovectores en términos de obtener los datos originales. Estos últimos tienen las
dimensiones de la matriz original de observaciones y son mutuamente independientes.
(Carvajal, 2004)
El ACP no exige supuestos tales como normalidad u homocedasticidad, ni una
determinada distribución de probabilidad de los datos. Por medio del ACP se pueden
completar datos con el mínimo error conservando al máximo la estructura lineal entre
todas las variables en cuestión, para lo cual se usan estimadores máximos verosímiles o
de mínimos cuadrados de los parámetros de la distribución, dando robustez y
minimizando el error cuadrático medio en la estimación de los mismos.
Para la determinación de los datos faltantes en las series históricas de precipitación total
mensual multianual, se deben efectuar el siguiente procedimiento:
1. Preparación de los datos de entrada en el formato aceptado por el Programa
MATLAB, formato de hoja de cálculo Excel (xls).
2.
En Excel se procede a organizar los datos de forma descendente por el año, es
decir, si el periodo hidrológico es 1974 – 2003, los datos iniciales son los doce
meses del año 1974 y así sucesivamente hasta completar el periodo
seleccionado. Este procedimiento se realizará para cada una de las estaciones
incluidas en la correspondiente matriz.
3. El paso a seguir es la estandarización de la matriz de datos, la cual se efectúa
restándole la media y dividiendo por la desviación estándar de cada una de las
series de datos de las estaciones a cada dato perteneciente a la serie, esto se
hace con el fin de darle igual peso a las estaciones y evitar la influencia de
valores extremos.
4. Se corre la subrutina de componentes principales en el programa MATLAB. Este
proceso genera la matriz de datos completa estandarizada.
5. La matriz de datos completa se desestandariza, lo que equivale a realizar el
proceso inverso a la estandarización. Con esto se obtiene la matriz de datos
completa, estos datos en este punto tienen igual unidad de medida que los datos
iniciales (mm).
El producto generado es las series históricas de precipitación total mensual completas, de
la totalidad de las estaciones seleccionadas para conformar las matrices, es decir, de las
168 estaciones que previamente se les realizó el AED, que se anexan a este informe en
formato digital.
5.3
ANÁLISIS CONFIRMATORIO DE DATOS. SERIES HISTÓRICAS MEDIAS
MENSUALES DE PRECIPITACIÓN
Este análisis corresponde al realizado a las estaciones pluviométricas, pluviográficas,
evaporimétricas y climatológicas que poseen datos de precipitación total mensual
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
23
multianual, que poseen los datos completos, los cuales fueron llenados valiéndose de la
subrutina de Componentes Principales del Programa MatLab.
Las correspondientes series de datos fueron estandarizadas, para reducir la influencia de
la variabilidad de los datos. Estos datos posteriormente y en el formato antes mencionado
fueron ingresados al programa SPSS 12.0 con el propósito de correr las pruebas
mencionadas y explicadas brevemente en el apartado anterior. Producto de esto se
tienen tablas con los estadísticos de contraste y sus correspondientes Sig (bilaterales),
que funcionan como los valores de p, con los cuales se pretenden rechazar o aceptar las
hipótesis nulas planteadas por cada una de las pruebas.
En la Tabla No. 9 se presentan los estadísticos de contraste utilizados para efectuar la
aceptación o rechazo de las pruebas de hipótesis correspondientes. Para ello se toma
como referente los valores menores o iguales a 0.05 en la columna Sig.; con el propósito
de presentar las estaciones que rechazan y aceptan las pruebas de hipótesis se elaboró
la Tabla No. 10 en la cual se resumen los resultados de la tabla No. 9.
Con lo cual se puede concluir que de las 168 estaciones tomadas, el 22% de las
estaciones rechazaron las pruebas de hipótesis, es decir 37 de las estaciones no pasaron
estas pruebas, presentando diferentes inconvenientes, entre los cuales se tiene la falta de
normalidad de la distribución, la diferencia en las medias y las varianzas y por tanto se
comprueba que las muestras de las series de datos no pertenecen a una misma
población.
Para el restante 78% de las estaciones se puede decir que presentan información
homogénea y confiable para realizar con ellas diferentes estudios, e incluso son usadas
para la elaboración de las isolíneas de precipitación para el Valle del Cauca y la Cuenca
del Alto Cauca.
Las estaciones que rechazaron las pruebas de hipótesis fueron:
Los Alpes
La Teresita
La Cumbre
Boloblanco
Las Brisas
El Alcazar
Tenjo
Patiobonito
Guacarí
Austria
El Granario
Yunde Carrizal
Auji
La Despensa
Ingenio La Quinta
Bellavista
El Oso
El Lucero
Dosquebradas
El Bosque
Cabuyal
El Diluvio
La María
Coconuco
Angosturas
Moravito
Jambaló
La Magdalena
Loboguerrero
Piendamó
Chambú
Yurumanguí
El Águila
Santa Teresa
Aeropuerto Buenaventura
Corinto
Los Bancos
Seguido a las pruebas de hipótesis realizadas a las 168 estaciones se procede a realizar
la investigación de las posibles causas, entre las cuales se tienen en el caso de las
estaciones de mediciones climáticas, tales causas pueden ser observador desconfiable,
posibilidad de daño en el instrumento de medida, entorno que afecte las medidas, por
ejemplo árboles y vegetación; traslado del instrumento, así como también se debe tener
en cuenta que el sitio en donde se encuentre ubicada posea características especiales, es
decir se comporte como microclimas. Para poder realizar el análisis de las causas por
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
24
las cuales han sido rechazadas las pruebas para cada una de las estaciones se recurrió al
Técnico Arturo Guerrero, el cual posee 23 años de experiencia, que conoce la historia y
evolución de las estaciones que posee la Corporación.
Basándose en los argumentos del Sr. Guerrero se definió que las estaciones, Austria y
Aují, poseen características especiales, como es que esta zona presenta precipitaciones
mayores a las de sus estaciones aledañas, por lo cual en ellas se presentan mayor
pluviosidad en algunos meses del año, en contraste también existen medidas de cero (0)
mm. en otros meses, estos datos tan disímiles hacen que sus medidas de tendencia
varíen considerablemente, de allí que se presente el rechazo de las pruebas de hipótesis,
pese al rechazo de las pruebas de hipótesis es necesario incluirlas en los estudios dado
que ellas caracterizan una zona específica del territorio. También se definieron otros
microclimas, como son: El Diluvio, La Magdalena, El Bosque, Los Bancos, Coconuco,
Jambaló; por lo tanto también deben ser incluidas en los estudios. En el caso de la
estación Santa Teresa, esta como ya se había determinado en otros estudios, posee
características típicas de páramo, en el cual los periodos lluviosos se encuentran en los
meses de Junio y julio, por tanto es importante incluirla, ya que posee un comportamiento
particular. Otra estación con particularidades es la estación Loboguerrero, la cual
pertenece a una zona xerofítica, en la cual también se presentan en ocasiones aguaceros
muy fuertes, esta también es necesaria en los estudios. La estación Boloblanco se
encuentra ubicada en la transición de piso térmico, lo cual la hace tan fluctuante pues
posee grandes precipitaciones en algunas épocas del año, así como otras muy escasas,
prácticamente nulas. La estación Tenjo se encuentra en una especie de cañón en la
parte más baja de este, en ella también se presentan precipitaciones bastante altas
comparadas con otras estaciones que se encuentran más o menos a la misma altura, la
ubicación la hace particular por lo tanto se debe tener en cuenta al momento de analizar
el comportamiento de la lluvia en esta zona. La estación Piendamó en el departamento
del Cauca estuvo un tiempo suspendida, no se conoce del todo las razones pues esta es
manejada por el IDEAM. Las estaciones Yunde Carrizal, Ingenio La Quinta, El Granario,
El Alcazar y Chambú se encuentran en buenas condiciones y los observadores son
confiables. Por otro lado las estaciones localizadas en el norte del Valle en la Cuenca de
Garrapatas, La María, Moravito, La Despensa, El Oso presentan abundantes lluvias, este
sector es húmedo y los observadores son confiables.
La estación Aeropuerto
Buenaventura, por su localización en la costa pacífica, presenta alta pluviosidad y debido
a los vientos esta pluviosidad puede cambiar y concentrarse en otro sector, a ello puede
deberse los cambios en las medias y varianzas. En la estación Guacarí, se presentan
pocas lluvias, pero se dan ocasionalmente fuertes aguaceros, debido a esto eventos
esporádicos el valor medio en el mes puede tener variaciones, por tanto afectar al
momento de realizar las comparaciones entre la media y la varianza de esta distribución.
La estación Desquebradas localizada en la Cuenca de Guadalajara presenta condiciones
especiales ya que se ubica en la parte baja en medio de montañas. Angosturas hasta el
momento a funcionado correctamente. La estación Bellavista ha presentado problemas de
orden público, aunque el observador es confiable. Algunas de las estaciones que
rechazaron las pruebas de hipótesis pertenecen a otros operadores lo cual hace que sea
difícil conocer el comportamiento y la historia de ellas entre estas se encuentran
Yurumanguí, Cabuyal y La Cumbre.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
25
En general las estaciones que se muestran en el listado anterior deben ser tenidas en
cuenta para estudios ya que cada una caracteriza la zona en donde está ubicada, además
que se reconoce la capacidad de sus observadores tanto en la calidad de los registro
como en su debida periodicidad, exceptuando la estación Los Alpes, en la cual se
presentan problemas de orden público, lo que hace que la toma de los datos no sea
periódica y no se garantice la calidad del dato que se toma; por lo cual esta estación se
decidió excluir de los estudios, ya que al momento de realizar cualquier tipo de análisis
referente los resultados no corresponderán a la realidad.
En conclusión, las estaciones a las que se les aplicó el Análisis de Componentes
Principales con el fin de realizar el complemento de los datos faltantes poseen
información importante, pues caracteriza el comportamiento de la región en donde se
encuentran ubicadas.
5.4
ANÁLISIS CONFIRMATORIO DE DATOS. SERIES HISTÓRICAS MEDIAS
MENSUALES DE PRECIPITACIÓN NO INCLUIDAS EN EL ANALISIS DE
COMPONENTES PRINCIPALES
Este análisis corresponde a las estaciones con registros de precipitación a las cuales no
se les efectuó llenado de datos faltantes, al no ser incluidas en las matrices destinadas
para tal fin dadas sus condiciones, entre las que se encuentran los periodos de registros
muy cortos comparados con los que se presentaban en las demás estaciones, así como
también la ausencia en un porcentaje alto de datos. Para este análisis se tomaron los
datos “crudos”, es decir no se les aplicó ningún tratamiento previo para eliminar algunas
tendencias.
En la Tabla No. 11 se presenta los estadísticos de contraste, calculados por el programa
SPSS 12.0 para cada una de las estaciones y en la Tabla No. 12 se resumen los
resultados de las pruebas de hipótesis especificando la decisión de rechazo o aceptación
de cada una de ellas.
De estas se puede definir que el 23.4% de las estaciones
rechazaron las pruebas de hipótesis realizadas, que fueron las mismas efectuadas
anteriormente a las estaciones con los datos completos. Las estaciones que rechazaron
las pruebas se listan a continuación:
Escalarete
Manuel Mallarino
Río Bravo
El Socorro
Yatacue
Berlín
Diguita
La Virgen
Campoalegre
La Palmera
El Rosario
Suárez
Mecaje
Puerto López
Bocatoma
Tacueyo
Lomarredonda
La Romelia
El Silencioso
Puracé
Timbiquí
La Cristalina
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
26
Entre las estaciones rechazadas solamente 4 son manejadas directamente por CVC, de
ellas 3 están suspendidas, por diferentes razones; sin embargo están situadas en
regiones que poseen regímenes de precipitación especial pues 3 de ellas se encuentran
localizadas en cuencas de la costa pacífica, que es bien conocido su diferencia en la
distribución de la precipitación. Seis de las estaciones pertenecen a la EPSA, se
encuentran suspendidas desde 1996, localizadas en la zona de influencia tanto de la
hidroeléctrica de Anchicayá, como de Calima, por lo tanto no se poseen razones
específicas para el rechazo de las pruebas. Las restantes estaciones que rechazaron las
pruebas pertenecen al IDEAM y están situadas en el Departamento del Cauca, en
muchas de ellas se encuentra la evidencia de la gran cantidad de datos faltantes, tanto a
nivel mensual como diario, lo que se ve reflejado en los datos de precipitación total para
algunas estaciones, comparados con otros datos tomados para el mismo mes pero en
diferentes años, por ello se presentan las divergencias en sus medidas de tendencia
central y por tanto la escasa probabilidad arrojada en las pruebas de hipótesis.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
27
6 ANÁLISIS DE LAS SERIES DE EVAPORACIÓN TOTAL, BRILLO
SOLAR TOTAL Y TEMPERATURA MEDIA
6.1
ANÁLISIS EXPLORATORIO DE LOS DATOS SERIES HISTÓRICAS
TOTALES MENSUALES MULTIANUALES DE EVAPORACIÓN Y BRILLO
SOLAR, ASÍ COMO LAS MEDIAS MENSUALES MULTIANUALES DE
TEMPERATURA
Los resultados que se presentan a continuación corresponden a un primer análisis
realizado a las series de evaporación, brillo solar y temperatura por medio del Programa
SPSS 12.0, con el cual se determinaron tanto los estadísticos descriptivos, como los
gráficos que representan el comportamiento de las series de datos, los datos se
ingresaron tal cual se encontraban en las bases de datos tanto de la Corporación como de
las demás entidades que fueron consultadas.
6.1.1 ANÁLISIS EXPLORATORIO
TOTALES DE EVAPORACIÓN
DE
DATOS.
SERIES
HISTÓRICAS
Con el fin de sintetizar los análisis realizados a las series totales de evaporación los
resultados se presentan en forma de tablas, las cuales serán explicadas a continuación.
En la Tabla No. 13 se presenta el análisis del número de datos con que cuenta cada una
de las estaciones que en el Valle del Cauca tiene o ha tenido medición de este parámetro,
ya que cabe aclarar que en este listado se incluyen algunas estaciones que se encuentran
suspendidas, la mayoría perteneciente a EPSA y que dejaron de funcionar hace ya varios
años. El número de datos en las estaciones es variable, pues algunas presentan
porcentajes muy altos de ausencia de datos, lo que dificulta la labor de la escogencia del
periodo a tomar en el estudio con el fin de realizar el llenado de estos datos faltantes
posteriormente. Algunas estaciones por esta condición deben ser descartadas de las
matrices para el llenado de los datos, ya que no se dispone de estaciones que se
encuentren ubicadas en la misma zona, que se puede considerar con comportamiento
“homogéneo”, tal es el caso de la costa Pacífica, que por sus altos porcentajes (Bahía
Málaga con 40.4% y Bajo Calima con 13.8%), no se tuvieron en cuenta para este
procedimiento, en muchos de los casos la lectura ausente corresponde al mismo mes en
todas las estaciones.
En la Tabla No. 14 se muestran de manera sintetizada los estadísticos descriptivos que
caracterizan las series de datos de las estaciones. Como particularidades se tienen la alta
variabilidad que presenta la estación Bahía Málaga, lo cual se ve reflejado en un
coeficiente de variación muy alto (68.146%), esto debido a la gran cantidad de datos
ausentes y a valores de las lecturas considerados atípicos, puesto que corresponden a
valores muy pequeños para un total mensual.
Otras estaciones con considerable
variación son Samarkanda (35.808%) y La Teresita (31.224%), al parecer por la
presencia de lecturas atípicas.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
28
Los valores extremos seleccionados por el programa SPSS 12.0, se muestran en la Tabla
No. 15, en la cual se encuentran tanto los valores extremos máximos como los mínimos;
se puede notar gran cantidad de valores muy pequeños, que desde todo punto de vista
corresponden a datos anómalos, haciendo claridad que se está manejando valores totales
mensuales de evaporación; estaciones como Samarkanda con lecturas de 3.0 y 6.1 mm;
San Antonio con 1.8 y 9.4 mm.; Bahía Málaga con 1.3 y 3.1 mm.; Chambú con 3.5 mm.;
La Buitrera con 8.7 y 14.1mm.; Miravalles con 6.9 mm., entre otras estaciones. Estas
lecturas tan pequeñas obedecen a la falta de mediciones en el mes, por lo tanto en
ocasiones se cuenta con una lectura para todo el mes, esta situación hace que los
estadísticos descriptivos así como los gráficos, que se analizarán más adelante, tomen
algunas tendencias.
La Tabla No. 16, muestra los resultados de las pruebas de normalidad, con lo cual se
puede decir que el 54.76% de las estaciones cumplen con la condición de normalidad,
según la prueba de Kolmogorov – Smirnov.
El análisis gráfico de las estaciones de evaporación confirma el comportamiento
caracterizado por el análisis numérico, todos ellos se incluyen en el Anexo 7, en el caso
de los histogramas, se puede apreciar la unimodalidad de las series, así como se
evidencia la presencia de valores extremos pequeños, tanto como los valores extremos
mayores. En los gráficos Q – Q Normal y los diagramas de Cajas para cada una de las
estaciones se corrobora la presencia de datos anómalos en cada una de las series de
datos, por ejemplo en el caso de las estación Ingenio Central Castilla, en el diagrama de
caja que se muestra se pueden apreciar tanto valores extremos altos como valores
pequeños estos últimos son considerados como atípicos, pues se alejan demasiado del
rango intercuartílico, por lo tanto esta serie de datos presenta una caja más estrecha.
200.00
39
37
32
33
150.00
100.00
284
50.00
132
151
0.00
Ingenio Central Castilla
Dado el comportamiento de las series históricas de evaporación y con el fin de ser
utilizadas en estudios posteriores, se hace necesario corregir aquellos datos que se
comportan de manera anómala, lo cual a su vez causa las diferentes tendencias en la
serie; para ello es necesario eliminar los datos considerados como atípicos, puesto que
estos no reflejan la realidad física del fenómeno que causa la evaporación. Estos datos
eliminados en la siguiente fase serán calculados como datos faltantes. Se puede apreciar
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
29
por medio de algunos ejemplos los cambios considerables en las distribuciones de datos
que se dan al realizar este ajuste. En la estación Samarkanda, en la cual se presentaban
dos datos anómalos, que correspondían a 3.0 y 6.1 mm., dichos datos fueron eliminados y
dejados para ser calculados al momento de efectuar el llenado de datos faltantes, en los
gráficos de cajas mostrados a continuación se puede notar la diferencia de ellos en el
caso de ser eliminados.
En esta estación también se presentan algunos datos por fuera del rango intercuartílico, lo
cual puede ser debido a que en esta zona se presentan cambios abruptos, esta situación
fue verificada en los registros diarios de evaporación lo cual arrojó un resultado positivo a
esta situación, es decir, corresponde a lecturas tomadas. La eliminación de estos datos
da como resultado la disminución de algunas medidas de tendencia y por ende del
coeficiente de variación de la serie de datos. Otra de las correcciones fue la realizada a
la estación San Antonio en la cual fueron eliminados los datos de 1.8 mm., lectura tomada
en Mayo de 1995, así como las sucesivas de Abril y Mayo del mismo año, que fueron 9.4
mm. y 14.1 mm., respectivamente; también la estación Ingenio Central Castilla, en donde
se eliminaron las mediciones de Diciembre de 1984 (13.2 mm.) y de Julio de 1986 (13.4
mm.), ya que por su ubicación geográfica se conoce que esta cantidad de evaporación es
una medida absurda para ser tenida en cuenta, además esta zona cuenta con problemas
de orden público lo que hace que se dificulte la observación diaria y hasta alcanzan a
pasar semanas antes de poder volver a retomar las mediciones, pues afecta el promedio
con el cual se pueda tomar este parámetro para posteriores estudios. Igual acaece con
las estaciones Ingenio Providencia en el cual existen registros de 3.4 mm. y 15.9 mm., e
Ingenio del Cauca con registros de lecturas de 12.6 mm., 16.3 mm. y 21.5 mm.
6.1.2 ANÁLISIS EXPLORATORIO
TOTALES DE BRILLO SOLAR
DE
DATOS.
SERIES
HISTORICAS
Para el análisis de este parámetro, los resultados fueron organizados igualmente que con
el parámetro anterior, es decir, se presentan en tablas.
Se puede apreciar que el número de estaciones con registros de brillo solar es menor (29
estaciones) para evaporación (42 estaciones), puesto que todas las estaciones que
cuentan con tanque evaporímetro, no necesariamente cuentan con heliógrafo, de allí el
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
30
número reducido y más aún si se toma como criterio los de mayor período de tiempo en
funcionamiento hasta la actualidad.
En la Tabla No. 17 se muestran los datos que se tienen hasta el momento en las
diferentes estaciones, entre estas se encuentran algunas que se suspendieron, al igual
que con la evaporación, estas pertenecen a otros operadores, principalmente EPSA.
La Tabla No. 18 presenta los estadísticos descriptivos de las series de brillo solar en la
cual se puede apreciar la alta variabilidad de la estación Santa Teresa cuyo coeficiente de
variación es de 52.24%, dada la presencia de valores muy pequeños con respecto a los
registros restantes. La estación La Sirena también posee un CV grande (42.13%), al
igual que El Topacio (39.34%). En general las estaciones presentan algún grado de
variabilidad, ya que en muchos casos, en similitud con lo ocurrido en la evaporación,
existen registros que son el reflejo de unas cuantas mediciones y no de la totalidad del
mes. Con el propósito de ampliar este comentario se puede observar la Tabla No. 19, en
la cual se encuentran los valores extremos de las series, en este se puede notar que
algunas estaciones poseen como registro 0.0 horas, lo cual correspondería a un mes en
donde ni en un solo día hubiese habido presencia de la luz solar, las estaciones que
presentan estos casos son: Miranda, Cenicaña y Argelia – El Recreo; existen otras
estaciones que poseen lecturas pequeñas entre ellas: Santa Teresa, Tenerife, El Topacio,
Ingenio Central Castilla, Campoalegre, Bahía Málaga, Colpuertos, La Sirena, Madroñal,
La Teresita y Bajo Calima. En la estación Ingenio del Cauca se presentan los dos
extremos, tanto dato atípico mayor como menor, 626.7 horas y 13.9 horas, que están
errados, pues esta estación está ubicada a los 1000 msnm aproximadamente, en el Valle
geográfico del río Cauca en el cual el promedio de brillo solar es mucho mayor que 13.9
horas. Por otra parte el datos de 626.7 horas correspondería a más o menos 20 horas de
sol diarias (que por supuesto, no es posible), estos datos hacen que la serie de datos se
concentren en la parte central de la distribución, por tanto el coeficiente de curtosis es
muy grande. (80.67).
En cuanto a los gráficos elaborados para mejorar la comprensión del comportamiento de
las series, los histogramas (Anexo 8) en su mayoría las estaciones poseen distribuciones
poco sesgadas, unimodales con evidencia de valores de brillo solar muy pequeños,
bastante alejados de la media de las observaciones; en cuanto a los gráficos Q – Q
Normal se puede ver la tendencia a comportamiento normal con presencia notable de
valores extremos en su mayoría a la izquierda, es decir valores pequeños de brillo solar.
En los diagramas de cajas se observan aún más claramente los calores atípicos de las
series de datos, algunos por encima y otros por debajo del rango intercuartílico, se debe
tener mayor cuidado con los valores que se encuentran por debajo, ya que están
demasiado alejados de la media de los datos, lo que quiere decir que estos valores no
son reales o no corresponden a las lecturas del mes completo.
Las series presentan algunas particularidades entre las cuales se listan la ocurrida en la
serie de la estación del Ingenio del Cauca en la cual se presentan los dos extremos, como
se dijo anteriormente, el diagrama de cajas es de la siguiente forma.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
31
700
61
600
500
400
300
200
131 132
150 171
100
101
0
Ingenio del Cauca
Lo que demuestra que esta serie debe ser corregida de tal manera que se eliminen estos
dos datos y posteriormente en la siguiente etapa sean calculados. Mediante este
procedimiento la distribución de los datos se presenta en el mismo tipo de gráfico así
200
150
100
132
150
131 65
171
50
Ingenio del Cauca
También se ven reflejados los cambios en el coeficiente de curtosis puesto que de 80.67
baja a 0.388 lo cual mejora la distribución de las observaciones, como también se puede
apreciar en los histogramas, realizados para las dos condiciones
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
32
Para el caso de los registros de brillo solar se realizó el mismo procedimiento que en
evaporación, pues se eliminaron los datos anómalos de cada una de las estaciones
mencionadas en el párrafo en donde se tocó el tema de los valores extremos, mediante
este procedimiento lo que se persigue es conseguir un promedio mensual más a acorde
las condiciones reales de dichas estaciones, pues sus datos faltantes son calculados
tomando en cuenta el comportamiento de estaciones que se encuentran en torno a la que
posee el dato ausente.
6.1.3 ANÁLISIS EXPLORATORIO DE DATOS. SERIES HISTORICAS MEDIAS
DE TEMPERATURA
Siguiendo la misma metodología para la presentación de los resultados arrojados, en la
Tabla No. 20 se muestra el listado de estaciones que poseen registros de temperatura
media, cada una con su correspondiente número de observaciones, aclarando que todas
tiene fechas de inicio de registro diferente, así como entre ellas hay estaciones que en el
momento se encuentran suspendidas, desde hace varios años.
En la Tabla No. 21 se presentan los estadísticos descriptivos de las series de temperatura
media mensual, se puede observar que las series de datos poseen poca variabilidad pues
el coeficiente de variación más grande corresponde a 8.63%, lo cual es debido a que se
poseen pequeñas desviaciones estándar, es decir los datos se encuentran muy cercanos
a la media de los mismos. La estación Aeropuerto Bonilla Aragón arroja un coeficiente de
Curtosis muy elevado (27.387), debido a algunas lecturas que se encuentran muy lejanas
a la media de las observaciones, lo que se verifica en la desviación estándar que produce
un valor elevado, comparado con los demás, por lo tanto las observaciones se encuentran
bastante concentradas en torno a la media, esto se puede visualizar en el histograma, los
datos a la izquierda corresponden a registros errados de temperatura.
Histogram
125
Frequency
100
75
50
25
Mean = 23.468
Std. Dev. = 1.568
N = 326
0
14.0
16.0
18.0
20.0
22.0
24.0
26.0
Aeropuerto Bonilla Aragón
Otra estación con un alto coeficiente de Curtosis es Tenerife, pues en ella se encuentra
una temperatura media de 25.4ºC, lo cual según su ubicación geográfica no corresponde
a un promedio verdadero, pues esta estación se encuentra a 2.609 m.s.n.m., además esta
temperatura se encuentra muy alejada de la media. La Tabla No. 22 corresponde a la
relación de los valores catalogados como extremos en las series de datos, en ella se ve
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
33
reflejado claramente los casos anteriormente mencionados, en general las estaciones en
cuanto a este parámetro se refiere posee un comportamiento más cercano a la realidad
pues la variación de sus mediciones es pequeña.
En el Anexo 9 de este informe se encuentran los gráficos correspondientes a las series
históricas de las estaciones, en los cuales se pueden observar las situaciones
anteriormente mencionadas.
Con el fin de corregir estas series de datos se hizo necesario eliminar algunos datos como
son los del Aeropuerto Bonilla Aragón, del cual no se posee una razón para este tipo de
lectura, pues es injerencia de otro operador, IDEAM, al igual ocurrió con la estación
Tenerife a la que se le eliminó el dato extremo, para mejorar su comportamiento.
En general, las series históricas de temperatura media no poseen los inconvenientes de
los dos parámetros anteriores, pues al trabajar con el promedio no se ve afectado en gran
medida por la ausencia de mediciones en algunos días, mientras que si es muy notorio en
series totales.
6.2
CÁLCULO DE DATOS FALTANTES
Para realizar el cálculo de los datos faltantes se utiliza la metodología adoptada para el
caso de las series de precipitación explicado anteriormente.
Como resultado de esta actividad se tienen los datos completos de las mediciones de
evaporación y brillo solar total y temperatura media de algunas estaciones, es decir de
las estaciones que cumplían con los criterios para realizar el procedimiento, periodo
homogéneo de registros y mayor cantidad de estos, el resultado será entregado en medio
magnético, anexo al informe final de esta orden de trabajo.
6.3
ANÁLISIS CONFIRMATORIO DE DATOS
Este análisis corresponde al realizado a las estaciones evaporimétricas y climatológicas
que poseen datos de evaporación y brillo solar total mensual multianual y temperatura
media mensual multianual, existentes en la red de monitoreo de la Corporación en este
se involucraron tanto las series que poseen los datos completos, los cuales fueron
llenados valiéndose de la subrutina de Componentes Principales del Programa MatLab;
así como las que por diversas razones no podían ser completados los datos.
Las correspondientes series de datos completos fueron estandarizadas, para reducir la
influencia de la variabilidad de los datos. Estos datos posteriormente y en el formato
antes mencionado fueron ingresados al programa SPSS 12.0 con el propósito de correr
las pruebas mencionadas y explicadas brevemente en el apartado anterior. Producto de
esto se tienen tablas con los estadísticos de contraste y sus correspondientes Sig
(bilaterales), que funcionan como los valores de p, con los cuales se pretenden rechazar o
aceptar las hipótesis nulas planteadas por cada una de las pruebas. Las series de datos
incompletos no se les aplicaron ningún tratamiento, es decir se trabajó con los datos en
bruto, efectuando posteriormente las pruebas de hipótesis por medio del mismo software.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
34
En las Tablas No. 23, 24 y 25 se presenta el resumen de los resultados arrojados por el
SPSS 12.0 de brillo solar, evaporación total y temperatura media, respectivamente, estos
son los estadísticos de contraste utilizados para efectuar la aceptación o rechazo de las
pruebas de hipótesis correspondientes. Para ello se toma como referente los valores
menores o iguales a 0.05 en la columna Sig.; con el propósito de presentar las estaciones
que rechazan y aceptan las pruebas de hipótesis se elaboró la Tabla No. 26, 27 y 28 en la
cual se resumen los resultados de las tablas No. 23, 24 y 25.
En estas tablas se
encuentran tanto las estaciones que se tuvieron en cuenta en las matrices para llenado de
datos como las excluidas, se realizó el análisis globalmente, dado que son relativamente
pocas.
Con respecto a las estaciones de brillo solar se tiene que el 75.86% de las estaciones
pasaron entre 4 y 7 pruebas de hipótesis, es decir 22 estaciones. Algunas de las
estaciones incluidas en este análisis y que rechazaron las pruebas se encuentran en el
momento suspendidas entre ellas están Palermo, Julio Fernández, que adicionalmente
pertenecen a EPSA; también rechazaron las estaciones de los ingenios Central Castilla y
Providencia, en los registros de estos se encontraron datos atípicos y fuera de la realidad,
para lo cual no fue posible verificar la procedencia de ellos, al no poseer registros
actualizados en la Corporación. La estación Colpuertos también rechaza las pruebas, lo
cual puede ser debido a la gran cantidad de datos faltantes en la serie de datos, por lo
tanto se dan grandes diferencias entre sus medias y varianzas, según el Sr. Arturo
Guerrero la estación CIAT Quilichao ha tenido problemas con el observador e
interrupciones en la toma de los registros, dadas estas condiciones se puede dar el
rechazo de la pruebas. Entre las causas de la falta de datos en algunos periodos de
tiempo en estas estaciones es la ausencia de observador o la falta de insumos (gráficas).
En cuanto a las estaciones que poseen registros de evaporación total, se tiene que el
35% de las estaciones pasan las pruebas de hipótesis, la gran cantidad de rechazos (30
estaciones) puede deberse en algunos casos a la ausencia de lecturas, así como a
problemas en los registros, pues en muchos casos se encontró datos muy pequeños que
aparecen como totales mensuales, esto se referenció anteriormente, también es de tener
en cuenta que muchas de las estaciones se encuentran en el momento suspendidas,
hace ya varios años; así como gran parte de estas no son manejadas por la Corporación,
lo cual dificulta en gran medida la explicación de las causas de los rechazos, pues no se
hallan registros diarios para consulta, ni posibilidad de verificación con el personal que las
manejan y con ello poder suponer las razones de las anomalías.
El resultado de las pruebas para las estaciones con series históricas de temperatura
media arroja un porcentaje de 25,8% de estaciones que aprueban las pruebas de
hipótesis. El porcentaje de rechazos tan elevado puede deberse a la presencia de valores
atípicos que propician las diferencias tanto entre sus medias como en las varianzas de
las series de datos, lo cual hace que las pruebas de hipótesis que corroboran este hecho
sean desaprobadas para las estaciones. Los datos atípicos en el caso de las series de
temperatura son valores que aunque no son exageradamente grandes o pequeños, dadas
las condiciones de la serie de datos en los cuales la variación entre ellos no es muy
considerable ejercen alguna influencia en los estadísticos que caracterizan la distribución,
por tanto causan en estos los rechazos de las pruebas de hipótesis. Estos datos atípicos
no pueden ser eliminados como se hizo en el caso de los anteriores parámetros, porque
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
35
aunque se salgan del rango intercuartílico estos son físicamente posibles y pueden
obedecer a anomalías del clima como es la ocurrencia de un periodo de fenómeno del
Niño o Niña. En este análisis también se cuentan con estaciones que se encuentran
suspendidas, principalmente las que pertenecen a EPSA.
Por lo tanto poseen
demasiados datos faltantes.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
36
7 CONCLUSIONES Y RECOMENDACIONES
9 Con respecto al análisis exploratorio realizado a las series de precipitación total se
puede concluir que la precipitación presenta una distribución que no se ciñe a la
normal, asimétrica positiva, lo cual refleja la presencia de valores atípicos a la derecha
de la distribución, estos datos se ubican por fuera de rango de cobertura del 95% de la
serie. Este es un comportamiento análogo en todas las series de precipitación, es
decir, en las que serán completados los datos faltantes y en las que fueron excluidas
de este procedimiento.
9 Según el análisis confirmatorio de los datos de precipitación, específicamente en el
caso de las series de datos a las cuales se les realizó el complemento de los datos
faltantes, se determina que el 78% de la totalidad de estaciones (168 estaciones)
aprobaron las pruebas de hipótesis, lo cual verifica la calidad de la información
disponible, de este 78% (131 estaciones) el 63% pertenecen a estaciones manejadas
por la Corporación, el 37 % restante corresponde a otros operadores entre ellos
Cenicaña, IDEAM, EPSA y algunos particulares. De las 37 estaciones que rechazan
las pruebas de hipótesis, el 72.97% pertenecen a CVC (27 estaciones), el porcentaje
restante a los demás operadores.
9
Las estaciones pertenecientes a la Corporación que fueron rechazadas en su mayoría
y según el conocimiento del personal que las opera corresponde a estaciones que
presentan un comportamiento característico de la zona en donde se encuentra
ubicada y no es debido a mal funcionamiento de la misma. Por lo tanto no pueden ser
consideradas como inadecuadas para los estudios, por el contrario deben ser tenidas
en cuenta pues caracterizan especialmente una zona determinada. Entre ellas se
tienen La María, Moravito, La Despensa, El Oso, Loboguerrero, Boloblanco, Tenjo,
Diluvio, La Magdalena, El Bosque, Los Bancos, Coconuco, Jambaló.
9 En el caso del ACD para estaciones a las cuales no se les efectuó el llenado de datos
faltantes, el resultado son 22 estaciones que rechazan las pruebas de hipótesis que
corresponde al 23.4% de la totalidad de estaciones incluidas en este apartado del
análisis. De este porcentaje el 18% (4 estaciones) son operadas por la Corporación,
las restantes se distribuyen entre estaciones manejadas por otros operadores y
algunas estaciones suspendidas.
9 Según el análisis exploratorio realizado a las series de las estaciones con registros de
evaporación total y brillo solar total, se aprecian en varias estaciones anomalías en los
datos pues se registran valores muy pequeño para ajustarse a valores totales
mensuales, esto ocurren en el caso de evaporación total en las estaciones
Samarcanda, Chambú, Bahía Málaga, Miravalles, entre otras. Para brillo solar total en
Cenicaña, Miranda, Argelia – El Recreo, Santa Teresa, El Topacio, Ingenio Central
Castilla, Bahía Málaga, La Sirena, Colpuertos, La Teresita y Bajo Calima. Estos datos
fueron verificados en los registros diarios de cada una de ellas, para posteriormente
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
37
ser eliminados al constatar la anomalía en ellos, estos serán calculados como datos
faltantes. Con respecto a la temperatura media solamente se detectó un valor que
mereció ser eliminado, el registrado en Tenerife (25.4 °C), no es posible la ocurrencia
de este valor debido a la localización geográfica del esta estación, ya que se está
trabajando con valores medios.
9 El análisis confirmatorio de datos para las series de brillo solar total arroja el 75.86%
de las estaciones pasaron las pruebas de hipótesis, en evaporación total el 35% y en
temperatura media 25.8%. Los porcentajes tan bajos de aceptación de evaporación
total pueden ser debidos a la gran cantidad de datos faltantes, también puede deberse
a errores en los registros, varias de estas estaciones rechazadas pertenecen a la red
de monitoreo pero no son manejadas directamente por la Corporación, lo cual
imposibilita conocer el funcionamiento de las mismas, con respecto a las operadas por
la Corporación no se tiene conocimiento de problemas significativos. Esta misma
situación puede ser la causante de los rechazos en las series de temperatura.
9 Con referencia a las series de datos a las cuales se les realizó el llenado de datos
faltantes para evaporación se tienen 22 estaciones con datos completos, brillo solar 11
estaciones y temperatura media 15 estaciones. El número reducido de estaciones con
datos completos obedece a la imposibilidad de alcanzar una concordancia en el
periodo de registros entre estaciones, dada la suspensión de algunas de ellas, las
fechas de inicio recientes y la no coincidencia en la ubicación geográfica de la misma.
9 Se recomienda para complementar este estudio realizar la regionalización de las
estaciones de la red de monitoreo, esta permitirá agruparlas en grupos cuyo
comportamiento sea estadísticamente homogéneo, lo que significaría un incremento
en la calidad de la información entregada por la Corporación al usuario final.
9 El análisis estadístico de este tipo de series de datos resulta ser de mucha utilidad, ya
que permite chequear la calidad de la información, basándose en el comportamiento
de los datos, logrando detectar errores tanto en la toma de los mismos como en el
aparto de medición; así como también se consigue poder determinar la calidad de las
estaciones.
9 Se requiere la ampliación de la red climatológica, ya que se nota la ausencia en
algunos sectores del departamento, especialmente en la costa pacífica, en la cual son
muy pocas o no existen estaciones climatológicas y si las hay no se registran todos los
parámetros que se requieren para caracterizar el clima en una zona determinada. Esta
situación también se da en la zona norte del departamento en los límites con el Chocó.
9 La técnica utilizada para el cálculo de los datos faltantes se constituye en un método
más preciso que el de la media aritmética utilizado para tal fin, pues minimiza la
pérdida de información al realizar las combinaciones lineales de las variables
originales no correlacionadas, con este análisis se pretende reducir la dimensión del
conjunto de datos original.
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
38
BIBLIOGRAFIA
¾ Alfaro R. y Pacheco R. Aplicación de algunos métodos de relleno a series
anuales de lluvia de diferentes regiones de Costa Rica Top. Meteor.
Oceanogr., 7(1):1-20,2000 Instituto Meteorológico Nacional, Ministerio del
Ambiente
y
Energía,
San
José,
Costa
Rica
Dirección
URL:
www.imn.ac.cr/Revista/julio2000 (Página consultada 20-05-05)
¾ Aviles – Garay E. Estadísticas: Contrastes paramétricos y no paramétricos,
Estadística no paramétrica ED800. Dirección URL: www.pucpr.edu/facultad
/ejaviles/ED800Files (Página consultada 14 – 10 - 2005)
¾ Carmona F. Estadística i Anàlisi de Dades (curs 2001-2002) ejemplo ACP paso
a paso Dirección URL: www.bio.ub.es/estad/docencia/Mates/ejemploACP.pdf
(Página consultada 31-05-05)
¾ Carvajal Y. El uso de funciones ortogonales empíricas y Análisis de
correlación canónica en el Estudio de la variabilidad Hidrometeorólogica.
Aplicación al Valle del Cauca –Colombia. Tesis de Doctorado Universidad
Politécnica de Valencia – España. 2004
¾ Dieulifait
E.
Apéndice
estadístico-actuarial.
Dirección
URL:
www.indec.mecon.ar/proyectos/SAE/apendice.pdf (Página consultada 17-08-05)
¾ La prueba más universal para la comparación de dos tratamientos. (Página
consultada 12-08-05)|DirecciónURL: http://www.ebiometria.com/ebiometria/conceptos_basicos/la_prueba_mas_universal.html
¾ Medidas
de
dispersión.
Dirección
URL:
www.liccom.edu.uy/bedelia/cursos/metodos/materiales/estadistica/med_disp.html
(Página consultada 06 – 08 -05)
¾ Meneses B. Aplicación de la estadística no paramétrica en la administración.
http://www.uv.mx/iiesca/revista2/bety1.html (Página consultada 20-08-05)
¾ Olmos S. y Di Renzo M. Métodos de análisis de variabilidad. Capitulo 1 –
Consideraciones estadísticas y biológicas para estimar la variabilidad genética.
Dirección URL: www.inta.gov.ar/ediciones/2004/biotec/part6_cap1.pdf (Página
consultada 29-04-05)
¾ Ovalles F. y Núñez M. Métodos estadísticos para evaluar la variabilidad de
suelos dentro de unidades de capacidad de uso en la Depresión del Lago de
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
39
Valencia. Agronomia Trop. 44(1) 23-40.1994. Dirección URL: http://www.redpavfpolar.info.ve/agrotrop/v441a020.html (Página consultada 19-07-05)
¾ Salvador Figueras, M y Gargallo, P. (2003): Análisis Exploratorio de Datos, [en
línea] 5campus.com, Estadística http://www.5campus.com/leccion/aed (Página
consultada 21-07-05)
Aplicación de técnicas estadísticas en las series climatológicas mensuales totales de precipitación, evaporación y brillo solar, con el fin
de corregir complementar y verificar la calidad de la información.
40
Descargar