Analisis Estadístico de Datos Climáticos

Anuncio
Analisis Estadístico de
Datos Climáticos

Estadística Univariada

Distribuciones empíricas y análisis exploratorio de datos

Robustez y Resistencia

Medidas numéricas de localizacion, dispersión y simetría


Técnicas gráficas: boxplots, histogramas, distribución de frecuencia acumulada
Transformaciones
Finalidad: aprender algo sobre la naturaleza de los datos.
Transformaciones

A veces es útil transformar matemáticamente el conjunto inicial de datos


puede revelar características escondidas de los datos.
ayuda a hacer que los datos cumplan con ciertas hipótesis sobre la naturaleza de los datos. 

Por ej. que tengan distribución guassiana.
ayuda la comparación entre diferentes variables .
Anomalías

¿Cómo se definen usualmente las anomalías en estudios del clima?
Las anomalías se definen con respecto al ciclo anual.
Por ejemplo, para datos medios mensuales, el ciclo annual se define como el promedio de todos los eneros, febreros, etc, del período del registro.
Código de Matlab
% Cargar los datos
pre=nv_varget('precl1949­2006.nc','rain')*0.1; %lluvias en mm/dia
lon=nc_varget('precl1949­2006.nc','longitude'); lat=nc_varget('precl1949­2006.nc','latitude');
size(pre) ­ Matriz de 696x72x144 – tiempo x latitud x longitud
size(lon) – Vector (matriz) 144 x 1 size(lat) – Vector (matriz) 72 x 1
% Crear Climatología y Anomalías
[clim,anom]=climatology(pre(1:120,:,:),lon,lat,0);
% Plotear
subplot(3,2,1:4) %crea 3 x 2 cuadros donde plotear y usa los 4 primeros
plot(linspace(1949,1958,120),pre(1:120,23,122),'linewidth',2)
hold %la siguiente línea dibuja encima de lo que ya está
plot(linspace(1949,1958,120),clim(1:120,23,122),'r','linewidth',2)
grid %pone grilla
title('Precipitacion en (56W,34S) PREC­L periodo (1949­1958)')
legend('Precip','Climatol') %leyenda
subplot(3,2,5:6)
plot(linspace(1949,1958,120),anom(:,23,122),'linewidth',2)
grid
axis tight %arregla ejes
legend('Anom')
Anomalías estandarizadas

Las anomalías estandarizadas z se calculan restando la media y dividiendo por la desviación estandard.
Como las anomalías tienen ya media nula, basta con dividir por la desviación estandard.
z=anom(:,23,122)/std(anom(:,23,122)); %Define z
plot(linspace(1949,1958,120),anom(1:120,23,122),'linewidth',2)
hold
plot(linspace(1949,1958,120),z,'g','linewidth',2)
grid
Notar que:



Las anomalias estandarizadas no tienen unidades Todas las variables estandarizadas tienen media nula y desviación estandard = 1.
Esto permite comparar diferentes variables mas facilmente.

Comparemos desviacion estandard de las lluvias en 56W,34S de acuerdo al mes
pp=anom(1:120,23,122);
%STD para c/mes
for j=1:12
pps(j)=std(pp(j:12:end));
end
bar(pps)
La desviación estandard
en enero es 3 veces mayor
que en diciembre.
O sea que una anomalia de
1 mm/día en diciembre es
mucho más inusual que
en enero.
subplot(2,2,1)
plot((1949:1958),pp(1:12:end),'r','linewidth',2)
hold
plot((1949:1958),pp(12:12:end),'linewidth',2)
title('Anomalias')
subplot(2,2,2)
plot((1949:1958),pp(1:12:end)/std(pp(1:12:end)),'r','linewidth',2)
end
plot((1949:1958),pp(12:12:end)/std(pp(12:12:end)),'linewidth',2)
title('Anomalias estandarizadas')
Técnicas para datos
apareados

Datos apareados: conjunto de datos con dos valores para el mismo tiempo. 
Scatterplots

Coeficiente de correlación de Pearson

Coeficiente de correlación de Spearman (rango)
Scatterplots



Gráfico donde la variable y se plotea en funcion de la variable x. (x,y) son datos para c/tiempo. Permite a simple vista “tener idea” de la relacion entre datos apareados
Relación entre Anomalias de Precip y Temp en
(56W,34S) durante mayo (1949-1958)
De acuerdo a este gráfico
tiende a llover mas
cuanto mas cálido está
el mes.
El cálculo de la correlación
permite asignar un valor
a esta relación.
temp=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','temp');
X=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','X');
Y=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','Y');
[clim,anom]=climatology(temp(1:120,:,:),X,Y,0);
tt=anom(:,23,122);
scatter(tt(5:12:end),pp(5:12:end),30,'filled'); grid
Coef. de correlación de
Pearson

Cociente entre la covarianza entre dos variables y el producto de sus desviaciones estandard.
Si las desviaciones estandards se meten dentro de la
sumatoria la correlación también se puede escribir
como
o sea, el promedio del producto de las anomalías
estandarizadas.

Propiedades



Cumple −1 r xy 1
r xy ²
especifica la proporción de la variabilidad de una de las dos variables que está descrita linealmente por la otra.
No es ni robusta (sólo caracteriza relaciones lineales) ni resistente (muy sensible a outliers).
Precip=f(Temp) (56W,34S)
Poca resistencia a outliers
Correlación con punto rojo
r=0.34
Correlacion sin dato rojo
r=0.61
%Correlación
corr(tt(5:12:end),pp(5:12:end),'type','Pearson')
Coef. de correlación de
Spearman


Alternativa robusta y resistente
Consiste en aplicar la misma fórmula que el coef. de Pearson pero a los rangos de los datos. Como se usan rangos, los valores son siempre enteros del 1 a n (número de datos) y (promedio de 1...n) = (n+1)/2
(varianza de 1...n) = n(n2­1)/[12(n­1)]
Entonces
D i =rango  x i −rango y i 
Ejemplo 1
Rango xi Rango yi
Di
1
2
3
4
1
2
3
4
0
0
0
0
5
6
7
8
5
6
7
8
0
0
0
0
9
10
9.5
9.5
r_Pearson=0.877
-0.5
0.5
r_rank=1- 6*0.5/(10*99)=0.997
Así como r_Pearson captura la relación lineal,
r_rank captura una relación monotónica
Ejemplo 2
Rango(xi) Rango(yi) Di
1
2
3
4
8
4
9
2
-7
-2
-6
2
5
6
5
6
0
0
7
8
9
10
3
1
7
10
4
7
2
0
r_Pearson=0.61
r_rank=1 - 6(49+4+36+4+16+49+4)/(10*99)=0.018
En lengua Matlab: corr(x,y,'type','Spearman')
Autocorrelacion


Es la correlación de una variable con sus propios valores pasados y futuros.
Si se tiene una serie temporal Xi, i=1...n, la autocorrelación con lag=1 se hace
X1 X2 X3 X4... Xn­2 Xn­1 Xn
X1 X2 X3 X4... Xn­2 Xn­1 Xn Y se calcula

Para un lag k cualquiera se tiene

Notar que:


a medida que k aumenta los segmentos de serie comparados son cada vez mas chicos.
en general se calcula las autocorrelaciones para k<n/3.
Función de autocorrelación


Es el conjunto de autocorrelaciones calculadas para diferentes lags.
La función de autocorrelación siempre comienza con r0=1 pues es la correlación de una serie consigo misma.
●
Típicamente, la función decrese a medida que k aumenta. Esta disminución es muchas veces exponencial y se define un tiempo de persistencia como el lag para el cual rk=e­1.
Persistencia de temperatura media en invierno de
1975en Las Brujas
En Julio la escala de
persistencia de
temperatura fue
bastante mayor que
en agosto, pero
es siempre del órden
de días.
Julio fue mas
“predecible”.
días
temp=nc_varget('TempMedia_LasBrujas_INIA_1Jan1975-31Dec1995.cdf','tempavg');
[rr,lag]=xcov(temp(6*30+1:7*31),temp(6*30+1:7*31),'coeff');
[rr2,lag2]=xcov(temp(7*30+1:8*31),temp(7*30+1:8*31),'coeff');
plot(lag,rr); hold; plot(lag,rr,'*');
plot(lag2,rr2,'r'); plot(lag2,rr2,'r*');
axis([0 12 -0.5 1])
¿Por que una escala de 4-5 días?
Por el pasaje de frentes y masas de aire.
Autocorrelación TSM lengua fria del Pacífico
6 meses!
La persistencia de las anomalías de temperatura de superficie de mar
es del órden de 3 meses dependiendo de la región. Eso permite
pronosticar el estado del océano con cierta antelación.
TSM globales últimos 3 meses
Predicción de TSM:
- dinamica/estadísticamente en
los trópicos
- persistencia en los extratrópicos
Documentos relacionados
Descargar