Analisis Estadístico de Datos Climáticos Estadística Univariada Distribuciones empíricas y análisis exploratorio de datos Robustez y Resistencia Medidas numéricas de localizacion, dispersión y simetría Técnicas gráficas: boxplots, histogramas, distribución de frecuencia acumulada Transformaciones Finalidad: aprender algo sobre la naturaleza de los datos. Transformaciones A veces es útil transformar matemáticamente el conjunto inicial de datos puede revelar características escondidas de los datos. ayuda a hacer que los datos cumplan con ciertas hipótesis sobre la naturaleza de los datos. Por ej. que tengan distribución guassiana. ayuda la comparación entre diferentes variables . Anomalías ¿Cómo se definen usualmente las anomalías en estudios del clima? Las anomalías se definen con respecto al ciclo anual. Por ejemplo, para datos medios mensuales, el ciclo annual se define como el promedio de todos los eneros, febreros, etc, del período del registro. Código de Matlab % Cargar los datos pre=nv_varget('precl1949­2006.nc','rain')*0.1; %lluvias en mm/dia lon=nc_varget('precl1949­2006.nc','longitude'); lat=nc_varget('precl1949­2006.nc','latitude'); size(pre) ­ Matriz de 696x72x144 – tiempo x latitud x longitud size(lon) – Vector (matriz) 144 x 1 size(lat) – Vector (matriz) 72 x 1 % Crear Climatología y Anomalías [clim,anom]=climatology(pre(1:120,:,:),lon,lat,0); % Plotear subplot(3,2,1:4) %crea 3 x 2 cuadros donde plotear y usa los 4 primeros plot(linspace(1949,1958,120),pre(1:120,23,122),'linewidth',2) hold %la siguiente línea dibuja encima de lo que ya está plot(linspace(1949,1958,120),clim(1:120,23,122),'r','linewidth',2) grid %pone grilla title('Precipitacion en (56W,34S) PREC­L periodo (1949­1958)') legend('Precip','Climatol') %leyenda subplot(3,2,5:6) plot(linspace(1949,1958,120),anom(:,23,122),'linewidth',2) grid axis tight %arregla ejes legend('Anom') Anomalías estandarizadas Las anomalías estandarizadas z se calculan restando la media y dividiendo por la desviación estandard. Como las anomalías tienen ya media nula, basta con dividir por la desviación estandard. z=anom(:,23,122)/std(anom(:,23,122)); %Define z plot(linspace(1949,1958,120),anom(1:120,23,122),'linewidth',2) hold plot(linspace(1949,1958,120),z,'g','linewidth',2) grid Notar que: Las anomalias estandarizadas no tienen unidades Todas las variables estandarizadas tienen media nula y desviación estandard = 1. Esto permite comparar diferentes variables mas facilmente. Comparemos desviacion estandard de las lluvias en 56W,34S de acuerdo al mes pp=anom(1:120,23,122); %STD para c/mes for j=1:12 pps(j)=std(pp(j:12:end)); end bar(pps) La desviación estandard en enero es 3 veces mayor que en diciembre. O sea que una anomalia de 1 mm/día en diciembre es mucho más inusual que en enero. subplot(2,2,1) plot((1949:1958),pp(1:12:end),'r','linewidth',2) hold plot((1949:1958),pp(12:12:end),'linewidth',2) title('Anomalias') subplot(2,2,2) plot((1949:1958),pp(1:12:end)/std(pp(1:12:end)),'r','linewidth',2) end plot((1949:1958),pp(12:12:end)/std(pp(12:12:end)),'linewidth',2) title('Anomalias estandarizadas') Técnicas para datos apareados Datos apareados: conjunto de datos con dos valores para el mismo tiempo. Scatterplots Coeficiente de correlación de Pearson Coeficiente de correlación de Spearman (rango) Scatterplots Gráfico donde la variable y se plotea en funcion de la variable x. (x,y) son datos para c/tiempo. Permite a simple vista “tener idea” de la relacion entre datos apareados Relación entre Anomalias de Precip y Temp en (56W,34S) durante mayo (1949-1958) De acuerdo a este gráfico tiende a llover mas cuanto mas cálido está el mes. El cálculo de la correlación permite asignar un valor a esta relación. temp=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','temp'); X=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','X'); Y=nc_varget(../ncep_ncar_Jan1949-Aug2007/sfctemp.nc','Y'); [clim,anom]=climatology(temp(1:120,:,:),X,Y,0); tt=anom(:,23,122); scatter(tt(5:12:end),pp(5:12:end),30,'filled'); grid Coef. de correlación de Pearson Cociente entre la covarianza entre dos variables y el producto de sus desviaciones estandard. Si las desviaciones estandards se meten dentro de la sumatoria la correlación también se puede escribir como o sea, el promedio del producto de las anomalías estandarizadas. Propiedades Cumple −1 r xy 1 r xy ² especifica la proporción de la variabilidad de una de las dos variables que está descrita linealmente por la otra. No es ni robusta (sólo caracteriza relaciones lineales) ni resistente (muy sensible a outliers). Precip=f(Temp) (56W,34S) Poca resistencia a outliers Correlación con punto rojo r=0.34 Correlacion sin dato rojo r=0.61 %Correlación corr(tt(5:12:end),pp(5:12:end),'type','Pearson') Coef. de correlación de Spearman Alternativa robusta y resistente Consiste en aplicar la misma fórmula que el coef. de Pearson pero a los rangos de los datos. Como se usan rangos, los valores son siempre enteros del 1 a n (número de datos) y (promedio de 1...n) = (n+1)/2 (varianza de 1...n) = n(n2­1)/[12(n­1)] Entonces D i =rango x i −rango y i Ejemplo 1 Rango xi Rango yi Di 1 2 3 4 1 2 3 4 0 0 0 0 5 6 7 8 5 6 7 8 0 0 0 0 9 10 9.5 9.5 r_Pearson=0.877 -0.5 0.5 r_rank=1- 6*0.5/(10*99)=0.997 Así como r_Pearson captura la relación lineal, r_rank captura una relación monotónica Ejemplo 2 Rango(xi) Rango(yi) Di 1 2 3 4 8 4 9 2 -7 -2 -6 2 5 6 5 6 0 0 7 8 9 10 3 1 7 10 4 7 2 0 r_Pearson=0.61 r_rank=1 - 6(49+4+36+4+16+49+4)/(10*99)=0.018 En lengua Matlab: corr(x,y,'type','Spearman') Autocorrelacion Es la correlación de una variable con sus propios valores pasados y futuros. Si se tiene una serie temporal Xi, i=1...n, la autocorrelación con lag=1 se hace X1 X2 X3 X4... Xn­2 Xn­1 Xn X1 X2 X3 X4... Xn­2 Xn­1 Xn Y se calcula Para un lag k cualquiera se tiene Notar que: a medida que k aumenta los segmentos de serie comparados son cada vez mas chicos. en general se calcula las autocorrelaciones para k<n/3. Función de autocorrelación Es el conjunto de autocorrelaciones calculadas para diferentes lags. La función de autocorrelación siempre comienza con r0=1 pues es la correlación de una serie consigo misma. ● Típicamente, la función decrese a medida que k aumenta. Esta disminución es muchas veces exponencial y se define un tiempo de persistencia como el lag para el cual rk=e­1. Persistencia de temperatura media en invierno de 1975en Las Brujas En Julio la escala de persistencia de temperatura fue bastante mayor que en agosto, pero es siempre del órden de días. Julio fue mas “predecible”. días temp=nc_varget('TempMedia_LasBrujas_INIA_1Jan1975-31Dec1995.cdf','tempavg'); [rr,lag]=xcov(temp(6*30+1:7*31),temp(6*30+1:7*31),'coeff'); [rr2,lag2]=xcov(temp(7*30+1:8*31),temp(7*30+1:8*31),'coeff'); plot(lag,rr); hold; plot(lag,rr,'*'); plot(lag2,rr2,'r'); plot(lag2,rr2,'r*'); axis([0 12 -0.5 1]) ¿Por que una escala de 4-5 días? Por el pasaje de frentes y masas de aire. Autocorrelación TSM lengua fria del Pacífico 6 meses! La persistencia de las anomalías de temperatura de superficie de mar es del órden de 3 meses dependiendo de la región. Eso permite pronosticar el estado del océano con cierta antelación. TSM globales últimos 3 meses Predicción de TSM: - dinamica/estadísticamente en los trópicos - persistencia en los extratrópicos