Subido por Wilber YUCRA HUILLCA

Geoestadistica-Conceptos Básico

Anuncio
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 1 — #1
i
i
Conceptos Básicos
de Geoestadı́stica
Eloy Colell
Juan Uribe
Pablo Chale
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 2 — #2
i
i
2
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 1 — #3
i
i
Conceptos Básicos de Geoestadı́stica
Editado por
Lucas Capalbo Lavezzo.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 2 — #4
i
i
2
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 1 — #5
i
i
Copyright c 2009 de los editores y contribuyentes
Algunos derechos reservados.
Este trabajo es distribuido bajo la licencia Creative Commons
Attribution–Noncommercial–NoDerivs 3.0 License.
http://creativecommons.org/licenses/by-nc-nd/3.0
Impreso el dı́a 15 de agosto de 2010.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 2 — #6
i
i
2
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 3 — #7
i
i
Índice general
I
Estadı́stica
11
1. Estadı́stica Descriptiva
15
1.1. Propiedades de los Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.1.1. Posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
1.1.2. Centralización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
1.1.3. Dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
1.1.4. Forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
1.2. Estadı́stica Bivariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.2.1. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.2.2. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2. Estadı́stica Inferencial
23
2.1. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.2. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.3. Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
2.4. Distribución de probabilidad / Función de densidad . . . . . . . . . . . . . . . . . . . . . .
24
2.5. Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.6. Esperanza Matemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
3
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 4 — #8
i
i
ÍNDICE GENERAL
4
2.7. Varianza y Desviación Tı́pica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.8. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.9. Distribuciones de Probabilidad conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.9.1. Distribución Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.9.2. Distribución de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
2.9.3. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
2.9.4. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.9.5. Distribución Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.9.6. Distribución Geométrica o de Pascal . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.9.7. Distribución Binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.10. Funciones de Densidad conocidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.10.1. Distribución Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
2.10.2. Distribución Normal o de Laplace-Gauss . . . . . . . . . . . . . . . . . . . . . . .
35
2.10.3. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
2.10.4. Distribución Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
2.10.5. Distribución χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
2.10.6. Distribución Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
2.10.7. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
2.10.8. Distribución F de Fisher-Snedecor . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
2.11. Teorı́a de Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
2.11.1. Inferencia Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
2.11.2. Contraste de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
II Series Temporales
43
3. Enfoque clásico
47
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 5 — #9
i
i
ÍNDICE GENERAL
5
3.1. Tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.1.1. Análisis gráfico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
3.1.2. Medias móviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
3.1.3. Método analı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
3.1.4. Alisado exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
3.2. Variación Estacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
3.3. Variación Cı́clica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
3.4. Variación Residual (o Indeterminada) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
4. Enfoque Causal
4.1. Tasas de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
62
III Geoestadı́stica
65
5. Variables regionalizadas
69
6. Hipótesis estadı́stica
71
6.1. Estacionalidad de Segundo Orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
6.2. Hipótesis Intrı́nseca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
6.3. Comparación de las dos hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
6.4. Selección de la variable regionalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
7. Variograma
75
7.1. Variograma Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
7.2. Variograma Teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
7.2.1. Modelos con un tope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
7.2.2. Modelos sin un tope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 6 — #10
i
i
ÍNDICE GENERAL
6
7.3. Ajuste a un modelo teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
7.3.1. A ojo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
7.3.2. Mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
7.3.3. Probabilidad máxima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
7.4. Isotropı́a y anisotropı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
7.4.1. Anisotropı́a geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
7.4.2. Anisotropı́a zonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
8. Kriging
87
8.1. Kriging Ordinario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
8.1.1. Kriging Ordinario Puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
8.1.2. Kriging Ordinario por Bloques . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
8.1.3. El variograma y el kriging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
8.1.4. El Kriging en la práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
8.1.5. Kriging con un variograma “falso” . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
8.1.6. Validación cruzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
8.1.7. Kriging con datos inciertos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
92
8.1.8. Kriging Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
8.2. Métodos no estacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
8.2.1. Kriging Universal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
8.2.2. Kriging con Deriva Externa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
8.3. Actualización Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
8.4. Kriging sobre Series Temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.4.1. Intrı́nsecas en el espacio-tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
8.4.2. Intrı́nsecas en el espacio e independientes del tiempo . . . . . . . . . . . . . . . . . 102
8.4.3. Intrı́nsecas en el espacio y dependientes del tiempo . . . . . . . . . . . . . . . . . . 103
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 7 — #11
i
i
ÍNDICE GENERAL
7
8.4.4. Series temporales interpretadas como diferentes realizaciones . . . . . . . . . . . . 103
Referencias Bibliográficas
104
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 8 — #12
i
i
8
ÍNDICE GENERAL
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 9 — #13
i
i
Índice de figuras
1.1. Coeficiente de Asimetrı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
1.2. Coeficiente de Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.3. Coeficiente de Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
2.1. Distribución de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.2. Función de Distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.1. Serie Temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
3.2. Tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
3.3. Medias Móviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
3.4. Método Analı́tico Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
3.5. Método Analı́tico Polinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
3.6. Método Analı́tico Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
3.7. Alisado Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
3.8. IGVE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3.9. Desestacionalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
3.10. Ciclicidad por Medias Móviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.1. Serie temporal de diferenciales anuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
4.2. Serie temporal de diferenciales mensuales . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
9
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 10 — #14
i
i
10
ÍNDICE DE FIGURAS
4.3. Ejemplo de mapa 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
6.1. La Hipótesis Intrı́nseca y la Estacionalidad de Segundo Orden . . . . . . . . . . . . . . . .
73
6.2. El variograma y la covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
7.1. Nube de puntos de un variograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
7.2. Variograma Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
7.3. Variograma teórico con efecto pepita puro. . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
7.4. Variograma teórico del modelo esférico. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
7.5. Variograma teórico del modelo exponencial. . . . . . . . . . . . . . . . . . . . . . . . . . .
81
7.6. Variograma teórico del modelo Gaussiano. . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
7.7. Variograma teórico del modelo potencial. . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 11 — #15
i
i
Parte I
Estadı́stica
11
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 12 — #16
i
i
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 13 — #17
i
i
13
Es la rama de la matemática que se ocupa del estudio, análisis y clasificación de datos aleatorios.
Se pueden clasificar dos tipos de estadı́sticas: la descriptiva[Ber, Men, Cap, Fer04a] y la inferencial.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 14 — #18
i
i
14
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 15 — #19
i
i
Capı́tulo 1
Estadı́stica Descriptiva
Se encarga de la organización, presentación y sı́ntesis de datos. Para esto es necesario clasificar
cada uno de los datos xi (valores de la variable X medida) en clases o intervalos de clases C j , donde j
representa la j − esima clase o intervalo de clase. Esa disposición de datos clasificados en forma tabular
permite construir la distribución de frecuencias ( f ), la cual puede ser mostrada de forma:
Absoluta Cantidad de elementos xi pertenecientes a una clase o intervalo de clase C j . Se llama frecuencia
absoluta, o simplemente frecuencia y se representa mediante la función f j .
Relativa Porción de los elementos totales que pertenecen a una clase o intervalo de clase. Se calcula a partir
f
de la formula fR j = nj , siendo n la cantidad de elementos de la muestra y cumplirá con la ecuación
∑ fR j = 1.
Acumulada Número de veces que ha aparecido en la muestra un elemento (xi ) de una clase o intervalo
de clase menor o igual. Implica cierto orden entre las clases, y se representa mediante la función
fA j =
j
j
t=1
t=1
∑ ft para las absolutas y fAR j = ∑ fRt para las relativas.
1.1. Propiedades de los Datos
En el análisis o interpretación de datos numéricos, se pueden utilizar medidas descriptivas que
representan las propiedades de posición, centralización, dispersión y forma, para resumir las caracterı́sticas sobresalientes del conjunto de datos. Si estas medidas se calculan con una muestra de datos
se denominan estadı́sticos, mientras que si se calculan con la población de datos, se denominan parámetros.
15
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 16 — #20
i
i
CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA
16
1.1.1. Posición
Las propiedades de posición están representadas por los Percentiles, Quartiles y Deciles, detallados
a continuación.
Percentiles
Son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Ejemplo, el
percentil de orden 15 (P15 (X)) deja por debajo al 15 % de las observaciones, y por encima queda el
85 %.
Quartiles
Son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son un
caso particular de los percentiles:
El primer cuartil Q1 (X), es el menor valor xi que es mayor que una cuarta parte de los datos.
El segundo cuartil Q2 (X), es el menor valor xi que es mayor que la mitad de los datos.
El tercer cuartil Q3 (X), es el menor valor xi que es mayor que tres cuartas partes de los datos.
Deciles
Son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son también un caso particular de los percentiles. Ejemplo, D1 (X) = P10 (X).
1.1.2. Centralización
Las propiedades de centralización están representadas por la Media Aritmética, Mediana y Moda,
detalladas a continuación.
Mediana
Aparece en el medio de una sucesión ordenada de valores.
Si el tamaño de la muestra (n) es un número impar, se representa por el valor numérico de la observación ordenada (coincidiendo en este caso con el percentil 50):
X̃ = x( n+1 )
2
(1.1)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 17 — #21
i
i
1.1. PROPIEDADES DE LOS DATOS
17
Por otro lado, si el número de la muestra es par, se representa con la media de los dos valores
intermedios en el arreglo ordenado:
x( n ) + x( 2n +1)
X̃ = 2
(1.2)
2
Media Aritmética
Se encuentra al sumar todos los valores en la muestra y luego, al dividir el total por n (el número
de observaciones en la muestra).
1 n
(1.3)
X̄ = ∑ xi
n i=1
Además se podrı́a calcular mediante las frecuencias absolutas, donde k representa a la cantidad de
clasificaciones de los datos realizadas.
1 k
X̄ = ∑ C˜ j f j
(1.4)
n j=1
Siendo C˜ j la mediana entre los valores posibles dentro de una clase o intervalo de clase.
Si hay valores extremos, la Media Aritmética no es una buena medida de tendencia central. En estos
casos se preferirá la Mediana.
Moda
Es el valor más tı́pico o más observado. Es la clase con mayor frecuencia. Cuando se trabaja con
tablas de frecuencias para variables continuas existirá un intervalo modal.
X̂ = Ci ; (∀ j, fi ≥ f j )
(1.5)
1.1.3. Dispersión
Las propiedades de dispersión están representadas por el Rango, Varianza, Desvı́o Estándar y
Coeficiente de variación, detallados a continuación.
Rango
Definido como recorrido o amplitud, es la diferencia entre el mayor y el menor valor de los xi .
Rango(X) = Max(X) − Min(X)
(1.6)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 18 — #22
i
i
CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA
18
Varianza
Es el promedio de los cuadrados de las diferencias entre cada elemento de la muestra y la media
obtenida.
n
S2 (X) =
∑ (xi − X̄)2
i=1
n−1
(1.7)
Si se utiliza n en el divisor se calcula un parámetro, mientras que con n − 1 se obtiene el estadı́stico
(ya que se tiene en cuenta la propiedad de los grados de libertad).
Desviación Estándar
La varianza está compuesta de las mismas unidades que la variable pero al cuadrado, para evitar
este problema podemos usar como medida de dispersión la desviación tı́pica que se define como la raı́z
cuadrada positiva de la varianza.
v
u n
u
u ∑ (xi − X̄)2
q
t
(1.8)
S(X) = S2 (X) = i=1
n−1
Coeficiente de variación
Es una medida relativa propuesta por Pearson que se utiliza para comparar la dispersión de dos o
más series de datos que están expresados en unidades diferentes. A menor diferencia entre los CV más
homogéneas son las variables.
S(X)
(1.9)
CV (X) =
|X̄|
1.1.4. Forma
Las propiedades de forma están representadas por el Coeficiente de Asimetrı́a y Kurtosis, detalladas a continuación.
Coeficiente de asimetrı́a
Cuantifican el grado de asimetrı́a de la distribución en torno a una medida de centralización.
Una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más
lentamente por la derecha que por la izquierda (valor positivo). Si las frecuencias descienden más
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 19 — #23
i
i
1.1. PROPIEDADES DE LOS DATOS
19
lentamente por la izquierda que por la derecha diremos que la distribución es asimétrica a la izquierda
(valor negativo). Es normal cuando la distribución es simétrica (valor nulo). Ver el ejemplo de la Figura
1.1.
Existen varias medidas de la asimetrı́a de una distribución de frecuencias.
Según Pearson:
CAP (X) =
X̄ − X̂
S(X)
(1.10)
Según Fisher:
n
CAF (X) =
∑ [(xi − X̄)3 fRi ]
i=1
(1.11)
S(X)3
Según Bowley:
CAB (X) =
Q3 (X) + Q1(X) − 2X̃
Q1 (X) − X̃
= 1+2
Q3 (X) − Q1(X)
Q3(X) − Q1(X)
(1.12)
1.6
Asimetrica a la derecha
Normal
Asimetrica a la izquierda
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
Figura 1.1: Disposición gráfica de acuerdo al Coeficiente de Asimetrı́a
Coeficiente de Kurtosis
Describe el grado de esbeltez de una distribución con respecto a la distribución normal. Se calcula
por:
n
CK(X) =
∑ [(xi − X̄)4 fRi ]
i=1
S(X)4
(1.13)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 20 — #24
i
i
CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA
20
Platicurtica
Mesocurtica (Normal)
Leptocurtica
2.5
2
1.5
1
0.5
0
0
0.2
0.4
0.6
0.8
1
Figura 1.2: Disposición gráfica de acuerdo al Coeficiente de Kurtosis.
La distribución normal tiene kurtosis igual a tres, es llamada mesocúrtica. A las distribuciones más
agudas, con colas relativamente anchas, se las llama leptocúrtica, tienen valores de kurtosis mayores
que tres, y las distribuciones achatadas en el centro se llaman platicúrticas, tienen valores menores que
tres. En ocasiones se acostumbra a definir la kurtosis como CK(X) − 3. Ver el ejemplo de la Figura 1.2.
1.2. Estadı́stica Bivariable
Al analizar modelos complejos que dependen de dos o más variables, se comienzan a buscar metodologı́as que comiencen a analizar relaciones entre las diferentes distribuciones de frecuencias (representadas por variables), en un intento por resumir los resultados.
Las más importantes son: la Covarianza y el Coeficiente de correlación.
1.2.1. Covarianza
Determina si existe una relación lineal entre dos variables. Se calcula promediando las puntuaciones diferenciales por su tamaño muestral. El resultado fluctúa entre +∞ y −∞, por lo que la magnitud
del resultado carece de significado, y lo único importante es el signo que adopte.
Cov(X,Y ) =
1 n
∑ (xi − X̄)(yi − Ȳ )
n i=1
(1.14)
Si Cov(X,Y ) > 0 pendiente de la recta de regresión positiva. Indica que hay dependencia directa, es decir las
variaciones de las variables tienen el mismo sentido.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 21 — #25
i
i
1.2. ESTADÍSTICA BIVARIABLE
21
Si Cov(X,Y ) < 0 pendiente de la recta de regresión negativa. Indica que hay dependencia inversa o negativa,
es decir las variaciones de las variables tienen sentido opuesto.
Si Cov(X,Y ) ≈ 0 no es posible determinar la pendiente de la recta de regresión, por lo que no existe relación
lineal entre las 2 variables. Podrı́a existir otro tipo de relación.
1.2.2. Coeficiente de correlación
Evalúa la relación lineal entre dos variables. Permite saber si el ajuste de la nube de puntos a la
recta de regresión obtenida es satisfactorio. Ver el ejemplo de la Figura 1.3.
Según Pearson:
Cov(X,Y )
CCP (X,Y ) =
(1.15)
S(X)S(Y )
El coeficiente de correlación, CCP (X,Y ), presenta valores entre –1 y +1.
Cuando r ≈ 0 no hay correlación lineal entre las variables. La nube de puntos está muy dispersa y no se
puede trazar una recta de regresión.
Cuando r ≈ +1 hay una buena correlación positiva entre las variables según un modelo lineal y la recta de
regresión que se determine tendrá pendiente positiva.
Cuando r ≈ −1 hay una buena correlación negativa entre las variables según un modelo lineal y la recta de
regresión que se determine tendrá pendiente negativa.
CCP(X,Y)≈ +1
CCP(X,Y)≈ 0
CCP(X,Y)≈ -1
20
20
140
18
0
16
120
14
-20
100
12
-40
80
10
-60
8
60
-80
6
40
4
20
-100
2
-120
0
20 40 60 80 100 120
0
20 40 60 80 100 120
0
20 40 60 80 100 120
Figura 1.3: Disposición gráfica de acuerdo al Coeficiente de Correlación.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 22 — #26
i
i
22
CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 23 — #27
i
i
Capı́tulo 2
Estadı́stica Inferencial
Trata de generalizar la información obtenida en una muestra a una población. La bondad de
estas deducciones se mide en términos probabilı́sticos, es decir, toda inferencia se acompaña de su
probabilidad de acierto. Por esto se utilizan las probabilidades en las estimaciones, ya que permitirán
el avance sobre el Contraste de hipótesis y la Inferencia Bayesiana[Pé03].
2.1. Probabilidad
Mide la frecuencia con la que ocurre un suceso en un experimento bajo condiciones suficientemente
estables[Wik]. La notación utilizada es:
P(A) = lı́m
nc →∞
nA
nc
(2.1)
Donde A es el suceso estudiado, nA el número de veces que el evento A ha ocurrido y nc el número
de veces que el experimento fue realizado. La tendencia de nc a infinito determina la estabilidad de las
condiciones del experimento.
Los resultados de la función se encuentran dentro del intervalo [0, 1] de tal forma que:
Al suceso imposible le corresponde el valor 0.
Al suceso seguro le corresponde el valor 1.
El resto de sucesos tendrán una probabilidad comprendida entre 0 y 1.
23
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 24 — #28
i
i
CAPÍTULO 2. ESTADÍSTICA INFERENCIAL
24
2.2. Probabilidad Condicional
Esta determinada por la posibilidad de que ocurra un suceso dado, como consecuencia de otro.
Esta se representa mediante:
P(A ∩ B)
(2.2)
P(A|B) =
P(B)
A Suceso condicionado por B.
B Suceso independiente.
Si se cambia la forma de representar la ecuación
P(A|B)P(B) = P(A ∩ B) = P(B|A)P(A)
P(A|B) =
P(B|A)P(A)
P(B)
(2.3)
(2.4)
2.3. Variable Aleatoria
Se encuentra definida por una función real que asocia un resultado numérico a cada experimento
aleatorio. Por ejemplo, si el experimento aleatorio consiste en lanzar 4 veces un dado, y el objetivo es
determinar el número de veces que sale el 6 y se define una función X que asigna un valor numérico
(cantidad de 6 obtenidos) a cada resultado del experimento. De esta manera tenemos por ejemplo que
X(1632) = 1 o que X(1234) = 0, ya que en el primer experimento sale un 6 en el segundo lanzamiento,
mientras que en el último experimento no sale ninguna vez.
Las variables aleatorias y sus distribuciones de probabilidad pueden considerarse una generalización
del concepto de frecuencia. Se introducen como el modelo matemático ideal al que se aproximan las
distribuciones de frecuencias que se obtendrı́an en una repetición indefinida de pruebas de este experimento.
Usualmente se clasifican de acuerdo al número de valores que pueden asumir: las variables aleatorias discretas (solo pueden adoptar un número finito o contable de valores) y las variables aleatorias
continuas (surgen cuando tratamos con cantidades de una escala continua).
2.4. Distribución de probabilidad / Función de densidad
Dependiendo si la variable aleatoria es discreta (v.a.d) o continua (v.a.c.), se mencionará Distribución
de Probabilidad o Función de Densidad respectivamente.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 25 — #29
i
i
2.5. FUNCIÓN DE DISTRIBUCIÓN
25
Sea X una v.a.d. que toma los valores x1 , x2 , x3 , .... Se define P(X = xi ) como la probabilidad siguiente:
P(X = xi ) = P(xi ) = P{ω ∈ E/X(ω) = xi }
(2.5)
A la tabla formada por los valores que toma la variable junto con sus probabilidades recibe el nombre
de distribución de probabilidad de la variable:
X
x1
x2
...
xn
...
P(X = x) P(X = x1 ) P(X = x2 ) . . . P(X = xn ) . . .
1.6
f(x)
P(ei)
1.4
1.2
1
0.8
0.6
0.4
0.2
-0.4
-0.2
0
0.2
0.4
Figura 2.1: Ejemplo de una Distribución de Probabilidad.
Ver el ejemplo de la Figura 2.1.
Por otra parte, dada una v.a.c. X, se dice que una función real f (x) no negativa es la función de densidad
de probabilidad (o simplemente función de densidad) de la variable aleatoria X si el área encerrada
entre la curva y el eje 0X es igual a la unidad y, además, la probabilidad de que X se encuentre entre
dos valores x1 y x2 con x1 < x2 es igual al área comprendida entre estos dos valores, es decir,
Z ∞
−∞
f (x)dx = 1
P(x1 < X < x2 ) =
Z x2
(2.6)
f (x)dx
(2.7)
x1
2.5. Función de distribución
Sea X una v.a., asociada a ella se define la función de distribucin F : R → [0, 1] de la siguiente manera:
F(x) = P{ω ∈ E/X(ω) ≤ x} = P(X ≤ x)∀x ∈ R
(2.8)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 26 — #30
i
i
CAPÍTULO 2. ESTADÍSTICA INFERENCIAL
26
Las propiedades de la función de distribución son:
1. 0 ≤ F(x) ≤ 1∀x ∈ R por representar F(x) la probabilidad de un suceso.
/ = 0.
2. F(−∞) = lı́mx→−∞ F(x) = 0; pues F(−∞) = P[X ≤ −∞] = P[0]
3. F(∞) = lı́mx→∞ F(x) = 1; pues F(∞) = P[X ≤ ∞] = P[E] = 1.
4. F es monótona creciente (no estrictamente), es decir, si x1 < x2 ⇒ F(x1 ) ≤ F(x2 ).
5. F es continua por la derecha, es decir, lı́mh→0+ F(x + h) = F(x).
La función de distribución puede ser especialmente útil para calcular probabilidades ya que:
P(X ≤ x) = F(x) (por definición).
P(X > x) = 1 − P(X ≤ x) = 1 − F(x).
P(x1 < X ≤ x2 ) = P(X ≤ x2 ) − P(X ≤ x1 ) = F(x2 ) − F(x1 ).
(a) Distribucion de probabilidad
1.6
f(x)
FX(a)-FX(b)
FX(a)
P(a)
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
(b) Funcion de distribucion
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
FX
b
a
0
0.2
0.4
0.6
0.8
1
Figura 2.2: Ejemplo de una Función de Distribución.
Ver el ejemplo de la Figura 2.2.
En el caso particular que dado X una v.a.d., representa a la función acumulativa
F(X) = P(X ≤ x) =
∑ P(X = xi )
(2.9)
xi ≤x
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 27 — #31
i
i
2.6. ESPERANZA MATEMÁTICA
27
Mientras que si X es una v.a.c. se encuentra representado por
F(X) = P(X ≤ x) =
Z x
−∞
f (t)dt
(2.10)
siendo f (t) = P(X = t); ∀t ∈ [−∞, ∞].
Luego se puede expresar f (x) =
densidad.
dF(x)
, que es la relación entre la función de distribución y la de
dx
Además, si X toma valores en el intervalo (a, b), entonces las integrales infinitas anteriores se reducen
a integrales finitas, como se muestra a continuación.
Z b
f (x)dx = 1
(2.11)
a
F(x) =
 0 si x ≤ a



Z
x
f (t)dt si a < x < b




(2.12)
a
0 si x ≥ b
2.6. Esperanza Matemática
Sea X una v.a.d., la media o esperanza matemática se encuentra determinada por la expresión:
n
µX = E[X] = ∑ xi .P(X = xi )
(2.13)
i=1
A diferencia de la media definida en la estadı́stica descriptiva, los datos están probabilizados, por lo
que no son exactos.
Por otra parte si X es una v.a.c. quedarı́a determinada por la siguiente expresión:
µX = E[X] =
Z ∞
−∞
x. f (x)dx
(2.14)
El comportamiento de la esperanza matemática respecto de las transformaciones lineales es el siguiente:
Y = aX + b ⇒ E[Y ] = aE[X] + b
(2.15)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 28 — #32
i
i
CAPÍTULO 2. ESTADÍSTICA INFERENCIAL
28
2.7. Varianza y Desviación Tı́pica
Dada una v.a.d. X, la varianza viene dada por:
n
σ2X = V [X] = E[(X − µX )2 ] = ∑ (xi − µX )2 .P(X = xi )
(2.16)
i=1
y si se desarrolla el cuadrado y se aplican las propiedades de la esperanza, se obtiene:
n
σ2X = ∑ (x2i − 2xiµX + µ2X ).P(X = xi )
(2.17)
i=1
n
n
n
i=1
i=1
i=1
σ2X = ∑ x2i .P(X = xi ) − 2µX ∑ xi .P(X = xi ) + µ2X ∑ P(X = xi )
(2.18)
n
σ2X = ∑ x2i .P(X = xi ) − 2µX .µX + 1.µ2X
(2.19)
i=1
n
σ2X = ∑ x2i .P(X = xi ) − 2µ2X + µ2X
(2.20)
i=1
n
σ2X = ∑ x2i .P(X = xi ) − µ2X
(2.21)
V [X] = E[X 2 ] − (E[X])2
(2.22)
i=1
Por otra parte, para una v.a.c. X la varianza se define como:
σ2X = V [X] = E[(X − µX )2 ] =
Z ∞
−∞
(xi − µX )2 . f (x)dx
(2.23)
Pudiendo simplificarse al igual que la v.a.d. mediante la siguiente formula:
V [X] = E[X 2 ] − (E[X])2
(2.24)
Por último, ya sea una v.a.d o una v.a.c, la desviación tı́pica se define como:
σX = +
q
σ2X
(2.25)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 29 — #33
i
i
2.8. MOMENTOS
29
2.8. Momentos
Dada una v.a.d. X, se llama momento de orden k respecto del parámetro c a la esperanza matemática de
la variable (X − c)k , es decir:
n
Mk (c) = ∑ (xi − c)k .P(X = xi )
(2.26)
i=1
Si c = 0 se obtienen los momentos respecto al origen que se representan por mk .
n
mk = E[X k ] = ∑ xki .P(X = xi )
(2.27)
i=1
Si c = µX se obtienen los momentos centrales que se representan por µk .
n
µk = E[(X − µX )k ] = ∑ (xi − µX )k .P(X = xi )
(2.28)
i=1
Mientras que para una v.a.c. X, se llama momento de orden k respecto del parámetro c a la esperanza
matemática de la variable (X − c)k , es decir:
Mk (c) =
Z ∞
−∞
(x − c)k . f (x)dx
(2.29)
Si c = 0 se obtienen los momentos respecto al origen que se representan por mk .
mk = E[X k ] =
Z ∞
−∞
xk . f (x)dx
(2.30)
Si c = µX se obtienen los momentos centrales que se representan por µk .
µk = E[(X − µX )k ] =
Z ∞
−∞
(x − µX )k . f (x)dx
(2.31)
Por último, ya sea una v.a.d. o una v.a.c., se cumplen las propiedades de los momentos:
m0 = 1
m1 = µ X
m2 = σ2 + µ2X
µ0 = 1
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 30 — #34
i
i
CAPÍTULO 2. ESTADÍSTICA INFERENCIAL
30
µ1 = 0
µ2 = σ2 = m2 − µ2X
2.9. Distribuciones de Probabilidad conocidas
La ley de probabilidades de una v.a.d. X se define si se conoce su distribución de probabilidad P(xi ) =
P(X = xi ) con i = 1, 2, .., ó bien si se conoce su función de distribución F(x), cumpliéndose:
∑ P(X = xi ) = 1
i≥1
F(x) = P(X ≤ x) =
∑ P(X = xi )
xi ≤x
A continuación se listan algunas de las principales distribuciones de la v.a.d..
2.9.1. Distribución Uniforme
Una v.a.d. X que toma los valores enteros x1 , x2 , x3 , ..., xn con probabilidades
P[X = xk ] =
1
con k = 1, 2, ..., n
n
(2.32)
recibe el nombre de variable uniforme discreta, su distribución de probabilidad distribución uniforme
discreta y se denota por X U(x1 , x2 , ..., xn ).
En el caso particular de que la variable tomo como valores los primeros números naturales:
P[X = k] =
1
con k = 1, 2, ..., n
n
(2.33)
Luego, su media, varianza y desviación tı́pica son:
µx =
n+1
2
n2 − 1
12
r
n2 − 1
σx =
12
σ2x =
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 31 — #35
i
i
2.9. DISTRIBUCIONES DE PROBABILIDAD CONOCIDAS
31
2.9.2. Distribución de Bernoulli
Recibe el nombre de prueba de Bernoulli, aquel experimento que sólo admite 2 resultados posibles
excluyentes:
Suceso A (representa el éxito) con probabilidad P(A) = p.
Suceso Ac (representa el fracaso) con probabilidad P(Ac ) = 1 − p = q.
Dada la v.a.d. X asociada al experimento que asocia el valor 1 al suceso A con probabilidad p y el valor
0 al suceso Ac con probabilidad q. Esta variable recibe el nombre de variable de Bernoulli y se denota
por X
Ber(p).
La distribución de probabilidad es:
P(X = 1) = p y P(X = 0) = 1 − p = q con p + q = 1
(2.34)
Luego, su media, varianza y desviación tı́pica son:
µx = p
σ2x = p.q
σx =
√
p.q
2.9.3. Distribución Binomial
Si se supone que se realizan n pruebas de Bernoulli sucesivas e independientes. Entonces, a la v.a.d.
X, que representa el número de veces que ocurre el suceso A (éxito) en las n pruebas, se la denomina
variable binomial de parámetro n y p, y se denota por X
B(n, p), siendo p la probabilidad de éxito de
cada prueba de Bernoulli.
La variable binomial X se la puede considerar como la suma de n variables independientes de Bernoulli, es decir:
X = X1 + X2 + ... + Xn con Xi
Ber(p)∀i = 1, 2, ..., n
(2.35)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 32 — #36
i
i
CAPÍTULO 2. ESTADÍSTICA INFERENCIAL
32
La v.a. definida toma los valores 0, 1, 2, ..., n con la siguiente probabilidad:

n = 1, 2, 3, ...




n
P(X = k) =
.pk .qn−k con k = 1, 2, ..., n

k



0< p<1
(2.36)
Luego, su media, varianza y desviación tı́pica son:
µx = n.p
σ2x = n.p.q
√
σx = n.p.q
2.9.4. Distribución de Poisson
Una v.a.d. X sigue una distribución de probabilidad de Poisson de parámetro λ y se denota por X
si puede tomar todos los valores enteros 0, 1, 2, ... con la siguiente probabilidad:
(
k = 0, 1, 2, ...
λk −λ
P(X = k) = .e con
k!
λ>0
P(λ),
(2.37)
Luego, su media, varianza y desviación tı́pica son:
µx = λ
σ2x = λ
√
σx = λ
2.9.5. Distribución Hipergeométrica
Si se considera una población de N elementos de dos clases distintas de los cuales D elementos son de
la clase A y N − D elementos son de la clase Ac .
Al tomar un elemento de esta población, la probabilidad de que proceda de una u otra clase es:
D
= p → D = p.N
N
(2.38)
N −D
= q = 1 − p → N − D = q.N
N
(2.39)
P(A) =
P(Ac ) =
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 33 — #37
i
i
2.9. DISTRIBUCIONES DE PROBABILIDAD CONOCIDAS
33
Si se considera el experimento consistente en tomar n elementos consecutivos de una población sin
reemplazamiento. A la v.a.d. X, número de elementos de la clase A en una muestra de tamaño n, se la
denomina variable hipergeométrica.
Entonces, se denomina distribución hipergeométrica de parámetros N, D y n, y se denota con la expresión X
H(N, D, n), a la distribución de probabilidad que se detalla a continuación:
P[X = k] =
D
k
N−D
n−k
N
n
=
p.N k
q.N n−k
N
n
 N = 1, 2, 3, ...




con n = 1, 2, ..., N




p = 0, N1 , N2 , ..., 1
(2.40)
Luego, su media, varianza y desviación tı́pica son:
µx = n.p
σ2x = n.p.q.
N−n
N−1
r
N−n
σx = n.p.q.
N−1
2.9.6. Distribución Geométrica o de Pascal
Si se considera un experimento que consiste en realizar sucesivas pruebas de Bernoulli. A la v.a.d. X,
número de pruebas necesarias para obtener el primer éxito, se la denomina variable geométrica.
Entonces, se denomina distribución geométrica o de Pascal de parámetro p y se denota por X
a la distribución de probabilidad que se detalla a continuación:
P[X = k] = p.q
k−1
con
( k = 1, 2, 3, ...
Ge(p),
(2.41)
0 < p < 1; q = 1 − p
Luego, su media, varianza y desviación tı́pica son:
µx =
1
p
σ2x =
q
p2
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 34 — #38
i
i
CAPÍTULO 2. ESTADÍSTICA INFERENCIAL
34
σ=
√
q
p
2.9.7. Distribución Binomial negativa
Si se considera un experimento que consiste en realizar sucesivas pruebas de Bernoulli. A la v.a.d. X,
número de fracasos antes de obtener el n-ésimo éxito, se la denomina binomial negativa.
Entonces, se denomina distribución binomial negativa de parámetros n y p, y se denota por X
BN(n, p), a la distribución de probabilidad que se detalla a continuación:

k = 0, 1, 2, 3, ...




n+k−1
P[X = k] =
.pn .qk con n = 1, 2, ...

k



0< p<1
(2.42)
Luego, su media, varianza y desviación tı́pica son:
n.q
p
µx =
n.q
p2
√
n.q
σx =
p
σ2x =
2.10. Funciones de Densidad conocidas
La ley de probabilidades de una v.a.c. X se define si se conoce su función de densidad f (x) o bien si se
conoce su función de distribución F(x), tal que:
P(a < X ≤ b) =
Z b
f (x)dx
a
F(x) = P(X ≤ x)
Z ∞
−∞
f (x)dx = 1
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 35 — #39
i
i
2.10. FUNCIONES DE DENSIDAD CONOCIDAS
35
Además, cumple la siguiente relación:
F(x) =
Z x
−∞
f (x) =
f (t)dt
(2.43)
dF(x)
dx
(2.44)
A continuación se listan algunas de las principales distribuciones de la v.a.c..
2.10.1. Distribución Uniforme
Una v.a.c. X sigue una distribución uniforme en el intervalo [a, b] y se denota por X
función de densidad es:


 0 si x 6∈ [a, b]
f (x) =
1


si x ∈ [a, b]
b−a
U[a, b] cuando su
(2.45)
Luego, su media, varianza y desviación tı́pica son:
µx =
a+b
2
(b − a)2
12
b−a
σx = √
12
σ2x =
2.10.2. Distribución Normal o de Laplace-Gauss
Una v.a.c. X sigue una distribución normal de media µ y desviación tı́pica σ y se denota por X
cuando su función de densidad es:
(
−∞ < µ < ∞
2
1
)
− 12 ( x−µ
σ
con
f (x) = √ e
σ 2π
σ>0
N(µ, σ)
(2.46)
Luego, su media, varianza y desviación tı́pica son:
µx = µ
σ2x = σ2
σx = σ
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 36 — #40
i
i
CAPÍTULO 2. ESTADÍSTICA INFERENCIAL
36
Variable normal tipificada
Si la v.a.c. X es N(µ, σ), la variable normal tipificada también será una distribución normal de media
µz = 0 y desviación tı́pica σz = 1:
X −µ
Z=
(2.47)
σ
Entonces, Z
N(0, 1) y su función de densidad es:
1 2
1
f (z) = √ e− 2 z con − ∞ < z < ∞
2π
(2.48)
2.10.3. Distribución Gamma
Una v.a.c. X sigue una distribución gamma y se denota por X G(α, p) cuando su función de densidad
es:
α p −αx p−1
e x
con x > 0
(2.49)
f (x) =
Γ(p)
Se define la función gamma Euler como Γ(p) =
p > 0. Entre sus propiedades se destaca:
Z ∞
0
e−x x p−1 dx que resulta continua y convergente para
p.1) Γ(1) = 1
p.2) Γ(p) = (p − 1)Γ(p − 1)
p.3) Si p ∈ Z∗ entonces Γ(p) = (p − 1)!
2.10.4. Distribución Exponencial
Es un caso particular de la distribución gamma con p = 1.
( −αx
αe
si x > 0
X
Exp(α) si f (x) =
0 en el resto
(2.50)
Luego, su media, varianza y desviación tı́pica son:
µx =
1
α
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 37 — #41
i
i
2.10. FUNCIONES DE DENSIDAD CONOCIDAS
σ2x =
1
α2
σx =
1
α
37
2.10.5. Distribución χ2 de Pearson
Es un caso particular de la distribución gamma con α = 1/2 y p = n/2 que se genera mediante la suma
de los cuadrados de n v.a.c. N(0, 1) independientes entre si, es decir, si X1 , X2 , ..., Xn son n v.a.c. N(0, 1)
independientes entre si, entonces la v.a.c. positiva χ2n recibe el nombre χ2 de Pearson con n grados de
libertad.
χ2n = X12 + X22 + ... + Xn2
(2.51)
Entonces, su función de densidad es:
f (x) =
1
e−x/2 x(n/2)−1 con x > 0
2n/2 Γ(n/2)
(2.52)
Luego, su media, varianza y desviación tı́pica son:
µx = n
σ2x = 2n
σx =
√
2n
2.10.6. Distribución Beta
Una v.a.c. X sigue una distribución beta y se denota por X
β(p, q) si sigue la siguiente función de
distribución:
x p−1 (1 − x)q−1
con x ∈ [0, 1]
(2.53)
f (x) =
β(p, q)
Luego, se define la función beta como:
β(p, q) =
Γ(p).Γ(q)
=
Γ(p + q)
Z 1
0
x p−1 (1 − x)q−1dx
(2.54)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 38 — #42
i
i
CAPÍTULO 2. ESTADÍSTICA INFERENCIAL
38
2.10.7. Distribución t de Student
Se denomina t de Student con n grados de libertad, si las n + 1 v.a.c. X, X1 , X2 , ..., Xn se distribuyen según
una N(0, σ).
X
Z
(2.55)
tn = s
=p
n
Xn2 /n
1
2
∑ Xi
n i=1
Entonces, su función de densidad es:
(
n+1
n = 1, 2, ...
1
x2 − 2
f (x) =
1+
con
√
1 n
n
n.β ,
−∞ < x < ∞
2 2
(2.56)
Luego, su media, varianza y desviación tı́pica son:
µx = 0
n
si n > 2
n−2
r
n
si n > 2
σx =
n−2
σ2x =
2.10.8. Distribución F de Fisher-Snedecor
Sean χ2n1 y χ2n2 dos v.a.c. χ2 de Pearson con n1 y n2 grados de libertad respectivamente, independientes
entre si. Entonces se denomina F de Fisher-Snedecor con n1 y n2 grados de libertad a la variable:
χ2n1 /n1
χ2n2 /n2
(2.57)
Γ((n1 + n2)/2) n1 /2 n2 /2
x(n1 /2)−1
con x > 0
n1 n2
Γ(n1 /2)Γ(n2/2)
(n1 x + n2)(n1 +n2 )/2
(2.58)
Fn1 ,n2 =
Luego, su función de densidad es:
f (x) =
2.11. Teorı́a de Muestras
La Estadı́stica tiene como objeto el estudio de un conjunto de personas, cosas o, en general, elementos
con alguna caracterı́stica común a todos ellos. Sin embargo, si se quiere obtener información sobre una
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 39 — #43
i
i
2.11. TEORÍA DE MUESTRAS
39
población, se puede obtener datos de la totalidad (censo) o bien de una parte (muestra). La parte de la
estadı́stica que estudia la relación entre las muestras de una población y la población misma recibe el
nombre de Teorı́a de Muestras.
En la práctica, suele ocurrir que no es posible estudiar los datos de toda la población, ya que:
el número de la población es muy elevado, el estudio llevarı́a tanto tiempo que serı́a impracticable o
económicamente inviable.
el estudio puede implicar la destrucción del elemento estudiado. Por ejemplo, vida útil de una lámpara.
los elementos pueden existir conceptualmente, pero no en la realidad. Por ejemplo, la proporción de
piezas defectuosas que producirá una máquina.
En estos casos se seleccionan muestras, que permiten obtener el comportamiento promedio para formular leyes generales.
Los métodos mas destacados para obtener muestras son:
Muestreo aleatorio simple Se elige al azar con reemplazamiento (un elemento no puede ser elegido 2 veces).
Muestreo estratificado Los elementos de la población se dividen en clases o estratos. La muestra se toma
asignando un número o cuota de miembros a cada estrato (proporcional a su tamaño relativo o a su
variabilidad) y escogiendo los elementos por muestreo aleatorio simple dentro del estrato.
Muestreo sistemático Los elementos de la población están ordenados en listas. Se divide la población en
tantas partes como el tamaño muestral y se elige al azar un número de orden en cada parte de la
población.
En la teorı́a de muestras se distinguen dos tipos de objetivos:
1 Deducir caracterı́sticas (parámetros) de la población (Inferencia Estadı́stica).
2 Analizar la concordancia o no de los resultados muestrales con determinadas hipótesis (Contraste de
Hipótesis).

Censo





( Estimación Puntual





Población
Inferencia estadı́stica


Muestra

Estimación por intervalos






Contraste de hipótesis
(2.59)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 40 — #44
i
i
CAPÍTULO 2. ESTADÍSTICA INFERENCIAL
40
2.11.1. Inferencia Estadı́stica
Es evidente el hecho de que las medidas o caracterı́sticas de una muestra son variables aleatorias, ya
que dependen de los valores de la variable aleatoria de la población.
Por tanto, una muestra es un vector de valores x1 , x2 , ..., xn ∈ E n , teniendo asociado cada valor una
probabilidad de ser elegido.
Se llamará estadı́stico a una función F : E n → R, es decir, una formula de las variables que transforma
los valores tomados de la muestra en un número real. Además, a la distribución de F se la llama
distribución del estadı́stico en el muestreo.
Cuando se realiza una afirmación acerca de los parámetros de la población en estudio, basándose en
la información contenida en la muestra se realiza una estimación puntual, pero si se señala un intervalo
de valores dentro del cual se tiene confianza que esté el valor del parámetro, se realiza una estimación
por intervalos.
Estimación Puntual
El proceso de estimación puntual utiliza un estadı́stico para obtener algún parámetro de la población.
Como tal, el estadı́stico utiliza una variable aleatoria que tiene cierta distribución que depende, en
general, del parámetro en cuestión. Además, se utilizarán dos criterios esenciales para medir la bondad
del estimador:
que sea centrado o insesgado, es decir, que su media coincida con el parámetro a estimar.
que sea de mı́nima varianza o que tenga la menor varianza entre todos los estimadores del parámetro.
Estimación por Intervalos
En la práctica, no sólo interesa dar una estimación puntual de un parámetro X sino un intervalo de
valores dentro del cual se tiene confianza de que esté el parámetro. Por tanto, lo que se busca es un estimador denominado estimador por intervalo compuesto de una pareja de estadı́sticos Li (lı́mite inferior)
y Ls (lı́mite superior), y siendo 1 − α el nivel de confianza, mientras que α es el nivel de significación,
tales que:
P(Li ≤ X ≤ Ls ) = 1 − α con 0 < α < 1
(2.60)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 41 — #45
i
i
2.11. TEORÍA DE MUESTRAS
41
Es decir, se llama intervalo de confianza para el parámetro X con nivel de confianza 1 − α, a una
expresión del tipo Li ≤ X ≤ Ls donde los lı́mites Li y Ls dependen de la muestra y se calculan de manera
tal que si se construyen muchos intervalos, cada vez con distintos valores muestrales, el 100(1 − α) %
de ellos contendrán el verdadero valor del parámetro.
La amplitud del intervalo está ı́ntimamente relacionada con los niveles de confianza y significación. Si
la amplitud del intervalo es pequeña entonces la afirmación de que el parámetro pertenece al intervalo
tiene gran significación (α es grande) pero ofrece poca confianza (1 − α es pequeña). Pero si la amplitud
del intervalo es grande entonces la afirmación de que el parámetro pertenece al intervalo tiene menor
significación (α es pequeño) aunque ofrece mucha confianza (1 − α es grande).
Por ejemplo, la afirmación “la altura media de una población está entre 1, 68 y 1, 72 metros” con
α = 0, 25 es más significativa que la afirmación “la altura media de una población está entre 1, 60 y
1, 82 metros” con α = 0, 01, aunque esta última afirmación ofrece más confianza 1 − α = 0, 99 que la
primera 1 − α = 0, 75.
2.11.2. Contraste de Hipótesis
Otro objetivo fundamental de la teorı́a de muestras, es confirmar o rechazar hipótesis sobre un parámetro poblacional, mediante el empleo de muestras. Es decir, contrastar una hipótesis estadı́sticamente
es juzgar si cierta propiedad supuesta para cierta población es compatible con lo observado en una
muestra de ella.
A continuación se pasan a definir algunos conceptos importantes:
Contraste de hipótesis Procedimiento estadı́stico mediante el cual se investiga la aceptación o rechazo de
una afirmación acerca de una o varias caracterı́sticas de una población.
Hipótesis nula, H0 Es la hipótesis que se quiere contrastar y es, por tanto, la que se acepta o rechaza como
conclusión del contraste.
Hipótesis alternativa, Ha Es la hipótesis que se opone a la H0 , de forma que si se acepta la Ha se descarta
la H0 , y recı́procamente, si se rechaza Ha se acepta H0 .
Estadı́stico de contraste Es una función de la muestra aleatoria simple, que aplica la muestra (x1 , x2 , ..., x3 )
en un punto de la recta real.
Región de aceptación Conjunto de valores del estadı́stico de contraste que lleva a la decisión de aceptar la
hipótesis nula H0 .
Región crı́tica o de rechazo Conjunto de valores del estadı́stico de contraste que lleva a la decisión de rechazar la hipótesis nula H0 .
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 42 — #46
i
i
42
CAPÍTULO 2. ESTADÍSTICA INFERENCIAL
Error tipo I, α Error que se comete en la decisión del contraste cuando se rechaza la hipótesis nula H0 ,
siendo cierta.
Error tipo II, β Error que se comete en la decisión del contraste cuando se acepta la hipótesis nula H0 ,
siendo falsa.
Nivel de significación Es la probabilidad de cometer el error de tipo I, y se denota por α. También se suele
denominar tamaño del contraste.
Potencia de un contraste, 1 − α Es la probabilidad de rechazar la hipótesis nula H0 , siendo falsa. Se utilizará siempre contrastes de máxima potencia (o máximo nivel de confianza), dentro de los que tienen
un determinado nivel de significación.
Contraste unilateral Es aquél cuya región crı́tica está formada por un solo intervalo de la recta real.
Contraste bilateral Es aquél cuya región crı́tica está formada por dos intervalos disjuntos de la recta real.
Por último, para realizar un contraste de hipótesis es conveniente seguir las siguientes fases:
1 Enunciado y determinación de las hipótesis H0 y Ha .
2 Elección del nivel de significación α.
3 Especificación del tamaño muestral.
4 Selección de estadı́stico o función de decisión.
5 Determinación de la región crı́tica.
6 Cálculo del valor del estadı́stico de contraste o función de decisión para la muestra particular.
7 Aceptar o rechazar la hipótesis H0 .
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 43 — #47
i
i
Parte II
Series Temporales
43
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 44 — #48
i
i
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 45 — #49
i
i
45
Hasta ahora las muestras se han analizado con el objetivo de ser comparadas contra una población en
un momento determinado, sin tener en cuenta la evolución de la variable en el tiempo.
Si se tuviese en cuenta la evolución de la variable, mediante una sucesión de muestras ordenadas en
el tiempo, al conjunto de datos resultante se lo denomina Serie Temporal, Histórica, Cronológica o de
Tiempo[Fer04b].
Luego, el análisis de una serie temporal implica el manejo conjunto de dos variables, la variable en
estudio y la variable temporal, que determina cuando se han realizado las observaciones.
Las observaciones de la variable en estudio pueden estar referidas a un:
Instante de tiempo: Se denominan magnitudes stock o niveles. Por ejemplo, cantidad de empleados de una
empresa al final de cada mes.
Intervalo de tiempo: Se denominan flujos. Por ejemplo, ventas de una empresa a lo largo de cada mes.
La diferencia entre una y otra es que la primera no es sumable, pues se incurrirı́a en duplicaciones,
mientras que la segunda es acumulable. Las ventas de un mes se pueden sumar con la del anterior y
ası́ se podrı́an obtener las ventas de los 2 últimos meses. Mientras que la observación de los empleados
de un mes, no se puede sumar a los empleados del mes anterior, porque se podrı́an estar sumando dos
veces los mismos empleados.
Esto último destaca la importancia de la Homogeneidad, ya que si la amplitud temporal variase serı́a
difı́cil hacer comparaciones entre las diferentes observaciones de una Serie Temporal. Por otra parte
esta homogeneidad se pierde de forma natural, con el transcurso del tiempo, de manera que cuando
las series son muy largas no hay garantı́a de que los datos iniciales y finales sean comparables.
Pero la necesidad de que las series temporales no sean muy largas, para que sus datos no pierdan
la homogeneidad, entra en contradicción con el objetivo más elemental de la Estadı́stica que es el de
detectar regularidades en los fenómenos de masas.
Lo que se pretende con una serie temporal es describir y predecir el comportamiento de un fenómeno
que cambia en el tiempo. Esas variaciones que experimenta una serie temporal pueden ser:
Evolutivas: El valor medio de la serie cambia, no permanece fijo en el tiempo.
Estacionales: El valor medio de la serie y su variabilidad no cambian, aunque sufra oscilaciones en torno a
ese valor medio fijo o constante.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 46 — #50
i
i
46
Esta clasificación permite hablar de Series Temporales Evolutivas o Series Temporales Estacionales,
de acuerdo al resultado del análisis realizado.
Por otra parte, existen dos tipos de enfoques para analizar una Serie Temporal: el Enfoque Clásico y
el Enfoque Causal.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 47 — #51
i
i
Capı́tulo 3
Enfoque clásico
Una forma de comenzar el análisis de una serie temporal, es mediante su representación gráfica. Para
ello se hará uso de un sistema cartesiano en el que los perı́odos de tiempo se ubican en el eje de las
abscisas y los valores de la variable aleatoria (yt ) se llevan al eje de ordenadas. El resultado es un
diagrama de dispersión, con la particularidad de que el eje de abscisas se reserva siempre a la misma
variable: el tiempo.
40
20
0
-20
-40
-60
-80
-100
0
0.2
0.4
0.6
0.8
1
Figura 3.1: Ejemplo de una serie temporal.
En este tipo de representación se pueden detectar las caracterı́sticas mas sobresalientes de una serie
temporal, tales como el movimiento a largo plazo de la variable aleatoria, la amplitud de las oscilaciones,
la posible existencia de ciclos, la presencia de valores atı́picos o anómalos, etc. Ver el ejemplo de la
Figura 3.1.
47
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 48 — #52
i
i
CAPÍTULO 3. ENFOQUE CLÁSICO
48
El enfoque clásico asume que el comportamiento de la serie temporal se puede explicar en función del
tiempo: yt = f (t). Bajo este esquema, la serie serı́a una variable dependiente y el tiempo una independiente o explicativa. Sin embargo, es necesario dejar bien claro que el tiempo, en si, no es una variable
explicativa, es simplemente el “soporte” o escenario en el que se realiza o tiene lugar la serie temporal.
Desde este enfoque, cualquier serie temporal se supone que es el resultado de cuatro componentes:
tendencia (T), variaciones estacionales (E), variaciones cı́clicas (C) y variaciones residuales o accidentales
(R). Pero esta descomposición de la serie no deja de ser un procedimiento diseñado para que el estudio
de la misma resulte más fácil, pues esas componentes no siempre existen.
3.1. Tendencia
La tendencia se define como aquella componente que recoge el comportamiento de la serie a largo
plazo, prescindiendo de las variaciones a corto y mediano plazo. Para poder detectarla es necesario que
la serie conste de un número de observaciones elevado, a lo largo de muchos años, para que se pueda
determinar si la serie muestra un movimiento a largo plazo que responda a una determinada ley de
crecimiento, decrecimiento (series evolutivas) o estabilidad (series estacionarias). Ese comportamiento
tendencial puede responder a distintos perfiles: lineal, exponencial, parabólico, logı́stico, etc.
A
B
C
200
150
100
50
0
0
0.2
0.4
0.6
0.8
1
Figura 3.2: Identificación de la tendencia.
Ver en el ejemplo de la Figura 3.2 como cambia la forma de percibir la tendencia si es que se toma el
intervalo de tiempo inadecuado.
Si se intenta establecer la tendencia teniendo en cuenta solo el intervalo comprendido entre A y B, la
tendencia pareciera descender, aunque como se ve claramente en la gráfica, cuando se toma un rango
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 49 — #53
i
i
3.1. TENDENCIA
49
mayor (por ejemplo desde A hasta C) la tendencia asciende.
El problema es que el concepto de largo plazo va ı́ntimamente relacionado a la naturaleza de la variable, por lo que la longitud utilizada para determinar una tendencia no es comparable entre variables.
Los métodos más habituales en la determinación de la tendencia son: el análisis gráfico, las medias
móviles, los métodos analı́ticos y los de alisado exponencial.
3.1.1. Análisis gráfico
Es el procedimiento mas simple, ya que no utiliza ningún procedimiento analı́tico que garantice la
objetividad del resultado, y deja la posibilidad que dos analistas distintos lleguen a distintos resultados.
Todo depende del conocimiento que tenga el investigador de la serie temporal estudiada. Ya que en una
primera instancia se realiza la representación gráfica, para luego trazar la tendencia a mano alzada.
Aunque no es aconsejable confiar en los resultados que pueda arrojar este tipo de análisis de tendencia,
suele utilizarse como un paso previo para cualquier tipo de análisis a realizarse en una serie.
3.1.2. Medias móviles
Consiste en promediar los valores de la variable aleatoria para perı́odos de tiempo fijos a lo largo de
todo el horizonte de la serie temporal.
El resultado de este proceso mecánico es la eliminación de los movimientos a corto y mediano plazo,
ası́ como las irregularidades debidas a factores no controlables ni predecibles. Es decir, a la serie se le
quitan dos de sus componentes, quedando con la tendencia y la ciclicidad1 .
La idea que subyace detrás de este método es que la media de cualquier conjunto de valores sirve para
eliminar la dispersión o variabilidad de la serie motivada por factores coyunturales o esporádicos.
Estos promedios serán las medias aritméticas de un conjunto k de valores consecutivos, con el requisito
de que k sea inferior al total de observaciones. El procedimiento especı́fico varı́a si k es par o impar.
1 En
el caso de existir la ciclicidad, ver la sección 3.3 (página 58).
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 50 — #54
i
i
CAPÍTULO 3. ENFOQUE CLÁSICO
50
Si k es entero impar, entonces las sucesivas medias se obtendrı́an de la siguiente forma:
k−1
2
∑
yt∗ =
yt∗ =
yt+i
i=− k−1
2
(3.1)
k
yt− k−1 + yt− k−1 +1 + yt− k−1 +2 + ... + yt + ... + yt+ k−2 −1 + yt+ k−1 −1 + yt+ k−1
2
2
2
2
2
k
2
(3.2)
A la media yt∗ se la denomina centrada y se la hace corresponder con la observación del momento t,
que es el valor central de la suma.
Si k es entero par, no se podrı́a determinar el valor central de k, por lo que no se corresponderı́a
con ninguno de los observados en la serie original. Esto se supera al aplicar nuevamente el método
de medias móviles con k = 2, quedando ahora si los valores centrales relacionados con los valores
observados originalmente.
La fórmula que se utiliza para ambos casos, cuando k es un entero par, es la siguiente:
k
2 −1
∑
∗
yt−0,5
=
i=− 2k
k
yt+i
(3.3)
Luego, sea k entero par o impar, es importante determinar el tamaño óptimo que suavice la serie
temporal y que deje expuesta la tendencia. Si k es muy grande entonces el proceso de suavizado puede
llegar a ser tan fuerte que se pierda más información de la deseada. Por otro lado, si k es muy pequeño
no se conseguirán eliminar todas las perturbaciones ajenas a la tendencia.
Si la serie demuestra estacionalidad, o algún tipo de ciclicidad, el valor de k deberı́a ser mayor o igual
al intervalo de tiempo necesario para que se produzca un ciclo. En caso de ser estacionalidad, k deberı́a
ser mayor o igual al año. Para cualquier otro caso, en donde exista incertidumbre se recomienda que k
sea igual a 3 o 5.
En el ejemplo de la Figura 3.3, se muestra una serie temporal y su tendencia calculada por medias
móviles. Además se muestra la serie original sin la tendencia calculada (filtrada por el método aditivo2 ).
2 La
unión de los componentes de una serie se realiza a partir de dos métodos, en el aditivo yt = Tt +Ct + Et + Rt , mientras que en el
multiplicativo yt = Tt ∗Ct ∗ Et ∗ Rt .
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 51 — #55
i
i
3.1. TENDENCIA
51
(a) Serie temporal original
50
tendencia (k=21)
serie temporal
0
-50
-100
-150
0
0.2
0.4
0.6
0.8
1
(b) Serie temporal original sin la tendencia
30
20
10
0
-10
-20
-30
-40
-50
-60
0.1
serie temporal sin tendencia
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Figura 3.3: Obtención de la tendencia por Medias Móviles.
Al igual que en el análisis gráfico se introduce subjetividad en la selección del valor de k. Además, no
se puede alcanzar el objetivo de la predicción en el análisis de las series temporales, pues la tendencia
obtenida mediante medias móviles no permite la proyección hacia el futuro.
3.1.3. Método analı́tico
Selecciona una función matemática que modelice de forma adecuada la tendencia de la serie temporal.
El procedimiento de ajuste suele ser el de los mı́nimos cuadrados, aunque para comenzar el análisis
se recurre a la representación gráfica que informa de manera aproximada el tipo de función. Otra
alternativa es hacer uso del conocimiento previo de la naturaleza de una serie temporal.
La utilización de este método con respecto a los anteriores tiene dos ventajas:
Se mide la bondad del ajuste, dejando de lado la subjetividad del analista.
Se determina una función explı́cita, que permite realizar predicciones.
A continuación se detalla: el modelo lineal, el polinomial y el exponencial.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 52 — #56
i
i
CAPÍTULO 3. ENFOQUE CLÁSICO
52
Lineal
Modelo en el que la variable aleatoria se hace depender linealmente del tiempo, y en donde se presentan
variaciones constantes para periodos sucesivos de tiempo. La forma general del mismo es:
yt = yt∗ + Rt = a + bt + Rt
(3.4)
Donde:
t Tiempo cronológico.
b Variación media entre periodos.
yt Serie temporal original.
yt∗ Estimación de la Tendencia.
Rt Resto de las componentes no identificadas, representadas como un residuo.
(a) Serie temporal original
160
140
120
100
80
60
40
20
0
-20
serie temporal
0
0.2
0.4
0.6
0.8
1
(b) Tendencia con el modelo lineal
160
140
120
100
80
60
40
20
0
-20
tendencia lineal (y = 110.55x+-5.0624)
serie temporal
0
0.2
0.4
0.6
0.8
1
(c) Serie temporal original sin la tendencia calculada
60
40
20
0
-20
-40
-60
serie temporal sin tendencia
0
0.2
0.4
0.6
0.8
1
Figura 3.4: Obtención de la tendencia por el Método Analı́tico Lineal.
Ver el ejemplo de la Figura 3.4.
Polinomial
Modelo en el que la relación de la variable aleatoria con el tiempo se expresa a partir de un polinomio.
Las variaciones no son constantes, ni en términos absolutos ni relativos.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 53 — #57
i
i
3.1. TENDENCIA
53
El grado del polinomio va a decidir la familia de funciones que se utilice en el modelo, aunque el mas
común de todos es el modelo de función parabólica. La forma general del mismo es:
yt = yt∗ + Rt = a + bt + ct 2 + Rt
(3.5)
Donde:
t Tiempo cronológico.
yt Serie temporal original.
yt∗ Estimación de la Tendencia.
Rt Resto de las componentes no identificadas, representadas como un residuo.
(a) Serie temporal original
35
30
25
20
15
10
5
0
serie temporal
0
0.5
1
1.5
2
(b) Tendencia con el modelo polinomial
35
30
25
20
15
10
5
0
2
tendencia polinomial 24.713x -48.907x+30.135
serie temporal
0
0.5
1
1.5
2
(c) Serie temporal original sin la tendencia
10
5
0
-5
-10
serie temporal sin tendencia
0
0.5
1
1.5
2
Figura 3.5: Obtención de la tendencia por el Método Analı́tico Polinomial.
Ver el ejemplo de la Figura 3.5.
Exponencial
Modelo en el que la relación de la variable aleatoria con el tiempo se expresa a partir de una función
exponencial, por lo que la serie temporal cambia a razón de una tasa constante. El ajuste por mı́nimos
cuadrados es fácilmente realizable, debido a que la función es linealizable. La forma general del modelo
es:
yt = yt∗ + Rt = aebt + Rt
(3.6)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 54 — #58
i
i
CAPÍTULO 3. ENFOQUE CLÁSICO
54
Donde:
t Tiempo cronológico.
yt Serie temporal original.
yt∗ Estimación de la Tendencia.
a Tasa de variación inicial.
b Tasa de variación instantánea.
Rt Resto de las componentes no identificadas, representadas como un residuo.
(a) Serie temporal original
2
1.5
1
0.5
0
serie temporal
0
0.5
1
1.5
2
(b) Tendencia con el modelo exponencial
2.5
2
1.5
1
0.5
0
2
tendencia polinomial (-0.00371635+0.0421471i) e
0
0.5
(1.30309-0.0485662i)x +(-0.538773-0.859227i)x
serie temporal
1
1.5
2
(c) Serie temporal original sin la tendencia
0.6
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
serie temporal sin tendencia
0
0.5
1
1.5
2
Figura 3.6: Obtención de la tendencia por el Método Analı́tico Exponencial
Ver el ejemplo de la Figura 3.6.
3.1.4. Alisado exponencial
Los métodos para calcular la tendencia explicados hasta aquı́, ya sea el de medias móviles o alguno de
los métodos analı́ticos, se agrupan dentro del conjunto de técnicas para el alisado proporcional.
El alisado exponencial consiste, al igual que los métodos anteriores, en medias ponderadas; pero con
la particularidad que la ponderación decrece conforme nos alejamos del origen. Esto es útil para la
predicción de series no estacionales y con una tendencia no definida.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 55 — #59
i
i
3.2. VARIACIÓN ESTACIONAL
55
Para el instante t, el valor medio de la serie (yt∗ ) se puede obtener de la siguiente forma:
∗
yt∗ = αyt + (1 − α)yt−1
(3.7)
∗
yt∗ = αyt + (1 − α)[αyt−1 + (1 − α)yt−2
]
(3.8)
∗
yt∗ = αyt + α(1 − α)yt−1 + (1 − α)2yt−2
∗
yt∗ = αyt + α(1 − α)yt−1 + (1 − α)2[αyt−2 + (1 − α)yt−3
]
∗
yt∗ = αyt + α(1 − α)yt−1 + α(1 − α)2yt−2 + (1 − α)3yt−3
yt∗ = αyt + α(1 − α)yt−1 + ... + α(1 − α)t−1y1 + (1 − α)t y∗0
yt∗
∗
+ α(yt
= yt−1
∗
+ yt−1
)
tal que (0 < α < 1)
(3.9)
(3.10)
(3.11)
(3.12)
(3.13)
Donde:
t Instante de tiempo.
yt Valor de la serie temporal en t.
yt∗ Estimación de la Tendencia para t.
y∗0 La estimación de la tendencia en el origen es igual al valor de la serie temporal en ese punto (y0 ).
α Constante de suavizado.
Cuanto mas estable es la serie, α se acerca a la unidad; mientras que si la serie presenta gran volatilidad,
α tiende a cero. En cualquier caso, implica introducir cierta subjetividad en el análisis de la serie, lo que
no deja de ser un inconveniente.
En el ejemplo de la Figura 3.7 (a) se muestra una serie temporal y 2 tendencias calculadas por alisado
exponencial. Luego se muestra la serie original sin la tendencia calculada (a partir del método aditivo),
por cada una de las tendencias calculadas.
Por último, cuando la serie temporal tiene una tendencia definida y es estacional, el método que se
acaba de exponer se sustituye por otros procedimientos como el de Holt-Winters [Kal04, Cai08].
3.2. Variación Estacional
La variación estacional se define por aquella componente de la serie que contiene movimientos que se
repiten de forma periódica, siendo la periodicidad inferior al año, el mes, la semana o el dı́a.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 56 — #60
i
i
CAPÍTULO 3. ENFOQUE CLÁSICO
56
(a) Serie temporal original
60
40
20
0
-20
-40
-60
-80
-100
-120
serie temporal
tendencia (alpha0=0.1)
tendencia (alpha1=0.7)
0
0.2
0.4
0.6
0.8
1
(b) Serie temporal original sin la tendencia para alpha0
60
40
20
0
-20
-40
-60
serie temporal sin tendencia (alpha0)
0
0.2
0.4
0.6
0.8
1
(c) Serie temporal original sin la tendencia para alpha1
15
10
5
0
-5
-10
-15
-20
serie temporal sin tendencia (alpha1)
0
0.2
0.4
0.6
0.8
1
Figura 3.7: Obtención de la tendencia por Alisado Exponencial
La razón de estas variaciones se basa en causas de tipo climatológico (producción, turismo, etc.) o de
ordenación del tiempo (los dı́as de la semana condicionan el comportamiento de ciertas series temporales).
Estos movimientos que se repiten de forma sistemática, dificultan la posibilidad de hacer comparaciones entre los valores sucesivos de una misma serie temporal, pues el nivel medio de la misma se ve
alterado por la estacionalidad.
Para evitar esas distorsiones en los valores medios se recurre a lo que se conoce como desestacionalización de la serie o corrección estacional. Para realizar esta operación es necesario aislar en primer lugar
la componente estacional, lo que posibilita su posterior eliminación.
Los distintos métodos de obtención de la componente estacional, asumen como precondición la eliminación3 de la tendencia (T). Ver el ejemplo de la Figura 3.5 (página 53).
A partir de la serie temporal sin tendencia, se determina el lapso de tiempo mı́nimo en el cual el comportamiento parece repetirse.
Con el lapso de tiempo mı́nimo, se divide la serie temporal sin tendencia en series temporales del tamaño
del lapso mencionado. Por ejemplo, para una serie temporal sin tendencia de 48 meses, si el lapso
mı́nimo son 12 meses, entonces se tendrán 4 series temporales; tal que su comportamiento parece
repetirse para cada una de las series resultantes.
3 Se
deberá tener en cuenta si el método de composición es aditivo o multiplicativo.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 57 — #61
i
i
3.2. VARIACIÓN ESTACIONAL
57
Se definen como ı́ndices generales de variación estacional (IGVE) al promedio de las series temporales
obtenidas. La fórmula es:
∑ xi
IGV E(e) =
i∈e;e∈l
(3.14)
ne
Siendo:
e Estación dentro de l.
l Lapso de tiempo mı́nimo en que se repite el ciclo.
nl Cantidad de elementos pertenecientes al conjunto e.
6
Ciclo de estacionalidad de 0.15
4
2
0
-2
-4
-6
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
Figura 3.8: Ejemplo de IGVE de la Figura 3.5 (c).
Si la estacionalidad es anual (12 meses de lapso mı́nimo), el resultado del promedio será una serie
temporal de 12 meses de longitud, mientras que para la Figura 3.5 (c) los resultados se muestran en la
Figura 3.8.
Luego, como se detalla en la Figura 3.9, la eliminación de la variación estacional4 calculada se realiza
de forma semejante a lo hecho con la tendencia.
La serie temporal resultante en la Figura 3.9, se encuentra determinada por:
yt∗ = yt − (Ct + Rt ); Tt 6∈ yt
4 Repetición
(3.15)
sucesivas de IGVE hasta cubrir la longitud de la serie temporal sin tendencia.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 58 — #62
i
i
CAPÍTULO 3. ENFOQUE CLÁSICO
58
Donde:
yt Serie temporal original sin tendencia.
yt∗ Estimación de la Estacionalidad.
Ct Estimación de la Ciclicidad.
Rt Estimación de la Residualidad.
Una vez eliminada la estacionalidad, la serie temporal queda homogeneizada y los valores sucesivos
podrán ser comparados en lo que a niveles medios se refiere.
Por último, es importante destacar que si se elimina la tendencia y la ciclicidad por medias móviles, solo
queda por aislar la estacionalidad del resto. En esta idea se basan los métodos de desestacionalización5
ampliamente utilizados como el X-9 y su posterior desarrollo el X-11[Mus67].
3.3. Variación Cı́clica
La variación cı́clica se define por aquella componente de la serie que contiene movimientos a mediano
plazo, periodos superiores al año, que se repiten de forma casi periódica, aunque no son tan regulares
como las variaciones estacionales.
Esta componente resulta difı́cil de aislar, por tres posibles razones: el periodo de la serie es pequeño, los
ciclos de la serie se superponen o simplemente no existe la componente. Esto, con frecuencia, conduce
a un análisis de las series temporales en el que se prescinde del estudio separado de los ciclos y, en su
lugar, se trabaja con la componente mixta ciclo-tendencia.
Por otra parte, se puede intentar aislar la componente mediante un proceso semejante al de las medias
móviles sobre una serie temporal sin tendencia ni estacionalidad. En la Figura 3.10 se continua con el
ejemplo de la Figura 3.9 (página 60).
3.4. Variación Residual (o Indeterminada)
La variación residual se define por aquella componente de la serie que no responde a ningún patrón de
comportamiento, sino que es el resultado de factores fortuitos o aleatorios que inciden de forma aislada
(inundaciones, huelgas, etc.). Ver la Figura 3.10 (c).
5 Desarrollados
por el Boreau of the Census de Estados Unidos.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 59 — #63
i
i
3.4. VARIACIÓN RESIDUAL (O INDETERMINADA)
59
La utilidad de esta componente se basa en poder verificar si satisface ciertos supuestos o hipótesis; por
ejemplo, que sea realmente aleatoria.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 60 — #64
i
i
CAPÍTULO 3. ENFOQUE CLÁSICO
60
(a) Serie temporal original sin la tendencia
10
5
0
-5
-10
serie temporal sin tendencia
0
0.5
1
1.5
2
(b) Estacionalidad mediante IGVE
10
5
0
-5
-10
estacionalidad
serie temporal sin tendencia
0
0.5
1
1.5
2
(c) Serie temporal original sin la tendencia y desestacionalizada
6
4
2
0
-2
-4
-6
serie temporal sin tendencia ni estacionalidad
0
0.5
1
1.5
2
Figura 3.9: Ejemplo de una Desestacionalización de la Figura 3.5 (c)
(a) Serie temporal original sin la tendencia ni la estacionalidad
6
4
2
0
-2
-4
-6
serie temporal con ciclicidad
0
0.5
1
1.5
2
(b) Ciclicidad con el modelo de medias moviles
6
4
2
0
-2
-4
-6
ciclicidad (k=3)
serie temporal filtrada con ciclicidad
0
0.5
1
1.5
2
(c) Variacion Residual de una serie temporal
2
1
0
-1
-2
residualidad
0
0.5
1
1.5
2
Figura 3.10: Obtención de la variación cı́clica por Medias Móviles
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 61 — #65
i
i
Capı́tulo 4
Enfoque Causal
Otra forma de estudiar el comportamiento de una serie temporal es tratar de explicar sus variaciones
como consecuencia de las variaciones de otra u otras series temporales temporales. Esto impulsa la
búsqueda de una función que ligue esas variables para después poder cuantificarlas mediante el análisis
de regresión.
La cuantificación de la variación que experimenta la serie al pasar de un periodo de tiempo a otro, se
obtiene mediante:
∆yt = yt − yt−1
(4.1)
Esta relación determina si la serie está creciendo o decreciendo, dependiendo si el ∆yt es positivo o
negativo, respectivamente.
Por otra parte, la escala de medición se encuentra expresada en la misma unidad que la serie temporal,
impidiendo comparaciones con otras series temporales de distinta escala.
Al conjunto de todas las variaciones se lo considera a su vez una serie temporal. Si se obtienen estas
variaciones para datos anuales y tendencia lineal, se habla de una serie filtrada de tendencia (quedando
solo las componentes cı́clica y residual). Mientras que para datos con periodicidad inferior al año, si
la diferencia se realiza con respecto al mismo mes del año pasado, se obtiene una serie filtrada en
estacionalidad y tendencia. Ver los ejemplos de las Figuras 4.1 y 4.2.
6 Medir
las variaciones en forma adimensional.
61
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 62 — #66
i
i
CAPÍTULO 4. ENFOQUE CAUSAL
62
(a) Serie temporal original
45
40
35
30
25
20
15
10
5
0
serie temporal (valores anuales)
tendencia lineal (y = 1.0606x+-0.019774)
0
5
10
15
20
25
30
35
(b) Serie temporal de diferenciales
8
serie temporal de los diferenciales (∆ yt = yt - yt-1)
tendencia lineal (y = 0.037278x+0.48359)
6
4
2
0
-2
-4
-6
5
10
15
20
25
30
35
Figura 4.1: Serie temporal de diferenciales de valores anuales.
Para lograr que las series temporales de diferenciales sean homogéneas (o comparables), es necesario
cuantificar las variaciones en términos relativos6 , mediante las tasas de variación.
4.1. Tasas de variación
Las tasas de variación surgen al comparar la variación intertemporal de la variable aleatoria, y se
obtienen mediante:
n−1
T (h, n) = Thn
∑ yt−i
=
i=0
n−1
∑ yt−h− j
−1
(4.2)
j=0
Donde:
h Número de periodos que hay entre las observaciones comparadas7.
n Número de pares de observaciones (comparaciones) utilizadas para el cálculo.
Luego, si n = 1:
T (h, 1) = Th1 =
7 Cantidad
yt
yt−h
−1 =
yt − yt−h
∆yt
=
yt−h
yt−h
(4.3)
de datos tomados hacia atrás.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 63 — #67
i
i
4.1. TASAS DE VARIACIÓN
63
Serie temporal original
serie temporal (valores mensuales)
tendencia lineal (y = 1.0655x+0.087934)
45
40
35
30
25
20
15
10
5
0
0
5
10
15
20
25
30
35
Serie temporal de diferenciales
serie temporal de los diferenciales (∆ yt = yt - yt-12)
tendencia lineal (y = 0.21641x+7.3899)
25
20
15
10
5
0
15
20
25
30
35
Figura 4.2: Serie temporal de diferenciales de valores mensuales.
Las tasas se pueden expresar en tantos por uno, aunque lo mas habitual es que se multipliquen por
cien, o cualquier otra potencia de diez, cuyo caso se habları́a de porcentajes o lo que corresponda.
Por último, en función de h y n, las tasas más habituales que suelen calcularse son:
T11 =
yt
− 1 ∗ 100
yt−1
Se utiliza para datos anuales. Una periodicidad inferior al año, podrı́a conducir a que la serie resultante
se encuentre distorsionada por la estacionalidad.
yt
1
T12
=
− 1 ∗ 100
yt−12
Se utiliza para datos mensuales, y una tasa de variación anual. La estacionalidad no lo afecta.
yt
T61 =
− 1 ∗ 100
yt−6
Se utiliza para datos mensuales, y una tasa de variación semestral. La estacionalidad lo afecta, debido
a que no es homogénea (enero-julio, febrero-agosto, etc.).
yt + yt−1 + ... + yt−11
12 =
− 1 ∗ 100
T12
yt−12 + yt−13 + ... + yt−23
Se utiliza para datos mensuales, y se obtiene una tasa de variación anual. Solo se puede aplicar a las
variables que se miden por intervalos de tiempo8 .
yt + yt−1 + ... + yt−11
− 1 ∗ 100
T112 =
yt−1 + yt−2 + ... + yt−12
Se utiliza para datos mensuales, y se obtiene una tasa de variación mensual basada en medias móviles
anuales.
yt + yt−1 + yt−2
− 1 ∗ 100
T13 =
yt−1 + yt−2 + yt−3
Se utiliza para datos mensuales, y se obtienen tasas mensuales basada en medias móviles trimestrales.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 64 — #68
i
i
CAPÍTULO 4. ENFOQUE CAUSAL
64
8 Variables
que representan un flujo de datos.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 65 — #69
i
i
Parte III
Geoestadı́stica
65
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 66 — #70
i
i
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 67 — #71
i
i
67
Las series temporales a diferencia de las distribuciones de frecuencias (Ver 2.4) relacionan los datos
con el tiempo.
Si en lugar del tiempo en que se realiza la medición, se contempla la ubicación en donde se realiza, se
podrı́a conformar un mapa a partir de los valores medidos y sus posiciones9 .
6
5
2
4
1
3
2
2
3
3
2
2
2
2
1
2
2
1
3
1
1
1
2
3
2
1
1
0
0
4
5
6
Figura 4.3: Ejemplo de mapa 2D.
Ver en la Figura 4.3, el ejemplo de mapa de dos dimensiones con los valores muestreados para cada
posición10 . La población de esta muestra estarı́a representada por una variable regionalizada.
9 Las
10 En
posiciones (o ubicaciones) pueden ser ticks de tiempo, puntos georeferenciados, o una mezcla de ambos.
las posiciones (1,2), (2,4), (3,3), (4,1), (4,2), (4,4) y (5,4) no se ha podido medir el valor, o es desconocido.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 68 — #72
i
i
68
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 69 — #73
i
i
Capı́tulo 5
Variables regionalizadas
En la teorı́a de variables regionalizadas el concepto de función aleatoria juega un papel central. Una
función aleatoria es un conjunto de variables aleatorias que se corresponden con los puntos del dominio
D bajo estudio. Esto significa que para cada punto u en D existe una variable aleatoria correspondiente
Z(u)[Bá].
Una variable regionalizada es la realización de una función aleatoria. Esto significa que para cada punto
u en el espacio d-dimensional el valor del parámetro z(u) es una realización de la función aleatoria Z(u).
V R = {z(u)|u ∈ D}
(5.1)
Esta interpretación de los parámetros reconoce el hecho de que no es posible describirlos completamente usando solo métodos determinı́sticos. Es mas, en la mayorı́a de los casos es imposible verificar
la suposición que indica que el parámetro es una realización de la función aleatoria, debido a que solo
se trabaja con una única realización de la función.
Se puede describir a la función aleatoria a partir de sus funciones de probabilidad multidimensional.
Esto significa que para cada conjunto de puntos u1 , ..., un en el dominio D, una función de distribución
Fu1 ,...,un es asignada. Si se usa esta función para cada conjunto posible de valores w1 , ..., wn se podrı́a
encontrar la probabilidad P utilizando:
P(Z(u1 ) < w1 , ..., Z(un ) < wn ) = Fu1 ,...,un (w1 , ..., wn )
(5.2)
Esto significa que las probabilidades condicionales se podrı́an usar para estimar promedios locales o
globales. Por otra parte, hay infinitos subconjuntos en el dominio D, y para cada punto en D usualmente
69
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 70 — #74
i
i
70
CAPÍTULO 5. VARIABLES REGIONALIZADAS
un valor z(u) a evaluar. Aunque existan varias mediciones del parámetro para un punto, no será posible
realizar la evaluación de la función de distribución mencionada por la complejidad del calculo.
La alternativa es afirmarse en una hipótesis que reduzca la complejidad del problema.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 71 — #75
i
i
Capı́tulo 6
Hipótesis estadı́stica
Si se plantea como hipótesis a la estacionalidad fuerte de la función aleatoria Z(u), tal que para cada
conjunto de puntos u1 , ..., un en el dominio D, para cada conjunto de valores posibles w1 , ..., wn y para
cada h se cumple:
P(Z(u1 ) < w1 , ..., Z(un ) < wn ) = P(Z(u1 + h) < w1 , ..., Z(un + h) < wn )
(6.1)
Esta ecuación determina que la distribución de la función aleatoria depende de la configuración de
los puntos (a partir de la distancia h) y no de la localización de los mismos. En otras palabras la
“naturaleza” se repite a si misma para una misma configuración (o esquema).
La suposición de la hipótesis general basada en la estacionalidad fuerte es útil, pero aún demasiado
compleja para ser apropiada. Para tratar este problema de forma efectiva se deben agregar algunas
suposiciones que simplifiquen los cálculos. Existen básicamente dos hipótesis simplificadoras: la estacionalidad de segundo orden y la hipótesis intrı́nseca.
6.1. Estacionalidad de Segundo Orden
La estacionalidad es un concepto que se utilizó en el análisis de series temporales. En este caso la
estacionalidad de segundo orden se formula para espacios multidimensionales, consistiendo de dos condiciones:
El valor esperado de la función aleatoria Z(u) es constante sobre todo el dominio D.
E[Z(u)] = m
(6.2)
71
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 72 — #76
i
i
CAPÍTULO 6. HIPÓTESIS ESTADÍSTICA
72
La covarianza de dos variables aleatorias correspondientes a dos localizaciones depende sólo del vector h que separa a los dos puntos.
E[(Z(u + h) − m)(Z(u) − m))] = Cov(h)
(6.3)
Cov(0) = E[(Z(u) − m)(Z(u) − m)] = V [Z(u)]
(6.4)
Para el caso particular de h = 0:
La ecuación 6.4 muestra que las variables aleatorias correspondientes a los diferentes puntos en el
dominio no sólo tienen la misma esperanza, sino que también tienen que tener la misma varianza
finita. Esta segunda condición no siempre es conocida, pero se pueden formular hipótesis más débiles
como la que se describe a continuación.
6.2. Hipótesis Intrı́nseca
La hipótesis intrı́nseca es mas débil que la estacionalidad de segundo orden, consistiendo de las dos
condiciones siguientes:
El valor esperado de la función aleatoria Z(u) es constante sobre todo el dominio D.
E[Z(u)] = m
(6.5)
La varianza del incremento correspondiente a dos localizaciones diferentes depende sólo del vector que
las separa. A esta función dependiente del vector h se la denomina semivariograma11.
1
1
V [Z(u + h) − Z(u)] = E[(Z(u + h) − Z(u))2] = γ(h)
2
2
(6.6)
En la ecuación 6.3 se puede apreciar el parecido con la 6.6, pero la suposición de una varianza finita
no está explı́cita en la 6.3. Además se puede demostrar que la estacionalidad de segundo orden implica
a la hipótesis intrı́nseca, pero lo opuesto no es verdad (Ver Figura 6.1).
6.3. Comparación de las dos hipótesis
La diferencia entre la hipótesis intrı́nseca y la estacionalidad de segundo orden, no es sólo el hecho
de que la primera es más general que la segunda (Ver Figura 6.1). La función de covarianza ( 6.3)
está definida usando el valor esperado m, mientras que el semivariograma ( 6.6) no depende de este
valor. Esto es una ventaja, porque las tendencias leves no influenciarán al semivariograma, mientras
que una mala estimación de la esperanza afectarı́a aún mas a la función de covarianza.
11 Suele
ser confundido con el variograma, que serı́a dos veces el semivariograma.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 73 — #77
i
i
6.3. COMPARACIÓN DE LAS DOS HIPÓTESIS
73
Hipotesis Intrinseca
Estacionalidad de Segundo Orden
Figura 6.1: Diagrama de Venn de la Hipótesis Intrı́nseca y la Estacionalidad de Segundo Orden.
La relación entre el variograma y la función de covarianza es:
2γ(h) = E[(Z(u + h) − Z(u))2] = E[((Z(u + h) − m) − (Z(u) − m))2]
(6.7)
2γ(h) = V [Z(u)] + V [Z(u + h)] − 2E[Z(u + h) − m)(Z(u) − m)]
(6.8)
2γ(h) = 2Cov(0) − 2Cov(h)
(6.9)
γ(h) = Cov(0) − Cov(h)
(6.10)
12
C(0)
f(h) = C(0)
γ(h)
C(h)
10
8
6
4
2
0
0
5
10
15
20
25
30
h
Figura 6.2: El variograma y la función de covarianza.
La Figura 6.2 muestra la relación desarrollada.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 74 — #78
i
i
74
CAPÍTULO 6. HIPÓTESIS ESTADÍSTICA
6.4. Selección de la variable regionalizada
La variable regionalizada bajo estudio debe cumplir ciertas condiciones para poder utilizar los métodos
de análisis geoestadı́sticos:
Homogeneidad de los datos Los datos deberán reflejar un solo parámetro (Z(u)), medido por un método de
medición y si es posible con la misma tecnologı́a.
Aditividad de conjuntos El parámetro deberá tener la propiedad12 que 1n ∑ni=1 Z(ui ) tiene el mismo significado que E[Z(u)].
12 Algunos
parámetros naturales son claramente no aditivos, pero mediante transformaciones pueden ser llevados a parámetros aditi-
vos.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 75 — #79
i
i
Capı́tulo 7
Variograma
El variograma se define como la varianza del incremento, es por eso que debe cumplir ciertas condiciones. Estas serán explicadas en la sección 7.2. Naturalmente hay propiedades del variograma que
pueden ser explicadas sin una descripción matemática precisa.
γ(0) = 0
γ(h) ≥ 0; ∀0 < h < rango
γ(h) = tope; ∀h ≥ rango
γ(h) = γ(−h); ∀h
Z(u) es continuo ∴ hi+1 > hi =⇒ γ(hi+1 ) > γ(hi )
A menudo es discontinua con respecto al origen (lı́mh→0 γ(h) 6= 0), cumpliendo con el efecto pepita13.
La hipótesis acerca de la existencia de un variograma es el punto clave de la geoestadı́stica. La primera
pregunta a responder será si el parámetro bajo estudio cumple con la hipótesis intrı́nseca.
Si se supone que las mediciones Z(ui ) de un parámetro Z(u) son tomadas para las localizaciones ui ,
siendo i = 1, ..., n.
Como primer paso se puede calcular los valores (Z(ui ) − Z(u j ))2 para todos los pares formados, para
los puntos ui u u j . Luego se deberá graficar teniendo en cuenta la distancia (y tal vez la dirección) entre
las ubicaciones.
75
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 76 — #80
i
i
CAPÍTULO 7. VARIOGRAMA
76
35
30
(Z(u+h)-Z(u))2
25
20
15
10
5
0
0
1
2
3
4
5
6
7
8
h
Figura 7.1: Ejemplo de nube de puntos de un variograma.
La Figura 7.1 muestra un ejemplo de una nube de puntos de donde luego se obtendrá un variograma.
10
8
(Z(u+h)-Z(u))2
6
4
2
0
0
1
2
3
4
5
6
7
8
h
Figura 7.2: Ejemplo de un variograma experimenal.
Aunque la condición de la hipótesis intrı́nseca representada por la ecuación 6.6, no garantice que los
valores obtenidos se acerquen a cierta lı́nea, si se utiliza el valor esperado (calculado como la media
aritmética) para el ejemplo de la Figura 7.1, se obtendrá la Figura 7.2, la cual es posible aproximarla
a una función mediante mı́nimos cuadrados.
13 Causado
por un error de medición, o una componente aleatoria que no depende de la ubicación.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 77 — #81
i
i
7.1. VARIOGRAMA EXPERIMENTAL
77
7.1. Variograma Experimental
La función variograma tiene que ser estimada sobre la base de la información disponible. En el caso de
un conjunto finito de datos la estimación del variograma puede ser hecha sólo para un conjunto finito
de vectores.
1
γ∗ (h) =
(7.1)
∑ (Z(ui ) − Z(u j ))2
2N(h) ui −u
j =h
Donde:
ui Ubicación de una medición.
u j Ubicación de una medición.
h Distancia entre las ubicaciones ui y u j .
Z(ui ) Valor de la medición en la ubicación ui .
Z(u j ) Valor de la medición en la ubicación u j .
N(h) Cantidad de pares de ubicaciones para la distancia h.
γ∗ (h) Estimación del variograma para h.
Si los puntos se encuentren espaciados irregularmente la condición para la sumatoria ui − u j = h tiene
que ser debilitada, para poder obtener más pares por cada h. Esto significa que la sumatoria deberı́a
ser hecha sobre los pares que cumplen las siguientes condiciones14 :
|ui − u j | − |h| ≤ ε
(7.2)
Angulo(ui − u j , h) ≤ δ
(7.3)
La condición 7.3 es utilizada en el variograma direccional, cuando la muestra es grande y es difı́cil
encontrar un modelo teórico representativo del variograma experimental.
7.2. Variograma Teórico
Los variogramas experimentales son calculados para un número finito de vectores h. Si los valores para
el resto de los vectores h debe ser definido, se podrı́a realizar con una simple interpolación lineal. La
desventaja de esto es que el resultado de la función lineal no necesariamente satisface la ecuación 6.6.
14 En
−
→
donde |a − b| denota el tamaño del vector ab.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 78 — #82
i
i
CAPÍTULO 7. VARIOGRAMA
78
Luego, para cualquier combinación lineal ∑ni=1 θi Z(ui ), tal que ∑ni=1 θi = 0; la varianza es finita15 y
puede calcularse como:
n
n
n
V [ ∑ θi Z(ui )] = − ∑ ∑ θ j θi γ(ui − u j )
(7.4)
j=1 i=1
i=1
Como el variograma no puede ser negativo, la ecuación 7.4 cumple con la condición necesaria:
n
n
− ∑ ∑ θ j θi γ(ui − u j ) ≥ 0
(7.5)
j=1 i=1
Para relacionar los variogramas experimentales con las funciones matemáticas adecuadas, diferentes
modelos teóricos son desarrollados. Estos pueden ser clasificados en dos grupos: modelos con un tope y
modelos sin un tope.
7.2.1. Modelos con un tope
Si la estacionalidad de segundo orden es conocida16, se obtendrán variogramas que son constantes
después de cierta distancia (o rango). Esto se produce porque Z(u) y Z(u + h) son independientes, luego
si Cov(h) = 0 y por la ecuación 6.10 resulta:
γ(h) = Cov(0); h > rango
(7.6)
Si además se tiene en cuenta la ecuación 6.4, entonces:
γ(h) = V [Z(u)]; h > rango
(7.7)
A continuación se mencionan algunos modelos que cumplen con esta propiedad17 :
Efecto pepita puro
Se cumple cuando no existe correlación entre las variables aleatorias de diferentes localizaciones.
(
0 si h = 0
γ(h) =
(7.8)
C si h > 0
15
Puede ser probado a partir de la hipótesis intrı́nseca.
que para puntos muy distantes las variables aleatorias correspondientes son independientes.
17 Cualquier combinación lineal entre los modelos con tope, producirá nuevamente un modelo con tope.
16 Supone
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 79 — #83
i
i
7.2. VARIOGRAMA TEÓRICO
79
Donde:
h Distancia entre dos localizaciones.
C Tope igual a la varianza V [Z(u)].
γ(h) Variograma teórico.
5
γ(h)
4
3
2
1
0
0
2
4
6
8
10
h
Figura 7.3: Variograma teórico que modela el efecto pepita puro.
En la Figura 7.3 se muestra un modelo de variograma teórico con efecto pepita puro.
Esférico
Se encuentra descripto por dos parámetros: el rango y el tope. El rango determina a partir de que
distancia h las variables aleatorias de las distintas localizaciones no contienen relación.

 C 3 h − 1 h33 si h ≤ a
2a
2a
γ(h) =
(7.9)

C si h > a
Donde:
h Distancia entre dos localizaciones.
a Rango.
C Tope igual a la varianza V [Z(u)].
γ(h) Variograma teórico.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 80 — #84
i
i
CAPÍTULO 7. VARIOGRAMA
80
5
γ(h)
tope
rango
4
3
2
1
0
0
2
4
6
8
10
h
Figura 7.4: Variograma teórico del modelo esférico.
En la Figura 7.4 se muestra un modelo esférico de variograma teórico.
Exponencial
A diferencia del modelo esférico todas las variables aleatorias se encuentran relacionadas en el ámbito
teórico. Aunque debido a lo diminuto de algunas relaciones, se considera un rango no teórico de 3a.
h
γ(h) = C(1 − e− a )
(7.10)
Donde:
h Distancia entre dos localizaciones.
a Parámetro que determina el rango (no teórico).
C Tope aproximado a V [Z(u)] (asintótica horizontalmente).
e Base de los logaritmos naturales.
γ(h) Variograma teórico.
En la Figura 7.5 se muestra un modelo exponencial de variograma teórico.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 81 — #85
i
i
7.2. VARIOGRAMA TEÓRICO
81
5
γ(h)
tope
rango
4
3
2
1
0
0
2
4
6
8
10
h
Figura 7.5: Variograma teórico del modelo exponencial.
Gaussiano
A diferencia del modelo esférico todas las variables aleatorias se encuentran relacionadas en el ambito
√
teórico. Aunque debido a lo diminuto de algunas relaciones, se considera un rango no teórico de 3a.
A diferencia del modelo exponencial muestra un comportamiento cuadrático conforme tiende a 0.
γ(h) = C(1 − e
2
− h2
a
)
(7.11)
Donde:
h Distancia entre dos localizaciones.
a Parámetro que determina el rango (no teórico).
C Tope aproximado a V [Z(u)] (asintótica horizontalmente).
e Base de los logaritmos naturales.
γ(h) Variograma teórico.
En la Figura 7.6 se muestra un modelo gaussiano de variograma teórico.
7.2.2. Modelos sin un tope
Si la estacionalidad de segundo orden no es conocida (por ejemplo, la varianza V [Z(u)] no es finita), pero
la hipótesis intrı́nseca es verdadera, se obtendrán variogramas que no son constantes, ni se acercan a
una ası́ntota, después de cierta distancia.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 82 — #86
i
i
CAPÍTULO 7. VARIOGRAMA
82
5
γ(h)
tope
rango
4
3
2
1
0
0
2
4
6
8
10
h
Figura 7.6: Variograma teórico del modelo Gaussiano.
A continuación se mencionan algunos modelos que cumplen con esta propiedad:
Potencial
Se cumple cuando el modelo se puede representar mediante la potencia de un número λ.
γ(h) = Chλ
(7.12)
Donde:
h Distancia entre dos localizaciones.
λ Definida en el intervalo (0, 2).
C Constante.
γ(h) Variograma teórico.
En la Figura 7.7 se muestra un modelo potencial de variograma teórico.
Complejos
Los modelos listados previamente satisfacen la condición 7.5. Desafortunadamente estos modelos no
siempre describen la variabilidad de las variables regionalizadas bajo estudio. La combinación de los
modelos anteriores amplı́a el conjunto de los variogramas teóricos.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 83 — #87
i
i
7.3. AJUSTE A UN MODELO TEÓRICO
83
5
γ(h),λ=1
γ(h),λ=0.5
4
3
2
1
0
0
2
4
6
8
10
h
Figura 7.7: Variograma teórico del modelo potencial.
Si γ1 (h), ..., γK (h) son modelos de variogramas que cumplen la condición 7.5 y c1 , ..., cK son números
no negativos, luego la ecuación 7.13 satisface 7.5.
γ(h) =
K
∑ ck γk (h)
(7.13)
k=1
7.3. Ajuste a un modelo teórico
Dado que los variogramas experimentales no cumplen con las propiedades estadı́sticas detalladas, es
necesario ajustarlos a un variograma teórico.
Existen varias aproximaciones: a ojo, mı́nimos cuadrados y probabilidad máxima.
7.3.1. A ojo
En este método se intenta calcular “a ojo” el ajuste del variograma empı́rico a un modelo teórico de
variograma.
Al igual que en 3.1.1, es subjetivo al experto que lo lleva a cabo. Aunque se lo suele usar para detectar
valores extremos, errores de medición, etc.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 84 — #88
i
i
CAPÍTULO 7. VARIOGRAMA
84
7.3.2. Mı́nimos cuadrados
Este método a diferencia del anterior, es automático. Aunque, por otra parte, los errores de medición
y valores extremos no pueden ser detectados.
Otra desventaja es que el método asume que los errores18 son independientes de la curva de ajuste (o
variograma teórico), y esto último no es cierto.
7.3.3. Probabilidad máxima
Este método postula para cada distancia hi una distribución fhi . Esta distribución describe la desviación entre el conjunto de valores obtenidos para un hi y el valor del modelo teórico.
A cada distribución se asocia una probabilidad que puede ser calculada a partir de la comparación de
la esperanza y el valor del modelo teórico.
P(hi ) =
E[ fhi (u)]
γ∗ (hi )
(7.14)
La combinación de probabilidades que produce el mayor producto es la probabilidad máxima (PM):
n
PM = ∏ P(hi )
(7.15)
i=1
Dado que se desea maximizar la probabilidad máxima y minimizar el error (calculado por la diferencia
al cuadrado) al mismo instante, se puede minimizar la ecuación 7.16 para obtener el ajuste deseado.
n
ε = ∑ (γ∗ (hi ) − γ(hi ))2 (1 − P(hi))
(7.16)
i=1
Al igual que 7.3.2 es un estimador automático. Además supone independencia entre los diferentes
puntos, lo cual no es determinable en la mayorı́a de los casos.
18 Desviación
entre el variograma experimental y el variograma teórico.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 85 — #89
i
i
7.4. ISOTROPÍA Y ANISOTROPÍA
85
7.4. Isotropı́a y anisotropı́a
La variable regionalizada es isotrópica si su variograma depende sólo de el tamaño del vector h. En
este caso el variograma experimental puede ser calculado con la condición limitante:
|ui − u j | = |h|
(7.17)
La isotropı́a puede ser probada si hay una cantidad suficiente de datos “bien espaciados”19 . En este
caso los variogramas experimentales correspondientes a diferentes direcciones pueden ser calculados
y comparados.
Aunque en muchos casos, cuando el conjunto de datos es pequeño, se debe asumir que el variográma
es istotrópico para mejorar la calidad del cálculo (del variograma) para cada distancia h.
Si una función no es isotrópica, entonces esta puede mostrar diferentes tipos de anisotropı́as, como la
geométrica o la zonal.
7.4.1. Anisotropı́a geométrica
La variable regionalizada tiene una anisotropı́a geométrica si hay una transformación de coordenadas
T tal que Z(u′ ) = Z(T (u)) es isotrópica. Esto significa que para la anisotropı́a geométrica una simple
transformación de coordenadas conduce a un caso donde sólo las distancias20 (del nuevo sistema de
coordenadas) juegan un rol.
Esta transformación debe ser aplicada cuando el valor del tope sea el mismo para cada dirección, pero
el rango varı́a en cada una de ellas.
Si se dibuja el rango para cada dirección y se obtiene una elipse21 , primero se deberá rotar y luego se realizará la transformación T (a partir de las ecuaciones 7.18 y 7.19) para que se logre una
circunferencia.
x′ = λ(x cos ϕ + y sin ϕ)
(7.18)
y′ = −x sin ϕ + y cosϕ
(7.19)
19
No necesariamente alineados.
de depender del ángulo de la dirección en la cual se realiza el variograma.
21 En la tridimensión se utiliza una elipsoide.
20 Dejando
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 86 — #90
i
i
86
CAPÍTULO 7. VARIOGRAMA
Donde:
(x, y) Coordenada original.
λ Proporción de transformación.
ϕ Ángulo entre el eje de coordenadas x y el eje principal de la anisotropı́a (elipse).
(x′ , y′ ) Coordenada resultante de la transformación.
Una vez realizada la transformación se continúa con un análisis isométrico, y por último se deberá volver a realizar una transformación inversa, para obtener los resultados con el sistema de coordenadas
originales.
7.4.2. Anisotropı́a zonal
La variable regionalizada tiene una anisotropı́a zonal si los rangos no convergen a una elipse, o si los
valores de tope son diferentes.
En este caso se deberá utilizar un modelo de anisotropı́a complejo, para el que cada termino del modelo
puede mostrar diferentes anisotropı́as geométricas.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 87 — #91
i
i
Capı́tulo 8
Kriging
El variograma es la herramienta principal para algunos cálculos geoestadı́sticos, como estimar el valor
del parámetro en lugares no muestreados o el valor promedio de un parámetro en un área determinada.
Estos tipos de cálculos pueden ser llevados a cabo a partir de procedimientos como el Kriging Ordinario
o los métodos no estacionales.
8.1. Kriging Ordinario
Es el más simple de todos los procedimientos. La estimación puede ser realizada para un punto particular o se podrı́a calcular un valor promedio para un bloque determinado.
8.1.1. Kriging Ordinario Puntual
El problema de la interpolación (y la extrapolación) es la estimación de un parámetro en una posición
no muestreada.
Un estimador lineal que combine los valores muestreados de las variables regionalizadas deberá ser
encontrado. Esto significa que el estimador es de la forma:
n
Z ∗ (u) = ∑ λi Z(ui )
(8.1)
i=1
87
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 88 — #92
i
i
CAPÍTULO 8. KRIGING
88
Donde:
Z ∗ (u) Estimación para cualquier localización u.
Z(ui ) Valor del parámetro muestreado en la localización ui .
λi Coeficientes de ajuste de la estimación al parámetro.
Existen infinitos valores para los coeficientes λi y es deseable seleccionarlos manteniendo insesgado al
estimador, generando la varianza de la estimación más baja posible.
Usando la estacionalidad de segundo orden o la hipótesis intrı́nseca se tiene:
E[Z(u)] = m∀u ∈ D
(8.2)
Luego el estimador lineal queda como:
n
E[Z ∗ (u)] = ∑ λi E[Z(ui )] = m
(8.3)
i=1
La condición que tienen que cumplir los coeficientes para que la estimación sea insesgada es:
n
∑ λi = 1
(8.4)
i=1
Luego, si se utiliza la hipótesis de estacionalidad de segundo orden la varianza de la estimación está dada
por la función cuadrática:
n
σ2 (u) = V [Z(u) − Z ∗ (u)] = E[(Z(u) − ∑ λi Z(ui ))2 ]
(8.5)
i=1
n
n
n
σ2 (u) = E[Z(u)2 + ∑ ∑ λi λ j Z(ui )Z(u j ) − 2 ∑ λi Z(ui )Z(u)]
i=1 j=1
i=1
n
n
n
σ2 (u) = Cov(0) + ∑ ∑ λi λ jCov(ui − u j ) − 2 ∑ λiCov(ui − u)
i=1 j=1
(8.6)
(8.7)
i=1
El mejor estimador lineal insesgado (en inglés BLUE22 ) es aquel que hace mı́nima a la varianza de la
estimación, teniendo en cuenta la condición 8.4.
22 Best
Linear Unbiased Estimator.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 89 — #93
i
i
8.1. KRIGING ORDINARIO
89
Este problema de estimación restringida puede ser resuelto mediante el multiplicador de Lagrange µ
[Hoa84].
n
K(λ, µ) = σ2 (u) − 2µ( ∑ λi − 1))
(8.8)
i=1
Si se realizan las derivadas parciales para cada λi y con respecto a µ, y se iguala a cero se encontrará la
varianza mı́nima de la estimación.
dK(λi , µ)
= 0∀i; ui ∈ D
(8.9)
dλi
dK(λ, µ)
=0
(8.10)
dµ
El sistema de kriging23 en términos de covarianzas queda compuesto por:
n
∑ λ jCov(ui − u j ) − µ = Cov(ui − u)∀i = 1, ..., n
(8.11)
j=1
n
∑ λj = 1
(8.12)
j=1
Si en lugar de la estacionalidad de segundo orden se utiliza la hipótesis intrı́nseca, la varianza de la
estimación queda dada por:
n
n
n
σ2 (u) = V [Z(u) − Z ∗ (u)] = − ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi γ(ui − u)
j=1 i=1
(8.13)
i=1
Y al minimizarla, el sistema de kriging en términos de variogramas es:
n
∑ λ j γ(ui − u j ) + µ = γ(ui − u)∀i = 1, ..., n
(8.14)
j=1
n
∑ λj = 1
(8.15)
j=1
8.1.2. Kriging Ordinario por Bloques
Con frecuencia lo que se necesita es un promedio de los valores del parámetro sobre cierta área, en
lugar de un valor especı́fico de una ubicación. Esto podrı́a ser realizado estimando una gran cantidad
de puntos en el área y tomando el promedio de los valores.
23 Es
λi .
un sistema de ecuaciones resultante de la minimización teniendo en cuenta al Multiplicador de Lagrange µ y a los coeficientes
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 90 — #94
i
i
CAPÍTULO 8. KRIGING
90
Una forma más simple de hacerlo, es suponer que el promedio del parámetro sobre cierto volumen B
(o bloque) perteneciente al dominio D va a ser estimado.
1
Z(B) =
|B|
Z
Z(u)du
(8.16)
B
Nuevamente, se debe encontrar un estimador de la forma:
n
Z ∗ (B) = ∑ λi Z(ui )
(8.17)
i=1
La condición que mantendrá a la estimación insesgada será:
n
∑ λi = 1
(8.18)
i=1
La varianza de la estimación será:
n
n
n
σ2 (B) = V [Z(B) − Z ∗ (B)] = −γ(B, B) − ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi γ(ui , B)
j=1 i=1
(8.19)
i=1
Donde:
B Bloque, volumen.
γ(h) Variograma para una distancia h dada.
γ(B, B) Variograma promedio entre dos bloques.
γ(ui , B) Variograma promedio entre un punto y un bloque.
Si γ(ui , B) y γ(B, B) se calculan mediante:
γ(ui , B) =
γ(B, B) =
1
|B|
1
|B|
Z
B
Z Z
B B
γ(ui − u)du
(8.20)
γ(u − v)dudv
(8.21)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 91 — #95
i
i
8.1. KRIGING ORDINARIO
91
Luego, la minimización de σ2 (B) manteniendo la estimación insesgada produce el siguiente sistema de
ecuaciones:
n
∑ λ j γ(ui − u j ) + µ = γ(ui , B)∀i = 1, ..., n
(8.22)
j=1
n
∑ λj = 1
(8.23)
j=1
8.1.3. El variograma y el kriging
Como la varianza de la estimación y las ecuaciones del kriging están calculadas con la ayuda del variograma, es evidente que este último cumple un rol importante.
Utilizar el variograma en el kriging no sólo produce el valor esperado, sino que además calcula la
varianza de la estimación correspondiente. Esto último determina la calidad de la estimación, ya que
una varianza alta significa poca certeza en la estimación. Por otro lado, la varianza de la estimación
será cero para las estimaciones de las posiciones muestreadas.
Comparando las varianzas de las estimaciones que se obtienen al usar el kriging puntual y el kriging
por bloques, se puede ver que la varianza del último es notablemente menor.
Esto se debe al término adicional γ(B, B) de la varianza de la estimación por bloques. A medida que
γ(B, B) aumenta con el tamaño del bloque, la varianza de la estimación decrece, dando mayor exactitud
que una estimación puntual.
8.1.4. El Kriging en la práctica
Usualmente los puntos utilizados para el kriging puntual o por bloques son seleccionados dentro de
cierta distancia (o rango) teniendo en cuenta la anisotropı́a.
Si aún ası́ continúan quedando demasiados puntos, se selecciona un vecindario con los n puntos más
cercanos, donde n es un lı́mite preestablecido.
Es importante destacar que la selección de un vecindario falla si los puntos se encuentran esparcidos
irregularmente. En este último caso es necesario utilizar una búsqueda direccional.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 92 — #96
i
i
CAPÍTULO 8. KRIGING
92
8.1.5. Kriging con un variograma “falso”
Algunas veces, el kriging es obtenido mediante la utilización de variogramas teóricos en lugar de los
variogramas experimentales. En este caso al realizar la selección de los parámetros del variograma, se
debe tener en cuenta que se afecta directamente a los resultados del kriging.
Usualmente se suele utilizar un modelo complejo con dos elementos: un efecto pepita y un modelo simple
(esférico, exponencial, gaussiano o lineal).
8.1.6. Validación cruzada
Dado que la peculiaridad de las observaciones complica la utilización de pruebas estadı́sticas, y que la
subjetividad del ajuste “a ojo” en los variogramas teóricos deberı́a ser controlada para reducir su error,
la validación cruzada es un procedimiento que prueba al variograma teórico estimado.
Para cada localización de muestreo ui los valores son estimados (usando kriging) como si fueran desconocidos. Este estimador es representado por Z v (ui ) y su correspondiente desvı́o estándar σv (ui ).
Luego, los valores de la estimación son comparados con los valores verdaderos Z(ui ). Si la desviación
estándar del kriging es interpretada como un error de estimación con distribución normal (N(0, 1)),
entonces:
Z v (ui ) − Z(ui )
; S(u) N(0, 1)
(8.24)
S(ui ) =
σv (ui )
En caso de diferir de N(0, 1) significa que el ajuste puede ser mejorado. Por otra parte, este procedimiento suele utilizarse para detectar valores extremos o atı́picos.
8.1.7. Kriging con datos inciertos
Frecuentemente un mismo parámetro es medido o estimado mediante diferentes métodos. Si estos
métodos producen resultados con diferentes precisiones, las mediciones deberı́an ser manejadas teniendo en cuenta estas diferencias.
Para cada ui existe un término de error ε(ui ) que cumple con las siguientes propiedades:
Insesgada
E[ε(ui )] = 0
(8.25)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 93 — #97
i
i
8.1. KRIGING ORDINARIO
93
Sin correlación
E[ε(ui )ε(u j )] = 0∀i 6= j
(8.26)
Sin correlación con los valores del parámetro
E[ε(ui )Z(ui )] = 0
(8.27)
Por conveniencia se desarrolla sólo la estimación para un bloque B, que está dada por:
n
Z ∗ (B) = ∑ λi (Z(ui ) + ε(ui ))
(8.28)
i=1
La condición que mantendrá insesgados a la variable aleatoria de la estimación seguirá siendo:
n
∑ λi = 1
(8.29)
σ2 (B) = V [Z(B) − Z ∗ (B)]
(8.30)
i=1
Y la varianza de la estimación es:
n
n
n
n
i=1
i=1
σ2 (B) = −γ(B, B) − ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi γ(ui , B) + ∑ λ2i E[ε(ui )2 ]
j=1 i=1
(8.31)
Al minimizar la varianza de la estimación se obtiene un sistema de ecuaciones similar al sistema del
kriging ordinario:
n
∑ λ j γ(ui − u j ) + λiE[ε(ui )2 ] + µ = γ(ui , B)∀i = 1, ..., n
(8.32)
j=1
n
∑ λj = 1
(8.33)
j=1
8.1.8. Kriging Simple
El kriging ordinario supone que el valor esperado es el mismo para cualquier posición del dominio D,
descartando la existencia de variables regionalizadas que posean una variabilidad en su valor esperado
para distintas posiciones del dominio.
El kriging simple es una alternativa al kriging ordinario que tiene en cuenta al valor medio esperado
m(u) (no necesariamente constante) en todo el dominio D.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 94 — #98
i
i
CAPÍTULO 8. KRIGING
94
La función de estimación queda expresada como:
n
Z ∗ (u) = m(u) + ∑ λi (Z(ui ) − m(ui ))
(8.34)
i=1
La condición que mantendrá insesgados a la variable aleatoria de la estimación es:
n
E[Z ∗ (u) − Z(u)] = m(u) + ∑ λi E[Z(ui ) − m(ui)] − m(u) = 0
(8.35)
i=1
La varianza del estimador es:
V [Z ∗ (u) − Z(u)] = E[Z ∗ (u)2 + Z(u)2 − 2Z ∗ (u)Z(u)]
(8.36)
V [Z ∗ (u) − Z(u)] = ∑ ∑ λi λ jCov(ui − u j ) + Cov(0) − 2 ∑ λiCov(ui − u)
(8.37)
n
n
n
i=1
i=1 j=1
La varianza de la estimación es mı́nima si:
dV [Z ∗ (u) − Z(u)]
= 0∀i; ui ∈ D
dλi
(8.38)
Por último el sistema de ecuaciones para el kriging simple tiene la siguiente forma:
n
∑ λ jCov(ui − u j ) = Cov(ui − u)∀i = 1, ..., n
(8.39)
j=1
8.2. Métodos no estacionales
Desafortunadamente, muchos parámetros naturales no cumplen con la hipótesis intrı́nseca por causa
de cambios sistemáticos en el valor del parámetro medido.
Los cambios sistemáticos contaminan el variograma experimental y conducen a resultados inaceptables.
Si se supone que la primera condición ( 6.5) de la hipótesis intrı́nseca no es constante y en su lugar se
tiene una deriva sistemática no conocida. Y por otra parte, la diferencia entre la variable regionalizada
y la deriva es intrı́nseca, entonces:
Z(u) = f (u) + Y (u)
(8.40)
Z(u) − f (u) = Y (u)
(8.41)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 95 — #99
i
i
8.2. MÉTODOS NO ESTACIONALES
95
Donde:
Z(u) Valor del parámetro (variable regionalizada).
Y (u) Función intrı́nseca, tal que E[Y (u)] = 0.
f (u) Función que representa la deriva.
El método de ajuste que se suele utilizar para estimar la deriva es el ajuste por mı́nimos cuadrados. Esto
requiere que no exista relación entre los residuos, quedando independientes entre si. Pero contradice
la ecuación mas general, dado que la variable regionalizada es la suma de una deriva f (u) y un residuo
intrı́nseco Y (u). Solo será verdadero si los residuos tienen variogramas con efecto pepita puro.
Para tratar con la deriva se presentarán dos métodos diferentes: el kriging universal y el kriging con
deriva externo.
8.2.1. Kriging Universal
El problema principal en los casos no estacionales es que la estimación de la deriva requiere del variograma, pero la estimación del variograma requiere del conocimiento de la deriva.
El kriging universal es un método donde la deriva se obtiene de forma iterativa con el fin de estimar el
variograma, esto es posible porque en el kriging la deriva no se utiliza, y su efecto es filtrado.
El agregado de constantes a la variable regionalizada no afecta al variograma. Por lo que la deriva f (u)
debe ser contemplada como una constante aditiva:
S
f (u) =
∑ bs fs (u)
(8.42)
s=0
Donde:
f0 (u) es igual a 1.
bs deben ser averiguados para s > 0.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 96 — #100
i
i
CAPÍTULO 8. KRIGING
96
La función anterior es cierta en un ámbito “local”, dentro de un vecindario. Los coeficientes bs son
estimados a partir de una combinación lineal de los valores medidos:
n
b∗s = ∑ di,s Z(ui )
(8.43)
i=1
Donde:
b∗s Estimación del los coeficientes bs .
di,s Coeficiente que determina la relación lineal con cada Z(ui ).
Z(ui ) Valor medido en la posición ui .
Estos estimadores deberı́an ser insesgados, por lo que deberán cumplir la condición:
n
E[b∗s ] = bs = ∑ di,s E[Z(ui )]
(8.44)
!
(8.45)
!
(8.46)
i=1
Usando la ecuación 8.42 se tiene:
S
n
∑ bq fq (ui )
bs = ∑ di,s
q=1
i=1
A partir de la ecuación anterior se obtiene:
bs =
S
n
q=1
i=1
∑ bq ∑ di,s fq (ui )
Si las funciones fs (u) son linealmente independientes, de la ecuación anterior se deduce que:
n
∑ di,s fq (ui )
i=1
(1
0
La varianza para cada coeficiente estimado b∗s es:
"
V [b∗s ]
=V
n
si q = s
(8.47)
si q 6= s
#
∑ di,s Z(ui )
i=1
(8.48)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 97 — #101
i
i
8.2. MÉTODOS NO ESTACIONALES
97
Y dado que la varianza de la estimación será finita, se cumple la condición:
n
∑ di,s = 0
(8.49)
i=0
Usando la ecuación 8.48 se calcula:
n
n
V [b∗s ] = ∑ ∑ di,s d j,s γ(ui − u j )
(8.50)
i=1 j=1
Si se utiliza el multiplicador de Lagrange para agregar las condiciones 8.49 y 8.47; y luego se minimiza
la función, se obtiene un sistema de kriging semejante a los anteriores.
n
S
j=1
q=1
∑ γ(ui − u j ) + µ0,s + ∑ µq,s fs (u) = 0∀i = 1, ..., n
(8.51)
n
∑ di,s = 0
(8.52)
i=1
n
∑ di,s fq (ui )
i=1
(1
0
si q = s
(8.53)
si q 6= s
Al resolver el sistema de ecuaciones anterior para s = 1, ..., S se obtienen los coeficientes di,s y utilizando
a estos últimos los bs . Esta aproximación tiene el problema que el cálculo de los coeficientes necesita
de los variogramas. El procedimiento iterativo siguiente realiza una estimación del variograma teórico
para resolver el conflicto.
1 Determinar el tipo de la deriva (usualmente el orden del polinomio).
2 Desarrollar un variograma teórico γ y calcular los coeficientes de la deriva.
3 Calcular el variograma experimental de los residuos Y (u).
4 Comparar los variogramas teórico y experimentales desarrollados en los pasos 2 y 3. Parar si la correspondencia entre las dos curvas es buena. Sino repetir el paso 2 con un nuevo variograma teórico reajustado
al variograma experimental.
Una vez que los variogramas hayan sido calculados se procede con la estimación para un punto o un
bloque de forma semejante a como se lleva a cabo el kriging ordinario:
n
Z ∗ (u) = ∑ λi Z(ui )
(8.54)
i=1
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 98 — #102
i
i
CAPÍTULO 8. KRIGING
98
La condición de imparcialidad que mantiene a la variable aleatoria insesgada es:
"
#
n
E
∑ λi Z(ui ) − Z(u)
=0
(8.55)
i=1
Al usar las ecuaciones 8.40 y 8.42 se tiene:
n
S
S
i=1
s=0
s=0
∑ λi ∑ bs fs (ui ) − ∑ bs fs (u)
(8.56)
Al sacar factor común se tiene:
S
"
#
n
∑ bs ∑ λi fs (ui ) − fs(u)
s=0
i=1
=0
(8.57)
La ecuación anterior se deberı́a mantener para cualquier bs . Entonces se cumplirá si:
n
∑ λi fs (ui ) − fs (u) = 0∀s = 0, ..., S
(8.58)
i=1
La varianza de la estimación es:
n
n
n
σ2 (u) = V [Z(u) − Z ∗ (u)] = − ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi γ(ui − u)
j=1 i=1
(8.59)
i=1
Si se aplican los multiplicadores de Lagrange correspondientes y se minimiza la ecuación resultante se
obtiene el sistema de kriging:
n
S
j=1
s=0
∑ λ j γ(ui − u j ) + ∑ µs fs (ui ) = γ(ui − u) ∀i = 1, ..., n
(8.60)
n
∑ λi fs (ui ) = fs (u) ∀s = 0, ..., S
(8.61)
i=1
El kriging universal fue el primer método geoestadı́stico para las funciones aleatorias no estacionarias.
La estimación iterativa del variograma consume una gran cantidad de tiempo y no hay garantı́as de
que los resultados converjan.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 99 — #103
i
i
8.3. ACTUALIZACIÓN SIMPLE
99
8.2.2. Kriging con Deriva Externa
Si se supone que existe la variable aleatoria regionalizada Y (u) que está relacionada linealmente con
Z(u). La hipótesis del valor esperado constante es reemplazado por:
E[Z(u)|Y (u)] = a + bY(u)
(8.62)
Dado que a y b son constantes desconocidas, el estimador lineal deberı́a ser insesgado para cualquier
valor de a y b:
n
Z ∗ (u) = ∑ λi Z(ui )
(8.63)
i=1
Minimizando la varianza de la estimación bajo las precondiciones que se mencionaron se tiene:
I
∑ λ j γ(ui − u j ) + µ1 + µ2Y (ui ) = γ(ui − u)∀i = 1, ..., I
(8.64)
j=1
I
∑ λj = 1
(8.65)
∑ λ jY (u j ) = Y (u)
(8.66)
j=1
I
j=1
Es deseable aplicar kriging con deriva externa24 si la información secundaria existe en una alta resolución espacial con respecto a la variable principal y se encuentra distribuida dentro de una grilla.
8.3. Actualización Simple
La actualización simple es un método de kriging que utiliza información adicional para mejorar sus
resultados.
Si se tiene en cuenta que la variable secundaria L(u) complementa a la variable primaria Z(u), dado
que L(u) está disponible para cada punto del dominio y se encuentra relacionada con Z(u) mediante la
esperanza condicional:
E[Z(u)|L(u) = l] = ml
(8.67)
24 O
External Drift Kriging (EDK) en inglés.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 100 — #104
i
i
CAPÍTULO 8. KRIGING
100
Y mediante la varianza condicional:
V [Z(u)|L(u) = l] = σ2l
(8.68)
Una primera estimación de Z(u) basada solamente en L(u):
Z ′ (u) = ml + εl
(8.69)
Donde:
εl Error aleatorio.
Tal que E[εl ] = 0 y su varianza es σ2l . Si se usa Z ′ (u) combinadas con las observaciones Z(ui ) para la
estimación de Z(u), se tiene:
n
Z ∗ (u) = λ0 Z ′ (u) + ∑ λi Z(ui )
(8.70)
i=1
Luego, la varianza de la estimación estarı́a dada por:
V [Z(u) − Z ∗ (u)]
(8.71)
− ∑ ∑ λ j λi γ(ui − u j ) + 2 ∑ λi (1 − λ0)γ(ui − u) + λ20E[ε2l ]
(8.72)
n
n
n
i=1
j=1 i=1
Y al minimizar la varianza de la estimación de forma que sea insesgada mediante el multiplicador de
Lagrange se tiene:
n
∑ λ j γ(ui − u j ) + µ = (1 − λ0)γ(ui − u)∀i = 1, ..., n
(8.73)
j=1
n
∑ λ j γ(u − u j ) + µ = λ0σ2l
(8.74)
j=1
n
∑ λj = 1
(8.75)
j=0
El la práctica la información adicional es de forma discreta y existe para cada localización. Para cada
clase l la media y la varianza pueden ser calculadas por:
∑ni=1 Z(ui )
; L(ui ) = l
∑ni=1 1
(8.76)
∑ni=1 (Z(ui ) − ml )2
; L(ui ) = l
(∑ni=1 1) − 1
(8.77)
ml =
σ2l =
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 101 — #105
i
i
8.4. KRIGING SOBRE SERIES TEMPORALES
101
8.4. Kriging sobre Series Temporales
Los métodos geoestadı́sticos fueron pensados para problemas mineros y geológicos, donde para cada
localización se realizaba una medición. Aunque en muchas otras aplicaciones la misma localización
puede ser usada para varias mediciones. Por ejemplo, las precipitaciones o la calidad del agua subterránea son medidas regularmente en el tiempo. La cuestión es como modelar y utilizar de forma
geoestadı́stica estas mediciones.
Una forma posible de incluir el tiempo es extendiendo la hipótesis intrı́nseca con la dimensión del
tiempo. Esto significa que las localizaciones de la muestra consiste de dos partes: una espacial (1, 2
o 3 dimensiones) y una temporal. Esta aproximación es razonable para variables aleatorias de tiempo
continuo como la calidad del agua subterránea. Aunque no es apropiada para parámetros basados en
eventos (en las precipitaciones no se puede usar la precipitación del 1 de Junio y del 30 de Junio para
calcular la del 15 de Junio).
Otra posible extensión es el uso de los datos correspondientes a un mismo tiempo como una realización,
y suponer que las diferentes realizaciones corresponden a un mismo proceso. Este método no excluye al
primero, los instantes de un proceso espacio-temporal intrı́nseco son también intrı́nsecos en el espacio,
y los variogramas espaciales son los mismos.
8.4.1. Intrı́nsecas en el espacio-tiempo
La función aleatoria Z(u,t) es intrı́nseca en el espacio-tiempo si:
E[Z(u,t)] = m
El semivariograma espacio temporal es independiente de la localización u y del tiempo t:
1
γ(h, ∆t) = V [Z(u + h,t + ∆t) − Z(u,t)]
2
(8.78)
(8.79)
El problema que surge al calcular los semivariogramas espacio temporales es que no hay una función
de distancia en común. Las distancias espaciales pueden ser calculadas, al igual que las diferencias de
tiempo, pero lo que no se conoce es el equivalente espacial para una diferencia de tiempo. Esto se puede
obtener calculando los semivariogramas experimentales para el espacio y el tiempo de forma separada.
Para la componente temporal:
γ∗T (∆t) =
1
∑ (Z(ui ,ti ) − Z(u j ,t j ))2
2NT (∆t) (i, j)∈R
(∆t)
(8.80)
T
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 102 — #106
i
i
CAPÍTULO 8. KRIGING
102
Donde:
RT (g) {(i, j); g − ε ≤ |ti − t j | ≤ g + ε y (ui = u j )}
NT (g) Cantidad de elementos en RT (g).
Para la estructura espacial:
γ∗S (h) =
1
∑
2NS (h) (i, j)∈R
(Z(ui ,ti ) − Z(u j ,t j ))2
(8.81)
S (h)
Donde:
RS (g) {(i, j); g − ε ≤ |ui − u j | ≤ g + ε y |ti − t j | ≤ δ}
NS (g) Cantidad de elementos en RS (g).
Luego, existen dos situaciones:
El tipo de los dos variogramas experimentales son similares, tienen el mismo efecto pepita y el mismo
tope. Esto significa que cuanto mucho se observará una anisotropı́a geométrica que será tratada con
una transformación lineal, resultando un modelo isotrópico. La distancia de un vector (h, ∆t) se define
como:
q
|(h, ∆t)| =
|h|2 + kt |∆t|2
(8.82)
El tipo de los dos variogramas experimentales son diferentes, teniendo una forma diferente y/o un tope
distinto. En este caso se modelará un variograma teórico de acuerdo a una anisotropı́a zonal. En este
caso el variograma espacio temporal γST (h, ∆t) puede ser escrito como:
γST (h, ∆t) = γS (h) + γT (∆h)
(8.83)
En ambos casos el sistema de kriging se calcula de igual manera que en casos anteriores.
8.4.2. Intrı́nsecas en el espacio e independientes del tiempo
La función aleatoria Z(u,t) es espacialmente intrı́nseca con el variograma independiente del tiempo si:
E[Z(u,t)] = m
(8.84)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 103 — #107
i
i
8.4. KRIGING SOBRE SERIES TEMPORALES
103
El variograma espacial es independiente de la localización u y del tiempo t si ∆t ≤ δ:
1
γ(h) = V [Z(u + h,t + ∆t) − Z(u,t)]
2
(8.85)
8.4.3. Intrı́nsecas en el espacio y dependientes del tiempo
La función aleatoria Z(u,t) es espacialmente intrı́nseca con el variograma dependiente del tiempo si:
E[Z(u,t)] = m(t)
(8.86)
El variograma espacial para un tiempo t es independiente de la localización u si ∆t ≤ δ y k(t) es una
función de tiempo dependiente:
1
γ(h,t) = k(t) V [Z(u + h,t + ∆t) − Z(u,t)]
2
(8.87)
Por ejemplo:
Semivariograma proporcional con la media:
k(t) = m(t)2
Esto significa que
Z(u,t)
m(t)
(8.88)
es espacialmente intrı́nseca con un variograma independiente del tiempo.
Semivariograma proporcional con la varianza:
k(t) = V [Z(u,t)] con t fijo
(8.89)
Esto significa que la estructura de correlación se preserva a través del tiempo.
8.4.4. Series temporales interpretadas como diferentes realizaciones
En el caso de parámetros basados en eventos o con cambios bruscos, las series temporales pueden ser
utilizadas para un análisis mas profundo de la estructura de correlación espacial. Esto requiere que se
asuman como similares aquellos procesos observados en instantes de tiempo cercanos, pero la similitud
es solo aceptada en la correlación de los eventos en la distribución espacial.
Si esto se cumple, puede ser detectado mediante el cálculo del coeficiente de correlación ρ para series
temporales de los distintos pares de localizaciones (ui , u j ):
CovT (Z(ui ,t), Z(u j ,t))
ρi j = p
V [Z(ui ,t)]V [Z(u j ,t)]
(8.90)
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 104 — #108
i
i
CAPÍTULO 8. KRIGING
104
Siendo la covarianza temporal:
CovT (Z(ui ,t), Z(u j ,t)) = E[Z(ui ,t) − E[Z(ui ,t)]Z(u j ,t) − E[Z(u j ,t)]]
(8.91)
El coeficiente de correlación es el coeficiente temporal estandarizado entre dos series temporales, donde:
valor positivo (max: 1) Relación lineal positiva fuerte.
valor neutral 0 Sin relación lineal.
valor negativo (min: −1) Relación lineal negativa fuerte.
Si al coeficiente anterior se lo calcula para un numero de pares, de tal forma que denote una función
con respecto a la distancia entre los pares, mostrarı́a una figura similar a la obtenida por una función
de covarianza espacial (Función 6.3, Figura 6.2).
Si la hipótesis de similitud es conocida los coeficientes de correlación pueden utilizarse para:
Una nube de covarianzas, similar a la nube del variograma, que puede ser utilizada para el cálculo del
kriging.
La información contenida en la estructura de la correlación espacial, que puede ser utilizada para futuras optimizaciones de la función de correlación teórica.
i
i
i
i
i
i
“Geoestadistica-book” — 2010/8/15 — 21:27 — page 105 — #109
i
i
Bibliografı́a
[Ber]
Levine Berenson. Estadı́stica para la Administración.
[Bá]
András Bárdossy. Introduction to Geostatistics.
[Cai08] Amanda Walters; Qian Cai. Investigating the use of holt-winters time series model for forecasting
population at the state and sub-state levels. Febrero 2008. Demographics and Workforce Section,
Weldon Cooper Center for Public Service, University of Virginia.
[Cap]
Carlos Capelletti. Elementos de Estadı́stica.
[Fer04a] Ignacio Cascos Fernández. Estadı́stica descriptiva. 2004.
[Fer04b] Jesús Sánchez Fernández. Introducción a la Estadı́stica Empresarial. 2004. ISBN: 84-688-9882-1.
[Hoa84] Nguyen Dinh Hoa. The lagrange multiplier function in the equation approach to constrained optimization. Universitatis Iagellonicae Acta Matemática, XXIV:99–117, 1984.
[Kal04] Prajakta S. Kalekar. Time series forecasting using holt-winters exponential smoothing. Diciembre
2004. Kanwal Rekhi School of Information Technology.
[Men]
William Mendenhall. Estadı́stica para administradores.
[Mus67] Julius Shiskin; Allan H. Young; John C. Musgrave. The x-11 variant of the census method ii
seasonal adjustement program. Technical report, Boreau of the Census Economic Research and
Analysis Division, Febrero 1967.
[Pé03]
Luis Lechuga Pérez. Métodos estadı́sticos en la ingenierı́a. Departamento de Matemática Aplicada,
Universidad de Málaga, 2003.
[Wik]
Wikipedia. Probabilidad.
105
i
i
i
i
Descargar