Tema 4: Predicción Lineal

Anuncio
Predicción Lineal
Series Temporales
Máster en Computación
Universitat Politècnica de Catalunya
Dra. Alicia Troncoso Lora
1
Contenido
Introducción
Esquema de predicción iterada
Modelos de series temporales: Box & Jenkins
Técnicas lineales de predicción
AR
M5’
Aplicaciones
Referencias
2
Introducción (I)
3
Introducción (II)
Predecir los n siguientes valores de
una serie temporal Yt
Yt+1,…,Yt+n
n es el horizonte de
predicción
Encontrar función f: Rm----->R tal que
t
= f(Yt-1,…,Yt-m) + errort
m es el número de valores pasados
que se usan en la predicción
4
Esquema de predicción iterada
Yt-(m-1) ,…,Yt-2,Yt-1,Yt
Yt-(m-2) ,…,Yt-1,Yt,
Yt-(m-3) ,…,Yt,
t+1,
t+1
t+1
t+2
t+2
t+3
Desventaja: Con este esquema los errores se
van acumulando sobre todo al final del horizonte
de predicción
5
Metodología Box and Jenkins
f es lineal
Modelos de series temporales lineales
Modelos más conocidos:
AR(p), MA(q), ARMA(p,q), ARIMA(p,d,q)
AR(p): Modelos Autoregressive de orden p son
modelos en los que el valor de la serie temporal en
el instante t viene determinado por una combinación
lineal de los p valores pasados.
Yˆt = φ1Yt −1 + φ 2Yt − 2 + ... + φ p Yt − p + ε t
6
Metodología Box and Jenkins
MA(q): Modelos Movil Average de orden q son
modelos en los que el valor de la serie temporal en
el instante t viene determinado por el valor del error
en el instante t y una combinación lineal de los q
errores pasados.
ARMA(p,q): Unión de AR(p) y MA(q)
ARIMA(p,d,q): La serie de diferencia d veces y se
transforma en modelo ARMA(p,q)
7
Metodología Box and Jenkins
8
Metodología Box and Jenkins
Transformación mediante diferencias
Serie
estacionaria (media, varianza y covarianza no
varían con el tiempo)
Identificación modelo Uso de función de
autocorrelación y función de autocorrelación parcial
Estimación de parámetros
Mínimos cuadrados
Validación: Estudio del comportamiento de los
errores (deben ser aleatorios)
Predicción
9
Metodología Box and Jenkins
La función de autocorrelación muestra la
correlación entre valores de la misma variable
en diferentes periodos de tiempo
Si la función decae exponencialmente: AR(1)
Si el primer valor es el único distinto de cero:
MA(1)
10
Metodología Box and Jenkins
La función de autocorrelación parcial muestra la
correlación entre valores de la misma variable
en diferentes periodos de tiempo cuando la
correlación entre valores en instantes
intermedios es eliminada Ecuaciones YuleWalker
Si el primer valor es el único distinto de cero: AR(1)
Si la función decae exponencialmente: MA(1)
11
Metodología Box and Jenkins
AR(1)
12
Metodología Box and Jenkins
MA(1)
13
Técnicas regresión lineal: AR
Aplicación a la serie temporal de los precios de
la energía eléctrica del Mercado Eléctrico
Español
PREDICCIÓN
ESTIMACIÓN DE LOS
PRECIOS FUTUROS
OPTIMIZACIÓN
GESTION ÓPTIMA DE
COMPRA/VENTA DE
ENERGÍA
14
cent/kWh
Técnicas regresión lineal: AR
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
Mean
Mean + S.D.
Mean - S.D.
1
3
5
7
9
11 13 15 17 19 21 23
Hours
15
Técnicas regresión lineal: AR
The energy prices for two days of March 2001
16
6
cent/kWh
5
4
Thursday-1st
Friday-30th
3
2
1
0
Hours
16
Técnicas regresión lineal: AR
Estimating the price at hour t from the values of past
prices at hours t-1, t-2, ...
Pˆt =
{i
ai ≠ 0 }?
i≥1
a i Pt − i
A study of
the correlation
17
Correlation Coefficient
Técnicas regresión lineal: AR
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
1
16
31
46
61
76
91
106
Number of past hours
Average correlation coefficient for March-August 2001
18
Técnicas regresión lineal: AR
First Model:
Pˆt = a0Pt−1 +a1Pt−23 +a2Pt−24 +a3Pt−25 +a4Pt−48
Second Model:
Pˆt = a1Pt −23 + a2 Pt −24 + a3 Pt −25 + a4 Pt −48
19
Técnicas regresión lineal: AR
ai are estimated by minimizing
(P
t
t
P̂t
− Pˆt )
2
is defined by one of the two models
At once on a training set
ai
Updated every day
20
Técnicas regresión lineal: AR
Coefficients for both models calculated by least-squares
method on January-February
Model 1
Model 2
a0
0.6760
a1
a2
a3
-0.4815
0.0848
0.5213
0.3369
0.077
0.0416
a4
0.2072
0.5236
21
Técnicas regresión lineal: AR
The presence of the term
Pt−1
has a negative influence
22
Técnicas regresión lineal: AR
Parameters
0.55
a_2
0.5
a_4
0.45
0.4
0.35
0.3
1
16
31
46
61
76
91
106 121
Number of days
The evolution of the parameters when they are calculated every day
23
Técnicas regresión lineal: AR
Coeficientes estáticos
Coeficientes dinámicos
Modelo 2
March-May
Modelo 2
Jun-August
March-May
Jun-August
s.d
0,173
0,209
0,170
0,210
Average absolute errors
0,239
0,288
0,228
0,265
Maximum errors
2,28
2,55
2,11
2,41
Average Relative errors
10,6
8,1
10,1
7,5
24
Técnicas regresión lineal: M5’
Algoritmo de aprendizaje que obtiene un árbol
de regresión WEKA: Classifier trees M5P
Un árbol de regresión es un árbol de decisión en
cuyas hojas se obtienen modelos lineales
Regresión lineal a trozos
atrib1<= 10
| atrib2 <= 5
| | atrib3 <= 2: LM1(23/3%)
| | atrib3 > 2: LM2 (12/2%)
| atrib2 > 5: LM3 (40/1.5%)
atrib1 > 10: LM4 (20/2.3%)
LM1: atrib4 = 2 + 0.2 atrib1 - 0.1atrib2 +
+ 0.4atrib3
25
Técnicas regresión lineal: M5’
Algoritmo M5’
Pasos:
Transformación atributos no numéricos
Tratamiento valores perdidos
Cortes
Poda
Suavizado
26
Técnicas regresión lineal: M5’
Cortes: Maximiza reducción de la desviación
estándar
Ti son los conjuntos resultantes de dividir por el
atributo elegido, T es el conjunto de
entrenamiento y | | es el cardinal de un conjunto
Suavizado: Eliminar discontinuidades
modelos lineales de hojas adyacentes
entre
27
Técnicas regresión lineal: M5’
Aplicación a la demanda de energía eléctrica Dt
Test: Laborables de junio a noviembre de 2001
Con Selección de atributos
53 reglas
Algoritmo CBF (Correlation-Based Feature
Selection) 3 atributos (valor de la serie en las
dos horas anteriores Dt-1 Dt-2 y en la quinta hora
anterior Dt-5)
Sin selección de atributos
151 reglas
28
Técnicas regresión lineal: M5’
Junio-noviembre 2001
Con selección
Sin selección
Mínimo error
diario
7
7
Máximo error
diario
16,5
17,2
Error relativo
medio
11
11,4
29
Ejercicios: Demanda
1) Regresión Lineal
Estudio de cómo la longitud de la base de
datos influye en el error de predicción
2) Árbol de regresión
Experimentación:
3 tipos de validación:
“Cross-validation”
“percentage split”
“supplied test set”
Visualización de errores
30
Referencias
[1] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and
Techniques Morgan Kaufmann, June 2005.
[2] G. Box, G. M. Jenkins, G. Reinsel. Analysis Time Series: Forecasting and Control.
John Wiley and Sons, 2008.
[3] Alicia Troncoso Lora et al. A Comparison of Two Techniques for Next-Day Electricity
Price Forecasting. Lecture Notes in Computer Science, Vol. 2412, pp. 384-390, 2002.
[4] Alicia Troncoso Lora et al. Predicción de Series Temporales: Aplicación a la
Demanda de Energía Eléctrica en el Corto. CAEPIA Conferencia de la Asociación
Española para la Inteligencia Artificial, 2003
[5] Alicia Troncoso Lora et al. Influence of kNN-Based Load Forecasting Errors on
Optimal Energy Production. Lecture Notes in Artificial Intelligence, Vol. 2902, pp. 187203, 2003
[6] Alicia Troncoso Lora et al. Time-Series Prediction: Application to the Short-Term
Electric Energy Demand. Lecture Notes in Artificial Intelligence, Vol. 3040, pp. 577586, 2004
31
Descargar