Predicción Lineal Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Contenido Introducción Esquema de predicción iterada Modelos de series temporales: Box & Jenkins Técnicas lineales de predicción AR M5’ Aplicaciones Referencias 2 Introducción (I) 3 Introducción (II) Predecir los n siguientes valores de una serie temporal Yt Yt+1,…,Yt+n n es el horizonte de predicción Encontrar función f: Rm----->R tal que t = f(Yt-1,…,Yt-m) + errort m es el número de valores pasados que se usan en la predicción 4 Esquema de predicción iterada Yt-(m-1) ,…,Yt-2,Yt-1,Yt Yt-(m-2) ,…,Yt-1,Yt, Yt-(m-3) ,…,Yt, t+1, t+1 t+1 t+2 t+2 t+3 Desventaja: Con este esquema los errores se van acumulando sobre todo al final del horizonte de predicción 5 Metodología Box and Jenkins f es lineal Modelos de series temporales lineales Modelos más conocidos: AR(p), MA(q), ARMA(p,q), ARIMA(p,d,q) AR(p): Modelos Autoregressive de orden p son modelos en los que el valor de la serie temporal en el instante t viene determinado por una combinación lineal de los p valores pasados. Yˆt = φ1Yt −1 + φ 2Yt − 2 + ... + φ p Yt − p + ε t 6 Metodología Box and Jenkins MA(q): Modelos Movil Average de orden q son modelos en los que el valor de la serie temporal en el instante t viene determinado por el valor del error en el instante t y una combinación lineal de los q errores pasados. ARMA(p,q): Unión de AR(p) y MA(q) ARIMA(p,d,q): La serie de diferencia d veces y se transforma en modelo ARMA(p,q) 7 Metodología Box and Jenkins 8 Metodología Box and Jenkins Transformación mediante diferencias Serie estacionaria (media, varianza y covarianza no varían con el tiempo) Identificación modelo Uso de función de autocorrelación y función de autocorrelación parcial Estimación de parámetros Mínimos cuadrados Validación: Estudio del comportamiento de los errores (deben ser aleatorios) Predicción 9 Metodología Box and Jenkins La función de autocorrelación muestra la correlación entre valores de la misma variable en diferentes periodos de tiempo Si la función decae exponencialmente: AR(1) Si el primer valor es el único distinto de cero: MA(1) 10 Metodología Box and Jenkins La función de autocorrelación parcial muestra la correlación entre valores de la misma variable en diferentes periodos de tiempo cuando la correlación entre valores en instantes intermedios es eliminada Ecuaciones YuleWalker Si el primer valor es el único distinto de cero: AR(1) Si la función decae exponencialmente: MA(1) 11 Metodología Box and Jenkins AR(1) 12 Metodología Box and Jenkins MA(1) 13 Técnicas regresión lineal: AR Aplicación a la serie temporal de los precios de la energía eléctrica del Mercado Eléctrico Español PREDICCIÓN ESTIMACIÓN DE LOS PRECIOS FUTUROS OPTIMIZACIÓN GESTION ÓPTIMA DE COMPRA/VENTA DE ENERGÍA 14 cent/kWh Técnicas regresión lineal: AR 4.5 4 3.5 3 2.5 2 1.5 1 0.5 0 Mean Mean + S.D. Mean - S.D. 1 3 5 7 9 11 13 15 17 19 21 23 Hours 15 Técnicas regresión lineal: AR The energy prices for two days of March 2001 16 6 cent/kWh 5 4 Thursday-1st Friday-30th 3 2 1 0 Hours 16 Técnicas regresión lineal: AR Estimating the price at hour t from the values of past prices at hours t-1, t-2, ... Pˆt = {i ai ≠ 0 }? i≥1 a i Pt − i A study of the correlation 17 Correlation Coefficient Técnicas regresión lineal: AR 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 16 31 46 61 76 91 106 Number of past hours Average correlation coefficient for March-August 2001 18 Técnicas regresión lineal: AR First Model: Pˆt = a0Pt−1 +a1Pt−23 +a2Pt−24 +a3Pt−25 +a4Pt−48 Second Model: Pˆt = a1Pt −23 + a2 Pt −24 + a3 Pt −25 + a4 Pt −48 19 Técnicas regresión lineal: AR ai are estimated by minimizing (P t t P̂t − Pˆt ) 2 is defined by one of the two models At once on a training set ai Updated every day 20 Técnicas regresión lineal: AR Coefficients for both models calculated by least-squares method on January-February Model 1 Model 2 a0 0.6760 a1 a2 a3 -0.4815 0.0848 0.5213 0.3369 0.077 0.0416 a4 0.2072 0.5236 21 Técnicas regresión lineal: AR The presence of the term Pt−1 has a negative influence 22 Técnicas regresión lineal: AR Parameters 0.55 a_2 0.5 a_4 0.45 0.4 0.35 0.3 1 16 31 46 61 76 91 106 121 Number of days The evolution of the parameters when they are calculated every day 23 Técnicas regresión lineal: AR Coeficientes estáticos Coeficientes dinámicos Modelo 2 March-May Modelo 2 Jun-August March-May Jun-August s.d 0,173 0,209 0,170 0,210 Average absolute errors 0,239 0,288 0,228 0,265 Maximum errors 2,28 2,55 2,11 2,41 Average Relative errors 10,6 8,1 10,1 7,5 24 Técnicas regresión lineal: M5’ Algoritmo de aprendizaje que obtiene un árbol de regresión WEKA: Classifier trees M5P Un árbol de regresión es un árbol de decisión en cuyas hojas se obtienen modelos lineales Regresión lineal a trozos atrib1<= 10 | atrib2 <= 5 | | atrib3 <= 2: LM1(23/3%) | | atrib3 > 2: LM2 (12/2%) | atrib2 > 5: LM3 (40/1.5%) atrib1 > 10: LM4 (20/2.3%) LM1: atrib4 = 2 + 0.2 atrib1 - 0.1atrib2 + + 0.4atrib3 25 Técnicas regresión lineal: M5’ Algoritmo M5’ Pasos: Transformación atributos no numéricos Tratamiento valores perdidos Cortes Poda Suavizado 26 Técnicas regresión lineal: M5’ Cortes: Maximiza reducción de la desviación estándar Ti son los conjuntos resultantes de dividir por el atributo elegido, T es el conjunto de entrenamiento y | | es el cardinal de un conjunto Suavizado: Eliminar discontinuidades modelos lineales de hojas adyacentes entre 27 Técnicas regresión lineal: M5’ Aplicación a la demanda de energía eléctrica Dt Test: Laborables de junio a noviembre de 2001 Con Selección de atributos 53 reglas Algoritmo CBF (Correlation-Based Feature Selection) 3 atributos (valor de la serie en las dos horas anteriores Dt-1 Dt-2 y en la quinta hora anterior Dt-5) Sin selección de atributos 151 reglas 28 Técnicas regresión lineal: M5’ Junio-noviembre 2001 Con selección Sin selección Mínimo error diario 7 7 Máximo error diario 16,5 17,2 Error relativo medio 11 11,4 29 Ejercicios: Demanda 1) Regresión Lineal Estudio de cómo la longitud de la base de datos influye en el error de predicción 2) Árbol de regresión Experimentación: 3 tipos de validación: “Cross-validation” “percentage split” “supplied test set” Visualización de errores 30 Referencias [1] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques Morgan Kaufmann, June 2005. [2] G. Box, G. M. Jenkins, G. Reinsel. Analysis Time Series: Forecasting and Control. John Wiley and Sons, 2008. [3] Alicia Troncoso Lora et al. A Comparison of Two Techniques for Next-Day Electricity Price Forecasting. Lecture Notes in Computer Science, Vol. 2412, pp. 384-390, 2002. [4] Alicia Troncoso Lora et al. Predicción de Series Temporales: Aplicación a la Demanda de Energía Eléctrica en el Corto. CAEPIA Conferencia de la Asociación Española para la Inteligencia Artificial, 2003 [5] Alicia Troncoso Lora et al. Influence of kNN-Based Load Forecasting Errors on Optimal Energy Production. Lecture Notes in Artificial Intelligence, Vol. 2902, pp. 187203, 2003 [6] Alicia Troncoso Lora et al. Time-Series Prediction: Application to the Short-Term Electric Energy Demand. Lecture Notes in Artificial Intelligence, Vol. 3040, pp. 577586, 2004 31