Capı́tulo 2 Modelos matemáticos para la predicción de series temporales 2.1. Modelo de regresión lineal Cuando se habla de predicción, el objetivo es determinar una variable de salida y a partir de la información de un conjunto de variables de entrada x. En el contexto de las series temporales, el conjunto de variables de entrada puede incluir retrasos tanto de x, como de la variable de salida y. En cuanto a los modelos predictivos, normalmente se suele empezar con el modelos de regresión lineal, dado por la siguiente ecuación: yt = X βk xk,t + t t ∼ N (0, σ 2 ) (2.1) (2.2) donde la variable t es un término de perturbación aleatoria, normalmente caracterizado por una distribución normal de media cero y varianza constante σ 2 , y {βk } representa los parámetros a estimar. Denotaremos {βˆk } al conjunto de parámetros estimados e {ŷt } al conjunto de predicciones de y generadas por el modelo a partir de los coeficientes {βˆk } . El objetivo es seleccionar aquellos {βˆk } que minimicen la suma de los cuadrados de las diferencias entre las observaciones actuales y y los valores predichos por el modelo lineal, ŷ. En series temporales suele usarse el subı́ndice t para las variables de entrada y salida denotando el instante concreto de observación, siendo el instante inicial t = 1. Existen numerosos métodos para estimar el conjunto de parámetros {βk }, bajo una variedad de hipótesis acerca de la distribución del término de perturbación, t , acerca de la constancia de su varianza, σ 2 , ası́ como acerca de la independencia de la distribución de las variables de entrada xk con respecto del término de perturbación t . La meta del proceso de estimación es encontrar el conjunto de parámetros del modelo de regresión, {βˆk }, que minimice la suma de los cuadrados de las diferencias (también denominados residuos), en adelante Ψ, entre la variable de salida objetivo y y la variable 5 Sección 2.2 2. Modelos matemáticos para la predicción de series temporales de salida generada por el modelo ŷ, a lo largo del conjunto de observaciones. El problema de la estimación puede ser descrito del siguiente modo: M inΨ = T X ˆ2t = t=1 T X (yt − ŷt )2 (2.3) t=1 s.a yt = X βk xk,t + t (2.4) ŷt = X β̂k xk,t (2.5) t ∼ N (0, σ 2 ) (2.6) Un modelo comúnmente utilizado en predicción es el modelo autorregresivo: ∗ yt = k X i=1 βi yt−i + k X γj xj,t + t (2.7) j=1 en el cual existen k variables x independientes, con coeficientes γj para cada xj , y k * retrasos para la variable independiente y, con, obviamente k + k * parámetros, {β} y {γ}, a estimar. Con esto, a mayor longitud de la estructura de retrasos, tendremos un mayor número de parámetros a estimar y, consecuentemente, menos grados de libertad. El número de variables de salida puede ser mayor que uno. No obstante, en el modelo lineal de referencia se suele utilizar un conjunto de J * modelos lineales independientes para predecir cada una de las variables de salida yj , j = 1, ..., j *. Para un total de j * variables de salida tendrán que estimarse (J* · K) parámetros. El modelo lineal presenta la útil propiedad de tener una solución en forma cerrada a la hora de resolver el problema de estimación, en el que se minimiza la suma de los cuadrados de los errores entre y e ŷ. Este método es conocido como regresión lineal y tiene la ventaja de de ser muy rápido en términos computacionales. En el ámbito de las series temporales económicas, cuando se realizan predicciones a corto plazo, el modelo lineal es un punto de partida razonable, o una buena referencia, no ası́ en las predicciones a largo plazo, donde los cambios en la variable a predecir raramente presentan un comportamiento simétrico. En cualquier caso, este método puede no resultar especialmente preciso para mercados financieros volátiles, donde a menudo se presentan no linealidades en los datos. Movimientos lentos ascendentes en los precios de los activos seguidos de repentinos colapsos, conocidos como burbujas, son también habituales, con lo cual, el modelo lineal puede fallar a la hora de capturar cambios en la dirección de los datos. Por este motivo, en adelante abordaremos técnicas de predicción no lineales. 2.2. Modelos no lineales GARCH Existen en la práctica muchos modelos no lineales que pueden usarse como alternativa al modelo lineal descrito con anterioridad. Un ejemplo muy común de esta aproximación 6 2. Modelos matemáticos para la predicción de series temporales Sección 2.2 es el modelo GARCH-En-Media o GARCH-M, en el cual, la varianza del término de perturbación afecta directamente a la media de la variable dependiente, o variable de salida, y evoluciona en el tiempo como una función de sus valores pasados y de los valores pasados del error cuadrático de predicción. Por este motivo, esta varianza dependiente del tiempo se denomina varianza condicional. Las siguientes ecuaciones describen el modelo paramétrico GARCH-M tı́pico: 2 σt2 = δ0 + δ1 σt−1 + δ2 2 t − 1 (2.8) t ≈ φ(0, σt2 ) (2.9) yt = α + βσt + t (2.10) donde y es la tasa de retorno de un determinado activo, α es el valor esperado de la variable de salida, y t es un término de perturbación con función de distribución normal de media cero y varianza condicional σt2 , dado por φ(0, σt2 ). El parámetro β representa el efecto de la prima de riesgo en el retorno del activo, mientras que los parámetros δ0 , δ1 , y δ2 definen la evolución de la varianza condicional. La prima de riesgo refleja el hecho de que los inversores a menudo requieren mayores retornos a la hora de asumir mayores riesgos en el mercado. Por ello se asume β > 0. El modelo GARCH-M es un sistema estocástico recursivo, dadas las condiciones iniciales σ02 y 20 , ası́ como las estimaciones de α, β, δ0 , δ1 y δ2 . Dada una varianza condicional, la componente aleatoria se obtiene a partir de la distribución normal y el retorno del activo queda completamente determinado en función de su propia media, de la componente aleatoria y del efecto de la prima de riesgo, éste último dado por βt . Dado que la distribución de la componente aleatoria es normal, podemos utilizar la estimación por máxima verosimilitud para abordar la estimación de α, β, δ0 , δ1 , y δ2 . La función de probabilidad L es la función de probabilidad conjunta de ŷt = yt , para t = 1, . . . , T. Para los modelos GARCH-M, la función de probabilidad toma la siguiente forma: T Y s 1 (yt − ŷt )2 exp − 2πσ̂t2 2σt2 (2.11) ŷ = α̂ + β̂ σ̂t (2.12) ˆt = yt − ŷt (2.13) 2 σ̂t2 = δ̂0 + δ̂1 σ̂t−1 + δ̂2 ˆ2t−1 (2.14) Lt = t=1 donde los sı́mbolos α̂, β̂, δˆ0 , δˆ1 , y δˆ2 son estimaciones de los parámetros subyacentes Q Q2 en el modelo, y es el operador multiplicación, i=1 xi = x1 · x2 . El método habitual para obtener las estimaciones de los parámetros maximiza la suma del logaritmo de de la función de probabilidad, o función de log-probabilidad, a lo largo de la muestra completa T, desde t = 1 hasta t = T, con respecto a la elección de las estimaciones de 7 Sección 2.3 2. Modelos matemáticos para la predicción de series temporales los coeficientes, sujeto a la restricción de varianza mayor que cero, dadas las condiciones iniciales σ̂02 y ˆ2t−1 : M ax T X t=1 ln(Lt ) = T X t=1 (yt − ŷt )2 −,5ln(2π) − ,5ln(σ̂t ) − ,5 σ̂t2 s.a : σ̂t2 > 0, t = 1, 2..., T (2.15) (2.16) El atractivo de la aproximación GARCH-M es su capacidad para modelar la fuente de no linealidad del proceso. La varianza condicional es una transformación no lineal tanto de sus valores pasados como de los valores pasados del error de predicción. El hecho de utilizar una varianza condicional de cuyo valor dependa la variable dependiente, representa el conocido factor de riesgo que eleva la tasa de retorno requerida a la hora de predecir las dinámicas de los precios de los activos. Una de las grandes ventajas del modelo es su capacidad para capturar un fenómeno bien conocido en series temporales económicas, esto es, que tras periodos de alta volatilidad sigue una alta volatilidad y viceversa. Por otra parte, entre los inconvenientes del método GARCH-M se observa que la minimización de las funciones log-probabilı́sticas es, a menudo, bastante difı́cil de alcanzar, siendo ademas un modelo bastante restrictivo: nos vemos limitados por un conjunto de parámetros bien definidos, una distribución bien definida, una función no lineal especı́fica y un método de estimación que no siempre converge a estimaciones razonables de sus parámetros. Con modelos no lineales especı́ficos, se pierde flexibilidad a la hora de capturar procesos no lineales alternativos. 2.3. Aproximación polinómica Mediante redes neuronales y otros métodos de aproximación, se pretende aproximar un proceso no lineal desconocido a través de modelos semi-paramétricos menos restrictivos. Con un polinomio o una red neuronal, la forma de las funciones no lineales utilizadas es fija pero no ası́ el grado del polinomio o el número de neuronas. Con ello los parámetros, ni están limitados en número, ni tienen una interpretación directa, como la tienen los parámetros del modelo GARCH-M. Por este motivo, en la literatura se suele denominar a este conjunto de modelos como semiparamétricos. Mientras que GARCH y GARCH-M son modelos populares en econometrı́a financiera no lineal, una red neuronal sencilla bien puede aproximar una serie temporal generada por un modelo GARCH-M calibrado [1]. El método de aproximación más comúnmente utilizado es el método de expansión polinómica. Del Teorema de Wierstrass, una expansión polinómica alrededor de un conjunto de entradas x con potencia progresivamente creciente puede aproximar hasta un determinado nivel de precisión cualquier función continua desconocida y = g(x). Si consideramos, por ejemplo, una aproximación polinómica de segundo grado de tres variables, 8 2. Modelos matemáticos para la predicción de series temporales Sección 2.3 [x1t , x2t , x3t ], donde g es una función continua desconocida de argumentos x1 , x2 , x3 , la fórmula de aproximación es: yt = β0 +β1 x1t +β2 x2t +β3 x3t +β4 x21t +β5 x22t +β6 x23t +β7 x1t x2t +β8 x2t x3t +β9 x1t x3t (2.17) Nótese que la aproximación del polinomio de segundo grado con tres argumentos, o dimensiones, tiene tres términos cruzados, con coeficientes dados por {β7 , β8 , β9 }, y requiere diez parámetros. Para un modelo de varios argumentos, el número de parámetros crece exponencialmente con el grado de la expansión polinómica. Este fenómeno es conocido como la regla dimensional de la aproximación no lineal. El precio a pagar por una mayor precisión es un mayor número de parámetros a estimar, y por tanto, un menor número de grados de libertad en la estimación estadı́stica subyacente. 2.3.1. Polinomios ortogonales Judd(1998) [2] aborda una amplia gama de aproximadores polinómicos, denominados polinomios ortogonales. A diferencia del polinomio tı́pico basado en potencias crecientes de la variable x, esta clase de polinomios se basan en funciones seno, coseno, o alternativamente, en transformaciones exponenciales de la variable x, habiéndose demostrado una mayor eficiencia en éstos últimos que en los polinomios de potencias. Antes de hacer uso de estos polinomios ortogonales, se deben transformar todas las variables [y, x] al intervalo [-1, 1]. Dada una variable x, dicha transformación a la variable x * viene dada por la siguiente expresión: x∗ = 2x min(x) + max(x) − max(x) − min(x) max(x) − min(x) (2.18) La formulación exacta de éstos polinomios ortogonales es complicada [ver Judd (1998), p 204, Tabla 6.3]. En cualquier caso, estos aproximadores polinómicos pueden ser representados con mayor sencillez en modo recursivo. La expansión polinómica de Tchebeycheff T(x*) para una variable x* viene dada por el siguiente sistema recursivo: T0 (x∗ ) = 1 T1 (x∗ ) = x∗ Ti+1 (x∗ ) = 2x∗ Ti (x∗ ) − Ti−1 (x∗ ) (2.19) La expansión de Hermite H(x*) viene dada por las siguentes ecuaciones: H0 (x∗ ) = 1 H1 (x∗ ) = 2x∗ Hi+1 (x∗ ) = 2x∗ Hi (x∗ ) − 2iHi−1 (x∗ ) (2.20) 9 Sección 2.3 2. Modelos matemáticos para la predicción de series temporales La expansión de Legendre L(x*) se expresa como sigue: L0 (x∗ ) = 1 L1 (x∗ ) = 1 − x∗ ∗ Li+1 (x ) = 2i + 1 i+1 Li (x∗ ) − i Li−1 (x∗ ) i+1 (2.21) La expansión de Laguerre LG(x*) tiene la siguente forma: LG0 (x∗ ) = 1 LG1 (x∗ ) = 1 − x∗ ∗ LGi+1 (x ) = 2i + 1 − x∗ i+1 LGi (x∗ ) − i LGi−1 (x∗ ) i+1 (2.22) Una vez obtenidas las expansiones polinómicas para una variable x* dada, simplemente se aproxima y* mediante regresión lineal. Para dos variables [x1t , x2t ] con expansión P1 y P2 respectivamente, la aproximación viene dada por la siguiente expresión: ∗ y = P X 1i=1 P X 2j=1 βij Ti (x ∗1t Tj (x2t (2.23) Para deshacer la transformación de la variable y* y devolverla al intervalo [min(y), max(y)], puede usarse la siguiente expresión: y= (y ∗ + 1)[max(y) − min(y)] + min(y) 2 (2.24) Las redes neuronales son una alternativa al modelo paramétrico lineal, al modelo GARCH-M y a las aproximaciones semi-paramétricas polinomiales a la hora de aproximar un sistema no lineal. El motivo por el cual se aborda el problema desde el punto de vista de las redes neuronales es simple y directo. El objetivo es encontrar un método o aproximación que prediga de un modo adecuado datos generados por procesos a menudo desconocidos y altamente no lineales, con tan pocos parámetros como sea posible, y que sea más fácil de estimar que los modelos paramétricos no lineales. Seguidamente se mostrará cómo las redes neuronales permiten lograr estos objetivos de un modo más eficiciente -en términos de precisión y de computación- que la aproximación lineal. Las redes neuronales son tan precisas como las aproximaciones polinómicas con un menor número de parámetros. Además, son mucho menos restrictivas que los modelos GARCH-M. 10 2. Modelos matemáticos para la predicción de series temporales Solución Forma Cerrada Sı́ No Paramétrico Lineal Garch-M Sección 2.4 Semiparamétrico Polinómica Red Neuronal Cuadro 2.1: Tipologı́a de los modelos 2.4. Tipologı́a de los modelos Con el objeto de situar el modelo de redes neuronales entre los diferentes tipos de modelos predictivos, podemos diferenciar entre modelos paramétricos y modelos semiparamétricos, y entre modelos que presenten o no soluciones en forma cerrada. Dicha tipologı́a se muestra en la tabla 2.1. Tanto los modelos lineales como los polinomiales poseen soluciones en forma cerrada para la estimación de los coeficientes de regresión. Por ejemplo, en el modelo lineal y = xβ, escrito en forma matricial, el estimador tı́pico de mı́nimos cuadrados viene dado por β̂ = (x0 x)−1 x0 y. El vector de coeficientes β̂ es simplemente una función lineal de las variables [y, x]. No existen problemas de convergencia o múltiples soluciones: una vez que conocemos el conjunto de variables [y, x], conocemos la estimación del vector de coeficientes, β̂. Para un modelo polinómico, en el que la variable dependiente y es una función de potencias superiores de los regresores x, el vector de coeficientes se calcula del mismo modo. Simplemente se redefinen los regresores en términos de una matriz z, que representa las expansiones polinómicas de los regresores x, y mediante el método de los mı́nimos cuadrados se calcula el vector de coeficientes de los polinomios, es decir, β̂ = (z 0 z)−1 z 0 y. Tanto GARCH-M como las redes neuronales son ejemplos de modelos que no poseen soluciones en forma cerrada para sus respectivos vectores de coeficientes. Se observa, además, cómo los modelos lineales y las redes neuronales son modelos diametralmente opuestos en su concepción. El modelo lineal puede ser una solución imprecisa en el mundo real, pero proporciona soluciones exactas, en poco tiempo y de una forma sencilla. Por su parte las redes neuronales pueden suponer una aproximación más precisa a la hora de capturar comportamientos no lineales, pero no poseen soluciones exactas o fáciles de obtener. Sin una solución en forma cerrada, las soluciones deben ser aproximadas. De hecho, como señalan Michalewicz y Fogel (2002) [3], esta polaridad refleja las dificultades a la hora de resolver problemas matemáticos en general. En muchas ocasiones es difı́cil obtener buenas soluciones para problemas importantes, bien porque debemos utilizar un modelo impreciso (como el modelo lineal), que proporciona una solución exacta, o bien porque debemos usar una solución aproximada por medio de un modelo más preciso o complejo. [Michalewicz and Fogel (2002), p. 19]. 11 Sección 2.5 2. Modelos matemáticos para la predicción de series temporales Figura 2.1: Perceptron de tres capas con una capa oculta 2.5. Redes neuronales Al igual que el método de aproximación lineal y el polinómico, una red neuronal relaciona un conjunto de variables de entrada {xi }, i = 1, ..., k, con un conjunto de una o más variables de salida {yj }, j = 1, ..., k*. La diferencia entre las redes neuronales y los otros métodos de aproximación es que la red neuronal hace uso de una o más capas ocultas, en las cuales las variables de entrada son transformadas por una función especial, conocida como función de activación. Esta aproximación por medio de capas ocultas ha demostrado ser un medio muy eficiente a la hora de modelar procesos estadı́sticos no lineales. 2.5.1. Redes de alimentación hacia adelante La figura 2.1 ilustra la arquitectura de una red neuronal con una capa oculta que contiene C neuronas, n1 variables de entrada {xi }, i = 1, 2,..., n1 , y una salida y. Se observa un procesamiento paralelo de la información. Además del procesamiento secuencial de los sistemas lineales tı́picos, en el cual solo se utilizan observaciones de las entradas para predecir la salida por medio de los pesos de las neuronas de entrada, las dos neuronas de la capa oculta procesan a su vez las entradas para mejorar las predicciones. Las conexiones entre las variables de entrada, a menudo denominadas neuronas de entrada, y las neuronas de la capa oculta, ası́ como las conexiones entre las neuronas 12 2. Modelos matemáticos para la predicción de series temporales Sección 2.5 de la capa oculta y la variable de salida, o neurona de salida, se denominan sinapsis. Por suerte, gran parte de los problemas habituales en predicción no involucran un gran número de neuronas en el proceso paralelo. Esta red neuronal de capa simple con alimentación hacia adelante, o Perceptron multicapa con una capa oculta, constituirá el modelo predictivo utilizado en la herrmienta desarrollada en este proyecto, tanto para la evluación del algoritmo de eliminación progresiva de entradas basada en importancia relativa -ver sección 6.4.2- como para la generación de predicciones -ver sección 6.4.3. La arquitectura y funcionamiento del Perceptrón multicapa serán descritas en detalle en el capı́tulo 3. De un modo general, la red representa la manera en que el cerebro humano procesa la información sensorial, recibida por medio de las neuronas de entrada, y la convierte en conocimiento, representado por medio de la neurona de salida. A medida que el cerebro evoluciona, más y más neuronas se interconectan por medio de sinapsis, y las señales de las diferentes neuronas, trabajando en paralelo, cada vez en más y más capas ocultas, se combinan para producir reacciones y percepciones cada vez más matizadas. Por supuesto, los datos sensoriales de entrada sencillos, tales como la percepción de frı́o o calor no necesitan ser procesados por muchas neuronas o en muchas capas ocultas para producir la percepción correspondiente. Pero a medida que las experiencias subyacentes en los datos sensoriales de entrada se vuelven más complejas o diversas, más capas ocultas son activadas. La percepción y la decisión son el resultado de la combinación de señales procedentes de muchas neuronas, quizás pertenecientes a muchas capas ocultas. En el capı́tulo 3 se expondrán las principales caracterı́sticas de la arquitectura y el funcionamiento de las redes neuronales de varias capas con conexiones hacia adelante, o Percetrones multicapa. Por motivos de dimensionalidad, quedan fuera del alcance de este proyecto el análisis de otros tipos de redes neuronales, como son las redes neuronales de base radial, las redes de Ridgelet o las redes con conexiones en salto. 13