Modelos matemáticos para la predicción de series temporales

Anuncio
Capı́tulo 2
Modelos matemáticos para la
predicción de series temporales
2.1.
Modelo de regresión lineal
Cuando se habla de predicción, el objetivo es determinar una variable de salida y a
partir de la información de un conjunto de variables de entrada x. En el contexto de las
series temporales, el conjunto de variables de entrada puede incluir retrasos tanto de x,
como de la variable de salida y. En cuanto a los modelos predictivos, normalmente se
suele empezar con el modelos de regresión lineal, dado por la siguiente ecuación:
yt =
X
βk xk,t + t
t ∼ N (0, σ 2 )
(2.1)
(2.2)
donde la variable t es un término de perturbación aleatoria, normalmente caracterizado por una distribución normal de media cero y varianza constante σ 2 , y {βk }
representa los parámetros a estimar. Denotaremos {βˆk } al conjunto de parámetros estimados e {ŷt } al conjunto de predicciones de y generadas por el modelo a partir de los
coeficientes {βˆk } . El objetivo es seleccionar aquellos {βˆk } que minimicen la suma de los
cuadrados de las diferencias entre las observaciones actuales y y los valores predichos
por el modelo lineal, ŷ.
En series temporales suele usarse el subı́ndice t para las variables de entrada y salida
denotando el instante concreto de observación, siendo el instante inicial t = 1. Existen
numerosos métodos para estimar el conjunto de parámetros {βk }, bajo una variedad de
hipótesis acerca de la distribución del término de perturbación, t , acerca de la constancia
de su varianza, σ 2 , ası́ como acerca de la independencia de la distribución de las variables
de entrada xk con respecto del término de perturbación t .
La meta del proceso de estimación es encontrar el conjunto de parámetros del modelo
de regresión, {βˆk }, que minimice la suma de los cuadrados de las diferencias (también
denominados residuos), en adelante Ψ, entre la variable de salida objetivo y y la variable
5
Sección 2.2
2. Modelos matemáticos para la predicción de series temporales
de salida generada por el modelo ŷ, a lo largo del conjunto de observaciones. El problema
de la estimación puede ser descrito del siguiente modo:
M inΨ =
T
X
ˆ2t =
t=1
T
X
(yt − ŷt )2
(2.3)
t=1
s.a yt =
X
βk xk,t + t
(2.4)
ŷt =
X
β̂k xk,t
(2.5)
t ∼ N (0, σ 2 )
(2.6)
Un modelo comúnmente utilizado en predicción es el modelo autorregresivo:
∗
yt =
k
X
i=1
βi yt−i +
k
X
γj xj,t + t
(2.7)
j=1
en el cual existen k variables x independientes, con coeficientes γj para cada xj , y k *
retrasos para la variable independiente y, con, obviamente k + k * parámetros, {β} y
{γ}, a estimar. Con esto, a mayor longitud de la estructura de retrasos, tendremos un
mayor número de parámetros a estimar y, consecuentemente, menos grados de libertad.
El número de variables de salida puede ser mayor que uno. No obstante, en el modelo
lineal de referencia se suele utilizar un conjunto de J * modelos lineales independientes
para predecir cada una de las variables de salida yj , j = 1, ..., j *. Para un total de j *
variables de salida tendrán que estimarse (J* · K) parámetros.
El modelo lineal presenta la útil propiedad de tener una solución en forma cerrada
a la hora de resolver el problema de estimación, en el que se minimiza la suma de los
cuadrados de los errores entre y e ŷ. Este método es conocido como regresión lineal y
tiene la ventaja de de ser muy rápido en términos computacionales. En el ámbito de las
series temporales económicas, cuando se realizan predicciones a corto plazo, el modelo
lineal es un punto de partida razonable, o una buena referencia, no ası́ en las predicciones
a largo plazo, donde los cambios en la variable a predecir raramente presentan un comportamiento simétrico. En cualquier caso, este método puede no resultar especialmente
preciso para mercados financieros volátiles, donde a menudo se presentan no linealidades
en los datos. Movimientos lentos ascendentes en los precios de los activos seguidos de
repentinos colapsos, conocidos como burbujas, son también habituales, con lo cual, el
modelo lineal puede fallar a la hora de capturar cambios en la dirección de los datos.
Por este motivo, en adelante abordaremos técnicas de predicción no lineales.
2.2.
Modelos no lineales GARCH
Existen en la práctica muchos modelos no lineales que pueden usarse como alternativa
al modelo lineal descrito con anterioridad. Un ejemplo muy común de esta aproximación
6
2. Modelos matemáticos para la predicción de series temporales
Sección 2.2
es el modelo GARCH-En-Media o GARCH-M, en el cual, la varianza del término de
perturbación afecta directamente a la media de la variable dependiente, o variable de
salida, y evoluciona en el tiempo como una función de sus valores pasados y de los valores
pasados del error cuadrático de predicción. Por este motivo, esta varianza dependiente del
tiempo se denomina varianza condicional. Las siguientes ecuaciones describen el modelo
paramétrico GARCH-M tı́pico:
2
σt2 = δ0 + δ1 σt−1
+ δ2 2 t − 1
(2.8)
t ≈ φ(0, σt2 )
(2.9)
yt = α + βσt + t
(2.10)
donde y es la tasa de retorno de un determinado activo, α es el valor esperado de la
variable de salida, y t es un término de perturbación con función de distribución normal
de media cero y varianza condicional σt2 , dado por φ(0, σt2 ). El parámetro β representa el
efecto de la prima de riesgo en el retorno del activo, mientras que los parámetros δ0 , δ1 ,
y δ2 definen la evolución de la varianza condicional. La prima de riesgo refleja el hecho
de que los inversores a menudo requieren mayores retornos a la hora de asumir mayores
riesgos en el mercado. Por ello se asume β > 0.
El modelo GARCH-M es un sistema estocástico recursivo, dadas las condiciones iniciales σ02 y 20 , ası́ como las estimaciones de α, β, δ0 , δ1 y δ2 . Dada una varianza condicional,
la componente aleatoria se obtiene a partir de la distribución normal y el retorno del activo queda completamente determinado en función de su propia media, de la componente
aleatoria y del efecto de la prima de riesgo, éste último dado por βt .
Dado que la distribución de la componente aleatoria es normal, podemos utilizar la
estimación por máxima verosimilitud para abordar la estimación de α, β, δ0 , δ1 , y δ2 . La
función de probabilidad L es la función de probabilidad conjunta de ŷt = yt , para t = 1,
. . . , T. Para los modelos GARCH-M, la función de probabilidad toma la siguiente forma:
T
Y
s
1
(yt − ŷt )2
exp −
2πσ̂t2
2σt2
(2.11)
ŷ = α̂ + β̂ σ̂t
(2.12)
ˆt = yt − ŷt
(2.13)
2
σ̂t2 = δ̂0 + δ̂1 σ̂t−1
+ δ̂2 ˆ2t−1
(2.14)
Lt =
t=1
donde los sı́mbolos
α̂, β̂, δˆ0 , δˆ1 , y δˆ2 son estimaciones
de los parámetros subyacentes
Q
Q2
en el modelo, y
es el operador multiplicación, i=1 xi = x1 · x2 . El método habitual
para obtener las estimaciones de los parámetros maximiza la suma del logaritmo de
de la función de probabilidad, o función de log-probabilidad, a lo largo de la muestra
completa T, desde t = 1 hasta t = T, con respecto a la elección de las estimaciones de
7
Sección 2.3
2. Modelos matemáticos para la predicción de series temporales
los coeficientes, sujeto a la restricción de varianza mayor que cero, dadas las condiciones
iniciales σ̂02 y ˆ2t−1 :
M ax
T
X
t=1
ln(Lt ) =
T X
t=1
(yt − ŷt )2
−,5ln(2π) − ,5ln(σ̂t ) − ,5
σ̂t2
s.a : σ̂t2 > 0, t = 1, 2..., T
(2.15)
(2.16)
El atractivo de la aproximación GARCH-M es su capacidad para modelar la fuente de
no linealidad del proceso. La varianza condicional es una transformación no lineal tanto
de sus valores pasados como de los valores pasados del error de predicción. El hecho
de utilizar una varianza condicional de cuyo valor dependa la variable dependiente,
representa el conocido factor de riesgo que eleva la tasa de retorno requerida a la hora
de predecir las dinámicas de los precios de los activos. Una de las grandes ventajas del
modelo es su capacidad para capturar un fenómeno bien conocido en series temporales
económicas, esto es, que tras periodos de alta volatilidad sigue una alta volatilidad y
viceversa.
Por otra parte, entre los inconvenientes del método GARCH-M se observa que la minimización de las funciones log-probabilı́sticas es, a menudo, bastante difı́cil de alcanzar,
siendo ademas un modelo bastante restrictivo: nos vemos limitados por un conjunto de
parámetros bien definidos, una distribución bien definida, una función no lineal especı́fica y un método de estimación que no siempre converge a estimaciones razonables de
sus parámetros. Con modelos no lineales especı́ficos, se pierde flexibilidad a la hora de
capturar procesos no lineales alternativos.
2.3.
Aproximación polinómica
Mediante redes neuronales y otros métodos de aproximación, se pretende aproximar
un proceso no lineal desconocido a través de modelos semi-paramétricos menos restrictivos. Con un polinomio o una red neuronal, la forma de las funciones no lineales utilizadas
es fija pero no ası́ el grado del polinomio o el número de neuronas. Con ello los parámetros, ni están limitados en número, ni tienen una interpretación directa, como la tienen
los parámetros del modelo GARCH-M. Por este motivo, en la literatura se suele denominar a este conjunto de modelos como semiparamétricos. Mientras que GARCH y
GARCH-M son modelos populares en econometrı́a financiera no lineal, una red neuronal
sencilla bien puede aproximar una serie temporal generada por un modelo GARCH-M
calibrado [1].
El método de aproximación más comúnmente utilizado es el método de expansión
polinómica. Del Teorema de Wierstrass, una expansión polinómica alrededor de un conjunto de entradas x con potencia progresivamente creciente puede aproximar hasta un
determinado nivel de precisión cualquier función continua desconocida y = g(x). Si consideramos, por ejemplo, una aproximación polinómica de segundo grado de tres variables,
8
2. Modelos matemáticos para la predicción de series temporales
Sección 2.3
[x1t , x2t , x3t ], donde g es una función continua desconocida de argumentos x1 , x2 , x3 , la
fórmula de aproximación es:
yt = β0 +β1 x1t +β2 x2t +β3 x3t +β4 x21t +β5 x22t +β6 x23t +β7 x1t x2t +β8 x2t x3t +β9 x1t x3t (2.17)
Nótese que la aproximación del polinomio de segundo grado con tres argumentos,
o dimensiones, tiene tres términos cruzados, con coeficientes dados por {β7 , β8 , β9 }, y
requiere diez parámetros. Para un modelo de varios argumentos, el número de parámetros crece exponencialmente con el grado de la expansión polinómica. Este fenómeno
es conocido como la regla dimensional de la aproximación no lineal. El precio a pagar
por una mayor precisión es un mayor número de parámetros a estimar, y por tanto, un
menor número de grados de libertad en la estimación estadı́stica subyacente.
2.3.1.
Polinomios ortogonales
Judd(1998) [2] aborda una amplia gama de aproximadores polinómicos, denominados
polinomios ortogonales. A diferencia del polinomio tı́pico basado en potencias crecientes
de la variable x, esta clase de polinomios se basan en funciones seno, coseno, o alternativamente, en transformaciones exponenciales de la variable x, habiéndose demostrado
una mayor eficiencia en éstos últimos que en los polinomios de potencias. Antes de hacer
uso de estos polinomios ortogonales, se deben transformar todas las variables [y, x] al
intervalo [-1, 1]. Dada una variable x, dicha transformación a la variable x * viene dada
por la siguiente expresión:
x∗ =
2x
min(x) + max(x)
−
max(x) − min(x) max(x) − min(x)
(2.18)
La formulación exacta de éstos polinomios ortogonales es complicada [ver Judd (1998),
p 204, Tabla 6.3]. En cualquier caso, estos aproximadores polinómicos pueden ser representados con mayor sencillez en modo recursivo. La expansión polinómica de Tchebeycheff T(x*) para una variable x* viene dada por el siguiente sistema recursivo:
T0 (x∗ ) = 1
T1 (x∗ ) = x∗
Ti+1 (x∗ ) = 2x∗ Ti (x∗ ) − Ti−1 (x∗ )
(2.19)
La expansión de Hermite H(x*) viene dada por las siguentes ecuaciones:
H0 (x∗ ) = 1
H1 (x∗ ) = 2x∗
Hi+1 (x∗ ) = 2x∗ Hi (x∗ ) − 2iHi−1 (x∗ )
(2.20)
9
Sección 2.3
2. Modelos matemáticos para la predicción de series temporales
La expansión de Legendre L(x*) se expresa como sigue:
L0 (x∗ ) = 1
L1 (x∗ ) = 1 − x∗
∗
Li+1 (x ) =
2i + 1
i+1
Li (x∗ ) −
i
Li−1 (x∗ )
i+1
(2.21)
La expansión de Laguerre LG(x*) tiene la siguente forma:
LG0 (x∗ ) = 1
LG1 (x∗ ) = 1 − x∗
∗
LGi+1 (x ) =
2i + 1 − x∗
i+1
LGi (x∗ ) −
i
LGi−1 (x∗ )
i+1
(2.22)
Una vez obtenidas las expansiones polinómicas para una variable x* dada, simplemente se aproxima y* mediante regresión lineal. Para dos variables [x1t , x2t ] con expansión
P1 y P2 respectivamente, la aproximación viene dada por la siguiente expresión:
∗
y =
P
X
1i=1
P
X
2j=1 βij Ti (x ∗1t Tj (x2t
(2.23)
Para deshacer la transformación de la variable y* y devolverla al intervalo
[min(y), max(y)], puede usarse la siguiente expresión:
y=
(y ∗ + 1)[max(y) − min(y)]
+ min(y)
2
(2.24)
Las redes neuronales son una alternativa al modelo paramétrico lineal, al modelo
GARCH-M y a las aproximaciones semi-paramétricas polinomiales a la hora de aproximar un sistema no lineal. El motivo por el cual se aborda el problema desde el punto de
vista de las redes neuronales es simple y directo. El objetivo es encontrar un método o
aproximación que prediga de un modo adecuado datos generados por procesos a menudo desconocidos y altamente no lineales, con tan pocos parámetros como sea posible, y
que sea más fácil de estimar que los modelos paramétricos no lineales. Seguidamente se
mostrará cómo las redes neuronales permiten lograr estos objetivos de un modo más eficiciente -en términos de precisión y de computación- que la aproximación lineal. Las redes
neuronales son tan precisas como las aproximaciones polinómicas con un menor número
de parámetros. Además, son mucho menos restrictivas que los modelos GARCH-M.
10
2. Modelos matemáticos para la predicción de series temporales
Solución Forma Cerrada
Sı́
No
Paramétrico
Lineal
Garch-M
Sección 2.4
Semiparamétrico
Polinómica
Red Neuronal
Cuadro 2.1: Tipologı́a de los modelos
2.4.
Tipologı́a de los modelos
Con el objeto de situar el modelo de redes neuronales entre los diferentes tipos de
modelos predictivos, podemos diferenciar entre modelos paramétricos y modelos semiparamétricos, y entre modelos que presenten o no soluciones en forma cerrada. Dicha
tipologı́a se muestra en la tabla 2.1.
Tanto los modelos lineales como los polinomiales poseen soluciones en forma cerrada
para la estimación de los coeficientes de regresión. Por ejemplo, en el modelo lineal
y = xβ, escrito en forma matricial, el estimador tı́pico de mı́nimos cuadrados viene dado
por β̂ = (x0 x)−1 x0 y. El vector de coeficientes β̂ es simplemente una función lineal de
las variables [y, x]. No existen problemas de convergencia o múltiples soluciones: una
vez que conocemos el conjunto de variables [y, x], conocemos la estimación del vector de
coeficientes, β̂. Para un modelo polinómico, en el que la variable dependiente y es una
función de potencias superiores de los regresores x, el vector de coeficientes se calcula
del mismo modo. Simplemente se redefinen los regresores en términos de una matriz z,
que representa las expansiones polinómicas de los regresores x, y mediante el método de
los mı́nimos cuadrados se calcula el vector de coeficientes de los polinomios, es decir,
β̂ = (z 0 z)−1 z 0 y.
Tanto GARCH-M como las redes neuronales son ejemplos de modelos que no poseen
soluciones en forma cerrada para sus respectivos vectores de coeficientes. Se observa,
además, cómo los modelos lineales y las redes neuronales son modelos diametralmente
opuestos en su concepción. El modelo lineal puede ser una solución imprecisa en el mundo
real, pero proporciona soluciones exactas, en poco tiempo y de una forma sencilla. Por
su parte las redes neuronales pueden suponer una aproximación más precisa a la hora
de capturar comportamientos no lineales, pero no poseen soluciones exactas o fáciles de
obtener. Sin una solución en forma cerrada, las soluciones deben ser aproximadas. De
hecho, como señalan Michalewicz y Fogel (2002) [3], esta polaridad refleja las dificultades
a la hora de resolver problemas matemáticos en general. En muchas ocasiones es difı́cil
obtener buenas soluciones para problemas importantes, bien porque debemos utilizar un
modelo impreciso (como el modelo lineal), que proporciona una solución exacta, o bien
porque debemos usar una solución aproximada por medio de un modelo más preciso o
complejo. [Michalewicz and Fogel (2002), p. 19].
11
Sección 2.5
2. Modelos matemáticos para la predicción de series temporales
Figura 2.1: Perceptron de tres capas con una capa oculta
2.5.
Redes neuronales
Al igual que el método de aproximación lineal y el polinómico, una red neuronal
relaciona un conjunto de variables de entrada {xi }, i = 1, ..., k, con un conjunto de una
o más variables de salida {yj }, j = 1, ..., k*. La diferencia entre las redes neuronales y
los otros métodos de aproximación es que la red neuronal hace uso de una o más capas
ocultas, en las cuales las variables de entrada son transformadas por una función especial,
conocida como función de activación. Esta aproximación por medio de capas ocultas ha
demostrado ser un medio muy eficiente a la hora de modelar procesos estadı́sticos no
lineales.
2.5.1.
Redes de alimentación hacia adelante
La figura 2.1 ilustra la arquitectura de una red neuronal con una capa oculta que
contiene C neuronas, n1 variables de entrada {xi }, i = 1, 2,..., n1 , y una salida y.
Se observa un procesamiento paralelo de la información. Además del procesamiento
secuencial de los sistemas lineales tı́picos, en el cual solo se utilizan observaciones de las
entradas para predecir la salida por medio de los pesos de las neuronas de entrada, las
dos neuronas de la capa oculta procesan a su vez las entradas para mejorar las predicciones. Las conexiones entre las variables de entrada, a menudo denominadas neuronas
de entrada, y las neuronas de la capa oculta, ası́ como las conexiones entre las neuronas
12
2. Modelos matemáticos para la predicción de series temporales
Sección 2.5
de la capa oculta y la variable de salida, o neurona de salida, se denominan sinapsis.
Por suerte, gran parte de los problemas habituales en predicción no involucran un gran
número de neuronas en el proceso paralelo.
Esta red neuronal de capa simple con alimentación hacia adelante, o Perceptron multicapa con una capa oculta, constituirá el modelo predictivo utilizado en la herrmienta desarrollada en este proyecto, tanto para la evluación del algoritmo de eliminación
progresiva de entradas basada en importancia relativa -ver sección 6.4.2- como para
la generación de predicciones -ver sección 6.4.3. La arquitectura y funcionamiento del
Perceptrón multicapa serán descritas en detalle en el capı́tulo 3.
De un modo general, la red representa la manera en que el cerebro humano procesa la
información sensorial, recibida por medio de las neuronas de entrada, y la convierte en
conocimiento, representado por medio de la neurona de salida. A medida que el cerebro
evoluciona, más y más neuronas se interconectan por medio de sinapsis, y las señales de
las diferentes neuronas, trabajando en paralelo, cada vez en más y más capas ocultas, se
combinan para producir reacciones y percepciones cada vez más matizadas.
Por supuesto, los datos sensoriales de entrada sencillos, tales como la percepción
de frı́o o calor no necesitan ser procesados por muchas neuronas o en muchas capas
ocultas para producir la percepción correspondiente. Pero a medida que las experiencias
subyacentes en los datos sensoriales de entrada se vuelven más complejas o diversas,
más capas ocultas son activadas. La percepción y la decisión son el resultado de la
combinación de señales procedentes de muchas neuronas, quizás pertenecientes a muchas
capas ocultas.
En el capı́tulo 3 se expondrán las principales caracterı́sticas de la arquitectura y el
funcionamiento de las redes neuronales de varias capas con conexiones hacia adelante, o
Percetrones multicapa.
Por motivos de dimensionalidad, quedan fuera del alcance de este proyecto el análisis
de otros tipos de redes neuronales, como son las redes neuronales de base radial, las
redes de Ridgelet o las redes con conexiones en salto.
13
Descargar