1 Predicción De Series Temporales Usando Redes Neuronales: Un

Anuncio
Predicción De Series Temporales Usando Redes Neuronales: Un
Caso De Estudio
E-mail: [email protected]
Resumen
En este trabajo se presenta una aplicación de las redes neuronales artificiales (RNA) para
predecir a corto plazo la serie temporal constituida por las ventas semanales al por mayor de
gas envasado en garrafas de 13 kilogramos. Las predicciones de las series de este tipo (las
asociadas a la economía y a las finanzas) suelen constituir un reto debido a la escasez de datos,
los altos niveles de ruido en ellos y la no estacionariedad y la no linealidad de los sistemas
involucrados [6]. Se construyeron para ello varias redes de diferentes topologías (perceptrones
multicapa o MLPs, redes recurrentes y time lagged feedforward networks -- para ser más concretos,
time delay networks o TDNNs), y se estudiaron los errores producidos al predecir con cada una
de ellas. A los efectos de reducir el error cometido, se aplicó el ensemble method de Perrone [13].
Adicionalmente, para minimizar la dimensionalidad de las entradas a los MLP y diseñar las
TDNN de forma sistemática, se realizaron algunas consideraciones sobre los sistemas
dinámicos estocásticos y se aplicó el Teorema de Takens-Mañé en su versión aleatoria. En los
distintos casos de predicciones, se obtuvieron resultados razonablemente buenos, teniendo en
cuenta el volumen de datos disponibles, lo que verifica la aplicabilidad de las RNA en la
predicción de las series temporales provenientes de sistemas dinámicos estocásticos, siempre
que se busquen los modelos adecuados al conjunto de datos disponibles y que se tenga noción
de la calidad de los resultados alcanzables a partir de ellos.
Palabras claves: series temporales, sistemas dinámicos, predicción, redes neuronales
I. Introducción
Una serie temporal consiste en un conjunto de valores que pueden ser considerados como observaciones
tomadas de un cierto sistema a lo largo del tiempo; en particular, son interesantes las generadas por los sistemas
dinámicos las cuales conforman la mayoría de las que se encuentran en el mundo real, en especial, en aplicaciones
de economía y finanzas. Si bien se pueden utilizar modelos estadísticos (tales como la metodología ARIMA de
Box y Jenkins [14]) para realizar la predicción de una serie de este tipo, el uso de un modelo neuronal tiene los
atractivos de ser un modelo de tipo “cerrado” o sea closed form [11]), que en el caso de las predicciones
multivariantes puede arrojar mejores resultados que los modelos ARIMA [14], que permite adaptarse muy
fácilmente a los cambios en los datos y que provee un modelo que permite realizar algunos experimentos
(simulaciones) aunque esto último no es exclusivo de ellos. Otra forma posible de modelar ese sistema podría ser
utilizando un modelo oculto de Markov (HMM), lo que también permitiría realizar experimentos y simulaciones;
sin embargo, el ajuste de las funciones de distribución de probabilidad asociadas a los cambios de estados, cuando
los datos son escasos, puede convertirlos en impracticables. Por otra parte, los modelos de redes neuronales, para
la predicción de este tipo de serie temporal, ya han sido utilizados anteriormente tanto en el caso estocástico [6][2]
como en el determinístico [17]. Con respecto al modelado del sistema que origina la serie, si bien existen estudios
para el caso de sistemas determinísticos [8][11], son muy escasos los que se enfocanen sistemas dinámicos
estocásticos [5][10][20].
Este documento esta organizado como sigue: describimos en el punto II la realidad (contexto) que
corresponde a este caso de estudio y cómo se la modeló desde el punto de vista matemático, en el III se
muestran los resultados obtenidos, posteriormente, en el IV, se valoran esos resultados y, finalmente, en los
puntos V y VI, se muestran las tablas de resultados generados con las distintas topologías y la bibliografía
consultada, respectivamente.
II. Datos y modelos
1) La realidad y los datos disponibles
La calidad de la predicción de una serie temporal va a estar asociada, entre otros factores, al conocimiento que se
tenga del dominio (sistema) del cual proviene, a la calidad de los datos disponibles y al manejo que se haga de
ellos. En cuanto a lo primero, la serie proviene del sistema de ventas mayoristas de gas envasado en garrafas de 13
kilogramos. Este producto es utilizado principalmente para calefacción doméstica. La modalidad de venta al por
1
mayor introduce cierta distorsión en los volúmenes de ventas, ya que las mismas pasan a no depender sólo de las
temperaturas atmosféricas, sino además de las maniobras de acopio (por parte de los mayoristas) que pueden darse
los días previos a los aumentos de precio de venta del gas (los que a su vez pueden ser o no anunciados en la
prensa) o de un suceso que haga que la planta de envasado y expedición de gas no expenda producto (por
ejemplo, debido a feriados o huelgas). Dado que estos acopios no pueden ser predichos ya que se pueden
corresponderse a rumores de aumento de precio de venta, cambios bruscos en el tiempo o una reacción de los
mayoristas frente a situaciones o informaciones que no conocemos, consideramos el sistema de ventas de gas
como estocástico. Asimismo, dado que las ventas que se realizan en una semana influyen en las de la semana
siguiente, el sistema es dinámico.
Los datos disponibles consistían en las ventas de gas diarias medidas en litros (en un rango de 2.000.000 a
5.000.000 aproximadamente), las temperaturas atmosféricas diarias registradas y las fechas en las que se
produjeron aumentos del precio de venta del gas. A los efectos de trabajar a nivel de ventas semanales se
totalizaron las diarias de lunes a sábado. Ignoramos los ruidos que puedan tener las temperaturas registradas y las
consideramos exactas. Se obtuvieron inicialmente 193 valores en una primera instancia de entrenamiento y en una
segunda etapa (puesta en producción) 251. Se halló que la correlación lineal es ligeramente mayor entre la
temperatura atmosférica máxima diaria media semanal y las ventas, que entre la mínima y las ventas, por lo que se
tomó la máxima diaria promediada semanalmente con dos dígitos decimales de exactitud. En cuanto a la
periodicidad de la serie pudo observarse estudiando las correlaciones lineales entre las ventas mensuales que tiene
un período de 52 (un año = 52 semanas o 53 en el caso de año bisiesto). Finalmente, las ventas no están
correlacionadas significativamente más de tres semanas entre sí, lo que se puede ver considerando las auto
correlaciones lineales de la serie o bien la gráfica del average mutual information [4]. Los datos utilizados referidos a
los volúmenes de venta fueron obtenidos a partir de un datawarehouse corporativo con información de facturación;
las temperaturas diarias a partir de las registradas por la oficina de meteorología local y en algunos casos, a partir
de promedios históricos extraídos de la web. Cuando se precisaron predicciones de temperaturas, se acudió a los
sitios web especializados en meteorología.
En cuanto al pre proceso de los datos, sólo se sustituyeron dos outliers por valores promedios para esas semanas,
y no se eliminó la tendencia de la serie ni se le hizo ningún otro proceso.
2) Consideraciones sobre los sistemas dinámicos.
Modelamos el sistema de ventas como sigue:
El estado del sistema en el instante n+1, x ( n + 1) viene dado por
x( n + 1) = F[ x( n), x( n − 1),...x( n − T ), u( n + 1), u( n)...u ( n − T )] + ε ( n)
siendo F una cierta función vectorial determinística, ε un vector aleatorio (ambos de componentes enteros) y u(n) las entradas
(temperaturas máximas medias semanales) en el instante n. Los estados del sistema estarían representados por las ternas
(ventas, semana, temperatura) o (ventas, semana, temperatura, indicador de aumento -- ver Sección III). La variable de la cual
se tienen mediciones son las ventas, v, por lo que será
v(n + 1) = ϕ[ v 0−τ (n), t 0−τ (n), a −1−τ (n), s −1−τ (n)] + δ (n)
con
- v, t, a, s las ventas, temperaturas máximas semanales promedio, el indicador de aumento y el número de semana
respectivamente
- v x −τ = [v (n − x ), v(n − x − 1),...v (n − τ )] y análogamente para a x −τ y s x −τ
-
δ (n)
una variable aleatoria entera.
- φ una función escalar determinística
Dado que las temperaturas son representadas con dos dígitos decimales, su número posible será finito, así como el número de sus
desviaciones respecto de las verdaderas. Como asimismo δ ( n ) toma un número finito de valores, ε ( n ) tendrá solo un número
finito de valores posibles, lo que hace que el sistema constituya un “iterated functions system” ( IFS) [10].
A este sistema se le estudiaron algunas de sus propiedades invariantes en base a la realización que se tenía del
proceso aleatorio. Obtuvimos un delay óptimo = 3 y una dimensión del atractor = 2 procediendo como si se
tratara de un sistema determinístico y haciendo una serie de consideraciones especiales, tales como que dado que
el sistema es un IFS, la dimensión del atractor va a ser la misma que si el sistema fuese determinístico [10]. Estos
datos (invariantes) fueron utilizados para la construcción de un MLP de dimensionalidad de entradas mínima y
también para la TDNN y de esa forma se pudo utilizar un MLP sin necesidad de trabajar con un esquema de
ventanas de datos (es decir, un conjunto de datos consecutivos en el tiempo como entradas al perceptrón). Un
proceso general para la determinación de los invariantes anteriores (delay óptimo y dimensión del atractor) en el
2
caso estocástico fue propuesta por Fueda y Yanagawa [5], pero no fue utilizado debido a los escasos datos
disponibles y a lo engorroso del mismo. Adicionalmente a este modelo, se utilizó el teorema de Takens-Mañé.
El Teorema de Takens-Mañé
en su versión determinística establece que dada una serie temporal
{ xi }
proveniente de un sistema dinámico, si se dan ciertas condiciones relativamente poco restrictivas (tales como que
el sistema tenga un número finito de puntos de equilibrio), entonces, a partir de [ xt , xt −τ ,..., xt −( m −1)τ ]
con τ , m enteros positivos (llamados delay óptimo y dimensión del atractor respectivamente) se puede predecir
exactamente xt +1 siempre que τ , m se elijan apropiadamente. Stark [19] propuso la generalización de este
teorema al caso de sistemas dinámicos estocásticos, que básicamente plantea lo mismo introduciendo conceptos
de probabilidad y medida. Hay que tener en cuenta que siempre existe la posibilidad de obtener un error
importante en la predicción debido a la naturaleza probabilística de la misma.
3) Modelos de redes usadas
Los modelos de redes ensayados fueron perceptrones multicapa, redes recurrentes (incluyendo de Jordan) y redes
TDNN. Los MLPs se utilizaron por ser un tipo de red que ha sido usado como referente reiteradamente [3][15]
[18]. A su vez, las redes recurrentes presentaban el interés de tener una tendencia intrínseca a aprender secuencias
que ocurren en orden [6]. Finalmente, las redes TDNNs representaban una topología recomendada como punto
de partida para este tipo de problemas [16]. Las salidas de todas ellas era la predicción de las ventas para la
semana siguiente, y las funciones de transferencia usadas fueron siempre la tangente hiperbólica. El
entrenamiento fue hecho empleando back-propagation para los MLPs y las TDNNs y back-propagation a través del
tiempo (BPTT) en los demás casos, y en ambas situaciones se añadió un término de momento. El entrenamiento
se hizo en la modalidad incremental (on line) afín de encontrar una mejor solución (tratando de evitar los mínimos
locales) [7][8]. Se utilizó como criterio de early stopping la validación cruzada con un porcentaje de datos del 15%
del total de datos de entrenamiento a los efectos de evitar el sobreentrenamiento. Las funciones de error utilizadas
fueron el error medio cuadrático (MSE) y el porcentaje de error (%Error), que son equivalentes cuando se aplican
al mismo conjunto (alcanza para ello ver que sus derivadas respecto los valores obtenidos y se anulan en los
mismos puntos). Se entiende por MSE sobre un conjunto de N valores deseados d y obtenidos y al número
100 N yi − d i . Denotaremos por %ErrorCV al
1 N
MSE = ∑ (di − yi ) 2 . Adicionalmente, es % Error =
∑
N i=0 di
N i =1
%Error promediado sobre el conjunto de validación cruzada.
Siempre se prefirió utilizar modelos que emplearan las temperaturas pasadas y no las futuras, debido a la
disminución en el ruido de las entradas (ya que la predicción de las temperaturas de toda una semana suele tener
un alto nivel de ruido) y a la simplificación en el uso del modelo que esto conlleva.
III. Resultados obtenidos
1) Notación y aclaraciones preliminares
Las siguientes abreviaciones son utilizadas en adelante para referirse a los datos:
V ventas de la semana en curso, y asociadas a ellas: V+1 ventas de la semana futura (a predecir), V-1 ventas de
la semana anterior a la actual, V-2 ventas de la semana anterior a la anterior Análogamente, se tiene para T =
temperatura máxima diaria promediada en la semana y para A = indicador de aumento del precio de venta del gas:
T, T-1, T+1, T-2 y A, A-1,A-2. Los valores posibles de A fueron: A=0 si en esa semana se produjo un aumento,
A=-1 si es inmediatamente anterior a la semana con aumento, A=1 si es inmediatamente posterior a la semana
con aumento. Análogamente para A=2 y A=-2, posterior a la posterior y anterior a la anterior respectivamente.
En otro caso, A=3. De esa manera se pretendió modelar el efecto especulativo y de la caída de demanda asociadas
al aumento de precio de venta de un producto. Obsérvese que se asumió que ese efecto desaparece más de dos
semanas antes o después del aumento.
S representa el número de semana del año, del 1 al 53 .
Los ensayos realizados tuvieron dos instancias. En la primera, se utilizaron para entrenamiento las semanas
correspondientes a mayo/1999 a semana 1/2003 y a los efectos de comprobar el desempeño de la red (testing) las
semanas 2 a 18/2003. Posteriormente, ya en una fase de producción (es decir, utilizando las redes para predecir
sistemáticamente) se decidió trabajar solo con una red de Jordan y con una TDNN, utilizando como datos de
entrenamiento mayo/1999 hasta la semana 40/2003 y testing semanas 41/2003-6/2004.
Cuando se realizaron predicciones reiteradas (es decir, para una serie de semanas consecutivas en el futuro), como
valores de V, V-1, etc. se tomaron los valores reales, es decir, no se retroalimentaron las predicciones.
3
2) Resultados numéricos
Los mejores resultados obtenidos en cuanto al menor %Error promedio sobre el conjunto de CV (%ErrorCV)
para cada topología fueron:
MLPs: Aplicando el teorema de Takens-Mañé se concluyó que se podía predecir V+1 a partir de V y V-3, por
lo que las entradas al MLP eran {V, V-3} y las salidas, la predicción de V+1. Se utilizaron 11 neuronas ocultas en
una sola capa. Los resultados de las predicciones con el MLP se pueden ver en la TABLA 1. Obsérvese que el
MLP manejado de esta forma permite predecir (aunque el %ErrorCV es alto) sin necesidad de considerar un
esquema de ventanas continuas: [V, V-1, V-2, V-3], lo que redunda en una mayor capacidad de
aprendizaje/generalización de la red dados los datos disponibles. A los efectos de disminuir el %ErrorCV se
incorporaron entradas, utilizando entonces T, A, V, V-1, S-3 y salida V+1 con 7 neuronas ocultas. Los resultados
obtenidos se muestran en la TABLA 1.
Redes TDNNs: Aplicando nuevamente el Teorema de Takens-Mañé, se puede predecir V+1 con una red que
tenga el número de taps = dimensión de atractor = 2 y el delay entre muestras = delay óptimo = 3 y cuyas únicas
entradas sean V. A esas redes con entradas solo V se las llamó “puras”. Se ensayó con memorias localizadas
(focused) y distribuidas (no focused) [16], [8]. En la segunda instancia solo se probaron los resultados para la red con
12 neuronas ocultas. Los resultados se resumen en la TABLA2. Al igual que en el caso del MLP, se consideraron
entradas extras afín de mejorar las estimaciones de V+1, y se utilizó entonces una red de entradas S, A, T-1 8
neuronas ocultas y memoria localizada (focused). Los resultados aparecen en la TABLA2.
Redes recurrentes: Se ensayaron dos tipos de redes recurrentes: las de Jordan y las totalmente recurrentes. Una
red se dice totalmente recurrente cuando su primer capa oculta se conecta a así misma a través de al menos de una
conexión recurrente [16]. Las trayectorias aprendidas fueron de largo 4. Se probó con una red de entradas a) S+1,
T+1, V y b) entradas S+1, T+1, V, V-1 y 7 neuronas ocultas en una sola capa en los dos casos. En cuanto a la de
Jordan tuvo la topología siguiente: la constante τ = 0.5 que regula la caída exponencial de la influencia de los
datos pasados con 4 neuronas ocultas en la primer capa oculta y dos en la segunda. La salida retroalimentaba a las
neuronas de contexto. Las entradas eran V-1, S-1, S-2, V-2, T-2. Se ensayó también con otros valores de τ (0.3,
0.7, 0.07, 0.15) pero los resultados fueron peores que para τ = 0.5 al predecir las semanas 2-18/2003. En la
segunda instancia de pruebas, solo se trabajó con la red de Jordan. En la TABLA3 se resumen los resultados
obtenidos para las redes recurrentes.
Dado que las auto-correlaciones entre los datos, que indicaban una dependencia de solo 3 pasos hacia atrás en el
tiempo, hicieron que las redes totalmente recurrentes no presentaran el problema del gradiente evanescente (es
decir, que fuesen incapaces de aprender relaciones entre sucesos que distasen más de alrededor de 10 pasos en el
tiempo) [12][16][9] al determinar la salida a partir de sus entradas anteriores, sí se presentó al ser incapaces de
aprender la tendencia lineal de la serie: si se alimentan las redes recurrentes entrenadas con los datos de la primer
instancia, con las temperaturas de 100 semanas consecutivas (tal como en el juego de entrenamiento) y se utilizan
como valores de las ventas las ventas correspondientes más un ruido U[-50000, +50000], las tendencias que
aprenden las distintas redes son: las redes recurrentes, en cualquiera de sus versiones no aprendieron la tendencia,
o la aprendieron muy pobremente, el MLP no logró tampoco aprender la tendencia; las TDNNs en cambio,
reproducen la tendencia, aunque con mayor o menor pendiente que la serie “original” (es decir, la original más el
ruido).
El ensemble method: Por simplicidad, aplicamos el método a solo dos redes, la TDNN “pura” no focused y la
red de Jordan. Se utilizó equiponderación en las dos instancias, ya que en la primera era más simple que usar los
coeficientes óptimos (que minimizan el MSE [1]), y en la segunda los coeficientes óptimos coinciden con la
equiponderación. Los resultados obtenidos aparecen en la TABLA4.
IV. Conclusiones
Hemos ensayado con un conjunto de redes y encontrado un sistema (comité [16]) de dos redes neuronales (una de
Jordan y una TDNN) cuyos valores de salida son promediados para la predicción a corto plazo de las ventas de
gas envasado. Estas redes deberían ser re-entrenadas al menos cada cuatro semanas, visto el alcance (número de
pasos en el futuro que se puede dar sin tener un gran error) de las predicciones. Adicionalmente, las topologías de
todas ellas debería ser revista cada cierto tiempo debido a los cambios en las relaciones subyacentes en los datos
nuevos, cambios producidos a su vez por las variaciones en las características del sistema real. O sea, cuando el
muestreo de los datos es tan espaciado – una semana entre muestras – en aplicaciones vinculadas a la economía
4
puede que darse que aunque tengamos más datos históricos no tengamos más información significativa para la
red, y que nunca lleguemos a tener suficientes datos del comportamiento del sistema en una fase estacionaria ya
que se van a haber ido dando cambios en la realidad (el sistema en estudio) que van a invalidar los datos más
viejos, por lo que hay que ser cuidadoso en las expectativas que se tengan de mejorar con el tiempo la calidad de
las predicciones. Adicionalmente, hay que recordar que siempre existe una probabilidad no nula de que el error de
una predicción sea muy alto, debido a la naturaleza intrínsecamente estocástica del sistema. Encontramos que un
MLP, aún siendo muy simple, puede ser capaz de predecir la serie, siempre que se haga un análisis previo de los
datos. Aparecieron los problemas que suelen estar asociados a las redes recurrentes entrenadas con algoritmos
basados en el descenso en el gradiente (el gradiente evanescente), aunque no nos afectaron en forma severa ya
que solo se dejó de aprender la tendencia de la serie y no estábamos interesados en predicciones a largo plazo.
Finalmente, verificamos que las RNA pueden ser un instrumento valioso en la predicción de una serie temporal,
aún cuando esta sea no determinística.
V. Tablas de resultados
TABLA1 – Resultados obtenidos con los MLPs
MLP de
entradas V, V-3
MLP c/entradas
adicionales
Primer instancia
Segunda instancia
%Siguiente
7.88%
14.75%
HOP
%ErrorCV
%Error17
%Siguiente
HOP
%ErrorCV
%Error17
4
14.72%
15.03%
6.24%
3
11.90%
24.94%
0
16%
14.12%
3.30%
1
17.01%
8.43%
%Siguiente=% de error de predicción para la semana
siguiente al grupo de entrenamiento
HOP= Número de pasos de predicción con error <10%
%ErrorCV = %Error de predecir en un paso promediado
sobre el conjunto de CV
%Error17=%Error promedio de predecir 17 semanas luego
de la última del conjunto de entrenamiento
TABLA2 – Resultados obtenidos con las TDNNs
Primer instancia
Red A
TDNN con
entradas V
Red B
TDNN
c/entradas
adicionales
Segunda instancia
No focused
Focused
No focused
focused
%Siguiente
13.47%
19.16%
4.79%
-
HOP
%ErrorCV
%Error17
%Siguiente
HOP
%ErrorCV
0
11.88%
11.33%
14%
0
12%
0
22.36%
25.03%
2.85%
1
13.03%
1
10.05%
7.57%
-
0.83%
1
16.5%
%Error17
24.02%
23.77%
-
11.32%
Red A focused: entradas V y 8 neuronas ocultas en una
capa
Red A No focused: entradas V y 12 ocultas en una capa
Red B focused: entradas S, A, T-1 y 8 ocultas en una capa
Red B focused: entradas S, T, S-1, S-2, T-2 y 12 ocultas en una
capa
5
TABLA3 – Resultados obtenidos con redes totalmente recurrentes
%Siguiente
HOP
%ErrorCV
%Error17
Red totalmente
recurrente a)
13.66%
0
11.49%
14.14%
Primer instancia
Red totalmente
recurrente b)
20.42%
0
11.86%
14.91%
Red de Jordan
Segunda instancia
Red de Jordan
0.92%
5
9.55%
11.11%
2.60%
1
8.32%
8.33%
TABLA4 – Resumen de los errores obtenidos con el ensemble method
En 17 semanas a continuación del conjunto
de entrenamiento
Error promedio
Error máximo
Error mínimo
%Error del ensemble primer
instancia
%Error del ensemble segunda instancia
9.23%
29.14%
0.35%
6,36%
24,75%
0,25%
VI. Referencias
[1] Bishop, Christopher -- Neural Networks For Pattern Recognition. Cap. 9. Clarendon Press, Oxford, 1996.
[2] Castiglioni, Filippo -- Forecasting Price Increments Using An Artificial Neural Network. Advanced
Complex Systems, Vol. 1, pp. 1-12, 2000.
[3] Colombert, Isabelle – Ruelland, Allan y otros -- Models To Predict Cardiovascular Risk: Comparison Of
CART, Multilayer Perceptron And Logistic Regression. Proceedings of the AMIA Symposium, pp. 156160, 2000.
[4] Cover, Thomas M. – Thomas, Joy A. -- Elements Of Information Theory. Cap. 2. John Wiley & Sons, 2002.
[5] Fueda, Kaoru – Yanagawa, Takashi -- Estimating The Embedding Dimension And Delay Time From
Chaotic Time Series With Dynamic Noise. Journal of Japan Statistic Society, Vol 31, No. 1, 2001.
[6] Giles, Lee – Lawrence, Steve – Tsoi, A.C. – Noisy Time Series Predictions Using A Recurrent Neural
Network And Grammatical Inference. Technical Report UMIACS-TR-96-27 and CS-TR-3625. Institute for
Advanced Computer Studies. University of Maryland, Estados Unidos. 1996.
[7] Hassoum, Mohamad -- Fundamentals Of Artificial Neural Networks. Cap. 5. MIT Press, 1995.
[8] Haykin, Simon -- Neural Networks. A Comprehensive Foundation. Cap. 4. Prentice Hall, 1999.
[9] Hochreiter, Sepp – Schmidhuber, Jürgen -- Long Short-Term Memory. Vol 9, No. 8, 1997.
[10] Muldoon, M.R. - Broomhead, D.S. – Huke, J.P. -- Delay Embedding In The Presence Of Dynamical
Noise. Dyn. and Stab. Systems. Vol 13. 1998.
[11] Patel, Gaurav S. -- Modeling Nonlinear Dynamics With Extended Kalman Filter Trained Recurrent
Multilayer Perceptrons. Tesis de Maestría. Mc. Master University, 2000.
[12] Pérez-Ortiz, Juan Antonio -- Modelos Predictivos Basados En Redes Neuronales Recurrentes De
Tiempo Discreto. Tesis doctoral, Universidad de Alicante, España. 2002.
[13] Perrone, Michael Peter -- Improving Regression Estimation: Averaging Methods For Variance
Reduction With Extensions To General Convex Measure Optimization. Tesis doctoral. Brown University,
1993.
[14] Pino Diez, Raúl – Fernández Quesada, Isabel -- Comparación De Previsiones Univariantes Y Multivariantes
Mediante Redes Neuronales Y Box-Jenkins. Trabajo presentado en el VIII Congreso Nacional de Economía
y Dirección de Empresas, España. 1998.
[15] Popescu, I. y otros -- Prediction Of Outdoor Propagation Path Loss With Neural Networks. Informatica,
Vol. 10 Nro. 2, pp. 231-234. Universidad de Timisoara, Rumania, 1999.
[16] Príncipe, José – Euliano, Neil – Lefebvre, W. Curt -- Neural And Adaptive Systems Fundamentals Through
Simulations.Cap. 11. John Wiley & Sons, 2000.
[17] Príncipe, José – Kuo, Jyh-Ming -- Dynamic Modeling Of Chaotic Time Series With Neural Networks.
Neural Information Processing Systems, pp. 311-318, Conferencia en Cambridge, Massachussets, 1995.
[18] Raudys, Aistis – Mockus, Jonas -- Comparison Of ARMA And Multilayer Perceptron Based Methods For
Economic Time Series Forecasting. Informatica, Vol 10 Nro. 2 pp. 231-244. Institute of Mathematics and
Informatics, Lituania, 2001.
[19] Stark, Jaroslav -- Delay Reconstruction: Dynamics V Statistics. Nonlinear Dynamics and Statistics, ed A.I.
Mees, Birkhauser, 2001.
[20] Stark, J. - Broomhead, D.S. – Davies, M.E.- Huke, J. -- Delay Embeddings Of Forced Systems: II
Stochastic Forcing. Journal of Nonlinear Science, Setiembre. 1999.
6
Descargar