Facultad de Ciencias Naturales y Exactas Universidad del Valle Structured secant method for the multilayer perceptron training Structured Secant Method for the Multilayer Perceptron Training Hevert Vivas Héctor Jairo Martı́nez Rosana Pérez Hevert Vivas Héctor Jairo Martínez Rosana Pérez Universidaddel delCauca Cauca Universidad Valle Universidad del Universidad Universidad del del Valle Universidad delCauca Cauca Received: May 6, 2014 Received: May 6, 2014 Accepted: August 22, 2014 Accepted: August 22, 2014 Pag. 131-150 Abstract In the group of models of artificial neural networks, it is the multilayer perceptron, a unidirectional neural network consisting of three or more layers, its training is done by an algorithm called backpropagation. In this work, we introduced the structured secant method for the training of multilayer perceptron and we compare its numerical performance with other methods widely used with the same purpose. Some numerical experiments show a good performance of this algorithm. Keywords: Multilayer perceptron, structured secant method, training neural network, nonlinear least squares. Método secante estructurado para el entrenamiento del perceptrón Método secante estructurado para el entrenamiento multicapa del perceptrón multicapa Resumen Resumen Dentro delgrupo grupo modelos de redes neuronales artificiales está el perceptrón Dentro del de de modelos de redes neuronales artificiales está el perceptrón multicapa: multicapa: una unidireccional red neuronal constituida unidireccional constituida porcuyo tresentrenamiento o más capas, una red neuronal por tres o más capas, se cuyo hace mediante un algoritmo denominado retro-propagacion de errores. En este trabajo, proponemos e entrenamiento se hace mediante un algoritmo denominado retro-propagación de errores. implementamos por primera vez, el método secante estructurado para el entrenamiento del perceptrón En este trabajo, proponemos e implementamos por primera vez, el método secante multicapa y analizamos su desempeño numérico comparandolo con ymétodos ampliamente usados estructurado para el entrenamiento del perceptrón multicapa analizamos su desempeño con el mismo proposito. Pruebas numéricas preliminares muestran un buen desempeño numérico numérico comparándolo con métodos ampliamente usados con el mismo propósito. del métodonuméricas propuesto. preliminares muestran un buen desempeño numérico del método Pruebas propuesto. Palabras clave: método secante estructurado, entrenamiento de redes neuronales artificiales, perceptrón multicapa, mínimos cuadrados no lineales. Palabras clave: método secante estructurado, entrenamiento de redes neuronales artificiales, perceptrón multicapa, mı́nimos cuadrados no lineales. Volumen 18 No. 2, diciembre 2014 131 Revista de Ciencias 1 Introduccion 2 Mínimos cuadrados no lineales (MCNL) 132 H. Vivas, H. J. Martínez y R. Pérez Método secante estructurado para el entretenimiento del perceptrón multicapa 2.1 Planteamiento del problema 2.2 Métodos de solución 2.2.1 Método de Newton Volumen 18 No. 2, diciembre 2014 133 Revista de Ciencias 2.2.2 Método Gauss-Newton 2.2.3 Método de Levenberg-Marquard 2.2.4 Métodos Secantes 134 H. Vivas, H. J. Martínez y R. Pérez Método secante estructurado para el entretenimiento del perceptrón multicapa 2.2.5 Métodos secantes estructurados Volumen 18 No. 2, diciembre 2014 135 Revista de Ciencias 136 H. Vivas, H. J. Martínez y R. Pérez Método secante estructurado para el entretenimiento del perceptrón multicapa 3 Redes Neuronales Artificiales (RNA) 3.1 Modelo general de neurona artificial Figura 1: Principales elementos de una neurona artificial. Volumen 18 No. 2, diciembre 2014 137 Revista de Ciencias 3.2 Estructura 3.3 Aprendizaje 138 H. Vivas, H. J. Martínez y R. Pérez Método secante estructurado para el entretenimiento del perceptrón multicapa 3.4 Perceptrón multicapa Figura 2: Perceptrón multicapa (MLP). Volumen 18 No. 2, diciembre 2014 139 Revista de Ciencias 140 H. Vivas, H. J. Martínez y R. Pérez Método secante estructurado para el entretenimiento del perceptrón multicapa 4 Pruebas numéricas 4.1 Algoritmo general Volumen 18 No. 2, diciembre 2014 141 Revista de Ciencias Problema 1: Evaluación de la función seno 142 H. Vivas, H. J. Martínez y R. Pérez Método secante estructurado para el entretenimiento del perceptrón multicapa b1 y1 y2 b2 .. . x W1 z W2 ynco Figura 3: Percetrón multicapa que aproxima la función seno. Figura 3: Perceptrón multicapa que aproxima la fúnción seno. El vector de pesos iniciales para cada valor de nco, wnco 0 , lo generamos = aleatoriamente con la función de Matlab randn(·, ·), exactamente wnco 0 randn(3nco + 1, 1) [14]. Presentamos los resultados de estas pruebas en dos tablas, cuyas dos primeras columnas contienen la información sobre el número de neuronas en la capa oculta ( nco ) y la tolerancia usada ( T ol ). Las cuatro columnas siguientes contienen, para cada método, el tiempo de ejecución ( t ), medido en segundos, y el número de iteraciones (n). El sı́mbolo “ - ” indica que hubo divergencia del método considerado (se excedió el número máximo de iteraciones permitido ( N = 500 )). Tabla 1: Resultados de los métodos secantes estructurados para la evaluación de la función seno. N = 500 nco 4 4 4 5 5 5 6 6 Tol 10−3 10−5 10−6 10−3 10−5 10−6 10−3 10−5 P SBE t 1 − − − − − − − Volumen 18 No. 2, diciembre 2014 n 152 − − − − − − − DF P E BF GSE SR1E t − − − − − − − − t 0.5 1 2 1 1 − 1 − t − − − − − − − − n − − − − − − − − n 69 134 319 116 153 − 78 − n − − − − − − − − 143 H. Vivas, H. J. Martínez y R. Pérez Revista de Ciencias Tabla 2: Resultados de los métodos de Gauss-Newton (GN), Levenberg-Marquardt Tabla Resultados de los métodos de Gauss-Newton (GN),de Levenberg-Marquardt (LM) y2:secante estructurado (BFGSE) para la evaluación la función seno. (LM) y secante estructurado (BFGSE) para la evaluación de la función seno. nco nco 4 4 4 4 4 4 5 5 5 5 5 5 6 6 6 6 N = 500 N = 500 Tol Tol 10−3 10−3 10−5 10−5 10−6 10−6 10−3 10−3 10−5 10−5 10−6 10−6 10−3 10−3 10−5 10−5 GN GN t n t n - LM LM t n t n 1 160 1 160 - BF GSE BF GSE t n t n 0.5 69 0.5 69 1 134 1 134 2 319 2 319 1 116 1 116 1 153 1 153 1 78 1 78 - En la Tabla 1, podemos observar que en general, el método BFGSE En 1, podemos observardeque en general, el método BFGSE convergiólaenTabla el menor tiempo y número iteraciones, mientras que los métodos convergió en el no menor tiempo yen número mientras que métodos DFPE y SR1E convergieron ningúndedeiteraciones, los casos. De la Tabla 2, los observamos DFPE y SR1E no convergieron en ningún de los casos. De la Tabla 2, observamos y nco = 4 y 5 , el método BFGSE siempre converge y lo que para T ol ≤ 10−5 que T olmejor ≤ 10−5 y nco =numérico 4 y 5 , elque método BFGSE siempre convergeaquı́. y lo hacepara con un desempeño los otros métodos comparados hace con un mejor desempeño numérico que los otros métodos comparados aquı́. Además, el método Levenberg-Marquardt presentó mejor desempeño numérico que Además, el método Levenberg-Marquardt presentó mejor desempeño numérico que Gauss-Newton. Gauss-Newton. Cabe mencionar que, la divergencia en los métodos secantes estructurados Cabe mencionar que, la divergencia en los métodosilustrada secantes en estructurados PSBE, DFPE, Levenberg-Marquardt y Gauss-Newton, las Tablas PSBE, DFPE, y Gauss-Newton, en las Tablas 1 y 2, se debe Levenberg-Marquardt a que se alcanzó el número máximo deilustrada iteraciones permitido. 1 y 2, se debe a que se alcanzó el número máximo de iteraciones permitido. Sin embargo, las Tablas 3 y 4 muestran lo que sucede si el número máximo de Sin embargo, las Tablassuficientemente 3 y 4 muestran que sucede si el número máximo de iteraciones se aumenta (o lo considerablemente). iteraciones se aumenta suficientemente (o considerablemente). Tabla 3: Otros resultados de los métodos secantes estructurados, N = 25,000, para la Tabla 3: Otros resultados de los métodos secantes estructurados, N = 25,000, para la evaluación de la función seno. evaluación de la función seno. nco nco 4 4 4 4 5 5 5 5 6 6 6 6 N = 25,000 N = 25,000 T ol T ol 10−3 10−3 10−7 10−7 10−3 10−3 10−5 10−5 10−3 10−3 10−7 10−7 P SBE P SBE t n t n 1 152 1 152 25 4103 25 4103 36 4225 36 4225 70 5298 70 5298 43 5017 43 5017 87 1090 87 1090 DF P E DF P E t n t n 61 1000 61 1000 − − − − 45 5374 45 5374 273 +25000 273 +25000 43 5005 43 5005 − − − − BF GSE BF GSE t n t n 1 69 1 69 3 329 3 329 1 116 1 116 1 153 1 153 1 68 1 68 40 4709 40 4709 Por otra parte, la divergencia del método SR1E se presentó por el mal Por otra parte, delaproximaban método SR1E se lapresentó porHessiano el mal condicionamiento de la las divergencia matrices que S(x), parte del condicionamiento las matrices aproximaban de E que guarda ladeinformación deque segundo orden. S(x), la parte del Hessiano de E que guarda la información de segundo orden. 144 Método secante estructurado para el entretenimiento del perceptrón multicapa Tabla 4: Otros resultados de los métodos de Gauss-Newton (GN), Levenberg-Marquardt (LM) y secante estructurado (BFGSE), N = 25,000, para la evaluación de la función seno. N = 25,000 nco 4 4 5 5 6 6 Tol 10−3 10−7 10−3 10−5 10−3 10−7 GN t 172 52 n 4230 +25000 LM t 1 23 146 - n 160 1395 665 - BF GSE t 1 3 1 1 40 1 n 69 329 153 116 4709 68 Problema 2: Predicción de consumo eléctrico [8, 15]. Problema 2: Predicción de consumo eléctrico [8, 15]. Una empresa abastecedora de energı́a eléctrica, en una población, debe garantizar que el servicio siempre llegue con buena calidad y, de ser posible, a un precio justo. Para que esto ocurra, el servicio debe entregar energı́a a todos los puntos que lo requieran, mantener los lı́mites de la frecuencia y la tensión con valores dentro de un rango tolerable y operar con costos mı́nimos, tanto económicos como ambientales. Por tal motivo, es indispensable una planeación exhaustiva del sistema que nos permita, no solo conocer su estado actual en cualquier momento sino también estados futuros, con el fin de no producir en exceso, ya que habrı́a desperdicio del servicio y daños en el medio ambiente; ni producir tan poco, que no sea suficiente para cubrir las necesidades del servicio. Una de las partes indispensables en esta planeación es la predicción del consumo de carga eléctrica. El interés de esta predicción radica en la necesidad de que las empresas productoras o vendedoras de energı́a de la región, conozcan con antelación las necesidades de su mercado para poder planear la distribución futura de la energı́a eléctrica, con el fin de optimizar tanto la producción como su abastecimiento. Por tal motivo, este problema consiste en predecir la demanda de consumo eléctrico en una región para una hora y un dı́a cualquiera, en años futuros. Para resolver este problema, usamos el modelo propuesto en una investigación realizada en la Universidad Tecnológica de Pereira [15], este modelo consiste en una red neuronal de 4 capas (Figura 4): la capa de entrada, con dos neuronas que corresponden al dı́a y la hora; la capa de salida, con una neurona que corresponde al consumo eléctrico en kilovatios (kw); la primera capa oculta, con doce neuronas, y la segunda capa oculta, con ocho neuronas. Como funciones de activación usaron la tangente sigmoidal (tansig), en ambas capas ocultas, y la identidad (purelin), en la capa de salida, y como algoritmo de entrenamiento, el método de LevenbergMarquardt que aparece en el Toolbox de Matlab . Volumen 18 No. 2, diciembre 2014 145 Revista de Ciencias H. Vivas, H. J. Martínez y R. Pérez Figura 4: Perceptrón multicapa para el consumo eléctrico. 146 Método secante estructurado para el entretenimiento del perceptrón multicapa En la Tabla 5, podemos observar que, en general, los 4 métodos secantes En la Tabla 5, podemos observar que, en general, métodos secantes estructurados tienen un buen desempeño numérico (similarlos en4 todos los casos), en En la Tabla 5, podemos observar que, en general, los 4 métodos secantes estructurados tienen un buen desempeño numérico (similar en todos los casos), en 2 cuanto a tiempo de ejecución y número de iteraciones, excepto, cuando µ = 10 estructurados tienen un buen desempeño numérico (similar en todos los casos), en 2, cuanto a tiempo de ejecución y número de iteraciones, excepto, cuando µ = 10 −3 2, en el cual, yelnúmero métodode PSBE empleó más tiempo y convergió en y T ol =a 10 cuanto tiempo de ejecución iteraciones, excepto, cuando µ = 10 −3 , caso , casodeeniteraciones el cual, el método PSBEmétodos. empleó más tiempo y convergió en, y Tnúmero ol = 10−3 un mayor que los otros , casodeeniteraciones el cual, el método PSBEmétodos. empleó más tiempo y convergió en y Tnúmero ol = 10 mayor un que los otros un número mayor de iteraciones que los otros métodos. N = 200 N = 200 = 200 ᾱ N Tol ᾱ Tol −5 1.0 10 ᾱ Tol 1.0 10−5 −5 1.2 10−2 1.0 1.2 10−2 −2 1.2 10−6 1.2 10−6 −6 10 1.2 10−2 10 10−2 −2 10 10−6 10 10−6 −6 -10 10 10−2 -10 10−2 −2 -10 10−6 -10 10−6 −6 100 10−2 -10 100 10−2 −2 100 10−6 100 10−6 −6 100 10 µ Tol µ Tol −2 µ Tol 1.0 10 1.0 10−2 −2 1.0 10−6 1.0 10−6 −6 10 1.0 10−2 10 10−2 −2 10 10−6 −6 10 10−14 −6 10 10 10−14 102 10−14 10−3 10 10 10 1022 10−3 10−3 10 Tabla 5: Resultados de los Tabla 5: eléctrico Resultados de los consumo Tabla 5: eléctrico Resultados de los consumo consumo eléctrico ᾱ ᾱ 1.2 ᾱ 1.2 1.2 1.2 10 1.2 10 10 102 10 10 10222 102 102 10 µ µ µ 1.0 1.0 1.0 1.0 10 1.0 10 10 10 10 Tol Tol −2 10 Tol 10−2 −6 10−2 10−6 −6 10−2 10−2 −2 10−6 10−6 −6 10−2 10−2 −2 10−6 10−6 −6 10 Tol Tol −2 Tol 10 10−2 −2 10−6 10−6 −6 10−2 10−2 −2 10−6 10−6 10−6 P SBE DF P E BF GSE SR1E P SBE DF P E BF GSE SR1E Pt SBE DF SR1E n t PE n BF t GSE n t n t n t n t n t n 3.5 6 6.9 6 10.3 6 13.7 6 t n t n t n t n 3.5 6 6.9 6 10.3 6 13.7 6 2.6 4 5.1 4 7.6 46 10.1 3.5 6 6.9 6 10.3 13.7 46 2.6 4 5.1 4 7.6 4 10.1 4 4.4 8 8.8 8 17.4 48 2.6 4 5.1 4 13.1 7.6 48 10.1 4.4 8 8.8 8 13.1 8 17.4 8 3.5 6 6.9 6 6 13.8 4.4 8 8.8 8 10.3 13.1 8 17.4 6 8 3.5 6 6.9 6 10.3 6 13.8 6 5.3 10.5 20.2 3.5 10 6 6.9 10 6 15.8 10.3 10 6 13.8 8 6 5.3 10 10.5 10 15.8 10 20.2 8 3.5 6 6.9 10 6 10.4 6 13.8 5.3 10 10.5 15.8 10 20.2 6 8 3.5 6 6.9 6 10.4 6 13.8 6 6 10 6 10 6 10 6 86 3.5 6 6.9 6 10.4 6 13.8 6 10 6 10 6 10 6 8 4.5 8 8.9 8 13.2 8 17.5 6 10 6 10 6 10 6 8 4.5 8 8.9 8 13.2 8 17.5 8 5.4 10.7 20.4 4.5 10 8 8.9 10 8 16.0 13.2 10 8 17.5 8 5.4 10 10.7 10 16.0 10 20.4 8 5.4 10 10 10 8 t n 10.7 t n 16.0 t n 20.4 t n t n t n t n t n t n t n t n t n 2.6 6 6.2 4 9.6 6 12.2 4 2.6 6 6.2 4 9.6 6 12.2 4 5.3 9.7 18.4 48 2.6 10 6 6.2 48 14.0 9.6 68 12.2 5.3 10 9.7 8 14.0 8 18.4 8 3.5 6 6.1 48 14.0 8.7 48 11.1 5.3 10 9.7 18.4 48 3.5 6 6.1 4 8.7 4 11.1 4 4.4 8 9.8 10 19.4 3.5 6 6.1 10 4 15.0 8.7 4 11.1 8 4 4.4 8 9.8 10 15.0 10 19.4 8 5 38 8 7 15.0 7 5 6 68 4.4 9.8 10 10 19.4 5 3 8 7 7 5 6 6 165 223 5 3 86 73 78 57 68 67 165 223 6 3 8 7 8 7 165 223 6 3 8 7 8 7 métodos secantes estructurados para el problema del métodos secantes estructurados para el problema del métodos secantes estructurados para el problema del GN GN t GNn t n tntnt n t n 69 118 69 118 92 164 69 118 92 164 92 164 - LM LM t LMn t n 64 112 t n 64 112 64 112 tnt n tn- BF GS BF GS BF t GSn t n 15.1 4 t n 15.1 4 29.6 15.1 20 4 29.6 20 27.0 24 29.6 20 27.0 24 35.4 27.0 28 24 35.4 28 31.7 26 35.4 28 31.7 26 36.6 31.7 30 26 36.6 30 36.6 30 t n t n t n 28.4 26 28.4 26 30.1 24 28.4 26 30.1 24 21.4 18 30.1 24 21.4 18 35.7 30 21.4 18 35.7 30 35.7 30 BF GSE BF GSE BF t GSE n t n 7.6 4 t n 7.6 4 13.1 84 7.6 13.1 8 10.3 68 13.1 10.3 6 15.8 10.3 10 6 15.8 10 13.2 8 15.8 10 13.2 8 16.0 13.2 10 8 16.0 10 16.0 10 t n t n t n 12.2 4 12.2 4 18.4 84 12.2 18.4 8 11.1 48 18.4 11.1 4 19.4 84 11.1 19.4 8 19.4 8 Tabla 6: Resultados de los métodos Gauss-Newton (GN), Levenberg-Marquardt (LM), Tablay6:secante Resultados de los métodos (GN), (LM), BFGS estructurado BFGSEGauss-Newton para el problema del Levenberg-Marquardt consumo eléctrico Tablay6:secante Resultados de los métodos (GN), (LM), BFGS estructurado BFGSEGauss-Newton para el problema del Levenberg-Marquardt consumo eléctrico BFGS y secante estructurado BFGSE para el problema del consumo eléctrico Volumen 18 No. 2, diciembre 2014 147 Revista de Ciencias 5 Comentarios finales 148 H. Vivas, H. J. Martínez y R. Pérez Método secante estructurado para el entretenimiento del perceptrón multicapa Referencias bibliográficas Volumen 18 No. 2, diciembre 2014 149 Revista de Ciencias Direccion de los autores 150 H. Vivas, H. J. Martínez y R. Pérez