Structured Secant Method for the Multilayer Perceptron Training

Anuncio
Facultad de Ciencias Naturales y Exactas
Universidad del Valle
Structured secant method for the multilayer perceptron training
Structured Secant Method for the Multilayer Perceptron Training
Hevert Vivas Héctor Jairo Martı́nez Rosana Pérez
Hevert Vivas
Héctor Jairo Martínez
Rosana Pérez
Universidaddel
delCauca
Cauca Universidad
Valle Universidad
del
Universidad
Universidad del
del Valle
Universidad
delCauca
Cauca
Received: May 6, 2014
Received: May 6, 2014
Accepted: August 22, 2014
Accepted: August 22, 2014
Pag. 131-150
Abstract
In the group of models of artificial neural networks, it is the multilayer perceptron,
a unidirectional neural network consisting of three or more layers, its training is done
by an algorithm called backpropagation. In this work, we introduced the structured
secant method for the training of multilayer perceptron and we compare its numerical
performance with other methods widely used with the same purpose. Some numerical
experiments show a good performance of this algorithm.
Keywords: Multilayer perceptron, structured secant method, training neural network,
nonlinear least squares.
Método secante estructurado para el entrenamiento del perceptrón
Método secante estructurado
para el entrenamiento
multicapa
del perceptrón multicapa
Resumen
Resumen
Dentro
delgrupo
grupo
modelos
de redes
neuronales
artificiales
está el perceptrón
Dentro del
de de
modelos
de redes
neuronales
artificiales
está el perceptrón
multicapa:
multicapa:
una unidireccional
red neuronal constituida
unidireccional
constituida
porcuyo
tresentrenamiento
o más capas,
una
red neuronal
por tres
o más capas,
se cuyo
hace
mediante
un
algoritmo
denominado
retro-propagacion
de
errores.
En
este
trabajo,
proponemos
e
entrenamiento se hace mediante un algoritmo denominado retro-propagación de errores.
implementamos
por primera
vez, el método
secante estructurado
para el entrenamiento
del perceptrón
En este trabajo,
proponemos
e implementamos
por primera
vez, el método
secante
multicapa
y analizamos
su desempeño numérico
comparandolo
con ymétodos
ampliamente
usados
estructurado
para el entrenamiento
del perceptrón
multicapa
analizamos
su desempeño
con
el
mismo
proposito.
Pruebas
numéricas
preliminares
muestran
un
buen
desempeño
numérico
numérico comparándolo con métodos ampliamente usados con el mismo propósito.
del
métodonuméricas
propuesto. preliminares muestran un buen desempeño numérico del método
Pruebas
propuesto.
Palabras clave: método secante estructurado, entrenamiento de redes neuronales artificiales,
perceptrón multicapa, mínimos cuadrados no lineales.
Palabras clave: método secante estructurado, entrenamiento de redes neuronales
artificiales, perceptrón multicapa, mı́nimos cuadrados no lineales.
Volumen 18 No. 2, diciembre 2014
131
Revista de Ciencias
1
Introduccion
2
Mínimos cuadrados no lineales (MCNL)
132
H. Vivas, H. J. Martínez y R. Pérez
Método secante estructurado para el entretenimiento del perceptrón multicapa
2.1 Planteamiento del problema
2.2 Métodos de solución
2.2.1 Método de Newton
Volumen 18 No. 2, diciembre 2014
133
Revista de Ciencias
2.2.2 Método Gauss-Newton
2.2.3 Método de Levenberg-Marquard
2.2.4 Métodos Secantes
134
H. Vivas, H. J. Martínez y R. Pérez
Método secante estructurado para el entretenimiento del perceptrón multicapa
2.2.5 Métodos secantes estructurados
Volumen 18 No. 2, diciembre 2014
135
Revista de Ciencias
136
H. Vivas, H. J. Martínez y R. Pérez
Método secante estructurado para el entretenimiento del perceptrón multicapa
3
Redes Neuronales Artificiales (RNA)
3.1 Modelo general de neurona artificial
Figura 1: Principales elementos de una neurona artificial.
Volumen 18 No. 2, diciembre 2014
137
Revista de Ciencias
3.2 Estructura
3.3 Aprendizaje
138
H. Vivas, H. J. Martínez y R. Pérez
Método secante estructurado para el entretenimiento del perceptrón multicapa
3.4 Perceptrón multicapa
Figura 2: Perceptrón multicapa (MLP).
Volumen 18 No. 2, diciembre 2014
139
Revista de Ciencias
140
H. Vivas, H. J. Martínez y R. Pérez
Método secante estructurado para el entretenimiento del perceptrón multicapa
4
Pruebas numéricas
4.1 Algoritmo general
Volumen 18 No. 2, diciembre 2014
141
Revista de Ciencias
Problema 1: Evaluación de la función seno
142
H. Vivas, H. J. Martínez y R. Pérez
Método secante estructurado para el entretenimiento del perceptrón multicapa
b1
y1
y2
b2
..
.
x
W1
z
W2
ynco
Figura
3: Percetrón multicapa que aproxima la función seno.
Figura 3: Perceptrón multicapa que aproxima la fúnción seno.
El vector de pesos iniciales para cada valor de nco, wnco
0 , lo generamos
=
aleatoriamente con la función de Matlab randn(·, ·), exactamente wnco
0
randn(3nco + 1, 1) [14].
Presentamos los resultados de estas pruebas en dos tablas, cuyas dos primeras
columnas contienen la información sobre el número de neuronas en la capa oculta
( nco ) y la tolerancia usada ( T ol ). Las cuatro columnas siguientes contienen,
para cada método, el tiempo de ejecución ( t ), medido en segundos, y el número
de iteraciones (n). El sı́mbolo “ - ” indica que hubo divergencia del método
considerado (se excedió el número máximo de iteraciones permitido ( N = 500 )).
Tabla 1: Resultados de los métodos secantes estructurados para la evaluación de
la función seno.
N = 500
nco
4
4
4
5
5
5
6
6
Tol
10−3
10−5
10−6
10−3
10−5
10−6
10−3
10−5
P SBE
t
1
−
−
−
−
−
−
−
Volumen 18 No. 2, diciembre 2014
n
152
−
−
−
−
−
−
−
DF P E
BF GSE
SR1E
t
−
−
−
−
−
−
−
−
t
0.5
1
2
1
1
−
1
−
t
−
−
−
−
−
−
−
−
n
−
−
−
−
−
−
−
−
n
69
134
319
116
153
−
78
−
n
−
−
−
−
−
−
−
−
143
H. Vivas, H. J. Martínez y R. Pérez
Revista de Ciencias
Tabla 2: Resultados de los métodos de Gauss-Newton (GN), Levenberg-Marquardt
Tabla
Resultados
de los métodos
de Gauss-Newton
(GN),de
Levenberg-Marquardt
(LM) y2:secante
estructurado
(BFGSE)
para la evaluación
la función seno.
(LM) y secante estructurado (BFGSE) para la evaluación de la función seno.
nco
nco
4
4
4
4
4
4
5
5
5
5
5
5
6
6
6
6
N = 500
N = 500
Tol
Tol
10−3
10−3
10−5
10−5
10−6
10−6
10−3
10−3
10−5
10−5
10−6
10−6
10−3
10−3
10−5
10−5
GN
GN
t
n
t
n
-
LM
LM
t
n
t
n
1
160
1
160
-
BF GSE
BF GSE
t
n
t
n
0.5
69
0.5
69
1
134
1
134
2
319
2
319
1
116
1
116
1
153
1
153
1
78
1
78
-
En la Tabla 1, podemos observar que en general, el método BFGSE
En
1, podemos
observardeque
en general,
el método
BFGSE
convergiólaenTabla
el menor
tiempo y número
iteraciones,
mientras
que los métodos
convergió
en el no
menor
tiempo yen
número
mientras
que
métodos
DFPE y SR1E
convergieron
ningúndedeiteraciones,
los casos. De
la Tabla
2, los
observamos
DFPE
y
SR1E
no
convergieron
en
ningún
de
los
casos.
De
la
Tabla
2,
observamos
y nco = 4 y 5 , el método BFGSE siempre converge y lo
que para T ol ≤ 10−5
que
T olmejor
≤ 10−5
y nco =numérico
4 y 5 , elque
método
BFGSE
siempre
convergeaquı́.
y lo
hacepara
con un
desempeño
los otros
métodos
comparados
hace
con
un
mejor
desempeño
numérico
que
los
otros
métodos
comparados
aquı́.
Además, el método Levenberg-Marquardt presentó mejor desempeño numérico que
Además,
el método Levenberg-Marquardt presentó mejor desempeño numérico que
Gauss-Newton.
Gauss-Newton.
Cabe mencionar que, la divergencia en los métodos secantes estructurados
Cabe
mencionar
que, la divergencia
en los métodosilustrada
secantes en
estructurados
PSBE,
DFPE,
Levenberg-Marquardt
y Gauss-Newton,
las Tablas
PSBE,
DFPE,
y Gauss-Newton,
en las
Tablas
1 y 2, se
debe Levenberg-Marquardt
a que se alcanzó el número
máximo deilustrada
iteraciones
permitido.
1
y
2,
se
debe
a
que
se
alcanzó
el
número
máximo
de
iteraciones
permitido.
Sin embargo, las Tablas 3 y 4 muestran lo que sucede si el número máximo de
Sin
embargo,
las Tablassuficientemente
3 y 4 muestran
que sucede si el número máximo de
iteraciones
se aumenta
(o lo
considerablemente).
iteraciones se aumenta suficientemente (o considerablemente).
Tabla 3: Otros resultados de los métodos secantes estructurados, N = 25,000, para la
Tabla
3: Otros
resultados
de los métodos secantes estructurados, N = 25,000, para la
evaluación
de la función
seno.
evaluación de la función seno.
nco
nco
4
4
4
4
5
5
5
5
6
6
6
6
N = 25,000
N = 25,000
T ol
T ol
10−3
10−3
10−7
10−7
10−3
10−3
10−5
10−5
10−3
10−3
10−7
10−7
P SBE
P SBE
t
n
t
n
1
152
1
152
25
4103
25
4103
36
4225
36
4225
70
5298
70
5298
43
5017
43
5017
87
1090
87
1090
DF P E
DF P E
t
n
t
n
61
1000
61
1000
−
−
−
−
45
5374
45
5374
273
+25000
273
+25000
43
5005
43
5005
−
−
−
−
BF GSE
BF GSE
t
n
t
n
1
69
1
69
3
329
3
329
1
116
1
116
1
153
1
153
1
68
1
68
40
4709
40
4709
Por otra parte, la divergencia del método SR1E se presentó por el mal
Por otra parte,
delaproximaban
método SR1E
se lapresentó
porHessiano
el mal
condicionamiento
de la
las divergencia
matrices que
S(x),
parte del
condicionamiento
las matrices
aproximaban
de
E que guarda ladeinformación
deque
segundo
orden. S(x), la parte del Hessiano
de E que guarda la información de segundo orden.
144
Método secante estructurado para el entretenimiento del perceptrón multicapa
Tabla 4: Otros resultados de los métodos de Gauss-Newton (GN), Levenberg-Marquardt
(LM) y secante estructurado (BFGSE), N = 25,000, para la evaluación de la función seno.
N = 25,000
nco
4
4
5
5
6
6
Tol
10−3
10−7
10−3
10−5
10−3
10−7
GN
t
172
52
n
4230
+25000
LM
t
1
23
146
-
n
160
1395
665
-
BF GSE
t
1
3
1
1
40
1
n
69
329
153
116
4709
68
Problema
2: Predicción
de consumo
eléctrico
[8, 15].
Problema
2: Predicción
de consumo
eléctrico [8,
15].
Una empresa abastecedora de energı́a eléctrica, en una población, debe
garantizar que el servicio siempre llegue con buena calidad y, de ser posible, a
un precio justo. Para que esto ocurra, el servicio debe entregar energı́a a todos
los puntos que lo requieran, mantener los lı́mites de la frecuencia y la tensión con
valores dentro de un rango tolerable y operar con costos mı́nimos, tanto económicos
como ambientales. Por tal motivo, es indispensable una planeación exhaustiva del
sistema que nos permita, no solo conocer su estado actual en cualquier momento
sino también estados futuros, con el fin de no producir en exceso, ya que habrı́a
desperdicio del servicio y daños en el medio ambiente; ni producir tan poco, que
no sea suficiente para cubrir las necesidades del servicio.
Una de las partes indispensables en esta planeación es la predicción del
consumo de carga eléctrica. El interés de esta predicción radica en la necesidad
de que las empresas productoras o vendedoras de energı́a de la región, conozcan
con antelación las necesidades de su mercado para poder planear la distribución
futura de la energı́a eléctrica, con el fin de optimizar tanto la producción como
su abastecimiento. Por tal motivo, este problema consiste en predecir la demanda
de consumo eléctrico en una región para una hora y un dı́a cualquiera, en años
futuros.
Para resolver este problema, usamos el modelo propuesto en una investigación
realizada en la Universidad Tecnológica de Pereira [15], este modelo consiste en
una red neuronal de 4 capas (Figura 4): la capa de entrada, con dos neuronas que
corresponden al dı́a y la hora; la capa de salida, con una neurona que corresponde
al consumo eléctrico en kilovatios (kw); la primera capa oculta, con doce neuronas,
y la segunda capa oculta, con ocho neuronas. Como funciones de activación usaron
la tangente sigmoidal (tansig), en ambas capas ocultas, y la identidad (purelin),
en la capa de salida, y como algoritmo de entrenamiento, el método de LevenbergMarquardt que aparece en el Toolbox de Matlab .
Volumen 18 No. 2, diciembre 2014
145
Revista de Ciencias
H. Vivas, H. J. Martínez y R. Pérez
Figura 4: Perceptrón multicapa para el consumo eléctrico.
146
Método secante estructurado para el entretenimiento del perceptrón multicapa
En la Tabla 5, podemos observar que, en general, los 4 métodos secantes
En la Tabla
5, podemos
observar que,
en general,
métodos
secantes
estructurados
tienen
un buen desempeño
numérico
(similarlos
en4
todos
los casos),
en
En
la
Tabla
5,
podemos
observar
que,
en
general,
los
4
métodos
secantes
estructurados
tienen
un buen desempeño
numérico
(similar
en todos
los casos),
en
2
cuanto
a
tiempo
de
ejecución
y
número
de
iteraciones,
excepto,
cuando
µ
=
10
estructurados
tienen
un buen desempeño
numérico
(similar
en todos
los casos),
en
2,
cuanto
a
tiempo
de
ejecución
y
número
de
iteraciones,
excepto,
cuando
µ
=
10
−3
2,
en
el cual, yelnúmero
métodode
PSBE
empleó más
tiempo
y convergió
en
y
T ol =a 10
cuanto
tiempo
de
ejecución
iteraciones,
excepto,
cuando
µ
=
10
−3 , caso
, casodeeniteraciones
el cual, el método
PSBEmétodos.
empleó más tiempo y convergió en,
y Tnúmero
ol = 10−3
un
mayor
que
los
otros
, casodeeniteraciones
el cual, el método
PSBEmétodos.
empleó más tiempo y convergió en
y Tnúmero
ol = 10 mayor
un
que los otros
un número mayor de iteraciones que los otros métodos.
N = 200
N = 200
= 200
ᾱ N Tol
ᾱ
Tol
−5
1.0
10
ᾱ
Tol
1.0
10−5
−5
1.2
10−2
1.0
1.2
10−2
−2
1.2
10−6
1.2
10−6
−6
10
1.2
10−2
10
10−2
−2
10
10−6
10
10−6
−6
-10
10
10−2
-10
10−2
−2
-10
10−6
-10
10−6
−6
100
10−2
-10
100
10−2
−2
100
10−6
100
10−6
−6
100
10
µ
Tol
µ
Tol
−2
µ
Tol
1.0
10
1.0
10−2
−2
1.0
10−6
1.0
10−6
−6
10
1.0
10−2
10
10−2
−2
10
10−6
−6
10
10−14
−6
10
10
10−14
102
10−14
10−3
10
10
10
1022
10−3
10−3
10
Tabla 5: Resultados de los
Tabla 5: eléctrico
Resultados de los
consumo
Tabla
5: eléctrico
Resultados de los
consumo
consumo eléctrico
ᾱ
ᾱ
1.2
ᾱ
1.2
1.2
1.2
10
1.2
10
10
102
10
10
10222
102
102
10
µ
µ
µ
1.0
1.0
1.0
1.0
10
1.0
10
10
10
10
Tol
Tol
−2
10
Tol
10−2
−6
10−2
10−6
−6
10−2
10−2
−2
10−6
10−6
−6
10−2
10−2
−2
10−6
10−6
−6
10
Tol
Tol
−2
Tol
10
10−2
−2
10−6
10−6
−6
10−2
10−2
−2
10−6
10−6
10−6
P SBE
DF P E BF GSE SR1E
P SBE
DF P E BF GSE SR1E
Pt SBE
DF
SR1E
n
t PE
n BF
t GSE
n
t
n
t
n
t
n
t
n
t
n
3.5
6
6.9
6 10.3
6
13.7
6
t
n
t
n
t
n
t
n
3.5
6
6.9
6 10.3
6
13.7 6
2.6
4
5.1
4
7.6
46
10.1
3.5
6
6.9
6 10.3
13.7 46
2.6
4
5.1
4
7.6
4
10.1 4
4.4
8
8.8
8
17.4 48
2.6
4
5.1
4 13.1
7.6
48
10.1
4.4
8
8.8
8 13.1
8
17.4 8
3.5
6
6.9
6
6
13.8
4.4
8
8.8
8 10.3
13.1
8
17.4 6
8
3.5
6
6.9
6 10.3
6
13.8 6
5.3
10.5
20.2
3.5 10
6
6.9 10
6 15.8
10.3 10
6
13.8 8
6
5.3 10 10.5 10 15.8 10 20.2 8
3.5
6
6.9 10
6 10.4
6
13.8
5.3 10
10.5
15.8 10
20.2 6
8
3.5
6
6.9
6 10.4
6
13.8 6
6
10
6
10
6
10
6
86
3.5
6
6.9
6 10.4
6
13.8
6
10
6
10
6
10
6
8
4.5
8
8.9
8 13.2
8
17.5
6
10
6
10
6
10
6
8
4.5
8
8.9
8 13.2
8
17.5 8
5.4
10.7
20.4
4.5 10
8
8.9 10
8 16.0
13.2 10
8
17.5 8
5.4 10 10.7 10 16.0 10 20.4 8
5.4
10
10
10
8
t
n 10.7
t
n 16.0
t
n 20.4
t
n
t
n
t
n
t
n
t
n
t
n
t
n
t
n
t
n
2.6
6
6.2
4
9.6
6
12.2
4
2.6
6
6.2
4
9.6
6
12.2 4
5.3
9.7
18.4 48
2.6 10
6
6.2
48 14.0
9.6
68
12.2
5.3 10
9.7
8 14.0
8
18.4 8
3.5
6
6.1
48 14.0
8.7
48
11.1
5.3 10
9.7
18.4 48
3.5
6
6.1
4
8.7
4
11.1 4
4.4
8
9.8
10
19.4
3.5
6
6.1 10
4 15.0
8.7
4
11.1 8
4
4.4
8
9.8 10 15.0 10 19.4 8
5
38
8
7 15.0
7
5
6
68
4.4
9.8
10
10
19.4
5
3
8
7
7
5
6
6
165
223
5
3
86
73
78
57
68
67
165 223
6
3
8
7
8
7
165 223
6
3
8
7
8
7
métodos secantes estructurados para el problema del
métodos secantes estructurados para el problema del
métodos secantes estructurados para el problema del
GN
GN
t GNn
t
n
tntnt
n
t
n
69
118
69 118
92
164
69 118
92 164
92
164
-
LM
LM
t LMn
t
n
64
112
t
n
64 112
64
112
tnt
n
tn-
BF GS
BF GS
BF
t GSn
t
n
15.1
4
t
n
15.1 4
29.6
15.1 20
4
29.6 20
27.0
24
29.6 20
27.0 24
35.4
27.0 28
24
35.4 28
31.7
26
35.4 28
31.7 26
36.6
31.7 30
26
36.6 30
36.6
30
t
n
t
n
t
n
28.4
26
28.4 26
30.1 24
28.4
26
30.1 24
21.4 18
30.1
24
21.4 18
35.7
30
21.4 18
35.7 30
35.7 30
BF GSE
BF GSE
BF
t GSE
n
t
n
7.6
4
t
n
7.6
4
13.1
84
7.6
13.1
8
10.3
68
13.1
10.3
6
15.8
10.3 10
6
15.8 10
13.2
8
15.8 10
13.2
8
16.0
13.2 10
8
16.0 10
16.0
10
t
n
t
n
t
n
12.2
4
12.2
4
18.4
84
12.2
18.4
8
11.1
48
18.4
11.1
4
19.4
84
11.1
19.4
8
19.4
8
Tabla 6: Resultados de los métodos Gauss-Newton (GN), Levenberg-Marquardt (LM),
Tablay6:secante
Resultados
de los métodos
(GN),
(LM),
BFGS
estructurado
BFGSEGauss-Newton
para el problema
del Levenberg-Marquardt
consumo eléctrico
Tablay6:secante
Resultados
de los métodos
(GN),
(LM),
BFGS
estructurado
BFGSEGauss-Newton
para el problema
del Levenberg-Marquardt
consumo eléctrico
BFGS y secante estructurado BFGSE para el problema del consumo eléctrico
Volumen 18 No. 2, diciembre 2014
147
Revista de Ciencias
5
Comentarios finales
148
H. Vivas, H. J. Martínez y R. Pérez
Método secante estructurado para el entretenimiento del perceptrón multicapa
Referencias bibliográficas
Volumen 18 No. 2, diciembre 2014
149
Revista de Ciencias
Direccion de los autores
150
H. Vivas, H. J. Martínez y R. Pérez
Descargar