Selección de Arquitecturas de Redes de Multicapa mediante un el criterio del Daño Cerebral Optimo Héctor ALLENDE1,2, Rodrigo SALAS1, Iván SUAZO2 1 Universidad Técnica Federico Santa María – Departamento de Informática, Chile Casilla 110-V; Valparaíso-Chile; {hallende, rsalas} @inf.utfsm.cl 2 Universidad Adolfo Ibáñez – Facultad de Ciencias y Tecnología, Chile Balmaceda 1625 Viña del Mar -Chile; [email protected] Resumen El método de selección de la arquitectura de una red neuronal artificial (RNAs) es una etapa importante en su diseño, ya que de ella depende su capacidad de generalización y la complejidad computacional de sus algoritmos. En este trabajo se investiga el problema de selección de la arquitectura de la red, Feedforward de multicapas (FNRAs) utilizando método basados en el análisis de sensibilidad para podar dichas redes. Los métodos del tipo Daño Cerebral Optimo (Optimal Brain Damage OBD) y sus variantes son utilizados para el análisis de sensibilidad. Finalmente se desarrolla un estudio de monte-Carlo para comparar estos métodos de selección de arquitectura. Keywords: Redes Neuronales, Arquitectura neuronal, Daño Cerebral Optimo, Poda. 1 1.- Introducción El problema de selección de la arquitectura de una red FRNAs será tratado mediante un método de análisis de sensibilidad, que se denomina algoritmo OBD, utilizando como función de desempeño el error cuadrático medio (ECM), ante cambios en la topología de la red y perturbaciones de sus parámetros. Una red del tipo Feedforward de multicapa de describe en la Figura 1: La notación para este tipo de redes (FRNAs) a utilizar Capa Capa Capa será rn(I, H, O), donde rn se refiere a Red Neuronal, I de de Oculta Entrada Salida denota el número de neuronas en la capa de entrada, H el número de neuronas en la capa oculta y O el f1 Vpm Wml número de neuronas en la capa de salida. Si es la Xi Sl f2 salida de la red de la unidad i: H Si f j 1 f1 Xj f2 f1 bi Figura 1: Red feedforward 3 capas Sk I f Wmk X k Vpj k 1 Xi corresponde a la entrada de la red, con i = 1,...,I. Wml y Vpm corresponden a los pesos de las conexiones, bi vector de umbral o sesgo. f i i 1,2 corresponde a la función de activación de las neuronas de las capas oculta y de salida. 2.- Métodos de Selección basados en Sensibilidad El análisis de sensibilidad busca determinar la diferencia de la función de desempeño E, debido a la presencia o ausencia de un determinado peso o nodo. Las Variantes de estos métodos dependen del tipo de función a considerar y de la medida de sensibilidad. Dentro de este grupo de métodos de poda se consideran en este trabajo el algoritmo de Daño Cerebral Mínimo (OBD) y el de Cirugía Cerebral Optima (OBS). 2.1 Daño Cerebral Mínimo (OBD) La técnica de Daño Cerebral Mínimo (OBD por sus siglas en inglés de Optimal Brain Damage) ha sido tratada por A. Engelbrecht (Ver [2] ; [3]) como un método para reducir el número de pesos en una red neuronal y evitar así el sobreentrenamiento. El método consiste en seleccionar aquellos pesos de la red cuya remoción tengan un pequeño efecto en la medida de desempeño ECM, lo que permite mejorar el desempeño de la red. El criterio de salida o eliminación de parámetros corresponde a una medida que representa el incremento esperado de la función de error después de que uno de los parámetros ha sido removido. Para ello, la medida de salida se calcula usando una aproximación de segundo orden de la función de error cerca de un mínimo local. Se eliminan aquellos pesos con un bajo valor de dicha medida. El cambio en el error debido a una pequeña alteración de algún peso k, k , se expresa como: E 1 2 E 3 E k k l O k 2 k l k l k k 2 Aplicando el método de convergencia de tipo Back Propagation, que define E 0 y k despreciando los términos de mayor orden, vale decir, ( ) 0 , la ecuación queda 3 2 reducida a: E 1 E k l 2 k l k l Además, si k y l no están correlacionados la ecuación se simplifica a: 1 2 E k k 2 k k2 Dado que lo que se busca es eliminar pesos, se puede calcular k k . E Por lo tanto, la medida de salida definida en OBD es: Sk Ek 1 E2 k2 2 k que corresponde a la medida del cambio del error cuadrático promedio cuando se remueve un parámetro de la red llevando su valor a cero. El procedimiento para la eliminación de los pesos consiste en generar un ranking de ellos de acuerdo al valor de Sk obtenido, removiendo aquel o aquellos que presenten el valor más bajo, luego se re-entrena la red y se repite nuevamente el proceso hasta satisfacer el criterio de parada. Se acepta la red modificada solamente si el desempeño esperado es mejorado de acuerdo con alguna medida determinada. En el presente trabajo se estudia una variante al algoritmo OBD, que mantiene la convergencia del tipo Back Propagation 3 E 0 y que también desprecia los términos de mayor orden ( ( ) 0 ), pero que ha 2 k diferencia del algoritmo OBD, admite la posibilidad que k y l puedan estar 2 correlacionados E 0 , k l con lo que la función de error quedaría: k l 1 2 E k l 2 k l k l Finalmente se presenta un estudio comparativo de los métodos de daño cerebral óptimo, para las redes FRNAs con una capa oculta, utilizando un conjunto de datos sintéticos. E 3. Bibliografía [1] L. Prechelt. ”Adaptive parameter pruning in neural networks”. Technical Report 95/009 International Computer Science Institute, 1995. [2] A. Engelbrecht. “A new pruning heuristic based on variance analisis of sensitivity information”. IEEE Transacctions on Neural Networks, Vol. 12, 2001. [3] A.P. Engelbrecht, I. Cloete. “A sensitivity analysis algorithm for pruning feedforward neural networks”. IEEE International Conference in Neural Networks, Vol. 2, 1996. [4] G. Thimm, E. Fiesler. “Neural network pruning and pruning parameters”. 1st Workshop on Soft Computing, 1996. [5] G. Thimm, E. Fiesler. “Pruning of Neural Networks”. IDIAP Research Repot 97-03, 1997. 3