UNIVERSIDAD VERACRUZANA Facultad de Contaduría y Administración Las redes neuronales con un Enfoque organizacional MONOGRAFÍA: Para obtener el título de: Licenciado en Sistemas Computacionales Administrativos Presenta: Francisco Xavier Basilio Hernández Asesor: MSI. Jorge Iván Ramírez Sandoval Xalapa-Enríquez, Veracruz Noviembre 2014 UNIVERSIDAD VERACRUZANA Facultad de Contaduría y Administración Las redes neuronales con un Enfoque organizacional MONOGRAFÍA: Para obtener el título de: Licenciado en Sistemas Computacionales Administrativos Presenta: Francisco Xavier Basilio Hernández Asesor: MSI. Jorge Iván Ramírez Sandoval Xalapa-Enríquez, Veracruz Noviembre 2014 DEDICATORIAS A mis padres Armando y Guadalupe: Por haberme apoyado durante todo el transcurso de mi carrera, dándome su confianza y los consejos necesarios para seguir adelante y no doblegarme ante situaciones difíciles. Al mismo tiempo doy gracias porque me hayan brindado una oportunidad para tener una profesión lo que me permitirá seguir preparándome y será una base para mi futuro. A mis abuelitos: Por estar y haber compartido tiempo y momentos únicos con cada uno de ellos, y también porque son la base principal de que yo este hoy en día logrando una etapa de estudios más, de muchas que pretendo seguir alcanzando. A mis hermanos Fernando y Julio: Por confiar en mí y apoyarme, y ser una inspiración más para mi hermano menor para que siga preparándose y algún día pueda yo, ver su logro alcanzado. A Marcela Zavaleta: Por su apoyo incondicional, por estar siempre en los mejores y no tan buenos momentos apoyándome de todas las formas que puedan existir, dándome consejos y alentándome para no darme por vencido. ÍNDICE CAPÍTULO I: FUNDAMENTOS DE LAS REDES NEURONALES .......................... 6 1.1 Hechos históricos ........................................................................................... 7 1.2. La neurona biológica ................................................................................... 13 1.3. El prototipo neuronal biológico y su composición........................................ 15 1.3.1. Soma o cuerpo celular .......................................................................... 15 1.3.2. Dendritas .............................................................................................. 15 1.3.3. Axón...................................................................................................... 15 1.3.4. Receptor ............................................................................................... 16 1.3.5. La sinapsis ............................................................................................ 16 1.3.6. Fenómenos que ocurren durante la sinapsis ........................................ 17 1.4. Las redes neuronales biológicas ................................................................. 19 1.5. La neurona artificial ..................................................................................... 21 1.5.1. El perceptrón ........................................................................................ 23 1.5.2. Cómo funciona la neurona artificial ....................................................... 25 1.5.3. Tipos de neuronas artificiales ............................................................... 27 1.5.4. Analogía entre la neurona biológica y la neurona artificial .................... 27 1.6. Conceptos de redes neuronales artificiales ................................................ 29 1.7. Aprendizaje de las redes neuronales artificiales ......................................... 30 1.7.1. Aprendizaje supervisado ....................................................................... 31 1.7.2. Entrenamiento no supervisado ............................................................. 33 1.7.3. Elección del conjunto inicial de pesos. .................................................. 35 1.7.4. Codificación de los datos de entrada .................................................... 35 1.7.5. Validación de la red neuronal ............................................................... 36 1.7.6. En síntesis: Qué son las redes neuronales artificiales .......................... 36 1.8. Ventajas de las redes neuronales artificiales .............................................. 37 1.8.1. Aprendizaje adaptativo ......................................................................... 38 1.8.2. Autoorganización .................................................................................. 39 1.8.3. Tolerancia a fallos ................................................................................. 39 1.9. Principales topologías ................................................................................. 40 II 1.9.1. Topología de las redes neuronales ...................................................... 40 1.9.2. Redes monocapa .................................................................................. 40 1.9.3. Redes multicapa ................................................................................... 41 1.10. Tipos de RNAs .......................................................................................... 42 1.10.1. Adaline y Madaline.............................................................................. 42 1.10.2. Hopfield............................................................................................... 44 1.10.3. ART..................................................................................................... 45 CAPÍTULO II: LAS REDES NEURONALES APLICADAS AL ENTORNO ORGANIZACIONAL .............................................................................................. 47 2.1. Concepto de organización .......................................................................... 48 2.2. Las redes neuronales en la organización .................................................... 49 2.3. Implementación de las redes neuronales .................................................... 51 2.4. Ventajas de las redes neuronales aplicadas a la organización ................... 52 CAPITULO III: EJEMPLOS PRÁCTICOS DE REDES NEURONALES ARTIFICIALES ...................................................................................................... 53 3.1. El perceptrón multicapa para modelizar la situación de quiebra en los bancos. .............................................................................................................. 54 3.2. WEBSOM .................................................................................................... 56 3.3 Ibermática: sistema de reconocimiento de imágenes .................................. 57 3.4. Trabajos desarrollados en Colombia ........................................................... 59 3.5. Sistema de inspección de Gaseoductos/Oleoductos: NEUROPIPE ........... 59 3.6. Tratamiento Anaeróbico de Aguas Residuales ........................................... 60 3.7. RNAs para Calificar la Capacidad de Crédito de Entidades Mexicanas de Gobierno ............................................................................................................ 62 CONCLUSIONES.................................................................................................. 65 FUENTES DE INFORMACIÓN ............................................................................. 68 GLOSARIO............................................................................................................ 72 ÍNDICE DE FIGURAS ........................................................................................... 74 ÍNDICE DE IMÁGENES ........................................................................................ 75 ÍNDICE DE TABLAS ............................................................................................. 76 ÍNDICE DE ESQUEMAS ....................................................................................... 77 III RESUMEN La presentación de esta monografía describe los fundamentos de las redes neuronales, así como de manera general se da un enfoque basado a la implementación de las redes neuronales en el ámbito organizacional, con la finalidad de entender sus funcionalidades dentro de ella. Como primer tema, se consideran algunas definiciones y conceptos que describen partes fundamentales para poder entender el comportamiento de las redes neuronales tanto biológicas como artificiales ya que tienen características similares con suma importancia para el desarrollo y la aplicación de sus funcionalidades en distintas ramas de la ciencia. Por último, se presenta un apartado en el que se analizan algunos casos reales, en los que se ha considerado la implementación de las redes neuronales en distintos tipos de sistemas que realizan diferentes actividades con el propósito de conseguir mayor eficiencia de sus procesos y al mismo tiempo predecir situaciones para obtener mejores resultados. 1 INTRODUCCIÓN El hombre durante mucho tiempo se ha distinguido siempre por su búsqueda inquebrantable de nuevas vías para mejorar sus condiciones de vida. Este factor lo ha puesto en la necesidad de apostar por alternativas capaces de resolver y facilitar el desarrollo de tareas de manera más eficiente, reduciendo el trabajo mental y físico, para obtener un mejor rendimiento mediante el uso de tecnologías y descubrimientos científicos. El desarrollo de las redes neuronales tiene que ver con diversas ramas de la ciencia, como la medicina en el análisis de imágenes médicas, campos de ultrasonido, etc., la implementación en proyectos científicos, así como en la psicología y la educación entre otras. Uno de esos conceptos científicos que, desde hace años ha dado el salto de las ciencias de la salud a otros espacios ha sido el de las redes neuronales. Las redes neuronales han servido como modelo inspirador de numerosos diseños relacionados con la informática, con el procesamiento de información de las máquinas e, incluso, con la gestión de proyectos. La realidad empresarial, y sobre todo, la realidad de la organización empresarial se asemejan ahora mucho a esta situación. Las compañías se encuentran, en gran medida, ante situaciones antes no conocidas que requiere de una gran capacidad adaptativa, rapidez en la respuesta, flexibilidad y conocimiento para trabajar en la incertidumbre. Y ante ella se enfrentan con estructuras pesadas y lentas heredadas de prácticas pasadas que impiden poderse mover de forma adecuada. Sin embargo, la aplicación de las redes neuronales se ha vuelto un gran reto para la organización ya que busca crear espacios que permitan que se formen redes que procesen la información y que la dirección de las salidas de esa red contribuya a la consecución de los objetivos. Por razones como estas, en la actualidad la demanda de las redes neuronales incrementa debido al alto índice de empresas que las implementan con el fin de 3 hallar soluciones y mejores maneras para realizar muchas de las funciones que realizan sistemas poco sofisticados. Las redes neuronales artificiales en pocas palabras son otra de las varias formas de intentar imitar las características únicas del ser humano, como la capacidad de memorizar y de asociar hechos históricos con el presente. Si se exploran con atención aquellos problemas que no pueden expresarse a través de un algoritmo, se observará que todos ellos tienen una característica en común con la experiencia. El hombre tiene la capacidad para resolver estas situaciones acudiendo a la experiencia adquirida. Así, parece claro que una forma de aproximarse al problema consista en la construcción de sistemas que sean capaces de reproducir esta característica humana. Dicho de otra manera, las redes neuronales no son más que un modelo artificial y simplificado del cerebro humano, que es el ejemplo más perfecto del que disponemos para un sistema que es capaz de adquirir conocimiento a través de la experiencia. Una red neuronal es un sistema para procesamiento de la información, cuya unidad básica de procesamiento está inspirada en la neurona. Se sabe que las redes neuronales se clasifican en dos tipos: las redes neuronales naturales o biológicas y las redes neuronales artificiales por ello en este trabajo se tocan algunos conceptos para poder entender el tema, así como un poco de la historia y el punto de vista de algunos de los científicos que aportaron a poder entender el comportamiento de esta rama de la neurología. Por ello se pretende ampliar el panorama acerca del impacto que puede tener la implementación de nuevos procesos y sistemas basados en las redes neuronales dentro de una organización. El objetivo de este trabajo es informar acerca de la funcionalidad que tienen las redes neuronales dentro de las organizaciones y de esta forma ampliar los conocimientos que se tienen acerca de esta rama de la ciencia. 4 En el capítulo I, se exponen algunas definiciones de la estructura neuronal de acuerdo a algunos autores, con el fin de entender a fondo lo que implica la formación de una red neuronal para su buen funcionamiento, así como la parte teórica del trabajo la cual conlleva parte de las investigaciones que respaldan gran parte de la investigación de este trabajo. Por otro lado el capítulo II, está basado en las investigaciones y aportaciones que se han hecho durante los últimos años y que han sido de suma importancia para el desarrollo de la ciencia y el descubrimiento de nuevas aplicaciones para las redes neuronales. Por último en el capítulo III, se presentan una serie de ejemplos reales que amplíen la expectativa hacia las redes neuronales y maximicen el entendimiento de estas mismas de manera implementada. Al término de este trabajo se presentan las conclusiones en las que se destaca la manera en que las redes neuronales pueden aplicarse dentro de la organización con el fin de agilizar los procesos y perseguir los objetivos buscados. Es importante mencionar que para la realización de este trabajo denominado Monografía de las Redes neuronales con un enfoque organizacional, se hizo una extensa investigación siendo necesaria la consulta de diferentes fuentes de información, tales como páginas web, tesis, libros, documento web. Con el fin de proporcionar información relevante, actual e importante para la consulta. 5 CAPÍTULO I: FUNDAMENTOS DE LAS REDES NEURONALES A fin, de comprender el tema principal de la monografía, es necesario dar a conocer el origen histórico de los estudios con respecto al comportamiento y función de las neuronas y las redes neuronales, ya que a partir de esos hechos históricos ha sido posible conocer con detalle la ciencia que estudia estos fenómenos y así ampliar el conocimiento y desarrollo de las investigaciones. 1.1 Hechos históricos Conseguir diseñar y construir máquinas capaces de realizar trabajos con cierta inteligencia ha sido uno de los principales objetivos y preocupaciones de los científicos a lo largo de la historia. De los intentos realizados en este sentido se han llegado a definir las líneas fundamentales para la obtención de máquinas inteligentes: En un principio los esfuerzos estuvieron dirigidos a la obtención de autómatas, en el sentido de máquinas que realizaran, con más o menos éxito, alguna función típica de los seres humanos. Pero esto no era más que el resultado del desarrollo técnico de la habilidad mecánica de los constructores de tales artefactos. Sin embargo, en esta misma línea se sigue investigando hoy en día con herramientas enormemente sofisticadas y con resultados realmente sorprendentes: la habilidad mecánica ha pasado a convertirse en disponibilidad microinformática (sistemas expertos, etc.), de forma que actualmente existen diversas maneras de realizar procesos similares a los inteligentes y que podemos encuadrar dentro de la denominada inteligencia artificial. Por lo tanto, a pesar de disponer de herramientas y leguajes de programación diseñados expresamente para el desarrollo de máquinas inteligentes, existe un problema de fondo que limita enormemente los resultados que se pueden obtener: 7 Estas máquinas se implementan sobre ordenadores basados en la filosofía del funcionamiento expuesta inicialmente por J. Von Neumann en 1945, y se apoyan en una descripción secuencial del proceso de tratamiento de la información. El elevado nivel y desarrollo de estos ordenadores, por espectacular y complejo que haya llegado a ser, no deja de seguir la línea antes expuesta: una máquina puramente mecánica que es capaz de realizar tareas mecánicas (de cálculo, ordenación o control) de forma increíblemente rápida, pero incapaz de obtener resultados aceptables cuando se trata de tareas sencillas, por ejemplo, para un ser humano de corta edad (reconocimiento de formas, habla, etc.). Por lo que, no se trata de construir máquinas que compitan con los seres humanos, sino que realicen ciertas tareas y un rango intelectual con que ayudarle, lo que supone en un principio básico de la inteligencia artificial. Dicho de otro modo, los sistemas que se lleguen a desarrollar no van a suponer la desaparición de los ordenadores, tal como hoy los entendemos, por lo menos en aquellas tareas para las que están mejor dotados incluso mejor que los seres humanos. La clase de las llamadas máquinas cibernéticas, a la cual la computación neuronal pertenece, tiene una historia de lo que se cree ha preexistido por siglos. Alan Turing (1936). Uno de los primeros científicos en estudiar las funciones del cerebro humano como una manera de adentrarse al mundo de la computación. Sin embargo, los primeros que desarrollaron la parte teórica como los fundamentos de la computación neuronal fueron Warren McCulloch, un neurofisiólogo, y Walter Pitts, un matemático, quienes, en 1943, lanzaron una teoría acerca de la forma de trabajar de las neuronas; la cual describía el modelo neuronal en el que, cada neurona consta de un número de entradas Si (peso), y una sola salida Sj (neurona). Por otro lado, durante la segunda mitad de los años 40 y 50, algunos investigadores comenzaron a desarrollar una perspectiva diferente en la construcción de máquinas inteligentes: la perspectiva de las redes neuronales 8 artificiales o sistemas conexionistas. Esta perspectiva no perseguía la modelación de redes neuronales fisiológicas, sino la construcción de máquinas inteligentes empleando arquitecturas computacionales de cierta semejanza con las redes neuronales del cerebro. Como antecedentes más directos a este grupo de investigadores, cabe destacar las aportaciones, por un lado, de Warren McCulloch y Walter Pitts en 1943 y, por otro lado, de Donald Hebb durante (1949). McCulloch y Pitts (1943) presentaron la estructura y funcionamiento de la unidad elemental de procesamiento de una red conexionista. La neurona de McCulloch y Pitts, como actualmente se conoce, tiene un funcionamiento muy sencillo: si la suma de entradas excitatorias supera el umbral de activación de la unidad, y además no hay una entrada inhibitoria, la neurona se activa y emite respuesta (representada por el valor 1); en caso contrario, la neurona no se activa (valor 0 que indica la ausencia de respuesta). De manera que, combinando varias neuronas con los adecuados umbrales de respuesta, se puede construir una red que compute cualquier función lógica finita y realice funciones en conjunto que permitan procesar la información de forma lógica para la realización de tareas prácticas. Hebb (1949) postuló un sencillo pero potente mecanismo de regulación de las conexiones neuronales, que constituyó la base de las reglas de aprendizaje que más tarde se desarrollarían. La regla de Hebb, en su versión más elemental, se expresa como sigue: “Cuando un axón de una célula A está bastante cerca para excitar a una célula B y repetida o persistentemente dispara, entonces se produce algún proceso de desarrollo o cambio metabólico de tal forma que la eficiencia del disparo de A hacia B aumenta”. La propuesta de Hebb es de especial relevancia porque indica que la información necesaria para modificar el valor de una conexión se encuentra localmente disponible a ambos lados de la conexión. (Hebb, 1949, p. 42) La evolución de la investigación en redes neuronales desde los años 50 a nuestros días ha estado condicionada por dos grandes acontecimientos: el 9 abandono de esta línea de investigación en la segunda mitad de los 60 debido a las limitaciones observadas en la red Perceptrón simple y la emergencia del conexionismo en la segunda mitad de los 80 como paradigma aceptado en inteligencia artificial, gracias entre otros avances, a la aparición de un algoritmo, denominado backpropagation error (propagación del error hacia atrás) o simplemente backpropagation, que permite modificar las conexiones de arquitecturas multiestrato. En el primer período de la investigación en redes neuronales, entre mediados de los 50 y mediados de los 60, una cantidad importante de científicos, ingenieros y grupos de investigación dedicaron importantes esfuerzos a la construcción y experimentación de estos sistemas. Entre los grupos más importantes se podrían destacar el grupo de Rosenblatt en la Universidad de Cornell Nueva York, en el Instituto de Investigación de Stanford California, y el grupo de B. Widrow en el Departamento de Ingeniería Electrónica de la Universidad de Stanford. En este período se produjeron importantes contribuciones científicas. Una de las más importantes fue el trabajo de los grupos de Rosenblatt (1958) y Widrow (1960), con sistemas conexionistas de único estrato o capa (Red neuronal que solo tienen una capa de conexiones modificables). La red diseñada por Rosenblatt en 1958, denominada Perceptrón se muestra en la Imagen 1.1.1. A pesar de tener dos estratos de conexiones, sólo uno de ellos está compuesto de conexiones modificables. La capa de entrada o retina consiste en un conjunto de unidades de entrada binarias conectadas por conexiones con valor fijo con las unidades de la capa de asociación o de predicados. La última capa es la de respuesta o decisión, cuya única unidad, con salida binaria, es la que tiene conexiones modificables con los predicados de la capa anterior. 10 Imagen 1.1.1. El Perceptrón de Rosenblatt (McClelland, 2014) Así pues Donald Hebb (1949). Fue uno de los primeros investigadores en explicar las formas y procesos del aprendizaje desde un punto de vista psicológico, desarrollando una regla para revelar como acontecía el aprendizaje. En 1950 Karl Lashley. Durante sus pruebas, descubrió que la información generada en el cerebro humano no era almacenada en forma centralizada sino que era distribuida encima de él. Durante 1956 se llevó a cabo el Cngreso de Dartmouth. En el cuál se trataron los primeros conocimientos del nacimiento de la inteligencia artificial. Bernard Widroff y MarcianHoff (1960). Desarrollaron el modelo Adeline que por sus siglas en inglés significa Adaptative Linear Elements. Fue la primera red neuronal aplicada a un problema real para excluir los ecos en las líneas telefónicas. A continuación en la siguiente tabla, se muestra de manera simplificada las fechas con mayor relevancia en las investigaciones sobre las redes neuronales. 11 1943 McCulloch y Pitts presentan la neurona formal. 1949 D. Hebb publica su regla de aprendizaje para neuronas. 1951 Minsky plantea su máquina neuronal. 1956 Rochester, Holland, entre otros, realizan pruebas sobre ensambles de células y su acción en el cerebro. 1958 Von Neumann propone un modelo para el cerebro. 1958 Rosenblatt propone el perceptrón. Widrow y Hopf presentan el Adaline y el aprendizaje por ajuste 1960 de mínimos cuadrados. Lo aplican a la eliminación del eco en llamadas telefónicas y constituye la primera aplicación práctica de las redes neuronales. 1969 Minsky y Papert analizan el preceptrón y encuentran que tiene limitaciones lógicas importantes. Tabla 1.1.1 La década de las redes neuronales (Aporte personal) En la actualidad existe un gran número de redes neuronales cuyo aprendizaje está basado en la regla de Hebb como las conocidas redes de Hopfield (1982) y algunos modelos de red propuestos por Kohonen (1977). En relación con la información antes presentada, podemos concluir que el estudio de las redes neuronales comienza a partir de los descubrimientos que se realizaron a la forma de trabajar del cerebro humano y al mismo tiempo fue uno de los principales motivos por lo que muchos investigadores comenzaron a desarrollar diversas maneras de emular las características y procesamiento de la neurona biológica, lo que dio origen al prototipo artificial neuronal el cual hoy en día se sigue utilizando para el desarrollo de diversas aplicaciones en la ciencia y por su parte permiten agilizar los procesos al interpretar la información que ingresa al sistema dando como resultado una respuesta de manera lógica. 12 En otras palabras, el interés por las redes neuronales se ha venido intensificando a lo largo de los años, lo que ha acumulado hechos históricos de suma importancia para los desarrolladores y científicos de la actualidad, ya que les ayuda a conocer e identificar los factores problemáticos que se presentaban al inicio de las primeras investigaciones respecto al comportamiento y funcionamiento de la neurona y al mismo tiempo consigan ampliar su panorama de estudio. 1.2. La neurona biológica Existen diversas definiciones acerca de lo que es una neurona, con el fin de crear un concepto general se describen algunas de las más importantes, entre ellas se encuentran las siguientes: La neurona denominada del griego νεῦρον, significa nervio o Célula nerviosa, que generalmente consta de un cuerpo de forma variable y provisto de diversas prolongaciones, una de las cuales, de aspecto filiforme y más larga que las demás, es el axón o neurita. (RAE, 2001). Córdoba (2005) Explica que: La neurona es la célula principal del sistema nervioso, tiene la capacidad de responder a los estímulos generando un impulso nervioso que se transmite a otra neurona, a un músculo o a una glándula. En otras palabras, una neurona es una célula viva y, como tal, contiene los mismos elementos que forman parte de todas las células biológicas. En general una neurona consta de un cuerpo celular más o menos esférico, de 5 a 10 micras de diámetro, del que sale una rama principal, el axón, y varias ramas más cortas, llamadas dendritas (Hilera, Martínez, 1995). Dicho esto, la neurona es una de las estructuras más importantes del cuerpo humano y del sistema nervioso pues tiene características importantes que le permiten al cerebro generar pensamientos, tener sensaciones de placer y disgusto, en otras palabras nuestro cerebro cada vez que pierde la función de una de ellas por consecuencia también pierde o desestabiliza las funciones del cuerpo 13 humano como se ha visto en diversas padecimientos relacionados a esto, tal es el caso de la pérdida de memoria, perdida de equilibrio, Alzheimer, entre otros padecimientos. La neurona es considerada la unidad funcional porque puede aislarse como componente individual y puede llevar a cabo la función básica del sistema nervioso, que es la transmisión de información en la forma de impulsos nerviosos. Las formas más comunes en que se presentan las neuronas biológicas, se muestran en el esquema a continuación: Esquema 1.2.1. Estructuras típicas de las neuronas biológicas (Flórez y Fernández, 2008). En síntesis a lo expuesto anteriormente y analizando el esquema se puede decir que las neuronas adquieren diferentes formas pero sus funciones de procesamiento siempre son iguales de modo ordenado y lógico, es decir procesan los impulsos eléctricos que se reciben en las entradas (dendritas) y con ello generan la información necesaria para que el sistema nervioso pueda actuar de acuerdo a las necesidades fisiológicas de cada individuo. 14 1.3. El prototipo neuronal biológico y su composición 1.3.1. Soma o cuerpo celular Una de las partes importantes de la neurona es el soma que corresponde a la parte más voluminosa de la neurona. En él se puede observar una estructura esférica llamada núcleo. Éste contiene la información que dirige la actividad de la neurona. Además, en el soma se encuentra el citoplasma. En él se ubican otras estructuras que son importantes para el funcionamiento de la neurona. 1.3.2. Dendritas La célula está conformada de elementos que en conjunto o de manera individual tienen una función específica, puesto que son necesarios para el buen funcionamiento de la misma, tal es el caso de las dendritas que son las extremidades que como principal función se encargan de recibir los datos de entrada. Desde el punto de vista anterior podemos definir a las dendritas de acuerdo al siguiente autor: Anderson (2007). Las dendritas son: “Un extremo de la célula, el de la entrada, tiene un número de finas ramificaciones, llamadas dendritas, por su parecido a un árbol (dendro, es una raíz griega para significar “árbol”, de ahí dendrita, dendrocronología, etc.)” (p.28). Partiendo de los párrafos anteriores y sintetizando la definición dada, las dendritas son prolongaciones cortas que se originan del soma neural. Su función es recibir impulsos de otras neuronas y enviarlas hasta el soma de la neurona. 1.3.3. Axón El axón por su parte tiene una función de suma importancia en la estructura neuronal, pues es el encargado de servir como puente para que los datos se transmitan de manera correcta, por lo que se define al axón de la siguiente manera: 15 “Es la línea de transmisión de la neurona. Los axones pueden dar lugar a ramificaciones colaterales, junto con la rama principal, por la que la conectividad real de una neurona puede ser bastante complicada” (Anderson, 2007, p.28). A saber, el axón es una prolongación única y larga, que en ocasiones puede medir hasta un metro de longitud; Su función principal es sacar el impulso desde el soma neuronal y conducirlo hasta otro lugar del sistema. 1.3.4. Receptor El receptor como su nombre lo dice es la estructura encargada de captar el estímulo del medio ambiente y transformarlo en impulso nervioso. En los receptores existen neuronas que están especializadas según los distintos estímulos. En la siguiente tabla se puede visualizar algunos puntos de recepción. Ojo -----------> Visión Oído -----------> Audición Nariz -----------> Olfato Lengua -----------> Gusto Piel -----------> Tacto Tabla 1.3.4.1. Receptores del cuerpo humano (Elaboración propia). 1.3.5. La sinapsis La sinapsis es un proceso de excitación que se lleva a cabo entre neuronas, se presenta mediante la activación de cada neurona en la cual cada una de ellas transmite la información generada mediante impulsos eléctricos llamados pesos sinápticos, para tener un concepto más figurado a continuación se presenta el significado de la sinapsis. Martín y Sanz (2007) definen lo siguiente: La unión entre dos neuronas se denomina sinapsis. En el tipo de sinapsis más común no existe un contacto físico entre las neuronas, sino que estas permanecen separadas por un pequeño vacío de unas 0.2 micras. En 16 relación a la sinapsis se habla de neuronas presinápticas (las que envían las señales) y postsinápticas (las que las reciben). Las sinapsis son direccionales, es decir, la información fluye siempre en único sentido. (p.6) En resumen, la sinapsis es el proceso esencial en la comunicación neuronal y constituye el lenguaje básico del sistema nervioso. Afortunadamente, las semejanzas de los mecanismos sinápticos son mucho más amplias que las diferencias, asociadas éstas a la existencia de distintos neurotransmisoras con características particulares. 1.3.6. Fenómenos que ocurren durante la sinapsis Cuando un potencial de acción llega al terminal de un axón son liberados transmisores alojados en diminutas vesículas, que después son vertidos en una hendidura de unos 20 nanómetros de anchura que separa la membrana presináptica de la postsináptica; durante el apogeo del potencial de acción, penetran iones de calcio en el terminal nervioso, su movimiento constituye la señal determinante de la exocitosis sincronizada, esto es la liberación coordinada de moléculas neurotransmisoras. En cuanto son liberados, los neurotransmisores se enlazan con receptores pos sinápticos, instando el cambio de la permeabilidad de la membrana (Anderson, 2007). Por lo que, el desplazamiento de carga hace que la membrana se aproxime al umbral de generación de potenciales de acción, al mismo tiempo se produce un efecto excitador y cuando la membrana resulta estabilizada en la vecindad el valor de reposo se produce un efecto inhibidor. Cada sinapsis produce sólo un pequeño efecto, para determinar la intensidad o frecuencia de los potenciales de acción de la respuesta cada neurona ha de integrar continuamente hasta unas 1000 señales sinápticas, que se suman en el soma o cuerpo de la célula. En algunas neuronas los impulsos se inician en la unión entre el axón y el soma, y luego se transmiten a lo largo del axón a otras células nerviosas. Cuando el axón 17 está cerca de sus células destino, se divide en muchas ramificaciones que forman sinapsis con el soma o axones de otras células. Las sinapsis pueden ser excitatorias o inhibitorias según el neurotransmisor que se libere, cada neurona recibe de 10.000 a 100.000 sinapsis y su axón realiza una cantidad similar de sinapsis. Las sinapsis se clasifican según su posición en la superficie de la neurona receptora en tres tipos: axo-somática, axo-dendrítica, axo-axónica. Los fenómenos que ocurren en la sinapsis son de naturaleza química, pero tienen efectos eléctricos laterales que se pueden medir. En la imagen (1.3.6.1 y 1.3.6.2) se visualiza el proceso químico de una sinapsis y los diferentes elementos que hacen parte del proceso tanto en la neurona presináptica, como en el postsináptica. Imagen 1.3.6.1. Proceso de la sinapsis (Biblioteca Digital). 18 Imagen 1.3.6.2. Activación de la sinapsis (Flórez y Fernández, 2008) 1.4. Las redes neuronales biológicas El cerebro consta de un gran número de elementos altamente interconectados, llamados neuronas. Estas neuronas tienen tres componentes principales, las dendritas, el cuerpo de la célula o soma, y el axón. En otras palabras las dendritas, son el árbol receptor de la red, son como fibras nerviosas que cargan de señales eléctricas el cuerpo de la célula. El cuerpo de la célula, realiza la suma de esas señales de entrada. Y por su parte el axón es una fibra larga que lleva la señal desde el cuerpo de la célula hacia otras neuronas. El punto de contacto entre un axón de una célula y una dendrita de otra célula es llamado sinapsis, la longitud de la sinapsis es determinada por la complejidad del proceso químico que estabiliza la función de la red neuronal. Las neuronas forman redes complicadísimas, que por su puesto estamos de conocer por completo. Sabemos que algunos de estos circuitos están relacionados con el movimiento, otros con el sueño, y otros más con las emociones y la conducta. (Pasantes, 1997). El sistema de neuronas biológico está compuesto por neuronas de entrada conectados a una compleja red de neuronas, las cuales a su vez están 19 conectadas a las neuronas de salida que controlan el principal elemento del sistema nervioso. Algunas de las estructuras neuronales son determinadas en el nacimiento, otra parte es desarrollada a través del aprendizaje, proceso en que nuevas conexiones neuronales son realizadas y otras se pierden por completo. El desarrollo neurológico se hace crítico durante los primeros años de vida, por ejemplo si a un cachorro de gato, se le impide usar uno de sus ojos durante un periodo corto de tiempo, el nunca desarrollara una visión normal en ese ojo. Las estructuras neuronales continúan cambiando durante toda la vida, estos cambios consisten en el refuerzo o debilitamiento de las uniones sinápticas; por ejemplo se cree que nuevas memorias son formadas por la modificación de esta intensidad entre sinapsis, así el proceso de recordar el rostro de un nuevo amigo, consiste en alterar varias sinapsis. En la siguiente figura se muestra de forma simplificada la interconexión entre dos neuronas biológicas. CUERPO O SOMA AXÓN SINAPSIS DENDRITAS Figura 1.4.1. Conexión entre dos neuronas biológicas (Aporte personal). 20 1.5. La neurona artificial Del mismo modo que las neuronas biológicas también existen las neuronas artificiales, las cuales han sido creadas por la ciencia para interpretar las funciones y características principales de la neurona biológica. Es decir, ejecuta las funciones de manera lógica con el uso de cálculos, algoritmos y una serie de señales eléctricas parecidas a las que se emiten en el cerebro humano con el fin de procesar información para llegar al resultado esperado. Torra y Monte (2013) dicen que: Los modelos neuronales artificiales asumen muchas simplificaciones del modelo biológico para poder plantear su desarrollo matemático. A continuación se presenta la comparación grafica de la neurona biológica y la neurona artificial. Imagen 1.5.1. Paralelismo entre el modelo biológico (a) y el modelo McCulloch-pitts (b) (Torra y Monte, 2013). 21 De acuerdo al texto del libro redes neuronales y sistemas borrosos, las neuronas artificiales se definen de la siguiente manera: Martín y Sanz (2007) dicen que: “Se denomina procesador elemental o neurona a un dispositivo simple de calculo que, a partir de un vector de entrada procedente del exterior o de otras neuronas, proporcionan una única respuesta o salida” (p.13). En otras palabras, la neurona recibe estímulos provenientes de otras neuronas y proporciona una respuesta única de salida. Con ello es importantes mencionar la caracterización de tres tipos de neuronas artificiales: unidades de entrada, de salida y ocultas (Esquema 2.4.2). A continuación se puede visualizar en el siguiente esquema los tipos de neuronas de las cuales se ha mencionado anteriormente. Esquema 1.5.2. Tipos de neuronas artificiales (Flórez y Fernández, 2008). Específicamente, a partir del esquema anterior podemos decir que: Las neuronas de entrada: reciben señales del exterior, estas señales pueden provenir de sensores o sectores del sistema, como es el caso de archivos de almacenamiento de patrones de aprendizaje. 22 Por otra parte las neuronas de salida envían su señal fuera del sistema una vez terminado el procesamiento de la información o mejor conocido como salidas de red. Las neuronas ocultas, estas reciben y emiten señales dentro del sistema sin estar expuestas con el entorno. Dentro de ellas se lleva a cabo el procesamiento básico de información. 1.5.1. El perceptrón La estructura neuronal que solo presenta una neurona de cómputo es denominada perceptrón y es considerado uno de los primeros prototipos de neurona artificia desarrollado principalmente por Frank Rosenblatt. A continuación se exterioriza una definición más particularizada del significado del perceptrón. Lafon (2002) menciona que: El perceptrón es el modelo más sencillo de neuronas artificiales. Se inspira de forma directa del comportamiento de la neurona real. En cada neurona, las entradas Xi se suman linealmente ponderadas por un conjunto de parámetros Wi. A todo esto se le suma un parámetro más b y el resultado se pasa por una función 𝜑. El resultado es la salida Y. la ecuación de la neurona es: Los esquemas 1.5.1.1 y 1.5.1.2 muestran la estructura de una neurona artificial partiendo de los valores de la ecuación anterior. 23 Esquema 1.5.1.1. Modelo de una neurona artificial (Lafon, 2002). Por consiguiente a continuación se muestra el prototipo de la estructura del perceptrón según Frank Rosenblatt. Esquema 1.5.1.2. Representación de un perceptrón de dos entradas (Hernández, 2009). Hagan (1996) por consiguiente refiere que: Frank Rosenblatt en 1950 junto con otros investigadores, desarrollaron una clase de redes neuronales llamadas perceptrones, cuyas neuronas similares a las de McCulloch y Pitts (1943). De esta manera Rosenblatt contribuyo al introducir la regla de entrenamiento del perceptrón para los problemas de reconocimiento de patrones, observando que esta regla siempre tiende hacia los valores de los pesos correctos, la cual aprende de los errores. 24 Este modelo está determinado por tres funciones principales, las cuales son, activación, propagación y transferencia; mediante esta última se da una retroalimentación, la cual posibilita el aprendizaje mediante entrenamiento. 1.5.2. Cómo funciona la neurona artificial La neurona artificial tiene comportamientos similares a la neurona biológica aunque la mayoría de ellos sigue un proceso específico para el buen funcionamiento de esta. Por ello a continuación se describen algunos puntos que detallan parte del procedimiento que realiza la neurona para ser útil. Según, Martín y Sanz (2007) dan a conocer que: Las variables de entrada y salida pueden ser binarias (digitales) o continuas (analógicas), dependiendo del modelo y aplicación. Por ejemplo, un perceptrón multicapa o MLP (multilayer perceptrón) admite ambos tipos de señales. Así, para tareas de clasificación poseería salidas digitales {0, +1}, mientras que para un problema de ajuste funcional de una aplicación multivariable continua, se utilizarían salidas continuas pertenecientes a un cierto intervalo. (p.14) Esto es, se aplica un conjunto de entradas a la neurona, cada una de las cuales representa una salida de otra neurona, esta entrada se multiplica por su "peso" o ponderación correspondiente análoga al grado de conexión de la sinapsis. Todas las entradas ponderadas se suman y se determina el nivel de excitación o activación de la neurona. Una representación vectorial del funcionamiento básico de una neurona artificial se indica en la siguiente imagen: 25 Imagen 1.5.2.1. Modelo genérico de neurona artificial (Martín y Sanz, 2007). Para entender la imagen anterior se explican las variables que se utilizan para llevar a cabo el procesamiento de la información en las neuronas artificiales: Conjunto de entradas, xj (t). Pesos sinápticos de la neurona i, wij que representan la intensidad de interacción entre cada neurona presináptica j y la neurona postsináptica i. Regla de propagación 𝜎 (𝑤𝑖𝑗, 𝑥𝑗(𝑡)), que proporciona el valor del potencial postsinaptico hi (t)= 𝜎 (𝑤𝑖𝑗, 𝑥𝑗(𝑡)) de la neurona i, en función de su estado anterior ai (t-1) y de su potencial postsináptico actual. Función de activación fi (ai (t-1), hi (t)), que proporciona el estado de activación actual ai (t) = fi (ai (t-1), hi (t)) de la neurona i, en función de su estado anterior que ai (t-1) y de su potencial postsináptico actual. Función de salida Fi (ai (t)), que proporciona la salida actual yi (t) = Fi (ai (t)) de la neurona i en función de su estado de activación. De este modo, la operación de la neurona i puede expresarse como: Yi (t) = Fi(fi [ai (t-1), 𝜎i (wij, xj (t))]) 26 Este modelo de neurona formal se inspira en la operación de la biológica, en el sentido de integrar una serie de entradas y proporcionar cierta respuesta, que se propaga por el axón. (Martín, Sanz, 2007, p. 14) 1.5.3. Tipos de neuronas artificiales Las neuronas artificiales se clasifican de acuerdo al valor que puedan tomar. Las dos principales son: neurona binaria Neurona real Por lo tanto, tratándose de la primera clasificación estas neuronas solo pueden tomar valores dentro del intervalo {0,1} o {-1,1}, mientras que las neuronas reales lo hacen dentro del rango [0,1] o [-1,1]. Es importante mencionar que los pesos no están restringidos a un cierto intervalo aunque para algunas aplicaciones específicas puede ser esto necesario (Matich, 2001). 1.5.4. Analogía entre la neurona biológica y la neurona artificial A fin de poder apreciar las características y semejanzas de la neurona artificial con la neurona biológica es indispensable realizar una comparación del comportamiento de cada una de ellas con relación a los procesamientos que realizan durante la actividad sináptica en una red neuronal, de tal manera se puede apreciar en la siguiente imagen: Imagen 1.5.4.1. Analogía directa entre la neurona biológica y la neurona artificial (Flórez y Fernández, 2008). 27 De acuerdo a la analogía anterior de la neurona biológica y la artificial se identifican las siguientes diferencias: Las neuronas biológicas no necesitan ser programadas, es decir con el paso del tiempo aprenden por si solas a través de la memoria, pueden manejar información ambigua, múltiple e inconsistente a comparación de las artificiales que necesitan ser programadas y no pueden recordar hechos pasados para aprender sin antes ser entrenadas. En el sistema biológico el daño de una neurona puede ser sustituido por alguna otra más o no se interrumpe la respuesta de información en cambio dentro de un sistema artificial, el que la neurona falle significa una interrupción en el sistema de salida o respuesta de esta misma. A continuación se presenta de manera gráfica la estructura de un sistema basado en redes neuronales artificiales. Esquema 1.5.4.1. Estructura jerárquica de un sistema basado en redes neuronales artificiales (Flórez y Fernández, 2008). 28 Ahora bien, analizando el esquema de arriba podemos visualizar que la estructura de un sistema basado RNAs está constituida a partir de una o varias capas neuronales conformadas por más de una neurona artificial, así mismo podemos tener una noción de la dirección que toma la información que accede a ella. 1.6. Conceptos de redes neuronales artificiales Las redes neuronales son la interconexión entre neuronas con el propósito de trasmitir información cerebral o en su caso trasmitir información mediante nodos generada por operaciones lógicas y algoritmos para el caso las redes neuronales artificiales. Existen numerosas formas de definir lo que son las redes neuronales, desde las definiciones cortas y genéricas hasta las que intentan explicar más detalladamente lo que significa red neuronal o computación neuronal. Vale decir, que una red neuronal es un sistema de computación hecho por un gran número de elementos simples, de proceso muy interconectados, los cuales procesan información por medio de su estado dinámico como respuesta a entradas externas(Cruz, 2003). En otras palabras, las Redes neuronales artificiales son redes interconectadas masivamente en paralelo de elementos simples y con organización jerárquica, es decir, el procesamiento de los datos de entrada se va ejecutando de acuerdo a la estructura de la capa neuronal de la que está conformada, las cuales tienen un número determinado de neuronas que intercambian información con los objetos del mundo real del mismo modo que lo hace el sistema nervioso biológico (Kohonen, 2001). Por lo tanto, es necesario destacar que tales computadoras neuronales no ejecutan las típicas instrucciones de máquina de los computadores digitales, a menos que estén hechos para emular el comportamiento de las redes neuronales física. En principio, la operación de proceso básico realzada por todos los 29 procesadores elementales es una operación análoga de transformación de sus señales de entrada. En cambio, en las redes neuronales biológicas, las células neuronales (neuronas) corresponden a los elementos de proceso anteriores. Las interconexiones se realizan por medio de las ramas de salida (axones) que producen un número variable de conexiones (sinapsis) con otras neuronas son sistemas de simples elementos de proceso muy interconectados. Con objeto de lo anterior, podemos decir que la compleja operación de las redes neuronales es el resultado de abundantes lazos de realimentación junto con no linealidades de los elementos de proceso y cambios adaptativos de sus parámetros, que pueden definir incluso fenómenos dinámicos muy complicados. 1.7. Aprendizaje de las redes neuronales artificiales Una de las principales características de las redes neuronales artificiales es su capacidad de aprendizaje. El entrenamiento muestra algunos parecidos con el desarrollo intelectual de los seres humanos. No obstante aun cuando parece que se ha conseguido entender el proceso de aprendizaje conviene ser moderado porque el aprendizaje de las redes neuronales artificiales está limitado. El objetivo del entrenamiento de una red neuronal es conseguir que una aplicación determinada, para un conjunto de entradas produzca el conjunto de salidas deseadas o mínimamente consistentes. El proceso de entrenamiento consiste en la aplicación secuencial de diferentes conjuntos o vectores de entrada para que se ajusten los pesos de las interconexiones según un procedimiento predeterminado. Durante la sesión de entrenamiento los pesos convergen gradualmente hacia los valores que hacen que cada entrada produzca el vector de salida deseado. Dicho de otra manera el entrenamiento neuronal es: “Un aspecto importante respecto al aprendizaje en las redes neuronales es el conocer cómo se modifican los valores de los pesos; es decir, cuáles son los criterios que se siguen para 30 cambiar el valor asignado a las conexiones cuando se pretende que la red aprenda una nueva información”(Hilera y Martínez, 1995, p.75). Para resumir los párrafos anteriores, el aprendizaje es la fase que busca conseguir que las redes neuronales se vuelvan cada vez más inteligentes o menos dependientes a la manipulación humana, es decir que aprendan por si solas, para ello es necesario aplicar reglas de aprendizaje. Estas reglas suelen ser de dos tipos: la regla de aprendizaje supervisado y la regla de aprendizaje no supervisado de las que se estarán tratando en los temas siguientes. 1.7.1. Aprendizaje supervisado Estos algoritmos requieren el emparejamiento de cada vector de entrada con su correspondiente vector de salida. El entrenamiento consiste en presentar un vector de entrada a la red, calcular la salida de la red, compararla con la salida deseada, y el error o diferencia resultante se utiliza para realimentar la red y cambiar los pesos de acuerdo con un algoritmo que tiende a minimizar el error. Las parejas de vectores del conjunto de entrenamiento se aplican secuencialmente y de forma cíclica. Se calcula el error y el ajuste de los pesos por cada pareja hasta que el error para el conjunto de entrenamiento entero sea un valor pequeño y aceptable. De manera más clara el proceso que se realiza mediante el entrenamiento supervisado se lleva a cabo por un agente externo, es decir por un supervisor o maestro, el cual determina la respuesta que debería generar la red a partir de una entrada determinada. Torra y Monte (2013). Así mismo explican que: El aprendizaje supervisado, consiste en construir un modelo neuronal que permita estimar relaciones entre los inputs y los outputs sin la necesidad de proponer una cierta forma funcional a priori, siendo desde la óptica computacional más complejo pero con resultados más exactos(p.26). 31 A modo de ilustrar el punto anterior, se observa en el esquema siguiente, que el output no coincide con el deseado, de forma que se presenta un error de salida o residuo del modelo. Esquema 1.7.1.1. Ciclo del aprendizaje supervisado (Torra y Monte, 2013). En resumidas cuentas, este aprendizaje permite ir comparando los resultados que se obtienen por cada corrida, analizar y suministrar a la red nuevos parámetros con el fin de obtener los efectos esperados lo que permite tener un mejor panorama de la lógica de este modelo. 1.7.1.1. Aprendizaje por corrección de error El aprendizaje por corrección de error consiste en ajustar los pesos de las conexiones de la red de acuerdo a la diferencia entre los valores deseados y los obtenidos en la salida de la red; es decir en función del error cometido en la salida. Dicho de otra manera, este aprendizaje modifica los valores de entrada los cuales son definidos del resultado de la comparación del cálculo esperado y los datos de salida obtenidos, a manera que de los próximos datos de salida sean correctos. 1.7.1.2. Aprendizaje por refuerzo Este tipo de aprendizaje es lento y supervisado de manera que se basa de no disponer de un ejemplo completo del comportamiento deseado; es decir, de no indicar durante el entrenamiento exactamente la salida que se desea que proporcione la red ante una determinada entrada. 32 1.7.1.3. Aprendizaje estocástico El aprendizaje estocástico consiste básicamente en realizar cambios aleatorios en los valores de los pesos de las conexiones de la red y con ello evaluar su efecto a partir del objetivo deseado y de distribuciones de probabilidad. Esto quiere decir que este aprendizaje indica que deben modificarse los valores de entrada a cada conexión de forma circunstancial o al azar, con el fin de evaluar los resultados de salida que produce cada dato de entrada. 1.7.2. Entrenamiento no supervisado Los sistemas neuronales con entrenamiento supervisado han tenido éxito en muchas aplicaciones y sin embargo tienen muchas críticas debido a que desde el punto de vista biológico no son muy lógicos. Resulta difícil creer que existe un mecanismo en el cerebro que compare las salidas deseadas con las salidas reales. En el caso de que exista, es sustancial saber de dónde provienen las salidas deseadas. Los sistemas no supervisados son modelos de aprendizaje más lógicos en los sistemas biológicos. Desarrollados por Kohonen en 1984 y otros investigadores, estos sistemas de aprendizaje no supervisado no requieren de un vector de salidas deseadas y por lo que no se realizan comparaciones entre las salidas reales y salidas esperadas. Esto es, el conjunto de vectores de entrenamiento consiste únicamente en vectores de entrada, el algoritmo de entrenamiento modifica los pesos de la red de forma que produzca vectores de salida consistentes. El proceso de entrenamiento extrae las propiedades estadísticas del conjunto de vectores de entrenamiento y agrupa en clases los vectores similares. En otras palabras, existe una gran variedad de algoritmos de entrenamiento hoy en día, la gran mayoría de ellos han surgido de la evolución del modelo de aprendizaje no supervisado que propuso el científico Hebb en 1949. El modelo propuesto por Hebb se caracteriza por incrementar el valor del peso de la conexión si las dos neuronas unidas son activadas o disparadas. 33 En el siguiente esquema se ejemplifica el modelo de aprendizaje no supervisado o auto organizado. Esquema 1.7.2.1. Ciclo del aprendizaje no supervisado (Torra y Monte, 2013). En pocas palabras, El aprendizaje no supervisado o auto organizado, es aquel que no dispone de output deseado. Sus principales utilidades, son descubrir las regularidades que existen en los datos, extraer rasgos o agrupar patrones según su similitud, (Torra y Monte, 2013). 1.7.2.1. Aprendizaje hebbiano En particular, la teoría hebbiana describe que el valor de una conexión sináptica se incrementa si las neuronas de ambos lados se activan en repetidas veces de forma simultánea. A propósito de entender esta idea a continuación se hace una retroalimentación del siguiente concepto: Hebb (1949) explica que: Cuando un axón de una celda A está suficientemente cerca como para conseguir excitar una celda B y repetida o persistentemente toma parte en su a activación, algún proceso de crecimiento o cambio metabólico tiene lugar en una o ambas celdas, de tal forma que la eficiencia de A, cuando la celda B, aumenta (p84). A manera de sintetizar, se puede decir que el aprendizaje hebbiano consiste básicamente en el ajuste de los pesos de las conexiones entre neuronas de acuerdo con la aproximación de los valores de activación binarios +1 y -1, en las salidas. 34 1.7.2.2. Aprendizaje competitivo y cooperativo Las redes neuronales que emplean este tipo de aprendizaje en estructura existe una serie de neuronas que compiten entre ellas con el fin de realizar las tareas encomendadas. Esto quiere decir que cuando se ingresa información a la red solo una de las neuronas de manera individual o ya sea una por grupo se active quedando el resto anuladas quedando forzadas a valores de respuesta mínimos. Hilera y Martín (1995) encontraron que: “La competición entre neuronas se realiza en todas las capas de la red, existiendo en estas neuronas conexiones recurrentes de autoexcitación y conexiones de inhibición (signo negativo) por parte de neuronas vecinas. Si el aprendizaje es cooperativo, estas conexiones con las vecinas serán de excitación (signo positivo)”. Para resumir, en este tipo de aprendizaje las neuronas compiten entre sí de manera que solo se activan las que han adquirido un alto índice de aprendizaje. Esto permite que cada vez las neuronas que no lograron activarse vallan mejorando de acuerdo a los datos de aquellas que si logran aprender. 1.7.3. Elección del conjunto inicial de pesos. Antes de llevar a cabo el entrenamiento de las redes neuronales, es necesario determinar un estado inicial, es decir otorgar un conjunto de pesos a las conexiones entre neuronas de la red. Esto puede realizarse por varios razones; por ejemplo uno de ellos es conceder un peso aleatorio a cada conexión encontrándose los mismos dentro de un cierto intervalo. Por lo regular este intervalo es de tipo [-n,n], donde nes un número natural positivo. Cabe mencionar que los pesos no se encuentran restringidos a dicho intervalo. 1.7.4. Codificación de los datos de entrada Para que una red neuronal pueda calcular la salida que debe emitir es necesario decodificar los datos de entrada, es decir debe interpretar la información adquirida 35 para definir qué tipo de variables se están manejando de acuerdo al caso que se presente, estas variables pueden ser de dos tipos: Variables o atributos numéricos llamados continúas. Variables o atributos simbólicos llamados discretos. Las variables numéricas son aquellos que pueden tomar cualquier valor dentro de un intervalo determinado [a, b]; donde a puede ser -∞ (menos infinito) y b, ∞ (infinito). Por otro lado si los pesos son dados por un cierto número determinado el atributo es denominado simbólico. 1.7.5. Validación de la red neuronal Después del entrenamiento los pesos quedan fijos en las conexiones de la red neuronal. Por consiguiente es necesario comprobar si la red neuronal puede resolver nuevos problemas, para los que ha sido entrenada, para ello es necesario un conjunto de datos denominado conjunto de validación o testeo. En pocas palabras, lo que se realiza es la comparación de las respuestas en la salida de la red neuronal con los resultados previamente analizados de la solución conocida. 1.7.6. En síntesis: Qué son las redes neuronales artificiales Son sistemas de procesamiento de información desarrollados con base en el conocimiento que tenemos de los cerebros biológicos. Se forman con unidades de procesamiento simples llamados nodos o neuronas. Hay distintas formas de conectar a las neuronas entre sí. A esta forma se les llama: arquitectura de la computadora. A cada conexión entre una neurona y otra se le asigna un peso. Cada neurona tiene una función de activación que suma las señales entrantes pesadas. Así, la neurona determina si lanza su propia señal o no lo hace. 36 Los pesos son adaptados para que la neurona mejore su trabajo hasta reproducir la tarea que se le ha pedido. A esto se le llama proceso de aprendizaje. Por su parte, en el proceso de adaptación de los pesos se utiliza la siguiente regla de aprendizaje. La tarea asignada a la red neuronal se plantea como objetivo: La reproducción inicial de patrones de entrenamiento Una etapa de comprobación del aprendizaje de la red y La etapa de aplicación de la red a los trabajos específicos para los cuales ha sido diseñada. 1.8. Ventajas de las redes neuronales artificiales Debido a su constitución y a sus fundamentos, las redes neuronales artificiales presentan un gran número de características semejantes a las del cerebro. Por ejemplo, son capaces de aprender de la experiencia, de generalizar de casos anteriores a nuevos casos, de abstraer características esenciales a partir de entradas que representan información irrelevante, etc. Esto hace que ofrezcan numerosas ventajas y que este tipo de tecnología se esté aplicando en múltiples áreas. Maren (1990) estas ventajas incluyen: Aprendizaje adaptativo. Capacidad de aprender a realizar tareas básicas en un entrenamiento o una experiencia inicial. Autoorganización. Una red puede crear su propia organización o representación de la información que recibe mediante una etapa de aprendizaje. Tolerancia a fallos. La destrucción parcial de una red conduce a una degradación de sus estructura; sin embargo, algunas capacidades de la red se pueden retener, incluso sufriendo un gran daño. 37 Operación en tiempo real. Los computadores neuronales pueden ser realizados en paralelo, actualmente se diseñan y fabrican máquinas con hardware especial para obtener esta capacidad. Fácil inserción dentro de la tecnología existente. Se pueden obtener chip especializados para redes neuronales que mejoran su capacidad en ciertas tareas. Ello facilitará la integración modular en los sistemas existentes. Estas ventajas ofrecen a la red una característica especial que la hace ser competente y no quedar expuesta ante circunstancias y tareas que regularmente se presentan en el entorno donde son aplicadas. 1.8.1. Aprendizaje adaptativo La capacidad de aprendizaje adaptativo es una de las características más atractivas de las redes neuronales. Esto es, aprenden a llevar a cabo ciertas tareas mediante un entrenamiento con ejemplos ilustrativos. Como las redes neuronales pueden a prender a diferenciar patrones mediante ejemplos de entrenamiento, no es necesario que elaboremos modelos a priori ni necesitamos especificar funciones de distribución de probabilidad. Las redes neuronales son sistemas dinámicos autoadaptativos. Son adaptables debido a la capacidad a la capacidad de autoajustarse de los elementos procesadores o neuronas que componen el sistema. Son dinámicos, pues son capaces de estar constantemente cambiando para adaptarse a las nuevas condiciones. En el proceso de aprendizaje, los enlaces ponderados de las neuronas se ajustan de manera que se obtengan unos resultados específicos. Une red neuronal no necesita un algoritmos para resolver un problema, ya que ella puede generar su propia distribución de los pesos de los enlaces mediante el aprendizaje. También existen redes que continúan aprendiendo a lo largo de su vida, después de completado el período inicial de entrenamiento. 38 1.8.2. Autoorganización Es un proceso en el que de alguna forma global de orden o coordinación surge de las interacciones locales entre los componentes de un sistema inicialmente desordenado. Por lo que las redes neuronales usan su capacidad de aprendizaje adaptativo para autoorganizar la información que reciben durante el aprendizaje y/o la operación. Mientras que el aprendizaje es la modificación de cada elemento procesal, la autoorganización consiste en la modificación de la red neuronal completa para llevar a cabo un objetivo específico. 1.8.3. Tolerancia a fallos Las redes neuronales fueron los primeros métodos computacionales con la capacidad inherente de tolerancia a fallos. Comparados con los sistemas 10computacionales tradicionales, los cuales pierden su funcionalidad cuando sufren un pequeño error de memoria, en las redes neuronales, si se produce un fallo en un número no muy grande de neuronas y aunque el comportamiento del sistema se ve influenciado, no sufre una caída repentina. Hay dos aspectos distintos respecto a la tolerancia a fallos: a) Las redes pueden aprender a reconocer patrones con ruido, distorsionados o incompletos. Esta es una tolerancia a fallos respecto a los datos. b) Las redes pueden seguir realizando su función (con cierta degradación) aunque se destruya parte de la red. La razón por la que las redes neuronales son tolerantes a los fallos es que tienen su información distribuida en las conexiones entre neuronas, existiendo cierto grado de redundancia en este tipo de almacenamiento. La mayoría de los ordenadores algorítmicos y sistemas de recuperación de datos almacenan cada pieza de información en un espacio único, localizado y direccionable. En cambio, las redes neuronales almacenan información no localizada. Por lo tanto, la mayoría de las interconexiones entre los nodos de la red tendrán sus valores en 39 función de los estímulos recibidos, y se generará un patrón de salida que represente la información almacenada. 1.9. Principales topologías 1.9.1. Topología de las redes neuronales La topología se refiere a la forma en que las neuronas se organizan, para formar estructuras o capas. Estas se determinan de acuerdo al número de capas que existen, la cantidad de neuronas que conforman cada capa, el grado de conectividad y el tipo de conexión entre neuronas. 1.9.2. Redes monocapa Las rede mono capa están formadas por una sola capa, y todas las neuronas se encuentran conectadas en ella. Su tarea principal es la autoasociación. Por lo tanto, en este tipo de redes, las conexiones se establecen entre las neuronas que pertenecen solo a la única capa que existe, generalmente este tipo de redes son utilizadas para regenerar información de entrada que se presenta en la red de forma incompleta o distorsionada. En el siguiente esquema se ejemplifica este tipo de Red: 40 Esquema.1.9.2.1 Red neuronal monocapa (Basogain, 2012). La red más simple es un grupo de neuronas ordenadas en una capa como se muestra en el Esquema anterior. Los nodos circulares sólo son distribuidores de las entradas y no se consideran constituyentes de una capa (Basogain, 2012). 1.9.3. Redes multicapa Las redes multicapa son las que disponen de un conjunto de neuronas agrupadas en varios niveles o capas. Para poder distinguir la capa a que pertenece cada neurona es necesario fijarse de donde provienen las señales que reciben las entradas y el destino de la señal de salida. Normalmente todas las neuronas todas las neuronas de una capa reciben señales de entrada desde otra capa anterior, y envían señales de salida a una capa posterior. Este tipo de conexiones es llamado conexiones hacia adelante o feedforward (Matich, 2001). En el siguiente esquema se muestra la Red Neuronal Multicapa: 41 Esquema 1.9.3.1. Estructura de la red neuronal multicapa (Cruz, 2003). Por ende, para calcular la salida de una red multicapa se debe hacer de la misma manera que en las redes de capa simple, teniendo en cuenta que las salidas de una capa son las entradas de la siguiente capa. 1.10. Tipos de RNAs 1.10.1. Adaline y Madaline Las Redes Adaptative Linear Element (Adaline) y MultipleAdaline (Madaline) fueron desarrolladas por Bernard Widrow y MarcianHoff en 1960 poco después de la aparición del Perceptrón simple, aunque presenta muchas similitudes con este modelo la red Madaline utiliza funciones de transferencia lineales y cuando se conectan de forma sucesiva entre sí se convierte en red Madaline. El funcionamiento de Adaline es que tomando la suma de los pesos de las entradas, produce una salida de 0 ó 1 dependiendo si pasa o no un umbral, esto es semejante al funcionamiento de una neurona que se dispara si la actividad total procedente de las conexiones con las otras neuronas sobrepasa un nivel. 42 Un conjunto de redes Adaline se pueden organizar en capas de tal manera que se obtengan grandes arquitecturas formando así una red Madaline la cual produce funciones más complejas. En la práctica estas redes han sido muy aplicadas como filtros adaptativos, por ejemplo, para cancelar el ruido de la transmisión de señales en los módems de los ordenadores, pero su utilidad en el ámbito de las Ciencias Sociales se ve muy limitada por tratarse de un sistema lineal que sólo puede separar correctamente patrones linealmente independientes, fallando en ocasiones ante patrones linealmente separables. (Flórez y Fernández, 2008) Madaline fue una de las primeras redes neuronales multicapa entrenable con múltiples elementos adaptativos, su estructura fue diseñada para ir más allá de la solución de problemas linealmente separables. Consta de una capa de redes Adaline y una función de mayoría cuya respuesta binaria depende de las respuestas de las Adaline. En la siguiente imagen se muestra un ejemplo de la Red Adaline y la Red Madaline: Imagen 1.10.1.1 Red Adaline (a) y Red Madaline(b) (Flórez y Fernández, 2008) 43 1.10.2. Hopfield El modelo de Hopfield represento uno de los avances más significativos en el ámbito de las redes neuronales artificiales durante los 80’s, estas incorporaron una nueva arquitectura y un nuevo enfoque de entrenamiento que se aproximaba a ciertos modelos de la Física Estadística, lo que permitió su estudio mediante potentes herramientas matemáticas. Flórez y Fernández (2008) mencionan que: “La red de Hopfield opera como una memoria asociativa que permite que varias informaciones diferentes sean almacenadas en la red durante la fase de aprendizaje (aprendizaje-off-line)” (p. 50). Estas redes están compuestas por tres capas como se muestra en el esquema 1.10.2.1: La capa de entrada, la capa media y la salida, cada neurona de la capa de entrada está conectada con una neurona de la capa media y cada neurona de la capa media emite una sola conexión hacia la capa de salida y estas conexiones no implican cálculo de pesos sinápticos ni de valores umbral. Capa Media Capa de Entrada Capa de Salida Esquema 1.10.2.1 Red de Hopfield (Elaboración propia). 44 Con relación a la imagen anterior, podemos visualizar que en una red Hopfield las neuronas de la capa de entrada transmiten inmediatamente su patrón de activación hacia las neuronas de la capa media sin modificar sus pesos sinápticos, pero las neuronas en la capa media no transmiten ningún patrón de activación hasta que hayan llegado a un estado de equilibrio en el cual se mantenga estable, esto es una de sus principales característica ya que presentan conexiones de salida hacia otras neuronas de la misma capa media. 1.10.3. ART La Red de Resonancia adaptativa (ART: Adaptative Resonance Theory) fue desarrollada por Carpenter y Grossberg en 1986, con la que trataron de resolver el denominado “dilema de la estabilidad y plasticidad del aprendizaje”, este dilema plantea dos cuestiones: Cómo podría una red aprender nuevos patrones (plasticidad). Cómo podría una red retener los patrones previamente aprendidos (estabilidad). El modelo ART propuso un sistema competitivo, ya que ante una determinada información de entrada, solo una de las neuronas de salida de la red se activa, a esta neurona se le conoce como: winner-take-all-unit ó neurona vencedora, alcanzando su valor máximo de respuesta tras competir con las celdas restantes. El funcionamiento de esta red se basa en hacer resonar la información de entrada con los prototipos de las categorías que ésta reconoce y si el patrón de entrada es suficientemente similar a alguno de los prototipos, la red entra en resonancia, adaptando ligeramente el prototipo almacenado, por el contrario si la información de entrada no coincide con ninguna categoría, la red crea un nuevo prototipo para ese dato de entrada. El ART engloba una serie de redes neuronales capaces de auto-organizar y reconocer, tanto en tiempo continuo como discreto, patrones binarios en ART1 y 45 analógico en ART2, ambas redes únicamente con dos capas de neuronas, usando el aprendizaje competitivo. 46 CAPÍTULO II: LAS REDES NEURONALES APLICADAS AL ENTORNO ORGANIZACIONAL En este capítulo se estarán tratando los temas con referencia a la organización actual para tener un enfoque más claro de la relación que existe con los avances e innovaciones tecnológicas de hoy en día que permiten el mejoramiento y desarrollo de las funciones y actividades que se desempeñan dentro de la estructura orgánica para poder entender más a fondo los temas siguientes, es primordial comenzar por definir a la organización. 2.1. Concepto de organización La organización es el conjunto de personas que trabajan entre sí, realizando funciones específicas, estas siguen un mismo objetivo con el fin de alcanzar la meta prevista. Así pues para ir contextualizando estas ideas y darle un enfoque con relación a las redes neuronales artificiales, es necesario empezar por conceptualizar organización. Según Guillermo Gómez (1994) es: “La estructuración técnica de las relaciones que deben existir entre funciones, niveles ya actividades de los elementos humanos y materiales de un organismo social, con el fin de lograr máxima eficiencia en la realización de planes y objetivos señalados con anterioridad” (p.191). Harold Koontz y Heinz Weihrich (1998) opinan: Se piensa en organización como: 1) La identificación y clasificación de las actividades requeridas, 2) El agrupamiento de las actividades necesarias para lograr los objetivos, 3) La asignación de cada agrupamiento a un administrador con la autoridad necesaria para supervisarlo (delegación) y 4) las medidas para coordinar horizontalmente y verticalmente en la estructura organizacional (p. 244). 48 Stoner y otros (1996). Opinan que organización: “Son dos personas o más que trabajan juntas, de manera estructurada, para alcanzar una meta o una serie de metas específicas” (p.6). En conclusión organización es una estructura que combina el esfuerzo de los individuos o grupos en sus respectivas funciones y actividades de los diferentes niveles de la organización, para que se cumplan los objetivos planeados. 2.2. Las redes neuronales en la organización Las redes neuronales deben ser aplicadas en situaciones en que los métodos convencionales y las técnicas tradicionales han fallado en arrojar resultados esperados, o cuando una mejora en el modelado puede significar una gran diferencia en la eficiencia de la operación de un sistema, lo que lleva como consecuencia una mejora en la relación costo-beneficio. De esta manera el sistema trabajara mejor cuando presente una tolerancia alta al presentarse algún error. Por otro lado si observamos, a la organización podemos percatarnos de que tiene un funcionamiento similar a la red neuronal; los individuos se comportan como neuronas que recogen múltiple información para, con su conocimiento, procesar una sola respuesta. Estos individuos se agrupan en áreas que son mini redes neuronales que combinan de distintas formas este conocimiento para crear una nueva salida agregada. En un nivel superior, toda la organización da una sola salida a la distinta información que recibe de diferentes áreas. Con esto se debe considerar el uso de las redes neuronales cuando: El número de variables o la diversidad de los datos sean muy grandes. Las relaciones entre las variables sean vagamente entendibles. Las relaciones entre las variables sean difíciles de escribir mediante los métodos convencionales. 49 Las variables o capturas presenten semejanzas dentro de un conjunto de patrones, tal como sucede en aplicaciones de procesamiento de señales, de control, de reconocimiento de patrones, producción y reconocimiento de habla, en los negocios en la medicina, etc. Dicho esto, hay algunas condiciones de partida necesarias para un modelo de red neuronal organizativo. Marco estratégico claro: la misión, visión, valores y filosofía empresarial deben quedar muy claros para todos los individuos. Solo de esta forma, la red trabajará para dar una respuesta común y alineada. El modelo de red sin este marco no capitaliza esfuerzos. Claridad en las conexiones entre las líneas estratégicas: cada línea estratégica a trabajar debe estar claramente conectada con el resto y estas conexiones deben ser comprendidas con claridad por toda la organización, así como la contribución que se espera de cada uno de ellos a estas líneas. Sistemas de información compartidos/gestión del conocimiento: los miembros de la red deben disponer de accesos compartidos a la información necesaria y un lugar donde gestionar ese conocimiento generado de salida, ya que la salida de un individuo provoca la entrada de información de otros muchos en el modelo de red. Liderazgo: el liderazgo que potencia la tolerancia al error, la innovación y el reto. Empoderamiento /formación: es fundamental que desde recursos humanos se provea de la autonomía suficiente a cada persona para que tenga capacidad de procesamiento individual; para ello necesitará la adecuada formación. Flujos/Procesos clave: es básico detectar los procesos clave (flujos de información, de materiales, financieros, etc…) y que estos funcionen de forma rápida. Tecnología: hay que adaptar la tecnología al funcionamiento adecuado de las redes, no al revés. La tecnología como servicio y no como director. 50 Subsistema político: las habilidades políticas de los directivos deben ayudar a reducir las fricciones que supone el trabajo en red, sobre todo en sus comienzos. Para concluir este punto, podemos decir que las personas que constituyen a la organización deben tener conocimiento total de la razón de ser de esta, es decir deben conocer el origen conociendo los hechos históricos que la formaron y le dieron origen como estructura, así como la misión visión y objetivos a fin de que no existan entorpecimientos en la información que se maneja debido a la falta de conocimiento. 2.3. Implementación de las redes neuronales Durante la implementación de una red neuronal como parte de un programa o sistema informático se presenten 3 fases básicas, las cuales se describen a continuación: Diseño: en esta fase de se toma en cuenta la topología a emplearse y el número de neuronas que la integraran. Entrenamiento: en esta etapa se le presentan una serie de datos de entrada y datos de salida a la red neuronal con el fin de que aprenda a partir de ellos. Uso: se le proporcionan los datos requeridos a la red neuronal y esta genera los resultados esperados en función del aprendizaje obtenido en la fase de entrenamiento. Por último cabe mencionar que las etapas antes mencionadas sintetizan el proceso que se lleva a cabo para implementar una red neuronal lo que nos proporciona una idea específica de este proceso y tener en cuenta que datos se manejan en cada etapa. 51 2.4. Ventajas de las redes neuronales aplicadas a la organización La aplicación de un modelo de redes neuronales en la empresa permite: Mayor capacidad de adaptación al entorno: al potenciar la capacidad del individuo para captar entradas y darle independencia para generar una salida, así como ponerlo en contacto con otros individuos, las posibilidades de acertar en la opción elegida y de hacerlo de forma rápida crecen exponencialmente Autoorganización: las redes neuronales son capaces de autoorganizarse según las distintas entradas y salidas realizadas de forma casi automática. Ellas mismas fijan el valor de sus salidas y se organizan priorizando las decisiones. Tolerancia y resistencia a fallos: al encontrarse la información y la capacidad de actuación distribuida, un error o fallo no tiene por qué propagarse automáticamente a toda la red, puesto que tienen el conocimiento de forma distribuida y son capaces de generar alternativas correctoras. Rapidez en la repuesta: ante cualquier incertidumbre, la red neuronal es capaz de reconocer patrones rápidamente porque se trabaja de forma simultánea, lo que hace que su actualización sea inmediata. (Hernández, 2009). A fin de resumir, los temas anteriores proporcionan en conjunto con la implementación de las redes neuronales artificiales un cambio significativo en las funciones de la organización ya que de alguna manera agilizan cada procedimiento llevado a cabo dentro de ella. 52 CAPITULO III: EJEMPLOS PRÁCTICOS DE REDES NEURONALES ARTIFICIALES 3.1. El perceptrón multicapa para modelizar la situación de quiebra en los bancos. Uno de los temas sobre el que mayor número de estudios conocidos con información contable se han realizado es la predicción de situaciones de quiebra en las empresas. La mayor parte de los trabajos que existen parten de un conjunto de razones financieras obtenidas de la información contable que publican las empresas. Uno de esos estudios fue realizado por algunos científicos como Beaver en 1996, así como J. Laffarga, J. L. Martín y M. J Vázquez (1985 y 1986), en la ciudad de España interesados en estudiar la crisis bancaria de 1977- 1985. Con estos estudios se pudo extraer información concreta referente al anuario estadístico de la banca privada, esta muestra contenía datos de sesenta y seis bancos, veintinueve de los cuales quebraron. Para los bancos quebrados fue necesario tomar en cuentas datos relativos a un año anterior a la quiebra, por su parte para los bancos no quebrados se tomo información específica al año de 1982. Para este caso según Serrano y Martín (1993): Fue necesario emplear el modelo neuronal llamado perceptrón multicapa, con aprendizaje Back-Propagation. Se trata de de una arquitectura multicapa, es decir la primera capa es únicamente un conjunto de neuronas que envían las variables de entrada a las capas ocultas, que son las encargadas del procesamiento y una capa de salida que por su parte muestra el resultado al mundo exterior. 54 En otras palabras, este modelo a partir del aprendizaje supervisado, es capaz de representar una aplicación que relaciona cada uno de los patrones de entrada con su correspondiente patrón de salida. Como salida fue necesaria una única neurona la cuál tenia encomendado una salida continua entre -5 y +0,5. Estos valores fueron asignados en el aprendizaje como -0,5 a la empresa quebrada y +0,5 a la no quebrada. Es de considerar que para alcanzar un nivel de predicción estimado es la selección de un conjunto adecuado de patrones de aprendizaje para la red neuronal. Para poder interpretar la información fue indispensable clasificar a los sesenta y seis bancos en dos grupos. El primero constituido por los patrones de ejemplo, el cual proporciona los patrones a aprender. El segundo grupo pertenece al conjunto de test, con el que se mide la eficiencia de la operación de la red neuronal. La elección de los patrones ejemplo se realizo al azar, obteniendo de esta forma treinta y dos bancos, aproximadamente la mitad. De la base de sesenta y seis bancos, fueron seleccionados treinta y dos al azar, los utilizados para el patrón de aprendizaje; quince de ellos quebraron y diecisiete no lo hicieron. De esta forma se entrenó a la rede neuronal para que fuera capaz de asociar correctamente cada uno de los patrones de muestra con su valor correcto, -0,5 y +0,5. Por otro lado los bancos restantes fueron ocupados como test en la red ya entrenada. En la siguiente figura se ejemplifica el funcionamiento del Modelo neuronal llamado perceptrón multicapa, con aprendizaje Back-Propagation: 55 Figura 3.1.1. Modelo de perceptrón con backpropagation (Elaboración propia). 3.2. WEBSOM El centro de investigación en Redes neuronales de la Universidad Tecnológica de Heinsinki, dirigido Teuvo Kohonen desarrolló un sistema que permite ordenar automáticamente grandes masas de información en texto completo, con el fin de facilitar su exploración y navegación. En este tipo de sistema se encuentran mensajes coloquiales, es decir sin un formato específico, generalmente con errores ortográficos y sin corrección de estilo. Sin embargo, el sistema es capaz de ordenar temáticamente de forma satisfactoria más de 4,600 mensajes que contienen cerca de 1, 200,000 palabras. Para ello utiliza un método que consta de los siguientes pasos: Se toman todos los mensajes y se elimina la información no textual. Los códigos especiales y las expresiones numéricas son tratadas mediante reglas heurísticas. 56 Para reducir el procesamiento computacional, se desestiman aquellas palabras que presentan una baja ocurrencia (menos de 50 veces) y son tratadas como estradas vacías. Con el fin de enfatizar el tema década mensaje y reducir las variaciones erráticas causadas por los diferentes estilos de discusión, se eliminan las palabras las palabras comunes que dificultan la discriminación temática. Este ejemplo puede ser de indispensable en los sistemas bibliotecarios donde es necesario tener un orden de la gran cantidad de información que existe y que se maneja día a día y de sistema podría facilitar el ordenamiento masivo de manera rápida. 3.3 Ibermática: sistema de reconocimiento de imágenes El centro ibermática en Zamudio en la provincia de Vizcaya, país Vasco, utilizan redes neuronales artificiales para desarrollar diversas aplicaciones, entre ellas se encuentra un sistema el cual tiene como finalidad conseguir que la maquina adquiera la capacidad de reconocimiento del cerebro humano, es decir que el sistema sea capaz de reconocer e identificar los objetos con tan solo verlos. En estos sistemas no se utiliza la programación informática el conocimiento se almacena en una malla de neuronas entrelazadas que imitan las neuronas naturales. Una de las aplicaciones que están desarrollando, permitiría que sin tarjeta e identificación alguna los trabajadores de una organización pudieran accesar al edificio, este sistema reconocería los rostros de usuarios registrados y automáticamente abriría la barrera de entrada. Para lograr que este sistema pueda reconocer el rostro humano se necesita un entrenamiento neuronal, el cual consiste en tomar varias fotos del rostro de la persona en diferentes posiciones y se almacenan transformando la imagen a grises así mismo se normalizan a una escala de 64 x 64 puntos a una ventana para que sea siempre el mismo tamaño dentro. 57 En la estructura de la red neuronal artificial se guardan los componentes principales, los cuales al detectar el sistema un rostro lo compara con los datos almacenados y si existen similitudes permite el acceso de lo contrario se deberá registrar. Para entender cómo funciona la estructura neuronal se presenta la siguiente figura en la cual se puede visualizar cómo se comporta la información que se procesa en su interior. Figura 3.3.1. Estructura de red neuronal utilizada por el sistema de reconocimiento de rostros (Elaboración propia). Interpretando la figura anterior la imagen pixelada es la variable de entrada que ingresa del lado de la columna izquierda, mientras que la columna de en medio son las neuronas intermedias que tienen como propósito generar lapsos o pesos con el resto de las neuronas y gracias a ese proceso extraen las características específicas a cada rostro. Por otro lado del lado derecho el sistema mostrara el resultado, identificara si la persona tiene o no permiso de entrar. Cabe destacar que el sistema podría presentar problemas al recargar demasiado la fase de aprendizaje, es decir si se insiste en que debe reconocer la imagen muchas veces, cuando el rostro se visualice alterado por alguna cicatriz o barba arrojaría errores y denegaría el acceso aunque se trate de la misma persona. 58 3.4. Trabajos desarrollados en Colombia En el Departamento de Ingeniería Civil y Agrícola da la Universidad Nacional de Colombia (Sede Bogotá) se han aplicado las redes neuronales artificiales de conexión hacia delante, de tres capas y con propagación del error hacia atrás para la predicción de caudales medios mensuales en tres estaciones de caudal ubicadas en el departamento de Cundinamarca. Los resultados obtenidos permiten identificar variables que afectan la calidad de los mismos, tales como el esquema de normalización de los datos de entrada; el efecto del algoritmo de búsqueda en los resultados finales y en la variación del error; el número de capas y neuronas a utilizar; y el número de datos de entrada (caudal) necesarios en cada patrón de entrenamiento y validación. Los resultados también sugieren la posibilidad de aplicar las redes neuronales artificiales para predecir registros de caudales con alto nivel de intermitencia en Colombia. Por lo tanto, para realizar estos estudios se utilizó la información histórica de la estación hidrométrica Puente Australia ubicada en la parte alta de un afluente del río Bogotá. Los resultados indican que el comportamiento de las redes neuronales calibradas utilizando únicamente caudales previos es relativamente pobre, pero los resultados mejoran cuando se incluye como información de entrada el índice rezago. Mediante este trabajo se concluyó que las redes neuronales recurrentes presentaban un desempeño comparable con el de las redes neuronales de conexiones hacia delante, pero requieren menos información de entrada. (Ochoa, 2003) 3.5. Sistema de inspección de Gaseoductos/Oleoductos: NEUROPIPE En Alemania el Centro de investigación de informática de Karlsruhe (FZI) y la empresa Pipetronix, desarrollaron un sistema de inspección automática denominado Neuropipe, este sistema fue desarrollado pensando en que los 59 gaseoductos y oleoductos deben ser examinados de corrosión y otras averías regularmente, el núcleo de Neuropipe es un clasificador basado en una Red Neuronal que fue entrenada por muestras de averías seleccionadas manualmente. El número de los valores de entrada (averías) de la red se redujo de 86 a 41 para mejorar la generalización, esto se hizo mediante un mapa auto organizado (Self Organizing Feature Map). Con estos valores característicos de las averías se entrenaron cinco redes distintas, cada una era responsable para un tipo de averías. Esta solución tiene la ventaja que cada red solamente tiene la información sobre su clase respectiva, mientras que una sola red debería tener la información de todas las cinco clases. Esta manera de proceder fue demostrada correcta ya que la complejidad de las redes variaba mucho. Con este método un 96% de las clasificaciones eran correctas. Pero dentro del 4% de las clasificaciones incorrectas había averías graves, por eso era preciso mejorar el sistema y para esto se empleó una organización jerárquica de las redes neuronales debido al hecho que un 50% de las averías pueden ser fácilmente separados de los otros, cinco redes siguientes se encargaban del resto y así pudieran concentrarse en los datos más complejos. Con este procedimiento se lograron tasas de un 99%. (Numberger, 2004). 3.6. Tratamiento Anaeróbico de Aguas Residuales El proceso de la Digestión Anaeróbica es complejo, mediante este la materia orgánica se transforma en compuestos más simples sin la necesidad de la participación de oxigeno molecular en el proceso (Switzenbaum, 1995). En general este proceso se puede dividir en tres etapas como se muestra en el siguiente esquema: 60 Esquema 3.6.1. Digestión anaerobia (Castellano M. 2009) El tratamiento de aguas residuales en digestores anaerobios se usa principalmente para efluentes de origen industrial, sin embargo también se ha aplicado de forma eficaz en el tratamiento de aguas residuales urbanas. El control de una planta que se dedica al tratamiento de aguas residuales es fundamental y debido a la complejidad del proceso y su necesidad de estabilidad hace que sea necesario un sistema de monitorización y control. El uso de una Red Neuronal en el sistema de control, se centra en la utilización de controles sobre una variable predicha a cierto horizonte de control, para crear un controlador predictivo o anticipativo, cuyo objetivo es la predicción del comportamiento de las variables de control de hidrógeno y metano. El horizonte temporal de predicción debe ser lo suficientemente amplio para proporcionar margen para la actuación del controlador, al tiempo que la magnitud del error no debe ser tan grande que distorsione la magnitud de acción del control. 61 Para esto se opta por redes con varios nodos en la capa de salida, de modo que la red minimice el error a lo largo de un intervalo temporal. (Castellano M. 2009). 3.7. RNAs para Calificar la Capacidad de Crédito de Entidades Mexicanas de Gobierno Las redes neuronales artificiales han sido muy utilizadas dentro del área financiera. Por ejemplo: Para modelar el comportamiento del mercado cambiario y mercados de capitales Para evaluación de créditos e inversiones Para realizar pronósticos de bancarrota y de calidad crediticia En varios estudios se ha encontrado que los resultados obtenidos de aplicar RNAs a estos procesos son mejores que cuando se aplica otra técnica estadística o matemática. Una aplicación donde las RNA y otros modelos de inteligencia computacional han mostrado ser particularmente útiles es en la estimación de calificaciones crediticias. “Desde 2001, la calificación crediticia fue implantada como un requisito opcional para los gobiernos estatales y municipales de México que busquen buenas condiciones para sus financiamientos comerciales. Actualmente, todos los estados de la República Mexicana cuentan con al menos dos calificaciones crediticias otorgadas por agencias reconocidas internacionalmente” (Gómez M. y Mendoza A., 2010, p. 26). El esquema siguiente muestra los componentes principales de un sistema estimador de calificaciones crediticias basado en una RNA, el cual contiene tres componentes principales: entrenamiento, ajustes y evaluación: 62 Esquema. 3.7.1. Sistema basado en RNA para estimar calificaciones crediticias (Gómez M. y Mendoza A. 2010) Un ejemplo del funcionamiento de las RNA en el ámbito financiero se muestra en el trabajo titulado “Herramientas para el Pronóstico de la Calificación Crediticia de las Finanzas Públicas Estatales en México: Redes Neuronales Artificiales, Modelo Probit Ordenado y Análisis Discriminante” el cual obtuvo el segundo lugar en la Categoría de Investigación del Premio Nacional Bolsa Mexicana de Valores 2009, para este se utilizaron 34 variables financieras de entrada, seleccionadas con base en un análisis minucioso de la información proporcionada por las organizaciones calificadoras y con base en resultados obtenidos de investigaciones anteriores. Para el estimador de calificaciones crediticias se utiliza una red de perceptrones con un nivel escondido que recibe 34 entradas y genera una salida. Las entradas son las variables financieras y la salida es un valor numérico real que aproxima la calificación crediticia. A su vez este último valor es aproximado a un número entero en el intervalo de los valores numéricos de las calificaciones presentes en los datos de entrenamiento. La red se entrenó utilizando un algoritmo conocido como retropropagación, el cual se dice que es “supervisado”, pues funciona utilizando un conjunto de ejemplos 63 que contienen las salidas esperadas de la red, además de los valores que se usarán para alimentarla. La siguiente tabla contiene los porcentajes de acierto obtenidos por una RNA con 10 nodos escondidos para un conjunto de pruebas de los estados de la República Mexicana, comparada con otros métodos convencionales ((Mendoza-Velázquez y Gómez-Gil 2010) y como puede la RNA obtiene un mejor porcentaje de aciertos exactos que los otros métodos: Tabla. 3.7.1. Porcentajes de acierto obtenidos por una RNA con 10 nodos escondidos, comparada con otros métodos convencionales (Mendoza-Velázquez y Gómez-Gil 2010) 64 CONCLUSIONES Como hemos aprendido a lo largo de los capítulos, el origen de las redes neuronales artificiales comienza a partir de la inquietud e interés por parte de varios estudiosos de crear modelos neuronales con el fin de computar datos de manera lógica, basándose en las funciones del sistema biológico. En consecuencia, esta serie de acontecimientos han generado aportes científicos personales por parte de cada uno de los investigadores al desarrollo de la ciencia neuroartificial, lo que nos permiten adentrarnos más concretamente al mundo de la inteligencia artificial y al mismo tiempo, sigue sirviendo como base para el descubrimiento de nuevos inventos. En este trabajo, se definió cada una de las partes y elementos que componen el sistema biológico neuronal y a la red neuronal artificial, con la finalidad de conocer más a fondo la función que ejecuta cada elemento con respecto al procesamiento que cada sistema realiza. A lo que podríamos concluir, que las RNAs son modelos computacionales que tratan de asimilar de manera simplificada, el complejo comportamiento del cerebro humano. Aunque por otra parte, a pesar de todas las investigaciones realizadas y con los avances tecnológicos de la actualidad, sigue siendo poco entendible el funcionamiento del cerebro humano, por lo que también considero que una red neuronal no es un modelo del todo representativo del cerebro, sino que más bien se trata de ir entendiendo y reproduciendo el funcionamiento de sus elementos fundamentales, las neuronas. Dicho en otras palabras, las redes neuronales pueden considerarse una tecnología computacional que puede utilizarse en un gran número y variedad de aplicaciones; las cuales se pueden desarrollar en un periodo de tiempo razonable y pueden realizar tareas concretas, lo que nos permite optimizar tiempo y trabajo. A través del desarrollo de este trabajo logro aprender que las redes neuronales pueden tener diversas formas (topología) y tipos de neuronas en su estructura de 66 acuerdo al uso que se les requiera dar y dependiendo de qué situaciones se deseen resolver, ya que cada estructura realiza funciones diferentes lo que permite que el sistema se adapte a cada labor. Pero también me pude percatar que cada estructura que integra una red neuronal sigue una jerarquía de elementos en su constitución, lo que tiene un sentido en particular para los datos que procesa, es decir el resultado final dependerá de la dirección que tome la información. Puedo decir que el comportamiento de las redes neuronales depende del empeño y dedicación del entrenamiento al que se someten, ya que es ahí donde estos sistemas logran hacerse experto con el paso del tiempo y la experiencia con el que frecuentemente realizan las tareas. 67 FUENTES DE INFORMACIÓN Anderson J. (2007). Redes neuronales. México: Alfaomega. Aróztegui J., & Prados J. M. (2008). La perspectiva conexionista: hitos y limitaciones. Revista de historia de la psicología, 29,17-24. Aznar E.R. (2007).Biografías. Recuperado el 2 de agosto de 2013, de International Mathematical Union: http://www.ugr.es/~eaznar/index.html Biblioteca Digital. IV. La sinapsis: estructura y función. Recuperado el 19 de agosto de 2014, de bibliotecadigital:http://bibliotecadigital.ilce.edu.mx/sites/ciencia/volumen3/cie ncia3/130/html/sec_9.html Castellano M.M. (2009). Modelización estadística con Redes Neuronales. Aplicaciones a la Hidrología, Aero biología y Modelización de Procesos. Tesis de doctorado. Universidad de La Coruña, La Coruña, España. Córdoba F. (2005). Fundamentos biológicos del aprendizaje y la memoria. Recuperado el 20 de septiembre de 2014, de uhu: http://www.uhu.es/francisco.cordoba/asignaturas/FBAM/TEMAS%20PDF/7PLASTICIDAD.pdf Cruz A. (2003). Estabilidad de entrada-estado (ISS) para identificación con redes neuronales dinámicas. Tesis de Maestría. Instituto politécnico nacional, México, D.F. Flórez R. y Fernández J.M. (2008). Las Redes Neuronales Artificiales: Fundamentos Teóricos y aplicaciones prácticas.España: Netbiblo, S. L. Freeman J.A. (1993).Redes neuronales: algoritmos, aplicaciones y técnicas de programación. Estados Unidos de América: Addison-Wesley Iberoamericana, S.A. Fuente M.J., Calonge T. (1999). Aplicaciones de las redes de neuronas en supervisión, diagnosis y control de procesos. Venezuela: EQUINOCCIO. 68 Gaona S. (1991). Estudio comparativo de sistemas expertos contra redes neuronales. Tesis de Licenciatura. Universidad Veracruzana, Xalapa, Veracruz, México. Gómez G. (1994). “Planeación y Organización de Empresas”. México: McGraw-Hill. Gómez M. y Mendoza A. (2010). Redes Neuronales Artificiales para Calificar la Capacidad de Crédito de Entidades Mexicanas de Gobierno. Komputer Sapiens, 2, 26-32. Haykin S. (1998) Neural Networks: A comprehensive Foundation. Segunda Edición, Prentince Hall. Hebb D.O. (1949). TheOrganization of Behavior: A NeuropsychologicalTheory.New York: Taylor & Francis. Hernández G. (2009). Implementación numérica de redes neuronales artificiales para el análisis de grietas en placas. Tesis de maestría. Instituto Politécnico Nacional, México, D.F. Hilera J.R., y Martínez V.J. (1995). Redes neuronales artificiales: Fundamentos, Modelos y Aplicaciones. Estados Unidos. Addison-Wesley Iberoamericana, S.A. Ibermática (Febrero de 2011). Ibermática crea un sistema que reconocer objetos y personas a través de la Inteligencia Artificial. Recuperado el 20 de Septiembre de 2014, de Ibermática: http://www.ibermatica.com/sala-deprensa/innovacion/ibermatica-crea-un-sistema-que-reconocer-objetos-ypersonas-traves-de-la Kohonen T. (1997). Self-organizing Maps. Berlín: Springer-Verlag. Koontz H. y Weihrich H. (1998). Administración. Una perspectiva global. México: McGraw-Hill. Lafon, S. (2002). Redes neuronales: Tratamiento Estadístico de Señales. Recuperado el 9 de 19 de septiembre de 2014, de fing.edu:http://www.fing.edu.uy/iie/ense/asign/tes/materiales/monografias/R edesNeuronales.pdf Llinás R.R. (2003). El cerebro y el mito del yo. Bogotá: Editorial Norma 69 Maren A., Harston C., y Pap R. (1990). Handbook of Neural Computing Applications.Academic Press. Martin B., y Sanz A. (2007). Redes neuronales y sistemas borrosos. México: Alfaomega Matich D. (2001). Redes neuronales: conceptos básicos y aplicaciones. Cátedra. Universidad Tecnológica Nacional. McClelland J. (2014). Explorations in Parallel Distributed, Processing: A Handbook of Models, Programs, and Exercises. Second Edition, DRAFT. Numberger D. (2004). Aplicaciones industriales de redes neuronales. ETSI Telecomunicación: Universidad Politécnica de Madrid. Ochoa, S. (2003). Aplicaciones de las RNA. Recuperado el 18 de septiembre de 2014, de JDI, LLC: http://fluidos.eia.edu.co/hidraulica/articuloses/flujoentuberias/neuronal/neuro nal_archivos/page0007.htm Pasantes H. (1997). De neuronas, emociones y motivaciones. México: Fondo de Cultura Económica. Pastor A. (2012). Reconocimiento de objetos mediante redes neuronales. Madrid: Editorial Lulu. Paul D.H. (1977). Fisiología de la célula nerviosa. Madrid, España: H. Blume Ediciones. Ramírez, J. A., y Chacón, M. I. (2011). Redes neuronales artificiales para el procesamiento de imágenes, una revisión de la última década. Revista de ingeniería eléctrica, electrónica y computación, 9, 7-15. Real Academia Española (2001). Diccionario de la lengua española, (22.a ed.), Consultado en:http://lema.rae.es/drae/?val=NEURONA Redes Neuronales. Recuperado el 20 de Septiembre de 2014, de Redes Neuronales: http://perso.wanadoo.es/alimanya/hopfield.htm Reyes A. (2004). Administración de empresas: teoría y práctica. México: LIMUSA, S.A de C.V. 70 Serrano C., y Martín B. (1993).Predicción de la quiebra bancaria mediante el empleo de redes neuronales artificiales. Revista española de financiación y contabilidad, 23, (no.74) ,153-176. Stoner A.F., Freeman E. y GILBERT D.R. (1996). Administración, México: Editorial Prentice Hall. 71 GLOSARIO RNA. Red Neuronal Artificial Umbral. Valor mínimo de un agente físico o estímulo capaz de producir un efecto. Ponderación. Es el peso o la relevancia que tiene algo. Modelizar. Construir un modelo. Exocitosis.Proceso mediante el cual una célula viva libera al exterior sustancias q ue son producto de su metabolismo. Presináptico. Hacia donde se conduce el impulso de la sinapsis. Postsináptico. De donde proviene impulso la sinapsis. Micra. Una micra o micrómetro equivale a una millonésima parte de un metro. Nanómetro. El nanómetro es una medida de longitud utilizada para medir radiaciones, equivale a una milmillonésima parte de un metro. 73 ÍNDICE DE FIGURAS Figura 1.4.1. Conexión entre dos neuronas biológicas (Aporte personal)………...20 Figura 3.1.1. Modelo de perceptrón con backpropagation (Elaboración propia)…56 Figura 3.3.1. Estructura de red neuronal utilizada por el sistema de reconocimiento de rostros (Elaboración propia)………………………………………………………...58 74 ÍNDICE DE IMÁGENES Imagen 1.1.1. El Perceptrón de Rosenblatt (McClelland, 2014)……….………...…11 Imagen 1.3.6.1. Proceso de la sinapsis (Biblioteca Digital)…………………………18 Imagen 1.3.6.2. Activación de la sinapsis (Flórez y Fernández, 2008)…………....19 Imagen 1.5.1. Paralelismo entre el modelo biológico (a) y el modelo McCullochpitts (b) (Torra y Monte, 2013)………………………………………………………… 21 Imagen 1.5.2.1. Modelo genérico de neurona artificial (Martín y Sanz, 2007)…... 26 Imagen 1.5.4.1. Analogía directa entre la neurona biológica y la neurona artificial (Flórez y Fernández, 2008)……………………………………………………………. 27 Imagen 1.10.1.1 Red Adaline (a) y Red Madaline(b) (Flórez y Fernández, 2008).43 75 ÍNDICE DE TABLAS Tabla 1.1.1 La década de las redes neuronales (Aporte personal)………………..12 Tabla 1.3.4.1. Receptores del cuerpo humano (Elaboración propia)………………16 Tabla. 3.7.1. Porcentajes de acierto obtenidos por una RNA con 10 nodos escondidos, comparada con otros métodos convencionales (Mendoza-Velázquez y Gómez-Gil 2010)………………………………….……………………………………..64 76 ÍNDICE DE ESQUEMAS Esquema 1.2.1. Estructuras típicas de las neuronas biológicas (Flórez y Fernández, 2008)………………………………………………………………………..14 Esquema 1.5.2. Tipos de neuronas artificiales (Flórez y Fernández, 2008)………22 Esquema 1.5.1.1. Modelo de una neurona artificial (Lafon, 2002)…………………24 Esquema 1.5.1.2. Representación de un perceptrón de dos entradas (Hernández, 2009)…………………………………………………………………………………….. .24 Esquema 1.5.4.1. Estructura jerárquica de un sistema basado en redes neuronales artificiales (Flórez y Fernández, 2008)………………………………………………...28 Esquema 1.7.1.1. Ciclo del aprendizaje supervisado (Torra y Monte, 2013)……..32 Esquema 1.7.2.1. Ciclo del aprendizaje no supervisado (Torra y Monte, 2013)….34 Esquema.1.9.2.1 Red neuronal monocapa (Basogain, 2012)………………………41 Esquema 1.9.3.1. Estructura de la red neuronal multicapa (Cruz, 2003)………….42 Esquema 1.10.2.1 Red de Hopfield (Elaboración propia)…………………………...44 Esquema 3.6.1. Digestión anaerobia (Castellano M. 2009)………………………..61 Esquema. 3.7.1. Sistema basado en RNA para estimar calificaciones crediticias (Gómez M. y Mendoza A. 2010)……………………………………………………….63 77