ANEXO VI. Conceptos Teóricos de Redes Neuronales ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Realizado por: Daniel Cantón González. Juan Pedro Gómez Bocos. Tutores: Dr. Emilio S. Corchado Rodríguez. Dra. Verónica Tricio Gómez Ingeniería en Informática Universidad de Burgos. Escuela Politécnica Superior. Burgos, Junio 2008 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos - Anexo VI. Conceptos Teóricos de Redes Neuronales - 2 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos LISTA DE CAMBIOS Versión Fecha Descripción 1.0 5/04/2007 Primer borrador. 1.1 8/12/2007 Modificación. 1.2 12/05/2007 Modificación. 1.3 7/01/2008 Correcciones. 1.4 15/01/2008 Modificaciones. 1.5 20/05/2008 Correcciones. 1.6 23/05/2008 Modificaciones. Autor/es Daniel Cantón González Juan Pedro Gómez Bocos Daniel Cantón González Juan Pedro Gómez Bocos Daniel Cantón González Juan Pedro Gómez Bocos D. Emilio Corchado Daniel Cantón González Juan Pedro Gómez Bocos D. Emilio Corchado Daniel Cantón González Juan Pedro Gómez Bocos Tabla 1: Lista de Cambios. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 3 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos - Anexo VI. Conceptos Teóricos de Redes Neuronales - 4 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos TABLA DE CONTENIDADOS LISTA DE CAMBIOS ........................................................................ 3 TABLA DE CONTENIDADOS ........................................................ 5 LISTA DE FIGURAS ......................................................................... 9 LISTA DE TABLAS ......................................................................... 11 1. ESTADÍSTICA ............................................................................. 13 2. REDES NEURONALES ARTIFICIALES ............................... 16 2.1 NEURONAS BIOLÓGICAS ........................................................... 17 2.2 NEURONAS ARTIFICIALES ........................................................ 18 2.3 COMPARATIVA: REDES NEURONALES BIOLÓGICAS Y ARTIFICIALES...................................................................................... 19 3. FUNCIONES DE ACTIVACIÓN .............................................. 20 3.1 FUNCIÓN UMBRAL ...................................................................... 20 3.2 FUNCIÓN SEMILINEAL .............................................................. 21 3.3 FUNCIÓN SIGMOIDAL ................................................................ 22 3.4 FUNCIÓN LINEAL ........................................................................ 23 3.5 FUNCIÓN DE ACTIVACIÓN ESTOCÁSTICA ........................... 24 3.6 RESUMEN DE LAS FUNCIONES DE ACTIVACIÓN ............... 25 - Anexo VI. Conceptos Teóricos de Redes Neuronales - 5 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 4. PROPIEDADES DE LAS REDES NEURONALES ARTIFICIALES ................................................................................ 26 4.1 TOPOLOGÍA DE LA RED ............................................................. 27 4.2 MODO DE OPERACIÓN ............................................................... 27 4.3 ENTRENAMIENTO DE LA RED.................................................. 28 5. APRENDIZAJE EN LAS REDES NEURONALES ARTIFICIALES ................................................................................ 29 6. REDES CON APRENDIZAJE SUPERVISADO ..................... 30 6.1 PRINCIPALES TIPOS DE REDES ............................................... 30 7. REDES CON APRENDIZAJE NO SUPERVISADO .............. 32 7.1 APRENDIZAJE DE HEBB ............................................................ 32 7.1.1 ANÁLISIS DE COMPONENTES PRINCIPALES (PCA) ..................... 32 7.1.2 DIFERENTES MODELOS DE PCA ........................................................ 34 7.1.2.1 SUBESPACIO DE OJA ......................................................................... 34 7.1.2.2 SUBESPACIO “PONDERADO” DE OJA ............................................ 34 7.1.2.3 ALGORITMO GENERALIZADO DE SANGER ................................. 34 7.1.2.4 RED CON REALIMENTACIÓN NEGATIVA..................................... 35 7.2 APRENDIZAJE COMPETITIVO .................................................. 35 7.2.1 APRENDIZAJE COMPETITIVO SIMPLE ........................................... 35 7.2.2 MAPAS AUTO-ORGANIZADOS ............................................................ 36 - Anexo VI. Conceptos Teóricos de Redes Neuronales - 6 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 8. ALGORITMOS IMPLEMENTADOS ...................................... 38 8.1 PCA ESTADÍSTICO ....................................................................... 38 8.2 PCA NEURONAL ............................................................................ 38 8.3 MAXIMUM LIKELIHOOD HEBBIAN LEARNING (MLHL) ... 38 8.4 MAXIMUM LIKELIHOOD HEBBIAN LEARNING CON CONEXIONES LATERALES (MLHLCL) ........................................... 39 9. BIBLIOGRAFÍA........................................................................... 40 9.1 DOCUMENTACIÓN DE INGENIERÍA EN INFORMÁTICA ... 40 9.2 LIBROS Y ARTÍCULOS ................................................................. 40 9.3 DOCUMENTACIÓN EN LÍNEA ................................................... 41 - Anexo VI. Conceptos Teóricos de Redes Neuronales - 7 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos - Anexo VI. Conceptos Teóricos de Redes Neuronales - 8 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos LISTA DE FIGURAS Figura 1: Modelo Biológico. ......................................................................................... 17 Figura 2: Modelo Artificial. .......................................................................................... 18 Figura 3: Función Umbral. ........................................................................................... 20 Figura 4: Función Semilineal. ...................................................................................... 21 Figura 5: Función Sigmoidal. ....................................................................................... 22 Figura 6: Función Lineal. ............................................................................................. 23 Figura 7: Capas de las Redes Neuronales Artificiales. ................................................ 26 Figura 8: Perceptrón Multicapa. .................................................................................. 30 Figura 9: Redes de Funciones de Base Radial. ............................................................ 31 Figura 10: Análisis de Componentes Principales. ....................................................... 32 Figura 11: Redes con Realimentación Negativa. ......................................................... 35 Figura 12: Mapas Auto-Organizados. .......................................................................... 36 Figura 13: Diferencia de Gaussianas o Sombrero Mexicano. .................................... 36 - Anexo VI. Conceptos Teóricos de Redes Neuronales - 9 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos - Anexo VI. Conceptos Teóricos de Redes Neuronales - 10 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos LISTA DE TABLAS Tabla 1: Lista de Cambios. .............................................................................................. 3 Tabla 2: Comparativa: Redes Neuronales Biológicas y Artificiales. ........................... 19 Tabla 3: Resumen de las Funciones de Activación más Comunes.............................. 25 - Anexo VI. Conceptos Teóricos de Redes Neuronales - 11 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos - Anexo VI. Conceptos Teóricos de Redes Neuronales - 12 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 1. ESTADÍSTICA La estadística es una rama de la matemática que se refiere a la recolección, estudio e interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, ciencias de la salud como la Psicología y la Medicina, y usada en la toma de decisiones en áreas de negocios e instituciones gubernamentales. La Estadística se divide en dos ramas: Estadística descriptiva: se refiere al proceso de recolección, descripción, visualización y resumen de datos. Método de obtener de un conjunto de datos conclusiones sobre si mismos y no sobrepasan el conocimiento proporcionado por éstos. Los datos pueden ser resumidos numérica o gráficamente. Algunos descriptores numéricos son: la media y la desviación estándar. Inferencia estadística: es el proceso por el cual se deducen (infieren) propiedades o características de una población a partir de una muestra significativa. Conjunto de técnicas que se utiliza para obtener conclusiones que sobrepasan los límites del conocimiento aportado por los datos. Generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta lo aleatorio e incertidumbre en las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población de estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen ANOVA, series de tiempo y minería de datos. Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Computación Estadística El rápido y sostenido incremento en el poder de cálculo de la computación desde la segunda mitad del siglo XX ha tenido un sustancial impacto en la práctica de la ciencia estadística. Viejos modelos estadísticos fueron casi siempre de la clase de los modelos lineales. Ahora, los complejos computadores y los apropiados algoritmos numéricos, han causado un renacer en modelos no lineales como las redes neuronales y los árboles de decisión. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 13 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos Aplicaciones para las Redes Neuronales Las características de las redes neuronales las hacen bastante apropiadas para aplicaciones en las que no se dispone a priori de un modelo identificable que pueda ser programado, pero se dispone de un conjunto básico de ejemplos de entrada (clasificados o no). Asimismo, son altamente robustas tanto al ruido como a la disfunción de elementos concretos. Tratan problemas de clasificación y reconocimiento de patrones de voz, imágenes, señales, etc. Asimismo se han utilizado para encontrar patrones de fraude económico, hacer predicciones en el mercado financiero, hacer predicciones de tiempo atmosférico, etc. También se pueden utilizar cuando no existen modelos matemáticos precisos o algoritmos con complejidad razonable. Otro tipo especial de redes neuronales artificiales se ha aplicado en conjunción con los algoritmos genéticos (AG) para crear controladores para robots. La disciplina que trata la evolución de redes neuronales mediante algoritmos genéticos se denomina Robótica Evolutiva. Ejemplos: Biología o Aprender sobre el cerebro y otros sistemas. o Obtención de modelos de la retina. Empresa o Reconocimiento de caracteres escritos. o Identificación de candidatos para posiciones específicas. o Optimización de plazas y horarios en líneas de vuelo. o Explotación de bases de datos. o Evaluación de probabilidad de formaciones geológicas y petrolíferas. o Síntesis de voz desde texto. Medio Ambiente o Analizar tendencias y patrones. o Previsión del tiempo. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 14 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos Finanzas o Previsión de la evolución de los precios. o Valoración del riesgo de los créditos. o Identificación de falsificaciones. o Interpretación de firmas. Manufacturación o Robots automatizados y sistemas de control (visión artificial y sensores de presión, temperatura, gas, etc.) o Control de producción en líneas de proceso. o Inspección de calidad. o Filtrado de señales. Medicina o Analizadores del habla para la ayuda de audición de sordos profundos. o Diagnóstico y tratamiento a partir de síntomas y/o de datos analíticos (encefalograma, etc.). Monitorización en cirugía. o Predicción de reacciones adversas a los medicamentos. o Lectoras de Rayos X. o Entendimiento de causa de ataques epilépticos. Militares o Clasificación de las señales de radar. o Creación de armas inteligentes. o Optimización del uso de recursos escasos. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 15 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 2. REDES NEURONALES ARTIFICIALES Las Redes Neuronales Artificiales son algoritmos en forma de programa informático o modelo electrónico, se basan en el funcionamiento del cerebro humano (almacena la información en forma de patrones y utiliza estos para resolver problemas) y tienen diferentes aplicaciones dependiendo del tipo de arquitectura neuronal como puede ser: el reconocimiento de patrones, la comprensión de información y la reducción de dimensionalidad, el agrupamiento, la clasificación, la visualización. El procesamiento de información biológico es robusto, tolerante a fallos y flexibles, no necesita volver a ser programado cuando cambia de entorno o ambiente, se adapta al nuevo entorno y aprende. Las redes neuronales artificiales tienen muchas ventajas ya que están basadas en la estructura del sistema nervioso, (cerebro). Aprendizaje Habilidad de aprender, consiste en proporcionar datos a la RNA, una entrada y su salida o respuesta esperada. Auto organización Crea su propia representación de la información en su interior, descargando al usuario de esto. Tolerancia a fallos Almacena la información de forma redundante y puede seguir respondiendo aceptablemente aunque se dañe parcialmente. Flexibilidad Puede manejar cambios no importantes en la información de entrada, como señales con ruido u otros cambios en la entrada. Tiempo real La estructura es paralela, al ser implementado con computadoras o en dispositivos electrónicos especiales, se pueden obtener respuestas en tiempo real. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 16 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 2.1 NEURONAS BIOLÓGICAS Las neuronas son células que se encuentran en el cortex cerebral de los seres vivos. Elementos principales de una neurona: Dentritas: entrada de las señales que se combinan en el cuerpo de la neurona. La neurona determina una señal de salida a partir de la información percibida por las dentritas. Axón: salida de la señal generada por la neurona. Sinapsis: unidades funcionales y estructurales que median entre las interacciones de las neuronas. Cada sinapsis representa la unión entre un axón de una neurona con la dentrita de otra neurona. Figura 1: Modelo Biológico. Las neuronas transmiten y reciben la información por medio de la sinapsis, cuando la información alcanza el cuerpo de la célula tiene lugar la suma de los impulsos eléctricos. Función sumatoria: si el resultado de esa función es superior a un cierto límite o umbral, entonces la neurona se activará. La información es transmitida de una parte a otra de la red de neuronas. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 17 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 2.2 NEURONAS ARTIFICIALES El modelo de una neurona artificial es una imitación del proceso de una neurona biológica. Una neurona es un procesador elemental, procesa un vector de entradas (x 1, x2,…xn) y genera una respuesta o salida única (yk). Figura 2: Modelo Artificial. Los elementos principales son: Las señales de entrada: reciben datos de otras neuronas, se corresponden con las dentritas en una neurona biológica. Los pesos sinápticos (w1k, w2k,…wnk): en una neurona biológica se establece sinapsis entre las dentritas de una neurona y el axón de otra, en una neurona artifical a las entradas que vienen de otras neuronas se les asigna un peso, es decir una determinada importancia. Las neuronas tienen diferente rendimiento en su periodo de vida, el rendimiento de la sinapsis se modela a través de los “pesos”. El peso es un número que se modifica durante el entrenamiento de la red neuronal, almacena la información que permite a la red servir para un propósito u otro. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 18 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos Regla de propagación: en función de las entradas y los pesos se hace algún tipo de operación para obtener el valor del potencial, el cual se utilizará para realizar el procesamiento. o Una de las operaciones más comunes es sumar las entradas teniendo en cuenta la importancia de cada una (Suma Ponderada). y wij x j j o Otra regla puede ser la distancia euclídea, la cual se utiliza en los mapas auto-organizados (SOM) o las funciones de base radial (RBF). 2.3 La función de activación: El valor obtenido en la regla de propagación se filtra a través de la función de activación y define el nuevo estado o la salida de la neurona. Según para que se entrene la red neuronal se elige una función de activación u otra. COMPARATIVA: REDES NEURONALES BIOLÓGICAS Y ARTIFICIALES Redes Neuronales Biológicas Neuronas Conexiones sinápticas Efectividad de la sinápsis Efecto de activación de una conexión Efecto combinado de las sinapsis Activación Redes Neuronales Artificiales Unidades de proceso Conexiones ponderadas Peso de las conexiones Signo del peso de una conexión Función de propagación Función de activación Tabla 2: Comparativa: Redes Neuronales Biológicas y Artificiales. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 19 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 3. FUNCIONES DE ACTIVACIÓN La función de activación denotada por Fk s k define el nuevo estado o la salida de la neurona en términos del nivel de excitación de la misma. 3.1 FUNCIÓN UMBRAL Una de las funciones de activación típicas es una particularización de la función unitaria de Heaviside. Función Umbral 1 yk Fk sk 0 si sk 0 si sk 0 Figura 3: Función Umbral. Las neuronas con este tipo de función de activación se les conoce como neuronas de McCulloch-Pitts, se considera el principio de las redes neuronales artificiales [McCulloch y Pitts, 1943]. Esta neurona es un modelo simplificado de las neuronas biológicas. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 20 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 3.2 FUNCIÓN SEMILINEAL Función semilineal 1 1 si s k 2a 1 1 1 y k Fk s k ask si sk 2 2a 2a 1 0 si s k 2a Donde el parámetro a determina la pendiente de la recta definida en el tramo. 1 1 sk 2a 2a Figura 4: Función Semilineal. Las zonas de saturación (salida 1) y no saturación (salida 0), se considera una zona de operación lineal en torno al umbral de excitación de la neurona (valor 0 - entrada efectiva). En la zona lineal la salida es proporcional (factor a o ganancia) al valor de la entrada efectiva, que es una combinación lineal de los diferentes valores de entrada. Estas neuronas son una aproximación de un amplificador no lineal. La función semilineal adopta la forma de la función umbral cuando la ganancia a tiende a infinito. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 21 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 3.3 FUNCIÓN SIGMOIDAL Son las funciones que más comúnmente se utilizan, son estrictamente crecientes, suaves (son funciones diferenciables) y presentan un equilibrio entre el comportamiento lineal y no lineal. Función sigmoidal yk Fk sk 1 1 e bs k Figura 5: Función Sigmoidal. El rango de variación de dicha función es el intervalo [0,1] y el parámetro b se le denomina pendiente de la curva. Este valor determina su forma, si b tiende a infinito, la función logística tiende a alcanzar la forma de la función umbral y dicha función es diferenciable. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 22 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 3.4 FUNCIÓN LINEAL La salida de la neurona k coincide exactamente con la entrada efectiva a la misma. Función lineal yk Fk sk sk Figura 6: Función Lineal. Los pesos sinápticos de la neurona determinan un hiperplano del espacio de entrada EN, que viene dado por la siguiente ecuación: N w0 k w jk x j 0 j 1 Este hiperplano divide al espacio de entrada en dos subespacios disjuntos en los cuales los valores de salida yk tienen signos diferentes. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 23 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 3.5 FUNCIÓN DE ACTIVACIÓN ESTOCÁSTICA Los tipos de función de activación expuestos hasta ahora son deterministas, la salida está definida con total precisión para todos los valores de entrada. En algunas aplicaciones de las redes neuronales artificiales es interesante un modelo de neurona estocástica, en el sentido que la decisión de disparar o no la misma sea probabilística. Función estocástica 1 con probabilidad ps k yk 0 con probabilidad 1 ps k Una elección estándar para psk es: p s k 1 1 e sk T T es una “pseudotemperatura” que se usa para controlar el nivel de ruido y, expresa la incertidumbre sobre la activación de la neurona. Cuando T tiende a 0, este modelo estocástico de neurona se reduce a la forma determinista. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 24 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 3.6 RESUMEN DE LAS FUNCIONES DE ACTIVACIÓN Tabla 3: Resumen de las Funciones de Activación más Comunes. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 25 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 4. PROPIEDADES DE LAS REDES NEURONALES ARTIFICIALES Una red neuronal artificial es un conjunto de neuronas interconectadas, la salida de una neurona sirve de entrada de otras neuronas. Al estudiar una red podemos destacar dos aspectos importantes: Arquitectura o topología de la red: número de neuronas, disposición de las mismas y sus conexiones existentes. Proceso de entrenamiento: los pesos asociados a las conexiones se modifican en el tiempo y determinan la capacidad de adaptación o aprendizaje del modelo. Figura 7: Capas de las Redes Neuronales Artificiales. Las redes neuronales utilizan muchas neuronas a la vez y se basan en muchos procesos sencillos y robustos. Un conjunto de entradas se propaga a través de la red hasta alcanzar la capa de salida. Las capas intermedias u ocultas son invisibles fuera de la red. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 26 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 4.1 TOPOLOGÍA DE LA RED Red monocapa con propagación hacia adelante Una capa de entrada captura y distribuye las señales de entrada a la capa de salida que procesa la información y genera la salida de la red. La propagación de las señales es siempre hacia delante. Red multicapa con propagación hacia delante Como el anterior pero con la diferencia de incluir una o más capas intermedias. Las redes multicapa no añaden capacidad computable a menos que la función de activación de las capas sea no lineal. Redes recurrentes La diferencia con los anteriores es que existe una o más realimentaciones, la salida de una neurona es a su vez la entrada a otra neurona de un procesamiento anterior. 4.2 MODO DE OPERACIÓN Indica como el estado de la red varía en el tiempo, el cambio de estado de las neuronas se realiza de dos formas: Sincronía Todas las neuronas cambian su estado simultáneamente. Asíncrona Cada neurona tiene una probabilidad de modificar su estado en un determinado momento, normalmente sólo una neurona cambia su estado de activación en un instante de tiempo. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 27 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 4.3 ENTRENAMIENTO DE LA RED Las redes neuronales artificiales necesitan ser entrenadas antes de utilizarse. El proceso empieza con la asignación de valores a los pesos asociados a cada conexión y la definición de los parámetros de aprendizaje utilizados. Los valores de la configuración inicial se eligen de forma aleatoria, después se realiza el entrenamiento de la red, lo cual lleva la adaptación de los pesos. El ajuste de los pesos se debe hacer de acuerdo a alguna regla de aprendizaje. Regla de Hebb Si dos neuronas j y k están activadas simultáneamente, su interconexión debe ser fortalecida, si la neurona k recibe como entrada la salida de la neurona j, la regla de Hebb establece que el peso sináptico wjk debe modificarse. w jk y j yk - Constante de aprendizaje - Anexo VI. Conceptos Teóricos de Redes Neuronales - 28 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 5. APRENDIZAJE ARTIFICIALES EN LAS REDES NEURONALES La principal propiedad de una red neuronal artificial es la capacidad de aprender del entorno donde opera (los parámetros se adaptan al entorno) y mejorar su funcionamiento. Tipos de aprendizaje: Supervisado A la red se la suministra un conjunto de datos de entrada y las respuestas correctas correspondientes. Se compara la salida obtenida por la red con la que se espera, si no son iguales se ajuntan los pesos en función de la diferencia y si son iguales no se hace ningún cambio. El entrenamiento excesivo origina la memorización, la red deja de generalizar y empieza a reproducir, sólo funciona bien para los datos del entrenamiento pero si pruebo con otros no. Se emplea en aplicaciones: problemas de predicción de series temporales, de control, de reconocimiento de caras, etc. No supervisado La red sólo recibe un conjunto de datos de entrada, es necesario que la red se auto-organice (“se enseñe así misma”), dependiendo de la existencia de una estructura (debido a una redundancia o clusters) en el conjunto de datos de entrada. La red decide cuales son las características que determinan el agrupamiento de los vectores de entrada y generan la salida. Las neuronas compiten y las triunfadoras son las únicas que modifican los pesos asociados a las conexiones Con fortalecimiento Método intermedio entre los dos anteriores. Se provee a la red de un conjunto de datos de entrada y se propaga la activación, pero sólo diremos a la red si ha producido o no la verdadera respuesta. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 29 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 6. REDES CON APRENDIZAJE SUPERVISADO Proporciona a la red un conjunto de datos de entrada y la respuesta correcta, el conjunto de datos es propagado hacia adelante hasta la capa de salida. Entonces se compara la respuesta calculada de la red y se ajustan los pesos para tratar de conseguir una respuesta correcta. Esto es útil para las tareas de regresión y clasificación, algunas aplicaciones: Reconocimiento de códigos de barras. Predicción de series temporales y mercados financieros. Control de robots. Reconocimiento óptico de caracteres. Teledetección. 6.1 PRINCIPALES TIPOS DE REDES Perceptrón simple y Adaline Tiene una estructura de varias neuronas de entrada y una o más de salida, no tiene capa oculta. La diferencia entre ambos es la presencia de un umbral al calcular en Adaline las salidas. wi x j j Perceptrón multicapa Si los conjuntos de datos no son linealmente separables pueden ser modelados por el perceptrón multicapa. Figura 8: Perceptrón Multicapa. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 30 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos Red neuronal tiene una o más capas intermedias, el tiempo de entrenamiento puede ser excesivo con muchas capas intermedias. El número de neuronas en las capas ocultas influyen en la capacidad de generalización de la red: Redes con muchos pesos tienden a memorizar el conjunto de datos. Redes con muy pocos pesos no son capaces de aprender lo suficiente. Los algoritmos se deben tratar de diseñar con el mínimo número de neuronas en la capa oculta. Redes de funciones de base radial (RBF) La característica más importante es el uso de una función de cálculo y no una función de activación tradicional en las neuronas de la capa intermedia. Figura 9: Redes de Funciones de Base Radial. La función lleva a cabo una transformación no lineal desde el espacio de entrada al espacio de la capa intermedia. Las neuronas de la capa intermedia son las funciones base para los vectores de entrada. Las neuronas de la capa de salida calculan una combinación lineal de las salidas de las neuronas intermedias. Frecuentemente se utilizan funciones gaussianas en la capa intermedia, la media y desviación se determinan sobre el conjunto de datos de entrada. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 31 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 7. REDES CON APRENDIZAJE NO SUPERVISADO Descubre modelos o características significativas a partir de los datos de entrada, no existen valores de salida para poder contrastar. Se trata de imitar el comportamiento humano, la capacidad de aprender sin supervisión explicita. La red debe auto-organizarse y debe actuar ante algunos aspectos del conjunto de entrada como la existencia de redundancia o grupos en el conjunto de datos. Debe hacer algún tipo de estructura en los datos ante la cual pueda responder. Se utilizan dos métodos principales: Aprendizaje de Hebb Aprendizaje competitivo 7.1 APRENDIZAJE DE HEBB Permite obtener proyecciones o compresiones óptimas de conjuntos de datos. 7.1.1 ANÁLISIS DE COMPONENTES PRINCIPALES (PCA) Es una técnica de reducción de dimensionalidad o técnica estadística de comprensión lineal de un conjunto de datos. Figura 10: Análisis de Componentes Principales. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 32 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos Se encuentran las direcciones que se hacen cargo de la mayoría de la varianza del conjunto de datos. En los análisis con una alta dimensionalidad se deben identificar los patrones o estructuras que existen entre dimensiones. Los patrones se hacen visibles con cambios de base del espacio. Para elegir la base que permite identificar esos patrones se puede utilizar PCA cuyo objetivo es encontrar la base ortogonal la cual maximiza la varianza del conjunto de datos para una base de dimensión dada. La primera componente principal es la dirección que se hace cargo de la mayoría de la varianza de los datos, la mayoría de la varianza restante es la segunda componente principal. Al proyectar el conjunto de datos sobre las componentes principales se reduce la dimensionalidad con la mayor cantidad de varianza o información. Modelo de una Neurona de Oja El modelo extrae los primeros componentes principales de un conjunto de datos de entrada. Surge una simple neurona de salida la cual suma las entradas. m y wi xi i 1 Variación para la regla de Hebb w jk ( xi y y 2 wi ) Los pesos están normalizados, la regla sólo encuentra el primer vector principal. Para encontrar más componentes principales se necesita una iteración entre varias neuronas. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 33 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 7.1.2 DIFERENTES MODELOS DE PCA 7.1.2.1 SUBESPACIO DE OJA Cada neurona de la capa de salida aprende usando la regla de Hebb con un término de caída para que los pesos no crezcan sin límite. No se garantiza encontrar los componentes principales, pero los pesos convergen a una base ortogonal del espacio de los componentes principales. Regla de aprendizaje: wij ( x j yi yi wkj y k ) k 7.1.2.2 SUBESPACIO “PONDERADO” DE OJA Se introduce asimetría en el proceso de limitación del valor de los pesos para forzarlos a converger a los componentes principales. N wij yi ( x j y i y k wkj ) k 1 1 < 2 < 3 Este método permite encontrar los componentes principales. 7.1.2.3 ALGORITMO GENERALIZADO DE SANGER Introduce asimetría en el término de caída de la regla de aprendizaje. i wij ( xi yi yi wkj y k ) k 1 Permite encontrar los componentes principales. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 34 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 7.1.2.4 RED CON REALIMENTACIÓN NEGATIVA La activación es retroalimentada y tiene efecto sobre las neuronas de entrada. Figura 11: Redes con Realimentación Negativa. Se produce la convergencia de los pesos a los componentes principales del conjunto de datos. 7.2 APRENDIZAJE COMPETITIVO Se utiliza principalmente para agrupar conjuntos de datos (clustering). Las neuronas de la capa de salida compiten después de calcular cada neurona y sólo la neurona que gana la competición se activará. El objetivo es categorizar el conjunto de datos estudiando su estructura y clasificándolo en grupos. 7.2.1 APRENDIZAJE COMPETITIVO SIMPLE Se basa en encontrar la neurona ganadora y actualizar los pesos, así tiene más posibilidades de ganar la próxima vez con una entrada similar. La ecuación de transferencia de activación es: yi wij xi , i j La modificación de los pesos es una diferencia entre los pesos y las entradas, los pesos deben ser actualizados y normalizados en cada iteración para que una neurona no gane siempre. w jk ( x j wij ) - Anexo VI. Conceptos Teóricos de Redes Neuronales - 35 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 7.2.2 MAPAS AUTO-ORGANIZADOS Las características se basan en la disposición física de las neuronas de salida para determinar propiedades del espacio de entrada. Poseen un solo nivel con muchas conexiones y las neuronas se agrupan en diferentes clases. El aprendizaje se realiza si existe una estructura en el conjunto de datos: correlación, redundancia, etc. Figura 12: Mapas Auto-Organizados. Se actualizan los pesos de la neurona ganadora y de las neuronas vecinas. La función típica es la diferencia de gaussianas que permite incrementar los pesos de las neuronas próximas a la ganadora y reducir los pesos de aquellas que están a cierta distancia. Los pesos de las neuronas que están más alejadas no sufren cambios. Figura 13: Diferencia de Gaussianas o Sombrero Mexicano. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 36 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos El número de neuronas afectadas disminuye a medida que transcurre el aprendizaje. El proceso de aprendizaje no es global sino local (la modificación de los pesos depende de la proximidad a la neurona ganadora), esto permite destacar propiedades topológicas que aparecen en la proyección de características. Las diferentes partes del cerebro están especializadas o dedicadas a tareas específicas, lo mismo sucede en el entrenamiento de los mapas auto-organizados, las neuronas de salida se organizan en grupos de neuronas y las neuronas de cada grupo responden a una señal de entrada. El coeficiente de aprendizaje es constante las 1.000 primeras iteraciones, después disminuye lentamente hasta cero, el número de iteraciones depende de las características del conjunto de datos. Aplicaciones: Agrupamiento (Clustering) Los datos de entrada se agrupan en “clusters” (grupos), el sistema de procesamiento de datos tiene que encontrar los grupos inherentes en el conjunto de entrada. Reducción de Dimensionalidad La red preserva la topología y la ofrece en una dimensión más baja que la de los datos. El sistema debe encontrar una proyección óptima, la mayoría de las variaciones en los datos de entrada se mantienen en los datos de salida. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 37 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 8. ALGORITMOS IMPLEMENTADOS 8.1 PCA ESTADÍSTICO El algoritmo PCA Estadístico tiene como entradas (Datos, Clases). Datos: fichero con los datos o características de cada clase. Clases: fichero con los nombres de las clases. 8.2 PCA NEURONAL Algoritmo para implementar PCA, con una red neuronal con realimentación negativa. El algoritmo PCA Neuronal tiene como entradas (M, Lrate, Iters, Datos, Clases). M: número de neuronas. Lrate: coeficiente de aprendizaje. Iters: número de iteraciones. Datos: fichero con los datos o características de cada clase. Clases: fichero con los nombres de las clases. 8.3 MAXIMUM LIKELIHOOD HEBBIAN LEARNING (MLHL) Algoritmo para implementar PCA, con una red neuronal con realimentación negativa. El algoritmo MLHL tiene como entradas (M, Lrate, P, Iters, Datos, Clases). M: número de neuronas. Lrate: coeficiente de aprendizaje. Iters: número de iteraciones. P: p. Datos: fichero con los datos o características de cada clase. Clases: fichero con los nombres de las clases. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 38 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 8.4 MAXIMUM LIKELIHOOD HEBBIAN CONEXIONES LATERALES (MLHLCL) LEARNING CON Algoritmo para implementar PCA, con una red neuronal con realimentación negativa. El algoritmo MLHLCL tiene como entradas (M, Lrate, Iters, Tau, P, Datos, Clases). M: número de neuronas. Lrate: coeficiente de aprendizaje. Iters: número de iteraciones. Tau: tau. P: p. Datos: fichero con los datos o características de cada clase. Clases: fichero con los nombres de las clases. - Anexo VI. Conceptos Teóricos de Redes Neuronales - 39 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 9. BIBLIOGRAFÍA 9.1 9.2 DOCUMENTACIÓN DE INGENIERÍA EN INFORMÁTICA Emilio S. Corchado Rodríguez. Área de Lenguajes y Sistemas Informáticos. Departamento de Ingeniería Civil. Universidad de Burgos. Documentación de la asignatura “Computación Neuronal y Evolutiva” de Ingeniería en Informática (5º Curso). Emilio S. Corchado Rodríguez. Área de Lenguajes y Sistemas Informáticos. Departamento de Ingeniería Civil. Universidad de Burgos. Documentación de la asignatura “Inteligencia Artificial e Ingeniería del Conocimiento” de Ingeniería en Informática (5º Curso). LIBROS Y ARTÍCULOS Neural for Pattern Recognition Bishop Christopher M. Oxford University Press (1995). Artificial Neural Networks: Theory and Applications PATTERSON D. W. Prentice-Hall, 1996. Redes Neuronales Artificiales: Un Enfoque Práctico Corchado, Juan Manuel; Díaz, Fernando; Borrajo, Lourdes e Fernández, FlorentinoUniversidad de Vigo (2000). - Anexo VI. Conceptos Teóricos de Redes Neuronales - 40 ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES Ingeniería en Informática – Universidad de Burgos 9.3 DOCUMENTACIÓN EN LÍNEA Estadística Descriptiva http://sitios.ingenieria-usac.edu.gt/estadistica/estadistica2/ estadisticadescriptiva.html Enciclopedia Online Wikipedia - Red Neuronal Artificial http://es.wikipedia.org/wiki/Red_neuronal_artificial Introducción a las Redes Neuronales Artificiales http://www.geocities.com/siliconvalley/campus/9756/Tutorial/RNA_intro.htm - Anexo VI. Conceptos Teóricos de Redes Neuronales - 41