Anexo VI - Conceptos Teóricos de Redes Neuronales

Anuncio
ANEXO VI. Conceptos Teóricos de
Redes Neuronales
ANÁLISIS DE DATOS MEDIOAMBIENTALES
MEDIANTE MODELOS CONEXIONISTAS
Y DISPOSITIVOS MÓVILES
Realizado por:
Daniel Cantón González.
Juan Pedro Gómez Bocos.
Tutores:
Dr. Emilio S. Corchado Rodríguez.
Dra. Verónica Tricio Gómez
Ingeniería en Informática
Universidad de Burgos.
Escuela Politécnica Superior.
Burgos, Junio 2008
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
2
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
LISTA DE CAMBIOS
Versión
Fecha
Descripción
1.0
5/04/2007 Primer borrador.
1.1
8/12/2007 Modificación.
1.2
12/05/2007 Modificación.
1.3
7/01/2008 Correcciones.
1.4
15/01/2008 Modificaciones.
1.5
20/05/2008 Correcciones.
1.6
23/05/2008 Modificaciones.
Autor/es
Daniel Cantón González
Juan Pedro Gómez Bocos
Daniel Cantón González
Juan Pedro Gómez Bocos
Daniel Cantón González
Juan Pedro Gómez Bocos
D. Emilio Corchado
Daniel Cantón González
Juan Pedro Gómez Bocos
D. Emilio Corchado
Daniel Cantón González
Juan Pedro Gómez Bocos
Tabla 1: Lista de Cambios.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
3
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
4
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
TABLA DE CONTENIDADOS
LISTA DE CAMBIOS ........................................................................ 3
TABLA DE CONTENIDADOS ........................................................ 5
LISTA DE FIGURAS ......................................................................... 9
LISTA DE TABLAS ......................................................................... 11
1. ESTADÍSTICA ............................................................................. 13
2. REDES NEURONALES ARTIFICIALES ............................... 16
2.1 NEURONAS BIOLÓGICAS ........................................................... 17
2.2 NEURONAS ARTIFICIALES ........................................................ 18
2.3 COMPARATIVA: REDES NEURONALES BIOLÓGICAS Y
ARTIFICIALES...................................................................................... 19
3. FUNCIONES DE ACTIVACIÓN .............................................. 20
3.1 FUNCIÓN UMBRAL ...................................................................... 20
3.2 FUNCIÓN SEMILINEAL .............................................................. 21
3.3 FUNCIÓN SIGMOIDAL ................................................................ 22
3.4 FUNCIÓN LINEAL ........................................................................ 23
3.5 FUNCIÓN DE ACTIVACIÓN ESTOCÁSTICA ........................... 24
3.6 RESUMEN DE LAS FUNCIONES DE ACTIVACIÓN ............... 25
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
5
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
4. PROPIEDADES DE LAS REDES NEURONALES
ARTIFICIALES ................................................................................ 26
4.1 TOPOLOGÍA DE LA RED ............................................................. 27
4.2 MODO DE OPERACIÓN ............................................................... 27
4.3 ENTRENAMIENTO DE LA RED.................................................. 28
5. APRENDIZAJE EN LAS REDES NEURONALES
ARTIFICIALES ................................................................................ 29
6. REDES CON APRENDIZAJE SUPERVISADO ..................... 30
6.1 PRINCIPALES TIPOS DE REDES ............................................... 30
7. REDES CON APRENDIZAJE NO SUPERVISADO .............. 32
7.1 APRENDIZAJE DE HEBB ............................................................ 32
7.1.1 ANÁLISIS DE COMPONENTES PRINCIPALES (PCA) ..................... 32
7.1.2 DIFERENTES MODELOS DE PCA ........................................................ 34
7.1.2.1 SUBESPACIO DE OJA ......................................................................... 34
7.1.2.2 SUBESPACIO “PONDERADO” DE OJA ............................................ 34
7.1.2.3 ALGORITMO GENERALIZADO DE SANGER ................................. 34
7.1.2.4 RED CON REALIMENTACIÓN NEGATIVA..................................... 35
7.2 APRENDIZAJE COMPETITIVO .................................................. 35
7.2.1 APRENDIZAJE COMPETITIVO SIMPLE ........................................... 35
7.2.2 MAPAS AUTO-ORGANIZADOS ............................................................ 36
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
6
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
8. ALGORITMOS IMPLEMENTADOS ...................................... 38
8.1 PCA ESTADÍSTICO ....................................................................... 38
8.2 PCA NEURONAL ............................................................................ 38
8.3 MAXIMUM LIKELIHOOD HEBBIAN LEARNING (MLHL) ... 38
8.4 MAXIMUM LIKELIHOOD HEBBIAN LEARNING CON
CONEXIONES LATERALES (MLHLCL) ........................................... 39
9. BIBLIOGRAFÍA........................................................................... 40
9.1 DOCUMENTACIÓN DE INGENIERÍA EN INFORMÁTICA ... 40
9.2 LIBROS Y ARTÍCULOS ................................................................. 40
9.3 DOCUMENTACIÓN EN LÍNEA ................................................... 41
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
7
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
8
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
LISTA DE FIGURAS
Figura 1: Modelo Biológico. ......................................................................................... 17
Figura 2: Modelo Artificial. .......................................................................................... 18
Figura 3: Función Umbral. ........................................................................................... 20
Figura 4: Función Semilineal. ...................................................................................... 21
Figura 5: Función Sigmoidal. ....................................................................................... 22
Figura 6: Función Lineal. ............................................................................................. 23
Figura 7: Capas de las Redes Neuronales Artificiales. ................................................ 26
Figura 8: Perceptrón Multicapa. .................................................................................. 30
Figura 9: Redes de Funciones de Base Radial. ............................................................ 31
Figura 10: Análisis de Componentes Principales. ....................................................... 32
Figura 11: Redes con Realimentación Negativa. ......................................................... 35
Figura 12: Mapas Auto-Organizados. .......................................................................... 36
Figura 13: Diferencia de Gaussianas o Sombrero Mexicano. .................................... 36
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
9
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
10
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
LISTA DE TABLAS
Tabla 1: Lista de Cambios. .............................................................................................. 3
Tabla 2: Comparativa: Redes Neuronales Biológicas y Artificiales. ........................... 19
Tabla 3: Resumen de las Funciones de Activación más Comunes.............................. 25
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
11
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
12
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
1. ESTADÍSTICA
La estadística es una rama de la matemática que se refiere a la recolección, estudio e
interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia variedad
de disciplinas, desde la física hasta las ciencias sociales, ciencias de la salud como la
Psicología y la Medicina, y usada en la toma de decisiones en áreas de negocios e
instituciones gubernamentales.
La Estadística se divide en dos ramas:

Estadística descriptiva: se refiere al proceso de recolección, descripción,
visualización y resumen de datos. Método de obtener de un conjunto de datos
conclusiones sobre si mismos y no sobrepasan el conocimiento proporcionado
por éstos. Los datos pueden ser resumidos numérica o gráficamente. Algunos
descriptores numéricos son: la media y la desviación estándar.

Inferencia estadística: es el proceso por el cual se deducen (infieren)
propiedades o características de una población a partir de una muestra
significativa. Conjunto de técnicas que se utiliza para obtener conclusiones que
sobrepasan los límites del conocimiento aportado por los datos. Generación de
los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión
teniendo en cuenta lo aleatorio e incertidumbre en las observaciones. Se usa para
modelar patrones en los datos y extraer inferencias acerca de la población de
estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no
(prueba de hipótesis), estimaciones de características numéricas (estimación),
pronósticos de futuras observaciones, descripciones de asociación (correlación)
o modelamiento de relaciones entre variables (análisis de regresión). Otras
técnicas de modelamiento incluyen ANOVA, series de tiempo y minería de
datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada.
Computación Estadística
El rápido y sostenido incremento en el poder de cálculo de la computación desde la
segunda mitad del siglo XX ha tenido un sustancial impacto en la práctica de la ciencia
estadística. Viejos modelos estadísticos fueron casi siempre de la clase de los modelos
lineales. Ahora, los complejos computadores y los apropiados algoritmos numéricos,
han causado un renacer en modelos no lineales como las redes neuronales y los árboles
de decisión.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
13
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
Aplicaciones para las Redes Neuronales
Las características de las redes neuronales las hacen bastante apropiadas para
aplicaciones en las que no se dispone a priori de un modelo identificable que pueda ser
programado, pero se dispone de un conjunto básico de ejemplos de entrada (clasificados
o no). Asimismo, son altamente robustas tanto al ruido como a la disfunción de
elementos concretos.
Tratan problemas de clasificación y reconocimiento de patrones de voz, imágenes,
señales, etc. Asimismo se han utilizado para encontrar patrones de fraude económico,
hacer predicciones en el mercado financiero, hacer predicciones de tiempo atmosférico,
etc.
También se pueden utilizar cuando no existen modelos matemáticos precisos o
algoritmos con complejidad razonable.
Otro tipo especial de redes neuronales artificiales se ha aplicado en conjunción con los
algoritmos genéticos (AG) para crear controladores para robots. La disciplina que trata
la evolución de redes neuronales mediante algoritmos genéticos se denomina Robótica
Evolutiva.
Ejemplos:

Biología
o Aprender sobre el cerebro y otros sistemas.
o Obtención de modelos de la retina.

Empresa
o Reconocimiento de caracteres escritos.
o Identificación de candidatos para posiciones específicas.
o Optimización de plazas y horarios en líneas de vuelo.
o Explotación de bases de datos.
o Evaluación de probabilidad de formaciones geológicas y petrolíferas.
o Síntesis de voz desde texto.

Medio Ambiente
o Analizar tendencias y patrones.
o Previsión del tiempo.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
14
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos


Finanzas
o Previsión de la evolución de los precios.
o Valoración del riesgo de los créditos.
o Identificación de falsificaciones.
o Interpretación de firmas.
Manufacturación
o Robots automatizados y sistemas de control (visión artificial y sensores
de presión, temperatura, gas, etc.)
o Control de producción en líneas de proceso.
o Inspección de calidad.
o Filtrado de señales.

Medicina
o Analizadores del habla para la ayuda de audición de sordos profundos.
o Diagnóstico y tratamiento a partir de síntomas y/o de datos analíticos
(encefalograma, etc.).

Monitorización en cirugía.
o Predicción de reacciones adversas a los medicamentos.
o Lectoras de Rayos X.
o Entendimiento de causa de ataques epilépticos.

Militares
o Clasificación de las señales de radar.
o Creación de armas inteligentes.
o Optimización del uso de recursos escasos.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
15
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
2. REDES NEURONALES ARTIFICIALES
Las Redes Neuronales Artificiales son algoritmos en forma de programa informático o
modelo electrónico, se basan en el funcionamiento del cerebro humano (almacena la
información en forma de patrones y utiliza estos para resolver problemas) y tienen
diferentes aplicaciones dependiendo del tipo de arquitectura neuronal como puede ser:
el reconocimiento de patrones, la comprensión de información y la reducción de
dimensionalidad, el agrupamiento, la clasificación, la visualización.
El procesamiento de información biológico es robusto, tolerante a fallos y flexibles, no
necesita volver a ser programado cuando cambia de entorno o ambiente, se adapta al
nuevo entorno y aprende.
Las redes neuronales artificiales tienen muchas ventajas ya que están basadas en la
estructura del sistema nervioso, (cerebro).

Aprendizaje
Habilidad de aprender, consiste en proporcionar datos a la RNA, una entrada y
su salida o respuesta esperada.

Auto organización
Crea su propia representación de la información en su interior, descargando al
usuario de esto.

Tolerancia a fallos
Almacena la información de forma redundante y puede seguir respondiendo
aceptablemente aunque se dañe parcialmente.

Flexibilidad
Puede manejar cambios no importantes en la información de entrada, como
señales con ruido u otros cambios en la entrada.

Tiempo real
La estructura es paralela, al ser implementado con computadoras o en
dispositivos electrónicos especiales, se pueden obtener respuestas en tiempo real.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
16
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
2.1
NEURONAS BIOLÓGICAS
Las neuronas son células que se encuentran en el cortex cerebral de los seres vivos.
Elementos principales de una neurona:
 Dentritas: entrada de las señales que se combinan en el cuerpo de la neurona.
La neurona determina una señal de salida a partir de la información percibida
por las dentritas.

Axón: salida de la señal generada por la neurona.

Sinapsis: unidades funcionales y estructurales que median entre las
interacciones de las neuronas. Cada sinapsis representa la unión entre un axón de
una neurona con la dentrita de otra neurona.
Figura 1: Modelo Biológico.
Las neuronas transmiten y reciben la información por medio de la sinapsis, cuando la
información alcanza el cuerpo de la célula tiene lugar la suma de los impulsos
eléctricos.
Función sumatoria: si el resultado de esa función es superior a un cierto límite o umbral,
entonces la neurona se activará.
La información es transmitida de una parte a otra de la red de neuronas.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
17
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
2.2
NEURONAS ARTIFICIALES
El modelo de una neurona artificial es una imitación del proceso de una neurona
biológica. Una neurona es un procesador elemental, procesa un vector de entradas (x 1,
x2,…xn) y genera una respuesta o salida única (yk).
Figura 2: Modelo Artificial.
Los elementos principales son:

Las señales de entrada: reciben datos de otras neuronas, se corresponden con
las dentritas en una neurona biológica.

Los pesos sinápticos (w1k, w2k,…wnk): en una neurona biológica se establece
sinapsis entre las dentritas de una neurona y el axón de otra, en una neurona
artifical a las entradas que vienen de otras neuronas se les asigna un peso, es
decir una determinada importancia. Las neuronas tienen diferente rendimiento
en su periodo de vida, el rendimiento de la sinapsis se modela a través de los
“pesos”. El peso es un número que se modifica durante el entrenamiento de la
red neuronal, almacena la información que permite a la red servir para un
propósito u otro.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
18
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos

Regla de propagación: en función de las entradas y los pesos se hace algún tipo
de operación para obtener el valor del potencial, el cual se utilizará para realizar
el procesamiento.
o Una de las operaciones más comunes es sumar las entradas teniendo en
cuenta la importancia de cada una (Suma Ponderada).
y   wij x j
j
o Otra regla puede ser la distancia euclídea, la cual se utiliza en los mapas
auto-organizados (SOM) o las funciones de base radial (RBF).

2.3
La función de activación: El valor obtenido en la regla de propagación se filtra
a través de la función de activación y define el nuevo estado o la salida de la
neurona. Según para que se entrene la red neuronal se elige una función de
activación u otra.
COMPARATIVA: REDES NEURONALES BIOLÓGICAS Y
ARTIFICIALES
Redes Neuronales Biológicas
Neuronas
Conexiones sinápticas
Efectividad de la sinápsis
Efecto de activación de una conexión
Efecto combinado de las sinapsis
Activación
Redes Neuronales Artificiales
Unidades de proceso
Conexiones ponderadas
Peso de las conexiones
Signo del peso de una conexión
Función de propagación
Función de activación
Tabla 2: Comparativa: Redes Neuronales Biológicas y Artificiales.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
19
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
3. FUNCIONES DE ACTIVACIÓN
La función de activación denotada por Fk s k  define el nuevo estado o la salida de la
neurona en términos del nivel de excitación de la misma.
3.1
FUNCIÓN UMBRAL
Una de las funciones de activación típicas es una particularización de la función unitaria
de Heaviside.
Función Umbral
1
yk  Fk sk   
0
si sk  0
si sk  0
Figura 3: Función Umbral.
Las neuronas con este tipo de función de activación se les conoce como neuronas de
McCulloch-Pitts, se considera el principio de las redes neuronales artificiales
[McCulloch y Pitts, 1943]. Esta neurona es un modelo simplificado de las neuronas
biológicas.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
20
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
3.2
FUNCIÓN SEMILINEAL
Función semilineal
1

1 si s k  2a

1
1
1

y k  Fk s k   ask  si 
 sk 
2
2a
2a

1

0 si s k   2a

Donde el parámetro a determina la pendiente de la recta definida en el tramo.
1
1

 sk 
2a
2a
Figura 4: Función Semilineal.
Las zonas de saturación (salida 1) y no saturación (salida 0), se considera una zona de
operación lineal en torno al umbral de excitación de la neurona (valor 0 - entrada
efectiva). En la zona lineal la salida es proporcional (factor a o ganancia) al valor de la
entrada efectiva, que es una combinación lineal de los diferentes valores de entrada.
Estas neuronas son una aproximación de un amplificador no lineal.
La función semilineal adopta la forma de la función umbral cuando la ganancia a tiende
a infinito.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
21
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
3.3
FUNCIÓN SIGMOIDAL
Son las funciones que más comúnmente se utilizan, son estrictamente crecientes, suaves
(son funciones diferenciables) y presentan un equilibrio entre el comportamiento lineal
y no lineal.
Función sigmoidal
yk  Fk sk  
1
1  e  bs k
Figura 5: Función Sigmoidal.
El rango de variación de dicha función es el intervalo [0,1] y el parámetro b se le
denomina pendiente de la curva. Este valor determina su forma, si b tiende a infinito, la
función logística tiende a alcanzar la forma de la función umbral y dicha función es
diferenciable.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
22
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
3.4
FUNCIÓN LINEAL
La salida de la neurona k coincide exactamente con la entrada efectiva a la misma.
Función lineal
yk  Fk sk   sk
Figura 6: Función Lineal.
Los pesos sinápticos de la neurona determinan un hiperplano del espacio de entrada EN,
que viene dado por la siguiente ecuación:
N
w0 k   w jk x j  0
j 1
Este hiperplano divide al espacio de entrada en dos subespacios disjuntos en los cuales
los valores de salida yk tienen signos diferentes.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
23
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
3.5
FUNCIÓN DE ACTIVACIÓN ESTOCÁSTICA
Los tipos de función de activación expuestos hasta ahora son deterministas, la salida
está definida con total precisión para todos los valores de entrada.
En algunas aplicaciones de las redes neuronales artificiales es interesante un modelo de
neurona estocástica, en el sentido que la decisión de disparar o no la misma sea
probabilística.
Función estocástica
 1 con probabilidad ps k 
yk  
0 con probabilidad 1  ps k 
Una elección estándar para psk  es:
p s k  
1
1 e

sk
T
T es una “pseudotemperatura” que se usa para controlar el nivel de ruido y, expresa la
incertidumbre sobre la activación de la neurona. Cuando T tiende a 0, este modelo
estocástico de neurona se reduce a la forma determinista.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
24
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
3.6
RESUMEN DE LAS FUNCIONES DE ACTIVACIÓN
Tabla 3: Resumen de las Funciones de Activación más Comunes.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
25
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
4. PROPIEDADES DE LAS REDES NEURONALES
ARTIFICIALES
Una red neuronal artificial es un conjunto de neuronas interconectadas, la salida de una
neurona sirve de entrada de otras neuronas.
Al estudiar una red podemos destacar dos aspectos importantes:

Arquitectura o topología de la red: número de neuronas, disposición de las
mismas y sus conexiones existentes.

Proceso de entrenamiento: los pesos asociados a las conexiones se modifican en
el tiempo y determinan la capacidad de adaptación o aprendizaje del modelo.
Figura 7: Capas de las Redes Neuronales Artificiales.
Las redes neuronales utilizan muchas neuronas a la vez y se basan en muchos procesos
sencillos y robustos. Un conjunto de entradas se propaga a través de la red hasta
alcanzar la capa de salida. Las capas intermedias u ocultas son invisibles fuera de la red.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
26
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
4.1
TOPOLOGÍA DE LA RED

Red monocapa con propagación hacia adelante
Una capa de entrada captura y distribuye las señales de entrada a la capa de
salida que procesa la información y genera la salida de la red. La propagación de
las señales es siempre hacia delante.

Red multicapa con propagación hacia delante
Como el anterior pero con la diferencia de incluir una o más capas intermedias.
Las redes multicapa no añaden capacidad computable a menos que la función de
activación de las capas sea no lineal.

Redes recurrentes
La diferencia con los anteriores es que existe una o más realimentaciones, la
salida de una neurona es a su vez la entrada a otra neurona de un procesamiento
anterior.
4.2
MODO DE OPERACIÓN
Indica como el estado de la red varía en el tiempo, el cambio de estado de las neuronas
se realiza de dos formas:

Sincronía
Todas las neuronas cambian su estado simultáneamente.

Asíncrona
Cada neurona tiene una probabilidad de modificar su estado en un determinado
momento, normalmente sólo una neurona cambia su estado de activación en un
instante de tiempo.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
27
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
4.3
ENTRENAMIENTO DE LA RED
Las redes neuronales artificiales necesitan ser entrenadas antes de utilizarse. El proceso
empieza con la asignación de valores a los pesos asociados a cada conexión y la
definición de los parámetros de aprendizaje utilizados.
Los valores de la configuración inicial se eligen de forma aleatoria, después se realiza
el entrenamiento de la red, lo cual lleva la adaptación de los pesos.
El ajuste de los pesos se debe hacer de acuerdo a alguna regla de aprendizaje.
Regla de Hebb
Si dos neuronas j y k están activadas simultáneamente, su interconexión debe ser
fortalecida, si la neurona k recibe como entrada la salida de la neurona j, la regla de
Hebb establece que el peso sináptico wjk debe modificarse.
w jk  y j yk
 - Constante de aprendizaje
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
28
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
5. APRENDIZAJE
ARTIFICIALES
EN
LAS
REDES
NEURONALES
La principal propiedad de una red neuronal artificial es la capacidad de aprender del
entorno donde opera (los parámetros se adaptan al entorno) y mejorar su
funcionamiento.
Tipos de aprendizaje:

Supervisado
A la red se la suministra un conjunto de datos de entrada y las respuestas
correctas correspondientes. Se compara la salida obtenida por la red con la que
se espera, si no son iguales se ajuntan los pesos en función de la diferencia y si
son iguales no se hace ningún cambio.
El entrenamiento excesivo origina la memorización, la red deja de generalizar y
empieza a reproducir, sólo funciona bien para los datos del entrenamiento pero si
pruebo con otros no.
Se emplea en aplicaciones: problemas de predicción de series temporales, de
control, de reconocimiento de caras, etc.

No supervisado
La red sólo recibe un conjunto de datos de entrada, es necesario que la red se
auto-organice (“se enseñe así misma”), dependiendo de la existencia de una
estructura (debido a una redundancia o clusters) en el conjunto de datos de
entrada. La red decide cuales son las características que determinan el
agrupamiento de los vectores de entrada y generan la salida.
Las neuronas compiten y las triunfadoras son las únicas que modifican los pesos
asociados a las conexiones

Con fortalecimiento
Método intermedio entre los dos anteriores. Se provee a la red de un conjunto de
datos de entrada y se propaga la activación, pero sólo diremos a la red si ha
producido o no la verdadera respuesta.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
29
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
6. REDES CON APRENDIZAJE SUPERVISADO
Proporciona a la red un conjunto de datos de entrada y la respuesta correcta, el conjunto
de datos es propagado hacia adelante hasta la capa de salida. Entonces se compara la
respuesta calculada de la red y se ajustan los pesos para tratar de conseguir una
respuesta correcta.
Esto es útil para las tareas de regresión y clasificación, algunas aplicaciones:

Reconocimiento de códigos de barras.

Predicción de series temporales y mercados financieros.

Control de robots.

Reconocimiento óptico de caracteres.

Teledetección.
6.1
PRINCIPALES TIPOS DE REDES
Perceptrón simple y Adaline
Tiene una estructura de varias neuronas de entrada y una o más de salida, no tiene capa
oculta. La diferencia entre ambos es la presencia de un umbral al calcular en Adaline las
salidas.
   wi x j  
j
Perceptrón multicapa
Si los conjuntos de datos no son linealmente separables pueden ser modelados por el
perceptrón multicapa.
Figura 8: Perceptrón Multicapa.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
30
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
Red neuronal tiene una o más capas intermedias, el tiempo de entrenamiento puede ser
excesivo con muchas capas intermedias. El número de neuronas en las capas ocultas
influyen en la capacidad de generalización de la red:

Redes con muchos pesos tienden a memorizar el conjunto de datos.

Redes con muy pocos pesos no son capaces de aprender lo suficiente.
Los algoritmos se deben tratar de diseñar con el mínimo número de neuronas en la capa
oculta.
Redes de funciones de base radial (RBF)
La característica más importante es el uso de una función de cálculo y no una función
de activación tradicional en las neuronas de la capa intermedia.
Figura 9: Redes de Funciones de Base Radial.
La función lleva a cabo una transformación no lineal desde el espacio de entrada al
espacio de la capa intermedia.
 Las neuronas de la capa intermedia son las funciones base para los vectores de
entrada.

Las neuronas de la capa de salida calculan una combinación lineal de las salidas
de las neuronas intermedias.
Frecuentemente se utilizan funciones gaussianas en la capa intermedia, la media y
desviación se determinan sobre el conjunto de datos de entrada.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
31
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
7. REDES CON APRENDIZAJE NO SUPERVISADO
Descubre modelos o características significativas a partir de los datos de entrada, no
existen valores de salida para poder contrastar.
Se trata de imitar el comportamiento humano, la capacidad de aprender sin supervisión
explicita. La red debe auto-organizarse y debe actuar ante algunos aspectos del conjunto
de entrada como la existencia de redundancia o grupos en el conjunto de datos.
Debe hacer algún tipo de estructura en los datos ante la cual pueda responder.
Se utilizan dos métodos principales:

Aprendizaje de Hebb

Aprendizaje competitivo
7.1
APRENDIZAJE DE HEBB
Permite obtener proyecciones o compresiones óptimas de conjuntos de datos.
7.1.1 ANÁLISIS DE COMPONENTES PRINCIPALES (PCA)
Es una técnica de reducción de dimensionalidad o técnica estadística de comprensión
lineal de un conjunto de datos.
Figura 10: Análisis de Componentes Principales.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
32
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
Se encuentran las direcciones que se hacen cargo de la mayoría de la varianza del
conjunto de datos.
En los análisis con una alta dimensionalidad se deben identificar los patrones o
estructuras que existen entre dimensiones. Los patrones se hacen visibles con cambios
de base del espacio.
Para elegir la base que permite identificar esos patrones se puede utilizar PCA cuyo
objetivo es encontrar la base ortogonal la cual maximiza la varianza del conjunto de
datos para una base de dimensión dada.
La primera componente principal es la dirección que se hace cargo de la mayoría de la
varianza de los datos, la mayoría de la varianza restante es la segunda componente
principal.
Al proyectar el conjunto de datos sobre las componentes principales se reduce la
dimensionalidad con la mayor cantidad de varianza o información.
Modelo de una Neurona de Oja
El modelo extrae los primeros componentes principales de un conjunto de datos de
entrada. Surge una simple neurona de salida la cual suma las entradas.
m
y   wi xi
i 1
Variación para la regla de Hebb
w jk   ( xi y  y 2 wi )
Los pesos están normalizados, la regla sólo encuentra el primer vector principal. Para
encontrar más componentes principales se necesita una iteración entre varias neuronas.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
33
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
7.1.2 DIFERENTES MODELOS DE PCA
7.1.2.1
SUBESPACIO DE OJA
Cada neurona de la capa de salida aprende usando la regla de Hebb con un término de
caída para que los pesos no crezcan sin límite.
No se garantiza encontrar los componentes principales, pero los pesos convergen a una
base ortogonal del espacio de los componentes principales.
Regla de aprendizaje:
wij   ( x j yi  yi  wkj y k )
k
7.1.2.2
SUBESPACIO “PONDERADO” DE OJA
Se introduce asimetría en el proceso de limitación del valor de los pesos para forzarlos a
converger a los componentes principales.
N
wij  yi ( x j  y i  y k wkj )
k 1
 1 <  2 < 3
Este método permite encontrar los componentes principales.
7.1.2.3
ALGORITMO GENERALIZADO DE SANGER
Introduce asimetría en el término de caída de la regla de aprendizaje.
i
wij   ( xi yi  yi  wkj y k )
k 1
Permite encontrar los componentes principales.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
34
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
7.1.2.4
RED CON REALIMENTACIÓN NEGATIVA
La activación es retroalimentada y tiene efecto sobre las neuronas de entrada.
Figura 11: Redes con Realimentación Negativa.
Se produce la convergencia de los pesos a los componentes principales del conjunto de
datos.
7.2
APRENDIZAJE COMPETITIVO
Se utiliza principalmente para agrupar conjuntos de datos (clustering).
Las neuronas de la capa de salida compiten después de calcular cada neurona y sólo la
neurona que gana la competición se activará.
El objetivo es categorizar el conjunto de datos estudiando su estructura y clasificándolo
en grupos.
7.2.1 APRENDIZAJE COMPETITIVO SIMPLE
Se basa en encontrar la neurona ganadora y actualizar los pesos, así tiene más
posibilidades de ganar la próxima vez con una entrada similar.
La ecuación de transferencia de activación es:
yi   wij xi , i
j
La modificación de los pesos es una diferencia entre los pesos y las entradas, los pesos
deben ser actualizados y normalizados en cada iteración para que una neurona no gane
siempre.
w jk   ( x j  wij )
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
35
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
7.2.2 MAPAS AUTO-ORGANIZADOS
Las características se basan en la disposición física de las neuronas de salida para
determinar propiedades del espacio de entrada.
Poseen un solo nivel con muchas conexiones y las neuronas se agrupan en diferentes
clases. El aprendizaje se realiza si existe una estructura en el conjunto de datos:
correlación, redundancia, etc.
Figura 12: Mapas Auto-Organizados.
Se actualizan los pesos de la neurona ganadora y de las neuronas vecinas.
La función típica es la diferencia de gaussianas que permite incrementar los pesos de las
neuronas próximas a la ganadora y reducir los pesos de aquellas que están a cierta
distancia. Los pesos de las neuronas que están más alejadas no sufren cambios.
Figura 13: Diferencia de Gaussianas o Sombrero Mexicano.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
36
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
El número de neuronas afectadas disminuye a medida que transcurre el aprendizaje. El
proceso de aprendizaje no es global sino local (la modificación de los pesos depende de
la proximidad a la neurona ganadora), esto permite destacar propiedades topológicas
que aparecen en la proyección de características.
Las diferentes partes del cerebro están especializadas o dedicadas a tareas específicas, lo
mismo sucede en el entrenamiento de los mapas auto-organizados, las neuronas de
salida se organizan en grupos de neuronas y las neuronas de cada grupo responden a una
señal de entrada.
El coeficiente de aprendizaje es constante las 1.000 primeras iteraciones, después
disminuye lentamente hasta cero, el número de iteraciones depende de las características
del conjunto de datos.
Aplicaciones:

Agrupamiento (Clustering)
Los datos de entrada se agrupan en “clusters” (grupos), el sistema de
procesamiento de datos tiene que encontrar los grupos inherentes en el conjunto
de entrada.

Reducción de Dimensionalidad
La red preserva la topología y la ofrece en una dimensión más baja que la de los
datos. El sistema debe encontrar una proyección óptima, la mayoría de las
variaciones en los datos de entrada se mantienen en los datos de salida.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
37
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
8. ALGORITMOS IMPLEMENTADOS
8.1
PCA ESTADÍSTICO
El algoritmo PCA Estadístico tiene como entradas (Datos, Clases).

Datos: fichero con los datos o características de cada clase.

Clases: fichero con los nombres de las clases.
8.2
PCA NEURONAL
Algoritmo para implementar PCA, con una red neuronal con realimentación negativa.
El algoritmo PCA Neuronal tiene como entradas (M, Lrate, Iters, Datos, Clases).

M: número de neuronas.

Lrate: coeficiente de aprendizaje.

Iters: número de iteraciones.

Datos: fichero con los datos o características de cada clase.

Clases: fichero con los nombres de las clases.
8.3
MAXIMUM LIKELIHOOD HEBBIAN LEARNING (MLHL)
Algoritmo para implementar PCA, con una red neuronal con realimentación negativa.
El algoritmo MLHL tiene como entradas (M, Lrate, P, Iters, Datos, Clases).

M: número de neuronas.

Lrate: coeficiente de aprendizaje.

Iters: número de iteraciones.

P: p.

Datos: fichero con los datos o características de cada clase.

Clases: fichero con los nombres de las clases.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
38
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
8.4
MAXIMUM LIKELIHOOD HEBBIAN
CONEXIONES LATERALES (MLHLCL)
LEARNING
CON
Algoritmo para implementar PCA, con una red neuronal con realimentación negativa.
El algoritmo MLHLCL tiene como entradas (M, Lrate, Iters, Tau, P, Datos, Clases).

M: número de neuronas.

Lrate: coeficiente de aprendizaje.

Iters: número de iteraciones.

Tau: tau.


P: p.
Datos: fichero con los datos o características de cada clase.

Clases: fichero con los nombres de las clases.
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
39
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
9. BIBLIOGRAFÍA
9.1


9.2
DOCUMENTACIÓN DE INGENIERÍA EN INFORMÁTICA
Emilio S. Corchado Rodríguez. Área de Lenguajes y Sistemas Informáticos.
Departamento de Ingeniería Civil. Universidad de Burgos.
Documentación de la asignatura “Computación Neuronal y Evolutiva” de
Ingeniería en Informática (5º Curso).
Emilio S. Corchado Rodríguez. Área de Lenguajes y Sistemas Informáticos.
Departamento de Ingeniería Civil. Universidad de Burgos.
Documentación de la asignatura “Inteligencia Artificial e Ingeniería del
Conocimiento” de Ingeniería en Informática (5º Curso).
LIBROS Y ARTÍCULOS

Neural for Pattern Recognition
Bishop Christopher M.
Oxford University Press (1995).

Artificial Neural Networks: Theory and Applications
PATTERSON D. W.
Prentice-Hall, 1996.

Redes Neuronales Artificiales: Un Enfoque Práctico
Corchado, Juan Manuel; Díaz, Fernando; Borrajo, Lourdes e Fernández,
FlorentinoUniversidad de Vigo (2000).
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
40
ANÁLISIS DE DATOS MEDIOAMBIENTALES MEDIANTE
MODELOS CONEXIONISTAS Y DISPOSITIVOS MÓVILES
Ingeniería en Informática – Universidad de Burgos
9.3

DOCUMENTACIÓN EN LÍNEA
Estadística Descriptiva
http://sitios.ingenieria-usac.edu.gt/estadistica/estadistica2/
estadisticadescriptiva.html

Enciclopedia Online Wikipedia - Red Neuronal Artificial
http://es.wikipedia.org/wiki/Red_neuronal_artificial

Introducción a las Redes Neuronales Artificiales
http://www.geocities.com/siliconvalley/campus/9756/Tutorial/RNA_intro.htm
- Anexo VI. Conceptos Teóricos de Redes Neuronales -
41
Descargar