Conceptos básicos y métodos tabulares

Anuncio
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Introducción al Aprendizaje Reforzado
Conceptos básicos y métodos tabulares
Julio Waissman Vilanova
Departamento de Matemáticas
Universidad de Sonora
Universidad Autónoma de Baja California, marzo 2010
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Plan de la presentación
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
¿Aprendizaje?
I
El aprendizaje supervisado utiliza un conjunto de datos de
aprendizaje previamente clasificado. Aprendizaje con
maestro.
I
El aprendizaje no supervisado utiliza un conjunto de datos
sin clasificar. Descubrimiento de conocimiento en bases
de datos (KDD).
I
El aprendizaje reforzado utiliza la interacción con el medio
para establecer una política de comportamiento.
Aprendizaje con crítico.
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Esquema general del aprendizaje reforzado.
Ambiente
Acción
Aprendizaje Reforzado
Agente
Estado
Recompensa
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Elementos principales.
I
Conjunto de estados, st ∈ S, con al menos un estado
inicial y posiblemente estados finales.
I
Conjunto de acciones en cada estados, at ∈ A(st ).
I
Valor de recompensa, rt ∈ R.
I
Una política, π, con π(st , at ) ∈ [0, 1]



π=

a1
..
.
am
Aprendizaje Reforzado
s1 · · ·
0.1 · · ·
..
..
.
.
0.9 · · ·
sn
0.9
..
.





0.7
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Objetivo.
I
Encontrar una política subóptima π ∗ de operación.
I
El criterio de optimización es la maximización del regreso,
definido como:
Rt =
Rt =
T
X
k =t
∞
X
rk
γ k rt+k
(episódico),
(continuo).
k =0
I
Utilizando la exploración/explotación de información.
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Funciones de valor.
I
Evaluación de un estado,
n
o
V π (s) =Eπ Rt |st = s ,
X
X
a
a
π 0
Pss
V π (s) =
π(s, a)
0 Rss 0 + γV (s ) .
a
s0
I
Evaluación de una acción en un estado,
n
o
Q π (s, a) =Eπ Rt |st = s, at = a .
I
Permite encontrar políticas óptimas,
V ∗ (s) = max V π (s),
π
Aprendizaje Reforzado
Q ∗ (s, a) = max Q π (s, a).
π
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Método de diferencias temporales.
I
Utilizan la experiencia para encontrar la función de valor.
I
Calcula una política pseudo–óptima.
I
Se basan en la actualización por el nuevo estado:
h
i
Vt (st ) ← Vt (st ) + α Vt+1 (st ) − Vt (st )
h
i
Vt (st ) ← Vt (st ) + α rt+1 + γVt (st+1 ) − Vt (st ) ,
donde α ∈ [0, 1] es el factor de aprendizaje.
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Método SARSA.
at+1
at
rt+1
st+1
rt+2
st
Q(st , at ) = Q(st , at ) + α rt+1 + γQ(st+1 , at+1 ) − Q(st , at )
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Método QLearning.
at
rt +1
st +1
max
st
max
Q(st , at ) = Q(st , at ) + α rt+1 + γ max Q(st+1 , a) − Q(st , at )
a
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Método Actor/Critic.
Ambiente
s
r
Crítico
función TD
a
Actor
política
h
i
p(st , at ) = p(st , at ) + β rt+1 + γV (st+1 ) − V (st )
ep(s,a)
πt (s, a) = P p(s,b)
be
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Exploración / Explotación del conocimiento.
I
Utilizar el conocimiento adquirido por el agente.
I
Explorar racionalmente estados desconocidos.
Los métodos clásicos son:
I
I
I
I
Avaro
–Avaro
Softmax o Distribución de Boltzmann,
ep(at ,st )/T
P(at |st ) = P p(b,s )/T ,
t
be
donde T es la temperatura.
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Ejemplo Ilustrativo.
I
Laberinto básico.
I
Programa de Gilad Mishne (Universidad de Amsterdam).
I
Ilustrativo, buena interfaz gráfica, sencillo.
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Sistemas continuos.
I
De gran importancia práctica (robótica, procesos
industriales, interfaces físicas, etc.)
I
Conjunto infinito de estados, representados en general por
un vector, ~x = [x1 , . . . , xn ] ∈ Rn .
I
¿Como se describe la política?
I
¿Como aprender en st si tengo un número infinito de
posibles estados st+1 ?
I
¿Como seleccionar una acción, en caso que at+1 ∈ R?
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Discretización del espacio por mosaicos.
I
Generalización al utilizar mosaicos superpuestos.
I
Necesidad de muchos mosaicos.
I
Tiempos grandes de aprendizaje.
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Generalización difusa.
I
Utilizar un FIS para establecer las funciones
estado–acción.
I
Fácilmente adaptable para diversos métodos de
aprendizaje.
I
Cada regla difusa sería de la forma:
si s es Si
Aprendizaje Reforzado
entonces a(i, 1) con q(i, 1)
o
a(i, 2) con q(i, 2)
...
o
a[i, J] con q[i, J],
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Generalización difusa.
I
Utilizar un FIS discretizando estados.
I
Significado lingüístico.
I
Numero de reglas fijo.
I
Gran cantidad de parámetros.
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Generalización neurodifusa.
I
Utilizar una red neurodifusa discretizando acciones.
I
Mejora la velocidad de aprendizaje.
I
Genera muchas neuronas en el proceso de aprendizaje.
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Ejemplo de sistema con estados continuos.
I
Pendubot.
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Conclusiones
I
El aprendizaje reforzado es un método que se basa en la
interacción con el medio.
I
Los algoritmos básicos utilizan el aprendizaje directo de
una política.
I
Para sistemas con acciones continuas es necesario
establecer un método de aproximación.
I
Trabajos en el grupo sobre aprendizaje reforzado.
I
I
Aprendizaje Reforzado
Uso de técnicas de softcomputing para aproximar un
sistema con entradas y salidas continuas.
Análisis formal de convergencia a un problema de
programación dinámica.
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Para más información
R.S. Sutton y A.G. Barto.
Reinforcement Learning. An Introduction.
MIT Press, 2002 (4a Impresión).
L. Kaelbling, M. Littman y A. Moore.
Reinforcement Learning: A Survey.
Journal of Artificial Inteligence Research, 4:237–285, 1996.
Aprendizaje Reforzado
Vértice 2010 (UABC)
Conceptos Básicos.
Métodos tabulares.
Estados continuos.
Conclusiones.
Gracias por su atención
Aprendizaje Reforzado
Vértice 2010 (UABC)
Descargar