La primera parte del tema ...

Anuncio
UNIVERSIDAD REY JUAN CARLOS
CURSO 2014-2015
Guía de Estudio Tema 12
Aprendizaje automático III:
Aprendizaje por refuerzo
La primera parte del tema presenta problemas de decisión secuenciales mediante Procesos de
decisión de Markov (capítulo 15 y 17 de [Russell&Norvig2004]).
La parte de aprendizaje corresponde principalmente al capítulo 21 de [Russell&Norvig2004].
Si un problema de decisión secuencial se puede formalizar como un Proceso de Decisión de Markov
(MDP), el algoritmo de iteración de valores, presentado en clase, resuelve este tipo de problemas.
Resolver aquí significa encontrar la política óptima del agente. La política de un agente representa su
módulo de decisión de la acción que debe realizar en un estado determinad. La política óptima es
aquella que proporciona la mayor recompensa acumulada esperada. Es decir, si el agente la sigue, en
promedio, sus recompensas serán las mayores posibles.
La resolución de un MDP requiere que se conoce todo el modelo (las acciones disponibles en cada
estado, las transiciones y recompensas que existen…). Sin embargo, en muchos caso no se dispone
de esta información (se desconoce el modelo del entorno). En estos casos, el agente puede aprender
la política óptima; actuando en el entorno y mejorando sus actuaciones con el tiempo en base a los
resultados que observa de sus acciones. Este tipo de aprendizaje se denomina aprendizaje por
refuerzo. Es esencialmente un aprendizaje por “prueba y error”.
El algoritmo de aprendizaje por refuerzo que presentamos en clase es el algoritmo Q-learning. En él,
se pretende aprender los valores Q* para todas las pares <estado,acción> posibles. Para ello se usa
una función Q que eventualmente se aproxima a la función Q*.
Es importante resaltar que en problemas de aprendizaje por refuerzo, en general, no se conoce a
priori el entorno entero, ni los estados a los que se puede llegar con una determinada acción ni las
recompensas que se pueden recibir. El proceso de aprendizaje se realiza durante la ejecución del
problema de forma repetitiva. Durante este proceso se “descubre el mundo” y poco a poco se
aprende tomar mejores decisiones (cuando los valores de Q se aproximan a los valores de Q*).
Por tanto, el rendimiento de un agente al actuar en un entorno de este tipo mejora con el tiempo
(porque ha aprendido más).
Referencias:
[Russell&Norvig2004] Stuart Russell, Peter Norvig. Inteligencia Artificial: Un enfoque modern.
Pearson Educación S.A. Madrid, 2004.
Respuesta a la pregunta en la transparencia 9:
Suponiendo que el factor γ es igual a 1, un agente que emplea la política avara ganaría 7 desde el
estado s0 y 6 desde el estado s3.
Respuesta a la pregunta en la transparencia 13:
Se resuelve en la transparencia 14.
Respuesta a la pregunta en la transparencia 15:
Los valores serían los que se presentan en la siguiente tabla:
Pág. 1 / 5
UNIVERSIDAD REY JUAN CARLOS
CURSO 2014-2015
Guía de Estudio Tema 12
Aprendizaje automático III:
Aprendizaje por refuerzo
V (s0)
10
V (s1)
5
π
V (s2)
13
π
V (s3)
6
π
V (s4)
0
π
π
Respuesta a la pregunta en la transparencia 16:
Los valores serían los que se presentan en la siguiente tabla:
Q (s0,a)
7
π
Q (s0,b)
10
π
Q (s1,b)
5
Q (s2,a)
11
π
π
Q (s2,b)
13
π
Q (s3,a)
2
π
Q (s3,b)
6
π
Respuesta a la pregunta en la transparencia 17:
Los valores serían los que se presentan en la siguiente tabla:
π (s0)
b
π (s1)
b
π
π (s2)
b
π
π (s3)
b
π
π
π (s4)
π
Respuesta a la pregunta en la transparencia 24:
Cobrar/1.000.000
1/1.000.000
no jugar/0
s1
s0
sganado
s2
jugar/-2
sperdido
999.999/1.000.000
Los valores de Q*(s0, no jugar)=0 y Q*(sganado, cobrar)=1.000.000 son evidentes. El cálculo de Q*
(s0,jugar) es el siguiente:
Q
*
" 1
%
999999
(s0 , jugar) = R(s0 , jugar)+ γ $
max b∈A Q* (sganado, b)+
max b∈A Q* (s perdido, b)'
# 1000000
&
1000000
Q
*
" 1
999999 %
(s0 , jugar) = −2 +1$
1000000 +
0 ' = −1
# 1000000
1000000 &
Los valores de las acciones serían los siguientes:
Q* (s0,jugar)
-1
Q* (s0,no jugar)
0
Q (sganado,cobrar)
1.000.000
π
Pág. 2 / 5
UNIVERSIDAD REY JUAN CARLOS
CURSO 2014-2015
Guía de Estudio Tema 12
Aprendizaje automático III:
Aprendizaje por refuerzo
Los valores de los estados y la política óptima serían:
V*
π*
s0
0
no jugar
s1
0
sganado
1000000
cobrar
sperdido
0
s2
0
Respuesta a la pregunta en la transparencia 26:
En este caso, π*(s1)=∞ si se considera γ =1, ya que lo óptimo es repetir el bucle s1-s3, ganando
siempre 1 en cada ciclo. Igualmente, π*(s3)=∞. Los valores de los estados serían: V*(s1)= ∞;
V*(s2)= 0; V*(s3)= ∞; V*(s5)= 0;
Respuesta a la pregunta en la transparencia 28:
Los valores vienen en la transparencia siguiente.
Respuesta a la pregunta en la transparencia 29:
Los valores pueden calcularse directamente con el algoritmo.
Respuesta a la pregunta en la transparencia 32:
Las acciones que representan la política óptima están representadas en azul. En algunos estados
existen varias acciones óptimas. En estos casos, la política óptima elegirá cualquiera de ellas.
Pág. 3 / 5
UNIVERSIDAD REY JUAN CARLOS
CURSO 2014-2015
Guía de Estudio Tema 12
Aprendizaje automático III:
Aprendizaje por refuerzo
-1
42.6
-1
48.5
55
48.5 -1
-1
-1
48.5 48.5
55
-1
32.6
37.3 -1
+100
100
100
-1
70.2
-1 -1
70.2 89
-1
62.2
-1
42.6
-1
-1 37.3
32.6
37.3
-1
-1
37.3
37.3
42.6
-1
62.2
70.2
62.2
-1
42.6
48.5
-1
42.6
-1 -1
55 55
62.2 -1
-1
-1 55
42.6
-1
48.5
62.2
-1
-1 55
55
48.5
-1
79.1
89
79.1 -1
-1
70.2
79.1
-1
79.1
-1
32.6
32.6
79.1
28.3
Respuesta a la pregunta en la transparencia 43:
Si se repite el mismo episodio (eligiendo siempre en cada estado la acción que actualmente tiene el
mayor valor Q), el agente iría por el camino: s0->s1->s3->s4 y actualizaría el valor de Q(s0, a) a 7.
Si seguimos repitiendo el mismo episodio, el agente iría siempre por el camino s0->s1->s3->s4, pero
ya no cambiaría los valores de la función Q. Por tanto, el agente no exploraría nunca la acción “b” en
el estado s0 (que es realmente la acción que lleva al camino óptimo).
Respuesta a la pregunta en la transparencia 47:
La inicialización optimista favorece la exploración. ¿Por qué?
Inicializar los valores de Q de forma optimista significa inicializarlos a valores altos (mayores que el
valor correcto de la recompensa acumulada).
Durante el proceso de Q-learning, el agente tiende a elegir las acciones mejores (las de mayor valor
Q). Al principio, dado que todas las acciones están inicializadas al mismo valor, un agente elegiría
cualquier acción disponible. Durante el proceso, actualizará poco a poco los valores de la función Q.
Como la inicialización de estos valores ha sido “demasiado” alta, al actualizar un valor de la función
Q, éste se reducirá (acercándose poco a poco a su valor real). Eso significa que todas las acciones
que el agente ya haya probado tendrán un valor de Q más bajo que las acciones que todavía no han
Pág. 4 / 5
UNIVERSIDAD REY JUAN CARLOS
CURSO 2014-2015
Guía de Estudio Tema 12
Aprendizaje automático III:
Aprendizaje por refuerzo
sido probadas. Y dado que al elegir una nueva acción el agente prefiere acciones de mayores valores
de Q, escogería preferiblemente las acciones que todavía no ha explorado. Por tanto, el agente
explora más el espacio de las acciones disponibles (“intenta cosas nuevas” ).
Respuesta a la pregunta en la transparencia 52:
Este ejercicio se resolverá en la clase de ejercicios (y su solución será publicada en las soluciones
correspondientes).
Pág. 5 / 5
Documentos relacionados
Descargar