UNIVERSIDAD REY JUAN CARLOS CURSO 2014-2015 Guía de Estudio Tema 12 Aprendizaje automático III: Aprendizaje por refuerzo La primera parte del tema presenta problemas de decisión secuenciales mediante Procesos de decisión de Markov (capítulo 15 y 17 de [Russell&Norvig2004]). La parte de aprendizaje corresponde principalmente al capítulo 21 de [Russell&Norvig2004]. Si un problema de decisión secuencial se puede formalizar como un Proceso de Decisión de Markov (MDP), el algoritmo de iteración de valores, presentado en clase, resuelve este tipo de problemas. Resolver aquí significa encontrar la política óptima del agente. La política de un agente representa su módulo de decisión de la acción que debe realizar en un estado determinad. La política óptima es aquella que proporciona la mayor recompensa acumulada esperada. Es decir, si el agente la sigue, en promedio, sus recompensas serán las mayores posibles. La resolución de un MDP requiere que se conoce todo el modelo (las acciones disponibles en cada estado, las transiciones y recompensas que existen…). Sin embargo, en muchos caso no se dispone de esta información (se desconoce el modelo del entorno). En estos casos, el agente puede aprender la política óptima; actuando en el entorno y mejorando sus actuaciones con el tiempo en base a los resultados que observa de sus acciones. Este tipo de aprendizaje se denomina aprendizaje por refuerzo. Es esencialmente un aprendizaje por “prueba y error”. El algoritmo de aprendizaje por refuerzo que presentamos en clase es el algoritmo Q-learning. En él, se pretende aprender los valores Q* para todas las pares <estado,acción> posibles. Para ello se usa una función Q que eventualmente se aproxima a la función Q*. Es importante resaltar que en problemas de aprendizaje por refuerzo, en general, no se conoce a priori el entorno entero, ni los estados a los que se puede llegar con una determinada acción ni las recompensas que se pueden recibir. El proceso de aprendizaje se realiza durante la ejecución del problema de forma repetitiva. Durante este proceso se “descubre el mundo” y poco a poco se aprende tomar mejores decisiones (cuando los valores de Q se aproximan a los valores de Q*). Por tanto, el rendimiento de un agente al actuar en un entorno de este tipo mejora con el tiempo (porque ha aprendido más). Referencias: [Russell&Norvig2004] Stuart Russell, Peter Norvig. Inteligencia Artificial: Un enfoque modern. Pearson Educación S.A. Madrid, 2004. Respuesta a la pregunta en la transparencia 9: Suponiendo que el factor γ es igual a 1, un agente que emplea la política avara ganaría 7 desde el estado s0 y 6 desde el estado s3. Respuesta a la pregunta en la transparencia 13: Se resuelve en la transparencia 14. Respuesta a la pregunta en la transparencia 15: Los valores serían los que se presentan en la siguiente tabla: Pág. 1 / 5 UNIVERSIDAD REY JUAN CARLOS CURSO 2014-2015 Guía de Estudio Tema 12 Aprendizaje automático III: Aprendizaje por refuerzo V (s0) 10 V (s1) 5 π V (s2) 13 π V (s3) 6 π V (s4) 0 π π Respuesta a la pregunta en la transparencia 16: Los valores serían los que se presentan en la siguiente tabla: Q (s0,a) 7 π Q (s0,b) 10 π Q (s1,b) 5 Q (s2,a) 11 π π Q (s2,b) 13 π Q (s3,a) 2 π Q (s3,b) 6 π Respuesta a la pregunta en la transparencia 17: Los valores serían los que se presentan en la siguiente tabla: π (s0) b π (s1) b π π (s2) b π π (s3) b π π π (s4) π Respuesta a la pregunta en la transparencia 24: Cobrar/1.000.000 1/1.000.000 no jugar/0 s1 s0 sganado s2 jugar/-2 sperdido 999.999/1.000.000 Los valores de Q*(s0, no jugar)=0 y Q*(sganado, cobrar)=1.000.000 son evidentes. El cálculo de Q* (s0,jugar) es el siguiente: Q * " 1 % 999999 (s0 , jugar) = R(s0 , jugar)+ γ $ max b∈A Q* (sganado, b)+ max b∈A Q* (s perdido, b)' # 1000000 & 1000000 Q * " 1 999999 % (s0 , jugar) = −2 +1$ 1000000 + 0 ' = −1 # 1000000 1000000 & Los valores de las acciones serían los siguientes: Q* (s0,jugar) -1 Q* (s0,no jugar) 0 Q (sganado,cobrar) 1.000.000 π Pág. 2 / 5 UNIVERSIDAD REY JUAN CARLOS CURSO 2014-2015 Guía de Estudio Tema 12 Aprendizaje automático III: Aprendizaje por refuerzo Los valores de los estados y la política óptima serían: V* π* s0 0 no jugar s1 0 sganado 1000000 cobrar sperdido 0 s2 0 Respuesta a la pregunta en la transparencia 26: En este caso, π*(s1)=∞ si se considera γ =1, ya que lo óptimo es repetir el bucle s1-s3, ganando siempre 1 en cada ciclo. Igualmente, π*(s3)=∞. Los valores de los estados serían: V*(s1)= ∞; V*(s2)= 0; V*(s3)= ∞; V*(s5)= 0; Respuesta a la pregunta en la transparencia 28: Los valores vienen en la transparencia siguiente. Respuesta a la pregunta en la transparencia 29: Los valores pueden calcularse directamente con el algoritmo. Respuesta a la pregunta en la transparencia 32: Las acciones que representan la política óptima están representadas en azul. En algunos estados existen varias acciones óptimas. En estos casos, la política óptima elegirá cualquiera de ellas. Pág. 3 / 5 UNIVERSIDAD REY JUAN CARLOS CURSO 2014-2015 Guía de Estudio Tema 12 Aprendizaje automático III: Aprendizaje por refuerzo -1 42.6 -1 48.5 55 48.5 -1 -1 -1 48.5 48.5 55 -1 32.6 37.3 -1 +100 100 100 -1 70.2 -1 -1 70.2 89 -1 62.2 -1 42.6 -1 -1 37.3 32.6 37.3 -1 -1 37.3 37.3 42.6 -1 62.2 70.2 62.2 -1 42.6 48.5 -1 42.6 -1 -1 55 55 62.2 -1 -1 -1 55 42.6 -1 48.5 62.2 -1 -1 55 55 48.5 -1 79.1 89 79.1 -1 -1 70.2 79.1 -1 79.1 -1 32.6 32.6 79.1 28.3 Respuesta a la pregunta en la transparencia 43: Si se repite el mismo episodio (eligiendo siempre en cada estado la acción que actualmente tiene el mayor valor Q), el agente iría por el camino: s0->s1->s3->s4 y actualizaría el valor de Q(s0, a) a 7. Si seguimos repitiendo el mismo episodio, el agente iría siempre por el camino s0->s1->s3->s4, pero ya no cambiaría los valores de la función Q. Por tanto, el agente no exploraría nunca la acción “b” en el estado s0 (que es realmente la acción que lleva al camino óptimo). Respuesta a la pregunta en la transparencia 47: La inicialización optimista favorece la exploración. ¿Por qué? Inicializar los valores de Q de forma optimista significa inicializarlos a valores altos (mayores que el valor correcto de la recompensa acumulada). Durante el proceso de Q-learning, el agente tiende a elegir las acciones mejores (las de mayor valor Q). Al principio, dado que todas las acciones están inicializadas al mismo valor, un agente elegiría cualquier acción disponible. Durante el proceso, actualizará poco a poco los valores de la función Q. Como la inicialización de estos valores ha sido “demasiado” alta, al actualizar un valor de la función Q, éste se reducirá (acercándose poco a poco a su valor real). Eso significa que todas las acciones que el agente ya haya probado tendrán un valor de Q más bajo que las acciones que todavía no han Pág. 4 / 5 UNIVERSIDAD REY JUAN CARLOS CURSO 2014-2015 Guía de Estudio Tema 12 Aprendizaje automático III: Aprendizaje por refuerzo sido probadas. Y dado que al elegir una nueva acción el agente prefiere acciones de mayores valores de Q, escogería preferiblemente las acciones que todavía no ha explorado. Por tanto, el agente explora más el espacio de las acciones disponibles (“intenta cosas nuevas” ). Respuesta a la pregunta en la transparencia 52: Este ejercicio se resolverá en la clase de ejercicios (y su solución será publicada en las soluciones correspondientes). Pág. 5 / 5