Universidad Rey Juan Carlos Inteligencia Artificial Ingenierı́a Informática Hoja de Problemas 11 Aprendizaje por refuerzo Curso 2011–2012 1. Cuáles de las siguientes afirmaciones acerca del algoritmo Q-learning son ciertas (a) Para garantizar la convergencia de los valores Q a los valores Q∗ óptimos, el entorno tiene que ser determinista. (b) Para garantizar la convergencia de los valores Q a los valores Q∗ óptimos, el entorno tiene que ser estacionario. (c) Los algoritmos de aprendizaje por refuerzo aprenden la pólitica óptima π ∗ (s) usando un conjunto de parejas < s, π ∗ (s) > (d) Los algoritmos de aprendizaje por refuerzo en su versión básica necesitan almacenar un valor Q(s, a) para toda pareja estado-acción < s, a > 2. Considera el problema en figura. -10 s0 50 s1 -10 s2 -10 -10 s3 -10 s4 100 s5 -10 Si hay una flecha entre dos estados si y sj significa que se puede ejecutar un acción que hace transitar el agente, de manera determinista, del estado si al estado sj , recibiendo el correspondiente reward. Los estados s0 y s5 son estados terminales. (a) Calcule los valores V ∗ (s) para todos los estados, suponiendo que γ = 0,8. Calcule también los valores de Q∗ (s, a) para todas las parejas estado-acción, indicando para cada estado las acciones que el agente ejecutará, una vez aprendida Q∗ (s, a). (b) Calcule los valores V ∗ (s) para todos los estados, suponiendo que γ = 0,99. Calcule también los valores de Q∗ (s, a) para todas las parejas estado-acción, indicando para cada estado las acciones que el agente ejecutará, una vez aprendida Q∗ (s, a). ¿Que diferencia hay respecto al caso anterior? Argumente su respuesta. 3. Considera el siguiente problema con un único estado. Hay una tragaperra con tres posibles botones (A, B y C), cada uno de los cuales devuelve un reward de 4, 5 y 3 respectivamente. Queremos aprender a seleccionar el botón que má reward genera, utilizando Q-learning con γ = 0 (ya que es un problema con un único estado) para entornos deterministas. Supongamos que al principio los valores Q(a) son todos 0. (a) Compara la suma de los rewards obtenidos ası́ como los valores de Q(a) aprendidos después de 5 interacciones con la tragaperra, usando la polı́tica se selección greedy, -greedy con = 0,01 y -greedy con = 0,1. Si la selección de la acción a ejecutar se basa en el valor Q(a) y hay más de una acción con el mismo valor de Q(a), se elije en order alfabético. Para simular la aleatoriedad de las polı́ticas -greedy utilice la siguiente secuencia de números aleatorios {0,30,950,40,9990,2} para decidir si usar la acción a con valor Q(a) máximo. En el caso que haya que elegir una de las otras acciones al azar, elija en orden alfabético. Página 1 de 2 Hoja de Problemas 11 Aprendizaje por refuerzo (b) ¿Que pasarı́a si se inicializan los valores Q(a) todos a 10, y se aplica la polı́tica greedy? Página 2 de 2