Aprendizaje por refuerzo mediante transferencia de conocimiento

Aprendizaje por refuerzo mediante transferencia de conocimiento cualitativo por Esteban Omar García Rodríguez M. C., INAOE Tesis sometida como requisito parcial para obtener el grado de DOCTOR EN CIENCIAS EN LA ESPECIALIDAD DE CIENCIAS COMPUTACIONALES en el Instituto Nacional de Astrofísica, Óptica y Electrónica Tonantzintla, Puebla Supervisada por: Dr. Eduardo Morales Manzanares Investigador titular del INAOE Dr. José Enrique Muñoz de Cote Investigador titular del INAOE ©INAOE 2015 1 Resumen En la actualidad, la robótica forma una parte importante de la vida cotidiana y constantemente surgen nuevas aplicaciones. Sin embargo, la programación de robots que resuelven tareas complicadas requiere que los robots puedan adaptarse y aprender por cuenta propia, por lo que las técnicas de aprendizaje computacional son una alternativa viable. Dentro de los métodos de aprendizaje computacional, el aprendizaje por refuerzo (reinforcement learning, RL) es una área de estudio donde se proponen algoritmos para que un agente pueda aprender a resolver una tarea en la cual se toman decisiones secuenciales. Pero debido a que en RL se tiene que hacer exploración del ambiente, el proceso de aprendizaje es lento. Una forma de acelerar el aprendizaje es transfiriendo información desde tareas similares. La transferencia de conocimiento (transfer learning, TL) en tareas de aprendizaje por refuerzo se enfoca en desarrollar métodos para reutilizar la información obtenida durante el aprendizaje de una tarea y mejorar el aprendizaje de otra tarea, relacionada con la primera. En este trabajo se presentan dos estrategias para transferir conocimiento entre tareas con estados y acciones continuos. En el primer enfoque, se propone una nueva estrategia que sesga el modelo de la tarea objetivo, usando información cualitativa de la tarea origen. La segunda propuesta de este trabajo es una estrategia innovadora para modelar la diferencia entre las tareas origen y objetivo y generar muestras sintéticas para la tarea objetivo. En ambos enfoques se restringe la búsqueda en la tarea objetivo con lo que se acelera el proceso de aprendizaje. Se llevaron a cabo experimentos en tareas relevantes para el área de aprendizaje por refuerzo, en las cuales se obtiene una clara mejora sobre el aprendizaje sin transferencia y algoritmos del estado del arte relacionados. 1 Abstract Modern robotics has become essential in daily life, and new applications of robotics arise everyday. However, programming robots to solve complicated tasks requires them to adapt and learn by their own, thus machine learning approaches are a feasible option. One of the machine learning approaches is reinforcement learning (RL), which is a research area where several algorithms have been proposed in order to make agents learn to solve sequential decision tasks. In RL, the learning process takes too much time because of exploration. Transferring knowledge between similar tasks helps to reduce learning time. Transfer learning (TL) for reinforcement learning focuses in developing methods to use information gathered during the learning process in a task, in order to improve learning in a related task. In this dissertation, a couple of novel approaches are introduced to transfer knowledge between tasks with continuous states and actions. The first proposed approach consists in a new method to bias the target task model, using qualitative information from the source task. In the second approach, a cutting edge technique is proposed to model the difference between source and target tasks to create synthetic samples for the target task. Both approaches narrow the search of a policy, and speed up the learning process. The proposed approaches were tested in relevant tasks form reinforcement learning, where it is shown a clear improvement in the overall performance compared to state-of-the-art related algorithms. 3 Índice general 1. Introducción 13 1.1. Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2. Objetivos de investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.2.2. Objetivos especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.3. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.4. Guı́a del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2. Fundamentos teóricos 23 2.1. Aprendizaje por Refuerzo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.1.1. Procesos de Decisición de Markov . . . . . . . . . . . . . . . . . . . . 24 2.1.2. Exploración y explotación . . . . . . . . . . . . . . . . . . . . . . . . 25 2.2. Procesos Gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2.1. Inferencia bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.3. Transferencia de conocimiento . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3. Trabajo relacionado 37 3.1. Algoritmos de RL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.2. Algoritmos de RL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.2.1. PILCO:Probabilistic Inference for Learning Control . . . . . . . . . . 42 3.3. Procesos gaussianos en TL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.4. Transferencia en RL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 5 6 ÍNDICE GENERAL 3.4.1. Transferencia en RL . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4.2. Transferencia en RL . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.5. Análisis del trabajo relacionado . . . . . . . . . . . . . . . . . . . . . . . . . 51 4. Transferencia cualitativa 55 4.1. QTL (Qualitative Transfer Learning) . . . . . . . . . . . . . . . . . . . . . . 55 4.1.1. Inicialización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.1.2. Actualización de conocimiento . . . . . . . . . . . . . . . . . . . . . . 59 4.2. SST (Synthetic Samples Transfer ) . . . . . . . . . . . . . . . . . . . . . . . . 61 4.2.1. Descripción general . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.2.2. Estimación de un modelo desde las muestras . . . . . . . . . . . . . . 64 4.2.3. Proceso de filtrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5. Experimentos 73 5.1. Descripción de las tareas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.1.1. Péndulo invertido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 5.1.2. Auto en la montaña . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5.1.3. Cuadricóptero a helicóptero . . . . . . . . . . . . . . . . . . . . . . . 78 5.2. Transferencia de hiper-parámetros . . . . . . . . . . . . . . . . . . . . . . . . 80 5.2.1. Péndulo invertido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.2.2. Auto en la montaña . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 5.2.3. Cuadricóptero a helicóptero . . . . . . . . . . . . . . . . . . . . . . . 90 5.3. Sı́ntesis de tuplas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 5.3.1. Péndulo invertido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 5.3.2. Auto en la montaña . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 5.3.3. Cuadricóptero a helicóptero . . . . . . . . . . . . . . . . . . . . . . . 102 5.3.4. Resumen de experimentos . . . . . . . . . . . . . . . . . . . . . . . . 105 ÍNDICE GENERAL 6. Conclusiones 7 109 6.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 6.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.3. Publicaciones derivadas de este trabajo de tesis . . . . . . . . . . . . . . . . 111 Índice de figuras 2.1. Diagrama que representa una tarea en aprendizaje por refuerzo . . . . . . . 24 2.2. GP a priori y a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3. Variación de escalas de longitud caracterı́sticas . . . . . . . . . . . . . . . . . 31 2.4. Variación del hiper-parámetro α2 . . . . . . . . . . . . . . . . . . . . . . . . 32 2.5. Variación del hiper-parámetro σ2 . . . . . . . . . . . . . . . . . . . . . . . . 33 2.6. Objetivos de la transferencia en aprendizaje por refuerzo . . . . . . . . . . . 35 3.1. Diagrama general de enfoques relacionados con Aprendizaje por Refuerzo (RL). . 38 3.2. Aprendizaje multi-tarea asimétrico . . . . . . . . . . . . . . . . . . . . . . . 46 3.3. Diagrama general de enfoques relacionados con transferencia de conocimiento (TL) para aprendizaje por refuerzo (RL). . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4. Diagrama general de enfoques relacionados con transferencia de conocimiento (TL) para aprendizaje por refuerzo (RL). . . . . . . . . . . . . . . . . . . . . . . . . 52 4.1. Inferencia bayesiana para transferir hiper-parámetros . . . . . . . . . . . . . 62 5.1. Tarea de balanceo de péndulo invertido . . . . . . . . . . . . . . . . . . . . . 75 5.2. Tarea del auto en la montaña . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.3. Tarea de transferencia cuadricóptero - helicóptero . . . . . . . . . . . . . . . 78 5.4. Curvas de aprendizaje para péndulo invertido . . . . . . . . . . . . . . . . . 82 5.5. Curvas de aprendizaje para péndulo invertido . . . . . . . . . . . . . . . . . 83 5.6. Convergencia de hiper-parámetros para péndulo invertido . . . . . . . . . . . 85 9 10 ÍNDICE DE FIGURAS 5.7. Curvas de aprendizaje para transferencia en tarea del auto en la montaña . . 88 5.7. (Continuación) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.8. Curvas de aprendizaje para transferencia de cuadricóptero a helicóptero . . . 91 5.9. Curvas de aprendizaje para tareas con masas incrementadas en 0.5x y 2x con respecto a la masa original (0.5 kg.) . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5.10. Curvas de aprendizaje para tareas con masas incrementadas en 3x y 4x con respecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 5.11. Curvas de aprendizaje para transferencia en tarea del auto en la montaña . . 100 5.11. (Continuación) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 a la masa original (0.5 kg.) 5.12. Curvas de aprendizaje para la tarea de control de helicóptero, transfiriendo conocimiento desde un cuadricóptero . . . . . . . . . . . . . . . . . . . . . . 105 Índice de tablas 3.1. Algoritmos relevantes de Transferencia para Aprendizaje por Refuerzo . . . . 49 5.1. Desempeño final, recompensa acumulada y tiempo de convergencia para transferencia en tareas de péndulo invertido. . . . . . . . . . . . . . . . . . . . . . 86 5.2. Métrica task compliance en las tres tareas objetivo para el problema del auto en la montaña. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.3. Métricas para transferencia en la tarea cuadricóptero - helicóptero . . . . . . 91 5.4. Recompensa total en la transferencia para la tarea de péndulo invertido. . . 97 5.5. Desempeño final en la transferencia en la tarea de péndulo invertido. . . . . 98 5.6. Tiempo de convergencia en la transferencia en la tarea de péndulo invertido . 98 5.7. Desempeño final para la transferencia en la tarea del auto en la montaña. . . 99 5.8. Recompensa total para la transferencia en la tarea del auto en la montaña. . 102 5.9. Tiempo de convergencia para la transferencia en la tarea del auto en la montaña103 5.10. Desempeño final, recompensa acumulada y tiempo de convergencia para la tarea del helicóptero. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 104 Capı́tulo 1 Introducción En estos dı́as no es extraño ver que algunos robots ayuden en tareas domésticas o que los automóviles, sin conductor alguno, son capaces de conducir a través del tráfico de grandes ciudades. Esas y otras aplicaciones que están por venir, como la vigilancia desde el aire o entrega de paquetes con vehı́culos aéreos autónomos, son el centro de investigación y desarrollo de muchos grupos alrededor del mundo. En estas tareas, que son muy importantes para la robótica, las variables de estado (posición, velocidad, carga de baterı́a, por ejemplo) son continuas y las acciones que se pueden ejecutar también son continuas (fuerza de frenado, ángulo de dirección, torque en determinado motor, etc.). Se espera que en poco tiempo la autonomı́a en los robots alcance un nivel para el que no se requerirá ni capacitación ni conocimientos especializados, lo cual, aunque facilita la vida de los usuarios finales de los robots, implica que los robots cada vez deberán tener más capacidad de adaptarse a las condiciones cambiantes de su ambiente y aprender nuevas tareas con facilidad. Lograr que un robot aprenda de su entorno y se adapte a su ambiente no es una tarea fácil. Los investigadores de las áreas de inteligencia artificial y robótica usan diferentes técnicas para alcanzar ese objetivo. Cuando no es fácil determinar un modelo de la tarea que el robot debe realizar, se puede seguir un esquema de aprendizaje por refuerzo, con el cual el agente 13 14 CAPÍTULO 1. INTRODUCCIÓN descubre la solución a la tarea a medida que interactúa con el ambiente. En el aprendizaje por refuerzo, no se requiere de un experto que describa las propiedades dinámicas o lógicas de la tarea, en lugar de eso el robot es controlado por un agente inteligente, que es un algoritmo que es capaz de aprender y tomar decisiones basado en la percepción de su entorno. Para poder tomar decisiones, el agente aprende, en el sentido de acumular experiencia para mejorar su desempeño. Como en un principio el agente desconoce cómo se comporta el ambiente en el que se desenvuelve, no tiene otra opción que elegir acciones al azar e ir descubriendo los resultados de sus acciones y después de algún tiempo, tendrá la experiencia para saber cuáles son las mejores acciones a ejecutar en cada situación. Esto hace que el aprendizaje sea un proceso lento porque se tiene que repetir la tarea varias veces en espacios grandes de exploración. Ahora bien, imaginemos que un agente que se ejecuta en un automóvil autónomo, ha aprendido a frenar un automóvil en el menor tiempo posible y sin derrapar. La polı́tica aprendida, por desgracia, no funcionará como se esperarı́a cuando el asfalto está cubierto por hielo, aún cuando sea el mismo automóvil. En este nuevo escenario, el agente deberá volver a ejecutar un proceso de aprendizaje bajo las nuevas condiciones, sin olvidar que cuando se trata de un robot, probar acciones cuya consecuencia se desconoce conlleva el riesgo de dañar al robot. Una área de estudio llamada aprendizaje por transferencia (TL, o transfer learning en inglés), estudia precisamente cómo poder reciclar información adquirida durante el aprendizaje de una primera tarea (tarea origen) para aprender una tarea relacionada (tarea objetivo) más rápido de lo que se aprenderı́a partiendo desde cero. El aprendizaje por transferencia por lo general ofrece tiempos de aprendizaje más cortos, debido a que usa información de una o más tareas relacionadas. Para la transferencia, es muy importante seleccionar la información adecuada. Lo que se busca en TL es extraer información de la tarea origen, que sea similar en la tarea objetivo, evitando transferir propiedades particulares de la tarea origen. El objetivo es de alguna 1.1. PROBLEMÁTICA 15 manera orientar al agente en la selección de acciones, para que aprenda eficientemente la tarea objetivo. En este trabajo lo que se desea es poder transferir varias propiedades cualitativas de la tarea origen que son comunes a la tarea objetivo. La información cualitativa, para el contexto que aquı́ se considera, consiste en propiedades de la tarea que no son cuantificables, por ejemplo, la presencia de ruido en el modelo de la tarea o el tipo general del modelo de la tarea (si es de alta frecuencia o baja frecuencia). Por poner un ejemplo ilustrativo, cuando un humano aprende a conducir una bicicleta, infiere ciertas reglas que son cualitativas, e.g. si se gira el manubrio a la derecha la bicicleta irá a la derecha, si se detiene por completo se pierde el equilibrio. Las cualidades de la tarea son conservadas y cuando tiene que aprender a conducir una motocicleta, no tendrá que hacerlo desde cero, sino que tomará la información cualitativa adquirida en el aprendizaje de la conducción de la bicicleta. Lo que se propone en esta tesis es transferir información cualitativa entre tareas donde las variables de estado y acción son continuas. Se adoptan los procesos gaussianos (GP ) como marco matemático para modelar la tarea y se aprovecha la información cualitativa que se puede manejar en ellos. 1.1. Problemática El aprendizaje por refuerzo se ha aplicado para resolver problemas en varias disciplinas, incluyendo aplicaciones recientes en el área de robótica. Sin embargo, existen retos que están ligados a la naturaleza del aprendizaje por refuerzo: El proceso de aprendizaje en un ambiente real consume mucho tiempo (debido a la exploración). Además, el aprendizaje es particularmente más lento en problemas donde se tienen muchas variables y éstas son continuas. El conocimiento obtenido se limita a resolver solamente la tarea aprendida. No se puede emplear lo aprendido en otras tareas aún cuando la nueva tarea sea similar. 16 CAPÍTULO 1. INTRODUCCIÓN La transferencia en aprendizaje por refuerzo ofrece una solución, al menos en cierta medida, a este tipo de problemas, reduciendo considerablemente el tiempo de aprendizaje en la tarea objetivo y permitiendo extender el conocimiento adquirido para resolver nuevas tareas. Sin embargo, la transferencia no es un proceso simple, ya que antes que nada se tiene que encontrar la información adecuada a transferirse. Si sólo se transfiere información sin cuidado, se puede producir un caso conocido como transferencia negativa, donde la tarea objetivo toma más tiempo en ser aprendida de lo que tomarı́a si se aprende desde cero. En el área de transferencia de conocimiento para aprendizaje por refuerzo, los retos a los que se enfrenta esta propuesta son los siguientes: Determinar el tipo de información a transferir. Evitar la transferencia negativa. Abordar problemas reales de considerable dificultad. Hasta el momento en los trabajos de transferencia sólo se han encontrado dominios simples (pocas variables de estado y acción, variables discretas) y la transferencia entre tareas difı́ciles (alta dimensionalidad, variables continuas) no ha sido explorada. El objetivo de la transferencia propuesta en este trabajo es que el aprendizaje de una nueva tarea sea más rápido que aprendiendo sin transferencia. En una tarea donde el agente se arriesga al hacer exploración, es deseable tener un desempeño inicial bueno desde los primeros episodios del aprendizaje y correr menos riesgo de ejecutar acciones peligrosas. La propuesta de esta tesis cubrirá también ese objetivo. Desde el punto de vista cientı́fico, se extenderá el estado del arte al desarrollar un algoritmo de transferencia de conocimiento para tareas de aprendizaje por refuerzo, donde el conocimiento a transferir será generado a partir de las propiedades cualitativas de la tareas. También se espera sobrepasar los resultados de otros enfoques de transferencia que son comparables. Las propuestas de este trabajo se prueban tanto en problemas clásicos de aprendizaje por refuerzo con alta dimensionalidad, como en un problema real de control, que consiste en el 1.1. PROBLEMÁTICA 17 control de un vehı́culo de ala rotatoria (helicóptero). El control automático de helicópteros, es un problema desafiante para las diferentes áreas de investigación que lo han abordado. Esto se debe a sus caracterı́sticas dinámicas, entre las cuales se encuentran la alta dimensionalidad, dinámica no-lineal y estocasticidad. Como resultados de este trabajo se demostrará que la transferencia cualitativa es aplicable al aprendizaje por refuerzo en problemas desafiantes, como el control de este tipo de aeronaves, que por sus propiedades dinámicas son considerados como complejos. Esto será demostrado en simulación. Esta propuesta de trabajo se centra en la creación de algoritmos de transferencia en aprendizaje por refuerzo de tareas con variables de estado y acción continuas. Para conseguirlo, se propone usar los procesos gaussianos como marco matemático. Los procesos gaussianos (GP por sus siglas en inglés) se pueden usar para aproximar el comportamiento de un sistema no lineal eficientemente. Una de las ventajas de los GP es que para modelar un sistema se pueden considerar algunas propiedades cualitativas del mismo, tales como el ruido, la suavidad de la función, periodicidad, variabilidad, entre algunas otras. En este trabajo, para tener control sobre el proceso gaussiano, se contribuye siguiendo dos enfoques. En el primer enfoque se trabaja con los parámetros libres del GP, llamados hiperparámetros, que sirven para establecer la distribución inicial de las funciones de transición en la tarea objetivo, que posteriormente se va ajustando con las nuevas muestras. En el segundo enfoque, se usan las muestras o tuplas obtenidas durante el aprendizaje de la tarea origen y las muestras disponibles de la tarea objetivo para aprender un modelo de las diferencias entre las tareas, con el cual se transforman tuplas seleccionadas de la tarea origen. En sı́ntesis, este trabajo se posiciona donde, según nuestro conocimiento actual, no existe otro trabajo. Se proponen dos enfoques para hacer transferencia de conocimiento sobre tareas con estados y acciones continuas. En el primer enfoque propuesto, la información cualitativa se obtiene de los hiper-parámetros del GP y en el segundo enfoque se usan muestras sinténticas en la tarea objetivo. En ambos enfoques, la información que se toma de la tarea origen es independiente de un mecanismo de aprendizaje especı́fico en la tarea origen, por lo que 18 CAPÍTULO 1. INTRODUCCIÓN se pueden usar diferentes algoritmos de aprendizaje en la tarea origen. Se asume que las diferencias entre las tareas origen y objetivo serán las funciones de transición y recompensas. Como resultados empı́ricos se demostrará que la transferencia es aplicable al aprendizaje por refuerzo en problemas de control, que por sus propiedades dinámicas son considerados como complejos (alta dimensionalidad, dinámica no-lineal y estocasticidad). Esto será demostrado sobre tareas relevantes para las áreas de aprendizaje por refuerzo y robótica: control de péndulo, carro y dos tipos de helicópteros. La investigación que se propone toma como base dos hipótesis principales de investigación. La primera hipótesis es que las propiedades cualitativas de la distribución de funciones de transición de la tarea origen son útiles para aprender más rápido la tarea objetivo. La segunda hipótesis es que si se modela la diferencia entre las tareas, aprovechando las muestras disponibles en ambas tareas, ese modelo se puede usar para generar muestras sintéticas para la tarea objetivo. Las hipótesis de estudio son las siguientes: Durante el aprendizaje por refuerzo se puede obtener información cualitativa que represente propiedades de la tarea original. La información cualitativa puede ayudar en la inicialización del modelo de la tarea objetivo considerando en todo momento que los estados y acciones son continuos. Es posible modelar la diferencia entre las tareas aprovechando los procesos gaussianos y las muestras disponibles tanto en la tarea origen como en la objetivo. Es posible sintetizar muestras utilizando el modelo de la diferencia entre las tareas. Partiendo de la información cualitativa, es posible sintetizar muestras para la tarea objetivo que puedan acelerar aún más el proceso de aprendizaje. 1.2. Objetivos de investigación A continuación se describen los objetivos general y especı́ficos que persigue este trabajo de tesis. 1.3. CONTRIBUCIONES 1.2.1. 19 Objetivo general El objetivo principal del trabajo propuesto es desarrollar algoritmos de transferencia para aprendizaje por refuerzo que tengan una convergencia más rápida que los del estado del arte, entre tareas con estados y acciones continuas. 1.2.2. Objetivos especı́ficos Los objetivos especı́ficos que se consideran para cumplir con el objetivo general son los siguientes: Diseñar un algoritmo que transfiera propiedades cualitativas generales de la tarea origen hacia la tarea objetivo. Diseñar un algoritmo para sintetizar tuplas útiles para la tarea objetivo, partiendo de las muestras disponibles de las tareas origen y objetivo. Evaluar y comparar los algoritmos de transferencia propuestos. En las pruebas se espera superar al aprendizaje sin transferencia (para demostrar que no hay transferencia negativa) y a la transferencia de tuplas [Lazaric et al., 2008], que es el método que ofrece mejores resultados hasta el momento. 1.3. Contribuciones Las principales contribuciones cientı́ficas de este trabajo son las siguientes: Las tareas con variables de estado y acción continuas son muy importantes para aplicaciones recientes en áreas como la robótica e inteligencia artificial. Los métodos basados en discretizar las variables no siempre son aptos, ya que algunas tareas requieren mucha precisión en las variables. En los trabajos publicados en el área de transferencia para RL, no se encontró trabajo alguno en el cual tanto los estados como las acciones de las tareas fueran continuos. En esta tesis se propone transferencia para tareas con espacios de estados y acciones continuas, sin recurrir a discretización de variables. 20 CAPÍTULO 1. INTRODUCCIÓN Se propone un nuevo enfoque de transferencia en el cual los hiper-parámetros del proceso gaussiano que representa la función de transición se usan como información cualitativa para sesgar el aprendizaje en la tarea objetivo. Eso acelera el proceso de aprendizaje en la tarea objetivo. En la literatura del área se han propuesto enfoques de selección y transferencia de tuplas. En este trabajo se propone un nuevo mecanismo donde se transforman las tuplas para adaptarlas mejor a la tarea objetivo. En el estado del arte de transferencia se prueban problemas clásicos de aprendizaje por refuerzo, que son de pocas variables de estado y acción. En este trabajo se hace transferencia entre un cuadricóptero y un helicóptero, lo cual es una tarea compleja con muchas variables de estado continuas. 1.4. Guı́a del documento En el capı́tulo 2 se presenta el marco teórico, donde se abordan los antecedentes necesarios para tratar la temática de esta tesis. En el capı́tulo 3 se expone el estado del arte relacionado con métodos de aprendizaje por refuerzo aplicables a espacios discretos y continuos. También, se describen métodos recientes de transferencia en aprendizaje por refuerzo. A partir del análisis del trabajo relacionado se finaliza con una comparación de métodos ası́ como una conclusión y justificación que da lugar a los algoritmos presentados en esta tesis. En el capı́tulo 4 se introducen los dos enfoques propuestos de aprendizaje por refuerzo utilizando transferencia de conocimiento. El primero de los enfoques propuesto (QTL) es un algoritmo con dos variantes, en el cual las funciones de la transición y las polı́ticas son aproximadas por procesos Gaussianos. El segundo enfoque propuesto (SST) se relaciona con la sı́ntesis de tuplas para la tarea objetivo, el cual está centrado en una selección y transformación de las muestras de la tarea origen para ajustar la función de transición estados en la tarea objetivo, la cual es modelada utilizando procesos Gaussianos. 1.4. GUÍA DEL DOCUMENTO 21 En el capı́tulo 5 se presentan los experimentos realizados con el objetivo de comparar y evaluar el funcionamiento de los enfoques propuestos. Finalmente, se abordan las conclusiones y trabajo futuro derivado de este trabajo de tesis, ası́ como las publicaciones obtenidas. Capı́tulo 2 Fundamentos teóricos En este capı́tulo se cubre brevemente la teorı́a relacionada con el tema de investigación. Se explica cómo funciona el aprendizaje por refuerzo, se describen los procesos de decisión de Markov y los procesos gaussianos, ası́ como la transferencia de conocimiento en el área de aprendizaje por refuerzo. 2.1. Aprendizaje por Refuerzo El aprendizaje por refuerzo (reinforcement learning (RL)) es una área dentro del aprendizaje por computadora (machine learning) dedicada al desarrollo de algoritmos que permiten a un agente (sistema, robot, personaje de videojuego, etc.) aprender a realizar una tarea donde se tienen que tomar decisiones secuenciales para alcanzar un objetivo, maximizando un valor acumulado de recompensa. En RL, un agente puede ser una instancia de diferentes tipos, por ejemplo un robot, un personaje virtual de un juego de video, o bien puede ser simplemente un sistema o algoritmo encargado de controlar una planta industrial. Existe un gran número de aplicaciones prácticas a este tipo de problemas, donde la principal ventaja es que no se requiere de un experto para encontrar la solución al problema, sino simplemente se debe formular el problema de manera adecuada, especificando las recompensas o penalizaciones para que el agente lo pueda aprender. 23 24 CAPÍTULO 2. FUNDAMENTOS TEÓRICOS Figura 2.1: Diagrama que representa una tarea en aprendizaje por refuerzo. El agente interactúa con su ambiente ejecutando una acción, al hacerlo cambia de estado y recibe una recompensa. Después de ejecutar una acción el estado del agente cambia, como se muestra en el esquema de la figura 2.1. Para aprender, el agente repite la tarea varias veces hasta encontrar cuáles son las acciones que le llevan a acumular la mayor recompensa posible. Generalmente el agente no dispone de conocimiento previo y tiene que obtener sobre la marcha (casi siempre por prueba y error) toda la información para alcanzar el objetivo. El propósito de un agente, durante el aprendizaje por refuerzo, es encontrar una estrategia que lo lleve a elegir la mejor acción y obtener la mayor recompensa acumulada esperada en cualquier estado. Se considera que el agente ha aprendido una estrategia óptima, comúnmente llamada polı́tica óptima, cuando es capaz de acumular la mayor recompensa posible para la tarea asignada. Muchas veces para resolver la tarea adecuadamente es suficiente encontrar una polı́tica cercana a la óptima. 2.1.1. Procesos de Decisición de Markov RL, se puede caracterizar como un proceso de decisión de Markov, denotado como MDP por sus siglas en inglés. Un MDP es una tupla hS, A, R, P i, donde S es el conjunto de posibles estados del agente, donde s ∈ S se puede representar por un vector de k variables que corresponde a una posible configuración del agente dentro de su ambiente, s = hx1 , x2 , . . . , xk i. En 2.1. APRENDIZAJE POR REFUERZO 25 la tarea de aprendizaje, un agente puede iniciar la tarea en uno o más estados iniciales, denotados por sini y frecuentemente también hay uno o más estados objetivo sobj , que terminan la tarea si son alcanzados por el agente. Por cada paso de tiempo, el agente selecciona una acción de un conjunto de posibles acciones A y esto le genera una recompensa. La función de recompensa está definida como R : S × A → R. En el ambiente también está definida una función de transición estocástica P : S × A × S → [0, 1], que indica cuál es la distribución de probabilidad del estado al que se transita al ejecutar determinada acción estando en cierto estado. El agente intentará maximizar la recompensa acumulada, determinada por la función de recompensa R y la función de transición P , que el agente desconoce en un principio. La tarea de un agente es por lo general llevar a cabo exploración con la finalidad de descubrir cuáles son las recompensas que le generan las acciones y a qué estados nuevos lo conducen. En el proceso de aprendizaje, el agente va construyendo o modificando una polı́tica π : S → A, que le sirve para elegir qué acción tomar cuando está en determinado estado. El agente busca en todo momento encontrar o aproximarse a una polı́tica que maximice la recompensa total esperada, llamada polı́tica óptima y denotada como π∗. Muchos algoritmos en Aprendizaje por Refuerzo, en lugar de aprender directamente la polı́tica π, aprenden una función de valor-acción Q : S × A → R que dado un estado y acción, mapea al valor de recompensa esperado. Si se cuenta con la función Q, un agente puede seleccionar la acción óptima desde cualquier estado ejecutando la acción con el valor-acción más alto. 2.1.2. Exploración y explotación En aprendizaje por refuerzo, el agente comienza a aprender la tarea sin conocer las funciones de transición y recompensa, en otras palabras el agente comienza desconociendo por completo cómo se comporta la tarea. Como el agente desconoce cuáles son las acciones que le harán acumular la mayor recompensa posible, lo primero que el agente debe hacer es explorar. La exploración le permite al agente descubrir cuáles son las consecuencias de sus acciones a corto y largo plazo. Una vez que el agente ha explorado suficiente, puede explotar 26 CAPÍTULO 2. FUNDAMENTOS TEÓRICOS el conocimiento adquirido. El dilema exploración-explotación es algo que ha ocupado a los investigadores en el área de aprendizaje por refuerzo. Las técnicas se han inclinado por algoritmos que encuentren un correcto balance entre la exploración y la explotación durante el aprendizaje, y con ello hallar una buena polı́tica en un tiempo reducido. En RL existen básicamente dos tipos de algoritmos: libres de modelo y algoritmos basados en modelo. Los métodos libres de modelo, se basan en una búsqueda directa de la solución al problema, no necesitan tener conocimiento de la función de recompensa o la función de transición y sus esfuerzos se centran en interactuar más con el ambiente para encontrar una buena aproximación de la función de valor y sobre ésta buscar la solución. Los métodos basados en modelo, por el contrario, usan algún conocimiento de la función de recompensa y la distribución de la función de transición y buscan generar una aproximación de éstas a medida que interactúan con el ambiente. La interacción con el ambiente en los problemas planteados como tareas por refuerzo tienen dos caracterı́sticas que hacen el aprendizaje muy costoso en términos computacionales. Por un lado cuando el agente está en cierto estado, tiene a su disposición varias acciones a tomar y para poder compararlas y saber cuál le genera mayor recompensa a futuro, debe elegir alguna y luego otra la siguiente vez que repita la tarea. Además de poder elegir entre diferentes acciones, también sucede que las transiciones de estado no son deterministas, lo cual significa que no siempre estando en el estado s1 y ejecutando la acción a1 generan el mismo cambio de estado. En las tareas de aprendizaje por refuerzo se asume que las transiciones de estado son estocásticas, lo que implica que el agente debe descubrir cuál es el estado más probable al que se transitará al elegir determinada acción en determinado estado. El agente por lo general adquiere el conocimiento para resolver la tarea sólo después de repetirla muchas veces, por lo que el proceso es costoso en términos computacionales. Entre más variables de estados y acciones se tengan para representar el ambiente, el esfuerzo que el agente hace para descubrir la solución a la tarea se multiplica. A esto se le 2.2. PROCESOS GAUSSIANOS 27 conoce como maldición de dimensionalidad. Si el problema tiene muchas variables de estado o acción, el agente deberá intentar visitar muchos estados y probar muchas acciones para descubrir la polı́tica óptima, lo que está directamente relacionado con el número de episodios que tomará aprender la tarea. Además del número de variables, el tipo de variables también afectan la forma en la que se representa el problema y los recursos necesarios para resolverlo. Si se tienen variables discretas, es posible almacenar en tablas los valores que pueden tomar. Sin embargo, si las variables del problema son continuas, no se puede almacenar toda la gama de valores posibles, en tal caso es necesario usar funciones que aproximan de alguna manera los valores que no se tienen almacenados. Los procesos gaussianos han sido usados recientemente para representar problemas de aprendizaje por refuerzo donde las variables son continuas. Su principal ventaja radica en que con muy poca información (muestras) pueden representar transiciones no lineales en la tarea. A continuación se describen resumidamente. 2.2. Procesos Gaussianos En esta sección se presenta una breve introducción a los procesos gaussianos y cómo son utilizados en el contexto de la problemática abordada en este trabajo de tesis. Un proceso gaussiano (GP) está ı́ntimamente relacionado con las distribuciones de probabilidad gaussiana multivariada. Las distribuciones de probabilidad gaussiana se usan para modelar varios problemas en distintas áreas de estudio. Una distribución gaussiana univariada se puede parametrizar por una media µ y una varianza σ 2 , mientras que en el caso de una distribución multivariada, se parametriza por un vector µ = [µ1 , . . . , µn ]T y una matriz de covarianza Σn×n . Un GP es una forma de generalización, que permite representar una distribución gaussiana con un número infinito de variables. El proceso gaussiano es un proceso estocástico que describe las propiedades de funciones, y se denota por GP(m, k) y está especificado por una función promedio m(·) y una función de covarianza o kernel k(·, ·). Las funciones deno- 28 CAPÍTULO 2. FUNDAMENTOS TEÓRICOS (a) GP a priori. Sólo se han especificado los (b) GP a posteriori. Después de observacio- hiper-parámetros del kernel. nes e inferencia bayesiana Figura 2.2: Muestras del GP antes y después de la inferencia bayesiana. El área gris representa el 95 % del intervalo de confianza de la distribución del GP. Las lı́neas punteadas representan funciones muestreadas de las respectivas distribuciones. minadas kernel permiten operan pares de datos disponibles en el espacio de atributos. En otras palabras, los métodos de aprendizaje computacional basados en funciones kernel más que aprender un conjunto de parámetros, trabajan con pesos correspondientes a los datos de entrenamiento disponibles. La predicción de entradas nuevas es estimada aplicando una función de similaridad k entre la entrada nueva y cada uno de los datos conocidos. Los procesos gaussianos recientemente se están aprovechando en aprendizaje computacional, aprovechando su uso para hacer regresión no-lineal. Eso es posible debido a que un proceso gaussiano se puede interpretar como una distribución de funciones continuas nolineales. Es decir, si se usara un proceso gaussiano como generador de muestras, una muestra corresponderı́a a una función continua no-lineal. Para hacer regresión, en un principio se parte de los datos disponibles del problema, con los cuales se aprenden los parámetros libres del kernel. Todos los cálculos requeridos para regresión e inferencia con GPs pueden hacerse manipulando las distribuciones gaussianas multivariadas. Para hacer regresión con el GP, se asume que los datos D = {X = [x1 , . . . , xn ]> , y = [y1 , . . . , yn ]> } se han generado de acuerdo a yi = h(xi ) + , donde es ruido que sigue una 2.2. PROCESOS GAUSSIANOS 29 distribución independiente con media cero y varianza σ2 ( ∼ N (0, σ2 )). Los GPs consideran h una función aleatoria e infieren una distribución a posteriori p(h|D) sobre h desde el GP a priori p(h) y los datos D. La distribución a posteriori se usa para hacer predicciones sobre los valores de la función h(x∗ ) en puntos arbitrarios x∗ , como se puede apreciar en la figura 2.2. De forma parecida a las distribuciones gaussianas, que se especifican por un vector media y una matriz de covarianza, un GP se define por una función media mh (·) y una función de covarianza o kernel especificado como kh (x, x0 ) = Eh [h(x − mh (x))(h(x0 − mh (x0 )))] = covh [h(x), h(x0 )], x, x0 ∈ RD (2.2.1) para cualesquiera dos valores de la función x y x0 . Eh denota el valor esperado con respecto a la función h. 2.2.1. Inferencia bayesiana Para encontrar la distribución a posteriori de la función h se usan técnicas de inferencia bayesiana sobre el GP [Barber, 2012, Bertsekas and Tsitsiklis, 2002]. Primero se tiene que especificar una distribución a priori, después los datos observados se usan para refinar la distribución a priori incorporando la nueva evidencia desde las observaciones. Para especificar la distribución a priori, en la mayorı́a de las aplicaciones, tal como en este trabajo, la función media se define como m(·) = 0 y se usa el kernel cuadrático exponencial siguiente: 1 k(x, x0 ) = α2 exp(− (x − x0 )> Λ−1 (x − x0 )) + δxx0 σ2 2 (2.2.2) con Λ = diag([`21 , . . . , `2n ]) y `k para k = 1, . . . , n, llamados escalas de longitud caracterı́sticas, σ2 los términos de ruido y δxx0 denota la función delta de Kronecker. El parámetro α2 describe la variabilidad de la función latente h. Los parámetros de la función de covarianza o hiperparámetros del GP (α2 , `,σ2 ) son contenidos en el vector θ. El valor de los hiper-parámetros define la forma de las funciones en la distribución a priori. 30 CAPÍTULO 2. FUNDAMENTOS TEÓRICOS Los valores de los hiper-parámetros definen las propiedades cualitativas de la familia de funciones. Por ejemplo, si los valores lk de la diagonal de Λ son relativamente pequeños, pueden hacer que las funciones de la distribución sean más onduladas, mientras que valores relativamente grandes de lk llevan a tener funciones más suaves, como se puede ver en la figura 2.3. En las figuras 2.4 y 2.5 se muestra el efecto de los hiper-parámetros α2 y σ2 respectivamente. Con los datos de la función latente y con yi = h(xi ) + i para i = 1, . . . , n, para un conjunto de vectores de entrada X, se aplica el teorema de Bayes: p(h|X, y, θ) = p(y|h, X, θ)p(h|θ) p(y|X, θ) (2.2.3) para obtener la distribución a posteriori del GP sobre h. Se asume que las observaciones yi son condicionalmente independientes dado X. La verosimilitud de h cumple con la siguiente forma: p(y|h, X, θ) = n Y p(yi |h(xi ), θ) = i=1 n Y N (yi |h(xi ), σ2 ) = N (y|h(X), σ2 ) (2.2.4) i=1 Para ciertos hiper-parámetros θ dados, la verosimilitud gaussiana p(y|X, h, θ) en la ecuación 2.2.4 y la distribución a priori p(h|θ) permiten calcular la ecuación 2.2.3. La distribución predictiva de los valores h∗ = h(x∗ ) para un conjunto de prueba x∗ es también una distribución gaussiana con función media y varianza dadas por: Eh [h∗ ] = k(x∗ , X)(K + σ2 I)−1 y varh [h∗ ] = k(x∗ , x∗ ) − k(x∗ , X)(K + σ2 I)−1 k(X, x∗ ) (2.2.5) (2.2.6) donde K ∈ Rn×n es la matriz kernel con Kij = k(xi , xj ) y σ2 es el ruido. Cuando los hiper-parámetros son desconocidos a priori, se pueden aprender maximizando la métrica logaritmica de máxima verosimilitud que está dada por: Z log p(y|X, θ) = log p(y|h, X, θ)p(h|θ)dh 1 1 n = − y> (Kθ + σ2 I)−1 y − log |Kθ + σ2 I| − log(2π) 2 2 2 (2.2.7) (2.2.8) 2.2. PROCESOS GAUSSIANOS (a) 31 Escalas de longitud caracterı́sticas lk = 0.11 (c) (b) Escalas de longitud caracterı́sticas lk = 1 Escalas de longitud caracterı́sticas lk = 6.17 Figura 2.3: Efecto de la escala de longitud caracterı́stica en el GP, mientras el resto de los hiper-parámetros se mantienen constantes. 32 CAPÍTULO 2. FUNDAMENTOS TEÓRICOS (a) Variabilidad de la función α2 = 0 (c) (b) Variabilidad de la función α2 = 0.05 Variabilidad de la función α2 = 3.06 Figura 2.4: Efecto del hiper-parámetro de variabilidad de la función en el GP, mientras el resto de los hiper-parámetros se mantienen constantes. 2.2. PROCESOS GAUSSIANOS (a) 33 (b) Ruido de la función σ2 = 0 (c) Ruido de la función σ2 = 0.05 Ruido de la función σ2 = 3.06 Figura 2.5: Efecto del hiper-parámetro de ruido de la función en el GP, mientras el resto de los hiper-parámetros se mantienen constantes. 34 CAPÍTULO 2. FUNDAMENTOS TEÓRICOS La maximización de evidencia permite encontrar un modelo que se ajusta a los datos pero también se mantiene simple (no tiende a sobreajustar ni a subajustar). El vector de hiperparámetros que se busca para maximizar se expresa como θ̂ ∈ arg max log p(y|X, θ) (2.2.9) θ y una vez que se ha aproximado, se usa en la inferencia bayesiana para determinar la distribución a posteriori sobre h. La maximización de evidencia usando la ecuación 2.2.7 es un problema de optimización no-lineal, no-convexo y puede ser difı́cil de resolver dependiendo del problema. Sin embargo, en la literatura existen varias técnicas que permiten aprender θ garantizando que el modelo se ajusta en cierta medida a los datos aún cuando no se encuentre el óptimo global (ver Rasmussen and Williams [2006]). En esta tesis los procesos gaussianos se usan para aprender un modelo de la función de transición de estados continuos. También se usan para aprender la diferencia entre la tarea origen y la tarea objetivo en el enfoque de sı́ntesis de tuplas que se propone en este trabajo. 2.3. Transferencia de conocimiento Si bien los algoritmos de aprendizaje por refuerzo han tenido notable éxito al ser aplicados a diferentes tareas, una vez que un agente ha aprendido a resolver una tarea, el conocimiento adquirido resuelve únicamente la tarea en la que el agente aprendió. El marco matemático de RL no brinda herramientas para usar tal conocimiento en una tarea nueva. Por ello una área nueva de aprendizaje por refuerzo persigue la reutilización del conocimiento adquirido durante el aprendizaje de una tarea para emplearlo en otra similar. Esta idea de transferencia de conocimiento para el aprendizaje por refuerzo es relativamente reciente y ha mostrado ser muy útil. El aprendizaje por transferencia (Transfer Learning, TL) es una área de estudio del aprendizaje computacional que ha hecho importantes contribuciones en la solución de problemas de aprendizaje supervisado. Es hasta años recientes que el aprendizaje por transferencia se 2.3. TRANSFERENCIA DE CONOCIMIENTO 35 Figura 2.6: Objetivos de la transferencia en aprendizaje por refuerzo. Las ventajas que puede ofrecer la transferencia son: menos errores al comenzar (jumpstart), alcanzar un desempeño deseado en menor tiempo, o bien, que la polı́tica aprendida sea mejor (obtenga una mayor recompensa o tenga un mejor desempeño asintótico). ha estudiado especı́ficamente para mejorar el aprendizaje por refuerzo. Con transferencia en aprendizaje por refuerzo, el conocimiento adquirido durante el aprendizaje de una tarea (tarea origen) es utilizado para aprender otra tarea (tarea objetivo) que está relacionada de alguna forma con la primera. El propósito de la transferencia es que el aprendizaje en la tarea objetivo se mejore ya sea aprendiendo la tarea más rápido, cometiendo menos errores al comienzo o teniendo una mejor polı́tica al final del aprendizaje, como se puede ver en la figura 2.6. Los métodos de transferencia para aprendizaje por refuerzo pueden considerar diferentes tipos de diferencias entre la tarea origen y la tarea objetivo. Por ejemplo, podrı́a ser que las tareas tuvieran diferentes funciones de recompensa, espacios de estado, o un conjunto de acciones diferentes. En este trabajo se considera que las tareas origen y objetivo tienen diferentes funciones de transición. Un ejemplo de tareas similares con diferentes funciones de transición es tener la conducción de una bicicleta como tarea origen y como tarea objetivo la conducción de una motocicleta. Entre la tarea origen y la tarea objetivo se puede transferir conocimiento de diversos 36 CAPÍTULO 2. FUNDAMENTOS TEÓRICOS tipos. Puede ser información de bajo nivel para tareas especı́ficas o podrı́an ser heurı́sticas para guiar el aprendizaje. También podrı́a ser información relacionada con el MDP, por ejemplo, una polı́tica, muestras de la tarea, un modelo de la tarea, etc. En esta tesis se proponen dos esquemas novedosos de transferencia. En el primero, se transfiere la polı́tica de la tarea origen como guı́a inicial para favorecer una mejor exploración en el primer episodio. A diferencia de otros trabajos, en esta propuesta se transfieren los hiperparámetros del GP de la función de transición de la tarea original. Los hiper-parámetros crean un sesgo sobre las posibles funciones de transición. Como se verá más adelante esto hace que el aprendizaje de la tarea objetivo sea más rápido. El segundo esquema que se propone en este trabajo se centra en las tuplas de la tarea objetivo, y a diferencia de lo que se hace en otros trabajos del estado del arte, donde se transfieren tuplas filtradas desde la tarea origen, en este trabajo se aproxima un GP que modela la diferencia entre la tarea origen y la tarea objetivo. Con ese modelo de la diferencia entre las tareas, se transforman tuplas seleccionadas de la tarea origen para generar tuplas sintéticas en la tarea objetivo. En el siguiente capı́tulo se presenta una revisión del trabajo relacionado, abordando las áreas de aprendizaje por refuerzo y transferencia de conocimiento para aprendizaje por refuerzo. Capı́tulo 3 Trabajo relacionado En este capı́tulo se describe el estado del arte del área de transferencia para aprendizaje por refuerzo. Para ubicar el trabajo que se propone en esta tesis, se resumen tanto métodos aplicables a espacios discretos como los que resuelven tareas que tienen espacios de estado continuos (ver la figura 3.1). También se describen los trabajos que han utilizado procesos gaussianos para transferencia en aprendizaje computacional. Finalmente, se describen y clasifican los métodos de transferencia utilizados en aprendizaje por refuerzo. 3.1. Algoritmos de RL para tareas con estados y acciones discretas Las tareas con estados y acciones discretas son las que más abundan en la literatura de RL. Su principal caracterı́stica es que los posibles valores que pueden tener las variables de estado y las variables de acción se pueden listar. La mayorı́a de los algoritmos usan toda la combinación posible de estados y acciones para aprender la tarea. Hay tareas que por su naturaleza discreta, se resuelven directamente con algoritmos de este tipo. Navegación en retı́culas y juegos de mesa son un par de ejemplos. También hay algunas tareas cuyos estados y acciones se pueden forzar a ser representados con valores discretos, con lo que se posibilita usar métodos discretos. Tal es el caso de las tareas acrobot 37 38 CAPÍTULO 3. TRABAJO RELACIONADO Algoritmos relevantes   Estados y acciones discretos        Q-learning, Watkins y Dayan, 1992       SARSA, Rummery y Niranjan, 1994      R-max, Braffman and Tennenholtz, 2003            Estados y acciones continuos  PEGASUS, Ng et al., 2004 de aprendizaje por refuerzo        Fitted R-max, Jong y Stone, 2007       CACLA, van Hasselt y Wiering, 2007       SMC-learning, Lazaric et al., 2007       Ex hai, Martı́n H et al., 2011      PILCO, Deisenroth y Rasmussen, 2011 Figura 3.1: Diagrama general de enfoques relacionados con Aprendizaje por Refuerzo (RL). y péndulo invertido, entre muchas otras. Un grupo de métodos aplicables a espacios y acciones discretas son los métodos de diferencia temporal (TD), con algoritmos como Q-learning [Watkins, 1989] y SARSA [Rummery and Niranjan, 1994]. Lo que tales algoritmos tienen en común es almacenar las recompensas obtenidas y aprender una función acción-valor Q : S × A → R donde Q(s, a) es la suma total de recompensas esperada al ejecutar la acción a estando en el estado s y siguiendo la acción con mayor valor a partir de ese punto. La mejor polı́tica es generada a partir de Q seleccionando la acción con el valor de Q más alto para el estado actual. Para resolver tareas de naturaleza continua, la principal desventaja de los algoritmos mencionados hasta el momento es precisamente que sólo son aplicables para MDPs con estados finitos y acciones finitas, y por fuerza requieren que la tarea se represente con espacios discretos, siguiendo algún mecanismo de discretización. Estos algoritmos simplemente no son aplicables si la discretización genera un número grande de estados o si las acciones son burdas. En el primer caso, un número relativamente grande de estados podrı́a saturar los recursos 3.2. ALGORITMOS DE RL 39 computacionales disponibles y por otro lado, si las acciones son burdas, la solución podrı́a dañar mecanismos o dispositivos (en el caso de un robot por ejemplo) o simplemente ser ineficiente (en el caso de videojuegos, o agentes virtuales). 3.2. Algoritmos de RL para tareas con estados y acciones continuas Existe un grupo especial de algoritmos que han sido especialmente diseñados para poder resolver tareas que no son manejables con algoritmos discretos. Uno de los enfoques que se han propuesto para espacios de estados y acciones continuas es el algoritmo Fitted RMAX [Jong and Stone, 2007], que además es un algoritmo basado en modelo y que es una extensión del trabajo de Brafman y Tennenholtz propuesto para espacios discretos ([Brafman and Tennenholtz, 2003], conocido como Rmax). Aunque Fitted R-max está diseñado para trabajar con acciones discretas, es capaz de manejar espacios de estado continuos mediante un aproximador de función1 . Como todos los algoritmos basados en modelo, el objetivo de Rmax es ir adaptando un modelo que favorece o restringe la exploración sobre ciertos estados. El algoritmo primero construye un MDP sobre una muestra de estados X, subconjunto de S. Para cada estado muestra x ∈ X y acción a ∈ A, el algoritmo Fitted R-MAX estima la transición T (x, a) usando todas las muestras disponibles para la acción a y los estados s cercanos a x. Se hace una generalización desde los estados cercanos porque posiblemente x no será visitado lo suficiente. Fitted R-MAX aproxima las transiciones y recompensas de los datos en S con una distribución de los datos en X. Mediante programación dinámica en este nuevo MDP, Fitted R-max consigue una función acción valor sobre X × A que puede ser usada para aproximar la función Q deseada. Los problemas que se han resuelto con este algoritmo incluyen el problema del auto en la montaña y navegación en mundos continuos. En ambos casos los espacios de estado son continuos, pero las acciones son discretas y de un 1 Los aproximadores de función son métodos de aprendizaje supervisado para aproximar funciones, un ejemplo son las redes neuronales. 40 CAPÍTULO 3. TRABAJO RELACIONADO par de variables, cuando mucho. Tanto los algoritmos basados en modelo, como los algoritmos libres de modelo tienen la ventaja de solucionar un buen número de problemas. Sin embargo, la mayorı́a de estas tareas por lo general son simples. Existen problemas donde se tiene un gran número de variables de estado y variables de acción, además de que la función de transición es no-lineal. Por ejemplo en aplicaciones de robótica, en particular el control de vehı́culos autónomos. Éstos son problemas reales difı́ciles de resolver y en particular, el control de vehı́culos de ala rotatoria (helicótperos) está entre los más complicados ([Ng, 2003], [Ng et al., 2004], [Coates et al., 2009], [Abbeel et al., 2007], [Abbeel et al., 2009], [Abbeel et al., 2010]). En [Ng, 2003] se propone el algoritmo PEGASUS, que usa las observaciones de las tuplas obtenidas durante el aprendizaje, aproxima una distribución sobre los datos y posteriormente genera datos fijos, para hacer la función de transición determinista (en un simulador) y de esta forma poder repetir la evaluación de cualquier polı́tica. Su principal aplicación en aprendizaje por refuerzo es hacer que una tarea sea repetible en cada episodio, es decir, las transiciones se vuelven deterministas. En [Ng et al., 2004] se usa moldeado de recompensas (también conocido como reward shaping). En él, usa aprendizaje por refuerzo para que un agente aprenda a controlar un helicóptero. La técnica que proponen aprovecha el uso de un simulador para obtener muestras de la tarea de control de un helicóptero industrial Yamaha, cuyo modelo dinámico (simulador) es proporcionado por el fabricante. Los datos del simulador, junto con las recompensas obtenidas de PEGASUS son usadas para entrenar una red neuronal que tiene como entrada el estado del helicóptero y genera un vector de acciones de control. En lo que respecta al control de vehı́culos aéreos, el objetivo del trabajo más reciente ([Coates et al., 2009], [Abbeel et al., 2007], [Abbeel et al., 2009], [Abbeel et al., 2010]) es aprender maniobras acrobáticas con un helicóptero a escala, partiendo de datos obtenidos de vuelos de demostración de un piloto experto en maniobras de aeromodelismo. El resultado es que el agente puede inferir una trayectoria de vuelo deseada a partir de varios ejemplos humanos, y posteriormente la reproduce de manera autónoma en el helicóptero a escala. Su 3.2. ALGORITMOS DE RL 41 solución parte de un modelo dinámico simple del helicóptero y usa CIFER (Comprehensive Identification from FrEquency Responses), un algoritmo aplicado en la industria aeronáutica para aproximar parámetros de la dinámica de helicópteros. Su contribución principal es en el área de aprendizaje por demostración (no lleva a cabo exploración o explotación, ni maneja un MDP, por lo que no puede ser considerado aprendizaje por refuerzo). Sin embargo, parte de las técnicas que emplea están relacionadas con el aprendizaje por refuerzo, la función de recompensa para el control es obtenida desde las múltiples demostraciones del experto. En aprendizaje por refuerzo serı́a equivalente a aprender un modelo de la función de recompensa. Aún cuando estos algoritmos pueden aprender tareas representadas en MDPs continuos, el aprendizaje sigue siendo lento y el conocimiento obtenido es útil sólo para la tarea donde se aprendió. Los algoritmos descritos dependen de un simulador preciso que se ajusta a la dinámica del helicóptero. En esta tesis se propone un algoritmo que permite aprender la tarea en un cuadricóptero y con la transferencia aprender el control de un helicóptero (los vehı́culos tienen dinámica diferente entre sı́), sin requerir nunca de conocimiento por parte de un experto ni un modelo dinámico. Para problemas que requieren el manejo de estados y acciones continuos, algunos trabajos destacan por su capacidad de trabajar con MDPs continuos: CACLA (Continuous Actor Critic Learning Automaton, [van Hasselt and Wiering, 2007]), SMC-learning (Sequential Monte Carlo learning, [Lazaric et al., 2007]) y Ex hai ([Martı́n H et al., 2011]). Tanto CACLA como SMC-learning utilizan aproximadores de funciones para representar estados y acciones paramétricamente. Ambos manejan un esquema actor-crı́tico, que es una estructura para representar la polı́tica independiente de la función de valor. La estructura de la polı́tica es el actor (se usa para seleccionar acciones) y la función valor estimada es el crı́tico porque su función es calificar la acción hecha por el actor. La calificación del crı́tico se da después de que el actor selecciona una acción. El crı́tico evalua el nuevo estado para medir si se ha mejorado o empeorado y genera una calificación. De acuerdo a las calificaciones del crı́tico se va modificando la polı́tica del actor. La diferencia central entre estos dos algoritmos es que las acciones se representan con un aproximador de función en CACLA, mientras que 42 CAPÍTULO 3. TRABAJO RELACIONADO en SMC-learning en lugar de una representación paramétrica el actor representa la polı́tica estocástica por medio de un conjunto de muestras (acciones) que se ajusta con el tiempo de acuerdo a los valores almacenados por el crı́tico. Exhai es un algoritmo basado en la idea de vecinos cercanos, aplicada al enfoque de diferencia temporal (k NN-TD, [Martı́n H et al., 2011]), pero que es capaz de manejar acciones continuas. Los algoritmos recien descritos son capaces de aprender tareas donde los estados y acciones son continuos, sin embargo, todos ellos aprenden en el orden de centenas de episodios. El único algoritmo que hasta el momento puede aprender tareas continuas de manera rápida y es eficiente con los datos es PILCO [Deisenroth and Rasmussen, 2011]. Por mencionar un ejemplo, en la tarea de control de péndulo invertido continua, PILCO aprende en menos de 10 episodios, mientras que el más cercano lo hace en alrededor de 150 episodios [Deisenroth and Rasmussen, 2011]. Por esa razón, para este trabajo se adoptó PILCO y se describe con más detalle en la siguiente sección. 3.2.1. PILCO:Probabilistic Inference for Learning Control PILCO [Deisenroth and Rasmussen, 2011] es un algoritmo del estado del arte que considera estados y acciones continuas. Utiliza procesos gaussianos para representar las funciones de transición de estado y, para aprender, utiliza métodos de optimización para hacer búsqueda de la polı́tica óptima. Para las tareas continuas, los procesos gaussianos son un marco matemático que se ha probado para representar la tarea, debido principalmente a que con GPs se pueden construir modelos precisos con muy poca información. La forma en la que la tarea se modela es usando GPs para representar la función de transición. El GP representa una distribución de funciones de transición en lugar de una sola función, lo cual permite considerar incertidumbre en las regiones del espacio de estados en los que no se ha explorado y, por lo tanto, se desconoce cuáles son las acciones óptimas. Pilco es un algoritmo que aprovecha la representación de la función de transición como un GP, y su principal contribución es el aprendizaje de la polı́tica manejando espacios continuos de estados y acciones. 3.2. ALGORITMOS DE RL 43 La función de transición es modelada como un proceso gaussiano donde los estados nuevos a los que se transita se definen como xt = f (xt−1 , at−1 ), f ∼ GP(m, k), donde xt ∈ S es el estado del agente en el momento t, y se aproxima por la función f . El modelo de transición f se representa como un proceso gaussiano con función media m y función de covarianza k. Las muestras de la tarea (xt−1 , at−1 ) ∈ RD+F y la correspondiente ∆t = xt − xt−1 + ∈ RD , ∼ N (0, Σ ), son las muestras de entrenamiento de la función latente f . Se usa ∆t en lugar de xt porque las diferencias varı́an menos que la función original y aprender tales diferencias es mejor que aprender los valores de la función directamente. El objetivo en RL es encontrar una polı́tica π: S 7→ A que maximice la recompensa acumulada esperada: π V (x0 ) = T X E [r(xt )], x0 ∼ N (µ0 , Σ0 ) (3.2.1) t=0 que es la suma de la recompensa esperada r(xt ) obtenida de una traza (x0 , . . . , xT ) de T pasos. π es una función continua aproximada por π̃, usando un conjunto de parámetros ψ. Para la mayorı́a de las tareas continuas, es útil usar una función de recompensa con la forma r(xt ) = exp(−d2 /σr2 ) que recompense cuando la distancia euclidiana d del estado actual xt al estado objetivo xtarget es pequeña, donde σr2 controla la amplitud de r. La polı́tica preliminar π̃ puede ser aproximada por una función de base radial con funciones de base gaussiana, dada por: π̃(x∗ ) = N X βs kπ (xs , x∗ ) = βπ> kπ (Xπ , x∗ ) (3.2.2) s=1 donde x∗ es una entrada de prueba, kπ es el kernel exponencial cuadrático y βπ = (Kπ + σπ2 I)−1 yπ es un vector de pesos. Kπ está formado como (Kπ )ij = kπ (xi , xj ), donde yπ = π̃(Xπ ) + π , (π ∼ N (0, σπ2 I)) representa las muestras de entrenamiento para la polı́tica, con π como ruido de medición. Xπ = [x1 , . . . , xN ], xs ∈ RD , s = 1, . . . , N , son las entradas de entrenamiento. Los puntos de apoyo Xπ y las correspondientes muestras de entrenamiento yπ son un conjunto de pseudo-muestras para la polı́tica preliminar, lo que significa que son ajustados por el algoritmo que aprende la polı́tica. La función de transición de estado se aprende como un GP, usando los datos disponi- 44 CAPÍTULO 3. TRABAJO RELACIONADO bles, aprendiendo primero una distribución a priori y luego una distribución a posteriori de funciones de transición. El modelo de transición aprendido es después usado para simular el sistema y especular sobre el comportamiento a largo plazo sin la necesidad de interacción (a lo cual se le conoce como batch learning). PILCO es un algoritmo de aprendizaje por refuerzo que aprovecha que la función de transición está representada como un GP. El algoritmo parte de tuplas o muestras de la tarea, que son usadas para aproximar un modelo de la tarea en la forma de un proceso gaussiano. Con el modelo, PILCO es capaz de poder evaluar la recompensa acumulada esperada considerando la incertidumbre en la función de transición, haciendo predicciones de las transiciones de estado dada una distribución de estados inicial. Una vez que se tiene una aproximación de la polı́tica, ésta se usa en una interacción con el ambiente, con lo que se obtienen nuevas muestras y el ciclo se repite, refinando el modelo de la tarea y ası́ mismo mejorando la polı́tica aproximada. El algoritmo concluye una vez que se alcanza algún criterio de paro, por ejemplo, cierto número de iteraciones con el ambiente o bien, que la polı́tica hallada con PILCO converja. Si bien PILCO es un algoritmo de aprendizaje muy rápido, no está diseñado para hacer transferencia entre tareas. En esta tesis, las dos propuestas algorı́tmicas están enfocadas en la transferencia de conocimiento para adquirir información de la tarea origen y acondicionar el aprendizaje en la tarea objetivo para que sea más rápido de lo que serı́a sin transferencia. Y si bien pueden funcionar con cualquier algoritmo tipo batch learning, se usa PILCO para las pruebas porque además de ser un algoritmo que funciona con espacios de estado y acción continuos, en el estado del arte es el algoritmo que aprende con el menor número de episodios. Como se vio en las secciones anteriores, los algoritmos de aprendizaje por refuerzo pueden aprender tareas de diversos tipos, pero en ningún caso el conocimiento generado puede ser trasladado a una tarea nueva aún cuando esté relacionada. Por ello la transferencia de conocimiento en el área de aprendizaje por refuerzo es una área de estudio muy importante y que se encuentra en desarrollo. 3.3. PROCESOS GAUSSIANOS EN TL 3.3. 45 Procesos gaussianos en transferencia de conocimiento en aprendizaje computacional Los procesos gaussianos han facilitado la solución de problemas de clasificación y de regresión en el aprendizaje computacional [Rasmussen and Williams, 2006] donde hay pocos datos de entrenamiento disponibles. En particular, para transferencia, los procesos gaussianos ya se han aplicado en el área de multi-task learning (aprendizaje multi-tarea), que se enfoca en aprender una tarea objetivo (llamada primaria) simultáneamente con un conjunto de tareas relacionadas (secundarias). En [Bonilla et al., 2008], se propone un modelo basado en un proceso gaussiano para aprender múltiples tareas simultáneamente. En su modelo se aprenden las dependencias entre las tareas de acuerdo con los datos observados. En [Leen et al., 2011] y [Leen et al., 2012], se propone y prueba un método de aprendizaje asimétrico (donde la tarea primaria tiene más importancia que las tareas secundarias) para clasificación de imágenes de resonancia magnética (fMRI). En él el objetivo es predecir el estı́mulo dadas las mediciones cerebrales de determinado paciente, usando las mediciones de otros pacientes. El aprendizaje asimétrico tiene su diferencia principal con el aprendizaje por transferencia en el sentido que el aprendizaje por transferencia se usa describe un escenario donde una o más tareas han sido previamente aprendidas y se desea aprender una nueva, mientras que en el aprendizaje asimétrico el aprendizaje es simultáneo y requiere que se asuma una estructura especı́fica de dependencia entre las tareas. En el trabajo de Leen et al. [2012] el modelo gráfico de dependencia que se asume es el de la Figura 3.2. Los hiper-parámetros del proceso gaussiano se aprenden entonces siguiendo el modelo de dependencia mostrado. La contribución central de ese trabajo es la técnica para encontrar los hiper-parámetros del proceso gaussiano. En [Bonilla et al., 2008],[Leen et al., 2011] y [Leen et al., 2012] se propone el uso de procesos gaussianos, pero a diferencia de el trabajo que se propone en esta tesis, el escenario que ellos plantean es el de aprendizaje supervisado, y asume que los datos están disponibles 46 CAPÍTULO 3. TRABAJO RELACIONADO Figura 3.2: [Leen et al., 2012] Modelo gráfico probabilista del modelo de proceso gaussiano multi-tarea para la transferencia. Se muestran las relaciones que se asumen entre las tareas a aprender. en su totalidad para todas las tareas involucradas. En el escenario que se maneja en esta propuesta, el aprendizaje por refuerzo parte de el desconocimiento de los datos en la tarea objetivo y la estrategia que se propone en esta tesis tiene que lidiar con el esfuerzo por ir descubriendo la mejor polı́tica en cada episodio. 3.4. Transferencia de conocimiento en aprendizaje por refuerzo Los métodos de transferencia para variables de estado y acciones fijos entre las tareas pueden ser usados cuando entre las tareas origen y la tarea objetivo se conservan las mismas variables de estado y los agentes tienen el mismo conjunto de acciones disponibles. Una lista de los métodos de transferencia para tareas de aprendizaje por refuerzo está en la Figura 3.3. En general los algoritmos de transferencia en RL han tenido buenos resultados, pero no muchos de ellos han abordado tareas que representen problemas reales. Tal como en aprendizaje por refuerzo, los algoritmos que manejan MDPs discretos son más comunes que los que soportan representaciones continuas. En la Tabla 3.1 se listan los 3.4. TRANSFERENCIA EN RL 47    Estados y acciones discretos       Madden y Howley, 2004       Sherstov y Stone, 2005       Taylor et al., 2008  Algoritmos de transferencia   en aprendizaje por refuerzo     Estados continuos, acciones discretas       TIMBREL, Taylor, 2008       Transfer of samples, Lazaric, 2008     RL transfer via sparse coding, Ammar, 2012 Figura 3.3: Diagrama general de enfoques relacionados con transferencia de conocimiento (TL) para aprendizaje por refuerzo (RL). algoritmos más destacados que hacen transferencia de conocimiento en espacios de estado y acciones discretos. En las siguientes secciones se abordarán los trabajos que proponen transferencia para aprendizaje por refuerzo. 3.4.1. Transferencia para aprendizaje por refuerzo en tareas de espacios discretos En [Madden and Howley, 2004] se hace transferencia de información entre tareas de dificultad progresiva, pero está limitado a MDPs discretos. Después de aprender una tarea origen, el agente extrae reglas para actuar basado en los valores Q aprendidos de todas las tareas previas y en un criterio llamado introspección. El algoritmo de aprendizaje por refuerzo y la introspección usan diferentes representaciones del estado. Los dos mecanismos de aprendizaje aprenden en espacios de estado diferentes, donde las variables de estado para el módulo de introspección son de alto nivel (por ejemplo variables booleanas). El mecanismo de introspección saca ventaja del tipo de tarea discreta porque puede abstraer estados que tienen propiedades geométricas (en el caso de las pruebas de este trabajo el estado considera si el agente ya tocó las paredes del laberinto y en qué orientación se tocaron). Nuevamente es 48 CAPÍTULO 3. TRABAJO RELACIONADO un trabajo limitado en cuanto a la aplicación a problemas de dinámica compleja porque la información que se transfiere son reglas por definición discretas y dependen del mecanismo de introspección para su interpretación. En la mayorı́a de los problemas de dinámica compleja los estados corresponden a variables continuas (como posición, velocidad) y no hay variables booleanas o discretas que se puedan aprovechar de manera natural como en los ambientes discretos. El trabajo de [Sherstov and Stone, 2005] considera transferir un conjunto de acciones desde una tarea origen hasta una tarea objetivo. Este trabajo está enfocado a tareas con estados discretos con conjuntos de acciones grandes. El aprendizaje se lleva a cabo sobre una modificación del MDP original. El agente en la tarea objetivo aprende en términos de los efectos de las acciones (llamados salidas), en lugar de considerar funciones de valor. Se prueba su aplicación sobre el problema de navegación en retı́culas, aunque se puede extender a un conjunto de problemas más grande. Al transferir sólo un subconjunto de acciones hacia la tarea destino, el agente en la tarea destino delimita la exploración de acciones. Este enfoque está limitado a problemas con estados discretos y su fortaleza parece estar en el tipo de tareas donde las acciones útiles están en un subconjunto de toda una gama de acciones, por ejemplo, en un horno industrial, en el cual aún cuando se tengan un gran rango de temperaturas para elegir casi siempre se eligen ciertas temperaturas. La transferencia de Sherstov aprenderá cuáles son las temperaturas más comunes y las pasará a un horno semejante para que sólo escoja de entre ellas al aprender. Este enfoque no serı́a útil para un sistema dinámico, como los que se consideran en este trabajo, ya que aún cuando en la tarea origen fueran claramente más frecuentes ciertas acciones que otras, al pasar sólo esas acciones a un sistema dinámico similar es posible que se requiera un conjunto más amplio de acciones o toda la gama de acciones. El único caso en el que no pasarı́a eso serı́a si los sistemas dinámicos fueran idénticos, en cuyo caso serı́a una transferencia trivial. 3.4. TRANSFERENCIA EN RL 49 Tabla 3.1: Algoritmos relevantes de Transferencia para Aprendizaje por Refuerzo Conocimiento Métricas transferido comparación Madden and Howley [2004] regla r. total Sherstov and Stone [2005] acciones r. total Taylor et al. [2008] tuplas r. total Lazaric [2008] tuplas r. total Ammar et al. [2012] mapeo t. convergencia Algoritmo 3.4.2. Transferencia para RL en tareas de espacios continuos Existe poco trabajo relacionado con transferencia de conocimiento aplicada a aprendizaje por refuerzo en espacios de estados continuos y ninguno para estados de acción continuos. El primero de estos enfoques es propuesto en [Taylor et al., 2008], en el cual se consideran pares de tareas donde las acciones son diferentes, las variables de estado son diferentes y se emplea una técnica denominada inter-task mapping para relacionar los espacios de acción y las variables de estado de las dos tareas. Bajo la regla de mapeo se traducen las instancias obtenidas en la tarea origen y se utilizan como datos en el aprendizaje de la tarea objetivo. Con este método se aprende el problema del auto en la montaña en 2D y se transfiere el conocimiento para aprenderlo en 3D con una recompensa acumulada mayor al aprendizaje desde cero. Este tipo de transferencia trabaja con tuplas desde la tarea origen que son pasadas directamente hacia el aprendizaje en la tarea objetivo. Este algoritmo transfiere un modelo basado en instancias, y depende también de algoritmos de aprendizaje basados en modelo (en sus pruebas usaron Fitted R-max). En el trabajo de Ammar et al. [2012], se sigue la lı́nea de investigación de Taylor et al. [2008] y se centra en identificar funciones que puedan relacionar variables de la tarea origen con variables de la tarea objetivo. En [Taylor et al., 2008], las reglas de mapeo eran definidas bajo el criterio de un experto, pero en el trabajo de Ammar et al. [2012] se busca hacerlo de 50 CAPÍTULO 3. TRABAJO RELACIONADO forma automática. La forma en que se consigue es buscando caracterı́sticas destacadas de alto nivel en las muestras de la tarea origen, usando sparse coding. Ellos proponen una medida de similaridad que trabaja con las caracterı́sticas de alto nivel entre las tareas origen y objetivo, y con esa medida pueden encontrar pares de variables relacionadas entre la tarea origen y la tarea objetivo (lo cual corresponde precisamente a la función de inter-task mapping). Un trabajo que es punto de comparación es el propuesto en [Lazaric, 2008], en el cual se transfieren tuplas desde un conjunto de tareas origen. Se asume que estas tareas origen y la tarea objetivo tienen similares funciones de transición y funciones de recompensa. En su trabajo, la contribución principal es un método para la selección de las muestras desde las tareas origen, donde las tuplas obtenidas sirven a algoritmos de aprendizaje basados en modelo. Los resultados son que se reduce el número de muestras que el agente necesita para aprender la tarea objetivo, lo cual significa que se pueden obtener buenos resultados con un número reducido de tuplas de la tarea objetivo. Las tuplas que se transferirán desde la tarea origen a la objetivo son seleccionadas desde el conjunto de tareas origen de manera automática, con base en dos criterios o métricas propuestos en su trabajo: cumplimiento (cuánto se parecen probabilı́sticamente la tarea origen y la objetivo) y relevancia (la distancia de cada muestra a un kernel que representa la tarea). El criterio de cumplimiento mide la probabilidad de que una tarea del conjunto de tareas origen pueda generar las muestras que se tomaron de la tarea objetivo y ese valor de cumplimiento se le asigna a la tarea origen especı́fica. Este valor se calcula por cada una de las tareas origen. El valor de relevancia sirve para medir la probabilidad de que una muestra de la tarea origen haya sido generada de la misma distribución que la tarea destino. Estas dos medidas y correspondientes umbrales se utilizan para seleccionar tuplas e insertarlas al conjunto de entrenamiento de la tarea destino. El aprendizaje que se lleva a cabo tanto en la tarea origen como en la destino es aprendizaje basado en modelo. Una de las ventajas de este método es que se reduce el número de muestras que el agente necesita para aprender la tarea objetivo, lo cual significa que se pueden obtener buenos resultados con un número reducido de tuplas de la tarea objetivo. El argumento del trabajo es que al estar relacionadas por una distribución las tareas origen y 3.5. ANÁLISIS DEL TRABAJO RELACIONADO 51 la objetivo, algunas de las tareas origen tendrán tuplas similares a la tarea objetivo. 3.5. Análisis del trabajo relacionado En las secciones anteriores se resumieron los algoritmos más importantes del estado del arte para aprender tareas por refuerzo, ası́ como los algoritmos para transferencia de conocimiento en tareas de aprendizaje por refuerzo. Aunque existe un número grande de algoritmos de aprendizaje y transferencia, en la mayorı́a de las propuestas se trabaja sobre tareas donde las variables de estado y acción son discretas. Además, los trabajos presentados se prueban sobre tareas más bien teóricas y no tanto problemas cotidianos. En esta tesis, se abordan problemas con variables de estado y acción continuas, y se prueba sobre tareas donde las variables de estado y acción son continuas, lo cual es más aplicable a casos reales de control. Las tareas con espacios continuos son importantes para problemas de la vida cotidiana, en problemas como robótica o automatización en la industria. PILCO es un algoritmo que destaca por resolver tareas con espacios de estado y acción continuos en un tiempo muy reducido, sin embargo, por sı́ solo no es capaz de transferir el conocimiento adquirido entre tareas similares, como se propone en el presente trabajo de tesis. De los algoritmos de transferencia publicados hasta el momento, muy pocos trabajos han hecho transferencia en tareas de estados continuos. El trabajo de Lazaric [Lazaric et al., 2008] propone un mecanismo de transferencia para tareas con estados continuos, pero no acciones continuas. De ahı́ la importancia de este trabajo, cuyo objetivo es transferir información entre tareas con espacios de estado y acción continuos. Lo que se propone en esta tesis se sitúa en una área en la que no se ha hecho investigación, los algoritmos propuestos se muestran ubicados en la figura 3.4. Es el primer trabajo que propone hacer transferencia de conocimiento sobre tareas con estados y acciones continuas. Para la transferencia en ese tipo de tareas, se plantean dos mecanismos novedosos que buscan reducir la exploración mejorando el modelo de la tarea objetivo. Los esfuerzos del trabajo están entonces concentrados en la reducción de riesgos de visitar estados peligrosos durante el aprendizaje en la tarea objetivo, aprovechando la información transferida. 52 CAPÍTULO 3. TRABAJO RELACIONADO   Estados y acciones discretos        Madden y Howley, 2004       Sherstov y Stone, 2005       Taylor et al., 2008              Estados continuos, acciones discretas Algoritmos de transferencia  TIMBREL, Taylor, 2008  en aprendizaje por refuerzo     Transfer of samples, Lazaric, 2008       RL transfer via sparse coding, Ammar, 2012             Estados y acciones continuos       Algoritmo QTL, contribución de este trabajo      Algoritmo SST, contribución de este trabajo Figura 3.4: Diagrama general de enfoques relacionados con transferencia de conocimiento (TL) para aprendizaje por refuerzo (RL). En el primer enfoque propuesto en esta tesis, se aprovecha el uso de los procesos gaussianos para representar la función de transición de estados y se presenta un par de mecanismos para combinar gradualmente las propiedades cualitativas de las tareas origen y objetivo. Se trata de un enfoque que no se habı́a intentado en trabajo previo, con el cual se incrementa la precisión de la distribución de funciones de transición a priori en la tarea objetivo. Esto mejora el modelo en la tarea objetivo y acelera el aprendizaje. La segunda propuesta de esta tesis consiste en un algoritmo para sintetizar muestras para la tarea objetivo, con lo que se puede refinar el modelo de la tarea y aprender más rápido. A diferencia de la propuesta de Lazaric [Lazaric, 2008], donde se seleccionan tuplas y se transfieren sin cambios a la tarea objetivo, en esta tesis se propone utilizar tuplas sintéticas que se obtienen de transformar tuplas selectas de la tarea origen. En [Lazaric, 2008] los experimentos se realizan con una tarea que tiene estados continuos, pero con acciones 3.5. ANÁLISIS DEL TRABAJO RELACIONADO 53 discretas. La aplicación del algoritmo de transferencia de Lazaric fue probado con un problema con dos variables de estado y una de acción (discreta). En este trabajo, se hace transferencia para aprender el control de vuelo en un helicóptero autónomo, considerado como uno de los problemas más difı́ciles de control ([Ng et al., 2004], [Abbeel et al., 2010]). En resumen, con respecto a los trabajos relacionados la presente tesis propone las siguientes aportaciones: PILCO [Deisenroth and Rasmussen, 2011] es un algoritmo del estado del arte que ha revolucionado los tiempos en los que se aprende una tarea con estados y acciones continuas. Sin embargo, por sı́ solo no es capaz de hacer transferencia entre tareas. En el presente trabajo se adopta PILCO como algoritmo de aprendizaje de la polı́tica para hacer transferencia de información hacia una nueva tarea, aunque el enfoque propuesto se puede extender a otros algoritmos de búsqueda de polı́tica. El algoritmo de Lazaric ha obtenido resultados relevantes en el área de transferencia para aprendizaje por refuerzo. Sin embargo, el enfoque está limitado a tareas con acciones discretas, y sólo consiste en filtrar tuplas y transferirlas. A diferencia del trabajo de Lazaric, en esta tesis los enfoques propuestos son capaces de transferir entre tareas con acciones continuas, y la propuesta de sı́ntesis de tuplas no sólo filtra y aprovecha las mejores tuplas de la tarea origen, sino que también las transforma para adecuarse mejor a la tarea objetivo. En el siguiente capı́tulo se detallan los enfoques propuestos para la tarea de transferencia de conocimiento cualitativo en aprendizaje por refuerzo. Capı́tulo 4 Transferencia cualitativa En este capı́tulo se abordarán detalles de los enfoques propuestos en esta tesis. Primero la transferencia de hiper-parámetros, que transfiere las cualidades de la función de transición de la tarea origen y posteriormente la sı́ntesis de tuplas, que hace una selección de muestras en la tarea origen y las transforma para refinar el modelo de la tarea objetivo. 4.1. QTL (Qualitative Transfer Learning ) En el trabajo propuesto se transfiere información de los hiper-parámetros desde la función de transición de la tarea origen a la tarea objetivo, para describir cualitativamente la forma general de la función de transición en la tarea objetivo. Para representar la función de transición se usa un GP con una función media definida como m(·) = 0 y un kernel cuadrático exponencial k con función de covarianza definida en la Ecuación 4.1.1. 1 k(x, x0 ) = α2 exp(− (x − x0 )> Λ−1 (x − x0 )) + δxx0 σ2 2 (4.1.1) Las entradas para la función kernel k son de la forma x̃ = [x> a> ]> , donde todas las variables de los vectores estado y acción se manejan en un solo vector. Los hiper-parámetros que describen la forma general de la función de transición, que son caracterı́sticas como suavidad, periodicidad, variabilidad y tolerancia al ruido, en la distribución a priori están definidos por α2 , `, y σ2 . Sin embargo, cuando no se dispone de conocimiento previo sobre las propiedades 55 56 CAPÍTULO 4. TRANSFERENCIA CUALITATIVA de las funciones, los hiper-parámetros del kernel son por lo regular ajustados por un proceso de optimización que toma en cuenta los datos disponibles (por lo general se usa maximización de evidencia [Rasmussen and Williams, 2006]). En el enfoque propuesto, los hiper-parámetros son ajustados en cada episodio de interacción agente-ambiente. 4.1.1. Inicialización Tomando como base la información disponible en la tarea origen, un algoritmo de transferencia puede tomar de la tarea origen una o más fuentes de información disponibles. Por ejemplo, puede pasar la polı́tica, un modelo de la tarea, muestras de la tarea o alguna abstracción o representación de la tarea. En esta tesis se transfieren la polı́tica, información cualitativa de la función de transición y muestras del tipo hs, a, s0 , ri. En el enfoque de transferencia de hiper-parámetros, también llamado QTL lo único que se transfiere son la polı́tica e información de la función de transición, contenida en los hiper-parámetros. Transferir solamente la polı́tica no resuelve la tarea objetivo (como se menciona en Taylor and Stone [2009]). La polı́tica aprendida en la tarea origen no necesariamente lleva al estado deseado en la nueva tarea, a menos que ambas tareas sean exactamente iguales, pero la polı́tica transferida puede obtener mejores resultados que una polı́tica aleatoria inicial en la tarea objetivo. En esta tesis la polı́tica se utiliza como inicialización solamente. La transferencia de la función de transición, tal cual, tampoco resuelve la tarea objetivo. Asumir que la función de transición es la misma en ambas tareas es asumir que ambas tareas son idénticas y si se transfiere la función de transición (modelo de la tarea) el agente seguramente aprenderá una polı́tica errónea. Sin embargo, en este trabajo se parte de que ambas funciones de transición comparten caracterı́sticas cualitativas (suavidad, periodicidad, variabilidad y tolerancia al ruido) y que es posible refinarlas en la tarea objetivo, lo cual sı́ conduce a resultados satisfactorios. La función de transición adquirida en la tarea origen se usa para modelar una distribución de funciones de transición para la tarea objetivo, gracias a su representación usando procesos gaussianos. En el enfoque propuesto, la tarea objetivo comienza con una función de transición a priori 4.1. QTL (QUALITATIVE TRANSFER LEARNING) 57 que usa los mismos hiper-parámetros que en la tarea origen, es decir, la tarea objetivo se inicia asumiendo que tiene las mismas propiedades cualitativas que la tarea origen (ruido, suavidad, periodicidad, etc.). En la tarea objetivo, los hiper-parámetros son actualizados gradualmente para permitir al agente irse adaptando al conocimiento nuevo. Este proceso permite que la tarea de aprendizaje en la tarea objetivo se centre más en descubrir la polı́tica óptima que en encontrar el modelo de la tarea. Para la transferencia de hiper-parámetros en nuestro trabajo se proponen dos enfoques de actualización: (i) Un factor de actualización geométrico, que permite usar el conocimiento de un experto para controlar la tasa a la cual la información de la tarea objetivo es incorporada al modelo y (ii) una actualización bayesiana, que toma en cuenta la confianza en la nueva información obtenida de la tarea objetivo. Algoritmo 4.1. QTL (Aprendizaje por Transferencia Qualitativa) Entrada: θs , πs {Hiper-parámetros y polı́tica} 1: π̃ ← πs {Se inicia la polı́tica con la polı́tica de tarea origen} 2: θ0 ← θs {Se inician los hiper-parámetros con los de la tarea origen} 3: Interactuar con el ambiente, aplicar π̃ para obtener tuplas (tipo hs, a, r, s0 i). 4: repetir 5: Inferir la distribución de las funciones de transición fv , usando las tuplas disponibles y los hiper-parámetros θi . 6: repetir 7: Evaluar la polı́tica π̃ sobre f . Obtener V π̃ 8: Refinar π̃ {Usando algoritmo de búsqueda de polı́tica (e.g. PILCO)} 9: hasta convergencia 10: Interactuar con el ambiente, aplicar π̃ para obtener más tuplas. 11: Aprender θp con maximización de evidencia, usando todas las tuplas. 12: θi+1 ← fupdate (θp , θi ) Aplicar la regla de actualización (factor de olvido o actualización bayesiana) 13: hasta tarea aprendida 58 CAPÍTULO 4. TRANSFERENCIA CUALITATIVA El algoritmo propuesto (ver algoritmo 4.1) comienza con una polı́tica inicial para explorar el ambiente, una vez que el algoritmo obtiene datos usando la polı́tica, se aprende con estos datos la función de transición y se recalcula la polı́tica, que esta vez toma en cuenta el nuevo modelo aprendido. Entre más pronto el agente obtenga muestras significativas de la tarea actual, más rápido se aprenderá una polı́tica adecuada. En esta tesis, en lugar de comenzar con una polı́tica aleatoria, se usa en el primer episodio la polı́tica original. Como se verá en la parte experimental, esta estrategia mejora de forma significativa el desempeño. También se inicializan los valores de los hiper-parámetros con los obtenidos de la función de transición de la tarea origen. El algoritmo usa un GP por cada una de las variables de estado del vector de estado. Es decir, al final existirá una distribución de función de transición fv por cada variable de estado v y en conjunto los GPs describirán la función de transición global. Cada vez que el agente interactúa con su ambiente, las muestras y los hiper-parámetros de la tarea objetivo son actualizados y eventualmente reemplazarán con la información de la tarea objetivo. Para buscar la polı́tica óptima, se usa el algoritmo PILCO (lı́neas 7 y 8 del algoritmo 4.1). Sin embargo, cualquier otro método de batch learning puede ser fácilmente adaptado mientras que permita estados y acciones continuos. En caso de PILCO, éste se basa en un proceso de optimización que aprovecha directamente el GP para poder encontrar la polı́tica (para más detalles se puede consultar [Deisenroth and Rasmussen, 2011]). Una vez que se ha aprendido la polı́tica, ésta es usada por el agente al interactuar con su ambiente en el siguiente episodio, cuando se recolectan nuevas tuplas(lı́nea 10 del algoritmo 4.1). A partir de las nuevas tuplas, se aprenden nuevos hiper-parámetros usando maximización de evidencia (como se describió en la sección 2.2) y se combinan con los que han sido previamente transferidos, siguiendo una de las reglas de actualización descritas en la siguiente sección. 4.1. QTL (QUALITATIVE TRANSFER LEARNING) 4.1.2. 59 Actualización de conocimiento Si en la tarea objetivo se siguiera un esquema de actualización como lo hace PILCO, después del primer episodio se perderı́a la información transferida. Esto no es deseable ya que en la primera interacción con el ambiente aún se tienen pocas tuplas y muchas de ellas no sirven para estimar un buen modelo de la tarea. Esto es casi igual que aprender sin transferencia. Las caracterı́sticas cualitativas de la tarea origen son usadas como punto de partida para la tarea objetivo, pero a medida que se van recopilando más tuplas en la tarea objetivo el modelo que se aprende de las nuevas tuplas se hace más preciso y lo que se desea es que el agente use cada vez más el nuevo modelo. Proponemos ajustar los hiper-parámetros usando dos enfoques: factor de olvido y actualización bayesiana. Sea θ = [α2 , `, σ2 ]> un vector de hiper-parámetros. Sean θs los hiper-parámetros transferidos desde la tarea origen, θi los hiper-parámetros usados en el kernel para la tarea objetivo en el episodio i. Sean θpi los hiper-parámetros aprendidos por maximización de evidencia en la tarea objetivo en el episodio i. Para aplicar el factor de olvido, se calculan los valores de los hiper-parámetros de la tarea objetivo según las siguientes ecuaciones: θ0 = θs (4.1.2) θi = γθi−1 + (1 − γ)θpi , i > 0 (4.1.3) donde γ ∈ [0, 1] es la tasa a la cual se incorporan los hiper-parámetros del episodio previo en la función de kernel. El valor de γ especifica cómo se va a ir diluyendo la información de la tarea original con el tiempo y en la sección 5.2 se muestran los resultados para diferentes valores de γ. En este trabajo también se propone otra forma de actualizar los hiper-parámetros usando un enfoque bayesiano. La inferencia bayesiana ha sido aplicada en el área de ciencias computacionales para resolver diversos problemas (ver [Murphy, 2012]), ya que permite combinar información de diversas fuentes tomando en cuenta la incertidumbre. 60 CAPÍTULO 4. TRANSFERENCIA CUALITATIVA La inferencia bayesiana es usada para refinar la probabilidad a priori con nuevas observaciones. En el problema que se plantea en esta tesis, la inferencia bayesiana permite combinar información de ambas tareas (origen y objetivo) en cada episodio, considerando los hiperparámetros como variables aleatorias continuas con una distribución gaussiana. Para variables aleatorias continuas, la inferencia bayesiana puede actualizar una distribución a priori con nuevo conocimiento obtenido de otra fuente de información, ofreciendo una distribución a posteriori más ajustada a los datos. En este trabajo, cada hiper-parámetro se trata como una variable aleatoria normalmente distribuida, lo cual permite modelar la incertidumbre en cada tarea. El valor aprendido en la tarea origen se maneja como conocimiento a priori, y se condiciona sobre el valor aprendido en la tarea objetivo. El valor inferido en el episodio k − 1 es usado como a priori para el episodio k. En los primeros episodios del proceso de aprendizaje en la tarea objetivo, el agente tendrá muy pocas muestras de la función de transición. Debido a esta baja cantidad de muestras, el modelo aprendido de esas muestras no será preciso y el proceso de combinación dará más peso a los hiper-parámetros transferidos que a los que se aprenden en la tarea objetivo. La certidumbre es ajustada de acuerdo a la cantidad de muestras recolectadas por el agente, y puede iniciarse de forma muy simple, tal como la que se indica en las ecuaciones 4.1.8 y 4.1.9. En cada episodio k, se combinan las sucesivas aproximaciones del valor de los hiperparámetros aprendidos por maximización de evidencia θpk . Esto se modela asumiendo que el valor aprendido en cada uno de los hiper-parámetros tiene ruido gaussiano: p(θpk ) ∼ N (µp , σp2 ) (4.1.4) donde µp es el valor aprendido por maximización de evidencia y σp2 es inicializado según la ecuación 4.1.7. La distribución a posteriori está especificada por: p(θ|θpk ) ∼ N (µk , σk2 ) donde (4.1.5) 4.2. SST (SYNTHETIC SAMPLES TRANSFER) σk2 µk 2 σp2 σk−1 = 2 σp2 + σk−1 µk−1 µp 2 = σk + 2 2 σk−1 σp 61 (4.1.6) (4.1.7) 2 es la varianza de la distribución a priori y σk2 es la varianza a posteriori. donde σk−1 La incertidumbre inicial en los hiper-parámetros de la tarea origen es tomada en cuenta con el enfoque bayesiano, fijando una distribución inicial y ajustándola a medida que se incorporan nuevas muestras. En un comienzo, los parámetros de las distribuciones de los hiper-parámetros se inician de la siguiente forma: 2 σk=0 = 1 nsource 1 σp2 = ntarget (4.1.8) (4.1.9) donde nsource y ntarget son el número de muestras recolectadas en la tarea origen y la tarea objetivo respectivamente. La inferencia bayesiana actualiza entonces los valores de hiper-parámetros que se usan en la tarea objetivo, tomando en cuenta la confianza que se tiene en la información de la tarea origen y en la tarea objetivo. La forma en la que se van actualizando las distribuciones de los nuevos hiper-parámetros se ilustra en la gráfica 4.1. 4.2. SST (Synthetic Samples Transfer ) En esta sección se describe la propuesta de enfoque basado en la sı́ntesis de tuplas para la transferencia de conocimiento desde una tarea origen hacia la tarea objetivo, nombrado SST. En la solución propuesta, se construye un modelo de la tarea objetivo utilizando información selecta de la tarea origen. Se sintetiza información en la tarea objetivo, lo cual permite al agente tener una mucho mejor idea de cómo se comporta la tarea. El modelo en la tarea objetivo es refinado conforme el agente explora en esta nueva tarea. 62 CAPÍTULO 4. TRANSFERENCIA CUALITATIVA 0.6 valor de hiper−parámetro a priori valor de hiper−parámetro aprendida con muestras de la tarea objetivo distribución del hiper−parámetro usada en el modelo de tarea objetivo Probabilidad 0.5 0.4 0.3 0.2 0.1 0 −5 −4 −3 −2 −1 0 1 2 3 4 5 3 4 5 Valor del hiper−parámetro (a) Primer episodio de la tarea objetivo. 0.9 0.8 valor de hiper−parámetro a priori valor de hiper−parámetro aprendido con muestras de la tarea objetivo distribución del hiper−parámetro usada en el modelo de la tarea objetivo 0.7 Probabilidad 0.6 0.5 0.4 0.3 0.2 0.1 0 −5 −4 −3 −2 −1 0 1 2 Valor del hiper−parámetro (b) Entre más tuplas se obtienen, la incertidumbre se reduce en la tarea objetivo. Figura 4.1: Esta ilustración muestra una distribución de hiper-parámetros en la tarea origen (curva roja punteada), tarea objetivo (curva azul con cuadros) y la curva inferida (verde continua). En los primeros episodios (a), los hiper-parámetros en la tarea objetivo tienen alta incertidumbre, por lo que los valores inferidos tienden hacia los valores de la tarea origen. Cuando se han obtenido más tuplas en la tarea objetivo (b), los hiper-parámetros aprendidos tienen menor incertidumbre y los valores inferidos tienden hacia los valores aprendidos en la tarea objetivo. 4.2. SST (SYNTHETIC SAMPLES TRANSFER) 4.2.1. 63 Descripción general El enfoque de sı́ntesis de tuplas considera tareas donde las variables de los espacios de acción y estado son iguales en la tarea origen y objetivo, pero la dinámica puede variar, ejemplos de este tipo de tareas pueden ser que un agente aprenda a conducir una bicicleta y después transferir a la tarea de conducción de una motocicleta, o bien controlar un automóvil sedan para después pasar a la tarea de conducción de un automóvil de Fórmula 1. En tales ejemplos de transferencia, la tarea origen y la tarea objetivo tienen las mismas variables de estado y las mismas variables de acción, sin embargo, escoger determinada acción no lleva a los mismos cambios de estado. Para poner un ejemplo más claro, si en un auto sedan se presiona el acelerador a fondo no se produce el mismo cambio de estado que en un auto de carreras, sin embargo, en ambos casos se tienen las mismas variables de estado y acción y la la respuesta a la acción es similar: aumentar la velocidad. El agente construye un modelo de la tarea estimando la función de transición de estado, la cual especifica cómo cambia el estado del agente una vez que se elige una acción. En RL, el agente desconoce la función de transición al comenzar la tarea, por lo que el modelo se construye conforme se hace exploración de las acciones. En un escenario ideal, el agente explorarı́a estados cercanos a la solución de la tarea y acumuları́a suficiente información para construir un buen modelo en los primeros episodios. Sin embargo, cuando la tarea comienza, el agente tiende a explorar con acciones aleatorias y visitar estados que no están cercanos a la solución de la tarea. Esta información no es buena para construir un modelo acertado de la tarea. Es, entonces, en estas primeras interacciones con el ambiente que el enfoque propuesto aprovecha la información de la tarea origen, para sintetizar tuplas que ayuden al agente a construir un modelo certero de la tarea objetivo. La polı́tica puede ser representada con cualquier aproximador, pero en este trabajo de tesis se decidió usar el enfoque propuesto en [Deisenroth and Rasmussen, 2011], porque en él la polı́tica se representa también por un proceso gaussiano y se puede aprender usando estimaciones del gradiente de la función valor de acuerdo a las simulaciones y después optimizando la polı́tica. 64 CAPÍTULO 4. TRANSFERENCIA CUALITATIVA La polı́tica se usa para interactuar sobre el ambiente real y ası́ obtener más tuplas (del tipo estado, acción, estado sucesor). Este ciclo de interacción puede ser repetido mientras que no se alcance el comportamiento o desempeño deseado. Una vez que se ha aprendido el modelo, se usa el algoritmo PILCO para buscar la polı́tica sobre el modelo aprendido. En el enfoque propuesto, no se restringe a trabajar con PILCO, sino que se pueden usar otros algoritmos de búsqueda de polı́tica que usen aproximadores de función en la función de transición, aún cuando no usen GP directamente (el GP puede usarse para evaluar la transición y simplemente ignorar la incertidumbre que provee el GP). Sin embargo, PILCO es un algoritmo que trabaja de manera natural con estados y acciones continuas, y aprovecha que la función de transición esté representada como un proceso gaussiano, ya que usa la incertidumbre para buscar la polı́tica. 4.2.2. Estimación de un modelo desde las muestras Cuando el agente está en el primer episodio, no hay información suficiente para saber cómo se comporta la tarea, por lo que es difı́cil obtener una polı́tica adecuada. En los enfoques de transferencia de tuplas, se seleccionan algunas muestras de la tarea origen y se agregan al conjunto de muestras de la tarea objetivo. En el enfoque aquı́ propuesto, se crean muestras artificiales para la tarea objetivo, partiendo de las muestras conocidas en las tareas origen y objetivo, junto con un modelo de la diferencia entre las tareas, . Esto hace que el agente requiera menos exploración en la tarea nueva y de esta forma aprende más rápido y cometiendo menos errores. En el método SST propuesto (algoritmo 4.2), primero se usa la polı́tica aprendida en la tarea origen para inicializar la tarea objetivo. Tal como se ha descrito en [Taylor and Stone, 2009], aún cuando la polı́tica de la tarea origen no resuelve la tarea objetivo, la polı́tica de la tarea origen es un mejor punto de partida que una polı́tica aleatoria. Las pocas tuplas recolectadas en la tarea objetivo y las de la tarea origen se usan para sintetizar más muestras en la tarea objetivo y construir un modelo más preciso de la tarea objetivo. El modelo aprendido es entonces ajustado en cada episodio y las nuevas muestras de la tarea objetivo 4.2. SST (SYNTHETIC SAMPLES TRANSFER) 65 son integradas también. Se usan dos procesos gaussianos para estimar los modelos correspondientes a las tareas origen y objetivo (ver algoritmo 4.3), usando solamente muestras disponibles. Con estos modelos de las tareas, se aproxima un tercer modelo, que es la diferencia de los dos. El modelo de la diferencia entre las tareas se usa para sintetizar las muestras para la tarea objetivo, tomando las muestras seleccionadas de la tarea origen como punto de referencia. Primero se seleccionan muestras de la tarea origen y después, las muestras seleccionadas se transforman para generar muestras sintéticas para la tarea objetivo. Sean x̃source = [s> a> ]> , x̃source ∈ RD+F muestras de la tarea origen, donde D es la dimensión del vector de estado x y F es la dimensión del vector acción a. De esta forma se representan las entradas de la función de transición. Sean ỹsource ∈ RD salidas de la función de transición latente fsource . De forma similar, las muestras de la tarea objetivo son denotadas por x̃target ∈ RD+F y su correspondiente salida ỹtarget ∈ RD , para especificar la función de transición ftarget . El algoritmo utiliza la polı́tica de la tarea origen para obtener tuplas en el primer episodio. En la primera interacción con el ambiente se obtienen tuplas del tipo hs, a, r, s0 i, de donde se toman x̃source = [s> a> ]> , ỹsource = s0 , como se muestra en las lı́neas 1 y 2 del algoritmo 4.2. Para la tarea objetivo, se sintetizan muestras partiendo de las muestras disponibles en la tarea origen y las muestras que ya se tienen en la tarea objetivo. Con esta nueva información, se aprende el modelo de la tarea objetivo, el cual se representa con los GP fv (un GP por cada variable de estado v), en las lı́neas 4 y 5 del algoritmo 4.2. Con el modelo de la tarea f , es posible aplicar un algoritmo de búsqueda de polı́tica, el cual iterativamente evalúa la polı́tica sobre el modelo de la tarea hasta encontrar una polı́tica adecuada (lı́neas 6 a 9 de algoritmo 4.2). Con la polı́tica obtenida, se interactúa nuevamente con el ambiente para obtener más tuplas, hasta que la tarea se aprenda. La sı́ntesis de muestras (algoritmo 4.3) se usa para poder generar tuplas que sean similares a la tarea objetivo. La idea general del algoritmo es usar los procesos gaussianos para aproximar un modelo de las diferencias entre las tareas origen y objetivo, y con tal diferencia 66 CAPÍTULO 4. TRANSFERENCIA CUALITATIVA Algoritmo 4.2. SST (Transferencia de muestras sintéticas) Entrada: X̃source , Ỹsource , πsource 1: π̃ ← πsource 2: Interactuar con el ambiente, aplicando π̃ para obtener muestras de la forma x̃target , ỹtarget . 3: repetir 4: X̃τ , Ỹτ ← Sintetiza (X̃source , Ỹsource , X̃target , Ỹtarget ). 5: Usar X̃τ ∪ X̃target , Ỹτ ∪ Ỹtarget para aprender el modelo de la tarea f (un GP fv por cada variable v del vector de estado) 6: repetir 7: Evaluar la polı́tica π̃ sobre f para obtener V π̃ 8: Mejorar π̃ {Se usa algoritmo de búsqueda de polı́tica, e.g. PILCO} 9: 10: 11: hasta convergencia Interactuar con el ambiente, aplicando π̃ para obtener más muestras. hasta tarea aprendida 4.2. SST (SYNTHETIC SAMPLES TRANSFER) 67 poder transformar tuplas selectas de la tarea origen. Las tuplas de la tarea origen se filtran, para desechar las tuplas que no son útiles en la tarea objetivo (lı́nea 3 del algoritmo 4.3). Para tal filtrado en esta tesis se propone un filtro simple y también es posible usar filtros como el de Lazaric (detallados en la sección 4.2.3). Se parte de aprender un GP para la función de transición de la tarea origen y un GP para la función de transición de la tarea objetivo, usando las muestras disponibles en cada caso. Se aprenden dos modelos de la función de transición, fsource y ftarget y una tercera función fτ que hace las veces de aproximador para la diferencia entre los dos primeros modelos (lı́neas 1 y 2 del algoritmo 4.3). Las muestras recolectadas durante la interacción con el ambiente servirán como muestras durante el aprendizaje del proceso gaussiano de las funciones fsource y ftarget , mientras que una tercera función latente fτ se aprenderá de las diferencias entre las funciones aprendidas evaluadas en los puntos seleccionados por el filtro (lı́neas 4 a 8 del algoritmo 4.3). Finalmente el algoritmo de sı́ntesis de muestras regresará las muestras sintéticas, donde el vector de estado corresponderá a las tuplas filtradas, pero el estado al cual se transita (s0 ) corresponderá al resultado de la transformación, aplicando fτ (lı́neas 9 a 12 del algoritmo 4.3). 4.2.3. Proceso de filtrado El proceso de filtrado sirve para desechar las tuplas de la tarea origen que no son útiles para estimar el modelo de la tarea objetivo y mantiene aquellas tuplas que aportan información útil a la tarea objetivo. Para los primeros episodios del proceso de aprendizaje, cuando el agente aún no dispone de suficientes muestras en la tarea objetivo para construir un modelo, se usan las tuplas filtradas y transferidas. En este trabajo se consideran dos enfoques para filtrar: filtro simple y filtro de Lazaric. En el primero de ellos las muestras de la tarea origen que están muy cercanas a las muestras de la tarea objetivo son ignoradas y sólo se transfieren las muestras de la tarea origen que no están cercanas a las de la tarea objetivo. Para medir la distancia entre tuplas, en el filtro simple se consideran solamente las variables de estado origen y el vector de acciones, sin 68 CAPÍTULO 4. TRANSFERENCIA CUALITATIVA Algoritmo 4.3. Sı́ntesis de muestras Entrada: X̃source , Ỹsource , X̃target , Ỹtarget , k ≤ m 1: Aprender el GP fsource , usando X̃source , Ỹsource 2: Aprender el GP ftarget , usando X̃target , Ỹtarget 3: X̃τ ← Filtrar (X̃source , Ỹsource , X̃target , Ỹtarget ) 4: para todo x̃ ∈ X̃τ hacer 5: yd = fsource (x̃) − ftarget (x̃) 6: Yd = Yd ∪ {yd } 7: fin para 8: Aprender el GP fτ , usando X̃τ ∪ X̃target , Ỹd ∪ Ỹtarget 9: para todo x̃ ∈ X̃τ hacer 10: yτ = fsource (x̃) + fτ (x̃) 11: Yτ = Yτ ∪ {yτ } 12: fin para 13: devolver X̃τ , Yτ 4.2. SST (SYNTHETIC SAMPLES TRANSFER) 69 tomar en cuenta el estado al que se transita o la recompensa obtenida. La distancia usada es la euclidiana. La idea es transferir información de la tarea origen hacia donde no se tiene información en la tarea objetivo. Si en la tarea origen existen m muestras y en la tarea objetivo existen n muestras (n << m), entonces se transfieren desde la tarea origen las m − n muestras más lejanas a las muestras de la tarea objetivo, con la finalidad de que reducir la incertidumbre en las zonas donde no se tiene información. Los detalles de este filtro se listan en el algoritmo 4.4. Algoritmo 4.4. Filtro simple Entrada: X̃source , X̃target , m , n 1: Sea d una matriz de m × n elementos 2: dij ← distancia(x̃source,i , x̃target,j ), ∀i = 1, . . . , m , ∀j = 1, . . . , n 3: Ordenar los renglones de d en orden ascendente. 4: X̃τ ← X̃source 5: repetir 6: i ← indice i en siguiente elemento dij 7: X̃τ ← X̃τ \ {x̃source,i } 8: hasta |X̃τ | = m − n 9: devolver X̃τ El segundo enfoque está basado en el algoritmo de transferencia de Lazaric, un filtro que fue originalmente propuesto para transferir entre tareas con estados continuos y acciones discretas. Se ha hecho una adaptación para aplicarlo a tareas con acciones continuas, tal como se muestra en el algoritmo 4.5. En el enfoque de Lazaric, las tareas consideradas originalmente tienen estados continuos, pero acciones discretas, en el algoritmo original las muestras son agrupadas de acuerdo a la acción tomada en cada muestra. En el tipo de tareas que se consideran en este trabajo las muestras no se pueden agrupar siguiendo la idea original, porque las acciones son continuas. En lugar de agrupar, las variables de acción son consideradas de la misma forma que las 70 CAPÍTULO 4. TRANSFERENCIA CUALITATIVA variables de estado dentro de la tupla, y se toman en cuenta para las métricas compliance y relevance, descritas en [Lazaric, 2008]. Algoritmo 4.5. Filtro de Lazaric 1: ∆k ← compliance({X̃source , Ỹsource }, {X̃target , Ỹtarget }) 2: para todo {x˜j , y˜j } ∈ {X̃source , Ỹsource } hacer ρj = relevance({x˜j , y˜j }, {X̃target , Ỹtarget }, ∆k ) 3: 4: fin para 5: X̃τ ← k∆k Tuplas tomadas de {X̃source , Ỹsource } en el porcentaje indicado por ρj La métrica task compliance mide la probabilidad de que la tarea origen S sea el modelo de donde se generan las muestras T̂hs,ai , esto se plantea en la Ecuación 4.2.1 (para un mayor detalle sobre esta métrica se puede consultar Lazaric et al. [2008]). Λcompl = 1 |Û | X P (S|T̂hs,ai ) (4.2.1) hs,ai∈Û donde Û contiene todos los pares estado-acción de las muestras de la tarea objetivo T̂ . La métrica compliance usa tanto las tuplas disponibles en la tarea origen como las de la tarea objetivo y regresa la probabilidad de que la tarea origen sea generadora de las tuplas de la tarea objetivo. Posteriormente, por cada una de las tuplas de la tarea origen, se calcula la métrica relevance, la cual usa la medida compliance previamente calculada. Finalmente, se toman de la tarea origen, aquellas tuplas cuya métrica relevance sea alta, y ρj indica el porcentaje de tuplas que se tomarán. 4.3. Resumen En este trabajo se ataca la problemática de aprendizaje por refuerzo en tareas con estados y acciones continuos. Las constribuciones principales en este trabajo son dos esquemas de transferencia de conocimiento para aprendizaje por refuerzo. El primero de ellos aprovecha la información cualitativa contenida en los hiper-parámetros de la función de transición de 4.3. RESUMEN 71 la tarea origen para ajustar la distribución a priori de las funciones de transición en la tarea objetivo. En segundo enfoque consiste en aprender una función de diferencia con la cual se hace una transformación sobre tuplas seleccionadas de la tarea origen, para ajustar la distribución a posteriori de las funciones de transición en la tarea objetivo. En el siguiente capı́tulo se presentan y discuten los experimentos realizados con los algoritmos propuestos sobre tareas relevantes para el área de aprendizaje por refuerzo. Capı́tulo 5 Experimentos En este capı́tulo se presentan los experimentos realizados para probar los dos algoritmos propuestos en esta tesis (QTL para transferencia de hiper-parametros y SST para sı́ntesis de tuplas), los cuales son aplicados sobre tareas relevantes para aprendizaje por refuerzo (péndulo invertido, auto en la montaña y cuadricóptero a helicóptero). Para la transferencia de conocimiento, lo que se busca principalmente es que el aprendizaje sea más rápido de lo que serı́a sin transferir conocimiento, mientras que la polı́tica final sea muy parecida que la aprendida sin transferencia. Ası́, con el objetivo de evaluar el funcionamiento de los algoritmos propuestos y compararlos con enfoques similares, se analizaron tres métricas claves: Desempeño final. Éste es un indicador de qué tan buena es la polı́tica final aprendida, se calcula como la recompensa acumulada promedio de los últimos 3 episodios. Recompensa total o área bajo la curva. Se mide la suma de recompensa acumulada por todos los episodios, con la cual se obtiene una idea de qué tan bien se desempeñó el agente durante todo el proceso de aprendizaje. Tiempo de convergencia. La tercera métrica es el tiempo de convergencia, con el cual se mide el tiempo en el que el agente alcanza la polı́tica final y se calcula como el número de episodios para alcanzar el 95 % del valor de desempeño final. 73 74 CAPÍTULO 5. EXPERIMENTOS En la sección 5.2 se describen las pruebas y los resultados correspondientes al algoritmo propuesto para transferencia de hiper-parametros (algoritmo QTL), mientras que en la sección 5.3 se describen los resultados de las pruebas con el algoritmo SST. 5.1. Descripción de las tareas Los resultados experimentales se muestran en tres diferentes tareas que son comúnmente usadas como pruebas de comparación entre algoritmos de aprendizaje por refuerzo y control. En todas las pruebas se repitió el procedimiento cinco veces, seleccionando aleatoriamente el estado inicial. 5.1.1. Péndulo invertido En esta tarea, un péndulo invertido debe ser balanceado y mantenido en posición vertical, como se muestra en la figura 5.1. El péndulo se encuentra fijo en un punto a un carro que se mueve a lo largo de un eje mientras una fuerza es aplicada. Este problema involucra la aplicación de acciones que temporalmente alejan el péndulo del estado objetivo y el agente tiene que aplicar dos diferentes criterios de control, uno para poner el péndulo en vertical y otro para balancearlo, por lo que no es una tarea trivial. En la formulación más común del problema, el objetivo es simplemente llevar el péndulo a la posición vertical, sin importar en qué posición esté el carro, y los estados y acciones son continuos. En nuestros experimentos, se restringe el problema a que el péndulo se mantenga en una posición vertical, pero además que el carro esté en una posición especı́fica. Además de ello, se hace con acciones continuas y estados continuos, lo cual es un escenario mucho más complejo que el original. En este escenario continuo, un estado x está formado por la posición del carro x, su velocidad ẋ, el ángulo θ del péndulo, y su velocidad angular θ̇. La función de recompensa se expresa como: 1 r(x) = exp(− bd2 ) 2 (5.1.1) 5.1. DESCRIPCIÓN DE LAS TAREAS 75 (a) Balanceo de péndulo (b) Estado objetivo Figura 5.1: La tarea de péndulo invertido consiste en balancear un péndulo que está acoplado en un punto a un carro que se desplaza a lo largo de un eje horizontal 76 CAPÍTULO 5. EXPERIMENTOS donde b es una constante escalar de la función de recompensa (para la serie de problemas probados, se fija en 0.25) y d es la distancia euclidiana entre el estado actual y el deseado, expresada como d (x, xtarget )2 = x2 + 2xl sin θ + 2l2 + 2l2 cos θ. La recompensa se mantiene cercana a cero si la distancia al péndulo al estado deseado es más grande que l = 0.6m. Se usan 8 hiper-parámetros para cada uno de los kernels Ki . Los hiper-parámetros corresponden a las escalas de longitud `21 , . . . , `2D para cada una de las D variables de estado, donde los ángulos son representados por los valores de las funciones seno y coseno del ángulo, con el objetivo de poder representar giros completos del péndulo. Hay un hiper-parámetro correspondiente a la escala de longitud del vector de acción `2F . Los últimos dos hiper-parámetros son la varianza de la señal α2 y el ruido σ2 . Por lo tanto se usan en total 32 variables libres (considerando un kernel para cada una de las cuatro variables de estado para este dominio). 5.1.2. Auto en la montaña El auto en la montaña es una tarea bien conocida en el área de aprendizaje por refuerzo. Consiste en un auto que comienza situado en el valle entre dos colinas y el agente debe aprender una estrategia para llevar el auto hasta la cima de la colina en el lado derecho. El auto no puede subir aplicando su máxima aceleración, ası́ que la estrategia general a aprender es ganar inercia subiendo y bajando de la colina que está a la izquierda, lo cual implica alejarse del objetivo antes de alcanzarlo. En la Figura 5.2 se muestra una ilustración de esta tarea. Este problema fue planteado originalmente por Sutton and Barto [1998] usando variables discretas para las acciones (izquierda, neutral, derecha), y es usado hasta la fecha como un problema de referencia y comparación en los trabajos actuales de aprendizaje por refuerzo [Rasmussen and Kuss, 2004, Ammar et al., 2012, Martı́n H et al., 2011, Hasselt, 2011]. En nuestras pruebas, el problema se formula usando espacios de estado y acción continuos. El estado del agente es un vector x = (x, ẋ), donde x es la posición en el eje horizontal y ẋ es la velocidad del auto en el plano horizontal. La acción a es una variable que corresponde a la fuerza aplicada al carro. El estado inicial es x0 = (−0.5, 0). El estado objetivo se plantea 5.1. DESCRIPCIÓN DE LAS TAREAS 77 Figura 5.2: La tarea del auto en la montaña consiste en un auto situado entre dos montañas, que tiene que llegar a la cima de la derecha. El auto no tiene suficiente potencia como para subir directamente y tiene que aprender a oscilar entre las montañas para ganar suficiente inercia y ası́ llegar a su objetivo. regularmente como x > 0.5, sin embargo, en estos experimentos decidimos considerar un estado objetivo más difı́cil, que consiste en detener el carro tan pronto alcanza la colina del lado derecho, ası́ que el estado objetivo es xtarget = (0.5, 0). La función de recompensa se expresa como se indica en la Eq. 5.1.1 donde b se fija con un valor de 0.25 y d = x. El agente recibe una recompensa nula en cada paso que no se alcanza el objetivo. Para este experimento, se considera la tarea origen tal como se planteó originalmente en [Sutton and Barto, 1998] con las siguientes ecuaciones de posición y velocidad: xt+1 = xt + ẋt+1 ∆t (5.1.2) ẋt+1 = ẋt + 0.001at − 0.0025 cos(3xt ) (5.1.3) donde at es la acción, en el rango [−1, 1], la cual es multiplicada por la constante 0.001 propuesta originalmente en [Sutton and Barto, 1998] para aumentar o disminuir la velocidad. El elemento 0.0025 cos(3xt ) se utiliza para disminuir la velocidad en función de la posición del carro, para simular la gravedad debida a la pendiente. Por simplicidad, en los cálculos se considera ∆t = 1. Para las tareas objetivo, la fuerza de la que el auto dispone se modifica en un 50 %, 150 % and 300 % con respecto a la tarea original. Se usan 5 hiper-parámetros para cada uno de los 2 kernels Ki . Los hiper-parámetros corresponden a las escalas de longitud `21 , . . . , `2D para cada una de las D variables de estado. 78 CAPÍTULO 5. EXPERIMENTOS Figura 5.3: La transferencia cuadricóptero - helicóptero consiste en aprender a controlar un cuadricóptero y transferirlo a un helicóptero, con diferente dinámica. Hay un hiper-parámetro correspondiente a la escala de longitud del vector de acción `2F . Los últimos dos hiper-parámetros son la varianza de la señal α2 y el ruido σ2 . Por lo tanto se usan en total 10 variables libres (considerando un kernel para cada una de las dos variables de estado para este dominio). 5.1.3. Cuadricóptero a helicóptero La tarea de controlar un vehı́culo de ala giratoria1 es el experimento más complejo e interesante que se aborda en este trabajo. El objetivo es despegar de una posición en tierra hacia una posición deseada en el espacio, especificada por coordenadas tridimensionales (xtarget , ytarget , ztarget ). El agente debe aprender a despegar, enfrentar el efecto suelo 2 , alcanzar una posición especı́fica y mantenerse estable en esa posición. 1 Los helicópteros y multicópteros son aeronaves que están en la categorı́a de ala giratoria. Pueden despegar verticalmente y hacer vuelo estacionario. 2 El efecto suelo es un efecto aerodinámico debido al aire que golpea el suelo cuando la aeronave está cercana a la superficie, lo cual hace difı́cil el despegue y control de la aeronave. 5.1. DESCRIPCIÓN DE LAS TAREAS 79 Para probar la transferencia, la tarea se aprende en un cuadricóptero y después se transfiere a un helicóptero, como se muestra en la figura 5.3. El objetivo de la prueba es transferir conocimiento entre tareas donde se usan dos tipo de vehı́culo diferentes, ya que aunque ambos son parecidos, tienen diferente dinámica. Cabe mencionar que en ambos casos las variables de estado y acción son las mismas y la difı́cultad es muy similar (el tiempo de aprendizaje promedio tabula rasa es de 24 episodios en ambos casos). En cuanto a la transferenica, ésta es la tarea más desafiante para el enfoque propuesto porque la tarea de estabilización de vuelo es una tarea de precisión. El control de las aeronaves es una tarea de precisión, y desde el punto de vista de RL, la dificultad viene también por el número de variables de estado y acción, ası́ como el número de episodios requeridos para aprender. Se debe hacer notar que aunque existen trabajos previos sobre RL para aeronaves, esos trabajos se centran en aprender maniobras a partir de varios ejemplos ejecutados por un experto [Abbeel et al., 2010]. Por el contrario, el trabajo que aquı́ se presenta, no requiere del vuelo previo realizado por un experto. Aún cuando ambas aeronaves tienen las mismas variables de estado y acción, no se comportan de la misma manera debido a su diferente aerodinámica. El cuadricóptero tiene cuatro propelas que generan la potencia para elevarlo, el cambio en la velocidad de las propelas induce un cambio en la altitud del cuadricóptero y también un cambio en su posición. En el cuadricóptero, la diferencia de torque generada por los motores es usada para cambiar el ángulo yaw. Por otro lado, el helicóptero tiene un rotor principal que lo hace elevarse y consigue fuerza transicional e inclinación cambiando el ángulo de las palas del rotor principal a medida que rotan alrededor del eje principal. El helicóptero también tiene un rotor de cola que compensa el torque generado por el rotor principal. Ası́ que para controlar el ángulo yaw el helicóptero cambia el ángulo de las palas en el rotor de cola. Tanto el cuadricóptero como helicóptero tienen un vector de estado con 12 variables, que comprenden su posición (x, y, z), orientación (roll φ, pitch θ, yaw ω), velocidad (ẋ, ẏ, ż) y velocidad angular (φ̇, θ̇, ω̇). En el experimento propuesto, se define la posición objetivo como [x, y, z] = [−1, −1, 1.5], comenzando en [x, y, z] = [0, 0, 0]. La función de recompensa sigue la 80 CAPÍTULO 5. EXPERIMENTOS Eq. 5.1.1, con = 0.25b y d evaluada como d (x, xtarget )2 = x2 + y 2 + z 2 . Se usan 17 hiper-parámetros para cada uno de los kernels Ki . Los hiper-parámetros corresponden a las escalas de longitud `21 , . . . , `2D para cada una de las D variables de estado. Hay un hiper-parámetro correspondiente a la escala de longitud del vector de acción `21 , . . . , `2F . Los últimos dos hiper-parámetros son la varianza de la señal α2 y el ruido σ2 . Para propósitos de simulación se usó el software V-REP [Robotics, 2013], que es un simulador de robótica, donde se corren la dinámica y el control del helicóptero y cuadricóptero. 5.2. Transferencia de hiper-parámetros Uno de los enfoques que se presenta en esta tesis, se centra en la transferencia de hiperparámetros y está basado en la transferencia y posterior acondicionamiento de los parámetros que representan una distribución de funciones. El objetivo es que partiendo de una distribución de las funciones de transición en la tarea origen, ésta se pueda usar para aproximar una distribución de funciones de transición que se ajustan a la tarea objetivo. En otras palabras, en esta primera parte de la solución presentada en esta tesis, se ataca el problema extrayendo caracterı́sticas de las funciones de transición de la tarea origen e incorporándolas gradualmente a la tarea objetivo, con la finalidad de que ésta se aprenda más rápido. Los experimentos aquı́ presentados, contrastan el desempeño de la transferencia cualitativa (QTL) comparándola con PILCO (tabula rasa) y con las transferencias simples de hiper-parámetros y polı́tica. Se llevaron a cabo experimentos con diferentes valores para γ. Con γ = 0, lo cual es equivalente a aprender con PILCO, se muestra cuánto más rápido se puede aprender transfiriendo conocimiento y sirve también para notar la presencia de transferencia negativa, en caso de existir. γ = 1 es un caso en el cual los hiper-parámetros se transfieren y se fijan durante toda la tarea objetivo, lo cual es equivalente a asumir que las tareas origen y objetivo tienen exactamente la misma distribución a priori. También se probó con un valor intermedio de γ = 0.5 y un valor de γ = 0.9 que asigna mucho peso a los valores de los hiper-parámetros de la tarea origen. Con esos valores, es posible observar el comportamiento de la transferen- 5.2. TRANSFERENCIA DE HIPER-PARÁMETROS 81 cia a distintas tasas. Las transferencias simples de hiper-parámetros y polı́tica consisten en transferir respectivamente una de ellas a la tarea objetivo. Para la actualización bayesiana, después del primer episodio, los hiper-parámetros son fusionados con los hiper-parámetros aprendidos por maximización de evidencia de las muestras, como lo indican las ecuaciones de 4.1.4 a 4.1.7. Los hiper-parámetros del kernel en la tarea origen fueron inicializados como se propone en [Deisenroth and Rasmussen, 2011]. El conjunto inicial de entrenamiento para la función de transición fue generado aplicando acciones tomadas uniformenente de [−umax , umax ]. 5.2.1. Péndulo invertido La tarea origen consiste en balancear un péndulo de masa 0.5 kg. mientras que las tareas objetivo corresponden a masas de 0.8 kg., 1.0 kg., 1.5 kg. y 2.0 kg. respectivamente. En la figura 5.5 y tabla 5.1 se muestra una comparación de las curvas de aprendizaje para las tareas objetivo, donde se grafican PILCO y QTL con diferentes valores de γ y se comparan con la actualización bayesiana. También se grafican las curvas de aprendizaje para la transferencia únicamente de la polı́tica y para la transferencia de hiper-parámetros, fijando su valor (sin regla de actualización). El eje horizontal muestra el número de episodios o de interacciones con el ambiente, mientras que el eje vertical muestra la recompensa total, que es calculada como la recompensa acumulada r(x) obtenida en cada paso del episodio. QTL con el enfoque bayesiano se desempeña mejor que los otros métodos en la mayorı́a de las tareas. Este experimento muestra que la transferencia de conocimiento que se propone en este trabajo puede reducir significativamente el tiempo empleado en el aprendizaje. Cuando la tarea objetivo es similar a la tarea origen (en este caso, masas similares), QTL muestra una clara mejora sobre el aprendizaje sin transferencia. Cuando la tarea objetivo es menos similar (mucho mayor masa), la mejora es mucho más notable. En las tareas de 1.5 kg y 2.0 kg. QTL converge a una polı́tica adecuada mucho más rápido que tabula rasa. El desempeño de la polı́tica aprendida es medido como el promedio de la recompensa acumulada en los últimos 82 CAPÍTULO 5. EXPERIMENTOS 45 40 Recompensa total 35 30 25 20 PILCO (γ = 0) Transferencia de hiper−parámetros QTL−PILCO (γ = 0.9) QTL−PILCO (γ = 0.5) QTL−PILCO (γ = 1) QTL−PILCO (Bayesiano) Transferencia de política 15 10 5 0 1 2 3 4 5 6 7 Episodios 8 9 10 11 12 1 2 3 4 5 6 7 Episodios 8 9 10 11 12 Desviación estándar 8 6 4 2 0 (a) Tarea objetivo: Masa del péndulo 0.8Kg 45 40 Recompensa total 35 30 25 PILCO (γ = 0) Transferencia de hiper−parámetros QTL−PILCO (γ = 0.9) QTL−PILCO (γ = 0.5) QTL−PILCO (γ = 1) QTL−PILCO (Bayesiano) Transferencia de política 20 15 10 5 0 2 4 6 8 10 12 8 10 12 Desviación estándar Episodios 6 4 2 0 2 4 6 Episodios (b) Tarea objetivo: Masa del péndulo 1.0Kg Figura 5.4: Curvas de aprendizaje para tareas con masa de 0.8Kg y 1.0Kg. 5.2. TRANSFERENCIA DE HIPER-PARÁMETROS 83 PILCO (γ = 0) Transferencia de hiper−parámetros QTL−PILCO 40 QTL−PILCO (γ = 0.5) QTL−PILCO (γ = 1) 35 QTL−PILCO (Bayesiano) Transferencia de política Recompensa total 30 25 20 15 10 5 Desviación estándar 0 2 4 6 8 10 12 14 Episodios 16 18 20 22 24 2 4 6 8 10 12 14 Episodios 16 18 20 22 24 8 6 4 2 0 (a) Tarea objetivo: Masa del péndulo 1.5Kg 35 PILCO (γ = 0) Transferencia de hiper−parámetros 30 QTL−PILCO (γ = 0.9) QTL−PILCO (γ = 0.5) QTL−PILCO (γ = 1) Recompensa total 25 QTL−PILCO (Bayesiano) Transferencia de política 20 15 10 5 Desviación estándar 0 5 10 15 Episodios 20 25 5 10 15 Episodios 20 25 10 5 0 (b) Tarea objetivo: Masa del péndulo 2.0Kg Figura 5.5: Curvas de aprendizaje para tareas con masa de 1.5Kg y 2.0Kg 84 CAPÍTULO 5. EXPERIMENTOS tres episodios del proceso de aprendizaje. El método de transferencia propuesto tuvo el mejor desempeño en tres de las cuatro tareas, como se puede apreciar en la tabla 5.1. Aún en el cuarto caso, la polı́tica aprendida por transferencia resuelve la tarea de manera adecuada y obtiene un alto desempeño, cuya diferencia es menor a una unidad con respecto al aprendizaje de PILCO. Eso significa que las polı́ticas finales son muy similares o al menos obtienen casi las mismas recompensas acumuladas. Tanto QTL, con γ = 0.9 como el enfoque bayesiano, convergen más rápido que PILCO. El resultado más evidente es cuando la masa del péndulo es de 2.0 kg., donde QTL converge 13 episodios antes que el aprendizaje sin transferencia, como se puede ver en la tabla 5.1 y Fig. 5.5. El tiempo de convergencia se calcula como el número de episodios para alcanzar el 95 % del valor de desempeño. Para QTL con γ = 1 y la simple transferencia de polı́tica, el algoritmo no converge a una polı́tica después de 30 episodios. Los valores de los hiper-parámetros que se aprenden por maximización de evidencia (como lo hace PILCO) pueden cambiar drásticamente durante las primeras iteraciones del proceso de aprendizaje, debido al número reducido de muestras. Sin embargo, con el enfoque propuesto en este trabajo, la información de la tarea origen se fusiona gradualmente con los hiperparámetros aprendidos en la tarea objetivo, y eso estabiliza los valores de los hiper-parámetros durante los primeros episodios, como se ve en la figura 5.6. De esta manera, el proceso de aprendizaje se puede centrar más en el aprendizaje de la polı́tica que en el aprendizaje del modelo de la tarea (función de transición). La recompensa total es un indicador de qué tan bien el agente está resolviendo la tarea desde el principio hasta el final del proceso de aprendizaje. Lo que se busca en la mayorı́a de las tareas, es que el agente evite los errores (obteniendo altas recompensas) no sólo al terminar el aprendizaje, sino durante todo el proceso de aprendizaje. El agente no solamente deberı́a aprender cometiendo pocos errores sino también es deseable que al terminar el proceso tenga un alto desempeño. El procesamiento basado en inferencia bayesiana obtuvo una alta recompensa acumulada y un alto desempeño en la mayorı́a de las tareas, y es preferible al factor de olvido si no se tiene experiencia en la tarea. Pero, cuando se conoce la tarea, es 5.2. TRANSFERENCIA DE HIPER-PARÁMETROS 85 8 Valor de hiper−parámetro 6 4 2 0 −2 −4 −6 −8 2 4 6 8 10 12 14 Episodios (a) Apredizaje tabula rasa 8 Valor de hiper−parámetro 6 4 2 0 −2 −4 −6 −8 2 4 6 8 10 12 14 Episodios (b) Aprendizaje por transferencia QTL γ = 0.9 8 Valor de hiper−parámetro 6 4 2 0 −2 −4 −6 −8 2 4 6 8 10 12 14 Episodios (c) Aprendizaje por transferencia QTL bayesiano Figura 5.6: Convergencia del valor de los hiper-parámetros para la tarea de péndulo invertido, transfiriendo desde 0.5 kg. a 0.8 kg. En esta gráfica se pueden observar cómo los valores de los hiper-parámetros se estabilizan más rápido cuando se usa QTL con factor de olvido (b) y QTL bayesiano (c) que cuando se aprende tabula rasa (a), lo cual permite que el aprendizaje se centre en la búsqueda de la polı́tica y no los valores de los hiper-parámetros. 86 CAPÍTULO 5. EXPERIMENTOS Tabla 5.1: Desempeño final, recompensa acumulada y tiempo de convergencia para transferencia en tareas de péndulo invertido. El tiempo de convergencia es medido en el número de episodios que toma alcanzar el 95 % del desempeño. El desempeño final es medido promediando los últimos tres episodios (NC significa que no hubo convergencia y la polı́tica no se aprendió). Enfoque 0.8 kg. 1.0 kg. 1.5 kg. 2.0 kg. PILCO (γ = 0) 36.95/228.47/9 35.53/206.09/10 33.32/218.63/22 29.71/204.41/25 37.08/236.59/9 33.04/185.99/11 32.98/260.33/22 29.66/240.98/25 37.55/287.44/7 34.97/236.20/9 32.84/589.57/9 29.79/527.65/12 37.20/240.86/9 34.50/217.40/10 32.78/415.95/20 29.90/366.68/21 37.06/246.41/9 34.59/212.92/10 NC/146.44/Desconocido NC/117.63/Desconocido 37.57/272.91/8 35.66/236.43/9 32.68/602.55/10 29.97/539.79/12 35.77/214.35/10 32.81/156.76/11 NC/173.90/Desconocido NC/150.64/Desconocido Transferencia de Hiper-parámetros QTL γ = 0.9 QTL γ = 0.5 QTL γ =1 QTL Bayesiano Transferencia de polı́tica posible aprovechar el parámetro γ para decidir con qué tasa se va a transferir. Por ejemplo, cuando se tiene la experiencia para reconocer que dos tareas no se comportan igual o se sabe que la función de transición no tiene las mismas caracterı́sticas cualitativas (por ejemplo cuando la tarea objetivo tiene mucho más ruido que la origen), entonces es preferible ajustar γ en un valor muy bajo, para transferir muy poca información. 5.2. TRANSFERENCIA DE HIPER-PARÁMETROS 5.2.2. 87 Auto en la montaña La transferencia en aprendizaje por refuerzo no siempre da resultados favorables. En este experimento se muestra un caso en el que la transferencia no ofrece mejores resultados que el aprendizaje desde cero. Los resultados en la figura 5.7 muestran una mejora en los casos en los que se transfiere hacia tareas donde el auto tiene 50 % y 150 % de potencia, rescpectivamente. Sin embargo, para la tarea donde el auto tiene suficiente potencia para ascender directamente (300 %) sin tener que oscilar para aumetar su inercia, el resultado no es favorable. En tal caso se tiene transferencia negativa, ya que la curva de aprendizaje es peor comparada con tabula rasa. Esto se debe a que la función de transición (y en general a toda la distribución de funciones de transición) no son similares entre las tareas origen y objetivo. La transferencia negativa es un fenómeno que puede presentarse cuando se hace transferencia. Existen algunas herramientas que podrı́an ayudar a predecir cuando la transferencia será negativa, usando sólo la información disponible, como se vio con las métricas task compliance y task relevance de la Sección 4.2.3. Aplicando esta métrica a las tres tareas (ver tabla 5.2) se puede observar que la última tarea es la menos similar. La métrica task compliance puede usarse cuando se tienen muestras disponibles tanto de la tarea origen como objetivo para determinar si la transferencia podrı́a llegar a ser negativa, ya que un bajo valor de Λcompl significa que las distribuciones de las funciones de transición no son tan similares. Sin embargo, no es fácil definir un umbral, ya que aún cuando los valores altos indicarı́an alta similitud y los bajos poca similitud entre dos tareas, el éxito de la transferencia depende también de otros factores, como la estrategia de exploración, si las tuplas obtenidas son cercanas a la solución, la calidad del algoritmo de búsqueda de polı́tica entre otras. En este trabajo se asume que inicialmente no se tienen tuplas de la tarea objetivo, por lo que las primeras tuplas disponibles se generan después del primer episodio. 88 CAPÍTULO 5. EXPERIMENTOS 6 Recompensa total 5 4 3 2 PILCO (γ = 0) QTL−PILCO (γ = 0.9) QTL−PILCO (γ = 0.5) QTL−PILCO (γ = 0.1) QTL−PILCO (Bayesiano) 1 0 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 Episodios Desviación estándar 3 2 1 0 1 2 3 4 5 Episodios (a) 50 % de potencia en motor 30 Recompensa total 25 20 15 10 PILCO (γ = 0) QTL−PILCO (γ = 0.9) QTL−PILCO (γ = 0.5) QTL−PILCO (γ = 0.1) QTL−PILCO (Bayesiano) 5 0 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 Desviación estándar Episodios 10 5 0 1 2 3 4 5 Episodios (b) 150 % de potencia en motor Figura 5.7: Auto en la montaña. Las curvas de aprendizaje para la tarea objetivo, con 50 %, 150 % and 300 % de la potencia de motor en la tarea original. (c) Ilustra una tarea donde la transferencia no mejora el aprendizaje, en tal caso la medición de diferencia entre tareas ayuda a saber si es mejor aprender desde cero que transfiriendo. 5.2. TRANSFERENCIA DE HIPER-PARÁMETROS 89 35 30 Recompensa total 25 20 15 PILCO (γ = 0) QTL−PILCO (γ = 0.9) QTL−PILCO (γ = 0.5) QTL−PILCO (γ = 0.1) QTL−PILCO (Bayesiano) 10 5 0 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 Desviación estándar Episodios 10 5 0 1 2 3 4 5 Episodios (a) 300 % de potencia en motor Figura 5.7: (Continuación) Tabla 5.2: Métrica task compliance en las tres tareas objetivo para el problema del auto en la montaña. Potencia Task compliance 50 % 0.64 150 % 0.76 300 % 0.34 90 CAPÍTULO 5. EXPERIMENTOS 5.2.3. Cuadricóptero a helicóptero Este experimento es el que involucra más variables y donde la tarea a realizarse es más complicada. El aprendizaje inicial se hace en un cuadricóptero y se transfiere a un helicóptero, como se describe en la sección 5.1.3. Aún cuando la transferencia de helicóptero a cuadricóptero también es posible, el objetivo del experimento es simplemente mostrar que el método es útil para la transferencia de aprendizaje entre vehı́culos similares y por limitaciones de tiempo se decidió considerar como experimentos futuros la transferencia desde helicóptero hacia cuadricóptero, ası́ como otras aeronaves que comparten las mismas variables de acción y estado. En los experimentos realizados, tanto PILCO como el algoritmo propuesto aprenden una mejor polı́tica final que el autopiloto del simulador V-REP, que es uno de los simuladores más utilizados para probar tareas de robótica. En ambos casos también, el agente aprende a compensar la inercia del helicóptero inclinando la aeronave antes de que el helicóptero alcance la posición objetivo, en contraste con el autopiloto, que tiende a pasarse de la posición objetivo y luego regresar. El enfoque propuesto converge a una polı́tica correcta en 19 episodios, mientras que PILCO lo hace en 24 episodios, lo cual es una reducción de tiempo del 20.8 %. Los detalles de las curvas de aprendizaje se muestran en la Figura 5.8 y en la Tabla 5.3. La transferencia en este escenario, con alto grado de dificultad, muestra empı́ricamente que el enfoque propuesto es útil en problemas reales con alta dimensionalidad y donde la función de transición es muy sensible a variaciones pequeñas en las acciones (un pequeño cambio en una variable de control puede generar un gran cambio de estado). En resumen, los resultados obtenidos de los experimentos son los siguientes: Transferir información sobre las propiedades generales de la función de transición de estado (en la forma de hiper-parámetros) y la fusión gradual geométrica o bayesiana puede reducir significativamente los tiempos de convergencia del algoritmo de aprendizaje en la tarea objetivo. La incorporación gradual de los hiper-parámetros desde la tarea origen provee valores más estables para los hiper-parámetros de la tarea objetivo desde los primeros episodios, 5.2. TRANSFERENCIA DE HIPER-PARÁMETROS 91 Tabla 5.3: Métricas para transferencia en la tarea cuadricóptero - helicóptero. El tiempo de convergencia es medido en el número de episodios que toma alcanzar el 95 % del desempeño final. El desempeño es el total de recompensa acumulada promedio de los últimos tres episodios. Enfoque Tiempo de convergencia Desempeño Recompensa acumulada PILCO (γ = 0) 24 132.5 1890.4 QTL (γ = 0.1) 21 130.61 2096.8 QTL (γ = 0.5) 22 130.95 2123.9 QTL (γ = 0.9) 21 131.53 2153.5 QTL bayesiano 19 131.99 2225.4 140 120 Recompensa total 100 80 60 V−REP Autopiloto (Referencia) PILCO (γ = 0) QTL−PILCO (γ = 0.9) QTL−PILCO (γ = 0.5) QTL−PILCO (γ = 0.1) QTL−PILCO (Bayesiano) 40 20 Desviación estándar 0 5 10 15 Episodios 20 25 30 5 10 15 Episodios 20 25 30 20 15 10 5 0 Figura 5.8: Curvas de aprendizaje para la tarea de helicóptero. Aprendizaje con PILCO y con transferencia desde la tarea de cuadricóptero. Se muestra la recompensa adquirida con V-REP como referencia. 92 CAPÍTULO 5. EXPERIMENTOS lo cual permite que el proceso de aprendizaje se centre en aprender la polı́tica y no tanto en el modelo. Esto en general acelera el aprendizaje, como se muestra en la figura 5.6. Este enfoque es útil para varias tareas, incluyendo aquellas con muchas variables en los vectores de estado y acción. En casi todas las pruebas, el enfoque bayesiano genera mejores resultados que usar factor de olvido. Por otro lado, el método de factor de olvido permite ajustar de manera manual cuánto peso se da a la información disponible de la tarea origen. 5.3. Sı́ntesis de tuplas En esta sección se muestran los experimentos realizados para evaluar el funcionamiento del algoritmo SST, con el cual se sintetizan muestras para ajustar la función de transición estados de la tarea objetivo. Para realizar estos experimentos se utilizaron las mismas tareas descritas en la sección anterior, las cuales son el péndulo invertido, el auto en la montaña y cuadricóptero a helicóptero. Para evaluar el funcionamiento del algoritmo propuesto basado en sı́ntesis de tuplas también se consideraron las mismas métricas que en la sección anterior (desempeño final, recompensa total y el tiempo de convergencia). Los algoritmos que se comparan en esta sección se listan a continuación. Algoritmos del estado del arte: PILCO. Algoritmo del estado del arte que se toma como referencia tabula rasa. Transferencia de todo el conjunto de tuplas adquirido en la tarea origen. Transferencia de un conjunto filtrado de tuplas utilizando el algoritmo propuesto por Lazaric et al. [2008], el cual fue adaptado para manejar acciones continuas (Filtro de Lazaric). Combinación de algoritmos de transformación y filtrado de tuplas (tanto propuestos como del estado del arte): 5.3. SÍNTESIS DE TUPLAS 93 Transferencia de todas las muestras transformadas utilizando el algoritmo propuesto en esta tesis (SST). Transferencia de un conjunto filtrado de tuplas utilizando el algoritmo propuesto en esta tesis y el algoritmo de transformación de tuplas propuesto en esta tesis (Filtro Simple + SST). Transferencia de un conjunto filtrado de tuplas utilizando el algoritmo propuesto por Lazaric y el algoritmo de transformación de tuplas propuesto en esta tesis (Filtro de Lazaric + SST). Estos experimentos permiten ver cuál es el desempeño de la transformación propuesta (SST) comparando la simple transformación de las tuplas y los resultados de combinarla con diferentes métodos de filtrado. También se compara con otros métodos en el estado del arte de transferencia, como el filtro de Lazaric. 5.3.1. Péndulo invertido Se probaron los algoritmos mencionados en la sección anterior con la tarea del péndulo invertido, la cual se describe en la sección 5.1.1 de esta tesis. La tarea origen consiste en balancear un péndulo con una masa de 0.5 kg, mientras que en las tareas objetivo las masas corresponden a 0.25 kg (0.5x, donde x es el peso del péndulo de la tarea original), 1 kg (2x), 1.5 kg (3x) y 2 kg (4x), respectivamente. En esta prueba se decidió agregar la tarea de 0.25 kg. con el objetivo de probar el comportamiento de la transferencia hacia tareas donde la masa del péndulo fuera inferior a la tarea original, repitiendo la prueba también para PILCO y QTL bayesiano. En las figuras 5.9 y 5.10 se muestra el comportamiento del aprendizaje para las tareas con los distintos valores de masa evaluados. En estas figuras se ilustra la recompensa total obtenida por episodio para cada uno de los algoritmos, los cuales se evalúan mediante las tres métricas descritas anteriormente y mostradas en las siguientes tablas. 94 CAPÍTULO 5. EXPERIMENTOS 35 30 Recompensa total 25 20 PILCO Transferencia de todas las tuplas SST todas las tuplas Filtro simple Filtro de Lazaric Filtro de Lazaric + SST Filtro simple + SST 15 10 5 Desviación estándar 0 1 2 3 4 5 6 7 Episodios 8 9 10 11 12 1 2 3 4 5 6 7 Episodios 8 9 10 11 12 6 4 2 0 (a) Masa 0.25 kg 40 35 Recompensa total 30 25 PILCO Transferencia de todas las tuplas SST todas las tuplas Filtro simple Filtro de Lazaric Filtro de Lazaric + SST Filtro simple + SST 20 15 10 5 0 2 4 6 8 10 12 8 10 12 Episodios Desviación estándar 10 5 0 2 4 6 Episodios (b) Masa 1.0 kg Figura 5.9: Curvas de aprendizaje para tareas con masas incrementadas en 0.5x y 2x con respecto a la masa original (0.5 kg.) 5.3. SÍNTESIS DE TUPLAS 95 PILCO Transferencia de todas las tuplas 40 SST todas las tuplas Filtro simple 35 Filtro de Lazaric Filtro de Lazaric + SST Recompensa total 30 Filtro simple + SST 25 20 15 10 5 Desviación estándar 0 2 4 6 8 10 12 14 Episodios 16 18 20 22 24 2 4 6 8 10 12 14 Episodios 16 18 20 22 24 8 6 4 2 0 (a) Masa 1.5 kg PILCO 35 Transferencia de todas las tuplas SST todas las tuplas Filtro simple 30 Filtro de Lazaric Filtro de Lazaric + SST Filtro simple + SST Recompensa total 25 20 15 10 5 0 5 10 15 Episodios 20 25 5 10 15 Episodios 20 25 Desviación estándar 10 5 0 (b) Masa 2.0 kg Figura 5.10: Curvas de aprendizaje para tareas con masas incrementadas en 3x y 4x con respecto a la masa original (0.5 kg.) 96 CAPÍTULO 5. EXPERIMENTOS En la tabla 5.4 se muestran los resultados de la recompensa acumulada obtenida por los algoritmos listados anteriormente para cada tarea. A partir de esta tabla se pueden listar las siguientes observaciones sobre los algoritmos evaluados. Haciendo transferencia de todas las tuplas de una tarea a otra, sin transformar ni filtrar las tuplas, se obtiene la recompensa acumulada más baja en comparación con todos los algoritmos listados en la tabla 5.4. Esto se debe a que las tareas origen y objetivo no son idénticas y se está transfiriendo mucha información que no concuerda con el modelo de la tarea objetivo. En otras palabras, se está forzando a la tarea objetivo a aprender un modelo erróneo, por lo que la transferencia es negativa. Utilizando el enfoque de sı́ntesis de tuplas propuesto en esta tesis (SST), aplicado sobre todas las tuplas de la tarea origen, se obtienen mejores resultados que con el algoritmo de PILCO y con la transferencia de todas las tuplas sin transformar ni filtrar. Esto significa que sintetizando tuplas (SST) se está aprendiendo más rápido que el aprendizaje tabula rasa. Sin embargo, no se mejoran los resultados que se obtienen utilizando el filtro de muestras de Lazaric. El filtrado de tuplas propuesto por Lazaric no supera los resultados obtenidos al agregar la transformación de tuplas (SST). Eso demuestra que la transformación de tuplas es útil independientemente de qué tan complejo sea el filtrado. Se realizaron las siguientes pruebas, que comparan la combinación del algoritmo de filtrado de tuplas de Lazaric con el algoritmo de transformación propuesto en esta tesis (SST). Se hicieron pruebas con el filtro de Lazaric (adaptado para tareas continuas) para seleccionar tuplas de la tarea origen y después transformarlas con el algoritmo propuesto en este trabajo (SST). Con esta combinación de transformación y filtrado de tuplas se obtienen los mejores resultados en 3 de 4 pruebas (346.35/5 para 0.5x, 383.37/6 para 2x y 616.58/14 para 4x). Se experimentó con la combinación del algoritmo de transformación propuesto en este trabajo (SST) con el algoritmo de filtrado simple propuesto también en este trabajo, 5.3. SÍNTESIS DE TUPLAS 97 Tabla 5.4: Recompensa total en la transferencia para la tarea de péndulo invertido. Algoritmo evaluado 0.5x 2x 3x 4x. PILCO (sin transferencia) 216.00 206.10 218.63 204.42 QTL (bayesiano) 267.56 236.43 602.55 539.79 Transferencia de todas las tuplas 42.10 48.16 100.25 88.46 Filtro de Lazaric 336.70 359.73 560.69 605.71 Sı́ntesis de tuplas 200.58 217.43 256.90 237.00 Filtro simple 296.41 342.51 541.38 564.21 Filtro de Lazaric + SST 346.35 383.37 613.58 616.58 Filtro simple + SST 344.99 380.94 641.18 613.44 con lo que se obtienen mejores resultados que utilizando los algoritmos de PILCO, filtro de tuplas de Lazaric, transferencia de todas las tuplas o los filtros aplicados por separado. En general, utilizando la combinación de algoritmos de transformación (SST) y filtrado de tuplas (Filtro de Lazaric + SST y filtro simple + SST) se obtienen las curvas que crecen más rápido. En la tabla 5.5 se muestran los resultados del desempeño final obtenidos con los algoritmos evaluados. El desempeño final no varı́a significativamente, en general el desempeño final es el mismo entre todos los algoritmos. El único caso que tiene una diferencia marcada es cuando se transfieren todas las tuplas, porque en ese caso se está introduciendo información errónea al agente en la tarea objetivo. En la Tabla 5.6 se muestran los resultados con respecto al tiempo de convergencia de los algoritmos evaluados. A partir de estos resultados se puede observar que las combinaciones de transformación y filtrado de tuplas (Filtro de Lazaric + SST y Filtro simple + SST) obtienen los valores más altos de recompensa acumulada, tienen muy buenos tiempos de convergencia, mientras que son competitivos en el desempeño final. 98 CAPÍTULO 5. EXPERIMENTOS Tabla 5.5: Desempeño final en la transferencia en la tarea de péndulo invertido. Algoritmo evaluado 0.5x 2x 3x 4x. PILCO (sin transferencia) 33.10 35.54 33.33 29.72 QTL (bayesiano) 33.62 35.66 32.68 29.97 Transferencia de todas las tuplas 5.36 4.61 5.87 3.75 Filtro de Lazaric 33.00 33.61 32.07 29.36 Sı́ntesis de tuplas 32.01 34.61 31.58 29.81 Filtro simple 33.23 34.06 31.95 28.66 Filtro de Lazaric + SST 33.06 34.00 31.19 29.19 Filtro simple + SST 33.15 33.45 31.79 28.85 Tabla 5.6: Tiempo de convergencia en la transferencia en la tarea de péndulo invertido. Todos los algoritmos convergen, excepto cuando se transfieren todas las tuplas, indicado como NC (no convergencia). Algoritmo evaluado 0.5x 2x 3x 4x. PILCO (sin transferencia) 8 10 22 25 QTL (bayesiano) 8 9 10 12 Transferencia de todas las tuplas NC NC NC NC Filtro de Lazaric 6 7 15 13 Sı́ntesis de tuplas 10 10 14 25 Filtro simple 7 8 15 15 Filtro de Lazaric + SST 5 6 13 14 Filtro simple + SST 6 5 21 14 5.3. SÍNTESIS DE TUPLAS 99 Tabla 5.7: Desempeño final para la transferencia en la tarea del auto en la montaña. 5.3.2. Algoritmo 50 % 150 % 300 % PILCO (sin transferencia) 3.01 21.94 32.60 QTL (bayesiano) 5.55 23.64 25.31 Transferencia de todas las tuplas 2.54 5.22 6.87 Filtro de Lazaric 5.23 20.47 27.64 Sı́ntesis de tuplas 5.31 24.74 30.41 Filtro simple 4.32 24.32 30.23 Filtro de Lazaric + SST 5.84 24.23 32.34 Filtro simple + SST 5.30 25.13 32.19 Auto en la montaña En esta sección se muestran los resultados obtenidos para la tarea del auto en la montaña, la cual se describe con mayor detalle en la sección 5.1.2 de esta tesis. Para estas pruebas se considera la misma tarea origen que se especifica en [Sutton and Barto, 1998]. Como tareas objetivo, la fuerza de la que el auto dispone se modifica en 50 %, 150 % y 300 % con respecto a la tarea original. En la figura 5.11 se muestran las curvas de aprendizaje para las pruebas de transferencia con el algoritmo SST. En la tabla 5.7 se puede apreciar el desempeño final obtenido por los algoritmos probados para cada tarea con los diferentes valores de fuerza en el auto. De los datos obtenidos se hacen las siguientes conclusiones. Se puede observar que en general los algoritmos obtienen un desempeño final mejor al que se obtiene al aprender desde cero (PILCO), salvo el caso donde se incrementa la potencia del automovil a 300 %. El único caso que queda muy por debajo es cuando se transfieren todas las tuplas, ya que al transferir todas las muestras, se obliga al agente a aprender un modelo que no corresponde a la tarea objetivo. 100 CAPÍTULO 5. EXPERIMENTOS 6 Recompensa total 5 4 3 PILCO (γ = 0) QTL−PILCO (Bayesiano) 2 Transferencia de todas las tuplas Filtro de Lazaric Síntesis de tuplas 1 Filtro simple Filtro de Lazaric + SST Filtro simple + SST 0 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 Desviación estándar Episodios 3 2 1 0 1 2 3 4 5 Episodios (a) 50 % de potencia en motor 30 Recompensa total 25 20 PILCO (γ = 0) QTL−PILCO (Bayesiano) 15 Transferencia de todas las tuplas Filtro de Lazaric Síntesis de tuplas 10 Filtro simple Filtro de Lazaric + SST Filtro simple + SST 5 0 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 Desviación estándar Episodios 10 5 0 1 2 3 4 5 Episodios (b) 150 % de potencia en motor Figura 5.11: Auto en la montaña. Las curvas de aprendizaje para la tarea objetivo, con 50 %, 150 % and 300 % de la potencia de motor en la tarea original. 5.3. SÍNTESIS DE TUPLAS 101 35 30 Recompensa total 25 PILCO (γ = 0) QTL−PILCO (Bayesiano) Transferencia de todas las tuplas Filtro de Lazaric Síntesis de tuplas Filtro simple Filtro de Lazaric + SST Filtro simple + SST 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 6 7 8 9 10 Desviación estándar Episodios 10 5 0 1 2 3 4 5 Episodios (a) 300 % de potencia en motor Figura 5.11: (Continuación) La combinación de algoritmos de transformación y filtrado de tuplas (Filtro de Lazaric + SST y Filtro Simple + SST) obtiene valores altos de desempeño final, similares al aprendizaje tabula rasa. En el auto con el 50 % de potencia, la sı́ntesis de muestras permite que al final se aprenda una mejor polı́tica que la aprendida sin transferencia. En ese caso, la transferencia de información realmente beneficia al agente, porque la búsqueda de la solución se simplifica considerablemente y por lo tanto se aprende más rápido y una mejor solución. Para 300 %, si bien no se obtiene un alto valor de desempeño, ya no se presenta transferencia negativa, como es el caso con QTL. En la tabla 5.8 se muestran los resultados del área bajo la curva de los algoritmos evaluados para la tarea del auto en la montaña. A partir de esta tabla se puede observar un comportamiento similar al que se observó en la métrica de desempeño final, en el cual utilizando la combinación de algoritmos de transformación y filtrado de tuplas (Filtro de Lazaric + SST y filtro simple + SST) se obtienen los valores más altos de recompensa. En la tabla 5.9 se muestran los tiempos de convergencia de los algoritmos evaluados. Se 102 CAPÍTULO 5. EXPERIMENTOS Tabla 5.8: Recompensa total para la transferencia en la tarea del auto en la montaña. Algoritmo 50 % 150 % 300 % PILCO (sin transferencia) 26.39 173.72 265.48 QTL (bayesiano) 51.21 222.60 211.60 Transferencia de todas las tuplas 17.56 48.19 64.05 Filtro de Lazaric 46.78 191.28 247.32 Sı́ntesis de tuplas 50.57 232.47 245.73 Filtro simple 41.76 194.22 230.09 Filtro de Lazaric + SST 54.41 235.47 279.39 Filtro simple + SST 49.53 237.75 271.61 muestra el número de episodios requeridos para alcanzar el 95 % del valor de desempeño. En esta tarea, los enfoques que combinan la sı́ntesis de tuplas con el filtrado son los que obtuvieron en general mejores resultados, convergiendo en un menor tiempo. Un caso especial fue la convergencia rápida obtenida con el algoritmo QTL para la tarea donde el auto tiene una potencia de 150 %. En esa tarea en especı́fico, la transferencia de hiper-parámetros ayuda a una más rápida convergencia que la sı́ntesis de tuplas, sin embargo, la sı́ntesis de muestras acumula una mayor recompensa, en general. 5.3.3. Cuadricóptero a helicóptero En esta sección se muestran los resultados obtenidos para la tarea de controlar un vehı́culo de ala giratoria, el cual es descrito a detalle en la sección 5.1.3 de esta tesis. Este experimento es el más complejo e interesante que se aborda en esta tesis, cuya dificultad radica en el hecho de que la tarea de estabilización de vuelo requiere mucha precisión y además, se maneja un alto número de variables de estado y acción. En la figura 5.12 se muestran las curvas de aprendizaje para la tarea del helicóptero, obtenidas por cada algoritmo evaluado, ası́ como el valor de la recompensa obtenida por el 5.3. SÍNTESIS DE TUPLAS 103 Tabla 5.9: Tiempo de convergencia para la transferencia en la tarea del auto en la montaña. El tiempo de convergencia es medido como el número de episodios requeridos para alcanzar el 95 % del desempeño final. Algoritmo 50 % 150 % 300 % PILCO (sin transferencia) 4 7 7 QTL (bayesiano) 6 2 5 Transferencia de todas las tuplas NC NC NC Filtro de Lazaric 7 4 5 Sı́ntesis de tuplas 6 5 6 Filtro simple 6 6 7 Filtro de Lazaric + SST 4 3 5 Filtro simple + SST 4 4 6 algoritmo de control del simulador V-REP manejado como valor de referencia. En esta figura se grafica la recompensa acumulada por episodio, para cada uno de los algoritmos. En la tabla 5.10 se muestran los resultados de la recompensa total, desempeño final y tiempo de convergencia obtenidos por los algoritmos probados para la tarea del helicóptero. Se pueden hacer las siguientes observaciones sobre los algoritmos evaluados: El desempeño final es similar en todos los casos, y en todos ellos se supera al autopiloto del simulador V-REP. Es decir, comparado con el control del autopiloto, los algoritmos de aprendizaje por refuerzo aprenden un control que da una mayor recompensa acumulada al agente. El enfoque de sı́ntesis propuesto en esta tesis (SST), combinado con los algoritmos de filtrado obtiene mejores resultados que el aprendizaje tabula rasa. También obtiene mejores resultados que los algoritmos del estado del arte y QTL. El tiempo de convergencia se reduce significativamente combinando la sı́ntesis de tuplas 104 CAPÍTULO 5. EXPERIMENTOS Tabla 5.10: Desempeño final, recompensa acumulada y tiempo de convergencia para la tarea del helicóptero. Recompensa Desempeño Tiempo de total final convergencia V-REP Autopiloto (sólo referencia) - 126.79 - PILCO (sin transferencia) 1809.44 132.50 24 QTL (bayesiano) 2225.46 131.99 22 Transferencia de todas las tuplas 467.89 22.5 NC Filtro de Lazaric 2578.79 129.77 20 Sı́ntesis de tuplas 2811.15 131.33 18 Filtro simple 2388.77 128.69 22 Filtro de Lazaric + SST 3212.75 130.29 15 Filtro simple + SST 3169.64 131.39 17 Algoritmo 5.3. SÍNTESIS DE TUPLAS 105 Recompensa total 150 100 PILCO V−REP Autopiloto (Referencia) QTL−PILCO (Bayesiano) SST todas las tuplas Filtro de Lazaric Transferencia de todas las tuplas 50 Filtro simple Filtro de Lazaric + SST Filtro simple + SST 0 5 10 15 Episodios 20 25 30 5 10 15 Episodios 20 25 30 Desviación estándar 30 20 10 0 Figura 5.12: Curvas de aprendizaje para la tarea de control de helicóptero, transfiriendo conocimiento desde un cuadricóptero. Se muestra la recompensa adquirida con V-REP como referencia. con algún algoritmo de filtrado, en particular el algoritmo SST usado junto al filtro de Lazaric obtiene los mejores resultados. 5.3.4. Resumen de experimentos Los experimentos realizados en las secciones 5.3.1, 5.3.2 y 5.3.3 sirvieron para evaluar el aprendizaje con diferentes métodos de transferencia y compararlos con el aprendizaje tabula rasa (PILCO). A partir de tales experimentos, se pueden obtener las siguientes conclusiones. Aunque con la transferencia no se incrementa el desempeño final significativamente comparado con el aprendizaje tabula rasa, tampoco se reduce. Esto es un indicador de que la polı́tica obtenida con el aprendizaje por transferencia es una polı́tica similar a la aprendida desde cero, pero en menor tiempo, lo cual implica que se cometen menos errores al aprender la tarea. 106 CAPÍTULO 5. EXPERIMENTOS PILCO es un algoritmo del estado del arte en aprendizaje por refuerzo para tareas continuas, mucho más rápido que algoritmos similares en tiempo de convergencia. La propuesta QTL supera a PILCO, transfiriendo muy poca información, en forma de hiper-parámetros. QTL es un enfoque muy eficiente, ya que transfiriendo muy poca información desde la tarea origen, e integrándola gradualmente a la tarea objetivo, logra abstraer las propiedades cualitativas de la tarea objetivo. Estas propiedades sirven para definir una distribución a priori en la tarea objetivo, que ayuda a aprender más rápido la tarea. Para QTL se probaron dos enfoques de integración de información transferida. El factor de olvido permite controlar la tasa a la que se integra la información transferida, mientras que el enfoque bayesiano integra la información tomando en cuenta la confianza en los datos de la tarea objetivo. El enfoque bayesiano obtuvo en general mejores resultados que el factor de olvido. Transferir las muestras selectivamente, usando algún algoritmo de filtrado acelera el aprendizaje. La transferencia de todas las muestras disponibles en la tarea origen sin ninguna modificación, hace que el agente aprenda un modelo erróneo en la tarea objetivo, pero al mismo tiempo es un indicador de la diferencia entre tareas. La sı́ntesis de tuplas (SST), basada en la transformación de tuplas filtradas desde la tarea origen es la que ofrece un aprendizaje más rápido y con mayor recompensa total. En los experimentos realizados con las tres tareas se obtuvieron mejores resultados (en cuanto a la recompensa acumulada y el desempeño final) utilizando la combinación de algoritmos de transformación y filtrado de tuplas del Filtro de Lazaric + Sı́ntesis y el Filtro Simple + Sı́ntesis. La selección de muestras candidatas en la tarea objetivo es un paso importante previo a la sı́ntesis (SST), ya que transferir y transformar todas las muestras agrega tanta información que el modelo de la tarea no se puede aprender en la tarea objetivo. Sin 5.3. SÍNTESIS DE TUPLAS 107 embargo, en las comparaciones entre el filtro simple propuesto y un filtro más elaborado (filtro de Lazaric), aún cuando el filtro más complejo obtiene mejores resultados, se puede apreciar que el tipo de filtrado no hace mucha diferencia. El filtro de Lazaric es un algoritmo del estado del arte en transferencia. Transfiere tuplas seleccionándolas desde la tarea origen con base en dos métricas. El algoritmo SST, propuesto en este trabajo, aprende más rápido que Lazaric, QTL y PILCO. Capı́tulo 6 Conclusiones La transferencia de conocimiento en aprendizaje por refuerzo se enfoca en el desarrollo de métodos para reutilizar la información obtenida de una tarea de origen, con el objetivo de mejorar el proceso de aprendizaje en una tarea relacionada. En este trabajo de tesis se presentaron dos nuevos enfoques para la transferencia de conocimiento entre tareas dentro del aprendizaje por refuerzo, los cuales son aplicables a situaciones reales en las que se tienen espacios de estado y acción continuos. En el análisis del estado del arte, no se encontró trabajo relacionado en el área de aprendizaje por refuerzo (RL) que incorpore transferencia de conocimiento (TL), en tareas con estados y acciones continuas, siendo importante ya que muchas aplicaciones reales se encuentran bajo estas condiciones. En este punto radica la contribución principal de este trabajo de tesis. En el primero de los enfoques propuestos en esta tesis, se presenta un algoritmo (QTL) en el cual las funciones de la transición y las polı́ticas son aproximadas por procesos Gaussianos. Este nuevo enfoque se basa en la idea de transferir información acerca de los hiper-parámetros de la función de transición de estado de la tarea de origen, lo que representa conocimiento cualitativo (como propiedades de suavidad, la varianza y el ruido de la distribución de la función de transición) sobre el tipo de función de transición que la tarea destino podrı́a tener. Se proponen dos variantes para transferir conocimiento cualitativo a la tarea de destino. 109 110 CAPÍTULO 6. CONCLUSIONES La primera variante incorpora gradualmente el valor de los hiper-parámetros aprendidos en la tarea origen. El segundo utiliza un enfoque bayesiano y considera la incertidumbre en el valor de los hiper-parámetros aprendidos. Con estos nuevos enfoques se restringe el espacio de búsqueda en la tarea objetivo y por lo tanto se acelera el proceso de aprendizaje. El segundo enfoque propuesto en esta tesis, consiste en un algoritmo para sintetizar tuplas (SST), el cual se centra en generar muestras para ajustar la función de transición de estados en la tarea objetivo. Lo que se hace es filtrar las muestras más importantes de la tarea origen, que después son transformadas e insertadas en la tarea objetivo. La transformación se aprende de las diferencias entre las tuplas de la tarea origen y la tarea objetivo. Para evaluar el funcionamiento de los métodos propuestos, se seleccionaron algunas tareas relevantes dentro del estado del arte relacionado con aprendizaje por refuerzo, las cuales son: el péndulo invertido, el auto en la montaña y la transferencia de conocimiento desde un cuadricóptero a un helicóptero. También, se seleccionaron algunos algoritmos relevantes del estado del arte para realizar comparaciones (PILCO y Filtro de Lazaric). Este último algoritmo fue adaptado para poder trabajar con estados y espacios continuos. Para comparar estos algoritmos, se usaron tres métricas, las cuales son: el desempeño final, recompensa acumulada (o área bajo la curva) y tiempo de convergencia. A partir de los experimentos realizados, se puede observar una mejora en el rendimiento general utilizando los dos enfoques propuestos en esta tesis (QTL y SST). 6.1. Contribuciones De este trabajo de tesis se desprenden las siguientes contribuciones principales: Se proponen dos formas de integrar la información cualitativa en la tarea objetivo, mediante factor de olvido y actualización bayesiana. El factor de olvido permite a un experto decidir cuán rápido se diluyen los parámetros transferidos, mientras que la actualización bayesiana responde a la certidumbre en los datos. La transferencia basada en conocimiento cualitativo (QTL) mejora el aprendizaje en la tarea objetivo, 6.2. TRABAJO FUTURO 111 aún comparado con algoritmos muy rápidos (PILCO) sin requerir mucha información de la tarea origen. El algoritmo SST ofrece un aprendizaje más rápido y con mayor recompensa total que los algoritmos del estado del arte de transferencia. 6.2. Trabajo futuro Las actividades que se pueden seguir de este trabajo de tesis son las siguientes: En relación con el algoritmo QTL, se plantea como trabajo futuro explorar estrategias para transferir conocimiento de varias tareas origen. Los procesos gaussianos y la transferencia de información podrı́a extenderse en el sentido de permitir transferencia entre tareas con diferentes variables de estado y acción. Se plantea como trabajo futuro, analizar y evaluar distintos algoritmos de filtrado de señales o métodos para suavizar funciones, con el objetivo de hacer la inferencia bayesiana más robusta. Se consideran como experimentos futuros interesantes la transferencia entre aeronaves de diferentes configuraciones, incluyendo tipo ala fija y multirrotores de distintos tamaños y pesos. 6.3. Publicaciones derivadas de este trabajo de tesis Esteban O. Garcı́a, Enrique Muñoz de Cote and Eduardo F. Morales. Qualitative Transfer for Reinforcement Learning with Continuous State and Action Spaces. Proceedings of the 18th Iberoamerican Congress in Pattern Recognition, CIARP 2013, volume 8258 of Lecture Notes in Computer Science, page 198-205. Springer, (2013). Esteban O. Garcı́a, Enrique Muñoz de Cote and Eduardo F. Morales. Transfer Learning for Continuous State and Action Spaces. Aceptado, por publicarse en la revista IJPRAI. Referencias Pieter Abbeel, Adam Coates, Morgan Quigley, and Andrew Y Ng. An application of reinforcement learning to aerobatic helicopter flight. Advances in neural information processing systems, 19:1, 2007. Pieter Abbeel, Adam Coates, Timothy Hunter, and Andrew Y. Ng. Autonomous autorotation of an RC helicopter. In Experimental Robotics, pages 385–394. Springer, 2009. Pieter Abbeel, Adam Coates, and Andrew Y. Ng. Autonomous Helicopter Aerobatics through Apprenticeship Learning. The International Journal of Robotics Research, June 2010. ISSN 0278-3649. HB Ammar, Karl Tuyls, and ME Taylor. Reinforcement learning transfer via sparse coding. In Proceedings of the 11th International Conference on Autonomous Agents and Multiagent Systems- Volume 1, number Aamas, pages 383–390, 2012. David Barber. Bayesian Reasoning and Machine Learning. Cambridge University Press, New York, NY, USA, 2012. ISBN 0521518148, 9780521518147. D.P. Bertsekas and J.N. Tsitsiklis. Introduction to Probability. Athena Scientific books. Athena Scientific, 2002. ISBN 9781886529403. Edwin Bonilla, Kian Ming Chai, and Chris Williams. Multi-task gaussian process prediction. In J.C. Platt, D. Koller, Y. Singer, and S. Roweis, editors, Advances in Neural Information Processing Systems 20, pages 153–160. MIT Press, Cambridge, MA, 2008. 113 114 REFERENCIAS Ronen I. Brafman and Moshe Tennenholtz. R-max - a general polynomial time algorithm for near-optimal reinforcement learning. J. Mach. Learn. Res., 3:213–231, March 2003. ISSN 1532-4435. Adam Coates, Pieter Abbeel, and Andrew Y. Ng. Apprenticeship learning for helicopter control. Commun. ACM, 52(7):97–105, July 2009. ISSN 0001-0782. Marc P Deisenroth and Carl Edward Rasmussen. PILCO: A Model-Based and Data-Efficient Approach to Policy Search. In Lise Getoor and Tobias Scheffer, editors, ICML, ICML ’11, pages 465–472, 2011. Hado Van Hasselt. Insights in Reinforcement Learning Formal analysis and empirical evaluation of temporal-difference learning algorithms. 2011. ISBN 9789039354964. Nicholas Jong and Peter Stone. Model-based exploration in continuous state spaces. Abstraction, Reformulation, and Approximation, (July):258–272, 2007. Alessandro Lazaric. Knowledge transfer in reinforcement learning. Phd thesis, Politecnico di Milano, 2008. Alessandro Lazaric, Marcello Restelli, and Andrea Bonarini. Reinforcement learning in continuous action spaces through sequential monte carlo methods. In Advances in neural information processing systems. Citeseer, 2007. Alessandro Lazaric, Marcello Restelli, and Andrea Bonarini. Transfer of samples in batch reinforcement learning. Proceedings of the 25th international conference on Machine learning - ICML ’08, pages 544–551, 2008. Gayle Leen, Jaakko Peltonen, and Samuel Kaski. Focused multi-task learning using Gaussian processes. Machine Learning and Knowledge Discovery in Databases, pages 310–325, 2011. Gayle Leen, Jaakko Peltonen, and Samuel Kaski. Focused multi-task learning in a Gaussian process framework. Machine Learning, 89(1-2):157–182, June 2012. ISSN 0885-6125. doi: 10.1007/s10994-012-5302-y. REFERENCIAS 115 Michael G. Madden and Tom Howley. Transfer of Experience Between Reinforcement Learning Environments with Progressive Difficulty. Artificial Intelligence Review, 21(3/4): 375–398, June 2004. ISSN 0269-2821. José Antonio Martı́n H, Javier de Lope, and Darı́o Maravall. Robust high performance reinforcement learning through weighted k-nearest neighbors. Neurocomputing, 74(8):1251– 1259, March 2011. ISSN 09252312. Kevin P Murphy. Machine learning: a probabilistic perspective. Cambridge, MA, 2012. Andrew Y. Ng. Shaping and policy search in reinforcement learning. PhD thesis, 2003. Andrew Y. Ng, H Jin Kim, Michael I Jordan, and Shankar Sastry. Autonomous Helicopter Flight via Reinforcement Learning. In Sebastian Thrun, Saul Lawrence, and Bernhard S., editors, Advances in Neural Information Processing Systems 16, Cambridge, MA, 2004. MIT Press. Carl Edward Rasmussen and Christopher Williams. Gaussian Processes for Machine Learning. International Journal of Neural Systems, 14(2):69–106, 2006. CE Rasmussen and Malte Kuss. Gaussian Processes in Reinforcement Learning. Advances in Neural Information Processing Systems 16, 16, 2004. Coppelia Robotics. V-REP Pro Edu, Version 3.0.1, 2013. URL http://www. coppeliarobotics.com/. Gavin Rummery and Mahesan Niranjan. On-line q-learning using connectionist systems. Technical report, University of Cambridge, 1994. Alexander A Sherstov and Peter Stone. Improving Action Selection in MDP ’ s via Knowledge Transfer. In National Conference on Artificial Intelligence, 2005. Richard Sutton and A.G. Barto. Introduction to Reinforcement Learning. MIT Press, 1998. 116 REFERENCIAS Matthew E Taylor and Peter Stone. Transfer Learning for Reinforcement Learning Domains : A Survey. Journal of Machine Learning Research, 10:1633–1685, 2009. Matthew E Taylor, Nicholas K Jong, and Peter Stone. Transferring Instances for Model-Based Reinforcement Learning. Machine Learning, (September), 2008. Hado van Hasselt and Marco a. Wiering. Reinforcement Learning in Continuous Action Spaces. 2007 IEEE International Symposium on Approximate Dynamic Programming and Reinforcement Learning, (Adprl):272–279, April 2007. Christopher John Cornish Hellaby Watkins. Learning from Delayed Rewards. PhD thesis, King’s College, Cambridge, UK, May 1989.

Aprendizaje por refuerzo mediante transferencia de conocimiento

Documentos relacionados

Productos

Apoyo

Aprendizaje por refuerzo mediante transferencia de conocimiento

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib