Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Introducción al Aprendizaje Reforzado Conceptos básicos y métodos tabulares Julio Waissman Vilanova Departamento de Matemáticas Universidad de Sonora Universidad Autónoma de Baja California, marzo 2010 Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Plan de la presentación Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. ¿Aprendizaje? I El aprendizaje supervisado utiliza un conjunto de datos de aprendizaje previamente clasificado. Aprendizaje con maestro. I El aprendizaje no supervisado utiliza un conjunto de datos sin clasificar. Descubrimiento de conocimiento en bases de datos (KDD). I El aprendizaje reforzado utiliza la interacción con el medio para establecer una política de comportamiento. Aprendizaje con crítico. Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Esquema general del aprendizaje reforzado. Ambiente Acción Aprendizaje Reforzado Agente Estado Recompensa Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Elementos principales. I Conjunto de estados, st ∈ S, con al menos un estado inicial y posiblemente estados finales. I Conjunto de acciones en cada estados, at ∈ A(st ). I Valor de recompensa, rt ∈ R. I Una política, π, con π(st , at ) ∈ [0, 1] π= a1 .. . am Aprendizaje Reforzado s1 · · · 0.1 · · · .. .. . . 0.9 · · · sn 0.9 .. . 0.7 Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Objetivo. I Encontrar una política subóptima π ∗ de operación. I El criterio de optimización es la maximización del regreso, definido como: Rt = Rt = T X k =t ∞ X rk γ k rt+k (episódico), (continuo). k =0 I Utilizando la exploración/explotación de información. Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Funciones de valor. I Evaluación de un estado, n o V π (s) =Eπ Rt |st = s , X X a a π 0 Pss V π (s) = π(s, a) 0 Rss 0 + γV (s ) . a s0 I Evaluación de una acción en un estado, n o Q π (s, a) =Eπ Rt |st = s, at = a . I Permite encontrar políticas óptimas, V ∗ (s) = max V π (s), π Aprendizaje Reforzado Q ∗ (s, a) = max Q π (s, a). π Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Método de diferencias temporales. I Utilizan la experiencia para encontrar la función de valor. I Calcula una política pseudo–óptima. I Se basan en la actualización por el nuevo estado: h i Vt (st ) ← Vt (st ) + α Vt+1 (st ) − Vt (st ) h i Vt (st ) ← Vt (st ) + α rt+1 + γVt (st+1 ) − Vt (st ) , donde α ∈ [0, 1] es el factor de aprendizaje. Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Método SARSA. at+1 at rt+1 st+1 rt+2 st Q(st , at ) = Q(st , at ) + α rt+1 + γQ(st+1 , at+1 ) − Q(st , at ) Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Método QLearning. at rt +1 st +1 max st max Q(st , at ) = Q(st , at ) + α rt+1 + γ max Q(st+1 , a) − Q(st , at ) a Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Método Actor/Critic. Ambiente s r Crítico función TD a Actor política h i p(st , at ) = p(st , at ) + β rt+1 + γV (st+1 ) − V (st ) ep(s,a) πt (s, a) = P p(s,b) be Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Exploración / Explotación del conocimiento. I Utilizar el conocimiento adquirido por el agente. I Explorar racionalmente estados desconocidos. Los métodos clásicos son: I I I I Avaro –Avaro Softmax o Distribución de Boltzmann, ep(at ,st )/T P(at |st ) = P p(b,s )/T , t be donde T es la temperatura. Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Ejemplo Ilustrativo. I Laberinto básico. I Programa de Gilad Mishne (Universidad de Amsterdam). I Ilustrativo, buena interfaz gráfica, sencillo. Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Sistemas continuos. I De gran importancia práctica (robótica, procesos industriales, interfaces físicas, etc.) I Conjunto infinito de estados, representados en general por un vector, ~x = [x1 , . . . , xn ] ∈ Rn . I ¿Como se describe la política? I ¿Como aprender en st si tengo un número infinito de posibles estados st+1 ? I ¿Como seleccionar una acción, en caso que at+1 ∈ R? Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Discretización del espacio por mosaicos. I Generalización al utilizar mosaicos superpuestos. I Necesidad de muchos mosaicos. I Tiempos grandes de aprendizaje. Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Generalización difusa. I Utilizar un FIS para establecer las funciones estado–acción. I Fácilmente adaptable para diversos métodos de aprendizaje. I Cada regla difusa sería de la forma: si s es Si Aprendizaje Reforzado entonces a(i, 1) con q(i, 1) o a(i, 2) con q(i, 2) ... o a[i, J] con q[i, J], Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Generalización difusa. I Utilizar un FIS discretizando estados. I Significado lingüístico. I Numero de reglas fijo. I Gran cantidad de parámetros. Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Generalización neurodifusa. I Utilizar una red neurodifusa discretizando acciones. I Mejora la velocidad de aprendizaje. I Genera muchas neuronas en el proceso de aprendizaje. Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Ejemplo de sistema con estados continuos. I Pendubot. Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Conclusiones I El aprendizaje reforzado es un método que se basa en la interacción con el medio. I Los algoritmos básicos utilizan el aprendizaje directo de una política. I Para sistemas con acciones continuas es necesario establecer un método de aproximación. I Trabajos en el grupo sobre aprendizaje reforzado. I I Aprendizaje Reforzado Uso de técnicas de softcomputing para aproximar un sistema con entradas y salidas continuas. Análisis formal de convergencia a un problema de programación dinámica. Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Para más información R.S. Sutton y A.G. Barto. Reinforcement Learning. An Introduction. MIT Press, 2002 (4a Impresión). L. Kaelbling, M. Littman y A. Moore. Reinforcement Learning: A Survey. Journal of Artificial Inteligence Research, 4:237–285, 1996. Aprendizaje Reforzado Vértice 2010 (UABC) Conceptos Básicos. Métodos tabulares. Estados continuos. Conclusiones. Gracias por su atención Aprendizaje Reforzado Vértice 2010 (UABC)