Introducción TL en RL TL en BN TL en TNBN Transfer Learning TL en RL con GPs Temas relacionados y preguntas abiertas Eduardo Morales INAOE (INAOE) 1 / 60 Contenido Introducción TL en RL TL en BN 1 Introducción TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas 2 TL en RL 3 TL en BN 4 TL en TNBN 5 TL en RL con GPs 6 Temas relacionados y preguntas abiertas (INAOE) 2 / 60 Introducción Antecedentes Introducción TL en RL • Los algoritmos de aprendizaje han logrado avances muy imoportantes en los últimos años TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • En general suponen que los ejemplos de entrenamiento y prueba tienen los mismos atributos y provienen de la misma distribución • Si la distribución cambia, normalmente se tiene que reconstruir los modelos • En algunas aplicaciones es muy caro o no se pueden recolectar los ejemplos de entrenamiento para reconstruir un modelo • Aprendizaje por transferencia o transfer learning puede ayudar en tales casos (INAOE) 3 / 60 Introducción Transfer Learning Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • TL puede servir cuando los datos: • Sean escasos • Estén desactualizados • TL permite que los dominios, tareas y distribuciones sean diferentes en los ejemplos de entrenamiento y prueba (INAOE) 4 / 60 Introducción Transfer Learning Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs • Definición: Dado un dominio (Df ) y tarea (Tf ) fuentes, un dominio (Do ) y tarea (To ) objetivos, aprendizaje por transferencia busca mejorar el aprendizaje de la función objetivo usando conocimiento en Df y Tf Temas relacionados y preguntas abiertas • Cuando las tareas son diferentes entonces los dominios de las clases son diferentes (INAOE) 5 / 60 Introducción Transfer Learning Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • En TL se consideran tres aspectos fundamentales: • Qué transferir • Cómo transferir • Cuándo transferir • El transferir conocimiento no siempre es útil y puede dañar el desempeño de los algoritmos (negative transfer) (INAOE) 6 / 60 Introducción Algoritmos Introducción TL en RL TL en BN Podemos catalogar a los algoritmos de TL en tres: • Inductive transfer learning: la tarea fuente y objetivo son diferentes: (i) se tienen muchos datos del dominio fuente, (ii) no se tienen datos del dominio fuente TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • Transductive transfer learning: las tareas de la fuente y objetivo son las mismas, pero los dominios son diferentes: (i) los espacios de atributos son diferentes en la fuente y en el objetivo, (ii) los atributos son iguales pero las probabilidades marginales son diferentes (P(Xf ) 6= P(Xo )) • Unsupervised transfer learning: no se tienen datos etiquetados en ningún caso, las tareas son diferentes pero de alguna forma relacionadas (INAOE) 7 / 60 Introducción Motivación Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas (INAOE) 8 / 60 Introducción Inductive Transfer Learning Introducción TL en RL TL en BN Opciones de conocimiento a transferir: • Transferir instancias: en este caso los espacios de TL en TNBN atributos son iguales, aunque no necesariamente todos los ejemplos son útiles TL en RL con GPs Temas relacionados y preguntas abiertas • Transferir la representación de los atributos: aprender una representación de baja dimensionalidad que se pueda compartir entre tareas • Transferir parámetros: ya sean parámetros o distribuciones de los algoritmos de aprendizaje utilizados • Transferir conocimiento relacional: relaciones equivalentes entre dominios (INAOE) 9 / 60 Introducción Transductive Transfer Learning Introducción TL en RL TL en BN TL en TNBN • En transductive learning todos los ejemplos TL en RL con GPs (entrenamiento y prueba) se conocen de entrada. En transductive transfer learning se conocen algunos de ejemplos no etiquetados de la tarea objetivo se conocen. • Se pueden transferir: Temas relacionados y preguntas abiertas • Instancias: usan muestreos (importance sampling) • Transferir la representación de los atributos: ... en aprendizaje no supervisado? (INAOE) 10 / 60 Introducción Unsupervised Transfer Learning Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • N se tienen etiquetas en los ejemplos fuente y objetivo • Se pueden transferir representaciones de atributos, e.g., Self-taught clustering: clustering de una pequeña colección de datos sin etiquetas usando una gran cantidad de datos no etiquetados de la fuente. (INAOE) 11 / 60 Introducción Tranferencia Negativa Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • Ocurre cuando el dominio y tarea fuentes reducen el desempeño del aprendizaje en el objetivo. • Que falta: • Como evitar transferencia negativa • Estudiar “transferibilidad” entre dominios fuente y obejtivo • Se puede transferir parte del dominio? • Transferir entre dominios y tareas múltiples con diferentes atributos (heterogeneous transfer learning) • Escalarlo a aplicaciones más grandes (INAOE) 12 / 60 TL en RL TL en RL Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • En Aprendizaje por Refuerzo (RL), TL se usa para usar conocimiento de una o más tareas fuente para aprender una o más tareas objetivo • Los pasos a seguir son: • Dada una tarea objetivo, seleccionar la(s) tarea(s) fuente(s) de las cuales se va a transferir • Aprender cómo se relacionan las tareas fuente y obejtivo • Transferir de forma efectiva conocimiento de la(s) fuente(s) a la(s) tarea(s) objetivo (INAOE) 13 / 60 TL en RL Métricas de Desempeño Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas Se pueden usar diferentes métricas para evaluar los beneficios de TL: • Jumpstart: El desempeño inicial de un agente en la tarea objetivo • Desempeño asintótico: El desempeño final del agente en la tarea objetivo • Recompensa total: La recompensa total acumulaa • Razón de transferencia: La división entre la recompensa total acumulada con y sin transferencia • Tiempo para alcanzar el umbral: El tiempo requerido para alcanzar un nivel de desempeño pre-establecido (INAOE) 14 / 60 TL en RL Efectos de TL en RL Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas (INAOE) 15 / 60 TL en RL Selección de Diferentes Fuentes Introducción TL en RL TL en BN • Qué suposiciones se hacen en cuanto a las posibles diferencias entre el fuente y el objetivo? TL en TNBN TL en RL con GPs • Cómo garantizar no transferir de tareas irrelevantes Temas relacionados y preguntas abiertas • Se hace selección de diferentes fuentes? • Se hace un mapeo entre tareas? Está dado o es automático? • Inter-task mapping - entre acciones, parciales, ... • Información cualitativa? • En general, en la mayorı́a de los algoritmos el mapeo lo da el usuario! (INAOE) 16 / 60 TL en RL Conocimiento a Transferir Introducción TL en RL TL en BN TL en TNBN • Puede ser conocimiento de bajo nivel, e.g., tuplas < s, a, r , s0 >, funciones de valor (V , Q), la polı́tica (π), el modelo de transición (p(s0 | s, a) TL en RL con GPs Temas relacionados y preguntas abiertas • Pueden ser de más alto nivel, e.g., qué acciones usar en determinado momento, polı́ticas parciales u opciones, distribuciones a priori, atributos relevantes para aprender, shaping rewards, definición de subtareas. • Qué algoritmos se pueden usar? (INAOE) 17 / 60 TL en RL Motivación Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs • Se puede transferir entre tareas que tengan diferentes: funciones de transición, espacio de estados, estados iniciales, estados metas, variables de estado, funciones de recompensa, conjuntos de acciones, ... Temas relacionados y preguntas abiertas • Relacionado: Multi-Task Learning suponen que todos los problemas son de la misma distribución, e.g., aprender varios péndulos invertidos. (INAOE) 18 / 60 TL en BN TL en redes bayesianas Introducción TL en RL TL en BN TL en TNBN • PC aprende un esqueleto (grafo no dirigido) y después determina la dirección de las ligas TL en RL con GPs Temas relacionados y preguntas abiertas • Para determinar el esqueleto empieza con una red no dirigida completamente conectada y determina la independencia condicional de cada par de variables dados subconjuntos de variables. • TL en BNs: Algoritmo para aprendizaje de red bayesiana incorporando información de bases de datos auxiliares. (INAOE) 19 / 60 TL en BN TL en BN Introducción TL en RL TL en BN • Extensión del algoritmo PC, para el caso en donde tenemos pocos datos para la tarea objetivo y tenemos muchos datos de tareas fuentes TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • Las diferencias con PC son en la forma en que se evaluan las pruebas de independencia. • Para cada par de variables X,Y la medida de independiencia es una combinación lineal de la estimación de la tarea objetivo con la tarea del dominio auxiliar más cercana. • La combinación lineal es pesada por factores que determinan una medida de confianza. (INAOE) 20 / 60 TL en BN Algoritmo Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas Initialize a complete undirected graph G0 i=0 repeat for X ∈ X do for Y ∈ ADJ(X ) do for S ⊆ ADJ(X ) − {Y }, | S |= i do Find the most similar auxiliary domain, k, and its similarity measure SkXY Determine the confidence measures α(X , Y |S) for target and auxiliary domains Obtain the combined independence measure IF (X , Y | S) if IF (X , Y | S) then Remove the edge X − Y from G0 end if end for end for (INAOE) 21 / 60 TL en BN TL en BN Introducción TL en RL TL en BN • La medida de entropı́a cruzada utilizada en PC TL en TNBN TL en RL con GPs depende del tamaño de la base de datos. • Se puede mostrar que el error de esta prueba es Temas relacionados y preguntas abiertas proporcionalmente asintótico a tamaño de la base de datos. log N 2N , donde N es el • Para estimar la confuanza en la prueba de independencia entre X y Y , dado S: α(X , Y |S) = 1 − (INAOE) log N ×T 2N 22 / 60 TL en BN Similitud entre Tareas Introducción TL en RL TL en BN • Para medir la similaridad entre tareas se usa una similaridad global y una local TL en TNBN TL en RL con GPs • La medida global considera todas las medidas de independencia condicional I(X , Y | S) Temas relacionados y preguntas abiertas SgDj = depj + indj depj = número de dependencias condicionales comunes entre la tarea objetivo y la tarea auxiliar j indj = número de independencias condicionales comunes entre todos los pares de variables en la tarea objetivo y la tarea auxiliar j (INAOE) 23 / 60 TL en BN Similitud entre Tareas Introducción TL en RL TL en BN • La medida local de similaridad es: TL en TNBN SlDj (X , Y ) = TL en RL con GPs Temas relacionados y preguntas abiertas 1,0 0,5 If I0 (X , Y |S) = IDj (X , Y |S) If I0 (X , Y |S) 6= IDj (X , Y |S) I0 (X , Y |S) = resultado de la prueba de independencia en la tarea objetivo IDj (X , Y |S) = resultado de la prueba en la tarea auxiliar j Las constantes dan diferente peso a las estructiras auxiliares que tiene la misma o diferente estructura local (INAOE) 24 / 60 TL en BN Similitud entre Tareas Introducción • Se combinan estas dos medidas como: TL en RL ∗ SkXY = SgDk × SlDk (X , Y ) TL en BN TL en TNBN • Y la medida combinada de independencia se calcula TL en RL con GPs como una combinación lineal pesada de las medidas de independencia de las tareas objetivo y fuentes: Temas relacionados y preguntas abiertas IF (X , Y |S) = (α0 (X , Y |S) × sgn(I0 (X , Y |S))) + ∗ SkXY αDXY (X , Y |S) × sgn(IDXY (X , Y |S)) sgn(I) = +1 si la prueba de independencia es positiva y −1 de otra forma α0 (X , Y |S) es la medida de confianza en el dominio objetivo αDXY (X , Y |S) es la medida de confianza en la tarea auxiliar más similar para {X , Y } condicionado en S (INAOE) 25 / 60 TL en BN Aprendizaje de Parámetros Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • Combinar las CPTs (tablas de probabilidad condicional) • Unificar variables: • Mismas variables: fácil • Más padres en las estructuras auxiliares: aplicar marginalización (sumar sobre todos los valores de las variables extra) • Menos padres en las estructuras auxiliares: duplicar los valores de las CPTs para todos los valores de las variables extra • Una combinación de las 2 anteriores: primero marginalizar y luego duplicar (INAOE) 26 / 60 TL en BN Tablas de Probabilidad Condicional Introducción TL en RL TL en BN Ya que se tienen las mismas variables existen varias formas de combinar los valores de las CPTs: TL en TNBN TL en RL con GPs • Lineal: P(X ) = k × Temas relacionados y preguntas abiertas n X wi Pi (X ) i=1 Pi (X ) probabilidad condicional del i-ésimo modelo • Logarı́tmica. P(X ) = k × n Y Pi (X )wi i=1 (INAOE) 27 / 60 TL en BN Tablas de Probabilidad Condicional Introducción TL en RL TL en BN TL en TNBN • Distance Based Linear Pool: TL en RL con GPs ptarget = (1 − ci )ptarget + ci p Temas relacionados y preguntas abiertas donde: p=k n X (fi × pi ) i=1 ( fi = (INAOE) 1− 1− log(cf ) cf cf ×log(3) 3 if cf ≥ 3 if cf < 3 28 / 60 TL en BN Tablas de Probabilidad Condicional Introducción TL en RL TL en BN TL en TNBN • Local Linear Pool: Se usan solo las más parecidas TL en RL con GPs ptarget = ftarget × ptarget + (1 − ftarget ) × plocal Temas relacionados y preguntas abiertas donde ftarget de el nivel de confianza en las CPTs y n plocal 1X pi ∀pi s.t. pi ∈ {ptarget ± (ptarget − p)} = n i=1 (INAOE) 29 / 60 TL en BN Resultados Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas (INAOE) 30 / 60 TL en BN Resultados Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas (INAOE) 31 / 60 TL en TNBN TL en Redes Bayesianas de Nodos Temporales Introducción TL en RL TL en BN TL en TNBN • Una red bayesiana de nodos temporales sirve para modelar procesos dinámicos que están caracterizados por cambios irreversibles TL en RL con GPs Temas relacionados y preguntas abiertas Dominio auxiliar Dominio auxiliar Dominio auxiliar (INAOE) Dominio objetivo 32 / 60 TL en TNBN Esquema General Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas (INAOE) 33 / 60 TL en TNBN Determinación de Intervalos Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas (INAOE) 34 / 60 TL en TNBN Resultados en HIV Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas (INAOE) 35 / 60 TL en RL con GPs TL en RL con GPs Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas RL: • No requiere de un modelo del ambiente • El agente aprende solo • Converge a la polı́tica óptima Pero: • El aprendizaje es lento • Pocos desarrollos en ambientes complejos con variables continuas • No se pueden reutilizar polı́ticas (INAOE) 36 / 60 TL en RL con GPs TL en RL con GPs Introducción TL en RL TL en BN TL en TNBN • Se transfirieron parámetros y se sintetizaron tuplas (tesis Omar) TL en RL con GPs Temas relacionados y preguntas abiertas • Al transferir tuplas se tiene que definir cuáles • Filtro de Lazaric: • De dónde transferir? La probabilidad de que la tarea origen genere muestras de la tarea destino (task compliance) • Cuáles transferir? Muestras muy relevantes o muy alejadas (relevance) (INAOE) 37 / 60 TL en RL con GPs Procesos Gaussianos Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs • Distribución Gaussiana multivariada Temas relacionados y preguntas abiertas p(x; µ, Σ) = 1 (2π)n/2 |Σ|1/2 1 exp(− (x − µ)T Σ−1 (x − µ)) 2 • Un proceso gaussiano es una generalización a un número infinito de variables: GP(m(·), k(·, ·)) (INAOE) 38 / 60 TL en RL con GPs Motivación Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas Aunque parece peor trabajar con dimensionalidad infinita, lo se calcula se hace en dimensiones finitas (INAOE) 39 / 60 TL en RL con GPs Procesos Gaussianos Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs • En particular, se debe cumplir que: Temas relacionados y preguntas abiertas " p (INAOE) ~h h~∗ # ! |X , X∗ k(X , X ) k(X , X∗ ) ~ ∼ N 0, k(X∗ , X ) k(X∗ , X∗ ) 40 / 60 TL en RL con GPs Procesos Gaussianos Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs • Para el ruido: Temas relacionados y preguntas abiertas p (INAOE) ~ ~∗ " ∼N ~0, σ 2 I ~0 ~0T σ 2 I #! 41 / 60 TL en RL con GPs Procesos Gaussianos Introducción TL en RL TL en BN TL en TNBN • Suponemos que son independientes, por lo que su TL en RL con GPs suma también lo es: Temas relacionados y preguntas abiertas " # ~h ~y ~ |X , X∗ = ~ + ∼ y~∗ ~∗ h∗ k (X , X ) + σ 2 I k (X , X∗ ) ~ N 0, k (X∗ , X ) k (X∗ , X∗ ) + σ 2 I (INAOE) 42 / 60 TL en RL con GPs Procesos Gaussianos Introducción TL en RL TL en BN TL en TNBN • Usando las reglas de condicionamiento gaussianas, se sigue que: TL en RL con GPs Temas relacionados y preguntas abiertas ~y∗ |~y , X , X∗ ∼ N (µ∗ , Σ∗ ) donde: µ∗ = K (X∗ , X )(K (X , X ) + σ 2 I)−1~y Σ∗ = K (X∗ , X∗ )+σ 2 I−K (X∗ , X )(K (X , X )+σ 2 I)−1 K (X , X∗ ) (INAOE) 43 / 60 TL en RL con GPs Kernel e Hiperparámetros Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas 1 (x − x 0 2 k(x, x 0 ) = α02 exp(− ( ) ) 2 λ (INAOE) 44 / 60 TL en RL con GPs Cálculo de los Hiperparámetros Introducción TL en RL TL en BN • Recordando la definición de una distribución gaussiana TL en TNBN multivariable: TL en RL con GPs p(x|µ, Σ) = Temas relacionados y preguntas abiertas 1 (2π)n/2 |Σ|1/2 1 exp(− (x − µ)T Σ−1 (x − µ)) 2 • P(y |x, θ) sigue una distribución gaussiana multivariable con media cero y covarianza de K + σn2 I (si consideramos ruido) 1 1 n logp(y |x, θ) = − y T (K + σn2 I)−1 y − log|K | + σn2 I| − log2π 2 2 2 (INAOE) 45 / 60 TL en RL con GPs Hiperparámetros Introducción • Los hiperparámetros nos determinan las posibles TL en RL distribuciones TL en BN TL en TNBN • Para obtener los hiperparámetros podemos derivar con respecto a θ, pero antes es importante usar las siguientes dos expresiones: TL en RL con GPs Temas relacionados y preguntas abiertas ∂ −1 ∂K −1 K = −K −1 K ∂θ ∂θ donde ∂K ∂θ es una matriz con las derivadas de sus elementos. ∂ ∂K log|K | = tr (K −1 ) ∂θ ∂θ donde tr o trace es la suma de los elementos de la diagonal de la matriz (INAOE) 46 / 60 TL en RL con GPs Hiperparámetros Introducción TL en RL • Entonces: TL en BN ∂ 1 ∂K −1 1 ∂K p(y|x, θ) = y T K −1 K y − tr (K −1 ) ∂θj 2 ∂θj 2 ∂θi TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas = ∂K 1 tr ((ααT − K −1 ) ) 2 ∂θi donde α = K −1 y • Para obtener entonces los hiperparámetros se sigue un proceso basado en gradiente (es un problema de optimización no-convexo), por ejemplo, basado en gradiente conjugado o quasi-Newton • Se puede caer en mı́nimos locales (INAOE) 47 / 60 TL en RL con GPs PILCO Introducción TL en RL TL en BN TL en TNBN • Usa GP para modelar funciones de transición (P(s0 | s, a)) TL en RL con GPs Temas relacionados y preguntas abiertas • Usa funciones de base radial para representar la polı́tica • Ciclo: • Dada una π obten datos • Con datos infiere una nueva función de transición • Con la función de transición evalúa y mejora π (INAOE) 48 / 60 TL en RL con GPs Motivación Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas VIDEO DE PILCO (INAOE) 49 / 60 TL en RL con GPs QTL Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • La idea es transferir hiperparámetros (sesgo sobre la distribución de posibles funciones de transición) • Hay que definir cómo hacer la transferencia • Esta se hace de forma gradual: • Usando un factor de olvido (FORMULA) • Actualización Bayesiana (FORMULAS y FIGURAS) (INAOE) 50 / 60 TL en RL con GPs SST Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas Sı́ntesis de Tuplas: • Aprender una función de transición en la tarea objetivo • Aprender/usar la función de transición de la tarea original • Aprender una función de diferencias • En espacios poco explorados, generar ejemplos artificiales usando los ejemplos de la tarea original y la función de diferencias (INAOE) 51 / 60 TL en RL con GPs Dónde y Cuántas Tuplas Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • En lugares desconocidos (alejados en < s, a >): Si ya tengo ejemlos, no necesito generar • Generar hasta completar el número de ejemplos usados en la tarea original • Mantener ese número fijo => ir reduciendo el número de ejemplos de la tarea original conforme se explora la tarea objetivo (INAOE) 52 / 60 TL en RL con GPs Proceso Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas FIGURAS DE PROCESO (INAOE) 53 / 60 TL en RL con GPs Experimentos QTL Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas Probar: • Transferencia desde diferentes variantes • Usar hiperparámetros de la tarea original • Usar la polı́tica de la tarea original • Diferentes valores de γ (γ = 0 => PILCO) • Enfoque Bayesiano (INAOE) 54 / 60 TL en RL con GPs Resultados Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas FIGURAS (INAOE) 55 / 60 TL en RL con GPs Experimentos SST Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • PILCO • Transferir todas la tuplas • Transferir usando un filtro simple • Transferir usando el filtro de Lazaric • Todas las tuples + SST • Filtro simple + SST • Filtro Lazaric + SST (INAOE) 56 / 60 TL en RL con GPs Resultados SST Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas FIGURAS (INAOE) 57 / 60 TL en RL con GPs Helicóptero a Cuadróptero Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas VIDEO (INAOE) 58 / 60 Temas relacionados y preguntas abiertas Algunas Técnicas Relacionadas Introducción TL en RL TL en BN TL en TNBN TL en RL con GPs • Lifelong learning Temas relacionados y preguntas abiertas • Imitation learing • Human advice • Shaping • Concept Drift (INAOE) 59 / 60 Temas relacionados y preguntas abiertas Preguntas Abiertas Introducción TL en RL • Si se tiene un modelo de una tarea fuente, cómo TL en BN modificarlo para la tarea objetivo TL en TNBN TL en RL con GPs Temas relacionados y preguntas abiertas • Se pueden modificar las tareas fuentes automáticamente para mejorar el aprendizaje? • Se pueden tomar ideas de theory revision/refinement para hacer un mapeo entre tareas? • La transferencia se podrı́a utilizar para mejorar el mecanismo de exploración del agente en la tarea objetivo? • Transferencia negativa: No hay trabajo que defina dse forma confiable cuándo una transferencia va a ser negativa (INAOE) 60 / 60