Transfer Learning

Anuncio
Introducción
TL en RL
TL en BN
TL en TNBN
Transfer Learning
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
Eduardo Morales
INAOE
(INAOE)
1 / 60
Contenido
Introducción
TL en RL
TL en BN
1 Introducción
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
2 TL en RL
3 TL en BN
4 TL en TNBN
5 TL en RL con GPs
6 Temas relacionados y preguntas abiertas
(INAOE)
2 / 60
Introducción
Antecedentes
Introducción
TL en RL
• Los algoritmos de aprendizaje han logrado avances
muy imoportantes en los últimos años
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• En general suponen que los ejemplos de entrenamiento
y prueba tienen los mismos atributos y provienen de la
misma distribución
• Si la distribución cambia, normalmente se tiene que
reconstruir los modelos
• En algunas aplicaciones es muy caro o no se pueden
recolectar los ejemplos de entrenamiento para
reconstruir un modelo
• Aprendizaje por transferencia o transfer learning puede
ayudar en tales casos
(INAOE)
3 / 60
Introducción
Transfer Learning
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• TL puede servir cuando los datos:
• Sean escasos
• Estén desactualizados
• TL permite que los dominios, tareas y distribuciones
sean diferentes en los ejemplos de entrenamiento y
prueba
(INAOE)
4 / 60
Introducción
Transfer Learning
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
• Definición: Dado un dominio (Df ) y tarea (Tf ) fuentes,
un dominio (Do ) y tarea (To ) objetivos, aprendizaje por
transferencia busca mejorar el aprendizaje de la función
objetivo usando conocimiento en Df y Tf
Temas
relacionados y
preguntas
abiertas
• Cuando las tareas son diferentes entonces los
dominios de las clases son diferentes
(INAOE)
5 / 60
Introducción
Transfer Learning
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• En TL se consideran tres aspectos fundamentales:
• Qué transferir
• Cómo transferir
• Cuándo transferir
• El transferir conocimiento no siempre es útil y puede
dañar el desempeño de los algoritmos (negative
transfer)
(INAOE)
6 / 60
Introducción
Algoritmos
Introducción
TL en RL
TL en BN
Podemos catalogar a los algoritmos de TL en tres:
• Inductive transfer learning: la tarea fuente y objetivo son
diferentes: (i) se tienen muchos datos del dominio
fuente, (ii) no se tienen datos del dominio fuente
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• Transductive transfer learning: las tareas de la fuente y
objetivo son las mismas, pero los dominios son
diferentes: (i) los espacios de atributos son diferentes
en la fuente y en el objetivo, (ii) los atributos son iguales
pero las probabilidades marginales son diferentes
(P(Xf ) 6= P(Xo ))
• Unsupervised transfer learning: no se tienen datos
etiquetados en ningún caso, las tareas son diferentes
pero de alguna forma relacionadas
(INAOE)
7 / 60
Introducción
Motivación
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
(INAOE)
8 / 60
Introducción
Inductive Transfer Learning
Introducción
TL en RL
TL en BN
Opciones de conocimiento a transferir:
• Transferir instancias: en este caso los espacios de
TL en TNBN
atributos son iguales, aunque no necesariamente todos
los ejemplos son útiles
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• Transferir la representación de los atributos: aprender
una representación de baja dimensionalidad que se
pueda compartir entre tareas
• Transferir parámetros: ya sean parámetros o
distribuciones de los algoritmos de aprendizaje
utilizados
• Transferir conocimiento relacional: relaciones
equivalentes entre dominios
(INAOE)
9 / 60
Introducción
Transductive Transfer Learning
Introducción
TL en RL
TL en BN
TL en TNBN
• En transductive learning todos los ejemplos
TL en RL con
GPs
(entrenamiento y prueba) se conocen de entrada. En
transductive transfer learning se conocen algunos de
ejemplos no etiquetados de la tarea objetivo se
conocen.
• Se pueden transferir:
Temas
relacionados y
preguntas
abiertas
• Instancias: usan muestreos (importance sampling)
• Transferir la representación de los atributos: ... en
aprendizaje no supervisado?
(INAOE)
10 / 60
Introducción
Unsupervised Transfer Learning
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• N se tienen etiquetas en los ejemplos fuente y objetivo
• Se pueden transferir representaciones de atributos,
e.g., Self-taught clustering: clustering de una pequeña
colección de datos sin etiquetas usando una gran
cantidad de datos no etiquetados de la fuente.
(INAOE)
11 / 60
Introducción
Tranferencia Negativa
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• Ocurre cuando el dominio y tarea fuentes reducen el
desempeño del aprendizaje en el objetivo.
• Que falta:
• Como evitar transferencia negativa
• Estudiar “transferibilidad” entre dominios fuente y
obejtivo
• Se puede transferir parte del dominio?
• Transferir entre dominios y tareas múltiples con
diferentes atributos (heterogeneous transfer learning)
• Escalarlo a aplicaciones más grandes
(INAOE)
12 / 60
TL en RL
TL en RL
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• En Aprendizaje por Refuerzo (RL), TL se usa para usar
conocimiento de una o más tareas fuente para
aprender una o más tareas objetivo
• Los pasos a seguir son:
• Dada una tarea objetivo, seleccionar la(s) tarea(s)
fuente(s) de las cuales se va a transferir
• Aprender cómo se relacionan las tareas fuente y
obejtivo
• Transferir de forma efectiva conocimiento de la(s)
fuente(s) a la(s) tarea(s) objetivo
(INAOE)
13 / 60
TL en RL
Métricas de Desempeño
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
Se pueden usar diferentes métricas para evaluar los
beneficios de TL:
• Jumpstart: El desempeño inicial de un agente en la
tarea objetivo
• Desempeño asintótico: El desempeño final del agente
en la tarea objetivo
• Recompensa total: La recompensa total acumulaa
• Razón de transferencia: La división entre la
recompensa total acumulada con y sin transferencia
• Tiempo para alcanzar el umbral: El tiempo requerido
para alcanzar un nivel de desempeño pre-establecido
(INAOE)
14 / 60
TL en RL
Efectos de TL en RL
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
(INAOE)
15 / 60
TL en RL
Selección de Diferentes Fuentes
Introducción
TL en RL
TL en BN
• Qué suposiciones se hacen en cuanto a las posibles
diferencias entre el fuente y el objetivo?
TL en TNBN
TL en RL con
GPs
• Cómo garantizar no transferir de tareas irrelevantes
Temas
relacionados y
preguntas
abiertas
• Se hace selección de diferentes fuentes?
• Se hace un mapeo entre tareas? Está dado o es
automático?
• Inter-task mapping - entre acciones, parciales, ...
• Información cualitativa?
• En general, en la mayorı́a de los algoritmos el mapeo lo
da el usuario!
(INAOE)
16 / 60
TL en RL
Conocimiento a Transferir
Introducción
TL en RL
TL en BN
TL en TNBN
• Puede ser conocimiento de bajo nivel, e.g., tuplas
< s, a, r , s0 >, funciones de valor (V , Q), la polı́tica (π),
el modelo de transición (p(s0 | s, a)
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• Pueden ser de más alto nivel, e.g., qué acciones usar
en determinado momento, polı́ticas parciales u
opciones, distribuciones a priori, atributos relevantes
para aprender, shaping rewards, definición de
subtareas.
• Qué algoritmos se pueden usar?
(INAOE)
17 / 60
TL en RL
Motivación
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
• Se puede transferir entre tareas que tengan diferentes:
funciones de transición, espacio de estados, estados
iniciales, estados metas, variables de estado, funciones
de recompensa, conjuntos de acciones, ...
Temas
relacionados y
preguntas
abiertas
• Relacionado: Multi-Task Learning suponen que todos
los problemas son de la misma distribución, e.g.,
aprender varios péndulos invertidos.
(INAOE)
18 / 60
TL en BN
TL en redes bayesianas
Introducción
TL en RL
TL en BN
TL en TNBN
• PC aprende un esqueleto (grafo no dirigido) y después
determina la dirección de las ligas
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• Para determinar el esqueleto empieza con una red no
dirigida completamente conectada y determina la
independencia condicional de cada par de variables
dados subconjuntos de variables.
• TL en BNs: Algoritmo para aprendizaje de red
bayesiana incorporando información de bases de datos
auxiliares.
(INAOE)
19 / 60
TL en BN
TL en BN
Introducción
TL en RL
TL en BN
• Extensión del algoritmo PC, para el caso en donde
tenemos pocos datos para la tarea objetivo y tenemos
muchos datos de tareas fuentes
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• Las diferencias con PC son en la forma en que se
evaluan las pruebas de independencia.
• Para cada par de variables X,Y la medida de
independiencia es una combinación lineal de la
estimación de la tarea objetivo con la tarea del dominio
auxiliar más cercana.
• La combinación lineal es pesada por factores que
determinan una medida de confianza.
(INAOE)
20 / 60
TL en BN
Algoritmo
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
Initialize a complete undirected graph G0
i=0
repeat
for X ∈ X do
for Y ∈ ADJ(X ) do
for S ⊆ ADJ(X ) − {Y }, | S |= i do
Find the most similar auxiliary domain, k, and its
similarity measure SkXY
Determine the confidence measures α(X , Y |S)
for target and auxiliary domains
Obtain the combined independence measure
IF (X , Y | S)
if IF (X , Y | S) then
Remove the edge X − Y from G0
end if
end for
end
for
(INAOE)
21 / 60
TL en BN
TL en BN
Introducción
TL en RL
TL en BN
• La medida de entropı́a cruzada utilizada en PC
TL en TNBN
TL en RL con
GPs
depende del tamaño de la base de datos.
• Se puede mostrar que el error de esta prueba es
Temas
relacionados y
preguntas
abiertas
proporcionalmente asintótico a
tamaño de la base de datos.
log N
2N ,
donde N es el
• Para estimar la confuanza en la prueba de
independencia entre X y Y , dado S:
α(X , Y |S) = 1 −
(INAOE)
log N
×T
2N
22 / 60
TL en BN
Similitud entre Tareas
Introducción
TL en RL
TL en BN
• Para medir la similaridad entre tareas se usa una
similaridad global y una local
TL en TNBN
TL en RL con
GPs
• La medida global considera todas las medidas de
independencia condicional I(X , Y | S)
Temas
relacionados y
preguntas
abiertas
SgDj = depj + indj
depj = número de dependencias condicionales
comunes entre la tarea objetivo y la tarea auxiliar j
indj = número de independencias condicionales
comunes entre todos los pares de variables en la tarea
objetivo y la tarea auxiliar j
(INAOE)
23 / 60
TL en BN
Similitud entre Tareas
Introducción
TL en RL
TL en BN
• La medida local de similaridad es:
TL en TNBN
SlDj (X , Y ) =
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
1,0
0,5
If I0 (X , Y |S) = IDj (X , Y |S)
If I0 (X , Y |S) 6= IDj (X , Y |S)
I0 (X , Y |S) = resultado de la prueba de independencia
en la tarea objetivo
IDj (X , Y |S) = resultado de la prueba en la tarea auxiliar
j
Las constantes dan diferente peso a las estructiras
auxiliares que tiene la misma o diferente estructura
local
(INAOE)
24 / 60
TL en BN
Similitud entre Tareas
Introducción
• Se combinan estas dos medidas como:
TL en RL
∗
SkXY
= SgDk × SlDk (X , Y )
TL en BN
TL en TNBN
• Y la medida combinada de independencia se calcula
TL en RL con
GPs
como una combinación lineal pesada de las medidas
de independencia de las tareas objetivo y fuentes:
Temas
relacionados y
preguntas
abiertas
IF (X , Y |S) = (α0 (X , Y |S) × sgn(I0 (X , Y |S))) +
∗
SkXY
αDXY (X , Y |S) × sgn(IDXY (X , Y |S))
sgn(I) = +1 si la prueba de independencia es positiva y
−1 de otra forma
α0 (X , Y |S) es la medida de confianza en el dominio
objetivo
αDXY (X , Y |S) es la medida de confianza en la tarea
auxiliar más similar para {X , Y } condicionado en S
(INAOE)
25 / 60
TL en BN
Aprendizaje de Parámetros
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• Combinar las CPTs (tablas de probabilidad condicional)
• Unificar variables:
• Mismas variables: fácil
• Más padres en las estructuras auxiliares: aplicar
marginalización (sumar sobre todos los valores de las
variables extra)
• Menos padres en las estructuras auxiliares: duplicar los
valores de las CPTs para todos los valores de las
variables extra
• Una combinación de las 2 anteriores: primero
marginalizar y luego duplicar
(INAOE)
26 / 60
TL en BN
Tablas de Probabilidad Condicional
Introducción
TL en RL
TL en BN
Ya que se tienen las mismas variables existen varias formas
de combinar los valores de las CPTs:
TL en TNBN
TL en RL con
GPs
• Lineal:
P(X ) = k ×
Temas
relacionados y
preguntas
abiertas
n
X
wi Pi (X )
i=1
Pi (X ) probabilidad condicional del i-ésimo modelo
• Logarı́tmica.
P(X ) = k ×
n
Y
Pi (X )wi
i=1
(INAOE)
27 / 60
TL en BN
Tablas de Probabilidad Condicional
Introducción
TL en RL
TL en BN
TL en TNBN
• Distance Based Linear Pool:
TL en RL con
GPs
ptarget = (1 − ci )ptarget + ci p
Temas
relacionados y
preguntas
abiertas
donde:
p=k
n
X
(fi × pi )
i=1
(
fi =
(INAOE)
1−
1−
log(cf )
cf
cf ×log(3)
3
if cf ≥ 3
if cf < 3
28 / 60
TL en BN
Tablas de Probabilidad Condicional
Introducción
TL en RL
TL en BN
TL en TNBN
• Local Linear Pool: Se usan solo las más parecidas
TL en RL con
GPs
ptarget = ftarget × ptarget + (1 − ftarget ) × plocal
Temas
relacionados y
preguntas
abiertas
donde ftarget de el nivel de confianza en las CPTs y
n
plocal
1X
pi ∀pi s.t. pi ∈ {ptarget ± (ptarget − p)}
=
n
i=1
(INAOE)
29 / 60
TL en BN
Resultados
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
(INAOE)
30 / 60
TL en BN
Resultados
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
(INAOE)
31 / 60
TL en TNBN
TL en Redes Bayesianas de Nodos
Temporales
Introducción
TL en RL
TL en BN
TL en TNBN
• Una red bayesiana de nodos temporales sirve para
modelar procesos dinámicos que están caracterizados
por cambios irreversibles
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
Dominio
auxiliar
Dominio
auxiliar
Dominio
auxiliar
(INAOE)
Dominio
objetivo
32 / 60
TL en TNBN
Esquema General
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
(INAOE)
33 / 60
TL en TNBN
Determinación de Intervalos
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
(INAOE)
34 / 60
TL en TNBN
Resultados en HIV
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
(INAOE)
35 / 60
TL en RL con GPs
TL en RL con GPs
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
RL:
• No requiere de un modelo del ambiente
• El agente aprende solo
• Converge a la polı́tica óptima
Pero:
• El aprendizaje es lento
• Pocos desarrollos en ambientes complejos con
variables continuas
• No se pueden reutilizar polı́ticas
(INAOE)
36 / 60
TL en RL con GPs
TL en RL con GPs
Introducción
TL en RL
TL en BN
TL en TNBN
• Se transfirieron parámetros y se sintetizaron tuplas
(tesis Omar)
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• Al transferir tuplas se tiene que definir cuáles
• Filtro de Lazaric:
• De dónde transferir? La probabilidad de que la tarea
origen genere muestras de la tarea destino (task
compliance)
• Cuáles transferir? Muestras muy relevantes o muy
alejadas (relevance)
(INAOE)
37 / 60
TL en RL con GPs
Procesos Gaussianos
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
• Distribución Gaussiana multivariada
Temas
relacionados y
preguntas
abiertas
p(x; µ, Σ) =
1
(2π)n/2 |Σ|1/2
1
exp(− (x − µ)T Σ−1 (x − µ))
2
• Un proceso gaussiano es una generalización a un
número infinito de variables: GP(m(·), k(·, ·))
(INAOE)
38 / 60
TL en RL con GPs
Motivación
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
Aunque parece peor trabajar con dimensionalidad infinita, lo
se calcula se hace en dimensiones finitas
(INAOE)
39 / 60
TL en RL con GPs
Procesos Gaussianos
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
• En particular, se debe cumplir que:
Temas
relacionados y
preguntas
abiertas
"
p
(INAOE)
~h
h~∗
#
!
|X , X∗
k(X , X ) k(X , X∗ )
~
∼ N 0,
k(X∗ , X ) k(X∗ , X∗ )
40 / 60
TL en RL con GPs
Procesos Gaussianos
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
• Para el ruido:
Temas
relacionados y
preguntas
abiertas
p
(INAOE)
~
~∗
"
∼N
~0,
σ 2 I ~0
~0T σ 2 I
#!
41 / 60
TL en RL con GPs
Procesos Gaussianos
Introducción
TL en RL
TL en BN
TL en TNBN
• Suponemos que son independientes, por lo que su
TL en RL con
GPs
suma también lo es:
Temas
relacionados y
preguntas
abiertas
"
# ~h
~y
~
|X , X∗ = ~
+
∼
y~∗
~∗
h∗
k (X , X ) + σ 2 I k (X , X∗ )
~
N 0,
k (X∗ , X )
k (X∗ , X∗ ) + σ 2 I
(INAOE)
42 / 60
TL en RL con GPs
Procesos Gaussianos
Introducción
TL en RL
TL en BN
TL en TNBN
• Usando las reglas de condicionamiento gaussianas, se
sigue que:
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
~y∗ |~y , X , X∗ ∼ N (µ∗ , Σ∗ )
donde:
µ∗ = K (X∗ , X )(K (X , X ) + σ 2 I)−1~y
Σ∗ = K (X∗ , X∗ )+σ 2 I−K (X∗ , X )(K (X , X )+σ 2 I)−1 K (X , X∗ )
(INAOE)
43 / 60
TL en RL con GPs
Kernel e Hiperparámetros
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
1 (x − x 0 2
k(x, x 0 ) = α02 exp(− (
) )
2
λ
(INAOE)
44 / 60
TL en RL con GPs
Cálculo de los Hiperparámetros
Introducción
TL en RL
TL en BN
• Recordando la definición de una distribución gaussiana
TL en TNBN
multivariable:
TL en RL con
GPs
p(x|µ, Σ) =
Temas
relacionados y
preguntas
abiertas
1
(2π)n/2 |Σ|1/2
1
exp(− (x − µ)T Σ−1 (x − µ))
2
• P(y |x, θ) sigue una distribución gaussiana multivariable
con media cero y covarianza de K + σn2 I (si
consideramos ruido)
1
1
n
logp(y |x, θ) = − y T (K + σn2 I)−1 y − log|K | + σn2 I| − log2π
2
2
2
(INAOE)
45 / 60
TL en RL con GPs
Hiperparámetros
Introducción
• Los hiperparámetros nos determinan las posibles
TL en RL
distribuciones
TL en BN
TL en TNBN
• Para obtener los hiperparámetros podemos derivar con
respecto a θ, pero antes es importante usar las
siguientes dos expresiones:
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
∂ −1
∂K −1
K = −K −1
K
∂θ
∂θ
donde ∂K
∂θ es una matriz con las derivadas de sus
elementos.
∂
∂K
log|K | = tr (K −1
)
∂θ
∂θ
donde tr o trace es la suma de los elementos de la
diagonal de la matriz
(INAOE)
46 / 60
TL en RL con GPs
Hiperparámetros
Introducción
TL en RL
• Entonces:
TL en BN
∂
1
∂K −1
1
∂K
p(y|x, θ) = y T K −1
K y − tr (K −1
)
∂θj
2
∂θj
2
∂θi
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
=
∂K
1
tr ((ααT − K −1 )
)
2
∂θi
donde α = K −1 y
• Para obtener entonces los hiperparámetros se sigue un
proceso basado en gradiente (es un problema de
optimización no-convexo), por ejemplo, basado en
gradiente conjugado o quasi-Newton
• Se puede caer en mı́nimos locales
(INAOE)
47 / 60
TL en RL con GPs
PILCO
Introducción
TL en RL
TL en BN
TL en TNBN
• Usa GP para modelar funciones de transición
(P(s0 | s, a))
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• Usa funciones de base radial para representar la
polı́tica
• Ciclo:
• Dada una π obten datos
• Con datos infiere una nueva función de transición
• Con la función de transición evalúa y mejora π
(INAOE)
48 / 60
TL en RL con GPs
Motivación
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
VIDEO DE PILCO
(INAOE)
49 / 60
TL en RL con GPs
QTL
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• La idea es transferir hiperparámetros (sesgo sobre la
distribución de posibles funciones de transición)
• Hay que definir cómo hacer la transferencia
• Esta se hace de forma gradual:
• Usando un factor de olvido (FORMULA)
• Actualización Bayesiana (FORMULAS y FIGURAS)
(INAOE)
50 / 60
TL en RL con GPs
SST
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
Sı́ntesis de Tuplas:
• Aprender una función de transición en la tarea objetivo
• Aprender/usar la función de transición de la tarea
original
• Aprender una función de diferencias
• En espacios poco explorados, generar ejemplos
artificiales usando los ejemplos de la tarea original y la
función de diferencias
(INAOE)
51 / 60
TL en RL con GPs
Dónde y Cuántas Tuplas
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• En lugares desconocidos (alejados en < s, a >): Si ya
tengo ejemlos, no necesito generar
• Generar hasta completar el número de ejemplos
usados en la tarea original
• Mantener ese número fijo => ir reduciendo el número
de ejemplos de la tarea original conforme se explora la
tarea objetivo
(INAOE)
52 / 60
TL en RL con GPs
Proceso
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
FIGURAS DE PROCESO
(INAOE)
53 / 60
TL en RL con GPs
Experimentos QTL
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
Probar:
• Transferencia desde diferentes variantes
• Usar hiperparámetros de la tarea original
• Usar la polı́tica de la tarea original
• Diferentes valores de γ (γ = 0 => PILCO)
• Enfoque Bayesiano
(INAOE)
54 / 60
TL en RL con GPs
Resultados
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
FIGURAS
(INAOE)
55 / 60
TL en RL con GPs
Experimentos SST
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• PILCO
• Transferir todas la tuplas
• Transferir usando un filtro simple
• Transferir usando el filtro de Lazaric
• Todas las tuples + SST
• Filtro simple + SST
• Filtro Lazaric + SST
(INAOE)
56 / 60
TL en RL con GPs
Resultados SST
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
FIGURAS
(INAOE)
57 / 60
TL en RL con GPs
Helicóptero a Cuadróptero
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
VIDEO
(INAOE)
58 / 60
Temas relacionados y preguntas abiertas
Algunas Técnicas Relacionadas
Introducción
TL en RL
TL en BN
TL en TNBN
TL en RL con
GPs
• Lifelong learning
Temas
relacionados y
preguntas
abiertas
• Imitation learing
• Human advice
• Shaping
• Concept Drift
(INAOE)
59 / 60
Temas relacionados y preguntas abiertas
Preguntas Abiertas
Introducción
TL en RL
• Si se tiene un modelo de una tarea fuente, cómo
TL en BN
modificarlo para la tarea objetivo
TL en TNBN
TL en RL con
GPs
Temas
relacionados y
preguntas
abiertas
• Se pueden modificar las tareas fuentes
automáticamente para mejorar el aprendizaje?
• Se pueden tomar ideas de theory revision/refinement
para hacer un mapeo entre tareas?
• La transferencia se podrı́a utilizar para mejorar el
mecanismo de exploración del agente en la tarea
objetivo?
• Transferencia negativa: No hay trabajo que defina dse
forma confiable cuándo una transferencia va a ser
negativa
(INAOE)
60 / 60
Descargar