您现在的位置是：首页 > IT要闻

当前栏目

【论文笔记】元强化学习综述解读 (arXiv: 2301.08028)

论文笔记学习

2023-04-18 16:45:40 时间

【论文笔记】元强化学习综述（2023牛津/斯坦福版）

文章目录

【论文笔记】元强化学习综述（2023牛津/斯坦福版）

前言

这篇文章的 arXiv 号是：2301.08028。一部分内容是翻译的，一部分内容是自己理解的。翻译和理解内容存在偏差，请网友见谅。随着研究认识的逐渐深入，会在后续的增加/删除/改动一些内容。

谢谢大家！

0 Abstract

While deep reinforcement learning (RL) has fueled multiple high-profile successes in machine learning, it is held back from more widespread adoption by its often poor data efficiency and the limited generality of the policies it produces.

尽管深度强化学习在多个领域取得了成功，但是因其较低的数据有效性和生成策略缺乏普遍性，因此难以得到更广泛的应用。

A promising approach for alleviating these limitations is to cast the development of better RL algorithms as a machine learning problem itself in a process called meta-RL.

缓解这些限制的一个有希望的方法是，在称为元强化学习的过程中，将更好的强化学习算法的开发本身视为一个机器学习问题。

Meta-RL is most commonly studied in a problem setting where, given a distribution of tasks, the goal is to learn a policy that is capable of adapting to any new task from the task distribution with as little data as possible.

元强化学习的问题是这样描述的：给定一组任务的分布（大前提），元强化学习的目标是：学习到一个策略，能够用尽可能少的数据（小样本的特点）来快速适应（性能指标）到这个分布内的任何一个新任务中。可见，这与传统的强化学习最大化回合累计奖励的目标措辞不一样了。

In this survey, we describe the meta-RL problem setting in detail as well as its major variations. We discuss how, at a high level, meta-RL research can be clustered based on the presence of a task distribution and the learning budget available for each individual task. Using these clusters, we then survey meta-RL algorithms and applications. We conclude by presenting the open problems on the path to making meta-RL part of the standard toolbox for a deep RL practitioner.

本文详细描述了元强化学习问题的设置及其主要算法的变种。
本文的分类方式：任务分布的表现形式、对每个任务能够学习到的内容（推测意思应该是样本的大小）
最后，作者为使元强化学习成为深度强化实践者的实用工具的发展方向上，提出了若干问题。

1 Introduction

元强化学习的简介？

Meta-reinforcement learning (meta-RL) is a family of machine learning (ML) methods that learn to reinforcement learn. That is, meta-RL uses sample-inefficient ML to learn sample-efficient RL algorithms, or components thereof. As such, meta-RL is a special case of meta-learning , with the property that the learned algorithm is an RL algorithm. Meta-RL has been investigated as a machine learning problem for a significant period of time. Intriguingly, research has also shown an analogue of meta-RL in the brain.

元强化学习属于机器学习的一个分支，用来**“学习强化学习”。作者的意思是，元强化学习使用采样不高效的机器学习方法来学习采样高效的强化学习方法（用方法学习方法，本身就是meta的意味），也就是说，元强化学习本身也属于元学习的范畴，但是相比于传统的元学习，元强化学习的方法必然具有强化学习算法的特点（策略、价值等）。元强化学习已经研究了明显的一段时间了（我看的论文最早是2019年，但是引用了在21世纪初就有了）。元强化学习在脑内的研究也有体现，也就是“类脑学习/智能”**。

元强化学习相比于传统强化学习能多做什么？

Meta-RL has the potential to overcome some limitations of existing human-designed RL algorithms. While there has been significant progress in deep RL over the last several years, with success stories such as mastering the game of Go, stratospheric balloon navigation, or robot locomotion in challenging terrain. RL remains highly sample inefficient, which limits its real-world applications. Meta-RL can produce (components of) RL algorithms that are much more sample efficient than existing RL methods, or even provide solutions to previously intractable problems.

元强化学习具有解决现存的人工设计的强化学习算法局限性的能力/潜力（毕竟是“元”的了，是在原本策略的基础上再升级的所以可以解决一些传统的问题。）尽管深度强化学习方法再过去的几年内有了明显的进步，比如Go系列的游戏、平流层气球的导航（飞行器那边的控制/规划问题）、机器人在坑洼地带的运动。现存的强化学习方法仍然具有采样不充分/不高效的问题，限制了其在真实世界的应用。元强化学习的方法能够产生强化学习算法/算法组件（小规模函数）等，让产生的新算法相比于之前更加采样高效，甚至能解决传统方法难以解决的问题。

元强化学习算法自身存在的不足之处？元强化学习如何处理这些不足之处？

At the same time, the promise of improved sample efficiency comes with two costs. First, meta-learning requires significantly more data than standard learning, as it trains an entire learning algorithm (often across multiple tasks). Second, meta-learning fits a learning algorithm to meta-training data, which may reduce its ability to generalize to other data. The trade-off that meta-learning offers is thus improved sample efficiency at test time, at the expense of sample efficiency during training and generality at test time.

元强化学习在解决采样不高效问题的同时，也会带来两个主要的损失。

元系列方法相比于经典的学习方法需要更多的数据。这是因为它想达到一种跨任务/多任务的通用性，需要学习整个算法（前半句阐述合理，后半句的意思可能是在以学好策略的基础上还要再增加训练实现泛化，因为意识到元的层级比传统的层级更高一些）。
元系列用传统机器学习的方法学习算法，而且用的是训练数据。这就可能会带来过拟合，在其他数据上的表现就会下降一些（这算是一个比较普遍的问题吧）。

元学习/强化学习解决这个平衡的方法是不同阶段解决不同的问题。在目标域新任务的元测试阶段重点解决采样高效性（这也是元的目标），在元训练阶段主要降低/牺牲采样高效性来处理其他的多数据和过拟合问题。

元强化学习的一个小举例？

考虑一下与机器人厨师一起进行自动烹饪的任务。

当这样的机器人被部署在某人的厨房里时，它必须学习一个特定于厨房的策略，因为每个厨房都有不同的布局和电器设施。由于训练早期的随机行为，从头开始直接训练机器人太耗时，而且有潜在的危险（机器人打翻锅碗、乱用电饭煲电磁炉 like this）。

另一种选择是在一个训练厨房里对机器人进行预训练（大模型 pre-train），然后在新厨房里对其进行微调（fine-tune）。但是，这种方法并没有考虑到随后的微调过程（可能的意思是，预训练得到的结果就是一个模型，但是它仅仅就给了一个模型 to 机器人，那么机器人在环境中如何使用预训练好的模型、如何调参数，预训练模型自身没有告诉机器人）。

相比之下，meta-RL 在一个满足某种分布的厨房，很多（服从于这个分布采样出来的）厨房中，训练机器人，使它能够适应该分布中的任何新厨房。这可能需要学习一些参数来实现更好的微调，或者学习将部署在新厨房中的整个RL算法。

用这种方式训练的机器人既可以更好地利用收集到的数据，也可以收集更好的数据，例如，通过关注新厨房的不寻常或具有挑战性的特性（比如说有些算法在目标域任务上需要知道表征分布，这个表征分布是每个任务特有的）。这种元学习过程比简单的微调方法需要更多的样本，但它只需要发生一次，以及由此产生的适应过程。

This example illustrates how, in general, meta-RL may be particularly useful when the need for efficient adaptation is frequent, so the cost of meta-training is relatively small. This includes, but is not limited to, safety-critical RL domains, where efficient data collection is necessary and exploration of novel behaviors is prohibitively costly or dangerous. In many cases, a large investment of sample-inefficient learning upfront (either with oversight, in a laboratory, or in simulation) is worthwhile to enable subsequent improved adaptation behavior.

这个例子说明了在一般情况下，当需要有效适应的情况频繁时，元强化学习可能特别有用，因此元训练的成本相对较小（可能的意思是，比如我要是快速适应100个同分布下的任务，我训练任务用10个单位的数据，这可能比传统强化学习方法1个单位的大了很多，但是在快速适应这么多任务的能力下，我10个单位其实算少了，maybe）。这对于安全强化学习更加重要，这样的任务中采样有效性更加重视，因为对新状态和任务的探索会带来潜在的危险。“ 在许多情况下，预先投入大量的样本低效学习（无论是在实验室中，还是在模拟中）是值得的，以实现后续改进的适应行为。 ”

作者给出了一个元强化学习的简单例子——2D导航任务。在元训练阶段，智能体在圆心，目标在圈圈上，然后元训练的目的就是让智能体达到这些叉叉目标。在元测试阶段再从分布中抽取与原来不一样的目标叉叉，那么智能体可以通过几步/批的数据就能达到目标。相比于传统强化学习从头开始学，这样的方法显然更快。

2 Background

2.1 Reinforcement learning

马尔可夫模型 $M=<S,A,R,P,P_{0},T,gamma>$

$S$ ：状态空间； $A$ ：动作空间，分离散状态（Atari 游戏按钮）和连续状态（机器人控制）；

$R=r(s_{t},a_t,s_{t+1}): S imes A imes S ightarrow R$ ：奖励函数；

$P=p(s_{t+1}|s_{t},a_{t})$ ：状态转移概率； $P_{0}=p(s_{0})$ ：初始状态的分布；

$T$ ：视野； $γ \in [0, 1]$ ：折扣因子；

$π (a ∣ s)$ ：当前状态下从状态到动作的映射，得到的是一个概率分布，也即是这个状态下做这个动作的可能性更大一点；

$au={s_t,a_t,s_{t}^{prime}}_{t=0}^{T}$ ：状态转移轨迹，从开始到结束，每一个小结就是一个 $τ$ 。

智能体与环境进行交互，得到的轨迹由于动作产生和状态转移都是概率分布的，因此也是以概率分布的形式呈现。
$au)=P(s_{0})prodlimits_{t=0}^{T}pi(a_{t}|s_{t})p(s_{t+1}|s_{t},a_{t}) ag1$
一个策略采取行动，在一个episode内最大化预期的折扣下的回报：
$J(pi)=E_{ ausim p( au)}ig[sumlimits_{t=0}^{T}gamma^{t}r_{t}ig] ag2$
在优化这一目标的过程中，收集了多个episode。用 $au}^{H}$ 表示收集到了 $H$ episode的数据。RL算法是一个将数据映射到策略的函数。

在这个综述中，作者就考虑了参数化的策略（还有表格型的策略，应该算是经典强化下的了，这里考虑的是从神经网络这样类似的拟合的强化学习）。就有策略参数和参数空间了： $ϕ \in Φ$ 。

因此这里作者将强化学习定义成了一个函数：
$auig]^{H})=f(ig[{S imes A imes S}^{T}ig]^{H}) ightarrowphi ag3$
在实践中，数据可能包括可变长度的episode。

2.2 Meta-RL definition

RL algorithms are traditionally designed, engineered, and tested by humans. The idea of meta-RL is instead to learn (parts of) an algorithm f using machine learning. Where RL learns a policy, meta-RL learns the RL algorithm f that outputs the policy. This does not remove all of the human effort from the process, but shifts it from directly designing and implementing the RL algorithms into developing the training environments and parameterizations required for learning parts of them in a data-driven way.

从公式3中可以得到，传统的强化学习方法一般是认为设计这个 $f$ 函数，那么元强化学习的想法是，学习如何产生这个函数 $f$ ，且用的是机器学习非人工的方法（这个 $f$ 函数是为了统一元学习图像/自然语言那边的函数吧感觉，不过这样建模确实清晰很多了）。强化学习最终得到策略，即这个 $f$ 函数的结果，参数化的策略网路；元强化学习最终得到的是 $f$ 函数。元强化学习过程并非自动强化学习，也就是元强化学习还有人的参与，但是人在这个过程中从直接设计强化学习算法转变成以数据驱动的方式开发训练环境（任务组的分布）和生成 $f$ 函数的参数化表现。

任务1：数据集1——策略1；任务2：数据集2——策略2；······任务N：数据集N——策略N。

传统强化学习：任务1：策略1 $f_{1}$ ；任务2：策略2 $f_{2}$ ······任务N：策略N $f_{N}$ 。——> meta 数据集

元强化学习：得到了一个函数 $g$ 。 $f_{i}=g(任务i)$ 。

元强化学习的术语

$f_{ heta}$ ： $θ$ 表示元参数（meta parameters），也就是元训练过程最终得到的参数，满足元训练目标的参数。
$phi=f_{ heta}(D)$ ： $ϕ$ 表示基参数（base parameters），对应的策略是基策略（base policy）。直接由元参数得到的元策略在对应数据集（ $D$ ，元轨迹，meta trajectory）上面生成就有的。
inner/outer-loop：由于这种双层结构，学习 $f$ 的算法通常被称为外环（outer-loop），而学习到的 $f$ 被称为内环（inner-loop）。MAML 算法的元训练过程，就是在内环上对学习到的 $f$ 做测试，测试的好坏以及更新方向由外环处理。
$θ$ 是在外环更新的，因此是称为外环参数（outer-loop parameters）； $ϕ$ 的实际策略在内环跑环境得到数据，因此称为内环参数（inner-loop parameters）。
adaptation/meta-training：与第四点类似，因为 $ϕ$ 的实际策略在内环跑环境得到数据，因此称为适应过程（adaptation）； $θ$ 是在外环更新的，外环更新过程叫元训练（meta-training）。
meta-testing：学习到的函数 $f$ 在同分布新任务上的效果展现，就是元测试（meta-testing）。
tasks和distribution：我们想要元训练得到一个元参数 $θ$ ，其对应的策略能够快速适应新的MDP过程，并生成对应的实际策略 $pi_{phi}$ 。这种元训练需要访问利用一组训练 MDPs。这些 MDPs，也被称为任务（tasks），来自于一个表示为 $p (M)$ 的分布（distribution）。

注意（2-2-1）

尽管任务的分布可以在马尔可夫过程的每个要素上，但是一般来说，不同任务之间的状态空间和动作空间都是共享的，而能够变化的就是在：奖励函数、初始状态分布、状态转移概率（也称为环境动力学）上。

Meta-training proceeds by sampling a task from the task distribution, running the inner-loop on it, and optimizing the inner-loop to improve the policies it produces.

元训练过程一般是从任务分布中采样任务，然后在内环上运行，再优化内环的输出实际策略。

每个任务具有自己独有的 MDP，每个 MDP 都在其中跑 H 个episodes，每个任务中的训练都叫一个 trial。元训练过程是跨任务的，也就是在不同的 MDPs 上整合所有的内容做训练。

元强化学习的目标是什么？

元强化学习算法的性能是根据从任务分布中抽取的任务 $M$ 的内环所产生的策略 $π_{φ}$ 所获得的回报来衡量的。

也就是说，元强化学习的性能测试是：给定环境 -> 元参数 $θ$ -> 内环具化成具体参数 $ϕ$ -> 根据具体参数 $ϕ$ 的累计回报确定性能。不同的问题会对这个目标做不同的变化。

For some applications, we can afford a burn-in or adaptation period, during which the performance of the policies produced by the inner-loop is not important as long as the final policy found by the inner-loop solves the task. The episodes during this burn-in phase can be used by the inner-loop for freely exploring the task.

对于一些应用场景，我们只考虑最后适应成功的策略的性能，因此允许存在 “ 老化 ” 或者 “ 适应 ” 期。这个适应期的具体概念是：只要通过内环能得到策略，那么从元策略到最终实际策略的这个过程不用过于关注。在这个 “ 适应 ” 阶段的episode可以被内环用来自由地探索任务（也可以用于感知这个任务的特点，但是我们的期望还是这个适应期越短越好，才能达到快速适应的要求）。

Maximizing these different objectives leads to different Learned exploration strategies: a burn-in enables more risk-taking at the cost of wasted training resources when the risks are realized.

不同的学习目标会导致不同的探索策略：如果学习目标容许适应期存在，那么当环境存在一些冒险事件时候（比如说厨师机器人意识到可以加大火力炒菜，但是会造成烧焦/损坏），智能体会花费一些训练资源来“实践”一下这些冒险事件。

For other applications, a burn-in period is not possible and correspondingly the agent must maximize the expected return from the first timestep it interacts with the environment.

对于另一个应用方向，智能体不被允许有适应阶段，因此他在第一次交互中就要最大化奖励（过于极端了）。

元强化学习的目标具有通用形式。 $M^{i}sim p(M)$ 表示从任务分布中抽取某些/批任务。 $H$ 表示智能体在这个任务上的性能测试至多几次，也就是至多产生多少个episodes。 $K$ 表示智能体在新任务上的第几个episode开始进行测试。而 $K = 0$ 表示没有适应期，元过程直接跑测试（一般来说论文目前看到的都是 $K = 0$ 就是直接测试）。
$heta)=E_{M^{i}sim p(M)}ig[ E_{D}[sumlimits_{ auin D_{K:H}}G( au)|f_{ heta},M^{i}] ig] ag4$

2.3 Example algorithms

针对这个目标函数，目前来说主要存在两大类元训练更新方法。第一种是模型无关元学习方法，也就是大名鼎鼎的 MAML，它使用元梯度做更新；另一种方法用循环神经网络做的，也就是 RL^2。

其他的方法都是在这两类上做改进（还有一种上下文的方法，目前来看还没放进来）。

MAML

内环算法 $f_{θ}$ 的许多设计都建立在现有的RL算法的基础上，并使用元学习来改进它们。这个好理解，也符合工程，就是先让别人做好在单一任务上的一些策略，然后再通过元更新的方法升级成元策略。MAML 是这个思路的标志性方法。

Its inner-loop is a policy gradient algorithm whose initial parameters are the meta-parameters $φ_{0} = θ$ . The key insight is that such an inner-loop is a differentiable function of the initial parameters, and therefore the initialization can be optimized with gradient descent to be a good starting point for learning on tasks from the task distribution.

内环更新方法是策略梯度方法，且初始参数就是元参数，也就是： $φ_{0} = θ$ 。关键的观点是，这种内环是初始参数的可微函数，因此初始化可以通过梯度下降进行优化，从而成为从任务分布中学习任务的良好起点。

When adapting to a new task, MAML collects data using the initial policy and computes an updated set of parameters by applying a policy gradient step for a task.

当适应新任务时，MAML使用初始策略收集数据，并通过对任务应用策略梯度步骤来计算一组更新的参数。
$phi_{1}^{i}=f(D_{0}^{i},phi_{0})=phi_{0}+alpha abla_{phi_{0}}hat{J}(D_{0}^{i},pi_{phi_{0}}), ext{where }M^{i}sim p(M) ag5$
这个公式中， $J ^ hat{J}$ 表示元参数产生的策略在特定任务上的折扣回报， $α$ 表示学习比率。在内环中，不同的任务会获得不同的梯度形式。

To update the initial parameters $φ_0$ in the outer-loop, MAML computes the gradient of the returns of the updated policy with respect to the initial parameters.
$phi_{0}^{prime}=phi_{0}+etasumlimits_{M^{i}sim p(M)}hat{J}(D_{1}^{i},pi_{phi_{1}}^{i}) ag6$
MAML方法计算了相对于初始参数更新后策略 $pi_{phi_{1}}^{i}$ 在特定任务上的损失，然后乘以一个 $β$ 来更新。在外环上的梯度下降表示成元梯度（meta-gradient）。

元强化学习算法MAML示意图。

注意（2-3-1）

MAML算法的 $K$ 和 $H$ 取值问题，通过选择合适的参数使得MAML算法外环目标只考虑由内环产生的最后一个策略的回报。一般来说，选择 $K = 1$ 和 $H = 2$ 也就是考虑一步的内环更新和一步的外环更新，但是如果要容纳许多任务的梯度的话，也会经常使用较高的 $K$ 和 $H$ 取值。

RL^2

Another popular approach to meta-RL is to represent the inner-loop as an RNN and train it on tasks from the task distribution end-to-end with RL.

另一种表征内环的元强化学习方法是基于循环神经网络的，并且是端到端训练分布内的任务的强化学习。代表作就是 RL^2 ，当然相似的基于上下文监督学习方法也有在之前体现到。

In RL^2 , the RNN not only looks at the previous states, but also at the previous actions and rewards allowing it to adapt the policy on-the-go.

在此方法中，循环神经网络不仅观测先前的状态，还观测了先前的动作和奖励，允许现在的策略能够更好适应。

The meta-parameters $θ$ are the parameters of the RNN and other neural networks used in processing the inputs and outputs of $f_{θ}$ . The inner-loop parameters $φ$ are the ephemeral hidden states of the RNN, which may change after every timestep.

元参数就是循环神经网路的参数，而且他网络的参数是用来处理输入/输出元策略的数据。内环参数 $ϕ$ 是循环神经网络的瞬时隐藏状态，这个参数会随着每个时间步做变化。

The outer-loop objective is the expected discounted sum of rewards across the entire trial, which may consist of multiple episodes, instead of the standard RL objective that is the expected return in a single episode. This corresponds to the objective given by Equation 4 with $K = 0$ up to differences in the discounting.

外环目标是整个 trial （对应一个特定 MDP 的全过程）的预期奖励折扣和，这可能包括多个episodes，而不同于标准的RL目标，即单个episode的预期回报。这与 $K = 0$ 的方程 4 给出的目标一致。

To optimize this objective, RL2 treats the trial as a single continuous episode, during which the RNN hidden state is not reset.

为了优化这一目标，RL2将整个 trial 视为一个连续事件，在此期间RNN隐藏状态不会重置。

RL2的方法示意图

两种方法的优势和劣势

MAML has the appealing property that the inner-loop is just a policy gradient algorithm, which can under certain assumptions produce an improved policy from the initialization on any given task, even one from outside the task distribution. In contrast, RL2 may not learn at all on tasks that it has not seen before, since they may require zero-shot generalization from the RNN. However, MAML cannot trivially adapt the policy after every timestep, and its policy gradient updates tend to yield a less sample efficient inner-loop than to RL2 .

MAML具有一个吸引人的特性，即内环只是一个策略梯度算法，在一定的假设下，它可以从任何给定任务的初始化中产生改进的策略，甚至是来自任务分布之外的策略。相比之下，RL2可能根本不学习它以前从未见过的任务，因为它们可能需要从RNN中进行少样本学习。然而，MAML不能在每个时间步长之后简单地调整策略，它的策略梯度更新往往产生比RL2更低的样本效率内环。

2.4 Problem Categories

While the given problem setting applies to all of meta-RL, distinct clusters in the literature have emerged based on two dimensions: whether the task-horizon $H$ is short (a few episodes) or long (hundreds of episodes or more), and whether the task distribution $p (M)$ contains multiple tasks or just one. This creates four clusters of problems, of which three yield practical algorithms

这一部分主要讲元强化学习的应用分类。根据任务视野 $H$ 的长短（适应过程只需要很少的episdoes，也或者是很多的episodes），以及任务的分布 $p (M)$ 包含的是单任务的分布还是多任务的分布进行分类。简单理解就是，单任务的分布就跟图2的圆圈导航差不多，而多任务分布指的是目标所在的位置出于不同的圈圈。这样就形成了4类问题，目前3类问题有了实际应用。

任务分类示意图

小样本多任务（few-shot multi-task setting）

小样本多任务的含义？

在这种情况下，一个智能体必须快速地，在短短几个episodes内，快速适应从它所训练的任务分布中采样的新MDP。这一需求抓住了元强化学习的中心思想，即我们希望使用任务分布来训练智能体，这些智能体能够使用尽可能少的环境交互从该分布中学习新任务。

强化学习的小样本多任务与图像分类的区别和联系？

单词"shots"与视觉那边的少样本图像分类是一样的，一个模型被训练来识别新的类，每个类只给出几个样本。在元强化学习中，适应episodes的数量 $K$ 或多或少与分类中的样本相似。图像分类的样本是人提供的图片，而元强化学习的样本是新任务下智能体早期交互的数据episodes。

这样的工作存在哪些问题？

虽然少样本的适应直接解决了元强化学习的动机问题，但有时智能体会面临着很困难的适应问题，以至于希望在少数episodes内取得较好的性能表现是不太现实的。例如，当智能体需要适应在任务分布中不受支持的任务时，就可能会发生这种情况。（作者的意思可能是这样的任务满足的元强化的目标，但是它只能局限在任务分布内，我看到的例子就是训练蚂蚁从 1 $m / s$ 到 2 $m / s$ 这样，局限性还是很大的）在这种情况下，inner-loop可能需要很多很多的episodes或更多的时间来为新任务生成一个好的策略，但我们仍然希望使用元学习来使inner-loop尽可能的数据高效。

多样本单/多任务（many-shot single/many-task(s)）

元强化学习主要关注多任务背景，其中inner-loop可以利用任务之间的相似性来学习更有数据效率的适应过程。相比之下，在标准的RL中，智能体通常被训练为在许多优化步骤中处理单个复杂的任务。由于这通常是高度低效的数据，故研究人员开始着手研究了元学习方法是否可以提高效率，即使没有访问相关任务的分布（这个是直译，实际意思就是想让元学习能够学习任务分布之外的，跨任务语义的分布，也就是从蚂蚁爬行速度到人的行走这样的）。在这种情况下，经验能力的收获（经验池内数据的收集）必须来自于在智能体的单一生命周期内，或来自于在训练期间对当地训练条件的适应（这也是直译，也就是说，在跨任务语义的条件下，我们的数据就很难利用原本任务语义的历史经验了，我们的能够用来训练决策的历史经验只能是local，在本任务中的）。对于这种多样本单任务的方法往往类似于那些在多样本多任务中的方法。

少样本单任务（few-shot single-task）

处于这样的假设下：元学习者会加速单一任务的学习，而不会从其他相关任务中迁移。智能体的短生命周期不太可能为inner-loop留出足够的时间来学习一个数据高效的自适应过程，并使用它生成一个策略。因此，据我们所知，目前还没有针对这种环境的研究。也就是作者不在这个方向上做一些综述。

元强化学习任务分类、各自特点以及代表算法

3 Few-Shot Meta-RL

在本节中，我们将讨论少样本适应，即智能体元学习多个相似的任务，且元测试阶段必须在几个epsiodes内快速适应一个新的、相关的任务。

举一个具体的例子，回想一下在家庭厨房学习做饭的机器人厨师。

从头开始使用强化学习在每个用户家里烹饪的新策略需要在每个厨房有许多样本，这可能是浪费，因为一般的烹饪知识（例如，如何使用炉子）在厨房之间转移。这句话的意思是，一些内容（包括状态、动作等）在不同的任务中都存在的，也就是不同的“厨房”下存在共同特点。

在购买机器人的客户家中浪费许多数据样本可能是不可接受的，特别是如果机器人采取的每一个行动都有可能破坏厨房的话。也就是从头开始的强化学习存在安全性探索的问题。

Meta-RL可以自动从数据中学习一个程序，以适应在新厨房中出现的差异（例如，餐具的位置）。在元训练期间，机器人可能在许多不同的厨房进行模拟或满足人工监督下安全预防的设置。然后，在元测试期间，这个机器人被卖给客户，并部署在一个新的厨房里，在那里它必须迅速学会在里面烹饪。

然而，用元强化学习训练这样的智能体需要独特的设计选择且具有很大的挑战。

Meta-parameterization

在本节中，我们首先讨论少样本多任务背景下的三种常见方法。回想元强化学习本身学习了一个学习算法 $f_{θ}$ 。这对 $f_{θ}$ 提出了独特的要求，并为这个函数提供了特定的表示。我们称这个设计选择为元参数化（meta paramization），最常见的是如下。

name	content
Parameterized policy gradient	将现存的策略梯度结构融合进学习算法 $f_{θ}$ 中。
Black box	没有对 $f_{θ}$ 施加相关结构。
Task inference	显式地推断出未知的任务。

Exploration

探索的意义/作用？

虽然所有这些方法都是不同的，但它们也有一些共同的挑战。其中一个挑战是探索，即为适应而收集数据的过程。在少样本学习中，探索决定了智能体在少样本学习中如何采取行动。随后，智能体必须决定如何使用此收集到的数据来调整基本策略。为了使适应的样本有效，探索也必须是有效的。具体来说，探索必须针对任务分布的差异（例如，刀具的不同位置）。

探索过程和任务推断过程的关联？

我们将讨论探索的过程，以及添加结构化的内容来支持探索过程。虽然所有的少样本方法都必须学习探索一个未知的MDP，但在探索方法和任务推理方法之间存在着特别紧密的关系。一般来说，探索可以用来实现更好的任务推理，相反地，任务推理可以用来实现更好的探索。

任务推理可用于实现更好的探索的一种特殊方法是，量化关于任务的不确定性，然后根据该量化选择行动。这个方法可以用来学习最优探索。

Supervision

元强化学习方法在对可用性的假设上也有所不同，这就包含了 “监督” 的概念。在标准的元强化学习问题设置中，在元训练和元测试期间都可以获得奖励。然而，在每个阶段提供奖励存在挑战。例如，手动设计元训练的蕴含丰富信息的任务分布可能很困难，另外在元测试阶段的模型部署过程中，用昂贵的传感器衡量奖励可能也不切实际的。在这种情况下，必须使用独特的方法，例如为outer-loop自动设计奖励，或者创建一个不需要奖励条件的inner-loop。或者，采用 “监督” 的方法可以提供比奖励更多的信息。

3.1 Parameterized Policy Gradient Methods

In this section, we discuss one way of parameterizing the inner-loop that builds in the structure of existing standard RL algorithms.

在现有的标准强化学习算法中构建参数化的内环结构

实例：PPG（Parameterized policy gradients）算法

是一类普遍的方法。
将学习算法 $f_{θ}$ 参数化为一个策略梯度算法。
inner-loop的策略梯度一般具有如下的形式：
$phi_{j+1}=f_{ heta}(D_{j},phi_{j})=phi_{j}+alpha_{ heta} abla_{phi_{j}}hat{J}_{ heta}(D_{j},pi_{phi_{j}}) ag7$
$hat{J}_{ heta}(D_{j},pi_{phi_{j}})$ 指的是用策略 $pi_{phi_{j}}$ 在 $D_{j}$ 环境中的累计回报的评估。

MAML 方法将 $phi_{0}= heta$ ，也就是初始化的参数也是元学习的组件。也可以添加额外的预定义inner-loop的组件，例如稀疏正则化。一般来说，任何结构没有预定义，都是 $θ$ 中一个元学习的参数（这句话的意思是没有预定义的网络结构，也就是没有预先给定一个网络模型，那么元学习过程就是在一个结构设置好的网络中训练内部的权值偏置参数）。除了初始化之外，元学习结构还可以包括超参数和目标函数等组件（比如说 MAML 算法的inner-loop和outer-loop都存在两个学习率，这两个学习率一般都是固定设置，似乎是0.5和0.1，但是也能根据问题性质调整。目标函数同理，都是随着特定的问题解决而发生变化）。

尽管基于价值的方法也可以在inner-loop中参数化，进而取代了策略梯度 $f_{ heta}$ 。但是 “value based-methods generally require many more steps to propagate reward information” ，也就是基于价值的方法通常需要更多的步骤来传播奖励信息，所以在多样本背景下更实用一些。

Adapted base network parameters

第一种范式：更新初始网络权值的分布

Instead of adapting a single initialization, several PPG methods learn a full distribution over initial policy parameters, $p (φ)$ .

与适应一个单任务的初始化不同的是，一些 PPG 方法用来学习一个分布，这个分布是对初始策略参数的分布。这个分布是对初始参数的分布，因此允许对策略上的不确定性进行建模，意思就是我从分布中抽样，可以看成在确定的分布上再增加了概率噪声（我是这么理解的）。在初始参数上的分布可以用有限数量的离散粒子来表示，也可以通过变分推理用高斯近似拟合来表示。此外，分布本身可以在inner-loop中进行更新，以获得一个后验的（模型参数的子集）并做更新。如果策略参数定期重新采样，更新的分布对于建模不确定性和时间扩展探索都有用。

第二种范式：更新策略的子集（一部分）

策略网络结构更新：只保留策略的最后一层的权重和偏差，而在整个inner-loop中保持其余的参数不变。

在策略网络中增加上下文变量：对策略本身的输入参数化了可能行为的范围。 $pi_{ heta}(a|s,phi)$ ，其中 $ϕ$ 就是上下文变量。策略的权重和偏差，以及初始上下文向量，构成了在inner-loop中为常数的元参数。

部分更新的方法的优势是什么？

One benefit of adapting a subset of parameters in the inner-loop is that it may mitigate overfitting in the inner-loop, for task distributions where only a small amount of adaption is needed.

在inner-loop中调整参数子集的一个好处是，对于只需要少量自适应的任务分布，它可以缓解inner-loop中的过拟合。

Meta-gradient estimation in outer-loop optimization

Estimating gradients for the outer-loop is the subject of significant research and focuses on two different trade-offs between bias and variance. In many PPG methods, the outer-loop optimizes $f_{θ}$ by estimating a policy gradient after taking several policy gradient steps in the inner-loop. Therefore, optimizing the outer-loop requires taking the gradient of a gradient, or a meta-gradient, which involves second-order derivatives. Specifically, the estimate of the gradient of the meta-RL objective, in terms of $θ$ , produces this meta-gradient.

估计outer-loop的梯度是一个重要的研究课题，重点是偏差 bias 和方差 variance 之间的两种不同权衡。在许多PPG方法中，outer-loop通过在inner-loop中执行若干策略梯度步骤后估计策略梯度来优化 $f_{θ}$ 。因此，优化outer-loop需要取梯度的梯度，或元梯度，这涉及到二阶导数。具体来说，以 $θ$ 表示的元强化学习目标梯度的估计产生了这个元梯度。

元梯度估计问题1：老策略对新策略的影响

One problem in meta-gradient estimation is the dependency of data used by inner-loop on prior policies used to collect that data. Actions taken by any one policy affect the data seen by the next, and thus these actions affect the expected return.

元梯度估计中的一个问题是inner-loop所使用的数据对用于收集该数据的先前策略的依赖性，也就是新策略的更新依赖于老策略产生的数据样本，但是老策略未必就是最好的，而且假如老策略最好的话就不必用新策略了。任何一个策略所采取的操作都会影响下一个策略所看到的数据，影响到下一个策略的行为序列，因此这些操作会影响预期的回报。

Recall that PPG methods produce several policies, and generally optimize Equation 4 with $K = H - n$ , where $n$ is the number of episodes collected by the final policy. Since this objective only considers returns from the final policy, estimates sometimes ignore the dependence of the collected episodes $D_{0:K}$ on the policies used to collect those episodes. Intuitively, this amounts to ignoring actions from earlier policies, which should be trained to collect data, in the outer-loop.

回想一下，PPG方法产生几个策略，并通常用 $K = H - n$ 优化方程4，其中 $n$ 是最终策略收集的episode数量，最早期的 $K$ 个策略的数据都是收集优化的。由于这个目标只考虑来自最终策略的回报，估计有时会忽略收集的集合 $D_{0:K}$ 对用于收集这些集合的策略的依赖（这句话是直译的，看起来太拗口了。大概的意思是，我的目标是最终策略适应的好坏，我用的数据 $D_{0:K}$ 要好就行，至于你是用什么策略收集到的 $D_{0:K}$ 这个我不关注）。直观地说，这相当于忽略了早期策略的操作。

Still, these prior policies do affect the distribution of data sampled in $D$ , used later by the inner-loop learning algorithm. Thus ignoring the gradient terms in the policy gradient from all policies before the final policy introduces bias. This bias can sometimes be detrimental to the meta-learning performance. Several papers investigate solutions to this problem, along with the bias-variance trade-offs they present.

尽管如此，这些先前的策略确实会影响在 $D$ 中采样的数据的分布，稍后内层循环学习算法会使用这些分布。因此，在最终策略引入偏置之前，忽略所有策略梯度中的梯度项。这种偏置有时会对元学习的性能不利。几篇论文研究了这个问题的解决方案，以及它们提出的偏差-方差权衡。

元梯度估计问题2：策略梯度期望

第二项研究重点是关注通过用策略梯度期望表示inner-loop而引入的偏差。由于inner-loop必须与环境交互以收集数据，因此它使用的策略梯度是采样的（与环境不可能同时交互，因此只能交互一部分而且具有随机性，因此可以看成是从一个策略梯度分布中采样得到的）。在反向传播中，采样估计可以用梯度期望代替，但这样做会引入第二个有偏估计。尽管如此，这两个有偏估计都减少了梯度估计的方差，因此可以在偏差/方差权衡中提供一个理想的点。（说实话这个点不太懂）

Outer-loop algorithms

虽然大多数PPG方法在outer-loop中使用策略梯度算法，但其他的选择也是可能的。

例如，我们可以训练一个批评者， $Q_{θ}(s，a，D)$ ，在outer-loop中使用TD误差，然后在inner-loop中重用这个批评者。还可以训练特定任务的专家，然后使用这些专家在外环中进行模仿学习。虽然两者都不能通过优化方程4来直接学习探索性行为，但它们可以在实践中工作。

PPG trade-offs

One of the primary benefits of PPG algorithms is that they produce an inner-loop that converges to a locally optimal policy. PPG inner-loops are generally guaranteed to converge under the same assumptions as standard policy gradient methods. For example, the MAML inner-loop converges with the same guarantees as REINFORCE, since it simply runs REINFORCE from a meta-learned initialization. Having a learning algorithm that eventually adapts to a novel task is desirable, since it reduces the dependence on seeing many relevant tasks during meta-training.

PPG算法的主要好处之一是，它们产生一个收敛到局部最优策略的inner-loop。PPG的inner-loop通常保证在与标准策略梯度方法相同的假设下收敛。例如，MAML的inner-loop以与REINFORCE相同的保证收敛，因为它只是从元学习的初始化运行REINFORCE。（这句话的意思是 MAML 方法可以用 REINFORCE 的方法收敛，也可以满足 TRPO+GAE 的假设，用这种方法来收敛）我们希望有一个最终能适应新任务的学习算法，因为它减少了在元训练期间看到许多相关任务的依赖。

Although parameterizing $f_{θ}$ as a policy gradient method may ensure that adaptation generalizes, this structure also presents a trade-off. Typically the inner-loop policy gradient has high variance and requires a value estimate covering the full episode, so estimating the gradient generally requires many episodes. Hence, PPG methods are generally not well-suited to few-shot problems that require stable adaption at every timestep or within very few episodes in the inner-loop. Moreover, PPG methods are often sample-inefficient during meta-training as well, because the outer-loop generally relies on on-policy evaluation, rather than an off-policy method that can reuse data efficiently.

尽管参数化 $f_{θ}$ 作为策略梯度方法可以确保适应性的泛化，但这种结构也提出了一种权衡。**通常inner-loop策略梯度具有高方差，需要覆盖整个情节的值估计，因此估计梯度通常需要多个情节。**因此，PPG方法通常不太适合需要在每个时间步长或内层循环中很少的片段中稳定适应的少样本问题。也就是说，PPG方法在打算“一步适应”的任务中，或者“两三步”的样本下极快速适应比较困难，PPG比较适合结果导向。此外，PPG方法在元训练期间通常也是样本效率低下的，因为outer-loop通常依赖于策略上的评估，而不是能够有效重用数据。

In general, there is a trade-off between generalization to novel tasks and specialization over a given task distribution. How much structure is imposed by the parameterization of $f_{θ}$ determines where each algorithm lies on this spectrum. The structure of PPG methods places them near the end of the spectrum that ensures generalization. This is visualized in Figure 6. In the next section, we discuss methods at the other end of the spectrum.

一般来说，在给定的任务分布上，对新任务的泛化和专门化之间存在权衡。 $f_{θ}$ 参数化施加的结构大小决定了每个算法在这个谱上的位置。PPG方法的结构将其置于谱的末端，以确保泛化。如图6所示。下一节将讨论另一种方法。

元强化学习和黑箱模型的区别。

3.2 Black Box Methods

In principle, they can learn any arbitrary learning procedure, since they represent $f_θ$ with a neural network as a universal function approximator. This places fewer constraints on the function $f_θ$ than with a PPG method.

原则上，黑箱模型可以学习任意的学习过程，因为他们用神经网络来表征 $f_θ$ 函数，将神经网络作为了函数逼近器。与 PPG 方法相比，这样的黑箱模型减少了比较多的限制。

黑盒模型的代表就是RL^2方法。在这个模型中，他们用循环神经网络来表征 $f_θ$ 函数，他们的输入是状态动作信息的上下文（context），输出的是用于当前策略下的上下文表征向量。虽然使用递归网络来输出上下文向量是很常见的，但黑盒方法也可以以其他方式构造基本策略和inner-loop。

我们首先讨论根据任务分布中不同数量的多样性而设计的不同架构。然后，我们讨论了不同的inner-loop结构方法和不同的outer-loop目标。最后，我们最后讨论了与Black Box Methods相关的权衡。

Adapted base network parameters

上下文向量（the context vector）从何而来？

一些任务分布可能不需要对每个任务进行适应。例如，如果导航任务仅因目标位置而变化，那么可能不需要调整太多的策略参数（比如说，我训练的目标位置是 $(0.1 m, 0.1 m)$ ，而我泛化的位置是 $(0.15 m, 0.15 m)$ ，这确实不需要做太多的策略更新）。许多Black Box Methods已经被应用于这种任务分布。在这样的设置下，只调整一个用作基本策略输入的向量，而不是去调整基本策略的所有（大部分）参数，就足够了。

Black Box Methods 的示意图如上图所示，展示了与 PPG 方法的对比。

上下文是由递归神经网络或任何其他具有历史条件的网络产生的，如 Transformer 或记忆增强网络。在这种情况下，inner-loop和基本策略一起可以看作是一个对象，形成一个对历史依赖的策略。这是少样本自适应方法的一种常见架构。

上下文向量（the context vector）有何不足之处？

这一小节的内容不太懂，按照自己的理解一边翻译一边解说，希望有大佬再做一些阐述5555555。

一些任务分配可能需要在所有策略之间进行大量的调整。通过在上下文向量上调整策略， $π$ 的所有权重和偏差必须在所有任务之间泛化。然而，当对不同的任务需要显著不同的策略时，强制共享基本策略参数可能会阻碍适应。（这句话的意思可能是这样的，我的理解不一定对，就是说加入上下文变量的策略，默认要在不同环境下有明显的泛化能力，因为输入的上下文向量不一样。所以作者说，共享权值参数这样的方法可能比较困难）

或者，就像在PPG方法中一样，可能没有上下文向量，但inner-loop可以直接调整基本策略 $φ$ 的权重和偏差，并且是直接调整。inner-loop可以产生前馈基本策略的所有参数，或者可以调节类似循环网络的权值。在这些情况下，使用一个网络将试验中的所有数据 $D_{j}$ 映射到另一个网络的权重和偏差，从而定义了一个超网络。

Inner-loop representation

黑箱方法中的内环表征形式都有哪些呢？

the networks of spiking neurons. 尖峰神经网络。
the networks using attention and convolution. 使用注意力和卷积的神经网络。
storage of memories in the weights of a feed-forward network trained via meta-gradients.

在通过元梯度训练的前馈网络的权值中存储记忆。
the external storage of memory states when tasks change in a nonstationary environment.

当任务在非平稳环境中发生变化时，内存状态的外部存储。
the use of differentiable neural dictionaries. 可微分神经字典的使用。
the successor features with generalized policy improvement for meta-training.

具有广义策略改进的后继特征。

注意力机制在黑箱模型的使用情况？

然而，大多数可选择的表征都使用某种形式的注意力来参数化inner-loop。一些方法将注意力与卷积结合起来，或在过去的状态中反复使用注意力，而其他方法则单独使用自注意力。注意力机制似乎有助于对分布 $p (M)$ 之外的新任务的泛化，且自注意力可能对复杂规划有用。

注意力机制存在哪些不足之处？

尽管如此，注意力机制在计算上是非常昂贵的：虽然递归网络使用 $O (1)$ 内存和每个时间步的计算量，但注意力通常需要 $O(t^2)$ 内存和每个时间步的计算量，这可能会跨越许多情节。虽然存在快速的注意力近似（可能是一种轻量化的注意力机制），但元强化学习中的解决方案往往只维持最近记忆的固定数量的状态转移信息。尽管如此，transformer 和循环神经网络都可能很难元学习简单的归纳偏差，特别是对低维空间中简单基本规则产生的复杂任务分布。

Outer-loop algorithms

尽管许多黑箱方法在outer-loop都是用on-policy算法，但是使用off-policy的方法更加直接，也能提高强化学习的样本效率。对于离散的动作，使用Q学习也很简单，在这种情况下，inner-loop也必须改变。inner-loop估计Q值，而不是直接参数化策略。然后，该策略可以在元测试时对这些Q值贪婪地采取行动。这种方法可以被认为是修改递归Q网络以适应元强化学习背景，与其他最先进的元强化学习方法相比，这篇论文的效果更好【引用51】。

Black box trade-offs

Black Box Methods方法的一个关键好处是，它们可以根据新信息快速改变策略，而PPG方法通常需要多次经验来获得足够精确的inner-loop梯度估计。

假设一个厨师机器人必须知道厨房中的哪些对象在元测试时是热的。

在估计策略梯度时，PPG方法可能在学习不去接触之前，需要多次接触热炉子（以便获得全面的、精确的梯度）。相比之下，Black Box Methods可能产生一个适应过程，即这个适应过程不需要多次接触热表面。Black Box Methods可以学习这种响应式自适应过程，因为它们将inner-loop表示为从累积的任务经验映射到下一个行动的任意函数。

然而，Black Box Methods方法也提出了一种权衡。虽然Black Box Methods可以紧密地满足关于适应狭窄的数据分布的假设， $p (M)$ ，增加专业化，但它们往往很难在 $p (M)$ 之外进行推广（意思就是说，能做到越来越专业，但是不能越来越兼容）。

以机器人厨师为例：虽然它可能会学会不接触热的表面，但基于Black Box Methods的机器人厨师不太可能学会一种全新的技能，比如如果它在元训练中从未见过炉子，那么它就不知道如何使用炉子。

相比之下，PPG 方法仍然可以在有足够数据的元测试时间学习这样的技能（它本身能提供一个技能学习的初始模型，而且这个初始模型很好）。虽然很多研究已经努力扩大元训练任务和手动添加归纳偏见以增加 Black Box Methods 的泛化性能，但是是否使用黑盒方法或PPG方法通常取决于泛化和专业化的问题的数量/成分（也就是说，如果我们想解决的问题是让机器人更加专业化，选择 Black Box Methods 更合适一些；如果想更加通用，那么就选择 PPG 好一些）。

此外，在PPG方法和 Black Box Methods 方法之间存在着outer-loop优化挑战的权衡。一方面，PPG方法经常估计一个元梯度，这很难计算，特别是对于长范围的。另一方面，Black Box Methods 没有优化方法的结构（也就是说，Black Box Methods 没有对网络结构/更新过程做进一步改进优化，相当于从视觉那边搬 CNN / RNN / Transformer 这样的东西过来），所以它们更难从头开始训练，即使在短期内也有相关的 outer-loop 优化挑战。Black Box Methods 通常使用递归神经网络，它可能会遭受梯度消失和爆炸。此外，在强化学习中，递归神经网络的优化尤其困难，而 Transformer 在强化学习中训练时可能更有问题。因此，元强化学习Black Box Methods的快速更新，想要在实现同时快速学习的条件下，也给元学习带来了挑战。也就是说，Black Box Methods 能越来越专业，但是这样的专业是基于 RNN / Transformer 这样模型的缓慢更新得来的。

目前还有将 PPG 和 Black Box Methods 之间结合起来的方法。特别是，即使在训练一个完全 Black Box Methods时，策略或 inner-loop 也可以在元测试时通过策略梯度进行fine-tune。

3.3 Task Inference Methods (任务推理方法)

Task Inference Methods 的简单介绍？与 Black Box Methods 的关联?

与 Black Box Methods 密切相关的是 Task Inference Methods，它们通常与 Black Box Methods 共享相同的参数化，因此可以被认为是当时的一个子集。然而，inner-loop 的参数化可能特定于任务推理方法，这些方法通常通过优化不同的目标来训练 inner-loop 循环执行不同的功能（这句话不太理解，先看下面的吧555555555）。

Task Inference Methods 通常旨在在 inner-loop 中识别智能体必须适应的MDP或任务，结果是得到一组信息。**在元强化学习中，智能体必须反复适应一个未知的MDP，该MDP的表征不是作为内环的输入。**事实上，整个适应过程可以被描述为识别任务。智能体对它应该做什么的信念/依据可以表示为对任务表征的分布。任务推理是一个推断任务的后验分布的过程，基于是智能体迄今为止所看到的情况。

考虑智能体已经唯一地标识了任务的情况*（标识的具体表现可能是一个维度较低的向量或者一个维度较低的分布）。然后，智能体可以依赖于这个已知 MDP 中的规划（规划是综述直译过来的，我的理解应该是我们提炼出来的向量/分布），不需要进一步的学习或数据收集。此外，如果任务分布相当小和有限，则可以在每个任务的元规划（任务推断过程，理解就是向量或者分布的生成过程）*期间预先计算一个策略，而不需要进行规划。这句话的意思，比如说，一个任务组里面就 5 个任务，对应的概率值是离散有限值，那么其实可以对 5 个任务依次学策略，而不需要进行任务推断过程。事实上，训练一个能够访问真实任务的任务分布的策略，可以作为多任务强化学习的定义。在多任务情况下，将从已知任务学习到策略的映射。在元强化学习中，唯一的区别是该任务是未知的（所以需要 task inference 过程，来 “揣摩” 这任务蕴含的特有信息，如果不是未知任务而是已知任务的话，元强化学习直接演变成了多任务强化学习）。因此，Task Inference Methods 可以看作是将元学习问题转移到更容易的多任务强化学习的尝试。

当分布中存在不确定性时，Task Inference Methods 通常将给定当前数据的任务分布映射到基本策略，而不是将任务映射到基本策略。这可以被视为以(部分)推断任务为条件来学习策略。在这种情况下，学习变成了减少任务不确定性的过程。智能体必须收集使其能够做合理推断的数据来确定任务。也就是说，智能体必须探索减少任务给出的后验的不确定性。因此，Task Inference Methods 是构建探索框架的有用方法，在许多研究中 Task Inference Methods 被定义为探索的工具，并优化处理任务分配中的不确定性。

在本节中，我们将讨论两种使用监督学习的 Task Inference Methods ，但也需要对元训练中可用的信息进行假设。然后我们讨论没有这些假设的替代方法，以及 inner-loop 通常如何表示。最后，我们最后讨论了关于 Task Inference Methods 的权衡。

Notation

在任务推断过程中，inner-loop被用来训练任务表征的推断，那么表征用 $ϕ$ 表示。一旦推断出任务，策略通常以预测向量为条件的条件概率分布，用 $π (a ∣ s, ϕ)$ 表示。或者，端到端学习的额外添加的函数 $h_θ$ 可以将任务直接映射到策略的权重和偏差，用 $pi_{h_ heta(phi)}(a|s)$ 表示。

Task inference with privileged information

推断任务的一个直接方法是添加一个监督损失，以便一个黑箱 $f_{θ}$ 预测任务的一些已知表示， $c_{M}$ 。例如，一个循环网络可以根据迄今为止收集到的所有数据来预测任务表示， $c_{M}$ 。这种任务表示必须在元训练期间被知道，因此就构成了“特权信息”（privileged information）的一种形式。

具体的表现形式可以有如下：1. 在任务分布是离散的和有限数值的条件下，任务序列号可以用独热编码表示；2. 可能是一些定义了MDP的参数。例如，如果厨房的炉子和冰箱的位置不同，那么任务表征 $c_{M}$ 可以是所有这些坐标的向量；在这种情况下， $f_θ$ 将预测这些坐标，而 $φ$ 将表示当前MDP中这些坐标的预测。当这些信息已知时，该表示法甚至可能包含子任务及其层次结构。

Task inference with multi-task training

一些研究使用多任务强化学习来改善元强化学习中的任务推理。任务表征可以包含少量任务特定的信息（例如：如果任务是离散的，就用one-hot独热编码表示）或对策略不相关的任务特定的信息（如厨房的氧气量，这对我如何学习做饭影响甚微）。一般来说，整个MDP不需要这样做唯一标识，也就是不需要知道完全的任务表征。智能体只需要识别任务分布 $p (M)$ 内的MDPs之间的变化信息，以及那些改变最优策略的变量的子集。

为了处理无信息和不相关的任务信息，可以在多任务背景中通过预训练来学习表征。设 $g_{θ}(c_{M})$ 是一个为任务表征进行编码的函数。首先，可以训练一个已知的策略，即 $π_{θ}(a|,g_{θ}(c_{M}))$ 。这是多任务阶段，使 $g_θ$ 能够学习。由于这个表征，即 $g_{θ}(c_{M})$ ，是端到端学习的，因此它包含了与解决任务相关的信息。通常，使用信息瓶颈Information Bottleneck 来确保它只包含此信息。在此之后，就可以在元学习中通过一个任务推理的 inner-loop 来推断 $g_{θ}(c_{M})$ 。或者，已知的多任务强化学习可以与元强化学习同时执行。

一些任务分布甚至允许在知情的多任务智能体和未知情的元强化学习智能体之间进行重要的共享行为。当元智能体策略识别任务所需的探索很少时，这种共享通常是可能的。在这种情况下，元强化学习可以通过蒸馏来模拟多任务智能体，而不是只推断特权任务信息；亦或是通过直接的参数共享策略层。在多任务学习和元学习之间可以共享策略表示的情况下，任务甚至可以被表示为多任务策略本身的权重和偏差。此外，与其直接学习直接地推断策略，还可以学习基于推断任务和策略的潜在空间的值函数，然后在策略的潜在空间内优化值函数。相反，当任务分配需要采取足够多的探索性操作来识别任务时，共享策略就变得不那么可行了，这句话的意思是，如果一个问题/任务需要很多的探索，那么这个任务和多任务强化学习用于训练的任务差别还是很大的。通常，内在奖励甚至需要能够收集支持任务推理的数据。

Task inference without privileged information

其他的任务推理方法并不依赖于已知任务表示形式中的特权信息（without privileged information）。例如，一个任务可以表示为一个参数化的价值函数的随机潜在变量的样本；表征可以是一个样本/潜在变量的参数化学习奖励函数或转换函数（状态转移函数）；任务推理可以在任务之间使用对比学习。所有这些都使用已经可以观察到的信息，并且所有这些方法都训练 $f_{θ}(D)$ 表征任务分布，给定 $D$ 中的一组序列。

Inner-loop representation

Generally, task inference is accomplished by adding an additional loss function, and not by any particular meta-parameterization of $f_{θ}$ . While task inference methods do not require a particular meta -parameterization, most use a “black box,” such as a recurrent neural network. Since many task inference methods infer a latent variable, it is common for $f_{θ}$ to explicitly model this distribution using a variational information bottleneck. It can be particularly useful to represent the task not just as a sample from this latent variable, but also as the full distribution of the latent variable, e.g., its mean and variance, in order to capture uncertainty about the task.

通常，任务推理是通过添加一个额外的损失函数来完成的，而不是通过任何特定的 $f_{θ}$ 的元参数化。虽然任务推理方法不需要特定的元参数化，但大多数方法使用“黑盒”，如递归神经网络。由于许多任务推理方法推断出一个潜在变量，因此 $f_{θ}$ 也经常使用变分信息瓶颈显式地建模这个分布。特别有用的是，不仅将任务表征为这个潜在变量的样本，还作为潜在变量的完整分布，例如它的均值和方差，以捕获任务的不确定性。

此外，Rakelly 利用马尔可夫属性，将任务表征表示成在条件 $D$ 存在下每个转移的乘积。更一般的说，这需要转换和排列，或者利用其他元方法，或者使用表示神经网络和 Transformer。此外，还使用了 episodes 水平上的排列不变性。最后，迁移学习的工作表明，由多任务预训练产生的专家网络参数的学习组合可以实现有效的迁移，并表明可以在元学习方法的架构中构建类似的归纳偏差。

Task inference trade-offs

Task Inference Methods 与其他方法的对比？

与 PPG 方法相比，Task Inference Methods 在 inner-loop 中施加的结构更少。

一方面，由于附加的结构，PPG 方法可以很好地推广到新的任务中。在新任务不能使用元训练中学习到的任务表征来表示新任务的情况下，Task Inference Methods 会失败，而 PPG 方法通常使用策略梯度来适应新任务。

另一方面，PPG 方法不太可能产生像任务推理一样有效（效果）的算法。对于有可能进行任务推理的分布，将这种方法拟合到任务分布中可以实现更快的适应。如果分布中没有多少任务，它们很容易从几个连续的转换中推断出来，那么使用 Task Inference Methods 推断潜在任务比使用 PPG 方法学习新策略更具有样本效率。
与 Black Box Methods 相比，任务推理方法施加了更多的结构。

一方面，Task Inference Methods 通常通过使用特权信息或使用自我监督来增加额外的监督，这可能使元训练更稳定和高效的。这特别有用，因为在 Task Inference Methods 和 Black Box Methods 中经常使用的循环策略，这很难在强化学习中进行训练。

另一方面，在给定的任务分布上，训练 inner-loop 来实现任何不是方程4的目标，相对于该元强化学习目标可能是次优的。除了与 PPG方法和 Black Box Methods 相比之外，任务推理方法还提供了一个额外的优势，那就是在探索中很有用。

3.4 Exploration and Meta-Exploration

探索是智能体为学习收集数据的过程。在标准强化学习中，探索应该适用于任何MDP，可以包括随机的策略探索（random on-policy exploration）、贪心探索（ $ϵ$ -greedy）或寻找新状态的方法。在元强化学习中，这种类型的探索仍然发生在outer-loop中，称为元探索（meta-exploration）。

Inner-loop 同样也存在探索（就叫 exploration）。这种inner-loop的探索是特定于MDP的分布， $p (M)$ 。为了使样本有效适应，元强化学习智能体使用关于任务分布的知识来有效地进行探索。这种探索是有针对性的，用于在 $D$ 中提供有信息的轨迹，使任务分布中的MDP能够实现少样本适应。

例如，当第一次进入一个新厨房时，机器人厨师可能会打开每个柜子，了解食物和器皿的位置，而不是随机行动。

在少样本适应背景下，在每次试验中，智能体被放置到一个新任务中，并被允许与环境互动几个episodes（即它的少样本数量 $K$ ），然后在接下来的几episodes（即公式4中的 $H - K$ 次数的episodes）中评估解决任务的情况。直观地说，智能体必须在前几个episodes中探索收集信息，以便在后面的episodes中最好地解决任务。更一般地说，这是一个探索-利用的权衡（exploration-exploitation trade-off），智能体必须在采取探索行动来了解新任务（甚至可能超出最初的几次尝试）与利用它已经知道的东西来获得高奖励之间取得平衡。在前 $K$ 个episodes进行探索总是最理想的，因为没有奖励给智能体。然而，在剩余的 $H - K$ 次数的episodes中的最佳探索量取决于评估 $H - K$ 数量的大小：当 $H - K$ 很大时，更多的探索是最优的，因为牺牲短期奖励来学习更好的策略以获得更高的后期回报会带来红利，而当 $H - K$ 很小时，智能体必须在时间耗尽之前开发更多以获得任何可能的奖励。在本节中，我们将研究处理这种权衡的方法。

End-to-end optimization

最简单的方法是用直接最大化元强化学习目标来端到端学习探索和利用，就像 Black Box Methods 方法所做的那样。这类方法隐式地学习探索，因为它们直接优化元强化学习目标，而元强化学习目标的最大化需要探索。更具体地说，在后面的 $K - H$ 个episodes 中的收益 $sum_{τ∈D_{K:H}}G(τ)$ 只能在策略在前 $K$ 适当集中地探索时才能最大化，因此最大化元强化学习目标原则上可以产生最优的探索。

当不需要复杂的探索策略时，这种方法非常有效。例如，如果尝试在任务分布中执行多个任务是探索特定任务分布的一种合理形式，那么端到端优化可能会很好地工作（也就是说，如果任务本身的内容跟任务组中的分布有关，那么对任务的探索本身也是对这个概率分布的“感知”）。

当需要更复杂的探索策略时，以这种方式学习探索的样本效率非常低。因为存在的一个问题是，在后面的 $K - H$ 个 episodes 中的 exploiation 过程需要在前 $K$ 条episodes中已经探索过，但探索依赖于良好的 exploiation 来提供奖励信号。例如，在机器人厨师任务中，机器人只有在已经找到所有的食材时才能学习烹饪（即利用），但只有在这样做的结果是一顿做好的饭菜时，它才会被激励去寻找食材（即探索）。因此，在没有学会探索的情况下学习利用是具有挑战性的，反之亦然，因此，端到端方法很难学习需要复杂探索的任务。这似乎有点“鸡生蛋蛋生鸡”关系。

一些端到端学习探索的方法添加了额外的组件。例如，E-RL^2 将前 $K$ 条episodes中的所有奖励在outer-loop元更新中设置为零。这迫使非短视的奖励最大化。研究还表明，方差减少方法可能有助于 bandit setting（这个bandit setting 没有阅读应用的论文，不太清楚是什么意思额…），而PPG方法可能受益于学习单独的探索和开发策略。在后一种情况下，哪个策略可以选择一个操作，是进行探索还是进行利用？这是由一个固定的 $ϵ$ 选择切换的。在新任务适应开始时倾向于探索，探索策略是元学习过程得到的，而对每个MDP从头学习是利用过程。在这里，这两个策略仍然都是优化的端到端。然而，一般来说，在需要复杂探索行为的某个任务分布的分布，需要比端到端优化更强结构化处理，来解决复杂的任务分布。

Posterior sampling

为了规避隐式学习探索的挑战，Rakelly等人提出通过后验抽样直接探索，将汤普森抽样（Thompson sampling）扩展到MDPs。当智能体被放置在一个新任务中时，一般的想法是保持任务特征的分布，然后通过与任务交互迭代地细化这个分布，直到它大致成为真实“样貌”的一个分布。后验抽样通过从每个事件的分布中抽样对任务特征的估计来实现这一点，并且就好像估计的任务身份是该事件的真实任务特点一样，也就是Rakelly做到了后验无偏的估计，可以这样理解，因为能跟真正特征一样，本身就偏差小了。然后，利用该事件的观察结果，用Black Box Methods或直接通过梯度下降来更新分布。请注意，当任务是MDPs时和当任务是bandit时，都可以使用此方法。

然而，后验抽样也有一个缺点。首先，由于所使用的策略总是以一个采样历史任务数据为条件，因此这种方法中的所有探索都是由一个假设产生的。这个假设是，它知道它所在的任务策略来执行的。这意味着，相同的策略被用于探索和利用，相当于是on-ploicy。这可能导致方程4中的次优探索。

考虑一个机器人厨师，他必须在一个弯曲的厨房柜台上找到一个炉子。

最好的探索是，厨师沿着柜台的周边走，直到找到炉子。

如果厨师必须被重置到最初的位置，例如，在一条 episodes 结束时给电池充电，那么机器人就会在最后结束的地方继续探索。

相比之下，厨师在每一episode里都使用后验采样，只是沿着柜台走到一个它还没有检查过的不同点，重复这个过程，直到找到炉子。

这篇综述用一张图阐述了这样的过程。在元强化学习中有其他增加探索结构的探索方法，但没有这个限制。

最优的探索是，根据元策略先走到圆弧的某一点上，然后沿着圆弧走到目标位置；当机器人回原点充电时候，相当于一个episode结束了，那么下一个episode还是这样的方法。后验采样的意思是，通过元策略现在几个episodes中得到一些未知，采样得到这些未知不是目标后，不断“筛选”和推理达到目标。最后就是随机的探索。

Task inference

另一种避免隐式学习去探索的挑战的方法是，直接学习使用鼓励探索的任务推理目标来进行探索。部分任务推理方法利用这样的目标来鼓励探索。使用任务推理的探索方法通常会增加一种内在的奖励（intrinsic reward）来收集信息，从而消除任务分布中的不确定性。换句话说，这些方法通过训练策略来探索能够预测任务分布的状态。具体来说，这些内在奖励可能会激励/改善过渡预测（即适应动力学特征和奖励函数）；任务分布上的信息增益，或减少后验分布的不确定性，通过两个分布在连续时间步长上的KL散度来衡量。其想法是，复原（recover）任务足以学习最优策略，从而在后面的episodes中获得高回报。

这些方法大多使用单独的策略来进行探索过程和利用过程。内在奖励用于训练探索策略，而由式4给出的标准元强化学习目标用于训练利用策略。探索策略对前 $K$ 条episodes进行探索，然后对剩余的 $H - K$ 条episodes进行利用策略，条件是探索策略收集的数据。

其中一种方法是DREAM，它首先认证对探索策略有用的信息，然后直接训练探索策略以恢复这些信息。当样本数 $K$ 太少时，也就是无法详尽地探索所有的动态和奖励功能时，这是至关重要的，因为其中很多可能是不相关的，通过下面的举例说明这样是不想关的。

例如，探索墙上的装饰可能会提供关于任务动态的信息，但对于试图做饭的机器人厨师来说却无关。

以这种方式学习任务表示可以看作是多任务训练（上面 3.3 节提到的，Multi-task training），它处理提供信息较少的（例如，一次性编码）或不相关的任务信息。这种多任务训练在探索环境中特别有益，因为在多任务阶段用于学习任务表征的策略也可以作为探索策略重用。在这种情况下，探索和利用策略是按顺序进行元训练的，但它们也可以同时学习。

Meta-exploration

在元强化学习中，仍然有获取outer-loop学习数据的过程，就像在标准强化学习中一样。这被称为元探索（Meta-exploration），因为它必须探索探索策略的空间（探索策略很多，他们组成了一个“空间”，有点线性代数或者矩阵分析那种空间一样）。虽然元探索可以被认为是在outer-loop中的探索，但两个循环共享数据，而且探索方法可能会影响这两个循环，所以区别可能是模糊的。通常，足够的元探索仅仅是outer-loop中标准强化学习算法探索的结果。

专门解决元探索的一种常见方法是添加内在奖励。事实上，前一段讨论的任何任务推理奖励都可以被认为是元探索。这种内在奖励可用于元训练期间专门针对非策略数据收集的策略。然而，有时添加一个任务推理奖励是不够的。在这种情况下，可以添加与标准RL中的功能类似的内在奖励。

使用随机网络蒸馏，奖励可能会增加对新奇的的激励。

在这种情况下，新颖性是在状态和任务表征的联合空间中度量的，而不是像标准RL中那样仅仅在状态表示中。（这个随机网络蒸馏听说过，但没有深入了解1551）
内在奖励可能会增加获取任务推理误差高且仍然不是连锁的数据的激励；
内在奖励可能会增加获取TD误差高的数据的激励；

许多这些奖励激励了在测试时不应该发生的行为，并且在任何情况下，额外的奖励改变了方程4所建议的最优策略。为了解决这个问题，奖励奖金可以被退火，让激励元探索的部分进入零，这样学习最终仍然是端到端优化的，或者元训练可能会在政策外进行。

3.5 Bayes-Adaptive Optimality

到目前为止，我们的讨论揭示了关于探索的两个关键内在本质。

探索减少了当前任务动力学和奖励函数的不确定性。关键是，不加区分地减少所有不确定性并不是最优的。相反，最优探索只会减少增加预期未来回报的不确定性，而不会减少状态空间中分散注意力或不相关部分的不确定性。
探索和利用之间存在紧密的关系：收集信息以减少不确定性并提高未来回报，可能会牺牲更直接的利益。在这些情况下，对于智能体来说，退回到所有任务共享的行为，而不是适应任务是值得的，特别是在探索的时间有限的情况下。

因此，在一段时间内最大化回报需要通过探索和利用这些信息来仔细平衡信息收集，以实现高回报。

这就提出了一个重要的问题：什么是最优的探索策略？

为了回答这个问题，本文综述开始介绍贝叶斯自适应马尔可夫决策过程（Bayes-Optimal Markov Decision Process, BOMDP）。这是一种特殊类型的MDP，其解决方案是贝叶斯最优策略，在探索和利用之间进行最优权衡。然后，综述讨论了学习近似贝叶斯最优策略的实用方法，并从贝叶斯最优性的角度分析了前一节介绍的算法的细节。

Bayes-adaptive Markov decision processes

当我们获得一个探索策略的时候，我们需要将一个策略放在环境动力学不确定的MDP中。

贝叶斯自适应马尔可夫决策过程（Bayes-Optimal Markov Decision Process, BOMDP）的定义如下。

At each timestep, the BAMDP quantifies the current uncertainty about an MDP and returns next states and rewards based on what happens in expectation under the uncertainty. Then, the policy that maximizes returns under the BAMDP maximizes returns when placed into an unknown MDP. Crucially, the dynamics of the BAMDP satisfy the Markov property by augmenting the states with the current uncertainty. The optimal exploration strategy explicitly conditions on the current uncertainty to determine when and what to explore and exploit.

在每个时间步，BAMDP定量MDP的当前不确定性，并根据不确定性下预期发生的情况返回下一个状态和奖励。然后，在BAMDP下最大化的收益策略将最大化策略投入未知MDP时的回报。至关重要的是，BAMDP通过增加当前不确定性的状态来满足马尔可夫性质。最优探索策略明确地以当前的不确定性为条件，以确定何时以及利用什么。

BAMDP将当前的不确定性描述为基于当前观测的潜在过渡动态和奖励函数的分布。直观地说，峰值分布将其大部分“质量”（内容，也或者是正态分布的大部分）放在少数相似的动态和奖励函数上编码为低不确定性，而平坦分布编码为高不确定性，因为智能体可能处于许多不同的动态和奖励函数中。

在 $t^{th}$ 时间步，智能体获得一个置信信息（belief） $b^{t}=P(r,p| au_{0:t})$ ，其中 $r$ 表示这个状态下“猜测/预计”的奖励函数值； $p$ 表示“猜测/预计”的环境状态转移； $au_{0:t}={s_{0},a_{1},{s_1}cdots{s_{t}}}$ 表示从开始到现在的所有/连续的观测信息。特殊地， $b_{0}=P(r,p)$ 是从一个先验分布中采样得到的，可以自己设定的先验分布。

拥有了置信信息并将其增广到状态信息上，可以得到“增广状态” $s_t,b_{t})$ ，有效地增加了当前不确定性的状态。

如前所述，BAMDP的过渡动态 $p$ 和奖励函数 $r$ 是由当前不确定性下的预期信息所决定的。具体来说，BAMDP奖励函数是当前置信信息下的期望奖励。（这个公式本身包含了两层小目标，第一层是 $b_{t}$ 要越来越好；第二层是 $R(s_t,a_t)$ 要尽可能大）
$R^{+}(s_{t},b_{t},a_{t})=E_{Rsim b_{t}}[R(s_t,a_t)] ag8$
到达下一个状态 $s_{t+1}$ 的概率是在置信信息下到达该状态的概率，下一个置信信息根据贝叶斯规则更新，该贝叶斯规则基于下一个状态和来自底层MDP的奖励，而不是BAMDP “猜测/预计” 出来的奖励。
$P^{+}(s_{t+1},b_{t+1}|s_t,b_t,a_t)=E_{R,Psim b_{t}}[P(s_{t+1}|s_{t},a_{t})delta(b_{t+1}=p(R,P| au_{:t+1}))] ag9$
换句话说，BAMDP可以解释为与未知MDP相互作用并保持当前的不确定性(即置信信息)。在时间步长 $t$ 采取行动将产生下一个状态 $s_{t+1}$ 和来自MDP的奖励 $r_{t+1}$ ，它们用于更新置信信息 $b_{t+1}$ 。BAMDP的下一个状态是 $s_{t+1} = (s_{t+1}, b_{t+1})$ ，但BAMDP奖励是当前信念 $R$ 下的期望奖励 $R^{+}_{t} = R^{+}(s_t, b_t, a_t) = E_{Rsim b_t}[R(s_t,a_t)]$ 。

BAMDP的标准目标是在 $H$ 个时间步的某个范围内最大化预期奖励。
$J(pi)=E_{b_{0},pi}[sum_{t=0}^{H-1}R^{+}(s_{t},b_{t},a_{t})] ag{10}$
随着 $H$ 的增加，智能体被激励去探索更多状态，因为有更多的时间来获得寻找更高奖励解决方案的好处。值得注意的是，这个目标完全对应于标准的元强化学习目标(公式4)，其中样本数 $K$ 设置为0。

Learning an approximate Bayes-optimal policy

直接计算贝叶斯最优策略需要通过超状态进行规划。由于超状态包括置信信息，即动态和奖励函数上的分布，除了最简单的问题外，这通常是难以解决的。然而，有一些实用的方法可以学习近似贝叶斯最优策略。主要思想是学习近似置信信息，同时学习以置信信息为条件的策略，以最大化BAMDP目标(公式10)。

作为一个具体的例子，variBAD学习用变分推理（variational inference）来近似置信信息。由于直接维持动态和奖励函数上的分布通常是难以处理的，variBAD表示分布 $b_{t} = p(m | τ_{:t})$ 用潜在变量（the latent variables） $m$ 的近似置信信息。这个分布和潜在变量 $m$ 可以通过策略获得轨迹 $τ = (s_0, a_0, r_0，……， s_H)$ 和最大化所观察到的动态和奖励 $p(s_0, r_0, s_1, r_1，…， s_H | a_0，……， a_{H−1})$ 通过the evidence lower bound（ELB）。同时，通过标准强化学习学习策略 $π(a_{t}| s_{t}, b_{t} = p(m | τ_{:t}))$ 以使收益最大化。

Connections with other exploration methods

虽然不是3.4节中描述的所有方法都旨在学习贝叶斯自适应最优策略，但BAMDPs框架仍然可以为这些方法的探索提供有用的视角。下面我们将讨论几个例子。

Black Box Method

首先，Black Box Method（如 RL^2 ）学习一种基于循环的策略，该策略不仅适用于当前状态 $s_t$ ，而且适用于观察到的状态、动作和奖励的历史。这通常是通过循环神经网络来处理的。在每个时间步长上有若干个隐藏状态 $h_{t}$ 。值得注意的是，这些历史足以计算置信信息 $b_{t} = p(r, p | τ_{:t})$ ，因此黑箱元强化学习算法原则上可以通过在隐藏状态 $h_{t}$ 中编码置信信息来学习贝叶斯自适应最优策略。实际上，variBAD可以被看作是给Black Box Method算法添加了一个辅助损失，它鼓励隐藏状态是信念状态的置信信息，尽管这些方法的实际实现有所不同，因为variBAD通常不会通过其隐藏状态反向传播，而RL^2则会。

然而，在实践中，Black Box Method很难学习贝叶斯自适应优化策略在需要复杂探索的领域，因为优化是具有挑战性的。

Liu等人强调了Black Box Method元强化学习算法的一个这样的优化挑战，在没有学会如何利用这些信息的情况下，学习探索和收集信息是具有挑战性的，反之亦然。

与少样本之间的联系

前面讨论的许多探索方法都考虑了少样本背景，即智能体存在一些自由探索的episodes，目标是最大化后续episodes的回报。相比之下，BAMDP 定义了零样本背景，其中的目标是让智能体从第一个时间步开始最大化其预期回报。这些设置可以鼓励不同的探索行为。

在机器人厨师任务中，最佳的少样本探索可能是在开始烹饪之前的若干episodes中，首先详尽地查看抽屉和食品柜，寻找最好的烹饪器具和食材。

相比之下，最佳的零样本贝叶斯自适应行为可能会尝试在烹饪时（例如，当一壶水沸腾时）定位餐具和配料，因为花费前期时间可能太昂贵了。这可能会导致使用不太合适的器皿或成分，特别是当以较低的折扣因子优化时。我的理解是，因为贝叶斯的方法是同时任务执行和推断的，因此没有比较好的前期基础，导致得到的解是次最优的。

interleaving exploration and exploitation

更普遍的是，为少样本背景下设计的方法试图在最初的几个自由探索的episodes中降低置信信息的不确定性，然后随后利用相对较低的不确定性来实现高回报。这与零样本中的行为形成了对比，这可能涉及交织的探索和利用。

PEARL：后验抽样探索维持了对当前任务的后验，这相当于置信信息。然后，通过从这个分布中采样并假设采样的任务是当前任务来进行探索，然后根据观察更新后验，目的是解耦/降低置信信息的不确定性。

DREAM：通过学习在少样本自由探索阶段收集所有任务相关信息的探索策略，试图将置信信息分解为只包含动态和奖励

POMDP Perspective

元强化学习背景中的MDP分布也可以表述为一种特殊类型的部分可观察马尔可夫决策过程（POMDP）的单个实例。特别是，这个POMDP将MDP（奖励和动力学特性）身份保持在隐藏状态，导致了一些观察结果。

依赖于历史的策略通常用于POMDP，例如RL^2，即使它没有利用问题本身的所有可用结构，也足以最优地解决元强化学习问题。
BAMDP可以被视为特定的POMDP。因此，variBAD等方法只是试图显式地维护POMDP的置信信息。
为POMDP设计的方法可能在元强化学习背景中有类似物，反之亦然。

在元强化学习和更一般的POMDPs中已经探索了将随机网络蒸馏应用于置信信息进行元探索。

虽然元强化学习通常考虑MDP的分布，也可以考虑POMDP上的分布。在这种情况下，每个任务本身都是部分可观察的。这就形成了一个元POMDP。为了适应这种结构，研究了具有层次潜变量的variBAD的扩展。

[3] Kei Akuzawa, Yusuke Iwasawa, and Yutaka Matsuo. “Estimating Disentangled Belief about Hidden State and Hidden Task for Meta-Reinforcement Learning”. In: Learning for Dynamics and Control. PMLR. 2021, pp. 73–86.

3.6 Supervision

在本节中，我们将讨论元强化学习中大多数需要考虑的不同类型的监督。在到目前为止，讨论的标准背景下，元强化学习智能体在元训练的inner-loop和outer-loop以及元测试中都接受奖励监督（更明白的说就是用奖励函数做监督学习）。然而，情况并非总是如此。已经考虑了许多变化，从无监督的情况（即在元训练或测试期间完全缺乏奖励/有种“稀疏奖励特点”的感觉），到更强形式的监督（例如，在元训练和/或测试期间可以访问专家轨迹或其他特权信息）。

在元训练和元测试中都存在监督学习问题。大多数关于少样本元强化学习的文献考虑了在元训练和元测试时间提供奖励的问题设置。

本节将讨论元强化学习中关于这种（有/无）监督的另外三种变体。

元模仿学习是一个相关但独立的问题。

Unsupervised meta-RL

第一个问题设置提供了最少的监督（奖励信号）：在元训练时没有奖励信息，但在元测试时有奖励信息。

机器人厨师可以在标准化厨房中接受元训练，然后出售给客户，每个客户可能都有自己的奖励功能。

然而，培训机器人的公司可能不知道客户的需求。

在这种情况下，为元训练所需的MDP分配设计奖励函数是很困难的。甚至很难定义一个我们期望测试任务得到支持的分布。

一种解决方法便是创造奖励，鼓励智能体在环境中创造更多不同的发展轨迹。那么，最终用户的愿望很可能与这些轨迹和奖励函数中的一个相似。

Gupta 等人和 Jabri 等人尝试通过奖励彼此不同的行为来学习一组不同的奖励功能。在创建了这组任务之后，元强化学习可以像正常一样轻松地执行。Gupta等人在这个分布上训练了一个元强化学习智能体（基于 MAML）。一旦训练，它可以比RL更快地从零开始适应，并且在导航和运动任务上具有明显的对比，具有在手工设计训练分布的元训练。尽管如此，这些领域足够简单，不同的轨迹覆盖了任务空间，而在“厨师机器人”这样的领域差距仍然存在。

Meta-RL with unsupervised meta-testing

第二个设置假设奖励在元训练时可用，但在元测试时没有奖励。

元测试时明显没有奖励

生产机器人厨师的公司能够在实验室的几个厨房中安装许多昂贵的传感器来进行元训练。

这些传感器可以检测到柜台划伤、水渍或家具损坏的情况。所有这些都被用来定义奖励函数。然而，在每个客户的房子里安装这些传感器可能会非常昂贵。在这种情况下，元测试时不提供奖励。

奖励在outer-loop中，但它们从未在inner-loop中使用，并且假设不需要奖励信息来识别任务。事实上，在此设置中，只有在不同任务之间的动力学特性有所不同（没有奖励，这一部分信息缺失了）。

解决方法1：完全删除奖励

为了在元测试时没有奖励的情况下学习，许多方法完全从inner-loop中删除奖励。虽然inner-loop不能以奖励为条件，但它可以通过最大化相关因素来学习最大化奖励。例如，在PPG中，通常inner-loop需要抽样回报；然而，如果没有奖励，这在元测试时是不可能实现的。

解决方法2：根据历史数据对回报估计

一种解决方案是根据迄今为止收集到的数据，使用已知的回报估计（具体形式可能是一个循环网络这样）来取代策略梯度估计中的这些回报。例如，回报收益可以用一个学习得到的优势函数代替， $A_{θ}(s_{t}, a_{t}, s_{t+1})$ 或学习评论家 $Q_{θ}(s_t, a_t, D)$ 。

解决方法3：自监督的inner-loop

一种方法是利用人工设计的自监督（self-supervision）的inner-loop，同时使用完全监督的outer-loop。

解决方法4：Hebbian 学习

一种方法是利用Hebbian学习，这是一种基于生物学的无监督学习方法，其中权重更新是上一层和下一层相关激活的函数，并且没有奖励作为输入传递给策略。

The update to the weight $w_{k}^{i,j}$ from the $i^{th}$ activation in layer $k$ , $x^{k}_{i}$ , to the $j^{th}$ activation in layer $k + 1$ $x^{k+1}_{j}$ generally has the form.
$w_{k}^{i,j}= w_{k}^{i,j} + α(ax_{k}^{i}x_{k+1}^{j} + bx_{k}^{i} + cbx_{k+1}^{j} + d)$
where $α$ is a learning rate and $a, b, c, d$ are all meta-learned parameters in $θ$ .

由于权重更新仅在相邻层激活的条件上进行，并且没有奖励作为策略的输入传递，因此该函数是局部的且无监督的。Hebbian学习既可以应用于前馈，也可以应用于循环神经网络。

元测试时有稀疏奖励

在元测试时不是没有奖励，我们可能只有呈现出稀疏的奖励。如果在元训练中有密集奖励，则可以通过使用outer-loop中的密集奖励和inner-loop中的稀疏奖励，直接应用标准的元强化学习方法。

在元训练和元测试都只有稀疏奖励的情况下，一种方法是在元训练时改变奖励函数。一个常见的方法是一种经验重标签（experience relabelling），称为后见之明任务重标签（hindsight task relabelling）。假设任务只在奖励上有所不同，那么轨迹可以用其他任务的奖励重新标记，并且仍然与MDP一致。训练可以通过使用标准的off-policy元强化学习算法进行。如果轨迹在原始任务中没有达到目标状态，但在重新标记的任务下达到了目标状态，那么这样的方法特别有用。

如何选择这样的任务是一个研究问题。亦或是，如果动力学特点不同，一种方法允许策略在任务之间显式迁移转换，当有帮助时，通过学习在任务之间映射操作，以便它们在每个任务中产生类似的状态转换。

在元测试时解决稀疏奖励的另一种方法是引入鼓励探索的辅助奖励，如3.4节所述。

Meta-RL via imitation

第三种设置假设在元训练期间可以获得专家演示，这比标准奖励提供更多的监督。

机器人厨师可以获得由人类厨师提供的标记监督。这种设置可以提高采样效率，减少在线数据采集的负担。

Mendonca等人建议在outer-loop中模仿专家。在这种情况下，outer-loop可以利用监督学习，而inner-loop仍然学习一种强化学习算法，该算法在元测试时限制奖励。专门研究了 MAML 风格算法的最终策略的专家标签的使用。如果没有专家，同时训练特定任务的专家也可以产生稳定的元训练。

通过模仿的元强化学习仍然相对未被探索（研究的比较少）。这可能是由于在学习正确的监督过程中，探索行为存在困难，这是因为探索出的不符合专家演示的内容会被当成很大的误差。获得一个元强化学习专家需要知道如何在元强化学习问题中进行优化探索，这通常很难计算。这些论文通常使用特定于任务的专家，而不是获得这样一个通用的专家，这些专家可以通过每个任务的标准RL轻松获得（主要方法是通过更加高的水平训练目标）。

然而，这些特定于任务的专家只能为探索后的行为提供监督，例如，在 MAML 风格的算法中，由inner-loop适应过程产生的最终策略所采取的行动。在这种情况下，探索策略的信用分配可能会被忽略。一些论文使用相同的行为为必须探索的不知情策略和必须利用的知情策略的情形提供监督。然而，在大多数环境中，探索和利用的行为通常是不一样的。为了解决这个问题，智能体可以自适应地在优化元强化学习目标端到端和克隆知情的多任务专家之间切换。

对于 bandit，建议在outer-loop中使用DAgger的扩展，AggreVaTe。此外，可以使用多任务策略来生成奖励，鼓励多任务策略和元强化学习策略之间类似的状态-动作分布，特别是在最大熵强化学习中。

Meta-imitation learning

虽然从技术上讲，元模仿学习在技术上不是元强化学习，因为inner-loop不是强化学习算法，但是它是一个密切相关的问题背景。

此背景假设：访问inner-loop中的每个任务的固定演示集。大多数方法通过对固定数据的行为克隆（Behavior Cloning, BC）来训练outer-loop，这一过程也称为元行为克隆。或者，outer-loop也可以执行逆强化学习，我们称之为元逆强化学习（Meta Inverse Reinforcement Learning, MIRL）。

在IRL中使用元学习的另一种方法是，通过少样本学习来训练成功分类器。与元行为克隆相比，元逆强化学习通常在线执行，因此通常需要模拟环境。对于行为克隆和IRL，inner-loop和outer-loop通常也假定访问专家提供的操作，但有一种工作考虑的是只使用专家（可能是人类）访问的状态序列的inner-loop，尽管被部署在机器人系统上。

虽然对元模仿学习方法的调查超出了本文的范围，但元强化学习研究和元模仿学习研究之间有许多相似之处。例如，在元模仿学习中，存在类似于Black Box Method、PPG方法和任务推理方法，以及sim2real方法。大型语言模型，最近获得了巨大的关注，在上下文学习（In Context Learning）中执行，这可以被视为一种meta，其中每个提示（prompting）都被视为一个任务。此外，这些模型能够产生元模仿，即元模仿学习。

Mixed supervision

除了上述最常研究的设定之外，Zhou等人、Dance等人和Prat等人考虑了一些相关但不同的设置。

在这些设置中，有一个阶段是inner-loop接收演示，然后是inner-loop执行试错强化学习的阶段。演示通常来自离线收集的固定数据集，但也可能由来自固定数据集上通过元模仿学习训练的单独策略的在线数据补充。演示数据本身可能提供也可能没有提供。最后，在试错阶段，智能体可以在outer-loop使用强化学习进行监督，也可以使用模仿学习，也可以使用两者的某种组合。

Model-based meta-RL

到目前为止，讨论的大多数算法都是无模型（model-free）的，因为它们不学习MDP动态和奖励的模型。或者，可以显式地学习这样的模型，然后通过规划用于定义策略，或者用于在模型生成的数据上训练策略。这种方法被称为基于模型的强化学习，在元强化学习中也可以发挥有用的作用。

特别是，学习一个模型可能比直接学习一个策略更简单，因为模型可以使用监督学习进行训练，而监督学习可以以一种非策略的方式完成。此外，在元学习环境中，监督学习比强化学习更简单，因为对于监督学习，元学习也不需要学习收集数据（探索）以及如何收集数据（利用）。

许多不同类型的基于模型的元强化学习已经被研究过。为了适应模型的参数，一些基于模型的元强化学习论文使用梯度下降，如MAML；有些使用RNN，如RL^2。或者，可以对固定数量的过去历史转换进行编码，或者可以使用变分推理。一些方法直接使用现成的规划器对模型进行规划，而另一些方法则使用模型中的自适应参数作为策略的输入，然后使用标准强化学习对策略进行训练。

在适应模型的参数上调整策略的方法也可以被视为任务推断方法。该模型可以重建动态或奖励函数。模型可用于寻找对抗性任务，在优化最差情况回报时提高泛化。如果不可能获得潜在的马尔可夫状态，也可以通过重构观测来拟合潜在状态的动力学模型。与元强化学习问题设置密切相关的是，一种方法使用基于模型的元强化学习进行持续学习，而另一种方法将其用作标准强化学习算法中的子过程，以使学习更具样本效率。最后，使用元梯度来适应使用额外或无监督inner-loop的模型，而不是标准的监督损失，可能是有益的。

总的来说，在无模型的元强化学习和基于模型的元强化学习之间存在权衡。特别是，当有可能学习一个准确的模型时，基于模型的元强化学习方法可以非常有效地采样。相应地，基于模型的方法可以在策略之外学习，可能不需要明确地学习复杂的探索策略。然而，基于模型的元强化学习可能需要实现额外的组件，特别是对于需要比现成的计划器更多的长期任务，并且可能具有较低的渐近性能。

4 Many-Shot Meta-RL

在本节中，我们将考虑多样本背景下的问题。

例如，学习一个损失函数，该函数应用于数千次更新的新任务，而不仅仅是少量更新。

换句话说，目标是学习一种通用RL算法，类似于目前在实践中使用的算法。这种问题背景与第三章中介绍的少样本背景是分开讨论的，因为在实践中它考虑了不同的问题和方法。

Few-shot 存在的局限

在少样本多任务问题背景中，自适应策略可以通过利用其对任务分布的知识的系统性地探索策略，在少量的样本中成功地解决不可见的（unseen）任务。这种策略适用于狭窄的任务分布，例如，改变导航任务中的目标位置。对于更复杂的任务分布和更脆弱的任务之间的关系，少样本方法往往不能很好地工作。

为这些更复杂的条件设计的元强化学习方法通常类似于标准强化学习算法，原则上能够解决任何给定足够交互的任务。标准强化学习算法的缺点是它们需要很多样本来解决任务。建立在它们之上的元强化学习算法旨在通过显式优化更快的算法来提高样本效率。

元强化学习算法能够生成最佳泛化到未见环境的内循环，将内循环构造成类似标准RL算法的结构。

基于标准强化学习算法的另一个有用的领域是多样本单任务元强化学习。这里的目标不是在复杂的任务分布中寻求更大的泛化，而是在单个困难任务上加速学习。解决困难的任务需要很多样本，这为元强化学习的应用留出空间，以提高试验期间的样本效率。考虑到单任务和多任务元强化学习在任务分布上的差异，但是由于算法的相似性，我们将这两种问题的处理方法放在一起讨论。

4.1 Multi-Task Many-Shot Meta-RL

这类方法中的许多方法都明确地受到学习强化学习算法的需求的激励，这些算法在任何新任务上都能快速学习。这需要一个基本上包含所有合理任务的训练任务分布，或者适应训练任务分布之外的任务。

多样本多任务问题背景的目标与少样本问题设置的目标相同，由公式4给出。不同之处在于用于适应的回合数 $H$ 的长度更长，任务分布更广，甚至要包括不同的动作空间。长的试验长度和短的试验长度没有严格的界限，但针对每种设置的算法却通常很容易区分。针对少样本问题背景的算法最多在数十条episodes后才能达到最大性能，而针对多样本问题背景的算法可能需要数万条episodes或更多才能收敛。与在少样本问题背景中一样，元训练和元测试都包括从任务分布中采样任务并运行 $H$ 条episodes的内部循环。

4.2 Single-Task Many-Shot Meta-RL

深度强化学习中的一些任务需要大量的资源来独立解决，考虑到这些任务的分布可能是不可行的（也就是说，每个任务都需要大量的样本数据，但是任务的分布必然包含多任务，即使是离散概率和连续概率，即使这些任务是相似的）。研究人员已经研究了即使任务分布由单个任务组成，元强化学习是否可以加速学习，即在单任务强化学习训练期间加速在线学习（我跑的实验来看似乎是可以的，加速效果很明显的）。注意，这种设置有时也被称为在线交叉验证（online cross-validation）。

单任务问题背景的目标是在训练完成后最大化策略的最终性能。当我们选择一个只有一个任务的任务分布，将试验长度 $H$ 设置为一个大的数字，并选择 $K$ 以便只计算最后一episodes时，最终的性能由公式4中的元强化学习目标给出。

在实践中，在单个任务上进行元学习时，优化不能等到inner-loop训练结束后才进行更新。相反，元学习器的更新以一个附加的/额外的目标进行：从当前参数开始，进行少量inner-loop更新后改变元策略的性能。这个替代目标是最终策略效果的有偏估计，但在实践中仍然可以提供收益。在监督学习和元强化学习中都分析了考虑截断视界的偏差。单任务元强化学习算法通过以下两个步骤迭代更新智能体参数和元参数来工作。

Inner-loop: 用策略 $phi_{pi_{j}}$ 采样数据 $D_{j}$ ，用 $f_{ heta_{j}}$ 更新智能体的参数 $phi_{j}$ ： $pi_{phi_{j+1}}=f_{ heta_{j}}(pi_{phi_{j}},D_{j})$ ；
Outer-loop: 用更新后的策略 $pi_{phi_{j+1}}$ 采样数据 $D_{j+1}$ ，通过设置最大化新策略性能的目标 $hat{J}(D_{j+1},pi_{phi_{j+1}})$ 来更新元参数 $heta_{j}$ 。

步骤1中的inner-loop更新可能会在每次outer-loop更新之间重复多次。与inner-loop总是从新初始化的智能体参数作为开始的少样本多任务设置相反（在每个新任务到来的时候都会clone一下基本的策略，代码中看到的^_），在单任务问题背景中，智能体参数永远不会重置。相反，inner-loop在智能体的整个生命周期内不断更新智能体的参数。

这种元学习问题本质上是非平稳的，因为数据分布随着策略的变化而变化。元学习器中策略以非平稳训练条件作出反应的能力，通常被认为是使用元学习来加速强化学习的好处，但非平稳性本身导致了一个具有挑战性的元学习问题。许多单任务元强化学习的方法都与在线超参数调优方法密切相关。事实上，单任务元强化学习和在线超参数调优之间没有明确的界限，尽管通常超参数是指元参数 $θ$ 是低维的特殊情况，例如，对应于学习率 $α$ ，折现因子 $γ$ ，或TD( $λ$ )中的 $λ$ 。虽然这些超参数通常由元学习算法调整，以限制我们的综述范围，但我们只考虑在没有直接对应的非元学习情况下，通过引入元学习组件来增广inner-loop中的标准强化学习算法的方法。

4.3 Many-Shot Meta-RL Methods

多样本元强化学习的算法旨在通过引入元学习组件来改进它们所基于的普通强化学习算法。元参数化的选择取决于问题本身。元参数化的不同之处在于它们可以从任务分布中捕获多少结构（这在多任务情况下很重要），以及它们处理强化学习问题的哪些方面。元参数化可以解决诸如信用分配、表征学习等问题。元参数化的最佳选择取决于问题的哪个方面比较困难。在下面，我们将讨论在单任务和多任务问题背景中考虑到的不同元参数化。下图根据任务分布和元参数化对不同的方法进行了分类。诸如用于学习分层策略的单任务元强化学习等空白类别可能是未来工作的有希望的方向。我们也讨论了不同的outer-loop算法考虑多样本元强化学习。

根据考虑的任务分布和元参数化对多样本元强化学习方法进行分类。

Learning intrinsic rewards

MDP的奖励函数定义了我们希望智能体解决的任务。但是，基于任务定义的奖励函数对于一个智能体来说，可能很难学习到，特别是稀疏奖励环境特点时候。使强化学习问题更简单的一种方法是引入一个新的奖励函数，可以指导智能体学习如何探索。这些额外的奖励功能被称为内在动机（intrinsic motivation）或内在奖励（intrinsic rewards）。

内在奖励虽然通常是手动设计的，但最近开发了多样本元强化学习方法使用自动设计奖励函数。在多任务情况下学习内在奖励可以帮助智能体更快地学习探索新环境。
内在奖励还可以帮助将技能定义为分层策略的一部分。通过将 MAML 应用于Dueling DQN，也可以学习基于潜力（potential，可以理解为“势”）的奖励函数，其中初始化仍然是在单样本背景中中进行元训练，但元测试是多样本。
内在奖励在单任务背景下可以通过简单地将它们添加到任务定义奖励中来帮助加速学习。
Rajendran等人考虑了一种不同的元学习背景，在这种背景中，智能体可以在定期评估episodes之间的环境中自由实践，他们认为最有效的实践可能与仅仅试图最大化任务定义的奖励不同。智能体在实践过程中无法获得环境奖励，而是优化元学习的内在奖励。

Auxiliary tasks

在一些强化学习问题中，学习观察的良好表征是一个显著的重大挑战，因为强化学习目标可能提供较差的监督。一种方法是，为了更好地表征学习而引入了辅助任务，定义为无监督或自监督目标，与强化学习任务一起优化。

在深度强化学习中，哪些辅助任务最适合哪些任务是一个悬而未决的问题。

当已知一组辅助任务的合理候选时，一种方法是简单地元学习与每个任务相关的权重，这样就只使用对强化学习问题有用的任务。然而，即使辅助任务事先不知道，元学习仍然可以提供一个有用的工具。绕过设计问题的一种方法是元学习辅助任务本身。
Veeriah等人使用元梯度来训练一组辅助任务，这些任务由单一任务中的策略网络的额外预测目标表示。他们表明，学习的辅助任务比没有辅助任务的基础算法和手工辅助任务提高了样本效率。
Zahavy等人和Flennerhag等人也使用了同样的辅助任务学习方法，他们还在线调整了inner-loop算法的超参数。两者都达到了最先进的性能。

Learning RL objective functions directly

学习内在奖励和辅助任务表明，元强化学习可以通过增广标准强化学习目标函数来加速强化学习。这些成功导致了一个问题，即通过元强化学习直接学习目标函数或其中的部分，而不是向目标添加额外的项，这样是否可以在标准目标的基础上进行改进。

Houthooft等人、Oh等人和Xu等人提出了用未来轨迹的学习函数取代策略梯度算法中的回报或优势估计量的算法。
Kirsch等人和Bechtle等提出了一种替代优势估计器的方法。他们考虑了深度确定性政策梯度（DDPG）风格的目标函数，其中批评家是通过元强化学习而不是时间差异。这类似于Yu等人提出的元模仿学习inner-loop。也可以将元学习目标与通过TD-learning在inner-loop中学习到的标准评论家结合使用。
Lu等人表明，通过元学习函数将近端策略优化（PPO）等算法中高效的策略更新大小参数化是有益的。这些学习的强化学习目标在多任务和单任务元强化学习中都产生了很好的效果。
在多任务问题背景中，Oh等人证明了在简单任务（如gridworld）上学习的目标函数可以推广到更复杂的任务（如Atari)。而在单任务设置中，Xu等人表明，学习的目标函数最终可以优于它所构建的标准强化学习算法(IMPALA)。

Learning hierarchies

强化学习的一个核心问题是，当结果在长时间延迟后才显示出来时，如何做出决定。时间抽象是这个问题的潜在解决方案。这些抽象通常表示为由一组选项（option）或技能（skill）和选择使用哪些技能的管理（manager）策略组成的层次结构。当对给定环境有可用选项时，可以使用与标准密切相关的算法学习管理者的策略。针对分层强化学习算法，手动设计好的选项很困难的，而元强化学习可以提供帮助。反过来，层次结构可以帮助解决元强化学习的核心问题，即跨任务分布泛化的学习策略。多任务多样本元强化学习可用于发现选项，使分层强化学习更容易；反之亦然：分层策略可以在更长的范围内进行推理。

Black-box meta-learning

在少样本强化学习中，使用循环神经网络（RNN）或其他神经网络，而不是随机梯度下降（SGD）的Black Box Methods往往比基于SGD的替代方法学习得更快。Kirsch等人认为，许多Black Box Methods元强化学习方法，不能很好地泛化到未见的环境，因为它们很容易过度拟合到训练环境。为了对抗过拟合，他们引入了一种专门的RNN架构，该架构多次重用相同的RNN单元，使得RNN权重不受输入和输出维度和排列的影响。提出的方法需要更长的试验来学习新环境的策略，使其成为一种多样本元强化学习方法，但它可以推广到完全看不见的环境。

Outer-loop algorithms

根据定义，无论选择何种inner-loop参数化，多样本元强化学习的算法都必须在较长的任务范围内进行元学习。在这些长任务范围内直接优化是具有挑战性的，因为它可能导致梯度消失或爆炸，并且具有不可行的内存需求。

相反，如上所述，大多数多样本元强化学习的算法采用代替目标，它只考虑inner-loop中的一个或几个更新步骤。这些方法使用A2C风格、DDPG风格和演员评论家风格的指定outer-loop的目标。

Flennerhag等人提出了一种不同的代替目标，它通过提前计算几个更新来引导inner-loop的目标参数，然后优化其早期参数，以使用选定的度量最小化到后一个目标的距离。这允许在更多的inner-loop更新上进行优化，并且通过正确的度量选择，使它可以用于优化inner-loop中的行为策略，而使用标准的参与者-评论家目标是很困难的。
这个替代目标也被用于基于模型的元学习中发生的策略，学习的初始状态分布。另一种方法是在基于模型的方法中，对从学习过的模型，提取的样本进行元学习。
使用Black Box优化算法进化策略（ES）。与基于随机策略梯度的方法相比，ES较少受到梯度消失和爆炸问题的影响，并且在高方差和样本复杂性的代价下具有更有利的内存需求。

5 Applications

在许多应用程序领域中，快速适应部署过程中不可见的情况是一个关键的考虑因素。

通过对一组相关任务的元学习，元强化学习在这些领域提供了一个有前途的解决方案。例如交通信号控制，建筑能源控制，以及教育中的自动编码分级。元强化学习也被用作一个子例程来解决连续强化学习子领域中的非平稳性问题。元强化学习也与其他学习方法做交互，课程学习（curriculum learning）已应用于元强化学习，相反，元强化学习已应用于无监督环境设计。

元强化学习的应用场景。

5.1 Robotics

元强化学习的一个重要应用领域是机器人技术，因为机器人在部署过程中需要快速适应不同的任务和环境条件，例如操纵不同形状的物体，携带不同重量的负载等。从头开始训练机器人完成每一个可能的部署任务可能是不现实的，因为强化学习训练通常需要数百万步，在物理机器人上收集如此大量的数据是费时的，甚至当机器人在学习过程中出错时是危险的。元强化学习为这一挑战提供了一个有前途的解决方案，它通过元学习，从一组相关任务中归纳偏差，以实现在新任务中的快速适应。

然而，虽然元强化学习在部署过程中实现了有效的适应，但它是以多个任务上的样本效率低下的元训练为代价的，这是由于为元训练收集更大量的真实数据的成本而受到瓶颈。尽管如此，一些方法在现实世界中进行元训练，甚至学会在这样做的同时手动重置任务。然而，大多数方法都是在模拟中训练元强化学习代理，而不是在物理机器人上训练，通过改变模拟器参数可以轻松创建不同的任务，然后在现实世界中部署经过元强化学习训练的机器人。

这一过程被称为模拟到真实转移（sim2real transfer），极大地降低了元训练成本，并被大多数将元强化学习应用于机器人的方法所采用。

sim2real 过程图。

元强化学习在机器人的应用分类。

无模型方法

无模型元强化学习方法直接调整控制策略，以处理部署过程中未见的情况，例如具有不同硬件（质量、电机电压等）和环境条件（地板摩擦、地形等）的腿部机器人的运动，以及用不同的机械臂或可变物体进行操作。

Black Box Methods和任务推理方法根据从历史数据推断的上下文向量来调整策略，以表示手头的任务。它们的区别主要在于使用什么样的损失函数来学习上下文推理模块。
无模型PPG方法主要建立在 MAML 的基础上。然而，与无模型Black Box Methods相比，它们通常需要更多的扩展来适应，这与我们在第三章中关于不同方法效率的讨论是一致的。这些方法不是直接使用MAML，而是引入了进一步的修改，以实现样本高效训练，并处理现实世界的高噪声。

基于模型方法

采用基于模型的元强化学习。基于模型的方法可能更适合于机器人任务，原因如下。

基于模型的强化学习比无模型的方法更有效，这是机器人部署的一个关键考虑因素。
在某些情况下，例如在由各种动态参数定义任务差异的任务中，自适应动态模型可能比自适应控制策略容易得多。

与无模型情况类似，两种任务推理方法和PPG方法被认为可以使动态模型适应基于模型的控制。没有基于Black Box Methods方法，因为学习动力学特性只是进行任务推断的一种常用方法（也就是说，智能体通过一种推断的方法进行动力学特性的学习）。

5.2 Multi-Agent RL

元学习已经在多智能体强化学习中应用，以解决许多问题，从学习与谁通信到通过学习特定智能体奖励函数实现机制设计自动化，再到在训练固定领导策略时快速提供自适应最佳响应策略，从而对智能体进行元学习以计算Stackelberg均衡。

1. 新智能体的泛化

我们考虑的第一个多智能体问题是对其他智能体的泛化。在多智能体强化学习中，多个智能体在共享环境中工作。通常情况下多智能体强化学习中，每个智能体的策略变化都很大。这就产生了一个泛化到看不见的智能体的问题。这种概括可能发生在对手身上，或队友身上，有时被称为特别/特定的团队合作。其他智能体可能是习得的策略，甚至是人类（把人类也看成智能体）。通过将其他智能体视为任务的（一部分），并假设可用于实践的智能体分布，元强化学习是直接适用的（看这意思，应该是把智能体自己作为MDP里面的组件然后形成分布…？）。

说明如何使用元强化学习来解决未见智能体的泛化问题。通过在元训练时间泛化其他智能体，我们可以在元测试时间适应新的智能体。

2. 非平稳过程

在多智能体强化学习中，从任何一个智能体的角度来看，所有其他智能体都会随着学习而改变。这意味着从一个智能体的角度来看，如果所有其他智能体都被建模为环境的一部分，那么环境就会发生变化。也就是说，问题是非平稳的。元强化学习同样可以通过将其他学习智能体作为任务的（一部分）来解决非平稳问题。在这种情况下，每个智能体的学习算法，以及到目前为止每个智能体学习的内容，共同定义了任务。通过在元训练期间重复重置其他学习智能体，我们可以元学习如何处理其他智能体引入的更改。从元学习智能体的角度来看，在其他智能体上的分布保持稳定。这有效地解决了多智能体的非平稳性。

在多智能体强化学习中使用元强化学习训练另一个智能体学习的例子。通过重置其他智能体的学习过程，并在此基础上进行训练，我们可以学会解决其他智能体学习所产生的非平稳性。

多智能体强化学习的解决方案使用了所有不同类型的元强化学习方法：PPG方法和任务推理方法。如果其他智能体正在学习，智能体甚至可以使用马尔可夫（即非自适应）策略。这些方法中的大多数都可以应用于底层的元强化学习问题，以解决对其他智能体的泛化和非平稳性。

一些PPG论文专注于使用元梯度来改善其他智能体的分布，以提高对新智能体的泛化。这些论文关注对手的课程，以最好地支持基于群体的训练背景中的学习。一种方法是在固定对手分布上的PPG元学习之间迭代，并将元学习智能体的最佳响应添加回到总体。另一种方法是使用元梯度或进化策略来优化神经网络以产生相反的参数。对手参数的选择是最大化学习智能体的最坏情况性能。这两种方法都使用智能体的分布来创建能够跨许多其他智能体泛化的健壮元智能体。一些PPG论文引入了额外的机制来处理非平稳性。为了解决所有非平稳性，所有其他（自适应或非自适应）智能体最终必须重复重置到其初始策略。虽然这一点已经被探索过，但PPG方法倾向于允许其他智能体继续学习，甚至元学习，而不需要重置。每一个PPG方法以不同的方式解决了其他智能体的非平稳学习。

Al-Shedivat等人提出了元学习如何进行梯度更新，以便在各种对手策略对上，相对于后续对手策略提高性能。
Foerster等人推导出一个策略梯度更新，即一个智能体元学习，在其余智能体遵循精确的策略梯度的假设。
Kim等人推导出一个策略梯度更新，假设所有智能体都对元学习数据进行抽样。

6 Open Problems

元强化学习是一个活跃的研究领域，有越来越多的应用，在这个新兴的领域有很多未来的工作机会。在本节中，我们将讨论元强化学习中的一些关键的开放问题。

6.1 Few-Shot Meta-RL: Generalization to Broader Task Distributions

正如第3节所述，少样本元强化学习方法是在新的任务上快速适应的一个很有希望的解决方案。然而，到目前为止，它们的成功主要是在狭窄的任务分布上实现的，而元强化学习的最终目标是快速获取全新的行为。因此,
未来的工作应更多地关注于将少样本元强化学习方法推广到更广泛的任务分布。实现这一目标的直接方法是在更广泛的任务分布上进行元训练，学习可以泛化到更多任务的归纳偏差。然而，训练更广泛的任务分布还引入了超出范围（out of distribution, OOD）的新挑战（例如更难的探索问题），这些也超过了现有方法的范围。此外，即使在广泛的任务分布上进行训练，智能体也会仍然可能遇到位于训练分布之外的测试任务。对这种分布之外的任务进行泛化是很重要的，因为元强化学习代理可能会在现实世界中遇到意想不到的任务。

Training on broader task distributions for better generalization

元训练任务分布在元强化学习中起着重要的作用，因为它决定了我们可以从什么归纳偏差中学习数据，而元强化学习算法决定我们可以多好地学习这种归纳偏差。这个任务分布应该足够多样化，以便学习到的归纳偏差可以推广到更广的新任务的范围，任务结构足够清晰以便存在一些共享的知识，这些共享的知识可以被利用来快速适应。

现有的少样本元强化学习方法通常是在狭窄的任务分布上进行元训练，其中不同的任务只是通过改变指定几个参数来定义的，比如：奖励函数或环境动力学。这些任务之间的分布是狭窄的，这就带来了问题。例如，在这种设置中，任务推理通常是微不足道的。通常，智能体可以根据一些较少的状态转移推断出定义任务的参数。这使得很难评估元强化学习方法是否可以学习系统的探索行为来推断更复杂的任务结构。一般来说，可以从狭窄的任务分布中学习到的归纳偏差是针对特定的训练分布高度定制的知识，对于在更广泛的任务域中更快地获取全新的行为几乎没有帮助。

因此，除了具有清晰的任务结构外，我们还需要设计多样化的基准。这样的基准将更好地反映现实世界问题中的复杂任务分布，并促进新方法的设计，这些方法可以泛化这些具有挑战性的任务。例如，最近的一些机器人测试基准引入了广泛的操作任务，不仅具有参数多样性的模拟（例如将对象移动到不同的目标），而且还具有非参数多样性（例如选择一个对象并打开一个窗口）。具有程序生成环境的游戏基准为在更广泛的任务分布上评估元强化学习提供了另一个良好的测试平台，因为通过遵循不同的游戏规则，可以很容易地生成具有多样化和清晰任务结构的新环境。例如，Alchemy是一个视频游戏基准，其目标是将带有药剂的石头变成更有价值的形式，这需要智能体战略性地对不同的假设进行实验以便有效探索和推理的任务。除了这些模拟基准，Liu等人介绍了一个真实世界基准测试，需要系统的探索来发现不同程序中的错误，并编码反馈。现有的元强化学习方法还不能在许多数据集上取得令人满意的性能，这些更具挑战性的基准表明对元强化学习更广泛的任务分配仍然是一个悬而未决的问题，需要更多的关注。新颖的方法，如使用课程学习和基于任务描述在分配中主动选择任务，也可能需要解决足够广泛的分布。

Generalization to OOD tasks

在少样本元强化学习中，通常假设元训练和元测试任务来自相同的任务分布。然而，在现实问题中，我们通常无法先验地知道智能体在部署过程中可能面临的所有情况，强化学习智能体可能会遇到位于元训练任务分布之外的测试任务。

这里的一个关键挑战是，我们不知道习得的归纳偏差在多大程度上仍然有助于解决OOD任务。

在导航任务中，习得的归纳偏差是一种探索策略，它遍历半圆的边缘，首先找到目标。如果我们考虑将OOD任务导航到半径更大的半圆边缘上的目标，那么学习的探索策略不再是最优的，但仍然可以帮助智能体比从头开始更有效地探索。但是，如果OOD任务是在半圆上导航到目标，那么习得的归纳偏见可能是显著有害的，并减缓学习。

因此，简单地使用现有的少样本元强化学习方法通常采用的习得归纳偏差是不足以实现OOD泛化的。相反，智能体需要根据哪些类型，自适应地选择如何利用或调整学习到的正在解决OOD任务的归纳偏差。

我们希望确保在给定足够的适应数据的情况下，智能体可以泛化到任何OOD任务，即使学习的归纳偏差是错误指定的。原则上，PPG方法可以满足这一要求，而Black Box Methods不能，这与我们关于trade-off的讨论相呼应；
我们希望从习得的归纳偏差中利用尽可能多的有用信息来提高OOD任务的学习效率。尽管最近的工作研究了如何在分布偏移较小的OOD任务上提高泛化或适应效率、，但如何自适应地处理训练和测试任务之间的较大分布偏移仍需要做更多的工作。

6.2 Many-Shot Meta-RL: Optimization Issues and Standard Benchmarks

对于多样本元强化学习，outer-loop优化存在重大问题，其中一些问题仍未解决。此外，还缺乏标准基准来比较不同的多样本元强化学习方法，这是未来工作需要填补的重要空白。

Optimization issues in many-shot meta-RL

在多样本元强化学习中，inner-loop多次更新策略，由于目标曲面不光滑，计算成本高，导致outer-loop的优化问题具有挑战性。为了在实践中应对这些挑战，大多数方法都将相对较少的inner-loop更新后的性能作为替代目标，而不是完整的inner-loop优化轨迹。只在智能体生命周期的一小部分之后更新inner-loop会导致梯度估计的偏差，这可能会对元学习性能不利。如何解决这个优化问题仍然是一个开放的问题。一种方法是使用无梯度优化方法，如Kirsch等人所做的进化策略，但在使用这些方法中，其样本复杂性要比基于梯度的优化差得多。

Truncated optimization in many-shot single-task meta-RL

即使在多任务背景中优化长生命周期智能体是可能的，在单任务背景中，我们仍然需要在学习完成之前更新inner-loop，以便使其有用。

改进单个任务上的截断优化的一种方法是代替性智能体目标，它用较短截断长度上的引导目标近似地更新较长的截断长度。然而，这也引入了偏元梯度估计。
另一种解决方案计算内部循环中不同更新次数的元梯度，然后计算加权平均值，类似于TD( $λ$ )。此外，在这种设置中还有更多的偏见来源，例如inner-loop和outer-loop之间的评论家重用的偏见。在单任务设置下，为元梯度估计器选择最佳偏差-方差权衡（the bias-variance trade-off）需要更多的研究。

Non-stationary optimization in many-shot single-task meta-RL

多样本单任务元强化学习的另一个核心挑战是inner-loop的非平稳性。在多任务元强化学习中，inner-loop多次访问相同的任务，允许元学习器适应固定的训练任务分布。然而，在单任务情况下，智能体参数不断变化，使得元学习问题是非平稳的。在非平稳问题中的学习是一个超越在线元强化学习的开放的研究领域。

Benchmarks for many-shot meta-RL

多镜头元强化学习方法主要在Atari、经典控制和连续控制等广泛的常用强化学习任务上进行评估，表明所学习的强化学习算法具有良好的泛化能力。然而，一些论文跨不同领域测试泛化，而另一些则在单个领域内评估，并且没有统一的标准来划分所选领域的训练和测试任务。

在单任务设置中，已经提出了强化学习中超参数调优的基准，但该基准关注于固定且数量较少的离散元参数。在多任务环境中，为了更好地评估学习算法的泛化性，为选择元训练和元测试任务而设计和采用基于统一标准的基准是有帮助的。在这个方向上，一个甚至可以按顺序提供多组训练和测试任务的有用的基准要逐渐增加迁移所需的难度，理想情况下，迁移的程度可以通过MDPs之间的相似性测量来量化。

最终的多样本元强化学习的目标是设计通用的强化学习算法，该算法可以很好地工作在任何合理的MDP中。然而，这种分布在所有“合理的”MDPs上的确切任务结构仍然不清楚，需要澄清/清晰化，因为必须在这些MDPs之间共享一些结构，以便允许元学习。

6.3 Utilizing Offline Data in Meta-RL

到目前为止，元强化学习的大部分研究都集中在outer-loop和inner-loop同时使用在线online数据的设置上。

然而，当离线offline数据可用时，适当地利用它，能在元训练（outer-loop）和适应（inner-loop）期间减少昂贵的在线数据收集需求的有效方法。根据outer-loop和inner-loop分别可用的数据类型，我们有四种不同的设置。

除了完全在线的元强化学习之外，其余三种设置仍未得到充分探索，我们将在下面讨论它们。

Offline outer-loop and offline inner-loop

在此设置下，智能体只能对离线数据进行适应，并在outer-loop中学习优化离线数据的适应策略。这特别适用于在线探索和数据收集是昂贵的，甚至是危险的，而历史行为的离线日志是丰富的场景，如机器人和工业控制（我的理解是，可以通过比如某个工厂的历史数据，得到一批离线的数据，再根据这些数据元强化学习）。

与标准离线强化学习一样，每条轨迹的累计奖励 $R (τ)$ 必须仅从离线数据估计，这就产生了诸如此类收益的高估的问题（有点类似于机器学习的过拟合问题）。
元强化学习的独特之处，我们不能通过在线探索来收集 $D_{:K}$ 来进行适应，我们只能使用每个任务提供的任何离线数据进行适应。因此，自适应性能在很大程度上取决于离线数据对任务的信息量。

现有工作主要研究简单任务分布上的离线设置，其中任务身份可以从离线数据中的一些随机采样转换中轻松推断出来。然而，如何适应离线数据对更复杂的任务分布，以及不同的离线数据收集方案如何影响离线适应的性能，仍然是悬而未决的问题。

Offline outer-loop and online inner-loop

在这种情况下，智能体通过纯离线数据的元训练来学习适应在线数据。与完全离线相比，该设置更适合部署过程中允许少量样本进行在线适应的场景。在线自适应解决了前面提到的仅使用离线数据进行自适应时探索有限的问题，但它也带来了一个新的挑战：如何从一些未知策略收集的离线数据中学习系统的探索策略？离线数据通常以特定于任务的方式收集，通常不包括探索策略所需的行为。这就造成了我们想要学习的探索策略和我们可以从中学习的离线数据之间的分布转移。

如果离线数据仅由具有实际任务执行的专家（expert）收集，则这种转变可能特定专家问题。为了应对这些挑战，现有的工作对数据收集方案做了额外的假设，但严格来说，这样的假设违反了离线元训练问题背景，从而限制了它们的应用。

Pong等人允许进行一些在线元训练，但仅限于无监督的互动，并且他们学习了一个奖励函数来为这种无监督的在线互动生成监督。此外，Rafailov等人对奖励进行了假设，在任务之间交换离线数据时，可以轻松地重新标记奖励。如何放松/松弛离线假设，使这一设置更适用仍然是一个悬而未决的问题。

Online outer-loop and offline inner-loop

在这种情况下，智能体只能适应离线数据。然而，在outer-loop中可以获得在线数据，以帮助智能体了解什么是好的离线适应策略，这可能比离线outer-loop环境更容易学习。换句话说，智能体正在通过在线（元）强化学习进行离线强化学习。

它保持了仅使用离线数据进行适应的好处，同时更容易元训练而并非完全离线元训练。
设计好的离线强化学习算法比较困难，而元强化学习提供了一种很有前途的方法来自动化这个过程。

一些现存的方法确实结合了离线的inner-loop和在线的outer-loop。然而，这两种方法都允许在inner-loop的离线适应之后进行额外的在线适应，离线数据要么只包含观测，要么只包含额外专家行动。一种方法使用置换不变内存来启用异策略（off-policy）的inner-loop，但仅使用从先前策略收集的数据进行计算。因此，通过在线强化学习实现离线强化学习对于未来的工作来说，这仍然是一个有趣的方向，在少样本和多样本问题背景下有潜力设计出更有效的通过元学习的离线强化学习算法。

7 Conclusion

In order to push meta-RL further and enable new applications, we found that broader and more diverse task distributions need to be developed for training and testing the meta-RL algorithms. With promising applications in sight and a range of open problems awaiting solutions, we expect meta-RL research to continue to actively grow.

完结，撒花~~

猜你喜欢

史上最简单的Windows系统安装指南：一文读懂
Windows 11被曝内存占用高：微软正着手修复
蓝屏警告！不要在不受支持的PC上安装Windows 11
又不砍 UWP 版了，微软产品经理称 Windows 11/Windows 10 OneNote 桌面版将获得大量新功能
12步搞定Wsl 2，安装、交互、迁移、VSCode远程调试应有尽有
如何在不兼容设备上成功安装Windows 11系统
20 个提高生产力的 Linux 命令与技巧，用完带你飞
微软重申Windows 10设备能免费升至Windows 11：前提要满足条件
Windows 11 存在文件资源管理器高内存使用率 Bug，微软正在修复
Linux 上五个基于 Chromium 的浏览器
怎样在Windows 11中禁用VBS以提高性能？
微软 Windows 11 应用商店 mini 版页面正式启用：下载 App 更快速
升Windows 11后必做的一件事：性能可提升28%
Linux 驱动挂载顺序分析
这才是搜索神器的完全体！Everything必备工具
上古神器上架Windows 10商店！PowerToys你玩过么
更新Windows11正式版后尴尬了：依然是Win10风格开始菜单、且无法使用
电脑硬件不能满足要求，如何安装Windows 11，微软官方给出了答案
谷歌 Chrome“RenderingNG”性能提升计划于今年结束，已取得巨大成功
Windows 11 VBS 安全功能导致性能下降，教你如何检测并关闭

当前栏目

【论文笔记】 元强化学习综述解读 (arXiv: 2301.08028)

【论文笔记】 元强化学习综述（2023牛津/斯坦福版）

文章目录

前言

0 Abstract

1 Introduction

元强化学习的简介？

元强化学习相比于传统强化学习能多做什么？

元强化学习算法自身存在的不足之处？元强化学习如何处理这些不足之处？

元强化学习的一个小举例？

2 Background

2.1 Reinforcement learning

2.2 Meta-RL definition

元强化学习的术语

注意（2-2-1）

元强化学习的目标是什么？

2.3 Example algorithms

MAML

注意（2-3-1）

RL^2

两种方法的优势和劣势

2.4 Problem Categories

小样本多任务（few-shot multi-task setting）

小样本多任务的含义？

强化学习的小样本多任务与图像分类的区别和联系？

这样的工作存在哪些问题？

多样本单/多任务（many-shot single/many-task(s)）

少样本单任务（few-shot single-task）

3 Few-Shot Meta-RL

Meta-parameterization

Exploration

探索的意义/作用？

探索过程和任务推断过程的关联？

Supervision

3.1 Parameterized Policy Gradient Methods

实例：PPG（Parameterized policy gradients）算法

Adapted base network parameters

第一种范式：更新初始网络权值的分布

第二种范式：更新策略的子集（一部分）

部分更新的方法的优势是什么？

Meta-gradient estimation in outer-loop optimization

元梯度估计问题1：老策略对新策略的影响

元梯度估计问题2：策略梯度期望

Outer-loop algorithms

PPG trade-offs

3.2 Black Box Methods

Adapted base network parameters

上下文向量（the context vector）从何而来？

上下文向量（the context vector）有何不足之处？

Inner-loop representation

黑箱方法中的内环表征形式都有哪些呢？

注意力机制在黑箱模型的使用情况？

注意力机制存在哪些不足之处？

Outer-loop algorithms

Black box trade-offs

3.3 Task Inference Methods (任务推理方法)

Task Inference Methods 的简单介绍？与 Black Box Methods 的关联?

Notation

Task inference with privileged information

Task inference with multi-task training

Task inference without privileged information

Inner-loop representation

Task inference trade-offs

Task Inference Methods 与其他方法的对比？

3.4 Exploration and Meta-Exploration

End-to-end optimization

Posterior sampling

Task inference

Meta-exploration

3.5 Bayes-Adaptive Optimality

Bayes-adaptive Markov decision processes

Learning an approximate Bayes-optimal policy

Connections with other exploration methods

Black Box Method

与少样本之间的联系

interleaving exploration and exploitation

POMDP Perspective

3.6 Supervision

Unsupervised meta-RL

【论文笔记】元强化学习综述解读 (arXiv: 2301.08028)

【论文笔记】元强化学习综述（2023牛津/斯坦福版）