您现在的位置是：首页 > 硬件

当前栏目

（《机器学习》完整版系列）第16章强化学习——16.12 逆强化学习（逆是指回到条件中）

机器学习系列条件 16 强化完整版

2023-09-11 14:14:53 时间

提示：
现在，强化学习任务的条件中，奖赏函数未知，用线性函数（近似地）表达奖赏函数（其参数未知）。逆强化学习是指学习的内容是强化学习任务某条件。
基于“人类专家具有最优性”这一假定，以及多目标优化理论，交替地迭代出最优奖赏函数。

逆强化学习

现在，强化学习任务的条件 $E=\langle X,A,P,R\rangle$ 中，奖赏函数 $R$ 未知，如何处理？

我们曾用线性函数（近似地）表达了值函数【西瓜书式(16.32)】，这里我们用线性函数（近似地）表达奖赏函数，为更一般，我们将状态设为多元的，用向量 $\boldsymbol{x}$ 表示，奖赏函数为
$\begin{align} R(\boldsymbol{x})=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x} \tag{16.95} \end{align}$
其中，不妨设 $\boldsymbol{x}\in [0,1] ^k$ （分量压缩到[0,1]区间），也不妨设 $||\boldsymbol{w}||_2\leqslant 1$ （否则可乘以一个系数使其满足所设）。

将式(16.95)代入状态值函数【西瓜书式(16.5)】（ $R(\boldsymbol{x}_t)$ 取代 $r_{t+1}$ ），则 $\gamma$ 型累积奖赏为【西瓜书式(16.37)】，简记为
$\begin{align} \rho_{\boldsymbol{w}} ^{\pi}=\boldsymbol{w}^{\mathrm{T}}\overline{\boldsymbol{x}}^{\pi} \tag{16.96} \end{align}$
其中，称 $\overline{\boldsymbol{x}}^{\pi}$ 为 ${\pi}$ 的特征向量
$\begin{align} \overline{\boldsymbol{x}}^{\pi}=\mathbb{E} \left[\sum_{t=0}^{+\infty }\gamma ^t \boldsymbol{x}_t\right] \tag{16.97} \end{align}$

若已知策略 $\pi$ ，则可对其进行蒙特卡罗试验，采样得到其轨线集 $\{\tau^{\pi} _i\}_{i=1}^m$ ，其中， ${\tau^{\pi} _i}=(\boldsymbol{x}^{\pi}_1,\boldsymbol{x}^{\pi}_2,\cdots,\boldsymbol{x}^{\pi}_{n_i})$ 为第 $i$ 条决策轨线，它的长度为 ${n_i}$ ，则式(16.97)中的期望可用平均来近似，即
$\begin{align} \overline{\boldsymbol{x}}^{\pi} & \approx \mathbb{E} \left[\sum_{t=0}^{n }\gamma ^t \boldsymbol{x}_t\right]\quad \text{（足够大的$n$）}\notag \\ & \approx \frac{1}{m}\sum_{i=1}^m\sum_{t=0}^{n_i}\gamma ^t{\boldsymbol{x}^{\pi}_t} \tag{16.98} \end{align}$

我们把问题转化为：借助人类专家决策的范例，求式(16.95)中“真实”的 $w^*$ 及以对应的最优策略 $\pi ^*_{w^*}$ 。

将人类专家的策略记为 $e$ ，并视它为最优策略 $\pi ^*_{w^*}$ 的近似（即假定：基于 $\boldsymbol{w}^*$ 人类专家 $e$ 具有最优性）。虽然不知道 $e$ 是什么样，但已收集到它的一些轨线（范例集） $\{\tau^{e} _i\}_{i=1}^m$ ，则
对应于式(16.96)、式(16.98)有
$\begin{align} \rho_{\boldsymbol{w}} ^{e} & =\boldsymbol{w}^{\mathrm{T}}\overline{\boldsymbol{x}}^{e} \tag{16.99} \\ \overline{\boldsymbol{x}}^{e} & =\frac{1}{m}\sum_{i=1}^m\sum_{t=0}^{n_i}\gamma ^t{\boldsymbol{x}^{e}_t} \tag{16.100} \end{align}$

再比较机器策略 $\pi$ 与人类专家策略 $e$ 二者间的奖赏，差距为
$\begin{align} \rho _{\boldsymbol{w}}^e-\rho _{\boldsymbol{w}}^{\pi } & =\boldsymbol{w}^{\mathrm{T}}(\overline{\boldsymbol{x}}^e-\overline{\boldsymbol{x}}^{\pi }) \tag{16.101} \end{align}$
其中，特征向量 $\overline{\boldsymbol{x}}^e,\overline{\boldsymbol{x}}^{\pi}$ 分别为式(16.100)、式(16.98)。
另外，式中右侧的 $(\overline{\boldsymbol{x}}^e-\overline{\boldsymbol{x}}^{\pi })$ 不视为 $\boldsymbol{w}$ 的函数。

（1）给定 $\boldsymbol{w}_0$ ，对其进行一次改进，分三步：

1.给定 $\boldsymbol{w}_0$ ，按“有模型”（ $E=\langle X,A,P,R\rangle ,\ R(\boldsymbol{x})=\boldsymbol{w}_0^{\mathrm{T}}\boldsymbol{x}$ ）方式进行训练，得到最优解 $\pi ^*_{\boldsymbol{w}}$ ，
记为 $\pi '$ ；

2.由策略 $\pi '$ ，进行蒙特卡罗采样，按式(16.98)产生对应的特征向量 $\overline{\boldsymbol{x}}^{\pi '}$ ；

3.对于已有 $e,\pi '$ 而言，再“逆”过来看：应该如何改进 $\boldsymbol{w}$ ？就是尽力寻找“真实”的 $\boldsymbol{w}^*$ 。

由于“基于 $\boldsymbol{w}^*$ 人类专家 $e$ 具有最优性”，即 $e$ 获得的奖赏最大，因此， $\boldsymbol{w}^*$ 应能最大化奖赏的差距，即最大化间隔（类似SVM时的理念）
$\begin{align} \boldsymbol{w} ^* & =\mathop{\arg\max}\limits_{\boldsymbol{w}}(\rho ^e_{\boldsymbol{w}}-\rho ^{\pi '}_{\boldsymbol{w}})\notag \\ & =\mathop{\arg\max}\limits_{\boldsymbol{w}}\boldsymbol{w}^{\mathrm{T}}(\overline{\boldsymbol{x}}^e-\overline{\boldsymbol{x}}^{\pi '})\quad \text{（由式(16.101)）} \tag{16.102} \end{align}$

由式(16.102)，本次训练 $\boldsymbol{w}$ 的目标为
$\begin{align} & \mathop{\max}\limits_{\boldsymbol{w}}\boldsymbol{w}^{\mathrm{T}}(\overline{\boldsymbol{x}}^e-\overline{\boldsymbol{x}}^{\pi '}) \tag{16.103} \\ & \quad \mathrm{s.t.}\qquad ||\boldsymbol{w}||\leqslant 1 \notag \end{align}$
由此即得到优化的 $\boldsymbol{w} ^*$ 。

（2）现在考虑有 $j$ 个进程同时并发地按（1）进行训练：第 $i$ 个进程给定的 $\boldsymbol{w}$ 为 $\boldsymbol{w}_{i-1}$ （错开一位 $i - 1$ 是为了与式(16.107)对应），对其改进，得到的 $\boldsymbol{w} ^*$ 记为 $\boldsymbol{w}_i ^*$ ，训练出的 $\pi '$ 记为 $\pi _i$ ，对应的特征向量 $\overline{\boldsymbol{x}}^{\pi_i}$ 记为 $\overline{\boldsymbol{x}}_i$ ，由式(16.103)，则有一组目标
$\begin{align} & \mathop{\max}\limits_{\boldsymbol{w}}\boldsymbol{w}^{\mathrm{T}}(\overline{\boldsymbol{x}}^e-\overline{\boldsymbol{x}}_i) \tag{16.104} \\ & \quad \mathrm{s.t.}\qquad ||\boldsymbol{w}||\leqslant 1 ,\ \quad i=1,2,\cdots,j \notag \end{align}$
其中， $\overline{\boldsymbol{x}}_i$ 是第 $i$ 个进程按（1）的步骤1、2，由给定的 $\boldsymbol{w}_{i-1}$ 得到。

然而，各 $\boldsymbol{w}_i ^*$ 并不相同，如何将它们“合成”一个呢？办法是在它们训练过程中（而不是训练之后）采取“互相牵就”而达到一种平衡，即有一个总控，它“力图”使这些目标同时满足，这即是多目标优化，如图 16.13所示。
图 16.13 多目标优化

图 16.13 多目标优化

由多目标优化理论，在一定的条件下（假设满足该条件），多目标式(16.104)可以转化为单目标（一个优化式）
$\begin{align} & \mathop{\max}\limits_{\boldsymbol{w}}\mathop{\min}\limits_{i\in \{1,2,\cdots,j\}}\boldsymbol{w}^{\mathrm{T}}(\overline{\boldsymbol{x}}^e-\overline{\boldsymbol{x}}_i) \tag{16.105} \\ & \ \mathrm{s.t.}\qquad ||\boldsymbol{w}||\leqslant 1 \notag \end{align}$
观察式(16.105)知，它只需要一个特征向量集 $\overline{\boldsymbol{X}}=\{\overline{\boldsymbol{x}}_i\}_{i=1}^j$ 即可（从 ${\min}$ 号下的约束即可知），
产生的最优解为
$\begin{align} & \boldsymbol{w}^*=\mathop{\arg\max}\limits_{\boldsymbol{w}}\mathop{\min}\limits_{\overline{\boldsymbol{x}}_i\in \overline{\boldsymbol{X}}}\boldsymbol{w}^{\mathrm{T}}(\overline{\boldsymbol{x}}^e-\overline{\boldsymbol{x}}_i) \tag{16.106} \\ & \ \mathrm{s.t.}\qquad ||\boldsymbol{w}||\leqslant 1 \notag \end{align}$

（3）递进地改进 $\boldsymbol{w}$

逐步改进的 $\boldsymbol{w}$ 形成一个序列
$\begin{align} (\boldsymbol{w}_0,\boldsymbol{w}_1,\boldsymbol{w}_2,\cdots,\boldsymbol{w}_{j-1},\cdots) \tag{16.107} \end{align}$
设当前已有该序列的前 $j$ 项：基于这 $j$ 个 $\boldsymbol{w}_i$ 依（2）的方法产生一个新的最优解 $\boldsymbol{w}^*$ （即由式(16.106)所得），它作为第 $j + 1$ 个，记为 $\boldsymbol{w}_{j}$ 。对于这个 $\boldsymbol{w}_{j}$ ，依（1）的第1步产生 $\pi '$ ，记为 $\pi _{j+1}$ ；依（1）的第2步产生对应的特征向量 $\overline{\boldsymbol{x}}^{\pi '}$ ，记为 $\overline{\boldsymbol{x}} _{j+1}$ ，将其加入到特征向量集 $\overline{\boldsymbol{X}}$ 中，又可依（2）的式(16.106)产生新的 $\boldsymbol{w}^*$ （第 $j + 2$ 个），这就形成了递进地改进 $\boldsymbol{w}$ ，也即由 $\boldsymbol{w}$ 与 $\pi$ 交替迭代。如图 16.14 所示。

图 16.14 交替迭代

又由式(16.106)，得到结束条件为：给定阈值 $\epsilon$ ，当满足如下条件时停机：
$\begin{align} & \mathop{\max}\limits_{\boldsymbol{w}}\mathop{\min}\limits_{\overline{\boldsymbol{x}}_i\in \overline{\boldsymbol{X}}}\boldsymbol{w}^{\mathrm{T}}(\overline{\boldsymbol{x}}^e-\overline{\boldsymbol{x}}_i)<\epsilon \tag{16.108} \end{align}$

综上，可得交替迭代算法：

1.由人类专家决策的范例集，计算人类专家策略的特征向量 $\overline{\boldsymbol{x}}^e$ ；

2.初始化交替迭代的起点： $j = 1$ ，任取 $\boldsymbol{w}_0$ 按（1）的第1步训练出 $\pi_1$ （或直接取随机策略作为 $\pi_1$ ），再由 $\pi_1$ 得到其特征向量 $\overline{\boldsymbol{x}}_1$ ，即（1）的第2步，由此初始化特征向量集 $\overline{\boldsymbol{X}}=\{\overline{\boldsymbol{x}}_1\}$ ；

3.利用已知特征向量集 $\overline{\boldsymbol{X}}$ ，训练 $\boldsymbol{w}_{j}$ ，即式(16.106)；

4.由 $\boldsymbol{w}_{j}$ 按（1）的第1步训练出 $\pi_{j+1}$ ；

5.由 $\pi_{j+1}$ 按（1）的第2步，通过蒙特卡罗采样求出其特征向量 $\overline{\boldsymbol{x}}_{j+1}$ ，并将其加入到特征向量集，即 $\overline{\boldsymbol{X}}=\overline{\boldsymbol{X}}\cup \{\overline{\boldsymbol{x}}_{j+1}\}$ ；

6.判断是否结束：若满足式(16.108)，则结束算法并返回最新的结果，即 $\boldsymbol{w}_{j}$ 和 $\pi_{j+1}$ ；

7.递进： $j = j + 1$ ，回到第3步继续迭代。

算法中还用到了“利用-探索”技术，其中，第3步即为“利用”，第4-5步即为“探索”。

这即为迭代式逆强化学习算法【西瓜书图16.15】。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：16.11 直接模仿学习
下一篇：1、向量与矩阵

猜你喜欢

MOSFET 和 IGBT 栅极驱动器电路的基本原理学习笔记（六）变压器耦合栅极驱动
Java实现蓝桥杯算法提高求最大值
用户画像标签数据开发之用户特征库开发
pstack: Input/output error failed to read target解决
机器学习笔记 - 支持向量机(SVM)背后的数学一
为何谷歌围棋AI AlphaGo可能会把李世石击溃
SAP UI5 应用开发教程之一百零六 - 如何提高 SAP UI5 应用路由 url 的可读性试读版
【云原生 | Kubernetes 系列】Docker安装及国内镜像加速
Scala键盘录入代码示例
DG通过三相逆变器与电网连接(simulink仿真）
LCC编译器的源程序分析(4)处理文件参数
自己写string类(C++)
[Debug] Node-sass
【第34篇】 EfficientNetV2：更快、更小、更强——论文翻译
windows AD域和策略组
CDH HUE集成yarn
Linux下实现文件双向同步
【解决】oracle使用impdp导入数据库提示ORA-14460错误
【LeetCode 中等矩阵】面试题 01.08 零矩阵
[Java Spring] Controlling API Exposure & Override Endpoint Name
机器学习笔记 - EfficientNet论文解读

相关主题

机器学习实践
数据分析和机器学习

zl程序教程

当前栏目

（《机器学习》完整版系列）第16章强化学习——16.12 逆强化学习（逆是指回到条件中）

逆强化学习

相关文章

当前栏目

（《机器学习》完整版系列）第16章 强化学习——16.12 逆强化学习（逆是指回到条件中）

逆强化学习

相关文章

（《机器学习》完整版系列）第16章强化学习——16.12 逆强化学习（逆是指回到条件中）