您现在的位置是：首页 > 硬件

当前栏目

（《机器学习》完整版系列）第16章强化学习——16.8 异策略蒙特卡罗强化学习算法（换分布）

机器算法学习系列策略 16 强化分布

2023-09-11 14:14:53 时间

提示：
通过换分布进行蒙特卡罗试验（采样）来实现。
求期望时“换分布”的想法及公式，有点像求对数时的“换底”

异策略蒙特卡罗强化学习算法

先看两个数学技巧：

(i) 函数的数学期望可以通过对函数的采样时行估计（这是由大数定律来保证的，参见14.6 采样：马尔可夫链蒙特卡罗MCMC方法之为何要采样？或【西瓜书第14.5.1节】），用MCMC的目的就是为了使用该技巧——应用大数定律：用【西瓜书式(14.22)】作为【西瓜书式(14.21)】的无偏估计，类似地，这里用【西瓜书式(16.23)】作为【西瓜书式(16.21)】的无偏估计、用【西瓜书式(16.24)】作为【西瓜书式(16.22)】的无偏估计。

(ii) 函数的数学期望有两种不同的等价形式，即【西瓜书式(14.21)】与【西瓜书式(14.23)】，即
$\begin{align} \mathop{\mathbb{E}}\limits_p [f]=\mathop{\mathbb{E}}\limits_q [\frac{p}{q}f] \tag{16.55} \end{align}$
对式(16.55)左右两端分别按分布 $p$ 和分布 $q$ 采样，再应用大数定律，则分别得到【西瓜书式(16.22)】和【西瓜书式(16.24)】。
记住：求期望时“换分布”的想法及公式，有点像求对数时的“换底”。

现在以轨线 $s$ 作为变量， $R (s)$ 表示轨线上自状态 $x$ 至结束的累积奖赏，即
$\begin{align} \begin{cases} R(s) & =\frac{1}{T}\sum_{t=1}^Tr_t^s|_{x_0=x,a_0=a}\quad \text{当“$T$型”时} \\ R(s) & =\sum_{t=0}^{+\infty }{\gamma }^t r_t^s|_{x_0=x,a_0=a}\quad \text{当“$\gamma$型”时} \\ \end{cases} \tag{16.56} \end{align}$
$p (s)$ 为策略 $\pi$ 对应的轨线分布，由【西瓜书式(16.6)】有
$\begin{align} Q(x,a)=\mathop{\mathbb{E}}\limits_p [R] \tag{16.57} \end{align}$
对式(16.57)右侧应用【西瓜书式(16.22)】得
$\begin{align} Q(x,a)=\frac{1}{m}\sum_{i=1}^mR(s_i) \tag{16.58} \end{align}$
将 $R(s_i)$ 简记为 $R_i$ ，即为【西瓜书式(16.25)】。

设 $q (s)$ 为策略 $\pi '$ 对应的轨线分布，取 $f (s) = R (s)$ ，由式(16.55)、式(16.57)有
$\begin{align} Q(x,a)=\mathop{\mathbb{E}}\limits_q [\frac{p}{q}R] \tag{16.59} \end{align}$
现基于 $q (s)$ 进行采样，得 $m$ 条轨线 ${s_i\}_{i=1}^m$ ，对式(16.57)右侧应用【西瓜书式(16.24)】得
$\begin{align} Q(x,a) & =\frac{1}{m}\sum_{i=1}^m\frac{p(s_i)}{q(s_i)}R(s_i)\notag \\ & =\frac{1}{m}\sum_{i=1}^m\frac{P_i^{\pi}}{P_i^{\pi '}}R_i \tag{16.60} \end{align}$
基于 $q (s)$ 进行采样得到的轨线 $s_i$ 即为【西瓜书式(16.24)】中的 $x_i'$ 。

${P_i^{\pi}}$ 与 ${P_i^{\pi '}}$ 为不同策略下产生轨线的概率，由16.3 有模型迭代式的详细推导图 16.5及马尔可夫链性质， ${P_i^{\pi}}$ 与 ${P_i^{\pi '}}$ 都为【西瓜书式(16.27)】的形式，故二者的比值为【西瓜书式(16.28)】。

比较式(16.48)与式(16.60)，式(16.48)有递推式(16.50)，故将式(16.50)中的 $R_s$ 换为 $\frac{P_i^{\pi}}{P_i^{\pi '}}R_i$ 即为式(16.60)的递推式，下面讨论后者的变形。

为简便，我们以轨线 $s$ 编号起代 $s_i$ ，即式(16.60)变为
$\begin{align} Q(x,a)=\frac{1}{m}\sum_{s=1}^m\frac{P_s^{\pi}}{P_s^{\pi '}}R_s \tag{16.61} \end{align}$
将轨线 $s$ 截去头部 $t$ 步后，视为一条起始点为 $x_t,a_t)$ 长度为 $T - t$ 的轨线，以下标“ $t + 1 : T$ ”表示（即轨线 $s$ 上从 $t + 1$ 步到 $T$ 步）。
$\begin{align} \widetilde{R} _{s,t} & =\left[\frac{P_s^{\pi}}{P_s^{\pi '}}R_s\right]_{t+1:T}\notag \\ & =\left[\frac{P_s^{\pi}}{P_s^{\pi '}}\right]_{t+1:T}\left[R_s\right]_{t+1:T}\notag \\ & =\left[\prod _{i=0}^{T-1}\frac{\pi(x_i,a_i)}{\pi'(x_i,a_i)}\right]_{t+1:T}\left[R_s\right]_{t+1:T} \quad \text{（由【西瓜书式(16.28)】）}\notag \\ & =\prod _{i=t+1}^{T-1}\frac{\pi(x_i,a_i)}{\pi'(x_i,a_i)}\left(\frac{1}{T-t}\sum_{i=t+1}^Tr_i\right) \tag{16.62} \end{align}$

现在定义两个策略：

（1） $\pi$ 为依最大化进行改进所形成的策略，即
$\begin{align} \begin{cases} \pi(x_i)=\mathop{\arg\max}\limits_{a\in A}Q(x_i,a) \\ \pi(x_i,a_i)=\mathbb{I} (a_i=\pi(x_i)) \\ \end{cases} \tag{16.63} \end{align}$
显然，它是一个确定性策略。
注：当式(16.63)中的最大值唯一时，动作 $a_i$ 被 $x_i$ 唯一确定，在实际编写程序时，应考虑多处取相同的最大值的情况，这时，式(16.63)变为
$\begin{align} \begin{cases} \{a_i\}=\mathop{\arg\max}\limits_{a\in A}Q(x_i,a) \\ \pi(x_i,a_i)=\text{按均匀分布从集合$\{a_i\}$中取出一个元素} \\ \end{cases} \tag{16.64} \end{align}$
式(16.64)仍称为确定性策略。

另外，即使所有 $x$ 处的动作 $a$ 是唯一确定的，从 $x_0$ 出发的轨线也不唯一，因为还有 $P^a_{x\to x'}$ 使得 $\to x'$ 具有随机性，参见16.3 有模型迭代式的详细推导图 16.10
。

（2） $\pi'$ 为 $\pi$ 的 $\epsilon$ -贪心策略，即为满足式(16.54)的 $\pi ^\epsilon$ ，若将 $\pi'(x_i,a_i)$ 记为 $p_i$ ，则
$\begin{align} p_i= \begin{cases} 1-\epsilon+\frac{\epsilon}{|A|} &\quad \text{（当$a_i=\pi(x_i)$）} \\ \frac{\epsilon}{|A|} &\quad \text{（当$a_i\neq \pi(x_i)$）} \\ \end{cases} \tag{16.65} \end{align}$

将两策略代入式(16.62)，有
$\begin{align} \widetilde{R} _{s,t} & =\prod _{i=t+1}^{T-1}\frac{\mathbb{I} (a_i=\pi(x_i))}{p_i}\left(\frac{1}{T-t}\sum_{i=t+1}^Tr_i\right) \tag{16.66} \end{align}$

对应于式(16.52)，现在，点 $x_t,a_t)$ 处 $Q$ 的递推式为
$\begin{align} \begin{cases} Q_s(x_t,a_t)=\frac{(s-1)Q_{s-1}(x_t,a_t)+\widetilde{R} _{s,t}}{s} \\ \widetilde{R} _{s,t}=\prod _{i=t+1}^{T-1}\frac{\mathbb{I} (a_i=\pi(x_i))}{p_i}\left(\frac{1}{T-t}\sum_{i=t+1}^Tr_i\right) \\ \end{cases} \tag{16.67} \end{align}$
其中， $t=0,1,2,\cdots,{T-1}$ ，而 $Q_{s-1}(x_t,a_t)$ 指当前值，由此完成了轨线 $s$ 式(16.47)上所有点的 $Q$ 值更新。

基于上述讨论，就可以改造【西瓜书图16.10】为【西瓜书图16.11】异策略蒙特卡罗强化学习算法，要点：

(i) 用 $\pi$ 产生 $\pi '$ ，再依 $\pi '$ 产生轨线 $s$ ，由第3-4句。

(ii) 用递推式(16.67)更新轨线 $s$ 上所有点的 $Q$ 值（策略评估），由第5-9句实现。

(ii) 第10句对策略 $\pi$ 的“局部”进行优化，即：对轨线 $s$ 上所有 $x$ 处，根据已探索到的新 $Q$ 值，应用式(16.63)优化策略 $\pi$ 。

由于算法涉及两个策略： $\pi$ 及 $\pi '$ （ $\pi$ 的 $\epsilon$ -贪心策略），在策略评估时，用 $\epsilon$ -贪心策略 $\pi '$ ，在策略改进时基于原策略 $\pi$ ，故称为“异策略”。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：16.7 同策略蒙特卡罗强化学习
下一篇：16.9 时序差分学习（Sara算法与Q-学习算法）

猜你喜欢

联想电脑开不了机，安装bios电池，正常关机然后就开不了机点不亮，不按就电池关机可以再次开机（未解决）
Mac下安装nginx
冒泡排序法的改进
【Python-Keras】keras.layers.BatchNormalization解析与使用
【华为OD机试 2023】任务总执行时长（C++ Java JavaScript Python）
关于Android studio 升级到2021.1.1（大黄蜂）创建项目，兼容旧项目遇到的问题-CSDN博客
golang 函数作为参数传递(回调)
PromQL Metrics 指标类型 Counter（计数器）、Gauge（仪表盘）、Histogram（直方图）、Summary（摘要）
实战！轻松搭建图像分类 AI 服务
[Qt教程] 第19篇 2D绘图（九）图形视图框架（上）
73. 使用自定义 Query 实现 SAP UI5 页面路由的书签功能
Qt编写物联网管理平台37-逻辑设计
unirest一个轻量的HTTP开发库
centos7安装chrome浏览器
MFC Windows 程序设计[174]之获取文件信息(附源码)
Atitit. visual studio vs2003 vs2005 vs2008 VS2010 vs2012 vs2015新特性新功能.doc
网站信息泄漏攻击——场景：服务器后端web框架和版本信息，目录遍历，账户密码等敏感信息硬编码，MIME配置错误，异常处理中信息泄漏
Qt QTableView 样式参考
【Oracle】ORA-00600: [kfgFinalize_2]
[Javascript]3. Improve you speed! Performance Tips
制作CSS气泡框
mysql innobackupex xtrabackup 大数据量备份还原（转）
字长

相关主题

python机器学习
算法-排序算法
机器学习_knn算法_1
机器学习之KNN算法
Python机器学习算法

zl程序教程

当前栏目

（《机器学习》完整版系列）第16章强化学习——16.8 异策略蒙特卡罗强化学习算法（换分布）

异策略蒙特卡罗强化学习算法

相关文章

当前栏目

（《机器学习》完整版系列）第16章 强化学习——16.8 异策略蒙特卡罗强化学习算法（换分布）

异策略蒙特卡罗强化学习算法

相关文章

（《机器学习》完整版系列）第16章强化学习——16.8 异策略蒙特卡罗强化学习算法（换分布）