zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

(《机器学习》完整版系列)第16章 强化学习——16.11 直接模仿学习

机器学习 系列 16 直接 强化 完整版 模仿
2023-09-11 14:14:53 时间

提示:
借助人类专家曾经的决策轨迹数据,进行模仿学习是一个很好的思路,特别是可作为初始化手段。
广泛收集人类专家在该任务中,形成的数据集。 这样,就可以用分类(离散时)或回归(连续时)算法学习出一个确定性的策略,再以此为基础就可以学习出一个概率性策略。

直接模仿学习

在前述强化学习算法中,通常初始化策略为均匀分布策略: π ( x , a ) = 1 ∣ A ∣ \pi (x,a)=\frac{1}{|A|} π(x,a)=A1,这是不得以而为之,可以借助人类专家的经验进行改进。

广泛收集人类专家在该任务中的“ ( x , a ) (x,a) (x,a)对”,形成数据集 D = { ( x i , a i ) } i = 1 n D=\{(x_i,a_i)\}_{i=1}^n D={(xi,ai)}i=1n,显然,可视 x i x_i xi为样本, a i a_i ai为样本 x i x_i xi的标记。 这样,就可以用分类(离散时)或回归(连续时)算法基于 D D D学习出一个确定性的策略: a = f ( x ) a=f(x) a=f(x),以此为基础就可以学习出一个概率性策略: π ( x , a ) \pi (x,a) π(x,a)

方法一:

(1)设有一组数据集 D k , ( k = 1 , 2 , ⋯   , K ) D_k,(k=1,2,\cdots,K) Dk,(k=1,2,,K),对每个数据集 D k D_k Dk学习出一个确定性的策略: a k = f k ( x ) a_k=f_k(x) ak=fk(x)

(2)然后,通过投票合成一个概率性策略: π ( x , a ) = 1 ∣ A ∣ ∑ k = 1 K I ( a = f k ( x ) ) \pi (x,a)=\frac{1}{|A|}\sum_{k=1}^K\mathbb{I} (a=f_k(x)) π(x,a)=A1k=1KI(a=fk(x))

方法二:

(1)对一个足够大的数据集 D D D的样本进行聚类,设簇为: C 1 , C 2 , ⋯   , C K ,   ( K ≫ ∣ A ∣ ) C_1,C_2,\cdots,C_K,\ (K \gg |A|) C1,C2,,CK, (KA)

(2)对每个簇 C k C_k Ck进行统计,定义: π ( C k , a ) = C k 中的样本属于 a 的频率 \pi ({C_k} ,a)=\text{$C_k$中的样本属于$a$的频率} π(Ck,a)=Ck中的样本属于a的频率

(3)对任意的 x x x判断 x ∈ C k x\in C_k xCk,定义: π ( x , a ) = π ( C k , a ) ( if  x ∈ C k ) \pi (x,a)=\pi ({C_k} ,a) \quad (\text{if} \ x \in C_k) π(x,a)=π(Ck,a)(if xCk)

再以上述概率性策略作为初始策略,加入到强化学习算法中继续学习。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:16.10 值函数近似
下一篇:16.12 逆强化学习(逆是指回到条件中)