您现在的位置是：首页 > 硬件

当前栏目

（《机器学习》完整版系列）第16章强化学习——16.11 直接模仿学习

机器学习系列 16 直接强化完整版模仿

2023-09-11 14:14:53 时间

提示：
借助人类专家曾经的决策轨迹数据，进行模仿学习是一个很好的思路，特别是可作为初始化手段。
广泛收集人类专家在该任务中，形成的数据集。这样，就可以用分类（离散时）或回归（连续时）算法学习出一个确定性的策略，再以此为基础就可以学习出一个概率性策略。

直接模仿学习

在前述强化学习算法中，通常初始化策略为均匀分布策略： $\pi (x,a)=\frac{1}{|A|}$ ，这是不得以而为之，可以借助人类专家的经验进行改进。

广泛收集人类专家在该任务中的“ $(x, a)$ 对”，形成数据集 $D=\{(x_i,a_i)\}_{i=1}^n$ ，显然，可视 $x_i$ 为样本， $a_i$ 为样本 $x_i$ 的标记。这样，就可以用分类（离散时）或回归（连续时）算法基于 $D$ 学习出一个确定性的策略： $a = f (x)$ ，以此为基础就可以学习出一个概率性策略： $\pi (x,a)$ 。

方法一：

（1）设有一组数据集 $D_k,(k=1,2,\cdots,K)$ ，对每个数据集 $D_k$ 学习出一个确定性的策略： $a_k=f_k(x)$ ；

（2）然后，通过投票合成一个概率性策略： $\pi (x,a)=\frac{1}{|A|}\sum_{k=1}^K\mathbb{I} (a=f_k(x))$

方法二：

（1）对一个足够大的数据集 $D$ 的样本进行聚类，设簇为： $C_1,C_2,\cdots,C_K,\ (K \gg |A|)$

（2）对每个簇 $C_k$ 进行统计，定义： $\pi ({C_k} ,a)=\text{$C_k$中的样本属于$a$的频率}$

（3）对任意的 $x$ 判断 $x\in C_k$ ，定义： $\pi (x,a)=\pi ({C_k} ,a) \quad (\text{if} \ x \in C_k)$

再以上述概率性策略作为初始策略，加入到强化学习算法中继续学习。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：16.10 值函数近似
下一篇：16.12 逆强化学习（逆是指回到条件中）

猜你喜欢

TensorFlow学习笔记
《嵌入式Linux软硬件开发详解——基于S5PV210处理器》——2.5 WM8960音频编解码芯片
Java GC系列（3）：垃圾回收器种类
31activiti - 连线
[wxWidgets]_[0基础]_[不常见但有用的类wxCmdLineParser]
ASP.NET MVC之持久化TempData及扩展方法（十三）
Centos7：二进制部署搭建mariadb10.6.7
python set操作
Python基础之:函数
git如何列出每次提交对应有哪些文件被修改
处子之身写博客
Spring, MyBatis 多数据源的配置和管理

相关主题

Python机器学习·微教程
机器学习之深度学习
机器学习-归一化
关于机器学习
机器学习值KNN
机器学习入门

zl程序教程

当前栏目

（《机器学习》完整版系列）第16章强化学习——16.11 直接模仿学习

直接模仿学习

相关文章

当前栏目

（《机器学习》完整版系列）第16章 强化学习——16.11 直接模仿学习

直接模仿学习

相关文章

（《机器学习》完整版系列）第16章强化学习——16.11 直接模仿学习