(《机器学习》完整版系列)第16章 强化学习——16.11 直接模仿学习
提示:
借助人类专家曾经的决策轨迹数据,进行模仿学习是一个很好的思路,特别是可作为初始化手段。
广泛收集人类专家在该任务中,形成的数据集。 这样,就可以用分类(离散时)或回归(连续时)算法学习出一个确定性的策略,再以此为基础就可以学习出一个概率性策略。
直接模仿学习
在前述强化学习算法中,通常初始化策略为均匀分布策略: π ( x , a ) = 1 ∣ A ∣ \pi (x,a)=\frac{1}{|A|} π(x,a)=∣A∣1,这是不得以而为之,可以借助人类专家的经验进行改进。
广泛收集人类专家在该任务中的“ ( x , a ) (x,a) (x,a)对”,形成数据集 D = { ( x i , a i ) } i = 1 n D=\{(x_i,a_i)\}_{i=1}^n D={(xi,ai)}i=1n,显然,可视 x i x_i xi为样本, a i a_i ai为样本 x i x_i xi的标记。 这样,就可以用分类(离散时)或回归(连续时)算法基于 D D D学习出一个确定性的策略: a = f ( x ) a=f(x) a=f(x),以此为基础就可以学习出一个概率性策略: π ( x , a ) \pi (x,a) π(x,a)。
方法一:
(1)设有一组数据集 D k , ( k = 1 , 2 , ⋯ , K ) D_k,(k=1,2,\cdots,K) Dk,(k=1,2,⋯,K),对每个数据集 D k D_k Dk学习出一个确定性的策略: a k = f k ( x ) a_k=f_k(x) ak=fk(x);
(2)然后,通过投票合成一个概率性策略: π ( x , a ) = 1 ∣ A ∣ ∑ k = 1 K I ( a = f k ( x ) ) \pi (x,a)=\frac{1}{|A|}\sum_{k=1}^K\mathbb{I} (a=f_k(x)) π(x,a)=∣A∣1k=1∑KI(a=fk(x))
方法二:
(1)对一个足够大的数据集 D D D的样本进行聚类,设簇为: C 1 , C 2 , ⋯ , C K , ( K ≫ ∣ A ∣ ) C_1,C_2,\cdots,C_K,\ (K \gg |A|) C1,C2,⋯,CK, (K≫∣A∣)
(2)对每个簇 C k C_k Ck进行统计,定义: π ( C k , a ) = C k 中的样本属于 a 的频率 \pi ({C_k} ,a)=\text{$C_k$中的样本属于$a$的频率} π(Ck,a)=Ck中的样本属于a的频率
(3)对任意的 x x x判断 x ∈ C k x\in C_k x∈Ck,定义: π ( x , a ) = π ( C k , a ) ( if x ∈ C k ) \pi (x,a)=\pi ({C_k} ,a) \quad (\text{if} \ x \in C_k) π(x,a)=π(Ck,a)(if x∈Ck)
再以上述概率性策略作为初始策略,加入到强化学习算法中继续学习。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:16.10 值函数近似
下一篇:16.12 逆强化学习(逆是指回到条件中)
相关文章
- 机器学习集成算法--- 朴素贝叶斯,k-近邻算法,决策树,支持向量机(SVM),Logistic回归
- 神经网络与机器学习 笔记—泛化和交叉验证
- 【机器学习算法-python实现】採样算法的简单实现
- impala在centos机器安装的方法
- (《机器学习》完整版系列)第8章 集成学习——8.4 GBDT算法(逐次估值逼近)
- (《机器学习》完整版系列)第7章 贝叶斯分类器——7.3 极大似然法(似然是什么:类条件概率)
- (《机器学习》完整版系列)第7章 贝叶斯分类器——7.1 贝叶斯决策论(贝叶斯学派与频率学派有很大的分岐)
- (《机器学习》完整版系列)第4章 线性模型——4.3 连续值的处理与缺失值的处理(现实很骨感:属性连续和属性缺失)
- (《机器学习》完整版系列)第4章 线性模型——4.1 决策树算法(不是规划论中的决策树,深度优先或广度优先)
- (《机器学习》完整版系列)第16章 强化学习——16.7 同策略蒙特卡罗强化学习
- (《机器学习》完整版系列)第15章 规则学习——15.7 FOIL算法(找出含逻辑变量的公式)
- (《机器学习》完整版系列)第13章 半监督学习——13.2 半监督SVM(SVM的进化路线)
- (《机器学习》完整版系列)第13章 半监督学习——13.1 生成式方法详解(样本数据都是由同一个潜在的模型“生成”的)
- (《机器学习》完整版系列)第11章 特征选择与稀疏学习——11.3 包裹式选择(特征选择的LVW算法:打开包裹)
- (《机器学习》完整版系列)第10章 降维与度量学习——10.1 k近邻算法(你是住在穷人区还是富人区?)
- (《机器学习》完整版系列)第9章 聚类——9.4 高斯混合模型EM算法详细推导
- (《机器学习》完整版系列)第2章 模型评估与选择 ——2.1误差,还是有误差
- (《机器学习》完整版系列)1-5 没有免费的午餐(NFL)的证明
- Datalore初体验:JetBrains的云端机器学习开发环境 免费GPU
- 机器学习/人工智能的笔试面试题目——PCA降维相关问题总结
- 机器学习/人工智能的笔试面试题目——最优化问题相关问题总结
- 机器学习笔记之Sigmoid信念网络(一)对数似然梯度
- 机器学习笔记之概率图模型(五)马尔可夫随机场的结构表示
- 机器学习之猫狗大战,解决image RGB values must be in the 0..1 range.
- 《实用机器学习》——1.2 机器学习算法的分类
- 《Scala机器学习》一一第2章 数据管道和建模
- 数据挖掘与机器学习的区别
- 机器学习中的随机过程(伯努利过程与泊松过程)