您现在的位置是：首页 > 工具

当前栏目

【转载】强化学习（二）马尔科夫决策过程(MDP)

学习过程转载强化决策马尔科夫

2023-09-11 14:19:20 时间

原文地址：

https://www.cnblogs.com/pinard/p/9426283.html

---------------------------------------------------------------------------------------

在强化学习（一）模型基础中，我们讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前，模型的简化也很重要，这一篇主要就是讲如何利用马尔科夫决策过程(Markov Decision Process，以下简称MDP)来简化强化学习的建模。

　　　　MDP这一篇对应Sutton书的第三章和UCL强化学习课程的第二讲。

1. 强化学习引入MDP的原因

$s$

2. MDP的价值函数与贝尔曼方程

3. 状态价值函数与动作价值函数的递推关系

通俗说就是状态动作价值有两部分相加组成，第一部分是即时奖励，第二部分是环境所有可能出现的下一个状态的概率乘以该下一状态的状态价值，最后求和，并加上衰减。

　　　　这两个转化过程也可以从下图中直观的看出：

　　　　把上面两个式子互相结合起来，我们可以得到：

4. 最优价值函数

如何比较策略的优劣呢？一般是通过对应的价值函数来比较的，也就是说，寻找较优策略可以通过寻找较优的价值函数来完成。可以定义最优状态价值函数是所有策略下产生的众多状态价值函数中的最大者，即：

同理也可以定义最优动作价值函数是所有策略下产生的众多动作状态价值函数中的最大者，即：

对于最优的策略，基于动作价值函数我们可以定义为：

反过来的最优价值函数关系也很容易得到：

利用上面的两个式子也可以得到和第三节末尾类似的式子：

5. MDP实例

例子是一个学生学习考试的MDP。里面左下那个圆圈位置是起点，方框那个位置是终点。上面的动作有study, pub, facebook, quit, sleep，每个状态动作对应的即时奖励R已经标出来了。我们的目标是找到最优的动作价值函数或者状态价值函数，进而找出最优的策略。

　　　　从而我们的最优决策路径是走6->6->8->10->结束。　　　　

6. MDP小结

　　　　MDP是强化学习入门的关键一步，如果这部分研究的比较清楚，后面的学习就会容易很多。因此值得多些时间在这里。虽然MDP可以直接用方程组来直接求解简单的问题，但是更复杂的问题却没有办法求解，因此我们还需要寻找其他有效的求解强化学习的方法。

　　　　下一篇讨论用动态规划的方法来求解强化学习的问题。

（欢迎转载，转载请注明出处。欢迎沟通交流： liujianping-ok@163.com）

------------------------------------------------------------------------------------------------------------

猜你喜欢

Swift开发教程--怎样设置状态栏的文字颜色
从云计算到函数计算
Linux基础笔记19 | 磁盘管理相关命令与RAID技术
java实现第三届蓝桥杯数据压缩
zabbix详解（十一）——zabbix监控MySQL性能实战
创建和删除文件
PHP 语法
Vuejs设计与实现6-Diff算法
CSDN编程挑战——《高斯公式》
phalcon count统计
win7中打开文件夹会重新打开一个窗口的问题
Android/Unity混合开发屏幕旋转问题以及8.0透明页面兼容
1-crm项目-需求分析和表结构设计
Java实现蓝桥杯算法训练 Beaver's Calculator
【性能优化】高效代码篇（一）
超级小的web手势库AlloyFinger
Python之tkinter：动态演示调用python库的tkinter带你进入GUI世界(LabelFrame/Checkbutton/Radiobutton)

相关主题

学习学习
Flutter学习
机器学习和统计学习

zl程序教程

当前栏目

【转载】强化学习（二）马尔科夫决策过程(MDP)

1. 强化学习引入MDP的原因

2. MDP的价值函数与贝尔曼方程

3. 状态价值函数与动作价值函数的递推关系

4. 最优价值函数

5. MDP实例

6. MDP小结

相关文章

当前栏目

【转载】 强化学习（二）马尔科夫决策过程(MDP)

1. 强化学习引入MDP的原因

2. MDP的价值函数与贝尔曼方程

3. 状态价值函数与动作价值函数的递推关系

4. 最优价值函数

5. MDP实例

6. MDP小结

相关文章

【转载】强化学习（二）马尔科夫决策过程(MDP)