您现在的位置是：首页 > 工具

当前栏目

强化学习学习笔记（1）：MDPs and Bellman Equations

笔记学习 and 强化

2023-09-11 14:18:37 时间

学习目标

1.了解Agent-Environment交互
2.了解什么是MDP（马尔可夫决策过程）以及如何解释过渡图
3.了解价值函数，动作价值函数和策略函数
4.了解价值函数和动作值函数的Bellman方程和Bellman最优性方程

1.智能体和环境交互：智能体在每个步骤t接收状态S_t，执行动作A_t并接收奖励R_ {t + 1}。根据策略函数pi选择动作。
2.总回报G_t是从时间t开始的所有奖励之和。未来奖励以折扣率g ^ k折价。
3.马尔可夫性质：在时间t + 1处环境的响应仅取决于时间t处的状态和动作表示。未来与现在无关，与过去无关。即使环境不能完全满足Markov属性，我们仍将其视为真实，并尝试将状态表示构造为近似Markov。
4.马尔可夫决策过程（MDP）：由状态集S，动作集A和单步动力学p（s'，r | s，a）定义。如果我们对环境有完整的了解，我们就会知道过渡动态。在实践中，我们通常不知道完整的MDP（但我们知道这是一些MDP）。

猜你喜欢

python部分知识归纳
FFT IP核使用教程（源码）
Server-UFTP与Windows用户组集成
Web2.0网站的路径依赖--探讨蚂蚁社区为什么要导入博客
【Python入门】NumPy 入门知识介绍，看这一篇足矣
php多线程抓取信息测试例子
QMenu、QMenuBar样式表总结
通过Onvif设备探索获取EasyNVR网页无插件播放所需要的摄像机硬盘录像机NVR的RTSP地址
pytorch 中 torch.nn.Linear() 详解
wm命令大全详解
16.第五章文本处理工具和正则表达式 -- 文本常见处理工具(二)
git操作远端分支（转）
ADO.NET第三章：DataReader
PHP获取二维数组中某一列的值集合
【洛谷】P1010 幂次方
Java实现 LeetCode 10 正则表达式匹配

相关主题

C#学习笔记(一)
elastic学习笔记
Unity笔记-03
SpringBoot笔记

zl程序教程

当前栏目

强化学习学习笔记（1）：MDPs and Bellman Equations

学习目标

相关文章