强化学习学习笔记(1):MDPs and Bellman Equations
2023-09-11 14:18:37 时间
学习目标
1.了解Agent-Environment交互
2.了解什么是MDP(马尔可夫决策过程)以及如何解释过渡图
3.了解价值函数,动作价值函数和策略函数
4.了解价值函数和动作值函数的Bellman方程和Bellman最优性方程
1.智能体和环境交互:智能体在每个步骤t接收状态S_t,执行动作A_t并接收奖励R_ {t + 1}。 根据策略函数pi选择动作。
2.总回报G_t是从时间t开始的所有奖励之和。 未来奖励以折扣率g ^ k折价。
3.马尔可夫性质:在时间t + 1处环境的响应仅取决于时间t处的状态和动作表示。 未来与现在无关,与过去无关。 即使环境不能完全满足Markov属性,我们仍将其视为真实,并尝试将状态表示构造为近似Markov。
4.马尔可夫决策过程(MDP):由状态集S,动作集A和单步动力学p(s',r | s,a)定义。 如果我们对环境有完整的了解,我们就会知道过渡动态。 在实践中,我们通常不知道完整的MDP(但我们知道这是一些MDP)。
相关文章
- [javase学习笔记]-8.5 statickeyword的使用场景
- 云风的Blog 学习神经网络的一点笔记
- 【学习笔记24】JavaScript数组遍历方法习题
- 【学习笔记41】DOM操作的练习
- [吴恩达机器学习笔记]16推荐系统1-2基于内容的推荐系统
- 机器学习笔记之高斯混合模型(四)EM算法求解高斯混合模型(M步操作)
- yii2学习笔记
- Android学习笔记——Activity的启动和创建
- [学习笔记]Java作用域变量申明和C、C++的差异性
- 十大经典排序算法【算法思想+图解+代码】【数据结构与算法笔记】
- Linux下文件及文件夹权限(学习笔记版)
- 音频处理入门笔记
- 外设驱动库开发笔记2:AD8400系列数字电位器驱动
- 图神经网络论文学习笔记-Graph Neural Networks: A Review of Methods and Applications
- 深度学习(自然语言处理)Seq2Seq学习笔记(采用GRU且进行信息压缩)(二)
- Version Control with Git (Udacity)优达学城笔记--L1:What is Version Control
- SpringCloud 学习笔记(上)
- 【刷题笔记】之滑动窗口(长度最小的子数组、水果成篮、最小的覆盖子串)
- SQList3 and SQL入门学习笔记
- Java学习笔记之_JDBC
- 学习笔记——引用,指针,const限定符的一些小tips
- 学习笔记(57):Python实战编程-Treeview
- UML时序图(Sequence Diagram)学习笔记
- 人工智能算法模型--Alpha-Beta剪枝算法学习笔记
- Linux下汇编语言学习笔记56 ---
- Arduino学习笔记50