提供了编程的基础技术教程

zl程序教程

您现在的位置是：首页 > 工具

当前栏目

强化学习笔记总目录

笔记学习强化

2023-09-14 09:15:00 时间

强化学习自学笔记，主要基于Sutton-RLbook-2020。除了概念学习外，力争以自主手撕python的代码的方法将书中所提及的所有算法全部实现一遍。

强化学习笔记：多臂老虎机问题(1)

强化学习笔记：多臂老虎机问题(2)--Python仿真

强化学习笔记：多臂老虎机问题(3)--行动价值估计的增量实现

强化学习笔记：多臂老虎机问题(4)--跟踪非平稳环境

强化学习笔记：多臂老虎机问题(5)--Optimistic Initial Value

强化学习笔记：多臂老虎机问题(6)--Upper Confidence Bound

强化学习笔记：多臂老虎机问题(7)--Gradient Bandit Algorithm

强化学习笔记：马尔科夫链介绍及基于Python的蒙特卡洛仿真

强化学习笔记：强化学习的形式化框架--马尔科夫决策过程

强化学习笔记：目标、奖励、回报和回合

强化学习笔记：策略、值函数及贝尔曼方程

强化学习笔记：Sutton-Book第三章习题解答(Ex1~Ex16)

强化学习笔记：最优策略、值函数与贝尔曼最优方程

强化学习笔记：Gym入门--从安装到第一个完整的代码示例

强化学习笔记：Sutton-Book第三章习题详解(Ex17~Ex29)

强化学习笔记：Sutton-Book第三章小结

RL笔记：动态规划(1): 策略估计和策略提升

RL笔记：动态规划(2): 策略迭代

RL笔记：基于策略迭代求CliffWaking-v0最优解(python实现)

强化学习笔记：策略评估--贝尔曼方程求解示例

强化学习笔记：策略评估--基于numpy的贝尔曼方程数值求解

强化学习笔记：基于价值的学习方法之价值估计(python实现)

强化学习笔记：基于价值的学习之价值迭代(python实现)

强化学习笔记：基于策略的学习之策略迭代(python实现)

TicTacToe: 基于时序差分TD(0)算法的agent实现以及完整python实现框架

其它相关博文：

强化学习在2021：What Happened in Reinforcement Learning in 2021

相关文章

猜你喜欢

PTA 程序设计天梯赛（161~180题）
【面试高频】给你一句话需求，让你设计测试用例，该怎么做？
查看JVM内存使用情况
大数据如何在商业银行领域发挥价值
golang 中的 init 和 main函数
五分钟快速了解Python
总公司路由排错？
《将博客搬至CSDN》

相关主题

站点声明：
本站内容来源于合作伙伴及网络搜集，版权归原作者所有。如有侵犯版权，请立刻和本站联系 361703575#qq.com，我们将在三个工作日内予以改正。

Copyright © All Rights Reserved. 豫ICP备2022023484号

Powered By Z-BlogPHP[程序] · ZBlog模板[开发]网站地图网站地图1
友情链接：友情链接