强化学习-笔记--后端、前端、移动开发、大数据、Java、Python、Vue开发经验分享

强化学习-笔记

强化学习笔记：基于策略的学习之策略迭代(python实现)
目录 1. 前言 2. 算法流程 3. 代码及仿真结果 3.1 class PolicyIterationPlanner() 3.2 测试代码 3.3 运行结果 3.3.1 价值估计结果 3.3.2 策略迭代得到的最终策略 1. 前言在强化学习中，根据是否依赖于（环境的&#x
日期 2023-06-12 10:48:40
强化学习笔记：基于价值的学习之价值迭代(python实现)
目录 1. 前言 2. 数学原理 3. 实现 3.1 Planner类 3.2 ValueIterationPlanner类 4. 运行结果及分析 1. 前言在强化学习中，根据是否依赖于（环境的）模型，可以分为有模型࿰
日期 2023-06-12 10:48:40
强化学习笔记：Sutton-Book第三章小结
目录 1. 强化学习的agent-environment接口模型 2. 马尔科夫决策过程 MDP：Markov Decision Process 3. 回报 return 4. 价值函数及贝尔曼方程 5. 其它 6. 主要公式 MDP动力学函数回报价值函数贝尔曼方程贝尔曼最优方程 1. 强化学习的a
日期 2023-06-12 10:48:40
强化学习笔记：Sutton-Book第三章习题详解(Ex17~Ex29)
目录 Exercise 3.17 Exercise 3.18 Exercise 3.19 Exercise 3.20 Exercise 3.21 Exercise 3.22 Exercise 3.23 Exercise 3.24 Exercise 3.25 Exercise 3.26 Exercise 3.27 Exercise
日期 2023-06-12 10:48:40
强化学习笔记：Sutton-Book第三章习题解答(Ex1~Ex16)
目录前言 Exercise 3.1 Exercise 3.2 Exercise 3.3 Exercise 3.4 Exercise 3.5 Exercise 3.6 Exercise 3.7 Exercise 3.8 Exercise 3.9 Exercise 3.10 Exercise 3.11 Exercise 3.12
日期 2023-06-12 10:48:40
强化学习笔记：策略、值函数及贝尔曼方程
目录 1. 前言 2. 策略和值函数的定义 3. 值函数的估计 4. 状态值函数的贝尔曼方程 1. 前言本篇介绍策略、两种值函数（状态值函数和动作值函数），以及大名鼎鼎的贝尔曼方程。补充了一点关于贝尔曼方程的推导过程，希望能够帮助理解。本文中公式编
日期 2023-06-12 10:48:40
强化学习笔记总目录
强化学习自学笔记，主要基于Sutton-RLbook-2020。除了概念学习外，力争以自主手撕python的代码的方法将书中所提及的所有算法全部实现一遍。强化学习笔记：多臂老虎机问题(1) 强化学习笔记：多臂老虎机问题(2)--Python仿真
日期 2023-06-12 10:48:40
强化学习笔记：多臂老虎机问题(6)--Upper Confidence Bound
目录 0. 前言 1. 算法原理 2. Python仿真 2.1 k_armed_bandit_one_run()改造 2.2 仿真对比Epsilon-greedy方法和UCB方法 3. 习题 0. 前言前面几节我们已经就多臂老虎机问题进行了一些讨论。详细参见本系列总目录：强化学习
日期 2023-06-12 10:48:40
强化学习笔记：多臂老虎机问题(2)--Python仿真
目录 0. 前言 1. k_armed_bandit function 2. The first trial 2.1 Optimal selection ratio along the time 2.2 Q value vs qstar 2.3 Number of actions vs qstar 3. Comparison betwe
日期 2023-06-12 10:48:40
强化学习学习笔记（五）：值函数估计
学习目标 1.了解表查找中函数逼近的动机 2.了解如何将函数逼近合并到现有算法中 3.了解函数逼近器和RL算法的收敛特性 4.了解使用经验重播的批处理总结 1.建立一个大表（每个状态或状态-动作对一个值）会导致内存和数据效率低下。通过使用特征化状态表示，函数逼近可以推广到看不见的状态。 2.将RL视为有监督的学习问题，以MC或TD目标为标签，当前状态/动作为输入。通常目标也取决于函数估计器
日期 2023-06-12 10:48:40