zl程序教程

强化学习-笔记

  • 强化学习笔记:基于策略的学习之策略迭代(python实现)

    强化学习笔记:基于策略的学习之策略迭代(python实现)

    目录   1. 前言 2. 算法流程 3. 代码及仿真结果 3.1 class PolicyIterationPlanner() 3.2 测试代码 3.3 运行结果 3.3.1 价值估计结果 3.3.2 策略迭代得到的最终策略 1. 前言         在强化学习中,根据是否依赖于(环境的&#x

    日期 2023-06-12 10:48:40     
  • 强化学习笔记:基于价值的学习之价值迭代(python实现)

    强化学习笔记:基于价值的学习之价值迭代(python实现)

    目录 1. 前言 2. 数学原理 3. 实现 3.1 Planner类         3.2 ValueIterationPlanner类 4. 运行结果及分析         1. 前言         在强化学习中,根据是否依赖于(环境的)模型,可以分为有模型࿰

    日期 2023-06-12 10:48:40     
  • 强化学习笔记:Sutton-Book第三章小结

    强化学习笔记:Sutton-Book第三章小结

    目录 1. 强化学习的agent-environment接口模型 2. 马尔科夫决策过程 MDP:Markov Decision Process 3. 回报 return 4. 价值函数及贝尔曼方程 5. 其它 6. 主要公式 MDP动力学函数 回报 价值函数  贝尔曼方程 贝尔曼最优方程   1. 强化学习的a

    日期 2023-06-12 10:48:40     
  • 强化学习笔记:Sutton-Book第三章习题详解(Ex17~Ex29)

    强化学习笔记:Sutton-Book第三章习题详解(Ex17~Ex29)

    目录 Exercise 3.17 Exercise 3.18 Exercise 3.19 Exercise 3.20 Exercise 3.21 Exercise 3.22 Exercise 3.23 Exercise 3.24 Exercise 3.25 Exercise 3.26 Exercise 3.27   Exercise

    日期 2023-06-12 10:48:40     
  • 强化学习笔记:Sutton-Book第三章习题解答(Ex1~Ex16)

    强化学习笔记:Sutton-Book第三章习题解答(Ex1~Ex16)

    目录 前言 Exercise 3.1 Exercise 3.2 Exercise 3.3 Exercise 3.4 Exercise 3.5 Exercise 3.6 Exercise 3.7 Exercise 3.8 Exercise 3.9 Exercise 3.10 Exercise 3.11 Exercise 3.12

    日期 2023-06-12 10:48:40     
  • 强化学习笔记:策略、值函数及贝尔曼方程

    强化学习笔记:策略、值函数及贝尔曼方程

    目录 1. 前言 2. 策略和值函数的定义 3. 值函数的估计 4. 状态值函数的贝尔曼方程 1. 前言         本篇介绍策略、两种值函数(状态值函数和动作值函数),以及大名鼎鼎的贝尔曼方程。补充了一点关于贝尔曼方程的推导过程,希望能够帮助理解。         本文中公式编

    日期 2023-06-12 10:48:40     
  • 强化学习笔记总目录

    强化学习笔记总目录

            强化学习自学笔记,主要基于Sutton-RLbook-2020。除了概念学习外,力争以自主手撕python的代码的方法将书中所提及的所有算法全部实现一遍。         强化学习笔记:多臂老虎机问题(1)         强化学习笔记:多臂老虎机问题(2)--Python仿真 

    日期 2023-06-12 10:48:40     
  • 强化学习笔记:多臂老虎机问题(6)--Upper Confidence Bound

    强化学习笔记:多臂老虎机问题(6)--Upper Confidence Bound

    目录 0. 前言 1. 算法原理 2. Python仿真 2.1 k_armed_bandit_one_run()改造 2.2  仿真对比Epsilon-greedy方法和UCB方法 3. 习题 0. 前言         前面几节我们已经就多臂老虎机问题进行了一些讨论。详细参见本系列总目录:         强化学习

    日期 2023-06-12 10:48:40     
  • 强化学习笔记:多臂老虎机问题(2)--Python仿真

    强化学习笔记:多臂老虎机问题(2)--Python仿真

    目录   0. 前言 1. k_armed_bandit function 2. The first trial 2.1 Optimal selection ratio along the time 2.2 Q value vs qstar 2.3 Number of actions vs qstar 3. Comparison betwe

    日期 2023-06-12 10:48:40     
  • 强化学习学习笔记(五):值函数估计

    强化学习学习笔记(五):值函数估计

    学习目标 1.了解表查找中函数逼近的动机 2.了解如何将函数逼近合并到现有算法中 3.了解函数逼近器和RL算法的收敛特性 4.了解使用经验重播的批处理 总结 1.建立一个大表(每个状态或状态-动作对一个值)会导致内存和数据效率低下。 通过使用特征化状态表示,函数逼近可以推广到看不见的状态。 2.将RL视为有监督的学习问题,以MC或TD目标为标签,当前状态/动作为输入。 通常目标也取决于函数估计器

    日期 2023-06-12 10:48:40