强化学习之DQN
基于强化学习的信息流广告分配方法CrossDQN[美团]
今天给大家介绍的是我们团队今年发表在WWW2022上的论文CrossDQN,提出了一种基于强化学习的信息流广告分配方法。这也是我个人在入职美团之后工作的主要方向。接下来我将对论文内容进行详细的介绍。1、信息流广告分配背景电商场景下的信息流通常包含两部分的内容,一类被称为自然结果,另一类是广告结果。二者以混合列表的形式展现给用户。如下图是工业界常见的混排系统的架构,广告和自然结果首先在各自的系统内进
日期 2023-06-12 10:48:40原创 | 一文读懂强化学习DQN算法
作者:贾恩东本文约3000字,建议阅读8分钟本文介绍了强化学习DQN的算法。复制本文是入门强化学习系列的第二篇,上一篇是入门篇《一文读懂强化学习》。上一篇中讲过强化学习的核心问题是找到最优的策略函数,而评价策略函数好坏的指标之一则是状态价值函数。这里快速回顾一下状态价值函数的定义。在某时刻,在每种可能发生的状态 s 下,agent 都可以有动作 a (a∈A,A为所有可能动作的集合)可以选择,而每
日期 2023-06-12 10:48:40【深度强化学习】DQN
算法描述 中文描述 代码 # -*- coding: utf-8 -*- # import the necessary packages import torch import torch.nn as nn fro
日期 2023-06-12 10:48:40【强化学习】DQN:Flappy Bird实例分析
前言 在本专栏【强化学习】理论知识整理汇总中提到了DQN的原理和创新点,本篇来通过Flappy Bird这个游戏实例来分析DQN的代码构成。 主要所用框架/库:pytorch、pygame、op
日期 2023-06-12 10:48:40【深度强化学习】DQN
算法描述 中文描述 代码 # -*- coding: utf-8 -*- # import the necessary packages import torch import torch.nn as nn fro
日期 2023-06-12 10:48:40强化学习代码实战-06 Dueling DQN 算法
引入优势函数A,优势函数A = 状态动作价值函数Q - 状态价值函数V。 在同一状态下,所有动作的优势值为零。因为,所有的动作的状态动作价值的期望就是状态价值。 实现代码: import random import gym import torch import numpy as np from matplotlib import pyplot as plt from IPython impo
日期 2023-06-12 10:48:40强化学习代码实战-06 Double DQN算法
解决DQN的高估问题。即利用一套神经网络的输出选取价值最大的动作,但在使用该动作的价值时,用另一套神经网络计算该动作的价值。 import random import gym import torch import numpy as np from matplotlib import pyplot as plt from IPython import display env = gym.ma
日期 2023-06-12 10:48:40强化学习代码实战-06 DQN算法(单模型-平衡车)
import random import gym import torch import numpy as np from matplotlib import pyplot as plt from IPython import display env = gym.make("CartPole-v0") # 智能体状态 state = env.reset() # 动作空间 actions =
日期 2023-06-12 10:48:40强化学习代码实战-06 DQN算法(单模型)
现在我们想在类似车杆的环境中得到动作价值函数,由于状态每一维度的值都是连续的,无法使用表格记录,因此一个常见的解决方法便是使用函数拟合(function approximation)的思想。由于神经网络具有强大的表达能力,因此我们可以用一个神经网络来表示函数。 import random import gym import torch import numpy as np from matpl
日期 2023-06-12 10:48:40强化学习中Q-learning,DQN等off-policy算法不需要重要性采样的原因
在整理自己的学习笔记的时候突然看到了这个问题,这个问题是我多年前刚接触强化学习时候想到的问题,之后由于忙其他的事情就没有把这个问题终结,这里也就正好把这个问题重新的规整一下。 其实,这个DQN算法作为off-policy的强化学习算法为啥不需要重要性采样这个问题,真的是个神奇的问题,对于新入手强化学习的人来说这个问题就是个死活也搞不清、弄不懂的问题,但是对于强化学习的老手来说这个问
日期 2023-06-12 10:48:40再谈《强化学习算法之DQN算法中的经验池的实现》 experience_replay_buffer模块的实现
去年曾写过一篇DQN经验池模块编写的博文: 强化学习算法之DQN算法中的经验池的实现,experience_replay_buffer部分的实现 最近又看到了一个经验池实现的代码,把这两个实现做了一下对比: memory.py 新的经验池实现代码: import numpy as np Transition_dtype = np.dty
日期 2023-06-12 10:48:40强化学习算法之DQN算法中的经验池的实现,experience_replay_buffer部分的实现
本文的相关链接: github上DQN代码的环境搭建,及运行(Human-Level Control through Deep Reinforcement Learning)conda配置 ------------------------------------------------------------------ 经验池的引入算是D
日期 2023-06-12 10:48:40【转载】 强化学习(十一) Prioritized Replay DQN
原文地址: https://www.cnblogs.com/pinard/p/9797695.html ----------------------------------------------------------------------------------------  
日期 2023-06-12 10:48:40【转载】 强化学习(十)Double DQN (DDQN)
原文地址: https://www.cnblogs.com/pinard/p/9778063.html ----------------------------------------------------------------------------------------------- &nbs
日期 2023-06-12 10:48:40【转载】 强化学习(九)Deep Q-Learning进阶之Nature DQN
原文地址: https://www.cnblogs.com/pinard/p/9756075.html ------------------------------------------------------------------------------------------------------- &
日期 2023-06-12 10:48:40深度强化学习介绍 【PPT】 Human-level control through deep reinforcement learning (DQN)
这个是平时在实验室讲reinforcement learning 的时候用到PPT, 交期末作业、汇报都是一直用的这个,觉得比较不错,保存一下,也为分享,最早该PPT源于师弟汇报所做。 &n
日期 2023-06-12 10:48:40强化学习 车杆游戏 DQN 深度强化学习 Demo
网上搜寻到的代码,亲测比较好用,分享如下。 import gym import time env = gym.make('CartPole-v0') # 获得游戏环境 observation = env.reset() # 复位游戏环境,新一局游戏开始 print ('新一局游戏 初始观测 = {}'.format(observation)) for t in range(200):
日期 2023-06-12 10:48:40