您现在的位置是：首页 > Java

当前栏目

总结一下强化学习在工业界应用，给大家扩展一下思路（简易科普）

2023-02-18 16:37:12 时间

推荐书籍：

阿里的一本《强化学习实战--技术演进和业务创新》的可以有空阅览，18年10月出版的。在早几年大厂们都已经沉淀技术了，下面总结一些大佬们的建议。

1、目前成功案例

我们已经见证了强化学习的一些突破，比如深度Q网络 (Deep Q-Network, DQN)应用于雅达利(Atari)游戏、AlphaGo (也包括AlphaGo Zero和AlphaZero)、以及DeepStack/Libratus等。它们每一个都代表了一大类问题，也都会有大量的应用。DQN应用于雅达利游戏代表着单玩家游戏，或更一般性的单智能体 (agent) 控制问题。DQN点燃了这一波研发人员对深度强化学习的热情。AlphaGo代表着双人完美信息零和游戏。AlphaGo在围棋这样超级难的问题上取得了举世瞩目的成绩，是人工智能的一个里程碑。AlphaGo让普罗大众认识到人工智能，尤其是强化学习的实力和魅力。DeepStack/Libratus代表着双人不完美信息零和游戏，是一类很难的问题，也取得了人工智能里程碑级别的成绩。

谷歌Deepmind AlphaStar打败了星际争霸人类高手。Deepmind在一款多人抢旗游戏(Catch the Flag)中达到了人类玩家水平。OpenAI Five打败了人类刀塔(Dota)高手。OpenAI训练了类人机器人手Dactyl, 用于灵活地操纵实物。谷歌人工智能把强化学习用到数据中心制冷这样一个实用系统。DeepMimic模拟人形机器人，掌握高难度的运动技能。强化学习也应用于化学分子逆合成和新药设计。等等。

强化学习也已经被用到产品和服务中。谷歌云的自动机器学习 (AutoML) 提供了自动优化神经元网络结构设计这样的服务。脸书开源了Horizon产品和服务，实现通知传达、视频流比特率优化等功能。谷歌研发了基于强化学习的YouTube视频推荐算法。亚马逊与英特尔合作，发布了一款强化学习实体测试平台AWS DeepRacer. 滴滴出行则把强化学习应用于派单等业务。阿里、京东、快手等把强化学习应用于推荐系统。

1.1 某阿里大佬阐述

广告方面，落地有合约/GD广告，流量分配/预估，售卖系数/rtb，智能出价/建议价/保留价，预算控制/反馈等，基本大部分ocpx的rs重排都可以用rl来优化，dpn/ddpg/cem等等。

推荐的话，最早的EE/ucb/bandit那一套就是在推荐落地的，在资源冷启/用户冷启/流量试投上有一些收益。然后比如多路召回的召回个数k的判定；另外，建模用户长期兴趣/用户未来收益，平衡即时收益（ctr/cvr）和未来长期收益（留存/回访/复购）也有应用。

搜索方面少点，sug/query理解（query改写知乎就用rl上线过），然后相关性排序/session挖掘里应用也有落地。

另外在三者交叉领域，例如搜索广告/推荐广告中，自然流量和广告流量的资源博弈。在一般业务部门，广告结果和推荐结果可能分别是不同团队输出的，在推荐信息流/搜索结果页要插入广告的话，可能是固定位置给到广告位，这样相对限制了收益天花板。例如广告位顺序/数量其实是可以动态决策的，merge自然流量和广告流量后用rl的思路优化下，能提高不少（抖音19年文章有写类似思路）。

同样的思路也可用于常见异构信息流混排场景，视频/图集/图文混排之类。

1.2 某实战员工回答

1.广告出价业务强化学习已经是标配中的标配，各大厂都已经上线了，这块貌似国内是百度凤巢做的最早？ 2.推荐方向，一般都是排序侧，这块在阿里的某些业务下的实时多样性策略，商品重排序上都线了，效果不错，毕竟能直接优化GMV。

这两个业务大厂里面rl应该上属于比较广泛的了。其他的小众的业务线也有上线，比如搜索引擎中的query重写，任务型对话系统对话策略，滴滴派单等。

1.3 xxx

强化学习主要是决策和优化层面的，在特定场景的应用: 游戏场景（经典应用场景），推荐场景(貌似YouTube已经用了，国内也有互联网公司尝试应用），自动化机器人领域（无人机航迹规划，无地图导航，自主避障等）。

针对机器人领域，比如无人车或飞机的航迹规划，目前主要困难是模拟器与真实世界的迁移，数据利用效率低以及安全性(safe reinforcement learning，包括输出信号的稳定性以及过程可解释性)。

1.4 xxxx

在一家电商做rl的搜索应用，加上实习时间已经两年了。目前线上效果可以。看了很多在搜索推荐领域的paper，发现落地成功的比较少，做的人也基本上都是工业界的，学术圈没有平台的话很难做。

落地可以尝试 model based RL，offpolicy policy evalution 以及监督学习warmstart的方向。

关键在于如何定义好一个强化学习问题。最好可以把rl问题和已有的监督学习问题联系起来，这样也比较好实现。

2、现实世界中强化学习面临的挑战

谷歌Deepmind和谷歌研究院合作发表论文，研究为什么强化学习虽然在游戏等问题获得了巨大成功，但在现实世界中仍然没有被大规模应用。他们讨论了下面九个制约因素：1）能够对现场系统从有限的采样中学习；2）处理系统执行器、传感器、或奖赏中存在的未知、可能很大的延迟；3）在高维状态空间和动作空间学习、行动；4）满足系统约束，永远或极少违反；5）与部分可观察的系统交互，这样的系统可以看成是不平稳的或随机的；6）从多目标或没有很好指明的奖赏函数学习；7）可以提供实时动作，尤其是为高控制频率的系统；8）从外部行为策略的固定的日志数据离线学习；9）为系统操作员提供可解释的策略。他们辨识并定义了这些挑战因素，对每个挑战设计实验并做分析，设计实现基线任务包含这些挑战因素，并开源了软件包。

猜你喜欢

握草，这些研发事故30%我都干过！
坚持写技术博客一年能有多少收获！
握草，你竟然在代码里下毒！
面试这么撩准拿offer，HashMap深度学习，扰动函数、负载因子、扩容拆分，原理和实践验证，让懂了就是真的懂！
数据结构：7种哈希散列算法，你知道几个？
IDEA Plugin，写一个看股票指数和K线的插件
12种 vo2dto 方法，就 BeanUtils.copyProperties 压测最拉胯！【快双11了，别用错喽】
以一己之力，生抗美团技术博客！
谁说明天上线，这货压根不知道开发流程！
2020总结 | 作为技术号主的一年！
阿里不允许使用 Executors 创建线程池！那怎么使用，怎么监控？
手写线程池，对照学习ThreadPoolExecutor线程池实现原理！
面经手册 · 第13篇《除了JDK、CGLIB，还有3种类代理方式？面试又卡住！》
数据源太多，报表工具该如何兼容？
如何集成开源图表及报表到自研项目中
使用开源计算引擎提升Excel格式文件处理效率
数据批处理速度慢？不妨试试这个
etcd v3版本生产级集群搭建以及实现一键启动脚本
长篇图解etcd核心应用场景及编码实战
[PostgreSql]生产级别数据库安装要考虑哪些问题？

zl程序教程