您现在的位置是：首页 > 其他

当前栏目

利用行动影响的规律性和部分已知的模型进行离线强化学习

算法学习

2023-03-15 21:57:37 时间

众所周知，离线强化学习--从一批数据中学习策略--是很难的：如果不做强有力的假设，很容易构建反例，使现有算法失败。在这项工作中，我们转而考虑某些现实世界中离线强化学习应该有效的问题的属性：那些行动只对部分状态产生有限影响的问题。我们正式确定并介绍了这个行动影响规律性（AIR）属性。我们进一步提出了一种假设并利用AIR属性的算法，并约束了MDP满足AIR时输出策略的次优性。最后，我们证明我们的算法优于现有的离线强化学习算法，在两个模拟环境中的不同数据收集政策中，该规律性是成立的。

原文题目：Exploiting Action Impact Regularity and Partially Known Models for Offline Reinforcement Learning

原文：Offline reinforcement learning-learning a policy from a batch of data-is known to be hard: without making strong assumptions, it is easy to construct counterexamples such that existing algorithms fail. In this work, we instead consider a property of certain real world problems where offline reinforcement learning should be effective: those where actions only have limited impact for a part of the state. We formalize and introduce this Action Impact Regularity (AIR) property. We further propose an algorithm that assumes and exploits the AIR property, and bound the suboptimality of the output policy when the MDP satisfies AIR. Finally, we demonstrate that our algorithm outperforms existing offline reinforcement learning algorithms across different data collection policies in two simulated environments where the regularity holds.

利用行动影响的规律性和部分已知的模型进行离线强化学习.pdf

猜你喜欢

Python中的函数与方法以及Bound Method和Unbound Method
从本体论开始说起——运营商关系图谱的构建及应用
一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解
一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解
Flask中的请求上下文和应用上下文
深入探讨Java中的异常与错误处理
研究学习Kotlin的一些方法
如何成为一名数据科学家？
金融服务领域的大数据：即时分析
影响大数据、机器学习和人工智能未来发展的8个因素
从未见过的堂兄杀了人，你的DNA是关键证据
一文贯通python文件读取
数据显示Java热度持续下落，日子屈指可数？
从0开始构建一个属于你自己的PHP框架
如何将Hadoop集成到工作流程中？这6个优秀实践必看
2017年5月编程语言排行榜：Java与C语言优势正开始缩小
SEO公司使用大数据优化其模型的5种方法
Java多线程之内置锁与显示锁
关于Web Workers你需要了解的七件事
20个安全可靠的免费数据源，各领域数据任你挑

zl程序教程

当前栏目

利用行动影响的规律性和部分已知的模型进行离线强化学习

相关文章