模块化网络防止基于模型的多任务强化学习中的灾难性干扰
在多任务强化学习环境中,学习者通常通过利用多个相关任务的相似性,从训练中获益。同时,经过训练的代理能够解决更广泛的不同问题。虽然这种效果在无模型的多任务方法中得到了很好的记录,但我们证明了在使用单一的学习动态模型来完成多个任务时,会产生不利的影响。因此,我们解决了一个基本问题:基于模型的多任务强化学习是否以类似于无模型方法从共享策略网络中获益的方式从共享动态模型中获益。使用单一动力学模型,我们看到了任务混乱和性能下降的明显证据。作为补救措施,通过为每个任务训练孤立的子网络,为所学的动力学模型强制执行一个内部结构,在使用相同数量的参数时,明显提高了性能。我们通过在一个简单的网格世界和一个更复杂的vizdoom多任务实验中比较两种方法来说明我们的发现。
原文题目:Modular Networks Prevent Catastrophic Interference in Model-Based Multi-Task Reinforcement Learning
原文:In a multi-task reinforcement learning setting, the learner commonly benefits from training on multiple related tasks by exploiting similarities among them. At the same time, the trained agent is able to solve a wider range of different problems. While this effect is well documented for model-free multi-task methods, we demonstrate a detrimental effect when using a single learned dynamics model for multiple tasks. Thus, we address the fundamental question of whether model-based multi-task reinforcement learning benefits from shared dynamics models in a similar way model-free methods do from shared policy networks. Using a single dynamics model, we see clear evidence of task confusion and reduced performance. As a remedy, enforcing an internal structure for the learned dynamics model by training isolated sub-networks for each task notably improves performance while using the same amount of parameters. We illustrate our findings by comparing both methods on a simple gridworld and a more complex vizdoom multi-task experiment.
相关文章
- 一篇运维老司机的大数据平台监控宝典(2)-联通大数据集群平台监控体系详解
- 一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平台监控体系进程详解
- 空中换引擎 博时基金数字化转型经验谈
- 如何高效地学习编程语言
- 作为一名阿里巴巴数据分析大牛,送给学弟学妹的经验积分
- 为什么要学习R语言
- Hadoop大数据分析平台的介绍性讨论
- 最全面的Spring学习笔记
- 16个用于数据科学和机器学习的顶级平台
- 给有抱负的数据科学家的六条建议
- 如何做一枚合格的数据产品经理
- 除Kaggle外,还有哪些顶级数据科学竞赛平台
- 一个鲜为人知却可以保护隐私的训练方法:联合学习
- 干货 :送你12个关于数据科学学习的关键提示(附链接)
- 大数据行业有多少种工作岗位,各自的技能需求是什么?
- 中国移动研究院常耀斌:商用大数据平台的研发之路
- 这些数据科学家必备的技能,你拥有哪些?
- 自学成才的开发者有何优势和劣势?
- Gartner报告:正处于数据科学与机器学习工具 “大爆炸”的时代
- Ready Computing借助InterSystems IRIS医疗版为医疗机构提供具有高度互操作性和可扩展性的解决方案