您现在的位置是：首页 > IT要闻

当前栏目

模块化网络防止基于模型的多任务强化学习中的灾难性干扰

网络学习

2023-03-15 21:57:34 时间

在多任务强化学习环境中，学习者通常通过利用多个相关任务的相似性，从训练中获益。同时，经过训练的代理能够解决更广泛的不同问题。虽然这种效果在无模型的多任务方法中得到了很好的记录，但我们证明了在使用单一的学习动态模型来完成多个任务时，会产生不利的影响。因此，我们解决了一个基本问题：基于模型的多任务强化学习是否以类似于无模型方法从共享策略网络中获益的方式从共享动态模型中获益。使用单一动力学模型，我们看到了任务混乱和性能下降的明显证据。作为补救措施，通过为每个任务训练孤立的子网络，为所学的动力学模型强制执行一个内部结构，在使用相同数量的参数时，明显提高了性能。我们通过在一个简单的网格世界和一个更复杂的vizdoom多任务实验中比较两种方法来说明我们的发现。

原文题目：Modular Networks Prevent Catastrophic Interference in Model-Based Multi-Task Reinforcement Learning

原文：In a multi-task reinforcement learning setting, the learner commonly benefits from training on multiple related tasks by exploiting similarities among them. At the same time, the trained agent is able to solve a wider range of different problems. While this effect is well documented for model-free multi-task methods, we demonstrate a detrimental effect when using a single learned dynamics model for multiple tasks. Thus, we address the fundamental question of whether model-based multi-task reinforcement learning benefits from shared dynamics models in a similar way model-free methods do from shared policy networks. Using a single dynamics model, we see clear evidence of task confusion and reduced performance. As a remedy, enforcing an internal structure for the learned dynamics model by training isolated sub-networks for each task notably improves performance while using the same amount of parameters. We illustrate our findings by comparing both methods on a simple gridworld and a more complex vizdoom multi-task experiment.

模块化网络防止基于模型的多任务强化学习中的灾难性干扰.pdf

猜你喜欢

Python中的函数与方法以及Bound Method和Unbound Method
从本体论开始说起——运营商关系图谱的构建及应用
一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解
一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解
Flask中的请求上下文和应用上下文
深入探讨Java中的异常与错误处理
研究学习Kotlin的一些方法
如何成为一名数据科学家？
金融服务领域的大数据：即时分析
影响大数据、机器学习和人工智能未来发展的8个因素
从未见过的堂兄杀了人，你的DNA是关键证据
一文贯通python文件读取
数据显示Java热度持续下落，日子屈指可数？
从0开始构建一个属于你自己的PHP框架
如何将Hadoop集成到工作流程中？这6个优秀实践必看
2017年5月编程语言排行榜：Java与C语言优势正开始缩小
SEO公司使用大数据优化其模型的5种方法
Java多线程之内置锁与显示锁
关于Web Workers你需要了解的七件事
20个安全可靠的免费数据源，各领域数据任你挑

zl程序教程

当前栏目

模块化网络防止基于模型的多任务强化学习中的灾难性干扰

相关文章