zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

机器之心走近全球顶尖实验室:UCL多智能体强化学习研究团队

机器团队学习智能 研究 全球 强化 实验室
2023-06-13 09:17:56 时间

机器之心知识站与国际顶尖实验室及研究团队合作,将陆续推出系统展现实验室成果的系列技术直播,作为深入国际顶尖团队及其前沿工作的又一个入口。赶紧点击「阅读原文」关注起来吧!

人工智能已经在围棋、图像识别和语音识别等领域达到甚至超越了人类专家水平,但智能化的机器离我们仍然很远。要想实现通用智能,AI智能体必须学习如何在共享环境中与「他人」进行互动,由此便产生了人工智能的一个前沿研究领域:多智能体学习。

多智能体学习的问题存在于多个领域。在这些问题中,多个智能体不仅与环境相互作用,而且彼此互动,由此造成的复杂和多变性为研究带来了诸多挑战。此外,多智能体学习在现实生活中有着广泛的应用,比如无人机群的控制、仓库机器人的合作、分布式传感器网络/交通的优化、机器竞标等。

伦敦大学学院(UCL)计算机科学系教授汪军及其团队一直从事决策智能和多智能体协作的基础研究和实际场景落地工作。汪军教授认为,目前通用人工智能(AGI)研究有两个大方向,一是单智体,其背后的经典算法是深度强化学习;另一个就是多智体(Multi-agent),也可以理解为群体智能,探索机器学习和博弈论的结合,这是人工智能的下一个大方向。目前,群体人工智能最大的挑战之一,就是如何让多个智能体学会一起完成同一个任务(包括学会彼此合作和相互竞争),如何利用一套统一的机器学习理论和计算框架去描述这个学习过程。

为了帮助大家了解这一领域最新进展,最新一期「机器之心走进全球顶尖实验室」邀请到来自伦敦大学学院(UCL)多智能体强化学习研究团队,包括团队中的研究员与已经在其他院校与企业中任职的四位青年学者,他们将于7月26日-7月30日连续带来4期线上分享,分享内容包括人类和人工智能代理的评估、多智能体理论、多智能体训练框架和多智能体在产业界的落地应用等。

直播链接:https://jmq.h5.xeknow.com/s/3TEGZb(点击阅读原文直达)

7月26日19:00-20:00

分享主题:On the Evaluation of Human and AI Agents:Past, Present and Future

分享嘉宾:杜雅丽,伦敦大学学院博士后研究员

分享摘要:评估对于推动机器学习问题的进展至关重要,例如计算机视觉中的 ImageNet、强化学习中的 Atari 游戏和自然语言处理中的 SuperGlue。然而,与开发算法相比,算法评估很少受到关注。虽然多样化的基准任务甚至对抗性攻击给了研究人员大量的选择,但在提出新算法时,挑选结果的可能性也在增加。因此,设计一个健康的评估套件至关重要,需要付出更多努力。

在本次分享中,嘉宾将介绍人类玩家评估的起源、著名评估算法(包括 Elo、TrueSkill、mElo2k、α-rank)、其团队最近在多智能体评估方面的工作以及未来可能的研究方向。

嘉宾简介:杜雅丽现任伦敦大学学院博士后研究员,2019年获得悉尼科技大学博士学位。她的研究方向包括机器学习、强化学习及其在数据科学、游戏AI以及经典控制和决策任务中的广泛应用,她的研究成果曾发表在 ICML、NeurIPS、IJCAI 等知名会议、期刊上。

7月28日20:00-21:00

分享主题:MALib:面向基于种群多智能体强化学习的并行训练框架

分享嘉宾:温颖,上海交通大学约翰·霍普克罗夫特计算机科学中心长聘教轨助理教授

分享摘要:深度强化学习从单人电子游戏上取得突破性进展开始,逐渐扩展到更通用的多人博弈场景,算法复杂度和算力需求出现了爆炸式增长,也对与算法匹配的大规模强化学习训练系统提出了新的要求。

本次分享将从介绍大规模单智能体强化学习系统开始,介绍分布式强化学习系统的需求与进展。紧接着,针对多智能体深度强化学习,嘉宾将分享由上海交通大学&伦敦大学学院团队联合开发的训练框架MALib。

MALib基于分布式执行系统Ray,并针对多智能体强化学习算法(尤其是基于种群的多智能体强化学习算法)的复杂耦合的采样、训练、评估等任务进行底层分布式任务调度优化,在训练范式层面对算法解构并提供统一的编程抽象,大大降低了大规模多智能体强化学习算法的实现门槛,提升了开发效率。同时,MAlib与其他常见训练框架(RLLib,OpenSpiel,PyMARL等)相比,在相同条件和任务下,算法训练速度有数倍的提升。

嘉宾简介:温颖,上海交通大学约翰·霍普克罗夫特计算机科学中心长聘教轨助理教授。他的研究方向涉及多智能体学习,强化学习及博弈论在其中的应用。他分别于2020年和2016年获得英国伦敦大学学院计算机系博士学位和研究型硕士学位。他的十余篇研究成果发表在ICML、ICLR、IJCAI、AAMAS等相关领域的一流国际会议上,并且获得CoRL 2020最佳系统论文奖和AAMAS Bule Sky Track最佳论文奖。他连续多年担任ICML、NeurIPS、ICLR、IJCAI、AAAI、ICAPS、Operational Research等国际知名会议/期刊的PC成员或审稿人。

7月29日20:00-21:00

分享主题:High-Dimensional Black Box Optimisation in Small Data Regimes

分享嘉宾:Haitham Bou Ammar,华为英国研发中心强化学习团队负责人、伦敦大学学院荣誉助理教授

分享摘要:科学和工程中的许多问题都可以看作是对高维(结构化)输入空间进行黑盒优化的实例。应用是无处不在的,包括基于形式语法的算术表达式生成和基于属性的分子生成等等。机器学习在解决许多此类问题时表现出了潜力和优势,并能够得到SOTA结果。在这些成就的基础上,当前 ML 技术需要数十万甚至数百万的标记数据。然而许多现实世界的应用并不能如此奢侈:在设计新分子时,要进行数以百万计的生物学实验是很有挑战性的。

本次分享嘉宾将详细介绍其团队在贝叶斯优化(BO)背景下为高维决策开发的新技术。该方法将深度度量学习的思想与 BO 相结合,以实现样本高效的低维代理优化。对于真正的高维优化问题,其团队提供了理论上的保证,证明了regret的消失。此外,他们还在一组实验中证实了该技术在减少样本量方面的有效性,与以前的SOTA相比,该技术仅使用1%次的查询就获得了最领先的logP分子值。

嘉宾简介:Haitham Bou Ammar,华为英国研发中心强化学习团队负责人、伦敦大学学院荣誉助理教授。他曾先后就职于PROWLER.io(领导强化学习和tuneable AI团队)、贝鲁特美国大学计算机科学系(任助理教授)、普林斯顿大学运筹学和金融工程系(任博士后研究助理)、宾夕法尼亚大学(任博士后研究员,从事机器学习研究)等。作为通用机器人自动化传感与感知实验室前成员,他还为机器学习在机器人技术中的应用做出了贡献。他的主要研究方向为统计机器学习和人工智能领域,专注于贝叶斯优化、概率建模和强化学习。他还对在更长的时间范围内使用大量数据进行学习感兴趣——这是「大数据」问题的常见特征。他的研究还涉及控制理论和非线性动力系统的不同领域,以及社交网络和分布式优化。

7月30日20:00-21:00

分享主题:Dealing with Non-transitivity in Two-player Zero-sum Games

分享嘉宾:杨耀东,伦敦大学学院多智能体强化学习团队机器学习研究员

分享摘要:策略空间中的不可传递性问题(A赢B,B赢C,但A不能赢C)给设计有效学习算法求解两人零和博弈游戏带来了诸多挑战。该问题存在于众多游戏中,如星际争霸、中国象棋和扑克。

在本次分享中,嘉宾将介绍其团队在设计有效联盟训练(league training)方法方面的工作,该方法可以在两人零和博弈游戏中生成近似纳什均衡的智能体。

嘉宾简介:杨耀东,伦敦大学学院多智能体强化学习团队机器学习研究员,主要研究方向为强化学习和多智能体系统。他曾在顶级会议、期刊发表30多篇研究论文,并在CoRL 2020和AAMAS 2021(蓝天赛道)中获得最佳论文。他本科就读于中国科技大学,并在帝国理工学院获得硕士学位、伦敦大学学院获得博士学位。

欢迎加入直播交流群

直播地址:https://jmq.h5.xeknow.com/s/3TEGZb(点击阅读原文直达)

扫码入群:针对本次分享主题,欢迎大家进群一起交流。

如群已超出人数限制,请添加其他小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「UCL」即可加入。

点击阅读原文,收藏直播间。