zl程序教程

您现在的位置是:首页 >  其他

当前栏目

犀牛鸟硬核 | 腾讯首篇以第一单位入选OSDI的论文,有了!

论文腾讯 第一 硬核 入选 单位 犀牛 首篇
2023-06-13 09:11:31 时间

本文转自“微信AI”

作为计算机系统界的“奥斯卡”,第16届OSDI(Operating Systems Design and Implementation)已于日前召开,并正式公布了“年度最佳名单”(论文接收名单)。

其中,微信团队《Ekko: 超大规模推荐系统的模型低延时更新方案》论文成功入选,这也是腾讯首次以第一单位于该会议发表论文。(论文可点击文末“阅读原文”查看)

OSDI是计算机系统领域最顶级的学术会议之一,汇集了全球计算机科学家们对于计算机系统的前瞻性思考。OSDI汇集了来自学术界和工业界的顶尖开发人员和研究人员,共同推进(操作)系统的科学技术,其中的很多成果往往引领着全球计算机发展的方向。

第一届 OSDI 在 1994 年在 Menterey, CA 召开,此后基本每两年召开一次。创会近30年来,国内单位在该会议发表论文总数仅20余篇,而本届OSDI共有253篇论文投稿,接收49篇,接收率为19.4%。

Ekko 来源于微信内部的 WePS 项目,是一个超大规模推荐系统模型低延时更新的解决方案。微信团队入选论文对Ekko展开了详解——面对实时社交活动的场景需求以及微信10亿+的用户体量,业界此前最好的推荐模型更新方案都不能很好地进行适配,于是Ekko应运而出。

现有推荐系统更新方案 & Ekko系统架构

▍Ekko方案的主要构成

高效的P2P模型更新传输服务:可协调数千个全球部署的参数服务器利用各个网络链路完成实时模型更新,并创新地改进了版本向量算法,设计了一个无日志的数据同步机制,能有效避免被全球生产环境中的慢机器/出灾机器所影响。

SLO感知的模型更新调度器:可在拥塞的网路上优先传输重要梯度,利用模型新鲜度SLO和模型质量SLO,Ekko能筛选出相对更加影响推荐质量的更新优先P2P下发。

模型状态管理器:可用于模型的出灾恢复。在超大量(超1000+个)超大(超1TB)模型的高实时(低于2.4秒)更新中,一旦算法效果出现大幅波动,Ekko能够高速精确定位模型何时出现问题并在分布式场景下进行增量回滚。

Ekko方案于全面测试中展示出相比最先进的深度学习推荐系统高达几个数量级更快的模型更新下发性能。不仅在学术上填补了业界在模型高效更新上的空白,更比此前的最佳方案提升高达100x。

该方案已于微信业务场景落地两年,目前微信数千台机器上存储了数百TB的Ekko模型,涵盖包括视频号、看一看和订阅号等场景,每天服务超过10亿用户。视频号更是在全量使用基于Ekko的在线推荐后,结合产品迭代与运营,全球模型更新生效延时低于2.4秒,半年内日活增加达40%,总播放量增长达87%。

异构带宽网络下Ekko的加速效果

论文成果受国际顶会认可,背后是微信及腾讯多年来持续开展计算机系统领域投入、潜心技术研究的成果。接下来,微信团队也将继续加强基础理论和关键技术的研发,并基于前沿技术应用于丰富的业务场景,优化产品体验,带动行业服务。

点击“阅读原文”,了解微信入选OSDI论文详情