您现在的位置是：首页 > 其他

当前栏目

研究人员推出“PERSIA”：一种基于 PyTorch 的系统，用于训练多达 100 万亿个参数的大规模深度学习推荐模型

技术系统学习神经网络

2023-04-18 14:54:38 时间

基于深度学习的模型主导了生产推荐系统的当代格局。现代推荐系统提供了大量实际应用。由于规模不断扩大的深度神经网络模型，它们取得了令人难以置信的进步。

然而即使在工业规模的数据中心内，此类模型的训练也具有挑战性。这一挑战源于训练计算惊人的异质性——模型的嵌入层可能占整个模型大小的 99.99% 以上。整个过程非常耗费内存，而神经网络 (NN) 的其余部分则逐渐变得计算密集型。

波斯的基础上，革命性的混合训练算法，高效的分布式培训体系，已推出由葵公司Kuaishou技术和ETH的一个研究小组苏黎世。这种方法为具有多达 100 万亿个参数的广泛深度学习推荐系统提供了训练效率和准确性。研究人员精心设计了优化方法和分布式系统架构。

由于多项技术贡献，波斯得到了促进。Persia 的核心技术假设将混合和异构的训练算法与异构系统架构设计相结合。通过这样做，研究人员的目标是提高训练推荐系统的性能，超越现有的性能。

本研究将推荐模型的属性与其收敛性联系起来，以证明其有效性。研究人员描述了一种自然但不寻常的混合训练技术，该技术接近嵌入层和密集神经网络模块。此外该研究还对其收敛行为进行了详尽的理论描述。在 Kwai，PERSIA 使用公开可用的基准测试和实际工作负载进行评估。

研究人员最初提出了一种同步-异步混合方法，其中嵌入模块异步训练。同时密集神经网络同步更新。在不牺牲统计效率的情况下，这种混合方法实现了与完全异步模式相当的硬件效率。

波斯基于两个基本方面：

训练工作流在不同集群中的分布
相关的混合基础设施训练程序

PERSIA 有四个模块，为推荐系统提供有效的自动缩放：

从 Hadoop、Kafka 和其他分布式存储系统中提取训练数据的数据加载器；
一组嵌入工作者使用优化算法从嵌入 PS 中提取嵌入参数。这些将嵌入梯度放回嵌入 PS 和聚合嵌入向量（可能）
嵌入参数服务器（简称嵌入PS）负责监督嵌入层中参数的存储和更新。
许多神经网络工作者运行神经网络神经网络的前向/后向传播。

研究团队针对三个开源基准（Taobao-Ad、Avazu-Ad 和 Criteo-Ad）以及 Kwai 的真实世界制作微视频推荐管道对 PERSIA 进行了测试。作为基线，使用了 XDL 和 PaddlePaddle，这两个前沿的分布式推荐训练系统。

与所有其他系统相比，建议的混合算法获得了更高的吞吐量。PERSIA 在 Kwai-video 基准测试中实现了比完全同步方法高 3.8 的吞吐量。即使模型大小增加到 100 万亿个参数，PERSIA 也表现出稳定的训练吞吐量，达到完全同步模式吞吐量的 2.6 倍。

PERSIA 已在 GitHub 上作为开源项目提供，其中包含在 Google 的云基础架构上进行设置的详细说明。

论文：

https://arxiv.org/pdf/2111.05897.pdf

Github：

https://github.com/persiaml/persia

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

研究人员推出“PERSIA”：一种基于 PyTorch 的系统，用于训练多达 100 万亿个参数的大规模深度学习推荐模型

相关文章