zl程序教程

您现在的位置是:首页 >  其他

当前栏目

英特尔200G IPU卡开箱照,下一步分布式人工智能?

2023-03-07 09:14:22 时间

英特尔的IPU产品

包含ASIC版本的Mount系列

和FPGA版本的Springs Canyon系列

英特尔IPU计划曝光,2025年推出800G芯片

FPGA芯片

来自于收购的Altera

至此XilinxAltera皆择良木而栖

Intel买买买的背后:FPGA的P4梦想

近日有媒体

探访英特尔实验室

第一时间拿到FPGA IPU近照

Intel Stratix 10 FPGA+Xeon D-1612

去除散热板

后的板卡背面

板卡的基本工作流程

目前合作伙伴已经可以提供

OVS,NVMeoF(RoCEv2)等主流应用

如果Springs Canyon

只是和Mount做一样的工作

那FPGA显然就是机关枪打蚊子

所以近期英特尔推出一篇基于FPGA

智能网卡加速分布式人工智能训练的大作

摘要--人工智能(AI)技术的快速发展使得无数应用领域的准确度大幅提高,但代价却是更大、更密集的模型。在海量数据上训练这些模型,通常需要扩展到许多计算节点,并严重依赖聚合通信算法,如all-reduce,在不同节点之间交换权重梯度。 分布式人工智能训练系统中的聚合通信操作,会增加开销并遭遇性能瓶颈,随着节点数量的增加,其影响会更加明显。 在本文中,我们首先对分布式AI训练来分析all-reduce操作的开销。然后,我们针对分布式AI训练系统设计了一种新的智能网络接口卡(NIC),使用FPGA加速all-reduce操作,并通过数据压缩优化网络带宽的利用。AI智能网卡释放了系统的计算资源,可以执行更多的计算密集型张量操作,并提高了整体节点间的通信效率。我们在一个由6个计算节点组成的分布式AI训练系统原型上进行了实际测量,评估表明我们提出的基于FPGA的AI网卡与使用普通网卡的基线系统相比的性能有提升。我们还使用这些测量来验证我们构造的用于预测更大系统性能的分析模型。与使用传统网卡的基线系统相比,我们提出的基于FPGA的AI网卡在6个节点上将整体训练性能上提高了1.6倍,在32个节点上估计有2.5倍的性能提高。

网络想要参与分布式训练不是新课题,Tofino可编程芯片也曾经沉迷其中。专题:可编程网络,勇往直前的走在AI路上:

(一)当机器学习碰到P4可编程的网络

(二)当强化学习碰到P4可编程的网络

(三)当分类算法碰到P4可编程的网络

(四)当DDoS检测碰到P4可编程的网络

(五)当分布式存储碰到P4可编程的网络

(六)当分布式训练碰到P4可编程的网络

对Intel论文感兴趣的同学点个赞和在看后,在公众号后台回复“tooyum1”可以获取下载路径。