英特尔200G IPU卡开箱照,下一步分布式人工智能?
英特尔的IPU产品
包含ASIC版本的Mount系列
和FPGA版本的Springs Canyon系列
英特尔IPU计划曝光,2025年推出800G芯片
FPGA芯片
来自于收购的Altera
Intel买买买的背后:FPGA的P4梦想
近日有媒体
探访英特尔实验室
第一时间拿到FPGA IPU近照
Intel Stratix 10 FPGA+Xeon D-1612
去除散热板
后的板卡背面
板卡的基本工作流程
目前合作伙伴已经可以提供
OVS,NVMeoF(RoCEv2)等主流应用
如果Springs Canyon
只是和Mount做一样的工作
那FPGA显然就是机关枪打蚊子
所以近期英特尔推出一篇基于FPGA
智能网卡加速分布式人工智能训练的大作
摘要--人工智能(AI)技术的快速发展使得无数应用领域的准确度大幅提高,但代价却是更大、更密集的模型。在海量数据上训练这些模型,通常需要扩展到许多计算节点,并严重依赖聚合通信算法,如all-reduce,在不同节点之间交换权重梯度。 分布式人工智能训练系统中的聚合通信操作,会增加开销并遭遇性能瓶颈,随着节点数量的增加,其影响会更加明显。 在本文中,我们首先对分布式AI训练来分析all-reduce操作的开销。然后,我们针对分布式AI训练系统设计了一种新的智能网络接口卡(NIC),使用FPGA加速all-reduce操作,并通过数据压缩优化网络带宽的利用。AI智能网卡释放了系统的计算资源,可以执行更多的计算密集型张量操作,并提高了整体节点间的通信效率。我们在一个由6个计算节点组成的分布式AI训练系统原型上进行了实际测量,评估表明我们提出的基于FPGA的AI网卡与使用普通网卡的基线系统相比的性能有提升。我们还使用这些测量来验证我们构造的用于预测更大系统性能的分析模型。与使用传统网卡的基线系统相比,我们提出的基于FPGA的AI网卡在6个节点上将整体训练性能上提高了1.6倍,在32个节点上估计有2.5倍的性能提高。
网络想要参与分布式训练不是新课题,Tofino可编程芯片也曾经沉迷其中。专题:可编程网络,勇往直前的走在AI路上:
对Intel论文感兴趣的同学点个赞和在看后,在公众号后台回复“tooyum1”可以获取下载路径。
相关文章
- 定制Github上的小图标/小徽章
- Docker部署Halo博客并配置SSL证书
- ELK系列二、Logstash读取Nginx日志写入ES中
- 腾讯云100G云服务器重磅上线 搭载100G超高性能网络的第六代云服务器性能提升3倍
- Android Studio比较实用的快捷键
- 北京证券交易所LOGO正式发布,官网将启用什么域名呢?
- Git命令学习记录
- 曾35万美金收购域名CookingGames.com,美国最大游戏网站卖身加拿大电竞公司!
- UDRP投诉之后,域名SmartWallet.com以113万元易主!
- 便利性与经济性成VSaaS市场发展推动力
- 新混合云架构你了解多少?
- 疫情大流行期间四个成功的公有云案例
- 云存储即服务:大容量数据存储和管理的新方法
- 关于ECS使用体验
- 碰上一个奇葩老板,做了五年的工作丟了
- 阿里云服务器体验的一些体会
- tmux简介(附修改前缀键ctrl+a的方法)
- ESC 使用体验
- 我的第一台服务器day1
- 网络服务之DNS