您现在的位置是：首页 > 其他

当前栏目

英特尔200G IPU卡开箱照，下一步分布式人工智能？

网络分布式人工智能分布式

2023-03-07 09:14:22 时间

英特尔的IPU产品

包含ASIC版本的Mount系列

和FPGA版本的Springs Canyon系列

英特尔IPU计划曝光，2025年推出800G芯片

FPGA芯片

来自于收购的Altera

至此Xilinx和Altera皆择良木而栖

Intel买买买的背后：FPGA的P4梦想

近日有媒体

探访英特尔实验室

第一时间拿到FPGA IPU近照

Intel Stratix 10 FPGA+Xeon D-1612

去除散热板

后的板卡背面

板卡的基本工作流程

目前合作伙伴已经可以提供

OVS，NVMeoF（RoCEv2）等主流应用

如果Springs Canyon

只是和Mount做一样的工作

那FPGA显然就是机关枪打蚊子

所以近期英特尔推出一篇基于FPGA

智能网卡加速分布式人工智能训练的大作

摘要--人工智能(AI)技术的快速发展使得无数应用领域的准确度大幅提高，但代价却是更大、更密集的模型。在海量数据上训练这些模型，通常需要扩展到许多计算节点，并严重依赖聚合通信算法，如all-reduce，在不同节点之间交换权重梯度。分布式人工智能训练系统中的聚合通信操作，会增加开销并遭遇性能瓶颈，随着节点数量的增加，其影响会更加明显。在本文中，我们首先对分布式AI训练来分析all-reduce操作的开销。然后，我们针对分布式AI训练系统设计了一种新的智能网络接口卡（NIC），使用FPGA加速all-reduce操作，并通过数据压缩优化网络带宽的利用。AI智能网卡释放了系统的计算资源，可以执行更多的计算密集型张量操作，并提高了整体节点间的通信效率。我们在一个由6个计算节点组成的分布式AI训练系统原型上进行了实际测量，评估表明我们提出的基于FPGA的AI网卡与使用普通网卡的基线系统相比的性能有提升。我们还使用这些测量来验证我们构造的用于预测更大系统性能的分析模型。与使用传统网卡的基线系统相比，我们提出的基于FPGA的AI网卡在6个节点上将整体训练性能上提高了1.6倍，在32个节点上估计有2.5倍的性能提高。

网络想要参与分布式训练不是新课题，Tofino可编程芯片也曾经沉迷其中。专题：可编程网络，勇往直前的走在AI路上：

对Intel论文感兴趣的同学点个赞和在看后，在公众号后台回复“tooyum1”可以获取下载路径。

猜你喜欢

Python sys模块
新功能 – Amazon DevOps Guru for RDS 使用 ML 检测、诊断和解决与 Amazon Aurora 相关的问题
java.lang.IllegalArgumentException: invalid comparison: java.util.Date and java.lang.String
python random模块
新的 DynamoDB 表类别 – 节省多达 60％的 DynamoDB 成本
python random模块
新功能 – 面向 SQL Server 的 Amazon RDS 自定义现已正式推出
java就业前景，成都java培训，传智播客java培训
Python logging 模块
预览 — AWS Backup 添加了对 Amazon S3 的支持
java:java.util.Map和java.util.Set的Key类型转换
Python - logging模块
Python曲线平滑
新功能 – 简化对 Amazon S3 中所存储数据的访问管理
Python基础--异常
java 队列整型_Java java.util.Queue的用法以及案例
python面向对象
新增功能 – Amazon FSx for OpenZFS
Java之java.lang.CloneNotSupportedException，Java中bean的克隆报错
新功能 — 使用 AWS Snowball Edge 进行离线磁带迁移

zl程序教程

当前栏目

英特尔200G IPU卡开箱照，下一步分布式人工智能？

英特尔IPU计划曝光，2025年推出800G芯片

Intel买买买的背后：FPGA的P4梦想

相关文章