使用 Elastic Fabric Adapter 和 AWS ParallelCluster 扩展 HPC 工作负载
2019 年 4 月,AWS 宣布正式发布 Elastic Fabric Adapter (EFA),这是一种 EC2 网络设备,它可以提高分布式高性能计算 (HPC) 和机器学习 (ML) 工作负载的吞吐量和可扩展性。今天,我们很高兴宣布通过 AWS ParallelCluster 支持 EFA。
EFA 是一种适用于 Amazon EC2 实例的网络接口,您可以借助它在 AWS 上大规模运行需要高水平实例间通信的 HPC 应用程序(例如计算流体动力学、天气建模以及库区模拟等)。它使用行业标准的操作系统绕过技术,借助新的自定义可扩展可靠数据报 (SRD) 协议来增强实例间通信性能,这对于 HPC 应用程序的扩展至关重要。有关 EFA 和所支持实例类型的更多信息,请参阅 Elastic Fabric Adapter (EFA) for Tightly-Coupled HPC Workloads。
建立启用 EFA 功能的 HPC 集群涉及许多并无重要价值的繁重工作,这些全部都由 AWS ParallelCluster 负责。当您在“cluster”部分设置 enable_efa = compute
标签时,AWS ParallelCluster 将会为所有网络增强实例添加 EFA。具体而言,AWS ParallelCluster 将会执行下列步骤:
- 在启动模板中设置
InterfaceType = efa
。 - 确保安全组的规则允许指向自己的所有入站和出站流量。与传统 TCP 流量不同,EFA 要求有一条入站规则和一条出站规则明确允许指向自己的安全组 (ID
sg-xxxxx
) 的所有流量。更多信息请参阅准备启用了 EFA 的安全组。 - 安装 EFA 内核模块(这是一个 AWS 专用版本的 Libfabric 网络堆栈)和 OpenMPI 3.1.4。
- 验证实例类型、基础操作系统和置放组。
如要开始使用,您需要安装 AWS ParallelCluster,具体请参阅 AWS ParallelCluster 入门。对于本教程,我们将假设您已经安装了 AWS ParallelCluster 并且熟悉 ~/.parallelcluster/config
文件。
修改您的 ~/.parallelcluster/config
以使“cluster”部分至少包含下列参数:
本篇作者
相关文章
- 云数据库选型必读:总有一款适合你!
- IDC《2017年中国BI市场的的跟踪报告》发布 中国厂商帆软软件位居第一
- 区域内有几个一二三类LSA计算
- 深入浅出 带你看懂数据可视化「美」的历程
- prometheus笔记
- 云数据库选型也绕不开“CAP定理”?
- DPU:5G边缘云的新基石
- 微软警告数千名云服务客户:数据库或被暴露
- 云数据库选型必读:如何梳理需求?
- 边缘计算:科技行业的下一个万亿美元机会
- 使用 Flink Hudi 构建流式数据湖
- 公共云能否成为机密?
- 全球十大农业大数据经典案例
- 边缘计算存储是物联网的下一个前沿
- mysql 系列:存储引擎
- 将实时数据流转化为业务价值的4个步骤
- C#使用Behavior实现编辑操作数据库的功能
- 三种可视化方法,手把手教你用R绘制地图网络图!
- C#(WPF)连接SQLite数据库,利用ViewModel显示数据
- 如何通过强大的数据库提高移动应用程序性能