新功能 — 由 Gaudi 加速器提供支持的用于训练深度学习模型的 EC2 实例
如今,用于深度学习的应用程序比以往任何时候都多。自然语言处理、推荐系统、图像识别、视频识别等都可以从高质量、训练有素的模型中受益。
构建这样一个模型的过程是迭代的:构建一个初始模型,在真实数据的基础上对它进行训练,做一些测试推断,优化模型,然后重复。深度学习模型包含许多层(并因此得名),每个层都会转换前一层的输出。训练过程包含大量数学运算和处理器操作,并且对用于训练的系统的几乎每个部分(包括 GPU 或其他训练加速器、网络以及本地或网络存储)都提出了要求。这种精密性和复杂性增加了训练时间并提高了成本。
新的 DL1 实例
我想向大家介绍一下我们全新的 DL1 实例。dl1.24xlarge 实例由 Habana Labs 的 Gaudi 加速器提供支持,具有以下规格:
Gaudi 加速器 – 每个实例均配备八个 Gaudi 加速器,总共 256 GB 的高带宽 (HBM2) 加速器内存以及加速器之间的高速、RDMA 驱动的通信。
系统内存 – 768 GB 的系统内存,足以在内存中容纳非常大的训练数据集(我们的客户经常有此要求)。
本地存储 – 4 TB 的本地 NVMe 存储,配置为四个 1 TB 卷。
处理器 – 配备 96 个 vCPU 的 Intel Cascade Lake 处理器。
网络 – 400 Gbps 的网络吞吐量。
正如您看到的,我们在几乎每个方面都达到了最大规格,目的是为您提供一个功能强大的机器学习培训平台,其入门成本低,性价比较当前基于 GPU 的 EC2 实例高出 40%。
Gaudi 内部
Gaudi 加速器是为机器学习训练量身定制设计的,具有大量酷炫有趣的功能和属性:
数据类型 – 支持浮点型(BF16 和 FP32)、有符号整数(INT8、INT16 和 INT32)和无符号整数(UINT8、UINT16 和 UINT32)数据。
通用矩阵乘法引擎 (GEMM) – 加速矩阵乘法的专用硬件。
张量处理核心 (TPC) – 专为机器学习训练而设计的 VLIW SIMD(超长指令字/单指令多数据)处理单元。TPC 可通过 C 语言编程,尽管大多数用户将使用更高级别的工具和框架。
DL1 实例入门
用于训练的 Gaudi SynapseAI 软件套件将帮助您构建新模型,并从 PyTorch 和 TensorFlow 等热门框架中迁移现有模型:
以下是一些可帮助您入门的资源:
TensorFlow 用户指南 – 了解如何在 Gaudi 上运行 TensorFlow 模型。
PyTorch 用户指南 – 了解如何在 Gaudi 上运行 PyTorch 模型。
Gaudi 模型迁移指南 – 了解如何将 PyTorch 或 TensorFlow 转移到 Gaudi。
HabanaAI Repo – 这个大型的活跃库包含设置说明、参考模型、学术论文等。
您可以使用 TPC 编程工具编写、模拟和调试直接在 TPC 上运行的代码,还可以使用 Habana 通信库 (HCL) 构建利用多个加速器的强大功能的应用程序。Habana 集体通信库 (HCCL) 基于 HCL 运行,允许您访问用于 Reduce、Broadcast、Gather 和 Scatter 操作的集合基元。
现已推出
DL1 实例现已在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域以按需和 Spot 形式提供。您也可以购买预留实例和 Savings Plans。
– Jeff;
相关文章
- 微软 Windows 11 Clipchamp 视频编辑器“高级滤镜”面向 Microsoft 365 用户免费解锁
- 测试显示微软 Windows 10 比 Windows 11 更节能,笔记本电脑续航更长
- 去除微软TPM等硬件限制!教你制作Windows 11安装U盘
- 微软反向升级:Windows 11续航表现实测不如Windows 10
- 微软 Windows 11 22H2 (KB5017321) 更新失败并显示下载错误 0x800F0806,修复方法来了
- 微软 Windows 11 2022 更新错误 Bug 盘点:FPS 帧率下降、蓝屏死机、安装卡住...
- 微软 Windows 11 2022 版本推送,部分用户无法检查到更新或安装(附修复方法)
- 如何使用 KubeSeal 高效加密和管理 Kubernetes 集群的 Secret
- 使用 Podman Desktop 在 Fedora Linux 上管理容器
- 淘系用户平台技术团队单元测试建设
- Props自定义属性—学习笔记
- 微软高管称将每年更新 Windows 11,尚不清楚 Windows 12 计划
- 快升级!微软发布Windows 11今年最大更新22H2:ISO免费下载
- 微软正式发布 Windows 11首个大版本更新,22H2 现已全面推送(附 ISO 镜像官方下载)
- 微软详细说明组策略在 Windows 11/10 中禁用 IE11 浏览器
- 啃论文俱乐部—移植Speexdsp到OpenHarmony标准系统(六)
- 微软发布 Windows 10 19044.2075 版本:带来多个新功能,修复巨量 Bug
- 如何优雅的将私有镜像仓库 Harbor 接入 Containerd 管理
- 啃论文俱乐部——移植Speexdsp到OpenHarmony标准系统(五)
- 玩转内核链表Llist_Head,教你管理不同类型节点的实现