线上分享 | 训练大模型不堆GPU,这个炼丹神器点满了技能
近年来,炼大模型已经成为了 NLP、深度学习等诸多 AI 领域的发展趋势。各大科技企业铆足了劲,通过增加参数量的方法来提升模型表现,并由此取得显著的成果。
但随着模型复杂度与数据集规模的扩大,计算效率成为不可忽视的问题。深度学习模型的参数量已经成百上千倍地提升,但 GPU 显存大小增长甚微。这就导致大模型的训练往往依赖堆叠大量 GPU 的方式。对于资金缺乏的普通研究者来说,这种做法显然不现实。
那么如何利用有限的计算资源来训练大模型呢?利用技术手段,提升单个 GPU 显存的利用效率,减少 GPU 使用数量,是一味地堆 GPU 这种做法的不错替代方案。
旷视天元(MegEngine)深度学习框架在其 1.4 版本中引入了动态图显存优化(DTR)技术,通过进一步的工程优化,利用额外计算减少显存占用,从而实现了小显存训练大模型的目的。旷视天元工程师测试发现,开启 DTR 优化,在 2080Ti 上,ResNet50、ShuffleNet 等网络的最大 batch size 可以达到原来的 3 倍以上。
9月15日19:00-20:00,机器之心最新一期线上分享邀请到了旷视研究院算法研究员肖少然和旷视 MegEngine 架构师陈振寰,为大家详细解读 DTR 技术加持下的 MegEngine 如何在大模型训练领域大展身手。
分享主题:使用 DTR 和混合精度技术训练更大的模型
分享摘要:随着深度学习的不断发展,大模型逐渐成为提升算法性能的绝佳方法。由于硬件性能的持续提升和多机训练技术的不断成熟,模型尺寸亦迅速增大,但是训练庞大的模型背后需要海量计算资源的支撑。如何在有限的算力资源下训练出大模型呢?本次分享将介绍 MegEngine 原生支持的 DTR 技术以及对 DTR 的多项优化,看看这些优化对训练更大的模型能带来哪些有益的帮助。此外,我们还将介绍 MegEngine 对混合精度训练的支持,凭借 NVIDIA TensorCore 对 FP16 的优化,在降低显存的同时提升计算速度。而通过结合使用 DTR + 混合精度,我们还可以让训练的模型大小得到更显著的增加。最后,我们还会谈谈在不远的将来,MegEngine 能为大模型的训练带来哪些更强有力的黑魔法。
项目地址:https://github.com/MegEngine
嘉宾介绍:
- 肖少然,旷视研究院算法研究员,负责超大模型的多机模型训练,相关的算法研究和工程优化,以及 MegEngine 的部分开发工作。
- 陈振寰,旷视 MegEngine 架构师,主要负责量化训练以及混合精度训练的接口设计与开发。
直播间:关注机器之心视频号,北京时间9月15日19:00-20:00开播。
交流群:本次直播设有QA环节,欢迎加入本次直播交流群探讨交流。
机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。
点击阅读原文,访问机动组官网,查看往期精彩回顾。
相关文章
- 获得Bert预训练好的中文词向量
- ECCV 2022 | CMU提出首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%
- 蓝桥杯 算法训练 3000米排名预测---------C语言—菜鸟级
- 只需训练一次,即可生成3D新场景!谷歌「光场神经渲染」进化史
- 差点被ECCV错过的论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
- 【vue】牛客专题训练03
- 大规模、高性能,清华、聆心智能推出中文开放域对话预训练开源模型OPD
- [MICCAI 2022 | 论文简读] ASA:用于预训练脑核磁分割的注意力对称自动编码器开源
- 在 Google Colab 上试验 NVIDIA TAO 工具包和预训练模型
- 第十四届蓝桥杯集训——练习解题阶段(无序阶段)-ALGO-1 算法训练 区间k大数查询
- AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
- 开挖扩散模型小动作,生成图像几乎原版复制训练数据,隐私要暴露了
- 预训练无需注意力,扩展到4096个token不成问题,与BERT相当
- 从「大炼模型」到「炼大模型」:1.75万亿参数,全球最大预训练模型「悟道 2.0」问世