您现在的位置是：首页 > 其他

当前栏目

阿里发布万亿参数AI大模型M6，相比英伟达、谷歌算力消耗降八成

AI 阿里

2023-04-18 14:04:32 时间

6月25日，阿里巴巴达摩院发布“低碳版”巨模型M6，在全球范围内首次大幅降低万亿参数超大模型训练能耗。通过一系列突破性的技术创新，达摩院团队仅使用480卡GPU，即训练出了规模达人类神经元10倍的万亿参数多模态大模型M6，与英伟达、谷歌等海外公司实现万亿参数规模相比，能耗降低超八成、效率提升近11倍。

大模型将成下一代人工智能基础设施，在AI界已成共识。与生物体神经元越多往往越聪明类似，参数规模越大的AI模型，往往拥有更高的智慧上限，训练大模型或将让人类在探索通用人工智能上更进一步。然而，大模型算力成本也相当高昂，很大程度阻碍了学界、工业界对大模型潜力的深入研究。

针对这一难题，达摩院及阿里云等团队改进了MOE（Mixture-of-Experts）框架，创造性地通过专家并行策略，大大扩增了单个模型的承载容量。同时，通过加速线性代数、混合精度训练、半精度通信等优化技术，达摩院团队大幅提升了万亿模型训练速度，且在效果接近无损的前提下有效降低了所需计算资源。

相比此前英伟达使用3072 A100 GPU实现万亿参数、谷歌使用2048 TPU实现1.6万亿参数大模型，此次达摩院仅使用480卡V100 32G GPU就实现了万亿模型M6，节省算力资源超80%，且训练效率提升近11倍。

同时，达摩院此次发布的M6巨模型，成为国内首个实现商业化落地的多模态大模型。M6拥有超越传统AI的认知和创造能力，擅长绘画、写作、问答，在电商、制造业、文学艺术等诸多领域拥有广泛应用前景。

据了解，经过一段时间的试用，M6将作为AI助理设计师正式上岗阿里新制造平台犀牛智造，通过结合潮流趋势进行快速设计、试穿效果模拟，有望大幅缩短快时尚新款服饰设计周期。M6还已应用于支付宝、淘宝等平台，参与跨模态搜索、文案撰写、图片设计等工作。

达摩院资深算法专家杨红霞表示，“接下来，M6团队将继续把低碳AI做到极致，推进应用进一步落地，并探索对通用大模型的理论研究。”

今年以来，阿里在超大规模预训练模型领域屡出成果。除发布多模态巨模型M6外，阿里巴巴达摩院近期还发布了中文社区领先的语言大模型PLUG，实现了在AI大模型底层技术及应用上的深入布局。

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

阿里发布万亿参数AI大模型M6，相比英伟达、谷歌算力消耗降八成

相关文章