浪潮发布GPU 深度学习一体机,大幅提升性能及生产力
美国当地时间11月16日,在盐湖城举行的全球超算大会SC16上,浪潮发布了深度学习一体机D1000,该产品部署了采用NVIDIA® Tesla™ GPU技术的浪潮高性能计算集群,运行多节点并行深度学习框架Caffe-MPI,可大幅提升在人脸识别、图片分类、物体识别等应用场景的深度学习计算性能,并有效提高用户在实际业务使用深度学习的生产力。
强强联手产硕果
D1000产品整合了浪潮深度学习领域的最新技术成果,包括浪潮推动开发的并行版开源深度学习框架Caffe-MPI,英伟达专为深度学习定制的Tesla GPU及CuDNN库。浪潮展示了6节点的D1000产品方案,该方案的节点是浪潮专为深度学习开发的专用GPU服务器,每个节点配置2颗处理器及4块NVIDIA® Tesla™ M40 GPU。
浪潮集团海外总部副总经理Jay Zhang现场讲解
浪潮集团海外总部副总经理Jay Zhang表示,D1000在性能、扩展性等方面都大幅领先于以往的深度学习方案,可以满足大部分客户的应用需求。浪潮一直在加强深度学习前沿技术开发并致力于构建良好的生态系统,并联合NVIDIA等业界领先技术伙伴,将最新的技术整合为产品方案,转化为用户的实际应用价值。
Nvidia解决方案和工程架构副总裁 Marc Hamilton演讲
高性能深度学习框架Caffe-MPI
Caffe-MPI是浪潮团队推动开发并开源发布的集群版Caffe,这使得Caffe这一业界最重要的深度学习框架实现了高效多节点并行。Caffe-MPI不仅在单机多GPU方案中表现出高效的训练性能,而且支持分布式集群扩展。浪潮展示了6节点D1000产品方案在配置24块Tesla M40 GPU,并部署Caffe-MPI,训练GoogLeNet(Inception V1)网络,每秒可以处理2000张图片,在短短18小时内将GoogLeNet网络的精确度提高至78%。随着训练时间的增加,Caffe-MPI的正确率将进一步提升。此外,Caffe-MPI具有较高的可扩展性,其节点的扩展效率达到72%,并且Caffe-MPI完全保留了原始Caffe架构的特性,纯粹的C++/CUDA架构,支持命令行、Python和MATLAB接口等多种编程方式,上手快,十分易用。
D1000发布现场
让用户专注于业务应用
深度学习正在重新定义什么叫可能性,从初创时期的公司到大型互联网运营商,都在努力把深度学习融入实际业务中来拓展商业边界。Jay Zhang表示,浪潮为客户提供的是开箱即用的深度学习解决方案以及全程贴心服务,把用户从平台部署配置优化等繁琐工作中解放出来。
SC16现场吸睛的浪潮产品与方案
据了解,D1000统一整合了经过优化设计的浪潮高性能计算集群硬件、Caffe-MPI并行计算框架和依赖库、经过充分测试验证的OS和CUDA环境及集群管理调度平台 ClusterEngine,产品实现在产线进行软硬件一体化安装、配置,用户打开D1000即可使用Caffe-MPI进行深度学习业务应用。
原文发布时间为: 2016年11月17日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
为深度学习选择最好的GPU 在进行机器学习项目时,特别是在处理深度学习和神经网络时,最好使用GPU而不是CPU来处理,因为在神经网络方面,即使是一个非常基本的GPU也会胜过CPU。
一文掌握Windows平台GPU深度学习开发环境部署 本文包含显卡驱动、cuda、cuDNN深度学习加速包、anaconda、tensorflow的安装以及安装源的配置,理解了本文,还可以安装pytorch等其他开发框架。
GPU 「抗压」不行还费电,FPGA将成深度学习「新基建」! 1.GPU 矩阵运算很强,但「抗压」不行还费电 2.FPGA加持的深度学习, 推理速度和吞吐量远超GPU 3.ASIC不够灵活,FPGA 更有可能成为深度学习的「底层建筑」
相关文章
- Akka.net 性能测试兼使用小技巧
- 测试进阶 | 如何系统化学习性能测试?
- Linux服务器性能监控利器-Nmon实战
- MNN 是一个高效、轻量的深度学习框架,端侧的推理与训练性能在业界处于领先地位
- MySQL进阶篇(01):基于多个维度,分析服务器性能
- 为什么虚拟 dom 会提高性能?
- 【认知femto】femtocell的认知无线电频谱感知算法性能仿真
- linux【网络】怎么评估系统的网络性能?
- 都2022年了 你还不了解什么是性能测试?
- Xmemcached的FAQ和性能调整建议
- 《循序渐进Linux(第2版) 基础知识 服务器搭建 系统管理 性能调优 虚拟化与集群应用》——1.4 用虚拟机技术学习Linux
- 《Web性能实践日志》一1.4 获取代码
- OSSpinLockLock加锁机制,保证线程安全并且性能高
- 强化学习中性能的评价指标到底应该如何选择:1.平均得分,2.平均Q值
- 浅析如何更好的进行性能优化:构建策略、图像策略、分发策略、缓存策略、CSS策略、DOM策略、阻塞策略、回流策略、异步更新策略
- 【转】Redis学习---阿里云Redis多线程性能增强版详解
- 性能测试分享—JMeter篇
- DRDS性能评估之Jmeter使用
- Loadrunner测试数据库、SQL语句性能
- python数据结构_(字典)大O性能_学习笔记(3)
- python数据结构_(列表)大O性能_学习笔记(2)