Spark将机器学习与GPU加速机制纳入自身
【51CTO.com快译】
Databricks公司通过简化对GPU加速型机器学习方案的访问支持自家云Spark服务。
作为Apache Spark内存内大数据项目的支持与开发合作厂商,Databricks公司已经对其自家Apache Spark云实现方案进行两轮支持升级,旨在让更多IT用户享受其便利。
此次推出的新功能——即GPU加速与多套深度学习库集成——在理论上能够实现Apache Spark在任意位置的安装工作。不过Databricks方面表示,其版本目前仍处于调整阶段,这是为了避免资源争用情况给功能的实际使用带来复杂性影响。
Apache Spark本身并不具备开箱即用的GPU加速功能,且需要设置一套系统对此加以支持,这意味着用户需要面对多种复杂组件。有鉴于此,Databrick公司决定承担起相关难题。
Databricks方面还宣称,其将降低节点间的资源争用数量,从而***程度保证Spark的运作能够充分发挥GPU集群的性能优势。这一思路与麻省理工学院的Milk库看起来非常类似,后者同样利用加速机制并发处理应用,旨在确保与内存相关的操作以批量方式进行,最终实现对系统缓存资源的***化利用。Databricks公司的设置能够保证各项GPU操作之间不会相互导致冲突乃至中断。
另一项能够显著节约时间的举措在于直接访问多种主流机器学习库,这意味着Spark将可作为数据源起效。其中包括Databricks自家的TensorFrames库,其允许将TensorFlow库与Spark相配合,同时实现GPU加速能力。
Databricks 公司已经在推文中表示,其基础设施能够充分利用Spark的自身优势。其建立起免费级服务,用以吸引那些仍对深度使用Spark抱有警惕心理的客户,包括为其提供完整产品中的部分功能。根据InfoWorld网站此前发布的评测报告,Databricks的免费产品确实相当出色且易于上手。
不过市场竞争仍然相当激烈,特别是考虑到Databricks需要面对像微软(拥有Azure机器学习方案)、IBM以及Amazon这样的巨头级对手。因此,其必须找到保持并扩大服务受众规模的可行途径,并专注于打造自身独特的服务产品。除了添加机器学习与GPU加速等功能之外,Databricks还需要在发展计划中确保新特性能够切实带来便利——而非提升复杂程度。
原文标题:Spark picks up machine learning, GPU acceleration,原文作者:Serdar Yegulalp
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】
相关文章
- 发现 Linux SpaceFM 文件管理器的威力
- 夯实数据智能底座 共筑数字经济发展“新基石”
- 五分钟教你使用console.log发布公司的招聘信息
- 微软发布 Windows 11 Beta 预览版 Build 22621.1250 和 22623.1250 (KB5023008)
- Windows 11 学院:在 Windows 11 Build 25290 上如何为文件管理器启用标签页拖拽支持
- 微软Windows 11 Dev 预览版 Build 25290 发布:带来新的开始菜单提醒角标
- 微软正用全屏通知提醒 Windows 10 用户免费升级 Windows 11,要点击 5 次才能退出
- Linux Mint 21.2 将于 6 月发布:改进登录屏幕,优化 Pix 图像管理程序等等
- 字节面试也会问SPI机制?
- 微软正式停售 Windows 10 产品密钥 / 许可证:继续提供 ISO 镜像下载,推荐用户升级 Windows 11
- 用复古电脑程序 Toy CPU 学习低级编程
- Windows 11 新功能泄露:现代音量合成器、实验工具和新的文件管理器
- 微软 Windows 11 文件资源管理器全新设计曝光:UI 迎来大修,整合 Microsoft 365
- 对比Pandas,学习PySpark大数据处理
- 微软宣布为Windows 11 21H2设备开启自动更新到22H2版本
- 互联网都在说降本增效,小红书技术团队是怎么做的?
- 微软将继续提供 Windows 10 ISO 镜像下载,即将停售产品密钥 / 许可证
- 微软宣布为Windows 11 21H2 设备开启自动更新到 22H2 版本
- 面试突击:Properties和Yml有什么区别?
- 微软 Windows 11 Beta 预览版 22621.1245 和 22623.1245 (KB5022358) 发布