zl程序教程

您现在的位置是:首页 >  工具

当前栏目

Apache Spark机器学习.1.2 在机器学习中应用Spark计算

2023-09-11 14:16:05 时间


基于RDD和内存处理的创新功能,Apache Spark真正使得分布式计算对于数据科学家和机器学习专业人员来说简便易用。Apache Spark团队表示:Apache Spark基于Mesos 集群管理器运行,使其可以与Hadoop以及其他应用共享资源。因此,Apache Spark可以从任何Hadoop输入源(如HDFS)中读取数据。

 

Apache Spark计算模型非常适合机器学习中的分布式计算。特别是在快速交互式机器学习、并行计算和大型复杂模型情境下,Apache Spark无疑可以发挥其卓越效能。

Spark开发团队表示,Spark的哲学是使数据科学家和机器学习专业人员的生活更加轻松和高效。因此,Apache Spark拥有以下特点:

拥有详细说明文档,表达清晰的API

强大的专业领域库

易于与存储系统集成

通过缓存来避免数据移动

根据Databricks联合创始人Patrick Wendell的介绍, Spark特别适用于大规模数据处理。Apache Spark支持敏捷数据科学进行快速迭代计算,并且Spark很容易与IBM和其他综合解决方案集成。


《Apache Spark 中文实战攻略下册》电子版地址 《Apache Spark 中文实战攻略(下册)》让企业大数据平台性能更优。阿里、Databricks、领英、Intel都在用!Spark 企业级最佳实践中文解读全收纳!
《Apache Spark 中文实战攻略上册》电子版地址 《Apache Spark 中文实战攻略(上册)》全新收录了Spark+AI Summit 2020 中文精华版峰会,Apache Spark 3.0性能优化与基础实战一书看遍!
实时大数据计算引擎Apache Flink计算研究(二) 接上文,近期团队在研究大数据平台产品,在业务场景设计时,经常会遇到实时数据加工的需求,因此开始探索实时大数据计算引擎。同时,我认为Flink也是未来流批一体的趋势。本文将技术预研过程中的要点整理分享出来,供大家参考使用,内容较多,分2个文章发布。