zl程序教程

您现在的位置是:首页 >  后端

当前栏目

【推荐系统算法实战】 Spark :大数据处理框架

算法系统框架Spark 实战 推荐 数据处理
2023-09-14 09:07:24 时间
1233356-5567e5d0a00e593f.png

Spark 简介

http://spark.apache.org/
https://github.com/to-be-architect/spark

HadoopStorm等其他大数据和MapReduce技术相比,Spark有如下优势:

  • Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求.

  • 官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍

架构及生态

通常当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存ÿ