《Spark Cookbook 中文版》一1.1 简介
本节书摘来异步社区《Spark Cookbook 中文版》一书中的第1章,第1.1节,作者: 【印度】Rishi Yadav(亚达夫)译者: 顾星竹 , 刘见康 责编: 胡俊英,更多章节内容可以访问云栖社区“异步社区”公众号查看。
1.1 简介Apache Spark是一个用于处理大数据工作流的多功能集群计算系统。Spark在速度、易用性以及分析能力上都强于它的前辈们(如MapReduce)。
Apache Spark最初在2009年,由加州大学伯克利分校的AMPLab实验室研发,在2010年按照BSD协议实现开源,并在2013年转为Apache 2.0协议。到2013年下半年,Spark的创始人建立了Databricks,专注于Spark的研发和未来的公开发行。
谈到速度,Spark大数据工作流的处理可以达到亚秒级别的延迟。为了达到如此低的延迟,Spark充分利用了内存。在MapReduce中,内存仅仅用于实际计算,而Spark不仅使用内存进行计算,而且还用于存储对象。
Spark也提供一个连接各种大数据存储源的统一运行时接口,例如HDFS、Cassandra、Hbase和S3。它同时也提供大量的用于不同的大数据计算任务的顶层库,例如机器学习、SQL处理、图像处理以及实时数据流。这些库加快了开发速度,可以任意组合。
虽然Spark是用Scala所写,本书也只关注Scala部分的教程,但是Spark也支持Java和Python语言。
Spark是一个开源社区产品,每个人都是用Apache纯开源分布部署,不像Hadoop,有大量开发商改进的分布部署。
图1-1展示了Spark的生态圈。
Spark运行时运行在一系列集群管理器的基础之上,包括YARN(Hadoop的计算框架)、Mesos以及Spark自己的被称为独立模式的集群管理器。Tachyon是一个内存层的分布式文件系统,使得集群架构之间的文件共享速度能够可靠到达内存级别。(译注:Tachyon现已更名为alluxio,官网地址:www.alluxio.org。本书的其他部分仍会按照原文写作Tachyon,后续不再赘述。)简而言之,它是内存上的一个堆外存储层,用于在任务和用户之间分享数据。Mesos 是一个涉及数据中心处理系统的集群管理器。YARN是一个有着健壮的资源管理特性的Hadoop计算框架,Spark可以与它无缝连接使用。
《Spark Cookbook 中文版》一导读 随着Hadoop这个大数据平台的成功,用户的期望也水涨船高,他们既希望解决不同分析问题的功能提高,又希望减少延迟。由此,各类工具应运而生。Apache Spark这个可以解决所有问题的单一平台也出现在了Hadoop的大舞台上。
异步社区 异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
相关文章
- 【Spark】RDD操作具体解释4——Action算子
- Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.1
- 《循序渐进学Spark》一2.3 Spark算子
- Spark性能优化--如何解决数据倾斜
- spark执行优化--禁止将依赖的Jar包传到HDFS(spark.yarn.jar和spark.yarn.archive的使用)
- 【Spark】ScalaIDE运行spark,A master URL must be set in your configuration
- 《Spark Cookbook 中文版》一第1章 开始使用Apache Spark
- Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装
- [Spark]如何设置使得spark程序不输出 INFO级别的内容
- [Spark][Python][RDD][DataFrame]从 RDD 构造 DataFrame 例子
- [Spark][python]从 web log 中提取出 UserID 作为key 值,形成新的 RDD
- Spark技术内幕:Client,Master和Worker 通信源代码解析
- 量化派基于Hadoop、Spark、Storm的大数据风控架构--转
- 2分钟读懂Hadoop和Spark的异同