您现在的位置是：首页 > 其他

当前栏目

《Spark大数据分析：核心概念、技术及实践》一3.6　惰性操作

概念技术 Spark 数据分析操作实践核心 3.6

2023-09-11 14:16:10 时间

本节书摘来自华章出版社《Spark大数据分析：核心概念、技术及实践》一书中的第3章，第3.6节，作者[美] 穆罕默德·古勒（Mohammed Guller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.6 惰性操作

RDD的创建和转换方法都是惰性操作。当应用调用一个返回RDD的方法的时候，Spark并不会立即执行运算。比如，当你使用SparkContext的textFile方法从HDFS中读取文件时，Spark并不会马上从硬盘中读取文件。类似地，RDD转换操作（它会返回新RDD）也是惰性的。Spark会记录作用于RDD上的转换操作。

让我们考虑如下示例代码。

962b5da8520adfa8173f5b3fae2b8345687f22f1

上面三行代码看起来很快就会执行完，哪怕textFile方法读取的是一个包含了10TB数据的文件。这其中的原因是当你调用textFile方法时，它并没有真正读取文件。类似地，filter方法也没有立即遍历原RDD中的每一个元素。

Spark仅仅记录了这个RDD是怎么创建的，在它上面做转换操作会创建怎样的子RDD等信息。Spark为每一个RDD维护其各自的血统信息。在需要的时候，Spark利用这些信息创建RDD或重建RDD。

如果RDD的创建和转换都是惰性操作，那么Spark什么时候才真正读取数据和做转换操作的计算呢？下面将会解答这个问题。

触发计算的操作

当Spark应用调用操作方法或者保存RDD至存储系统的时候，RDD的转换计算才真正执行。保存RDD至存储系统也被视为一种操作，尽管它并没有向驱动程序返回值。

当Spark应用调用RDD的操作方法或者保存RDD的时候，它触发了Spark中的连锁反应。当调用操作方法的时候，Spark会尝试创建作为调用者的RDD。如果这个RDD是从文件中创建的，那么Spark会在worker节点上读取文件至内存中。如果这个RDD是通过其他RDD的转换得到的子RDD，Spark会尝试创建其父RDD。这个过程会一直持续下去，直到Spark找到根RDD。然后Spark就会真正执行这些生成RDD所必需的转换计算，从而生成作为调用者的RDD。最后，执行操作方法所需的计算，将生成的结果返回给驱动程序。

惰性转换使得Spark可以高效地执行RDD计算。直到Spark应用需要操作结果时才进行计算，Spark可以利用这一点优化RDD的操作。这使得操作流水线化，而且还避免了在网络间不必要的数据传输。

《Spark与Hadoop大数据分析》——3.2 学习Spark的核心概念本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第3章，第3.2节，作者 [美]文卡特·安卡姆（Venkat Ankam），译吴今朝，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

猜你喜欢

MVC3学习：基于ObjectContext的数据增删改查操作
git：手把手建立远程Git仓库并完成面目初始提交
脏值检测
[转]PHP base64_encode 在URL地址参数编码上使用
---------------------------谨以此文献给我的2011-----------------------------------
Visual Studio 2010 各种各样的错误的预解决方案 devenv /resetskippkgs
如何在Debian 10上安装Docker？
【使用unittest框架】为项目添加测试报告：htmltestrunner_py3
通过FPGA计算矩阵的伪逆pinv
【Python】有C#基础怎么学习Python
Kafka实战－Flume到Kafka （转）
Java -- 异常的捕获及处理 -- Exception类与RuntimeException类
Android 滑动效果进阶篇（五）—— 3D旋转

相关主题

Java中的锁概念
k8s概念
数据库概念
Linux线程概念
git 概念
JS概念
二叉树概念
物联网的概念
图的概念
云计算概念与技术
redis概念
引擎的概念
4-7 路由概念
01-工作流概念
数学概念 z
C#基础概念
图相关的概念
Linux相关概念

zl程序教程

当前栏目

《Spark大数据分析：核心概念、技术及实践》一3.6　惰性操作

相关文章

当前栏目

《Spark大数据分析：核心概念、技术及实践》一3.6 惰性操作

相关文章

《Spark大数据分析：核心概念、技术及实践》一3.6　惰性操作