您现在的位置是：首页 > 云平台

当前栏目

Spark Streaming 误用.transform(func)函数导致的问题解析

Spark 函数解析导致 Streaming transform func 问题

2023-09-14 09:00:24 时间

Spark/Spark Streaming transform 是一个很强的方法，不过使用过程中可能也有一些值得注意的问题。在分析的问题，我们还会顺带讨论下Spark Streaming 生成job的逻辑，从而让大家知道问题的根源。
今天有朋友贴了一段 gist,大家可以先看看这段代码有什么问题。特定情况你会发现UI 的Storage标签上有很多新的Cache RDD，然后你以为是Cache RDD 不被释放，但是通过Spark Streaming 数据清理机制分析我们可以排除这个问题。接着通过给RDD的设置名字,名字带上时间，发现是延时的Batch 也会产生cache RDD。那这是怎么回事呢？另外还有一个问题，也是相同的原因造成的：我通过KafkaInputStream.transform 方法获取Kafka偏移量，并且保存到HDFS上。然后发现一旦产生job(包括并没有执行的Job),都会生成了Offset,这样如果出现宕机，你看到的最新Offset 其实就是延时的，而不是出现故障时的Offset了。这样做恢复就变得困难了。其实是这样，在transform里你可以做很多复杂的工作，但是transform接受到的函数比较特殊，是会在TransformedDStream.compute方法中执行的，你需要确保里面的动作都是transformation(延时的)，而不能是Action(譬如第一个例子里的count动作)，或者不能有立即执行的(比如我提到的例子里的自己通过HDFS API 将Kafka偏移量保存到HDFS)。

override def compute(validTime: Time): Option[RDD[U]] = {

 val parentRDDs = parents.map { parent = 

 ....

 //看这一句，你的函数在调用compute方法时，就会被调用

 val transformedRDD = transformFunc(parentRDDs, validTime)

 if (transformedRDD == null) {

 throw new SparkException.....

 Some(transformedRDD)

 }

这里有两个疑问：
Spark Streaming generateJob 逻辑解析在JobGenerator中，会定时产生一个GenerateJobs的事件:

private val timer = new RecurringTimer(clock, ssc.graph.batchDuration.milliseconds, longTime = eventLoop.post(GenerateJobs(new Time(longTime))), "JobGenerator")

该事件会被DStreamGraph.generateJobs 处理，产生Job的逻辑也很简单，

def generateJobs(time: Time): Seq[Job] = { 

 val jobs = this.synchronized {

 outputStreams.flatMap { outputStream = 

 val jobOption = outputStream.generateJob(time)

 ........ 

 }

就是调用各个outputStream 的generateJob方法，典型的outputStream如ForEachDStream。以ForEachDStream为例，产生job的方式如下：

override def generateJob(time: Time): Option[Job] = {

 parent.getOrCompute(time) match {

 case Some(rdd) = 

 val jobFunc = () = createRDDWithLocalProperties(time, displayInnerRDDOps) {

 foreachFunc(rdd, time)

 Some(new Job(time, jobFunc))

 case None = None

 }

我们看到，在这里会触发所有的DStream链进行compute动作。也就意味着所有transformation产生的DStream的compute方法都会被调用。正常情况下不会有什么问题，比如.map(func) 产生的MappedDStream里面在compute执行时，func 都是被记住而不是被执行。但是TransformedDStream 是比较特殊的，对应的func是会被执行的，在对应的compute方法里，你会看到这行代码：

val transformedRDD = transformFunc(parentRDDs, validTime)

这里的transformFunc 就是transform(func)里的func了。然而transform 又特别灵活，可以执行各种RDD操作，这个时候Spark Streaming 是拦不住你的，一旦你使用了count之类的Action,产生Job的时候就会被立刻执行，而不是等到Job被提交才执行。

猜你喜欢

为了做个动画 SVG，我手工写的分镜头
深入学习 Redis 基础教程（redis基础教程）
ORA-15601: Invalid value specified for parameter “string” ORACLE 报错故障修复远程处理
MySQL数据库：让表分区更简单（mysql数据库表分区）
精通Linux：深入探讨循环语句的实现方法（linux中的循环）
一文带你深入理解Java多线程与高并发：Atomic类和线程同步新机制
Linux 系统下提取 ShellCode
手动安装MSSQL服务器：步骤指南（手动安装 mssql）
03·灵魂前端工程师养成-git本地仓库
JSP Request.getParameter()方法：获得客户端传送给服务器端的参数值
MySQL Error number: MY-013948; Symbol: ER_KEYRING_OCI_INVALID_JSON; SQLSTATE: HY000 报错故障修复远程处理
脚本编写Linux下的Shell脚本：提升工作效率（linux编写shell）
嵌入式HLS 案例开发步骤分享——基于Zynq-7010/20工业开发板（3）
Linux下查看系统版本的命令行技巧（linux查看版本命令）
电脑风扇控制工具Macs Fan Control Pro中文版
LifeBEAM：全球首款“智能”自行车头盔，正式上线
SQL 查询条件放到 JOIN 子句与 WHERE 子句的差别
利用Redis让推荐系统拥有实时性（推荐系统实时性redis）
前端工程化之概念介绍
解决MySQL故障，秉承正确原则！（mysql故障处理）
根据出生日期自动取得星座的js代码
优化技巧（mysql多cpu）

相关主题

Spark 数据倾斜
Spark基础
Spark机器学习
Apache Spark
spark笔记
Spark 网络
Spark Join
13、spark-submit
hive on spark的坑
《Spark 官方文档》
7. Spark SQL
Spark 调优
spark-sql
Spark编程模型
Spark的编译
Spark RDD 操作
Spark与Java
spark source

zl程序教程

当前栏目

Spark Streaming 误用.transform(func)函数导致的问题解析

相关文章