zl程序教程

您现在的位置是:首页 >  其他

当前栏目

第2课:通过案例对SparkStreaming 透彻理解三板斧之二:解密SparkStreaming运行机制和架构

案例架构解密 理解 通过 之二 运行机制 透彻
2023-09-27 14:26:47 时间

第2课:通过案例对SparkStreaming 透彻理解三板斧之二:解密SparkStreaming运行机制和架构

解密Spark Streaming运行机制

解密Spark Streaming架构

 

我们谈到技术界的寻龙点穴,每个领域都有自己的龙脉,Spark就是大数据的龙脉之所在,它的龙穴或者关键点就是Spark Streaming。上一节课我们采用了降维的方式,所谓降维就是把时间放大,将时间放长的方式,通过案例实战观察具体的时间段内RDD的执行工作。

这节课在上节课的基础上谈一下Spark Streaming具体的架构和运行机制。

Spark Streaming在运行的时候与其说是sparkcore之上的一个流式处理框架,不如说是更像Spark core之上的一个应用程序,上一节课演示的时候发现,Spark Streaming启动了很多Job,这些job包含两个层面,第一个:围绕每个Batch或者每个Windows具体的job,也有围绕框架运行而启动的job。例如,receive启动的时候就启动了一个job,receive启动的job是为其他job服务的,由此我们得出一个结论:Spark复杂的应用程序,多个job之间将互相配合。Spark Streaming运行的时候,感受是Spark一个复杂的应用程序。

         我们看一下Spark的官网:在2010年做spark的时候,只有sparkcore,没有spark core之上的子框架,子框架是后来开发出来的。从spark子框架的使用洞察出spark core。spark sql里面有太多的语法,跟spark本身没多大关系。机器学习有太多的数学算法,图计算也有很多算法,在过去几年中没有什么发展ÿ