您现在的位置是：首页 > 数据库

当前栏目

Flink为什么比Spark快？大数据流处理的框架比较

计算数据 Spark

2023-03-07 09:51:48 时间

大数据处理的新趋势，流处理和批处理是非常重要的两个概念，而基于流处理和批处理的大数据处理框架，Flink和Spark，也是常常被大家拿来做比较的对象。而在实时流数据处理上，Flink性能似乎更加强劲，那么Flink为什么比Spark快呢，今天我们就来聊聊这个话题。

Spark和Flink都是针对于实时数据处理的框架，并且两者也都在实际的工作当中表现出色，但是如果要深究两者在大数据处理的区别，我们需要从Spark和Flink的引擎技术开始讲起。

Spark和Flink计算引擎，在处理大规模数据上，数据模型和处理模型有很大的差别。

Spark的数据模型是弹性分布式数据集RDD(Resilient Distributed Datasets)。RDD可以实现为分布式共享内存或者完全虚拟化(即有的中间结果RDD当下游处理完全在本地时可以直接优化省略掉)。这样可以省掉很多不必要的I/O，是早期Spark性能优势的主要原因。

Spark用RDD上的变换(算子)来描述数据处理。每个算子(如map，filter，join)生成一个新的RDD。所有的算子组成一个有向无环图(DAG)。这就是Spark进行数据处理的核心机制。

而Flink的基本数据模型，则是数据流，及事件(Event)的序列。数据流作为数据的基本模型，这个流可以是无边界的无限流，即一般意义上的流处理。也可以是有边界的有限流，这样就是批处理。

Flink用数据流上的变换(算子)来描述数据处理。每个算子生成一个新的数据流。在算子，DAG，和上下游算子链接(chaining)这些方面，和Spark的基本思路是一样的。

但是在在DAG的执行上，Spark和Flink有明显的不同。

在Flink的流执行模式中，一个事件在一个节点处理完后的输出就可以发到下一个节点立即处理。这样执行引擎并不会引入额外的延迟。而Spark的micro batch和一般的batch执行一样，处理完上游的stage得到输出之后才开始下游的stage。

这也就是Flink为什么比Spark快的原因之一。并且Flink在数据流计算执行时，还可以把多个事件一起进行传输和计算，进一步实现数据计算的低延迟。所以Flink之所以快，其实也可以理解为比Spark的延迟性更低。

猜你喜欢

鲜为人知但很有用的 HTML 属性
在 Go 里用 CGO？这 7 个问题你要关注！
数据孤岛是业务效率的无声杀手
9款优秀的去中心化通讯软件 Matrix 的客户端
翻转再翻转！有意思的水平横向溢出滚动
发现 Linux SpaceFM 文件管理器的威力
图像处理工具Python扩展库，你了解吗？
求职数据分析，项目经验该怎么写
自定义计数器小技巧！CSS 实现长按点赞累加动画
在OKR中，我看到了数据驱动业务的未来
2023展望：新的一年将给大数据分析领域带来什么？
过五关！React高频面试题指南
阿里云ADB基于Hudi构建Lakehouse的实践
火山引擎云原生大数据在金融行业的实践
OpenHarmony富设备移植指南（二）—从postmarketOS获取移植资源
《数据成熟度指数》报告：64%的企业领袖认为大多数员工“不懂数据”
OpenHarmony 小型系统兼容性测试指南
肯睿中国（Cloudera）：2023年企业数字战略三大趋势预测
适用于 Linux 的十大命令行游戏
软件开发中的十个认知偏差

zl程序教程

当前栏目

Flink为什么比Spark快？大数据流处理的框架比较

相关文章