您现在的位置是：首页 > 大数据

当前栏目

大数据流式计算框架汇总和对比

计算框架汇总对比数据流

2023-06-13 09:12:01 时间

大数据计算引擎的发展经历了几个过程，从第 1 代的 MapReduce，到第 2 代基于有向无环图的 Tez，第 3 代基于内存计算的 Spark，再到第 4 代的 Flink。

Storm 是比较早的流式计算框架，后来又出现了 Spark Streaming 和 Trident，现在又出现了 Flink 这种优秀的实时计算框架，那么这几种计算框架到底有什么区别呢？下面我们来详细分析一下，如下表所示。

Storm 和 Flink 是真正的一条一条处理数据；而 Trident（Storm 的封装框架）和 Spark Streaming 其实都是小批处理，一次处理一批数据（小批量）。

Storm 和 Trident 都使用基础 API 进行开发，比如实现一个简单的 sum 求和操作；而 Spark Streaming 和 Flink 中都提供封装后的高阶函数，可以直接拿来使用，这样就比较方便了。

在数据处理方面，Storm 可以实现至少处理一次，但不能保证仅处理一次，这样就会导致数据重复处理问题，所以针对计数类的需求，可能会产生一些误差；Trident 通过事务可以保证对数据实现仅一次的处理，Spark Streaming 和 Flink 也是如此。

Storm 和 Trident 可以通过 ACK 机制实现数据的容错机制，而 Spark Streaming 和 Flink 可以通过 CheckPoint 机制实现容错机制。

Storm 中没有实现状态管理，Spark Streaming 实现了基于 DStream 的状态管理，而 Trident 和 Flink 实现了基于操作的状态管理。

表示数据处理的延时情况，因此 Storm 和 Flink 接收到一条数据就处理一条数据，其数据处理的延时性是很低的；而 Trident 和 Spark Streaming 都是小型批处理，它们数据处理的延时性相对会偏高。

Storm 的吞吐量其实也不低，只是相对于其他几个框架而言较低；Trident 属于中等；而 Spark Streaming 和 Flink 的吞吐量是比较高的。

官网中 Flink 和 Storm 的吞吐量对比如下图所示。

图3：Flink 和 Storm 的吞吐量对比工作中如何选择实时计算框架

前面我们分析了 4 种实时计算框架，那么公司在实际操作时到底选择哪种技术框架呢？下面我们来分析一下。

需要关注流数据是否需要进行状态管理，如果是，那么只能在 Trident、Spark Streaming 和 Flink 中选择一个。

需要考虑项目对 At-least-once（至少一次）或者 Exactly-once（仅一次）消息投递模式是否有特殊要求，如果必须要保证仅一次，也不能选择 Storm。

对于小型独立的项目，并且需要低延迟的场景，建议使用 Storm，这样比较简单。

如果你的项目已经使用了 Spark，并且秒级别的实时处理可以满足需求的话，建议使用 Spark Streaming。

要求消息投递语义为 Exactly-once；数据量较大，要求高吞吐低延迟；需要进行状态管理或窗口统计，这时建议使用 Flink。

23461.html

猜你喜欢

Oracle三条件联合查询实战技巧（oracle三个条件查询）
数值分析（一）牛顿插值法及matlab代码
Linux命令之locate详解程序员
Redis集群实现稳健的互备（redis集群互备）
处理大数据利用MSSQL探索大数据的未知潜力（拿mssql）
2022世界人工智能大会•腾讯“智变未来”论坛：聚焦产业升级，数字赋能未来
深入理解Linux RPM包管理机制（linuxrpm）
详解MySQL的最新下载路径及安装方法（mysql 下载路径）
Jquery给基本控件的取值、赋值示例
用这个 Python 3.7 的特性来切片无限生成器

zl程序教程

当前栏目

大数据流式计算框架汇总和对比

相关文章