zl程序教程

您现在的位置是:首页 >  云平台

当前栏目

Spark 算子之aggregateByKey

Spark 算子
2023-09-27 14:28:03 时间

前言

在实际业务中,经常涉及到对不同分区的数据做最后的聚合统计等操作,我们知道,Spark通过分区提升了整体的任务并行处理能力,但是往往在数据最终需要进行汇总,就涉及到对不同分区数据做处理的问题;

在这种情况下,就可以考虑使用Spark提供的aggregateByKey这个算子;

函数签名

def aggregateByKey[U: ClassTag] (zeroValue: U)(seqOp: (U, V) => U,
combOp: (U, U) => U) : RDD[(K, U)]

函数说明

将数据根据 不同的规则 进行分区内计算和分区间计算

案例展示

需求说明:取出每个分区内相同