第222讲:Spark Shuffle Pluggable框架ShuffleWriter解析
2023-09-27 14:26:48 时间
第222讲:Spark Shuffle Pluggable框架ShuffleWriter解析
ShuffleWriter是ShuffleMapTask将shuffle数据写入本地的接口。不同的shuffle有不同的实现。
在ShuffleMapTask内部中获取shuffleWtriter实例,将数据记录写入shuffle系统
private[spark] abstract class ShuffleWriter[K, V] {
/** Write a sequence of records to this task's output */
@throws[IOException]
def write(records: Iterator[Product2[K, V]]): Unit
/** Close this writer, passing along whether the map completed */
def stop(success: Boolean): Option[MapStatus]
}
1,write方法:将一系列记录写入task任务的输出。这里的records记录是一个Iterator,每一个元素是Key-Value。Product2是一个trait。
write如果需要做聚合,我们需将数据做聚合。
2,stop:写入完成。提交返回一个 MapStat
相关文章
- 教程:在 Visual Studio 中开始使用 Flask Web 框架
- 杀鸡用用牛刀 scrapy框架爬取豆瓣电影top250信息
- 开源对话机器人框架:Rasa概述【中小型公司使用Rasa框架,降低准入门槛。灵活性不够高】【可以本地部署】【保护数据隐私(其他框架需要将自己的数据上传到框架官方云服务器,不安全)】【可以重写一些类】
- RPC(Remote Procedure Call Protocol)远程过程调用协议框架:gRPC
- 英特尔开源BigDL,可直接在Spark框架下运行深度学习
- 微信快速开发框架(三)-- 建立微信公众平台测试账号
- 十个Python爬虫武器库示例,十个爬虫框架,十种实现爬虫的方法!
- python unittest框架理解与总结(二)
- 从入门到精通!java技术框架
- 你真的了解自动化测试框架么?Python+Requests+Pytest+Jenkins
- 【自动化测试基础知识】自动化测试的基本概念及常用框架
- LoopBack – 开源的,可扩展的 Node.js 框架
- 使用Spark框架中文分词统计
- 第5课:基于案例一节课贯通Spark Streaming流计算框架的运行源码(Spark streaming源代码导入IDEA)
- 第221讲:Spark Shuffle Pluggable框架ShuffleManager解析
- IntraWEB Ultimate 15.2.20是Delphi自带的一套Web开发框架
- Android开发用过的十大框架
- Andorid之Annotation框架初使用(六)
- 【集合框架】JDK1.8源码分析之TreeMap(五)
- Python3.6下scrapy框架的安装