您现在的位置是：首页 > 后端

当前栏目

第39课：Spark中的Broadcast和Accumulator机制解密

Spark 解密机制 39 Broadcast

2023-09-27 14:26:47 时间

Spark的Broadcast和Accumulator很重要，在实际的企业级开发环境中一般会使用Broadcast和Accumulator。Broadcast和Accumulator和RDD是Spark中并列的三大基础数据结构。大家谈Spark的时候首先谈RDD，RDD是一个并行的数据，关注在jvm中怎么处理数据。很多时候可能忽略了Broadcast和Accumulator，这2个变量都是全局级别的，例如集群中有1000台机器，那Broadcast和Accumulator可以在1000台机器中共享。在分布式的基础之上，如果有共享的数据结构，那是非常有用的。

分布式大数据系统中，我们进行编程的时候首先考虑数据结构：

l RDD: 分布式私有数据结构。RDD本身是一个并行化的本地化的数据结构，运行的时候在一个个线程中运行，RDD是私有的运行数据和私有的运行过程，但在一个Stage里面是一样的，一个线程一个时刻只处理一个数据分片，另一个线程一个时刻只处理另一个数据片。在设计业务逻辑的时候，我们通常考虑这个分片如何去处理。

l Broadcast：分布式全局只读数据结构。

l Accumulator：分布式全局只写的数据结构。我们不会在线程池中读取Accumulator，但在Driver上可以读取Accumulator。

在生产环境下，我们几乎一定会自定义Accumulator：

1，自定义的时候可以让Accumulator非常复杂，基本上可以是任意类型的Java和Scala对象；

2，在自定义Accumulator的时候，我们可以实现一些“技术福利”，例如在A

猜你喜欢

库函数 qsort 的用法
Python数据类型
年薪30w大佬聊自动化测试框架
Exiting due to GUEST_MISSING_CONNTRACK: Sorry, Kubernetes 1.19.2 requires conntrack to be installed in root's path
Java程序设计之（一）MySQL的交互-学生信息成绩管理系统
Java6 API & Java8 API
EF Core新增迁移时无法加载程序集“System.ValueTuple”的错误
PHP 错误与异常笔记与总结（15 ）使用观察者模式处理异常信息
怎么批量修改Word表格的宽度
Oracle corrupt block（坏块）详解
0基础怎么学习Python?Python学习方法汇总!
大型机或云计算：这不是非此即彼的选择
Android简单调用相机Camera功能，实现打开照相功能
2016年云存储平台十大建议
并查集介绍和基于并查集解决问题——LeetCode 952 按公因数计算最大组件大小
【华为OD机试真题 python】快递业务站【2022 Q4 | 100分】
非洲地区太阳能计划：赞比亚的6美分光伏项目
细说自动化运维的前世今生
Highmaps网页图表教程之Highmaps第一个实例与图表构成
C#，精巧实用的代码，调用GDI32.DLL绘制图形的源程序
hbase 学习（十六）系统架构图
updatepanel 和 visibility 有一定冲突

相关主题

Spark 数据倾斜
Spark 网络
Spark集群安装
Spark介绍
Spark MLlib
spark数据倾斜
Spark编程模型
spark启动
Hadoop、spark
Spark学习
spark dataset
hive、spark
Spark-RDD

zl程序教程

当前栏目

第39课：Spark中的Broadcast和Accumulator机制解密

相关文章