您现在的位置是：首页 > 云平台

当前栏目

Spark常见优化原则

Spark 优化常见原则

2023-09-14 09:12:43 时间

一、参数调优：

提交任务参数请参考这篇文章(包括优化建议)：Spark部署模式、任务提交 - GoAl

spark任务：编写脚本或代码里设置参数

• 第一块：让task执行代码时，默认占executor总内存的20%。

• 第二块：task通过shuffle过程拉取上一个stage的task的输出后，进行聚合等操作时默认也是占Executor总内存的20%，使用Task的执行速度和每个executor进程的CPU Core数量有直接关系，一个CPU Core同一时间只能执行一个线程，每个executor进程上分配到的多个task，都是以task一条线程的方式，多线程并发运行的。如果CPU Core数量比较充足，而且分配到的task数量比较合理，那么可以比较快速和高效地执行完这些task线程

• 第三块：让RDD持久化时使用，默认占executor总内存的60%

二、开发调优

原则一：避免创建重复的RDD

– 对同一份数据，只应该创建一个RDD，不能创建多个RDD来代表同一份数据

– 极大浪费内存

原则二：尽可能复用同一个RDD

– 比如：一个RDD数据格式是key-value，另一个是单独value类型，这两个RDD的value部分完

全一样，这样可以复用达到减少算子执行次数

原则三：对多次使用的RDD进行持久化处理

– 每次对一个RDD执行一个算子操作时，都会重新从源头处理计算一遍，计算出那个RDD出来，然后进一步操作，这种方式性能很差

– 对多次使用的RDD进行持久化，将RDD的数据保存在内存或磁盘中，避免重复劳动

– 借助cache()和persist()方法

持久化级别：默认persist()

原则四：避免使用shuffle类算子

– 在spark作业运行过程中，最消耗性能的地方就是shuffle过程

– 将分布在集群中多个节点上的同一个key，拉取到同一个节点上，进行聚合和join处理，比如

groupByKey(下图一)、reduceByKey、join(下图二)等算子，都会触发shuffle

原则五：使用map-side预聚合的shuffle操作

– 一定要使用shuffle的，无法用map类算子替代的，那么尽量使用map-site预聚合的算子

– 思想类似MapReduce中的Combiner

– 可能的情况下使用reduceByKey或aggregateByKey算子替代groupByKey算子，因为

reduceByKey或aggregateByKey算子会使用用户自定义的函数对每个节点本地相同的key进行

预聚合，而groupByKey算子不会预聚合

原则六：使用Kryo优化序列化性能

– Kryo是一个序列化类库，来优化序列化和反序列化性能

– Spark默认使用Java序列化机制(ObjectOutputStream/ ObjectInputStream API)进行序列

化和反序列化

– Spark支持使用Kryo序列化库，性能比Java序列化库高很多，10倍左右

猜你喜欢

BS架构与CS架构的区别(最详细)「建议收藏」
求s=a+aa+aaa+aaaa+aa…a的值详解编程语言
网络工程师学Python-6-条件语句：If...Else
为什么requests不是python标准库？
比较DB2与MySQL：抉择难题（db2mysql）
php中给js数组赋值方法
ORA-47360: Rule string already added to Rule Set string ORACLE 报错故障修复远程处理
怎样注册.tk中文域名
Oracle技术精确控制不换行显示（oracle 不换行显示）
Linux中使用atoi处理字符串数据（linuxatoi）
系统一步一步安装Linux系统（dd安装linux）
Hugo 网站优化(9): 实时更新与缓存加速兼顾，使用 Github Action 主动预热 CDN 缓存
精简Oracle数据库字段重复记录（oracle字段去重复）
标题：Linux防火墙关闭指南（关闭linux的防火墙）
用个人经历告诉你导航类型的站点还好做吗？
MySQL存储过程文件——简单高效的数据处理选择（mysql存储过程文件）
如何设置Potplayer-x64
阿里云以 Apache 2.0 许可证开源 PolarDB 分布式数据库
前端开发者学习Redis的必要性（前端需要学redis么）
深入Oracle：掌握复杂查询技巧（oracle复杂查询）
如何在Linux环境下获取主机IP：简单易学的步骤（linux获取主机ip）
告别2022,奔赴2023 three.js三维城市可视化漫游表达
Linux命令历史侦探：跟踪你的执行记录（linux执行过的命令）

相关主题

Spark源码分析
Spark性能优化
spark架构
spark调优
spark作业
《Spark 官方文档》
spark环境搭建
spark优化
Spark 调优
Spark MLlib
spark join
spark 分区
Spark总结1
Hadoop、spark
Spark之SparkSql
3、spark Wordcount
Spark相关
Spark的坑
Spark与Java
008-spark 的调度

zl程序教程