spark重要参数调优建议:spark.default.parallelism设置每个stage默认的task数量
Spark 设置 参数 建议 默认 重要 调优 数量
2023-09-14 09:01:57 时间
spark.default.parallelism
参数说明
:该参数用于设置每个stage
的默认task
数量。这个参数极为重要,如果不设置可能会直接影响你的Spark作业性能。
参数调优建议
:Spark作业的默认task数量为500~1000
个较为合适。很多同学常犯的一个错误就是不去设置这个参数,那么此时就会导致Spark自己根据底层HDFS的block数量来设置task的数量,默认是一个HDFS block对应一个task。通常来说,Spark默认设置的数量是偏少的(比如就几十个task),如果task数量偏少的话,就会导致你前面设置好的Executor的参数都前功尽弃。试想一下,无论你的Executor进程有多少个,内存和CPU有多大,但是task
只有1个或者10个,那么90%的Executor进程可能根本就没有task执行,也就是白白浪费了资源!因此Spark官网建议的设置原则是,设置该参数为num-executors
* executor-cores
的2~3倍较为合适,比如Executor
的总CPU core
数量为300个,那么设置1000个task是可以的,此时可以充分地利用Spark集群的资源。
相关文章
- Spark 基础及RDD基本操作
- Spark Streaming 妙用之实现工作流调度器
- Spark修炼之道(高级篇)——Spark源码阅读:第九节 Task执行成功时的结果处理
- Spark Operator 部署及入门示例
- 详解spark任务提交至yarn的集群和客户端模式
- spark standalone集群安装及spark on yarn
- 一天学完spark的Scala基础语法教程十三、文件IO操作(idea版本)
- 安装spark local运行出现错误NoClassDefFoundError: org/slf4j/Logger 原来是要设置hadoop home和spark classpath虽然without hadoop
- 201_Spark安装部署:Standalone模式
- Spark(6):RDD的创建和并行度