zl程序教程

您现在的位置是:首页 >  其他

当前栏目

【msb】spark基于yarn的集群搭建、配置、资源调度参数、优化jars

配置资源集群Spark 基于 优化 搭建 参数
2023-09-14 09:01:57 时间

修改配置时要注意是资源层还是计算层的配置。有的放矢!

spark-env中无需配置项如下:

删除这四项:
在这里插入图片描述

spark-env只需配置

在这里插入图片描述

spark-defaults中删除配置

在这里插入图片描述

spark-defaults中只需配置

在这里插入图片描述

只需要启动yarn

在这里插入图片描述

yarn-site的配置

在这里插入图片描述

mapred-site配置说明

在这里插入图片描述

分发spark

在这里插入图片描述

手动启动RM

start-yarn.sh启动之后,
在这里插入图片描述

运行mr的wordcount

在这里插入图片描述
注意:输入输出路径都是hdfs的路径,非本地路径!
在这里插入图片描述

手动启动mr 历史服务

跟spark半毛钱关系没有!
在这里插入图片描述

spark-shell启动

在这里插入图片描述

启动spark的历史服务

在这里插入图片描述

spark-shell也是sparksubmit

在这里插入图片描述

spark on yarn进程分析

spark-shell就是 on yarnclient模式。并且塔=spark shell只支持client模式

如果强行指定为cluster模式,会报错:

在这里插入图片描述

配置好spark on yarn之后,启动spark-shell --master yarn之后,分析进程运行情况:
在这里插入图片描述

在这里插入图片描述
ExecutorLauncher就是ApplicationMaster进程。 Driver运行在SaprkSubmit这个JVM进程之中。
在这里插入图片描述

在这里插入图片描述

自定义spark-submit提交任务脚本

在这里插入图片描述
在这里插入图片描述

cluster模式下driver在AM进程中

在这里插入图片描述
在这里插入图片描述

指定spark jars在hdfs的路径

上传jar包到hdfs:
在这里插入图片描述
vim spark-defaults.conf
在这里插入图片描述
进行上述操作之后,启动spark-shell就没有上传jar包这个过程了:
在这里插入图片描述

查看spark任务的hdfs存储路径

在这里插入图片描述
如果不进行优化的话,任务下会有jar的压缩包:
在这里插入图片描述

spark on yarn资源调度参数

在这里插入图片描述