您现在的位置是：首页 > 其他

当前栏目

Spark Standalone 部署

部署 Spark Standalone

2023-09-14 09:14:48 时间

Spark Standalone 部署

解压缩文件
修改配置文件
启动集群
配置历史服务
配置高可用（HA）

解压缩文件

将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩在指定位置

tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module

在这里插入图片描述

cd /opt/module

在这里插入图片描述

改名 :

mv spark-3.0.0-bin-hadoop3.2 spark-3.0.0-standalone

在这里插入图片描述

修改配置文件

进入解压缩后路径的 conf 目录，修改 slaves.template 文件名为 slaves

mv slaves.template slaves

在这里插入图片描述

修改 slaves 文件，添加 worker 节点

vim slaves

内容 :

cpucode101
cpucode102
cpucode103

在这里插入图片描述

修改 spark-env.sh.template 文件名为 spark-env.sh

mv spark-env.sh.template spark-env.sh

在这里插入图片描述

修改 spark-env.sh 文件，添加 JAVA_HOME 环境变量和集群对应的 master 节点

在这里插入图片描述

vim spark-env.sh

内容 :

export JAVA_HOME=/opt/module/jdk1.8.0_212
SPARK_MASTER_HOST=cpucode101
SPARK_MASTER_PORT=7077

在这里插入图片描述

7077端口，相当于 Hadoop3 内部通信的 8020 端口，此处的端口需要确认自己的 Hadoop 配置

分发 spark-standalone 目录

xsync spark-standalone

在这里插入图片描述

启动集群

确保 Zookeeper 关闭

执行脚本命令：

./sbin/start-all.sh

在这里插入图片描述

查看三台服务器运行进程

jpsall

在这里插入图片描述

Web UI 界面

http://cpucode101:8080

在这里插入图片描述

提交应用

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://cpucode101:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

–class : 执行程序的主类
–master spark://cpucode102:7077 独立部署模式，连接到Spark集群
spark-examples_2.12-3.0.0.jar 运行类所在的jar包
数字10 : 程序的入口参数，用于设定当前应用的任务数量

在这里插入图片描述

执行任务时，会产生多个Java进程

jpsall

在这里插入图片描述

执行任务时，默认采用服务器集群节点的总核数，每个节点内存 1024M

在这里插入图片描述

提交参数说明

bin/spark-submit \
--class <main-class>
--master <master-url> \
... # other options
<application-jar> \
[application-arguments]

参数	解释	可选值举例
– class	Spark程序中包含主函数的类
– master	Spark程序运行的模式(环境)	模式：local[*]、spark://cpucode101:7077、 Yarn
– executor-memory 1G	每个executor可用内存为1G	符合集群内存配置即可，具体情况具体分析
– total-executor-cores 2	所有 executor 使用的 cpu 核数为 2 个
– executor-cores	每个 executor 使用的 cpu 核数
application-jar	打包好的应用jar，包含依赖。这个URL在集群中全局可见。如 : hdfs:// 共享存储系统，如果是file:// path，那么所有的节点的path都包含同样的jar
application-arguments	传给 main() 方法的参数

配置历史服务

当 spark-shell 停止后，就看不到历史任务的运行情况，所以要配置历史服务器记录任务运行情况

修改 spark-defaults.conf.template 文件名为 spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6QJgogdb-1678108566828)(../../png/Standalone%E9%83%A8%E7%BD%B2/image-20230203141836141.png)]

配置日志存储路径

修改 spark-default.conf 文件

vim spark-default.conf

内容 :

spark.eventLog.enabled          true
spark.eventLog.dir              hdfs://cpucode101:8020/directory

在这里插入图片描述

需要启动 hadoop 集群，HDFS 上的 directory 目录需要提前存在

myhadoop.sh start

在这里插入图片描述

创建 HDFS 文件夹

hadoop fs -mkdir /directory

在这里插入图片描述

http://cpucode101:9870

在这里插入图片描述

添加日志配置

修改 spark-env.sh 文件,

vim spark-env.sh

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://cpucode101:8020/directory 
-Dspark.history.retainedApplications=30"

参数1：WEB UI 访问的端口号为 18080
参数2：指定历史服务器日志存储路径
参数3：指定保存 Application 历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数

在这里插入图片描述

分发配置文件

xsync conf

在这里插入图片描述

重启

重启动 Hadoop 集群

./sbin/start-all.sh

在这里插入图片描述

重启动历史服务

./sbin/start-history-server.sh

在这里插入图片描述

重新执行任务

./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://cpucode101:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

在这里插入图片描述

查看历史服务

http://cpucode101:18080

在这里插入图片描述

配置高可用（HA）

当集群中只有一个 Master 节点，就存在单点故障问题

为了解决单点故障问题，需要在集群中配置多个Master节点，一旦处于活动状态的 Master 发生故障时，由备用 Master 提供服务，保证作业可以继续执行

高可用采用 Zookeeper 设置

高可用原理 :

在这里插入图片描述

集群规划

	cpucode101	cpucode102	cpucode103
Spark	Master	Master
	Zookeeper	Zookeeper	Zookeeper
	Worker	Worker	Worker

停止集群

./sbin/stop-all.sh

在这里插入图片描述

启动 Zookeeper

zk.sh start

在这里插入图片描述

修改 spark-env.sh 文件添加如下配置

注释如下内容：

#SPARK_MASTER_HOST=cpucode101
#SPARK_MASTER_PORT=7077

添加如下内容:

#Master监控页面默认访问端口为8080，
#但是可能会和Zookeeper冲突，所以改成8989，
#也可以自定义，访问UI监控页面时请注意
SPARK_MASTER_WEBUI_PORT=8989

export SPARK_DAEMON_JAVA_OPTS="
-Dspark.deploy.recoveryMode=ZOOKEEPER 
-Dspark.deploy.zookeeper.url=cpucode101,cpucode102,cpucode103
-Dspark.deploy.zookeeper.dir=/spark"

在这里插入图片描述

分发配置文件

xsync conf/

在这里插入图片描述

启动集群

./sbin/start-all.sh

在这里插入图片描述

启动 cpucode102 的单独 Master 节点，此时 cpucode102 节点 Master 状态处于备用状态

ssh cpucode102 /opt/module/spark-3.0.0-standalone/sbin/start-master.sh

在这里插入图片描述

提交应用到高可用集群

在这里插入图片描述

./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://cpucode101:7077,cpucode102:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

在这里插入图片描述

同时停止 cpucode101 的 Master 资源监控进程

sudo kill -9 10397

在这里插入图片描述

查看 cpucode102 的Master 资源监控 Web UI，稍等一段时间后，cpucode102 节点的 Master 状态

在这里插入图片描述

关闭集群

./sbin/stop-all.sh

在这里插入图片描述

关闭 cpucode102 主

ssh cpucode102 /opt/module/spark-3.0.0-standalone/sbin/stop-master.sh

在这里插入图片描述

关闭历史服务

./sbin/stop-history-server.sh

在这里插入图片描述

猜你喜欢

戴尔笔记本开机时卡在logo处底下小进度圈不动，进不了系统
【2017 Multi-University Training Contest - Team 6】Kirinriki
0基础学习diffusion_model扩散模型【易理解的公式推导】Denoising Diffusion Probabilistic Models
DataGridView单元格合并
第十一章 Hibernate的查询 Hibernate可以使用的查询语言
《红楼梦》中四大家族到底犯了什么罪，导致了「白茫茫大地真干净」的结局？
Atitit.木马病毒的免杀原理---sikuli 的使用
vagrant系列教程(一)：vagrant的安装与初识（转）
为什么对话框控件ID定义从100开始？
云数据库·ApsaraDB 产品9月刊
[SSD综述1.7] 固态存储市场发展分析与预测_固态存储技术发展方向（2022to2023）
MySQL · 特性分析 · MDL 实现分析
Queue队列
js基础知识：es6中，当对象中的key名称为一个变量时，需要用`[]`括起来
lxml简明教程
Android学习---数据库的增删改查(sqlite CRUD)
掌握元数据知识看这一篇就够了：从元数据概念、分类、作用、管理及目标、挑战到规划及体系设计等
Linux中查看socket进程状态
【Transformers】第 6 章：总结

相关主题

k8s 1.15.2 部署
Spark集群部署
gitlab部署
测试环境部署
热部署
django部署
【Flask】部署
SpringBoot_项目打包部署
JAR 部署
tomcat部署war包
kubernetes部署
IIS部署网站
微服务部署

zl程序教程

当前栏目

Spark Standalone 部署

Spark Standalone 部署

解压缩文件

修改配置文件

启动集群

Web UI 界面

提交应用

提交参数说明

配置历史服务

配置日志存储路径

添加日志配置

重启

重新执行任务

查看历史服务

配置高可用（HA）

集群规划

停止集群

启动 Zookeeper

启动集群

关闭集群

关闭历史服务

相关文章