您现在的位置是：首页 > 工具

当前栏目

《Spark Cookbook 中文版》一1.7　在集群上使用YARN部署

集群部署 Spark 中文版 yarn 1.7 Cookbook 使用

2023-09-11 14:17:46 时间

本节书摘来异步社区《Spark Cookbook 中文版》一书中的第1章，第1.7节，作者：【印度】Rishi Yadav（亚达夫）译者：顾星竹 , 刘见康责编：胡俊英，更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.7 在集群上使用YARN部署

另一种资源协调者（YARN）是基于HDFS这个Hadoop存储层的Hadoop计算框架。

YARN遵循主从架构。主守护进程被称为资源管理器（ResourceManager），从守护进程被称为节点管理器（NodeManager）。除此之外，生命周期管理由ApplicationMaster负责，它可以被派生到任何从节点上并可以生存一个应用的生命周期时长。

如果Spark运行在YARN上的话，资源管理器充当Spark master，节点管理器充当执行节点。

如果Spark运行在YARN上的话，每个Spark执行程序以YARN容器（container）的形式运行。

1.7.1 准备工作

在YARN上部署Spark需要一个拥有YARN支持的Spark二进制安装包。在按照Spark安装教程时，需要注意这一点。

1.7.2 具体步骤

1．在YARN上部署Spark，第一步就是设置配置参数。

HADOOP_CONF_DIR: to write to HDFS

 YARN_CONF_DIR: to connect to YARN ResourceManager

 $ cd /opt/infoobjects/spark/conf (or /etc/spark)

 $ sudo vi spark-env.sh

 export HADOOP_CONF_DIR=/opt/infoobjects/hadoop/etc/Hadoop

 export YARN_CONF_DIR=/opt/infoobjects/hadoop/etc/hadoop

图1-10可见这些配置。

2．以下命令以yarn-client模式启动YARN Spark。

$ spark-submit --class path.to.your.Class --master yarn-client

 [options] app jar [app options]

例如：

$ spark-submit --class com.infoobjects.TwitterFireHose —master

 yarn-client --num-executors 3 --driver-memory 4g —executor-memory

 2g --executor-cores 1 target/sparkio.jar 10

3．以下命令以yarn-client模式启动Spark shell。

$ spark-shell --master yarn-client

4．以下命令以yarn-cluster模式启动。

$ spark-submit --class path.to.your.Class --master yarn-cluster

 [options] app jar [app options]

例如：

$ spark-submit --class com.infoobjects.TwitterFireHose –master

 yarn-cluster --num-executors 3 --driver-memory 4g --executor-

 memory 2g --executor-cores 1 target/sparkio.jar 10

1.7.3 工作原理

部署在YARN上的Spark应用有两种模式。

yarn-client：Spark驱动运行在YARN集群之外的客户端进程上，并且ApplicationMaster仅用于协商安排资源管理器的资源。 yarn-cluster：Spark驱动运行在由从节点的节点管理器派生出来的ApplicationMaster上。

yarn-cluster模式建议用于生产环境部署，而yarn-client模式很适合用于开发和调试，因为你可以立即看到输出。不需要特别分别Spark master在哪个模式下，因为它由Hadoop配置决定，master的参数要么是yarn-client，要么是yarn-cluster。

图1-11是client模式下在YARN上部署Spark的架构图。

图1-12是cluster模式下在YARN上部署Spark的架构图。

在YARN模式下，可以配置如下参数。

num-executors：配置可分配执行程序数。 executor-memory：每个执行程序的内存（RAM）。 executor-cores：每个执行程序的CPU内核数。
异步社区异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区，也是国内领先的IT专业图书社区，致力于优质学习内容的出版和分享，实现了纸书电子书的同步上架，于2015年8月上线运营。公众号【异步图书】，每日赠送异步新书。

猜你喜欢

成功解决ValueError: Input contains NaN, infinity or a value too large for dtype('float64').
Atitit 互联网技术公司的组织架构事业部分公司
DevExpress XtraTreeList的复选框禁用
[LeetCode] Longest Palindromic Substring
Java实现蓝桥杯VIP 算法训练整除问题
PowerShell交互下的热键
C#里WinForm开发中如何实现控件随窗体大小的改变而自动适应其改变(转)
四种创建单链表的方法
Android修行手册 - 自定义Switch
Java实现 LeetCode 19删除链表的倒数第N个节点
【STM32H7教程】第79章 STM32H7的QSPI总线应用之驱动W25QXX（支持查询和MDMA）
[Docker] Build a Simple Node.js Web Server with Docker
Ubuntu 全部命令
android ViewPager具体解释
SAP Commerce Cloud 里的 jsapps 和 jsapps-ssr 容器
Spring3 升级Spring 4
CICD详解（十二）——Sonar安装与配置

相关主题

nacos集群部署
Nacos 集群部署
Kafka集群配置
集群到集群
分布式集群
部署Redis集群
集群集群

zl程序教程

当前栏目

《Spark Cookbook 中文版》一1.7　在集群上使用YARN部署

相关文章

当前栏目

《Spark Cookbook 中文版》一1.7 在集群上使用YARN部署

相关文章

《Spark Cookbook 中文版》一1.7　在集群上使用YARN部署