zl程序教程

您现在的位置是:首页 >  其他

当前栏目

spark 1.X standalone和on yarn安装配置

On安装配置Spark yarn Standalone
2023-09-14 09:00:23 时间


安装JDK 1.7以上 Hadoop 2.7.0不支持JDK1.6,Spark 1.5.0开始不支持JDK 1.6

安装Scala 2.10.4

安装 Hadoop 2.x  至少HDFS



spark-env.sh



export JAVA_HOME=

export SCALA_HOME=

export HADOOP_CONF_DIR=/opt/modules/hadoop-2.2.0/etc/hadoop //运行在yarn上必须要指定

export SPARK_MASTER_IP=server1

export SPARK_MASTER_PORT=8888

export SPARK_MASTER_WEBUI_PORT=8080

export SPARK_WORKER_CORES=

export SPARK_WORKER_INSTANCES=1

export SPARK_WORKER_MEMORY=26g

export SPARK_WORKER_PORT=7078

export SPARK_WORKER_WEBUI_PORT=8081

export SPARK_JAVA_OPTS="-verbose:gc -XX:-PrintGCDetails -XX:PrintGCTimeStamps"


slaves指定worker节点

xx.xx.xx.2

xx.xx.xx.3

xx.xx.xx.4

xx.xx.xx.5


运行spark-submit时默认的属性从spark-defaults.conf文件读取

spark-defaults.conf

spark.master=spark://hadoop-spark.dargon.org:7077


启动集群

start-master.sh

start-salves.sh


spark-shell命令其实也是执行spark-submit命令


spark-submit --help

wKiom1ZDS-_TQz_FAAXu_hBg8nY354.jpg


deploy-mode针对driver program(SparkContext)的client(本地)、cluster(集群)

默认是client的,SparkContext运行在本地,如果改成cluster则SparkContext运行在集群上

hadoop on yarn的部署模式就是cluster,SparkContext运行在Application Master






spark-shell quick-start链接

http://spark.apache.org/docs/latest/quick-start.html


本文出自 “点滴积累” 博客,请务必保留此出处http://tianxingzhe.blog.51cto.com/3390077/1711959


在idea里面怎么远程提交spark任务到yarn集群 很久没有更新了,因为最近一段时间有点小忙,最近也是有同学问我说自己在idea里面写spark程序测试,每次都要打包然后上传到集群,然后spark-submit提交很麻烦,可不可以在idea里面直接远程提交到yarn集群呢? 当然是可以的,今天就给大家分享一下具体的操作过程. 那先来说一下spark任务运行的几种模式: 1,本地模式,在idea里面写完代码直接运行.
spark on yarn模式安装和配置carbondata 前置条件 Hadoop HDFS 和 Yarn 需要安装和运行。 Spark 需要在所有的集群节点上安装并且运行。 CarbonData 用户需要有权限访问 HDFS. 以下步骤仅针对于 Driver 程序所在的节点. (Driver 节点就是启动 SparkContext 的节点)
11月14日Spark社区直播【 Spark on Kubernetes & YARN】 本次直播将讨论:以Kubernetes为代表的云原生技术越来越流行起来,spark是如何跑在Kubernetes之上来享受云原生技术的红利?Spark跑在Kubernetes之上和跑在Hadoop YARN上又有什么区别?以及Kubernetes 和YARN的差异点是什么。
基于Yarn API的Spark程序监控 一.简述 通过对Yarn ResourceManager中运行程序的状态(RUNNING、KILLED、FAILED、FINISHED)以及ApplicationMaster中Application的Job执行时长超过批次时间的监控,来达到对Spark on Yarn程序的失败重启、超时重启等功能
Hadoop大数据平台实战(05):深入Spark Cluster集群模式YARN vs Mesos vs Standalone vs K8s Hadoop大数据平台实战(05):Spark Cluster集群模式YARN, Mesos,Standalone和K8s深入对比。监控,调度,监控,安全机制,特性对比,哪个才是最好的Spark集群管理工具。
大数据分布式架构单点故障详解(Hdfs+Yarn+HBase+Spark+Storm)构建HA高可用架构 本文梳理了常见的hadoop生态圈中的组件:Hdfs+Yarn+HBase+Spark+Storm的单点故障问题,出现原因以及单点故障的原理和解决方案(构建HA(High Available)高可用架构)。阅读本文之前,最好了解清楚各组件的架构原理。