您现在的位置是：首页 > 云平台

当前栏目

使用azkaban调度spark任务

Spark 任务调度使用 Azkaban

2023-09-14 09:02:04 时间

这篇文章主要向大家介绍使用azkaban调度spark任务,主要内容包括基础应用、实用技巧、原理机制等方面，希望对大家有所帮助。

Azkaban是一种相似于Oozie的工作流控制引擎，能够用来解决多个Hadoop（或Spark等）离线计算任务之间的依赖关系问题。

也能够用其代替cron来对周期性任务进行调度，而且更为直观，可靠，同时提供了美观的可视化管理界面。

下文将对azkaban对spark离线任务调度进行简要说明。

一. 简介

该部份内容可参考官方文档：http://azkaban.github.io/azkaban/docs/latest/#overviewgithub

azkaban由三部分构成：

Relational Database(Mysql)
Azkaban Web Server
Azkaban Executor Server

Relational Database(Mysql)

azkaban将大多数状态信息都存于Mysql中,Azkaban Web Server 和 Azkaban Executor Server也需要访问DB。

Azkaban Web Server

提供了Web UI，是azkaband的主要管理者，包括 project 的管理，认证，调度，对工作流执行过程的监控等。

Azkaban Executor Server

调度工作流和任务，记录工作流任务的日志，因此将AzkabanWebServer和AzkabanExecutorServer分开，主要是由于在某个任务流失败后，能够更方便的将重新执行。并且也更有利于Azkaban系统的升级。

可调度任务类型

linux命令
脚本
java程序
hadoop MR
spark
flink
hive

建立工做

建立工做任务
建立.job为后缀的文件，type是工做任务类型执行会输出 Hello World
```
vim hello.job
type=command
command=echo "Hello World"
```
建立工作流
两个工做任务，经过dependencies进行关联
```
vim foo.job
type=command
command=echo foo

vim bar.job
type=command
dependencies=foo
command=echo bar
```
工作流如下:
将会先调用foo再调用bar。

二. 调度Spark任务Demo

建立一个新的project

编写代码 写一段简单的Spark代码，将程序打包

package com.zxl
import org.apache.spark.{SparkConf, SparkContext}

object AzkabanTest extends App{
  val conf = new SparkConf()
  .setMaster("local[2]")
  .setAppName("azkabanTest")
  val sc = new SparkContext(conf)

  val data = sc.parallelize(1 to 10)
  data.map{_ * 2}.foreach(println)
}

编写调度命令

vim test.job
type=command
command=/usr/install/spark/bin/spark-submit --class com.zxl.AzkabanTest test-1.0-SNAPSHOT.jar

将这两个文件以zip的形式打包在一块儿

zip -r xxx.zip azkabanTest

上传工程

目前azkaban只支持zip包，其中要包括.job文件以及一些需要的工程和文件。

设置离线任务执行周期

若是需要的话能够设置离线任务的执行周期（相似于cron的功能）

任务通知

能够设置任务完成或失败进行邮箱通知等操作。

一些界面

主界面

任务完成状况

任务log详情

定时任务调用状况图

猜你喜欢

c#日期间隔计算示例
面试必问：redis过期key删除和内存淘汰策略
Boost Your Programming Skills with Linux Development（linux开发程序）
MySQL Error number: 3696; Symbol: ER_REGEXP_MISSING_CLOSE_BRACKET; SQLSTATE: HY000 报错故障修复远程处理
深入学习：Oracle存储过程优化技术（oracle存储过程优化）
从硬件、渲染、计算三大视角解析渲染性能优化的本质
Oracle：实现复杂的数据库任务（oracle包括）
MySQL数据库快速创建脚本实现（mysql创建数据库脚本）
在Oracle中，索引是否必须定期重建？索引重建有哪些影响？
Oracle 视图 USER_CONSTRAINTS 官方解释，作用，如何使用详细说明
微服务项目：尚融宝（36）（核心业务流程：用户绑定（1））
Windows Terminal正式成为Windows 11默认终端
MySQL 建表指定引擎：最佳实践（mysql建表指定引擎）
如何对PHP程序中的常见漏洞进行攻击（下）
浅谈SQL Server 2016里TempDb的进步
java加入md5_javamd5加密解密
异常解决Linux中文乱码异常的方法（linux环境中文乱码）

相关主题

Spark读取文件
Spark学习笔记
Spark机器学习
Spark技术栈
Spark集群搭建
spark的wordcount
Spark Join
spark 安装
7. Spark SQL
Spark的使用
Spark之RDD算子
Spark MLlib
Spark开发
spark总结3

zl程序教程