您现在的位置是：首页 > 其它

当前栏目

Oozie Coordinator使用及详解

详解使用 oozie

2023-09-14 08:57:29 时间

Oozie所支持工作流，工作流定义通过将多个Hadoop Job的定义按照一定的顺序组织起来，然后作为一个整体按照既定的路径运行。一个工作流已经定义了，通过启动该工作流Job，就会执行该工作流中包含的多个Hadoop Job，直到完成，这就是工作流Job的生命周期。
那么，现在我们有一个工作流Job，希望每天半夜00:00启动运行，我们能够想到的就是通过写一个定时脚本来调度程序运行。如果我们有多个工作流Job，使用crontab的方式调用可能需要编写大量的脚本，还要通过脚本来控制好各个工作流Job的执行时序问题，不但脚本不好维护，而且监控也不方便。基于这样的背景，Oozie提出了Coordinator的概念，他们能够将每个工作流Job作为一个动作（Action）来运行，相当于工作流定义中的一个执行节点（我们可以理解为工作流的工作流），这样就能够将多个工作流Job组织起来，称为Coordinator Job，并指定触发时间和频率，还可以配置数据集、并发数等。一个Coordinator Job包含了在Job外部设置执行周期和频率的语义，类似于在工作流外部增加了一个协调器来管理这些工作流的工作流Job的运行。

运行Coordinator Job

我们先看一下官方发行包自带的一个简单的例子oozie-3.3.2\examples\src\main\apps\cron，它能够实现定时调度一个工作流Job运行，这个例子中给出的一个空的工作流Job，也是为了演示能够使用Coordinator系统给调度起来。这个例子有3个配置文件，我们不修改workflow.xml配置内容。修改后分别如下所示：

job.properties配置 nameNode=hdfs://m1:9000

修改上述coordinator.xml配置文件，将定时调度频率改为2分钟，然后需要将他们上传到HDFS上：

hadoop fs -rm /user/shirdrn/examples/apps/cron/coordinator.xml
hadoop fs -put /home/shirdrn/cloud/programs/oozie-3.3.2/examples/target/oozie-examples-3.3.2-examples/examples/apps/cron/coordinator.xml /user/shirdrn/examples/apps/cron/

因为我之前已经上传过一次，所以修改了coordinator.xml文件配置内容后，一定要上传到HDFS中，而job.properties配置可以通过指定config选项来执行。启动一个Coordinator Job和启动一个Oozie工作流Job类似，执行如下命令即可：

bin/oozie job -oozie http://oozie-server:11000/oozie -config /home/shirdrn/cloud/programs/oozie-3.3.2/examples/target/oozie-examples-3.3.2-examples/examples/apps/cron/job.properties -run

Coordinator应用（Coordinator Application）

Coordinator应用是指当满足一定条件时，会触发Oozie工作流Job（在Coordinator中将工作流Job定义为一个动作（Action））。其中，触发条件可以是一个时间频率、一个dataset实例是否可用，或者可能是外部的其他事件。
Coordinator Job是一个Coordinator应用的运行实例，这个Coordinator Job是在Oozie提供的Coordinator引擎上运行的，并且这个实例从指定的时间开始，直到运行结束。一个Coordinator Job具有以上几个状态：

RUNNING RUNNINGWITHERROR PREPSUSPENDED SUSPENDED SUSPENDEDWITHERROR PREPPAUSED PAUSED PAUSEDWITHERROR SUCCEEDED DONEWITHERROR KILLED FAILED

从状态字符串的含义，我们大概就能知道它的含义，这里不做过多解释，可以查阅官方文档。现在，我们关注一下这些状态之间是怎样转移的，从一个状态变成哪些状态是合法的，如下表所示：

我们可以看到，Coordinator Job的状态比一个基本的Oozie工作流Job的状态要复杂的多，因为Coordinator Job的基本执行单元可能是一个基本Oozie Job，而且外加了一些调度信息，必然要增加额外的状态来描述。

Coordinator动作（Coordinator Action）

一个Coordinator Job会创建并执行Coordinator 动作（Coordinator Action）。通常一个Coordinator 动作是一个工作流Job，这个工作流Job会生成一个dataset实例并处理这个数据集。当一个一个Coordinator 动作被创建以后，它会一直等待满足执行条件的所有输入事件的完成然后执行，或者发生超时。
每个Coordinator Job都有一个驱动事件，来决定它所包含的Coordinator动作的初始化（创建）。对于同步Coordinator Job（synchronous coordinator job）来说，触发执行频率（frequency）就是一个驱动事件。
同样，组成Coordinator Job的基本单元是Coordinator 动作（Coordinator Action），它不像Oozie工作流Job只有OK和Error两个执行结果，一个Coordinator 动作的状态集合，如下所示：

WAITING READY SUBMITTED TIMEDOUT RUNNING KILLED SUCCEEDED FAILED

一个Coordinator 动作的状态变迁情况，如下表所示：

Coordinator应用定义（Coordinator Application Definition）

一个同步的Coordinator应用定义的语法格式，如下所示：

coordinator-app name="[NAME]" frequency="[FREQUENCY]" start="[DATETIME]" end="[DATETIME]" timezone="[TIMEZONE]" xmlns="uri:oozie:coordinator:0.1"
dataset name="[NAME]" frequency="[FREQUENCY]" initial-instance="[DATETIME]"timezone="[TIMEZONE]"
control元素

control元素定义了一个Coordinator Job的控制信息，主要包括如下三个配置元素：

timeout 超时时间，单位为分钟。当一个Coordinator Job启动的时候，会初始化多个Coordinator动作，timeout用来限制这个初始化过程。默认值为-1，表示永远不超时，如果为0 则总是超时。
execution 配置多个Coordinator Job并发执行的策略：默认是FIFO。另外还有两种：LIFO（最新的先执行）、LAST_ONLY（只执行最新的Coordinator Job，其它的全部丢弃）。
Dataset元素

Coordinator Job中有一个Dataset的概念，它可以为实际计算提供计算的数据，主要是指HDFS上的数据目录或文件，能够配置数据集生成的频率（Frequency）、URI模板、时间等信息，下面看一下dataset的语法格式：

dataset name="[NAME]" frequency="[FREQUENCY]" initial-instance="[DATETIME]"timezone="[TIMEZONE]"
dataset name="stats_hive_table" frequency="${coord:days(1)}" initial-instance="2014-03-05T00:00Z" timezone="America/Los_Angeles"

上面会每天都会生成一个用户事件表，可以供Hive查询分析，这里指定了这个数据集的位置，后续计算会使用这部分数据。其中，uri-template指定了一个匹配的模板，满足这个模板的路径都会被作为计算的基础数据。
另外，还有一种定义dataset集合的方式，将多个dataset合并成一个组来定义，语法格式如下所示：

datasets
dataset name="[NAME]" frequency="[FREQUENCY]" initial-instance="[DATETIME]"timezone="[TIMEZONE]"
input-events和output-events元素

一个Coordinator应用的输入事件指定了要执行一个Coordinator动作必须满足的输入条件，在Oozie当前版本，只支持使用dataset实例。
一个Coordinator动作可能会生成一个或多个dataset实例，在Oozie当前版本，输出事件只支持输出dataset实例。

EL常量

${coord:months(int n)} 返回日期时间：从一开始，周期执行n * M * 24 * 60分钟（M表示一个月的天数）
${coord:endOfDays(int n)} 返回日期时间：从当天的最晚时间（即下一天）开始，周期执行n * 24 * 60分钟
${coord:endOfMonths(1)} 返回日期时间：从当月的最晚时间开始（即下个月初），周期执行n * 24 * 60分钟
${coord:current(int n)} 返回日期时间：从一个Coordinator动作（Action）创建时开始计算，第n个dataset实例执行时间
${coord:dataIn(String name)} 在输入事件（input-events）中，解析dataset实例包含的所有的URI
${coord:dataOut(String name)} 在输出事件（output-events）中，解析dataset实例包含的所有的URI
${coord:offset(int n, String timeUnit)} 表示时间偏移，如果一个Coordinator动作创建时间为T，n为正数表示向时刻T之后偏移，n为负数向向时刻T之前偏移，timeUnit表示时间单位（选项有MINUTE、HOUR、DAY、MONTH、YEAR）
${coord:hoursInDay(int n)} 指定的第n天的小时数，n 0表示向后数第n天的小时数，n=0表示当天小时数，n 0表示向前数第n天的小时数
${coord:daysInMonth(int n)} 指定的第n个月的天数，n 0表示向后数第n个月的天数，n=0表示当月的天数，n 0表示向前数第n个月的天数
${coord:future(int n, int limit)} 当前时间之后的dataset实例，n =0，当n=0时表示立即可用的dataset实例，limit表示dataset实例的个数
${coord:nominalTime()} nominal时间等于Coordinator Job启动时间，加上多个Coordinator Job的频率所得到的日期时间。例如：start=”2009-01-01T24:00Z”，end=”2009-12-31T24:00Z”，frequency=”${coord:days(1)}”，frequency=”${coord:days(1)}，则nominal时间为：2009-01-02T00:00Z、2009-01-03T00:00Z、2009-01-04T00:00Z、…、2010-01-01T00:00Z
${coord:actualTime()} Coordinator动作的实际创建时间。例如：start=”2011-05-01T24:00Z”，end=”2011-12-31T24:00Z”，frequency=”${coord:days(1)}”，则实际时间为：2011-05-01，2011-05-02，2011-05-03，…，2011-12-31
${coord:dateOffset(String baseDate, int instance, String timeUnit)} 计算新的日期时间的公式：newDate = baseDate + instance * timeUnit，如：baseDate=’2009-01-01T00:00Z’，instance=’2′，timeUnit=’MONTH’，则计算得到的新的日期时间为’2009-03-01T00:00Z’。

名称为logs的dataset实例频率为1天，它配置的初始实例时间为2009-01-07T24:00Z，则在input-events输入事件中开始实例（start-instance）时间为6天前，即2009-01-01T24:00Z，结束实例（end-instance）时间为当天时间。
后半部分中定义了action，其中${coord:dataIn(‘input’)}表示解析名称为input的输入事件所关联的URI（即HDFS上的文件或目录）。

Flink 1.12 yarn-cluster模式触发Savepoint with Yarn指定-yid报异常failed timeout问题及解决官方给出触发Savepoint with YARN的命令指定了-yid，测试后发现不应指定-yid。分析应该是早期版本需指定-yid，后期版本(至少Flink 1.12)不需要指定-yid，而官网文档未及时更新这个细节问题。
Drill-on-YARN之部署 ## 1. 概要 Drill是Apache旗下的一个开源SQL查询引擎，可用于探索大数据。它的设计初衷是为了支持对大数据的高性能分析，同时支持行业标准查询语言ANSI SQL。在Drill 1.13之前，Drill只支持独立集群部署，部署成功后每个节点上会运行一个名为Dirllbit的守护进程。从1.13版本开始，Drill支持与YARN集成来管理资源。使用YARN后，Drill将成为一
ZKFailoverController(ZKFC)是一个新的组件，它是一个ZooKeeper客户端，它还监视和管理NameNode的状态。运行NameNode的每台机器也运行ZKFC，他们之间是一对一的关系。
Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架使用 Oozie 协调器促进了相互依赖的重复工作之间的协调，您可以使用预定的时间或数据可用性来触发 Apache Oozie。

猜你喜欢

iOS点击发送短信按钮跳转到手机短信界面实现发送短信详解手机开发
不管黑猫白猫，带来业务成果就是好“猫”---IT消费新模式，FOD按需计费
Linux系统网络安装详解（linux系统网络安装）
你想快速成为一名黑客？那么猛戳这里！
Trino Summit 2022：Trino的现状和未来
视频融合平台EasyCVR电子放大功能的操作使用及注意事项
Chris Lamb 当选为 Debian 项目领导者
ASP中让Replace替换不区分大小写的方法
BASIC语言诞生50周年
掌握Linux系统下创建Shell脚本的要点（linux创建shell脚本）
SMTP设置_搭建邮件服务器的方法
spring定时任务详解（@Scheduled注解）
nginx支持.htaccess文件实现伪静态的方法分享
linux登录FTP：简单易行的连接过程（linux登录ftp）
提升Redis性能如何修改最大内存（修改redis最大内存）
计算数据比例轻松愉快，MySQL两行搞定（mysql两行求比例）

相关主题

Java--Path详解
闭包详解
WPF详解

zl程序教程

当前栏目

Oozie Coordinator使用及详解

相关文章