解读分布式调度平台Airflow在华为云MRS中的实践
2023-02-18 15:28:54 时间
摘要:Airflow是一个使用Python语言编写的分布式调度平台,通过DAG(Directed acyclic graph 有向无环图)来管理任务。
本文分享自华为云社区《分布式调度平台Airflow在华为云MRS中的实践》,作者: 啊喔YeYe 。
介绍
Airflow是一个使用Python语言编写的分布式调度平台,通过DAG(Directed acyclic graph 有向无环图)来管理任务,不需要知道业务数据的具体内容,设置任务的依赖关系即可实现任务调度。其平台拥有和Hive、Presto、MySQL、HDFS、Postgres等数据源之间交互的能力,并且提供了hook,使其拥有很好地扩展性。
MapReduce服务提供租户完全可控的企业级大数据集群云服务,可轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。Airflow对接MapReduce服务后,可依靠Airflow平台提供的命令行界面和一个基于Web的用户界面,可以可视化管理依赖关系、监控进度、触发任务等
环境准备
- 在华为云购买弹性云服务器ECS,用于安装运行Airflow,并绑定弹性公网IP,用于访问公网安装Airflow服务
- 已开通MRS 3.x普通集群
- 弹性云服务器ECS的虚拟私有云和安全组需与MRS普通集群一致,其公共镜像建议选择CentOS 8.2 64bit
安装Airflow
1. 登录已购买的Linux弹性云服务器,执行以下命令升级pip版本
pip3 install --upgrade pip==20.2.4
2. 安装Airflow以及创建登录Airflow的admin用户
使用vim 脚本名.sh新建脚本,写入如下内容并保存,使用sh 脚本名.sh执行脚本,执行完成后会创建登录Airflow的admin用户,并输入密码完成创建。本脚本会完成Airflow的安装以及创建登录Airflow的admin用户。脚本含义见注释。
# airflow needs a home, ~/airflow is the default, # but you can lay foundation somewhere else if you prefer # (optional) export AIRFLOW_HOME=~/airflow AIRFLOW_VERSION=2.0.1 PYTHON_VERSION="$(python3 --version | cut -d " " -f 2 | cut -d "." -f 1-2)" # For example: 3.6 CONSTRAINT_URL="https://raw.githubusercontent.com/apache/airflow/constraints-${AIRFLOW_VERSION}/constraints-${PYTHON_VERSION}.txt" # For example: https://raw.githubusercontent.com/apache/airflow/constraints-2.0.1/constraints-3.6.txt pip install "apache-airflow==${AIRFLOW_VERSION}" --constraint "${CONSTRAINT_URL}" # initialize the database airflow db init airflow users create \ --username admin \ --firstname Peter \ --lastname Parker \ --role Admin \ --email spiderman@superhero.org
3.执行以下命令启动Airflow WebServer
airflow webserver --port 8080 -D
![](https://pic2.zhimg.com/80/v2-72a0c9c0309f808cb2f5ca6fbbc80b11_720w.jpg)
4. 执行以下命令启动Airflow Scheduler
airflow scheduler -D
![](https://pic3.zhimg.com/80/v2-8587d2c3065cc4fe761581c92e6df04e_720w.jpg)
5. 访问Airflow WebUI
在本地浏览器输入“http://ECS弹性IP:8080”网址,进入Airflow WebUI登录界面
![](https://pic3.zhimg.com/80/v2-909bee974cce172d8b30307db24686be_720w.jpg)
登录之后:
![](https://pic1.zhimg.com/80/v2-08de11804480116405b706d4b5dcad98_720w.jpg)
提交spark作业至MRS
1. 参考安装客户端在运行Airflow的弹性云服务器ECS上安装MRS客户端
例如安装客户端到/opt/client目录下,安装命令:
sh ./install.sh /opt/client/ -o chrony
2. 在安装Airflow的目录下新建目录"dags"
如Airflow安装目录是“/root/airflow”,新建目录“/root/airflow/dags”
3. 新建提交Spark作业的Python脚本
在新建目录下使用vim 脚本名.py新建python脚本并保存,脚本内容如下:
from datetime import timedelta from airflow import DAG from airflow.operators.bash import BashOperator from airflow.operators.dummy import DummyOperator from airflow.utils.dates import days_ago args = { 'owner': 'airflow', } dag = DAG( dag_id='spark-pi', default_args=args, start_date=days_ago(200), schedule_interval='@once', dagrun_timeout=timedelta(minutes=300), tags=['spark'], ) run_this = BashOperator( task_id='run_on_yarn', # 其他组件命令参考MRS组件开发指南,将任务提交或运行命令替换到bash_command变量 bash_command='source /opt/client/bigdata_env;spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /opt/client/Spark2x/spark/examples/jars/spark-examples_2.11-2.4.5-hw-ei-302023.jar 10', #bash_command='echo "run"; echo 0 >> /tmp/test', dag=dag, ) run_this
4. 登录Airflow WebUI,单击“spark-pi”左侧的开关按钮,然后单击右侧的三角按钮运行
![](https://pic2.zhimg.com/80/v2-624154d96abf882dacf5e6cff3d2f18d_720w.jpg)
5. 登录Manager页面,选择“集群 > 服务 > Yarn > 概览”
6. 步单击“ResourceManager WebUI”后面对应的链接,进入Yarn的WebUI页面,查看Spark任务是否运行
![](https://pic4.zhimg.com/80/v2-8422f2160b248b9328d6a1204cfe016f_720w.jpg)
相关文章
- [Python] 函数基本
- [Python] 使用dict和set
- [Python] Python基础字符串
- Python 绑定:从 Python 调用 C 或 C++
- Python 没有函数重载?如何用装饰器实现函数重载?
- [oeasy]python0028_直接运行_修改py文件执行权限_设置py文件打开方式
- 这15个顶级Python库,你必须要试试!
- ikun必学!python 画一个简单的只因
- 技术实践:教你用Python搭建gRPC服务
- 带你掌握4种Python 排序算法
- 一文讲全了Python 类和对象内容
- 什么是Python中的套接字编程?
- [Python]介绍
- [Python]第一章(建议收藏)
- 【Python】第二章(条件语句和循环语句)
- [Python]第三章(字符串) ---【建议收藏】
- (一)Python基本语法元素
- (二)Python基础结构
- (四)Python: NumPy中的ndarry
- (五)Python:Pandas中的Series