datax_web环境搭建
一 官方文档
datax
https://github.com/alibaba/DataX/blob/master/introduction.mdgithub.com
datax-web [https://github.com/WeiYe-Jing/datax-
web/blob/master/userGuid.md](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2FWeiYe-
Jing%2Fdatax-web%2Fblob%2Fmaster%2FuserGuid.md)
[使用DataX同步MaxCompute数据到TableStore(原OTS)优化指南-
InfoQ](https://links.jianshu.com/go?to=https%3A%2F%2Fwww.infoq.cn%2Farticle%2FrlQy_c79DH3B7HXFcrbF)
二 环境准备
windows python环境 datax项目 datax_web项目
我个人电脑环境
win10
python3.8.5 (或可python2环境)
datax项目
链接:https://pan.baidu.com/s/1KfRU5SJas0C94x84W6s5IQ
提取码:9aok (里面有一些使用说明)
datax_web项目
链接:https://pan.baidu.com/s/1cNcMqdQwdRJxABBBUNE2qA
提取码:xpaj
三 项目相关配置
1 datax项目
1.1 先配置 D:dataxjob 目录下的job中的reader、writer。就理解成用navicat新建mysql连接
1.2 在D:dataxin 目录下cmd 运行 datax.py 脚本,即可运行成功。
输入命令如:python D:dataxin>python D:dataxindatax.py D:dataxjobjob.json
运行如图:
运行成功后如下图:
注意:python2环境python3环境运行适配的脚本版本有所不同,可在官网下载。 官网python3脚本下载路径 [datax-
web/doc/datax-web/datax-python3 at master · WeiYe-Jing/datax-web ·
GitHub](https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2FWeiYe-
Jing%2Fdatax-web%2Ftree%2Fmaster%2Fdoc%2Fdatax-web%2Fdatax-python3)
2 datax_web项目
2.1 修改配置
D:IdeaProjectsdatax-webdatax-adminsrcmain esourcesapplication.yml
修改数据源配置
修改邮箱配置(可选)
修改打印日志配置
D:IdeaProjectsdatax-webdatax-executorsrcmain esourcesapplication.yml
修改端口、日志路径等相关配置
D:IdeaProjectsdatax-webdatax-adminsrcmain esourcesootstrap.properties
2.2 需要启动两个Application
DataXAdminApplication DataXExecutorApplication
2.3 打开网址
打开
http://10.1.28.108:8080/index.html
即可访问。
成功运行如图:
四 任务从开始到运行
1 项目管理中创建项目
2 执行器管理中新建执行器(建议采用手动录入的方式)
3 数据源管理中新建数据源
4 任务管理中Datax任务模板创建
5 任务构建
构建成功后会自动在任务管理中添加一个任务。 这时候可以打开进行编辑,内容如下
没啥问题就点击操作按钮
点击执行一次,之后点击查询日志即可看job的运行情况。
注意:如果重复执行会报存在脏数据,主键唯一。执行到一半停止再次执行的情况,正在测试。
6 任务批量构建
点击下一步就会批量创建完成。之后也可在任务管理中进行job的调整等。
相关文章
- 如何利用GitHub和开源贡献美化您的简历?
- 13个提高生产率的DevOps指标
- 保姆级教程,终于搞懂脏读、幻读和不可重复读了!
- 真的,千万不要给女朋友解释 什么是 “羊群效应”
- 一篇文章带你了解Go语言基础之并发(channel)
- 像Excel一样使用SQL进行数据分析
- 关于Alluxio中元数据同步的设计、实现和优化
- 这么先进的加密算法RSA你知道吗?
- 回顾 2020 年 GitHub 的大事件,你知道多少?
- GitHub率先消灭了cookies:与烦人的用户条款说再见
- 软件工程师必备的五种生产力增强方式与实践
- 一篇带给你SpringBoot + Spring Security入门
- 当你读代码时,你的大脑在做什么?
- 您需要知道的有关Selenium云端测试都在这里
- 还不懂Docker?一个故事安排的明明白白
- 速度数百倍之差,有人断言KNN面临淘汰,更快更强的ANN将取而代之
- 拥抱云原生,如何将开源项目用k8s部署?
- 为什么不建议使用 Time.Sleep 实现定时功能?
- 谁还不懂分布式系统性能调优,请把这篇文章甩给他~
- 都说代码注释是程序员必备技能,但是你这注释也太奇葩了吧!