Kettle解析HDFS文件进行----字段拼接、字符的替换、IP校验
2023-09-11 14:22:11 时间
目录
1、字段的拼接
字段的拼接使用 JS 脚本实现,JS脚本在 Kettle 中使用起来很是方便,目前我使用 JS 实现过 IP 校验、字段拼接、文件移动。
var a = Id + "-" + Type
var Type = a
2、字段串替换
此处我是简单的使用,数据清洗不是很复杂没有使用到正则表达式。
3、IP校验
1、IP校验的JS代码
var reg = /^((\d)|([1-9]\d)|(1\d{2})|((2[0-4]\d)|(25[0-5])))(\.((\d)|([1-9]\d)|(1\d{2})|((2[0-4]\d)|(25[0-5])))){3}$/;
if (reg.test(IP) == true){
var flag = 1
}else {
var flag = 2
}
2、JavaScript 函数 组件
HDFS 文件获取后,选择 JS脚本组件,在 Input fields 中可以看到接收到的字段。
3、过滤记录
使用 过滤记录 组件过滤掉不合法的IP
过滤记录的使用说明,过滤记录 组件的使用在 业务分离是很好用的,尤其是对正则匹配、字段的过滤。
相关文章
- linux环境中 1秒内 创建一个超级大文件(100G)的方法
- Hive-文件存储格式
- Visual Studio 2017 - Windows应用程序打包成exe文件(2)- Advanced Installer 关于Newtonsoft.Json,LINQ to JSON的一个小demo mysql循环插入数据、生成随机数及CONCAT函数 .NET记录-获取外网IP以及判断该IP是属于网通还是电信 Guid的生成和数据修整(去除空格和小写字符)
- jquery插件--ajaxfileupload.js上传文件原理分析
- 补:小玩文件1-统计文本文件里的字符个数
- 调用资产assist中的文件出现的问题
- C/C++的“文件包含”处理时头文件被重复包含的问题探究及解决方法(用最简单的例子进行说明)
- Linux command chcon 修改文件安全上下文
- 4.1.6 文件的基本操作
- [转]html页面调用js文件里的函数报错onclick is not defined处理方法
- CVE-2021-36749 Apache Druid LoadData 任意文件读取漏洞
- 0.2秒居然复制了100G文件?
- 《Hadoop MapReduce实战手册》一2.11 在HDFS中合并文件
- 文件上传和字段匹配
- 使用 Linux 命令来获取输入文件中特定字符的出现次数
- SpringBoot之修改单个文件后立刻生效
- python第二十九课——文件读写(读取读取中文字符)
- 【Linux】Linux 文件中^M字符处理
- C#中【pdb】文件
- C#读取文件或者字符流的最后几行,类似linux的tail命令-OK