技术分享 | OceanBase 数据处理之控制文件
作者:杨文
DBA,负责客户项目的需求与维护,会点数据库,不限于MySQL、Redis、Cassandra、GreenPlum、ClickHouse、Elastic、TDSQL等等。
本文来源:原创投稿
*爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。
1、问题描述
有时我们在导入导出数据时,需要对数据进行处理,来满足业务上的数据需求,此时需要使用控制文件配合导数工具来满足业务上不同数据的需求。
2、控制文件模板:
lang=java(
列名 字节偏移位置(可选) "预处理函数" 映射定义(可选),
列名 字节偏移位置(可选) "预处理函数" 映射定义(可选),
列名 字节偏移位置(可选) "预处理函数" 映射定义(可选)
);
简单示例:
lang=java
server=mysql/oracle
(
c1 "nvl(c1,'not null')" map(field_position),
c2 "none" map(field_position)
);
参数说明:
- field_position为导入的数据文件中预处理数据的列位置。
- 控制文件的命名规范:table_name.ctl,大小写与数据库中保持一致。
- 控制文件的内容要求列名的顺序与表中定义的列顺序保持一致,且列名大小写与表中的列名大小写保持一致。
3、使用案例:
3.1、测试数据:
cat /data/test/TABLE/test.dat
1@##oceanbase@##2023-01-12 15:00:00.0@##1@##ob@##1@##ob
2@##oceanbase@##2023-01-12 15:00:00.0@##2@##ob@##2@##ob
3@##oceanbase@##2023-01-12 15:00:00.0@##3@##ob@##3@##ob
create table test01 (
id int(10) not null primary key,
name varchar(10),
time timestamp not null default '1971-01-01 01:01:01',
blank varchar(255) null
);
create table test02 (
id int(10) not null primary key,
name varchar(10) not null,
time timestamp not null,
bar varchar(255) default null,
blank varchar(255) default null,
line varchar(255) default null,
mark varchar(255) default null,
test varchar(255) not null
);
3.2、案例1:
表列少于文本列:表全列导入。
控制文件:
vi /data/test01.ctl
lang=java(
id "none" map(1),
name "none" map(2),
time "none" map(3),
blank "none" map(5)
);
导入语句:
./obloader -h 10.186.60.94 -P 2883 -u root -p rootroot \
-c ywob -t mysql_yw_tent -D ywdb --table test01 --cut \
-f /data/test/TABLE/test.dat --log-path /data/ --external-data \
--replace-data --column-splitter '@##' --ctl-path /data/test01.ctl
输出结果:
All Dump Tasks Finished:
----------------------------------------------------------------------------------------------------
No.# | Type | Name | Count | Status
----------------------------------------------------------------------------------------------------
1 | TABLE | test01 | 3 | SUCCESS
-------------------------------------------------------------------------
可以看到是成功的。此时,我们进库再进行select查询数据进行验证,可以看到的确是成功的。
3.3、案例2:
表列少于文本列:表部分列导入。
控制文件:
vi /data/test01.ctl
lang=java(
id "none" map(1)
);
导入数据,可以看到报错信息:
Error:"Field 'id' doesn't have a default value"
修改控制文件:
vi /data/test01.ctl
lang=java(
id "none" map(1),
name "none" map(2)
);
此时再导入是成功的。
说明:
- 插入部分列时,需要为插入的每列,在参数文件中指定对应的文本列。
- not null列必须有对应的插入数据,或者是有缺省值。
3.4、案例3:
表列多于文本列:全列导入。
控制文件:
vi /data/test02.ctl
lang=java(
id "none" map(1),
name "none" map(2),
time "none" map(3),
bar "none" map(4),
blank "none" map(5),
line "none" map(6),
mark "none" map(7)
);
导入语句:
./obloader -h 10.186.60.94 -P 2883 -u root -p rootroot \
-c ywce -t mysql_yw_tent -D ywdb --table test02 --cut \
-f /data/test/TABLE/test.dat --log-path /data/ --external-data \
--replace-data --column-splitter '@##' --ctl-path /data/test02.ctl
输出结果:
All Dump Tasks Finished:
----------------------------------------------------------------------------------------------------
No.# | Type | Name | Count | Status
----------------------------------------------------------------------------------------------------
1 | TABLE | test02 | 3 | SUCCESS
----------------------------------------------------------------------------------------------------
可以看到是成功的。但是今天在另一个同版本的OB环境下意外的发现了一个怪事,竟然报错了:
Error: Column count doesn't match value count at row 1
报错信息:列数不匹配。
根据这种情况进行分析:发现JDK版本不一致。并且可以看到导入的数据文件比表结构少一列,数据文件以“@##”作为列分隔符,并且最后一列结尾没有分隔符。
解决:
方式1:修改控制文件:
vi /data/test02.ctl
lang=java(
id "none" map(1),
name "none" map(2),
time "none" map(3),
bar "none" map(4),
blank "none" map(5),
line "none" map(6),
mark "none" map(7),
test "none" map(1)
);
方式2:修改表结构,最后一个字段可以为null。
方式3:修改数据文件,在最后面添加‘@##’后缀。
3.5、在使用“obdumper+控制文件”导出数据时,也有可能会出现该报错信息:
Error: Column count doesn't match value count at row 1
可能的原因:数据库名大小写敏感,即数据库中的库名是小写,但是导出命令中写成了大写,导致控制文件中的配置内容不生效。
补充:
其实,还可以使用SUBSTR(char,position,length )进行截取处理数据;
示例:
SUBSTR('abc',0,3)
小建议:
数据导入后进行简单查看每个字段导入的数据是否是对应的。可能存在某些情况下数据导入了,但实际数据和字段并没有对齐,可能只是恰巧数据能存入对应字段。以及查看中文是否正常显示。
相关文章
- 脑机接口(BCI)与人工智能:仅用思想来控制周围事物是什么感觉?
- arduino连接ps2手柄控制智能小车实践记录-续
- 学校机房如何摆脱老师控制_怎么摆脱学校机房老师的控制
- CFC:一种功能强大的中心化防火墙控制工具
- SQLServer 错误 8996 对象 ID O_ID,索引 ID I_ID,分区 ID PN_ID,分配单元 ID A_ID(类型为 TYPE)的 IAM 页 P_ID 控制着文件组 FG_ID1 中的页,这些页应该在文件组 FG_ID2 中。 故障 处理 修复 支持远程
- Linux账号文件控制管理步骤详解
- Linux下控制文件覆盖权限的技巧(linux文件覆盖权限)
- 权限Linux文件夹:实现对用户权限控制的管理。(linux文件夹用户)
- Oracle数据库文件恢复控制实践(oracle控制文件恢复)
- Oracle重建控制文件:一键搞定(oracle重建控制文件)
- 查看Oracle数据库控制文件的方法(oracle查看控制文件)
- 控制Oracle数据库的安全管理:权限控制(oracle数据库的权限)
- 控制Oracle提升并发量控制管理(oracle并发量)
- Linux 的核心就是选择、控制和学习新知识
- Oracle备份控制文件:保障安全(oracle备份控制文件)
- 权限控制Linux 上的文件执行权限控制(linux文件可执行)
- Oracle 控制文件:数据安全的基石(oracle控制文件)
- 使用Linux控制LED:简单易用的电子控制方法(linux控制led)
- 利用Linux控制文件及修改时间(linux 文件 时间)
- Oracle控制文件备份及位置优化策略(oracle控制文件位置)
- Oracle数据库控制文件的重要性(oracle中控制文件)
- Oracle数据库三个控制文件的作用(oracle三个控制文件)
- 通过Redis路由表精确控制请求分发(redis路由表)
- Javascript正则控制文本框只能输入整数或浮点数