zl程序教程

您现在的位置是:首页 >  数据库

当前栏目

《PostgreSQL服务器编程》一一1.6 数据清洗

2023-09-11 14:19:16 时间

本节书摘来自华章计算机《PostgreSQL服务器编程》一书中的第1章,第1.6节,作者:(美)Hannu Krosing, Jim Mlodgenski, Kirk Roybal 著
,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.6 数据清洗

我们注意到雇员的姓名经常会出现不一致的大小写。如果通过添加约束,大小写的一致性就很容易得以加强:
image

然而,更好的办法是只要确保名字被另存为大写字母就可以了。而完成这样的操作,最简单的办法就是通过触发器:
image

现在,针对新雇员的下一个set_salary()?函数调用,将会使用大写字母的形式插入emp_name:
image

由于大写的转换发生在触发器内部,因此函数返回仍然显示为小写的名字,但是在数据库中它却是大写的:image

在修复了现存的混合大小写的emp_names之后,我们可以通过添加约束的形式,确保以后所有的emp_names都会显示为大写。
image

如果这个行为需要用于更多的地方,一个合理的做法就是定义一个新类型u_text,而这个类型一直作另存为大写形式。针对这个方法,我们将在8.6.1节中做更深入的阐述。


数据库必知词汇:Sqoop Apache Sqoop是一个用于在Apache Hadoop和关系数据库等结构化数据存储之间高效传输大容量数据的开源工具。主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。此外,对于某些NoSQL数据库Sqoop也提供了连接器。