您现在的位置是：首页 > Java

当前栏目

Hive 如何修改分区列？

2023-02-18 16:34:22 时间

Hive 分区就是将数据按照数据表的某列或者某几列分为多个区域进行存储，这里的区域是指 hdfs 上的文件夹。按照某几列进行分区，就是说按照某列分区后的数据，继续按照不同的分区列进行分区。创建分区后，指定分区值即可直接查询该分区的数据，能够有效提高查询性能。

那么，如果分区列指定错了，可以进行修改吗？很遗憾，是不能直接对分区列进行修改的，因为数据已经按照分区列进行存储了。只能通过迂回的方式实现。下面介绍一种实现方式，操作步骤如下：

创建新的分区表

因为是要修改分区，所以不能通过如下方式创建分区表（这种方式分区不变）

CREATE TABLE new_table_name like old_table_name;

这里，我们先通过 SHOW CREATE old_table_name 得到原表的建表语句。

> show create  table old_table_name;
OK
createtab_stmt
CREATE TABLE `old_table_name`(
  `login_id` string,
  `login_name` string,
  `login_date` string) -- 注意看这里
PARTITIONED BY (
  `updatetime` string) -- 注意看这里
ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'field.delim'='\t',
  'serialization.format'='\t')
STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://hadoop102/user/hive/warehouse/test.db/old_table_name'
TBLPROPERTIES (
  'transient_lastDdlTime'='1671350905')
Time taken: 0.045 seconds, Fetched: 20 row(s)

然后修改其分区字段及原分区列，用新的 SQL 语句创建新的分区表。

> CREATE TABLE `new_table_name`(
  `login_id` string,
  `login_name` string,
  `updatetime` string) -- 注意看这里
PARTITIONED BY (
  `login_date` string) -- 注意看这里
ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'field.delim'='\t',
  'serialization.format'='\t')
STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
OK
Time taken: 0.048 seconds

此处，通过建表语句的调整实现了分区列的调整。

将旧分区表数据插入到新分区表

由于原分区表中，分区数可能有很多，通过手动指定分区的方式复制数据并不可取，Hive 开发者也预料到了这个需求场景，并提供了动态分区，动态分区简化了我们插入数据时的繁琐操作。

开启动态分区

set hive.exec.dynamic.partition=true;

修改动态分区模式为不严格（默认值 strict）

set hive.exec.dynamic.partition.mode=nonstrict;

修改一个 DML 操作可以创建的最大动态分区数（默认值 1000）

set hive.exec.max.dynamic.partitions=100000;

修改每个节点生成动态分区的最大个数（默认值 100）

set hive.exec.max.dynamic.partitions.pernode=10000;

修改一个 DML 操作可以创建的最大文件数，默认是（默认值 100000）

set hive.exec.max.created.files=150000;

将原表数据插入到新的动态分区表

INSERT OVERWRITE INTO new_table_name PARTITION (login_date)
SELECT login_id, login_name, updatetime, login_date
FROM old_table_name

删除原表

TRUNCATE TABLE old_table_name;

DROP TABLE old_table_name;

按照新分区表 SQL 语句创建原表

CREATE TABLE `old_table_name`(
  `login_id` string,
  `login_name` string,
  `updatetime` string) -- 注意看这里
PARTITIONED BY (
  `login_date` string) -- 注意看这里
ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
  'field.delim'='\t',
  'serialization.format'='\t')
STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

将新分区表中的数据插入到原表

INSERT OVERWRITE INTO old_table_name PARTITION (login_date)
SELECT *
FROM new_table_name

至此，通过新分区表的中转实现了原表分区列的修改，可以说非常麻烦，所以，建议大家建表的时候审慎检查，尽量减少分区列的调整。

end

如果今天的分享对你有帮助的话，请毫不犹豫的三连吧~~~

你的鼓励就是我创作的动力。

猜你喜欢

#include <> 和 #include "" 的区别
<三>自定义删除器
<六>无序关联容器
<九>函数对象
<五>详解容器适配器
<十>泛型算法和绑定器
<七>有序容器
<八>容器迭代器
<四>vector、deque、list对比
<三>deque容器和list容器
<一>C++ STL
<二>vector向量容器
<四>关于lock_guard和unique_lock
<五>基于CAS操作的atomic原子类型
<三>线程间同步通信-生产者消费者模型
<二>线程间互斥-mutex互斥锁和lock_guard
<一>通过thread类编写C++多线程程序
<八>lambda表达是应用实践
<七>lambda表达式实现原理
<六>关于bind & 通过bing 和function实现线程池

zl程序教程