您现在的位置是：首页 > 其它

当前栏目

Hive Tunning 补充关于bucket

关于 hive 补充

2023-09-14 09:00:25 时间

在前面的几篇文章当中一直有一个概念bucketing不清楚到底是怎么回事。网友南京-李先森给了他收集的一些资料，如下： Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个 Bucket 对应一个文件。如将 user 列分散至 32 个 bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的 HDFS 目录为：/ warehouse /xiaojun/dt =20100801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/ warehouse /xiaojun/dt =20100801/ctry=US/part-00020 这段描述是说用了bucket之后的，那为什么要用bucket，没说，本着认真负责的态度，我从网上搜索到了Oreilly《Programming.Hive》这本书，然后在里面找到了答案，现在发出来和大家分享一下。
首先回顾一下分区，分区是切分数据的一种比较方便的方法，比较常用的就是按照日期来进行切分，bucket（中文意思就是篮子，可以放鸡蛋，哈哈）其实也是一种切分数据的方法。
假设我们有一张日志表，我们需要按照日期和用户id来分区，目的是为了加快查询谁哪天干了什么，如下：

CREATE TABLE weblog (url STRING, source_ip STRING)

 PARTITIONED BY (dt STRING, user_id INT);

但是这里面用user_id去切分的话，就会产生很多很多的分区了，这些分区可大可小，这个数量是文件系统所不能承受的。在这种情况下，我们既想加快查询速度，又避免出现如此多的小分区，篮子（bucket）就出现了。具体的用法是：

CREATE TABLE weblog (user_id INT, url STRING, source_ip STRING)

 PARTITIONED BY (dt STRING)

 CLUSTERED BY (user_id) INTO 96 BUCKETS;

首先按照日期分区，分区结束之后再按照user_id把日志放在96个篮子，这样同一个用户的所有日志都会在同一个篮子里面，并且一个篮子里面有好多用户的日志。然后我们在插入数据的时候就要注意了，我们一定要设置hive.enforce.bucketing为true。

hive SET hive.enforce.bucketing = true;

hive FROM raw_logs

 INSERT OVERWRITE TABLE weblog

 PARTITION (dt=2009-02-25)

 SELECT user_id, url, source_ip WHERE dt=2009-02-25;

到此，bucket介绍完毕！
使用Spark 编码写入 hive 的过程中 hive字段乱码 [解决方案] 由于元数据中的表结构中包含中文，我在抽取到spark过程中已经解决了一次乱码问题，具体显示为问题？？？？,解决方法是在mysql连接上加参数 spark 字段乱码

猜你喜欢

MFC Windows 程序设计[六十一]之实时调色板(附源码)
Java Swing JTextField：单行文本框组件
软件测试——测试执行规范&缺陷跟踪处理
Tomcat9.0.46 下载地址
002-localStorage和sessionStorage操作
C++读写文件之在Json数组追加元素(二十八)
win10下编译安装ncnn
手把手教你使用ModelArts的自动学习识别毒蘑菇分类
修改cargo镜像源
CSharpGL(48)用ShadowVolume画模型的影子
pmm-server 搭建
【C/C++学院】（23）Mysql数据库编程--C语言编程实现mysql客户端
测试小故事31：鼓励还是奖励

相关主题

关于热部署
关于 Webpack
关于人工智能
关于Nginx
关于尾递归

zl程序教程

当前栏目

Hive Tunning 补充关于bucket

相关文章

当前栏目

Hive Tunning 补充 关于bucket

相关文章

Hive Tunning 补充关于bucket