您现在的位置是：首页 > 数据库

当前栏目

面试官：Hive表有数据，但为什么 Iimpala 查询不到数据？

SQL 数据面试

2023-02-25 18:03:10 时间

张工是一名程序员，做java开发的，有两年多开发经验，有次到一家软件公司应聘大数据开发岗位，面试官问了他这样一个问题。

hive表有数据，但为什么impala查询不到数据?

你能说说这是什么情况导致的，有什么办法解决方案吗?

对于这个问题，我们不妨来回顾下，什么情况下hive表有数据，但impala没有数据的情况。

1. 问题描述

用insert overwrite方式往hive写入的数据，数据写入成功了，在hive查询是可以查到数据的，但在impala刷新元数据后，查询却没有查到，刚开始以为是元数据刷新不成功，再用命令

invalidate metadata table_name
refresh table_name

刷新成功后还是没有数据，返回结果为空。

2.问题追溯

往hive表写入数据sql里使用了union ，导致hdfs目录结构多了一层，本来数据是在分区第一层的，使用了union 后，数据存储到分区底下的文件夹了。

导致impala无法访问到具体数据。impala版本2.12，查看impala版本命令(impala-shell -v)

3.解决方案

在写入数据sql 后面加上 distribute by + 表中字段就可以了。

这是为什么呢，为什么加上distribute by +表中字段就可以了。

我们知道，distribute 是分配、分布的意思，顾名思义，hive中(distribute by + “表中字段”)关键字就是控制map输出结果的分发,相同字段的map输出会发到一个reduce节点去处理。

总结

hive表有数据，impala表没有数据，检查是否刷新元数据，操作命令：

invalidate metadata

refresh table_name。已经成功刷新元数据了，impala依然没有数据，检查写入hive sql 是否使用union方式，如果是，在sql 后面加上(distribute by + 表中字段 )。

拓展：

distribute by、sort by、cluster by

猜你喜欢

最长无重复子串
写技术博客的一些心得分享
Java 多线程（七）：线程池
Java 多线程（五）：锁（三）
Java 多线程（四）：锁（二）
Java 多线程（三）：锁（一）
Java 多线程（二）：并发编程的三大特性
线性时间非比较类排序
Java 多线程（一）：基础
合并k个已排序的链表
HDFS 高可用分布式环境搭建
合并两个有序数组
连续子数组的最大和
HDFS 分布式环境搭建
容器盛水问题
大数加法
HDFS 伪分布式环境搭建
设计LRU缓存结构
两数之和
使用单调栈来解决的一些问题

zl程序教程

当前栏目

面试官：Hive表有数据，但为什么 Iimpala 查询不到数据？

1. 问题描述

2.问题追溯

3.解决方案

总结

相关文章