对比mysql和hive:分组,取不同组前几条记录-explode函数的使用
2023-03-15 23:29:32 时间
1、数据源如下
id,name,age,favors(爱好)
1,huangxiaoming,45,a-c-d-f
2,huangzitao,36,b-c-d-e
3,huanglei,41,c-d-e
4,liushishi,22,a-d-e
5,liudehua,39,e-f-d
6,liuyifei,35,a-d-e
2、建表语句
create table mian6(
id int,
name string,
age int,
favors string
)row format delimited fields terminated by ",";
3、加载数据
load data local inpath "/home/hadoop/apps/mian6.txt" into table mian6;
4、需求如下
- 求出每种爱好中,年龄最大的两个人(爱好,年龄,姓名)
5、实现步骤如下
1)创建一个表mian6_1,存储使用explode炸裂favors后的结果。
create table mian6_1 as
select
m.id id,
m.name name,
m.age age,
m.favors favors,
tf.hobby hobby
from
mian6 m
lateral view explode(split(m.favors,"-")) tf as hobby;
explode炸裂favors后的结果如下:
2)查询出,每个兴趣内部的排名(每个兴趣内部,按照age降序排列)。
select
m.hobby,
m.name name,
m.age age,
m.favors favors,
row_number() over(partition by hobby order by age desc) index
from
mian6_1 m;
查询结果如下:
3)在第二步的基础上,挑选出每个兴趣内部,排名前二的2条记录。
select
a.hobby,
a.name,
a.age,
a.favors
from
(select m.name name,m.hobby hobby,m.age age,m.favors favors,
row_number() over(partition by hobby order by age desc) index
from mian6_1 m)a
where a.index<=2;
查询结果如下:
相关文章
- 从本体论开始说起——运营商关系图谱的构建及应用
- 如何成为一名数据科学家?
- 从未见过的堂兄杀了人,你的DNA是关键证据
- 20个安全可靠的免费数据源,各领域数据任你挑
- 20个安全可靠的免费数据源,各领域数据任你挑
- 阿里云李飞飞:All in Cloud时代,云原生数据库优势明显
- 基于Hadoop生态系统的一高性能数据存储格式CarbonData(性能篇)
- 大数据告诉你:10年漫威,到底有多少角色
- TigerGraph:实时图数据库助力金融风控升级
- Splunk利用Splunk Connected Experiences和Splunk Business Flow 扩大数据访问
- 大数据开发常见的9种数据分析手段
- 以免在景区看人,我爬了5W条全国景点门票数据...
- 【实战解析】基于HBase的大数据存储在京东的应用场景
- 数据科学家告诉你哪些计算机科学书籍是你应该看的
- Kafka作为大数据的核心技术,你了解多少?
- Spring Boot 整合 Redis 实现缓存操作
- 大数据学习必须掌握的五大核心技术有哪些?
- 基于Antlr在Apache Flink中实现监控规则DSL化的探索实践
- 甲骨文再次被Gartner评为分析型数据管理解决方案魔力象限领导者
- 爬取吴亦凡微博102118条转发数据,扒一扒流量的真假