您现在的位置是：首页 > 数据库

当前栏目

Hive的4种排序

排序

2023-03-31 11:04:32 时间

1、全局排序（Order by）

功能：全局排序，只有1个reducer（用1个Reduce Task完成全局排序，与设置的Reduce Task个数无关）

参数：ASC：升序（默认）　　DESC：降序

使用：order by放在select语句的结尾

例如：

　　--查询员工信息按工资降序排列

　　select * from emp order by sal DESC；

2、每个MapReduce内部排序（Sort by）

功能：很多情况下不需要全局排序，此时可以使用sort by。sort by为每个reducer产生一个排序文件，每个reducer内部进行排序，不对全局结果集进行排序

参数：设置reduce个数：set mapreduce.job.reduces=3;

例如：　　

　　--根据部门编号降序查看员工信息

　　select * from emp sort by deptno desc;

3、分区排序（Distribute by）

功能：类似mr中的自定义分区

使用：结合sort by使用，写在sort by语句之前

分区规则：根据分区字段的Hash码与reduce的个数进行模除后，余数相同的分到一个区

例如：

　　--先按照部门编号分区，再按照员工编号降序排序。

　　select * from emp distribute by deptno sort by empno desc;

4、Cluster by

功能：当distribute by和sorts by字段相同时，可以使用cluster by方式

使用：cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC

例如：

　　--以下两种写法等价

　　select * from emp cluster by deptno;

　　select * from emp distribute by deptno sort by deptno;

猜你喜欢

Python中的函数与方法以及Bound Method和Unbound Method
从本体论开始说起——运营商关系图谱的构建及应用
一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解
一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解
Flask中的请求上下文和应用上下文
深入探讨Java中的异常与错误处理
研究学习Kotlin的一些方法
如何成为一名数据科学家？
金融服务领域的大数据：即时分析
影响大数据、机器学习和人工智能未来发展的8个因素
从未见过的堂兄杀了人，你的DNA是关键证据
一文贯通python文件读取
数据显示Java热度持续下落，日子屈指可数？
从0开始构建一个属于你自己的PHP框架
如何将Hadoop集成到工作流程中？这6个优秀实践必看
2017年5月编程语言排行榜：Java与C语言优势正开始缩小
SEO公司使用大数据优化其模型的5种方法
Java多线程之内置锁与显示锁
关于Web Workers你需要了解的七件事
20个安全可靠的免费数据源，各领域数据任你挑

zl程序教程

当前栏目

Hive的4种排序

1、全局排序（Order by）

2、每个MapReduce内部排序（Sort by）

3、分区排序（Distribute by）

4、Cluster by

相关文章