Hive order by/sort by/distribute by/cluster by作用详解大数据
数据 详解 作用 by hive cluster Sort order
2023-06-13 09:20:27 时间
Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。
sort bysort by 只会对每一个reducer 中的数据进行排序,也就是执行一个局部的排序,这个可以保证每一个reducer的输出数据都是有序的(但并非全局有序)。这样可以提高后面进行全局排序的效率。
distribute bydistribute by 控制map的输出在reducer中是如何划分的。distribute by语句必须写在sort by语句之前。
cluster bycluster by的功能就是distribute by和sort by相结合。
原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/9572.html
分布式文件系统,分布式数据库区块链并行处理(MPP)数据库,数据挖掘开源大数据平台数据中台数据分析数据开发数据治理数据湖数据采集相关文章
- Django的ORM操作-查询数据
- Aloudata创始人周卫林:以NoETL叩开数据平台变革之门 | 数据猿专访
- 熠智科技CTO汤载阳:筑牢隐私计算基础底座,打通数据要素流通的任督二脉 | 数据猿专访
- 海量订单系统微服务开发:使用MongoDB支持海量数据
- R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标|附代码数据
- 用Python机器学习模型预测世界杯结果靠谱吗?附代码数据集
- Redis主从集群切换数据丢失的解决方案
- LINUX下Oracle数据导入导出的方法详解
- php连接redis的操作库predis操作大全详解大数据
- Hive学习之路 (十三)Hive分析窗口函数(一) SUM,AVG,MIN,MAX详解大数据
- 学习hadoop该去哪些网站,该读哪些书籍详解大数据
- Hive的安装部署详解大数据
- 利用Oracle循环删除数据(oracle循环删除)
- ABAP 数据字典中的参考表和参考字段的作用详解编程语言
- alv中,在条件过滤后,全选或取消全选时,会影响到所有数据(不仅仅过滤后的数据)的解决方法详解编程语言
- C++ vector删除元素(数据)详解
- 失效Redis Java驱逐过期键获取有效数据(redisjava过期)
- MySQL中处理二进制数据的方法(mysql二进制数据)
- MySQL加上注释保存数据的技巧(mysql加注释)
- mssql跨数据库同步:让数据同步无比简单(mssql 跨数据库同步)
- 强大的d3图表帮助企业提升运用Oracle数据的分析能力(d3图表 oracle)
- 简单快捷ES数据导出到Oracle(es数据导出oracle)
- 删除Redis清空数据库的简易方法(删除redis里面的数据)
- C++操作MySQL大量数据插入效率低下的解决方法