数仓工具—Hive进阶之优化reduce任务数量(10)
工具 优化 10 任务 进阶 hive 数量 数仓
2023-09-11 14:15:37 时间
优化 reduce 任务数量
前面我们介绍过了,如何控制map 的数量,以及为什么要控制map 的数量,具体可以参考前面的文章,Hive进阶之优化map任务数量,最终我们得到了一个结论,那就是使大数据量利用合适的map数;使单个map任务处理合适的数据量,这个就可以作为我们调节map 任务数的原则。
今天我们看一下如何优化 reduce 任务数量
为什么要控制reduce 数量
其实为什么要控制reduce 数量和为什么要控制map 数量是一样的,reduce 数量太少,每个reducer 处理的数据太多就会导致任务运行太慢,而且还会经常出现数据倾斜。
同理如果reduce 数量太多,就会导致每个reducer 的启动时间远大于数据处理时间,从而导致资源浪费,也就是reduce的个数设置其实对执行效率有很大的影响:
- 如果reduce太少: 如果数据量很大,会导致这个reduce异常的慢,从而导致这个任务不能结束,也有可能会OOM
- 如果reduce太多: 产生的小文件太多,合并起来代价太高,namenode的内存占用也会增大。
影响reduce 数量的参数
我们每次执行hive的hql时,shell里都会提示一段话,其实从这段话里面我们就能大致知道如何调节reduce的数量
Number of reduce tasks not s
相关文章
- SOAR SQL进行优化和改写的自动化工具
- 【荐】PHP采集工具curl快速入门教程
- 小程序 web 端实时运行工具
- 阿里云首家通过《可信云·云成本优化工具能力要求》评估,云原生企业 IT 成本治理方案助力企业 FinOps 落地
- 阿里巴巴在开源压测工具 JMeter 上的实践和优化
- 十个不错的 Linux 网络监视工具
- [工具] 各种主流 SQLServer 迁移到 MySQL 工具对比
- React性能检测优化工具
- 【Teradata】配置PE和AMP(congfig和reconfig工具、vprocmanager)
- Web版 PK 客户端SQL工具,谁代表未来趋势?
- 使用Chrome开发者工具研究SAP UI5应用里的Odata请求
- 一个SAP CRM WebClient UI component元数据的解析工具
- Algorithm:机械优化设计的数学模型简介、常用优化方法、优化计算工具简介之详细攻略
- LTE路测优化工具介绍
- Pytorch可视化工具tensorboardX(安装不踩坑)
- 【Android 逆向】ApkTool 工具使用 ( ApkTool 简介 | ApkTool 解包和打包 )
- 【Android 内存优化】Android Profiler 工具常用功能 ( 监测内存 | 内存快照 )
- 【Android 性能优化】布局渲染优化 ( GPU 过度绘制优化总结 | CPU 渲染过程 | Layout Inspector 工具 | View Tree 分析 | 布局组件层级分析 )
- 【Android 性能优化】布局渲染优化 ( 过渡绘制 | 自定义控件过渡绘制 | 布局文件层次深 | GPU 过渡绘制调试工具 | 背景过度绘制 )
- java使用DBCP连接池创建工具类
- Appium基础 — Appium Inspector定位工具(一)
- 大数据Hadoop之——数据同步工具DataX
- python工具方法 6 在jupyter服务器环境下压缩文件夹
- Linux 性能优化 工具mpstat 多核CPU性能分析工具