数仓工具—Hive优化
工具 优化 hive 数仓
2023-09-11 14:15:37 时间
数据过滤
行过滤
- 行处理:在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤,
列过滤
- 列处理:在SELECT中,只拿需要的列,如果有,**尽量使用分区过滤,少用SELECT ***。
map 个数
input目录的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);
如果一个任务有很多小文件(远远小于块大小128m),则每个小文件也会被当做一个块,用一个map任务来完成,而一个map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的map数是受限的
是不是保证每个map处理接近128m的文件块,就高枕无忧了,答案也是不一定。比如有一个127m的文件,正常会用一个map去完成,但这个文件只有一个或者两个小字段,却有几千万的记录,如果map处理的逻辑比较复杂,用一个map任务去做,肯定也比较耗时
map 个数计算公式
在 MapReduce 的编程案例中,我们得知,一个MR Job的 MapTask 数量是由输入分片 InputSplit 决定的。而输入分片是由 FileInputFormat.getSp
相关文章
- php性能优化(一)压力測试工具篇
- (《机器学习》完整版系列)第2章 模型评估与选择 ——2.8 学习器的比较(除用ROC等工具外,还可用统计检验手段)
- UEditorPlus v2.1.0发布 演示网站重构,浮动工具和表格双击优化
- ubuntu 安装截图工具 Shutter
- 数仓工具—Hive源码之SQL解析的应用SQL优化(9)
- Navicat Premium v16.2 大有不同 | 一个工具将轻松搞定Mysql+Redis等混合部署的管理开发需求
- 立等可取:工具定制让Oracle优化变得更简单快捷
- Linux性能优化2.2 Linux性能工具:CPU
- Linux性能优化3.2 Linux性能工具:CPU与内存
- kafka可视化客户端工具(Kafka Tool)的基本使用
- react无效渲染优化--工具篇
- EAP-MD5认证暴力破解工具eapmd5pass
- gshark-敏感信息搜集防泄漏图形化工具(避坑指南)
- 【更新】本地提权工具公开|CVE-2020-0796:微软发布SMBv3协议“蠕虫级”漏洞补丁通告
- Git工具使用
- 《Hadoop MapReduce性能优化》一2.3 性能监测工具
- 从Web服务器的攻击防御工具HttpGuard(防cc攻击等)看Web服务器的反爬虫设置 —— 如何优化爬虫的性能
- ubuntu 18.04系统下CPU实时频率查看工具 cpupower
- 【Unity优化】Unity Profile性能分析工具
- MapXtreme 2005 学习心得 工具(六)
- 网站性能工具-YSlow的23个规则-网站性能优化
- 开源的SQL查询优化工具--EverSQL