您现在的位置是：首页 > 工具

当前栏目

数仓工具—Hive优化

工具优化 hive 数仓

2023-09-11 14:15:37 时间

数据过滤

行过滤

行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤，

列过滤

列处理：在SELECT中，只拿需要的列，如果有，**尽量使用分区过滤，少用SELECT ***。

map 个数

input目录的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；

如果一个任务有很多小文件（远远小于块大小128m），则每个小文件也会被当做一个块，用一个map任务来完成，而一个map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。而且，同时可执行的map数是受限的

是不是保证每个map处理接近128m的文件块，就高枕无忧了，答案也是不一定。比如有一个127m的文件，正常会用一个map去完成，但这个文件只有一个或者两个小字段，却有几千万的记录，如果map处理的逻辑比较复杂，用一个map任务去做，肯定也比较耗时

map 个数计算公式

在 MapReduce 的编程案例中，我们得知，一个MR Job的 MapTask 数量是由输入分片 InputSplit 决定的。而输入分片是由 FileInputFormat.getSp

猜你喜欢

PAT 1080 Graduate Admission C++版
QT 自定义音乐播放器
nginx参数优化杂记
LabVIEW编程LabVIEW控制PCI-9110A例程与相关资料
atitit..主流浏览器 js 引擎内核市场份额 attialx总结vOa9
Linux下安装Scim-googlepinyin输入法和设置Sublime Text中文输入
Javascript诞生记
【DB2】在AIX 上安装DB2 遇到空间不足的错误
因稳定、收缩强阿里云云数据库Redis（Kvstore）版获央视技术保障商点赞
[CSS3] Apply Image Filter Effects With CSS
storm简介
03基础自绘-04魔法小鱼-magicfish
开源之夏 2022 火热来袭 | 欢迎报名 OpenMLDB 社区项目~
使用Evtsys和Nxlog搭建syslog日志服务器
VMware 安装 OpenWrt 旁路由并配置 PassWall
sql中varchar（max），取代text类型
浅谈压缩感知（二十一）：压缩感知重构算法之正交匹配追踪（OMP）
C# 中的序列化
Python爬虫：requests多进程爬取猫眼电影榜单

相关主题

Java工具类
调试工具之GDB
MD5工具类
js小工具
【设计工具】
Hutool工具类
HTML5工具
自动生成工具
SQL优化工具
linux远程工具
在型原型工具
工具介绍
工具类方法
在线工具(转)
解压工具类
工具类的详解

zl程序教程

当前栏目

数仓工具—Hive优化

数据过滤

行过滤

列过滤

map 个数

map 个数计算公式

相关文章