您现在的位置是：首页 > 后端

当前栏目

Hadoop大数据——MR程序map任务数的规划机制

Map 规划 hadoop 程序数据机制任务 MR

2023-09-14 09:02:04 时间

一个inputsplit对应一个map
而inputsplit切片规划是由InputFormat的具体实现子类来实现，就是调用
InputSplits[ ] getSplits() 方法，这个方法的逻辑可以自定义
在默认情况下，由FileInputFormat来实现，它的核心逻辑：
规划切片的大小

   long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job));
    long maxSize = getMaxSplitSize(job);
    public static long getMaxSplitSize(JobContext context) {
returncontext.getConfiguration().getLong(SPLIT_MAXSIZE, Long.MAX_VALUE);
      }

// mapreduce.input.fileinputformat.split.minsize  配置这个值可以让切片大小>块大小  
// mapreduce.input.fileinputformat.split.maxsize 配置这个值可以让切片大小<块大小

long splitSize = computeSplitSize(blockSize, minSize, maxSize);
//计算切片大小
protected long computeSplitSize(long blockSize, long minSize,long maxSize) {
    return Math.max(minSize, Math.min(maxSize, blockSize));
}

(2)构造切片信息对象，并放入InputSplits[ ]中

splits.add(makeSplit(path,length-bytesRemaining,splitSize,blkLocations[blkIndex].getHosts()));

注：FileInputFormat的切片机制是针对一个一个的文件进行，因此，如果文件太小，则整个文件划分为一个切片
如果一个大文件被切成若干个切片后，剩下的长度如果在blocksize的1.1倍大小以内，则将剩下的长度全部规划为一个切片

猜你喜欢

R语言多项逻辑回归-因变量是无序多分类
python基础知识思维导图总结
MIT 推出无人机设计系统，每个人都能 DIY 专属自己的“小灰机”
js输入中文效果
清理利用Redis Java实现自动过期清理（redisjava过期）
腾讯mssql：赋能企业IT技术系统的新星（腾讯mssql）
管理Optimizing Memory Utilization in Linux Servers（linux服务器内存）
使用 koa-generator 搭建项目
探索Oracle知识之旅（oracle 中文翻译）
让iframe框架网页在任何浏览器下自动伸缩
面MySQL数据操作：深度探索页面特性（mysql数据页）
自建直播间无从下手？Lighthouse给你新选择
MySQL：构建数据仓库的可靠基石（mysql一个库）
MySQL 日期比较：从年月到年月（mysql年月比较）
pytorch lstm训练例子_半对数模型参数的解释

相关主题

小程序map
JS中的map方法

zl程序教程

当前栏目

Hadoop大数据——MR程序map任务数的规划机制

相关文章