您现在的位置是：首页 > 数据库

当前栏目

Hadoop开发中常用工具用法解析

文件输出数据分布式分布式开发

2023-04-18 14:50:50 时间

本节和大家学习一下Hadoop开发中常用的工具InputFormat和OutputFormat使用，相信通过本节的学习大家能够掌握更多关于Hadoop开发方面的知识，让我们一起来学习吧。首先我们来看一下Hadoop的概念。

Hadoop概念

一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更

容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性（fault-tolerent）的特点，并且设计用

来部署在低廉的（low-cost）硬件上。而且它提供高传输率（highthroughput）来访问应用程序的数据，适合那些有着超大数据集（largedataset）的应用程序。HDFS放宽了（relax）POSIX

的要求（requirements）这样可以流的形式访问（streamingaccess）文件系统中的数据。下面我们开始介绍Hadoop开发中常用的工具InputFormat和OutputFormat。

InputFormat和OutputFormat

Hadoop中的MapReduce框架依赖InputFormat提供数据，依赖OutputFormat输出数据；每一个MapReduce程序都离不开他们。

Hadoop提供了一系列InputFormat和OutputFormat方便开发，本文介绍几种常用的。TextInputFormat用于读取纯文本文件，文件被分为一系列以LF或者CR结束的行，key是每一行的位置

（偏移量,LongWritable类型），value是每一行的内容,Text类型。KeyValueTextInputFormat同样用于读取文件，如果行被分隔符（缺省是tab）分割为两部分，***部分为key，剩下的部分为

value；如果没有分隔符，整行作为key，value为空SequenceFileInputFormat用于读取sequencefile。sequencefile是Hadoop用于存储数据自定义格式的binary文件。它有两个子类：

SequenceFileAsBinaryInputFormat，将key和value以BytesWritable的类型读出；SequenceFileAsTextInputFormat，将key和value以Text的类型读出。SequenceFileInputFilter根据filter从

sequence文件中取得部分满足条件的数据，通过setFilterClass指定Filter，内置了三种Filter，RegexFilter取key值满足指定的正则表达式的记录；PercentFilter通过指定参数f，取记录行数%

f==0的记录；MD5Filter通过指定参数f，取MD5(key)%f==0的记录。NLineInputFormat0.18.x新加入，可以将文件以行为单位进行split，比如文件的每一行对应一个map。得到的key是每一行

的位置（偏移量,LongWritable类型），value是每一行的内容,Text类型。CompositeInputFormat，用于多个数据源的join。TextOutputFormat，输出到纯文本文件，格式为key+""+value。

NullOutputFormat，hadoop中的/dev/null，将输出送进黑洞。

SequenceFileOutputFormat，输出到sequencefile格式文件。MultipleSequenceFileOutputFormat,MultipleTextOutputFormat，根据key将记录输出到不同的文件。DBInputFormat和

DBOutputFormat，从DB读取，输出到DB，预计将在0.19版本加入。本节关于Hadoop开发中常用InputFormat和OutputFormat相关内容介绍到这里。

【编辑推荐】

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

Hadoop开发中常用工具用法解析

相关文章