Hadoop开发中常用工具用法解析
本节和大家学习一下Hadoop开发中常用的工具InputFormat和OutputFormat使用,相信通过本节的学习大家能够掌握更多关于Hadoop开发方面的知识,让我们一起来学习吧。首先我们来看一下Hadoop的概念。
Hadoop概念
一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更
容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用
来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX
的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。下面我们开始介绍Hadoop开发中常用的工具InputFormat和OutputFormat。
InputFormat和OutputFormat
Hadoop中的MapReduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个MapReduce程序都离不开他们。
Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。TextInputFormat用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置
(偏移量,LongWritable类型),value是每一行的内容,Text类型。KeyValueTextInputFormat同样用于读取文件,如果行被分隔符(缺省是tab)分割为两部分,***部分为key,剩下的部分为
value;如果没有分隔符,整行作为key,value为空SequenceFileInputFormat用于读取sequencefile。sequencefile是Hadoop用于存储数据自定义格式的binary文件。它有两个子类:
SequenceFileAsBinaryInputFormat,将key和value以BytesWritable的类型读出;SequenceFileAsTextInputFormat,将key和value以Text的类型读出。SequenceFileInputFilter根据filter从
sequence文件中取得部分满足条件的数据,通过setFilterClass指定Filter,内置了三种Filter,RegexFilter取key值满足指定的正则表达式的记录;PercentFilter通过指定参数f,取记录行数%
f==0的记录;MD5Filter通过指定参数f,取MD5(key)%f==0的记录。NLineInputFormat0.18.x新加入,可以将文件以行为单位进行split,比如文件的每一行对应一个map。得到的key是每一行
的位置(偏移量,LongWritable类型),value是每一行的内容,Text类型。CompositeInputFormat,用于多个数据源的join。TextOutputFormat,输出到纯文本文件,格式为key+""+value。
NullOutputFormat,hadoop中的/dev/null,将输出送进黑洞。
SequenceFileOutputFormat,输出到sequencefile格式文件。MultipleSequenceFileOutputFormat,MultipleTextOutputFormat,根据key将记录输出到不同的文件。DBInputFormat和
DBOutputFormat,从DB读取,输出到DB,预计将在0.19版本加入。本节关于Hadoop开发中常用InputFormat和OutputFormat相关内容介绍到这里。
【编辑推荐】
相关文章
- 直接在代码里面对list集合进行分页
- .NET Framework 4.5新特性详解
- 大数据的简要介绍
- 大数据的由来
- 高斯混合模型的自然梯度变量推理
- timing-wheel 仿Kafka实现的时间轮算法
- 使用Navicat软件连接自建数据库(Linux系统)
- 那一天,我被Redis主从架构支配的恐惧
- Redis 深入了解键的过期时间
- C#使用委托调用实现用户端等待闪屏
- 基于流计算 Oceanus 和 Elasticsearch Service 构建百亿级实时监控系统
- GRAND | 转录调控网络预测数据库
- JFreeChart API中文文档
- 临床相关突变查询数据库
- TIGER | 人类胰岛基因变化查询数据库
- 视频边缘计算网关EasyNVR在视频整体监控解决方案中的应用分析
- Apache Arrow - 大数据在数据湖后的下一个风向标
- 常见的电商数据指标体系
- AKShare-艺人数据-艺人流量价值
- MySQL中多表联合查询与子查询的这些区别,你可能不知道!