您现在的位置是：首页 > 大数据

当前栏目

Hadoop大数据——mapreduce中的Combiner/序列化/排序初步

hadoop 排序数据序列化 MapReduce 初步

2023-09-14 09:02:04 时间

mapreduce中的Combiner

（1）combiner是MR程序中Mapper和Reducer之外的一种组件
（2）combiner组件的父类就是Reducer
（3）Combiner和reducer的区别在于运行的位置：
Combiner是在每一个maptask所在的节点运行
Reducer是接收全局所有Mapper的输出结果；

mapreduce中的序列化

（1）Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系。。。。），所以很臃肿，不便于在网络中高效传输；
所以，hadoop自己开发了一套序列化机制（Writable），精简，高效
简单代码验证两种序列化机制的差别：

public class TestSeri {
	public static void main(String[] args) throws Exception {
		//定义两个ByteArrayOutputStream，用来接收不同序列化机制的序列化结果
		ByteArrayOutputStream ba = new ByteArrayOutputStream();
		ByteArrayOutputStream ba2 = new ByteArrayOutputStream();

		//定义两个DataOutputStream，用于将普通对象进行jdk标准序列化
		DataOutputStream dout = new DataOutputStream(ba);
		DataOutputStream dout2 = new DataOutputStream(ba2);
		ObjectOutputStream obout = new ObjectOutputStream(dout2);
		//定义两个bean，作为序列化的源对象
		ItemBeanSer itemBeanSer = new ItemBeanSer(1000L, 89.9f);
		ItemBean itemBean = new ItemBean(1000L, 89.9f);

		//用于比较String类型和Text类型的序列化差别
		Text atext = new Text("a");
		// atext.write(dout);
		itemBean.write(dout);

		byte[] byteArray = ba.toByteArray();

		//比较序列化结果
		System.out.println(byteArray.length);
		for (byte b : byteArray) {

			System.out.print(b);
			System.out.print(":");
		}

		System.out.println("-----------------------");

		String astr = "a";
		// dout2.writeUTF(astr);
		obout.writeObject(itemBeanSer);

		byte[] byteArray2 = ba2.toByteArray();
		System.out.println(byteArray2.length);
		for (byte b : byteArray2) {
			System.out.print(b);
			System.out.print(":");
		}
	}
}

mapreduce的排序初步

MR程序在处理数据的过程中会对数据排序，排序的依据是mapper输出的key

猜你喜欢

【MATLAB】单选框的使用
Service 启动Activity
CF 427D Match & Catch 求最短唯一连续LCS
ArcGIS三大文件格式解析
block、inline和inline-block
【转载】SwipeRefreshLayout源码解析
spark 提交任务到集群
SAP Spartacus RouteEvent，如何从localhost跳转到其他路由路径的
JAVA_the user operation is waiting怎么办
[RxJS] Reactive Programming - Sharing network requests with shareReplay()
JavaScript实现鼠标放上去之后高亮显示且隔行换色
IBASE Header change - access sequence
Fedora 35 编译安装FLEXPART 10.4 —— 筑梦之路
Object family not exist issue in Equipment download
Android驱动开发

相关主题

hadoop 参数
hadoop下载

zl程序教程

当前栏目

Hadoop大数据——mapreduce中的Combiner/序列化/排序初步

相关文章