您现在的位置是：首页 > 其他

当前栏目

Hadoop HDFS 读写流程

流程 hadoop HDFS 读写

2023-09-14 09:14:49 时间

Hadoop HDFS 读写流程

HDFS 写流程
HDFS 读流程

HDFS 写流程

HDFS 的写数据流程 :

客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件， NameNode 检查目录 , 文件是否已存在
NameNode 返回是否可以上传
客户端请求 Block 上传到哪几个 DataNode 服务器上
NameNode 返回 3 个 DataNode 节点，分别为 dn1、 dn2、 dn3
客户端通过 FSDataOutputStream 模块请求 dn1 上传数据， dn1 收到请求会再调 dn2，然后 dn2 调用 dn3，将这个通信管道建立完成
dn1、 dn2、 dn3 逐级应答客户端
客户端开始往 dn1 上传 Block (单位 : Packet)（从磁盘读取到内存缓存），dn1 每收到个 Packet 就会传给 dn2， dn2 传给 dn3； dn1 每传个 packet 会放入一个应答队列等待应答
当 Block 传输完成后，客户端会再请求 NameNode 上传另外 Block 的服务器。（重复执行 3-7 步）

代码分析 :

网络拓扑

HDFS 写数据时， NameNode 会选择距离 Clinet 最近 DataNode 接收数据

节点距离：两个节点到达最近的共同祖先的距离总和

节点距离计算 : 如 : 数据中心 d1 机架 r1 中的节点 n1 , 该节点表示为 /d1/r1/n1

情况	集群	机架	节点	距离	情况
设备1	d1	r1	n0	0	同一节点上的进程
设备2	d1	r1	n0

设备1	d1	r1	n0	2	同一机架上的不同节点
设备2	d1	r1	n2

设备1	d1	r1	n0	4	同一数据中心不同机架上的节点
设备2	d1	r2	n0

设备1	d1	r1	n0	6	不同数据中心的节点
设备2	d2	r1	n0

机架感知

http://hadoop.apache.org/docs/r3.1.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#Data_Replication

副本放置策略 (副本 : 3) :

副本1 : Client 的节点上。当客户端在集群外，随机选 ( 快速写入 )
副本2 : 另个机架的随机一个节点 ( 应对交换机故障 )
副本3 : 副本2 的机架的随机节点 ( 减少跨 rack 的网络流量 )

此策略好处 :

减少了机架间写入流量，提高写入性能
不影响数据可靠性和可用性 , 因为机架故障的几率远小于节点故障
减少了读取数据时 , 使用的总网络带宽，因为一个块只放置在两个独特的机架中，而不是三个
文件的副本并非均匀分布在机架上。1 / 3 的副本在一个节点上，1 / 3 的副本在一个机架上，1/ 3 均匀分布在剩余的机架上

源码说明

Idea 中

org.apache.hadoop.hdfs.server.blockmanagement;

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-hdfs</artifactId>
    <version>3.1.3</version>
</dependency>

Crtl + n 查找 BlockPlacementPolicyDefault ，在该类中查找 chooseTargetInOrder 方法

protected Node chooseTargetInOrder() {
	int numOfResults = results.size();
	if (numOfResults == 0) {
		// 本地
		DatanodeStorageInfo storageInfo = this.chooseLocalStorage();
	}
	if (numOfResults <= 1) {
		// 远程
		this.chooseRemoteRack();
	}
	if (numOfResults <= 2) {
		if (this.clusterMap.isOnSameRack(dn0, dn1)) {
			// 上一个本地, 这就远程
		   this.chooseRemoteRack();
		} else if (newBlock) {
			// 本地
		   this.chooseLocalRack();
		} else {
			// 本地
		   this.chooseLocalRack();
		}
	}
}

HDFS 读流程

读流程 :

客户端通过 DistributedFileSystem 向 NameNode 请求下载文件， NameNode 通过查询元数据，找到文件块所在的 DataNode 地址
选一台 DataNode (就近原则，数据量大就会随机)，请求读取数据
DataNode 开始传输数据给客户端（从磁盘读到输入流，以 Packet 为单位来做校验）
客户端接收数据 ( 单位: Packet)，先在本地缓存，然后写入目标文件

猜你喜欢

Microsoft Edge 90稳定版发布：引入儿童模式优化下载体验
东芝电视参展UDE2021，高端OLED旗舰领衔探未来新生活
微软官方预热展示 Win11 画图全新设计：现代图标、圆角 UI，浅/深色主题
babel源码详解-v1.7.8
加拿大新品牌Oracle公司入驻（oracle公司加拿大）
电子商务系统开发(笔记一）[通俗易懂]
java字符串反转示例分享
【Android Gradle 插件】ProductFlavor 配置 ( AppExtension#externalNativeBuild 配置 | cmake 配置 | ndkBuild 配置 )
三维动画软件MAYA最新中文版，玛雅maya2023软件安装教程下载
Oracle 视图 V$QMON_COORDINATOR_STATS 官方解释，作用，如何使用详细说明
引领未来Oracle ASIN技术（oracle asin）
如何修改su oracle用户的密码？（suoracle密码）
推特CEO领导的支付公司SQUARE目前已经开始研发比特币硬件钱包
Linux C编程：如何安全保存文件（linux c 保存文件）
中国各城市首轮感染高峰期预测！
使用 Scrapy + Selenium 爬取动态渲染的页面

相关主题

Python 流程控制
MySQL 流程控制
iOS 开发流程
app开发流程
敏捷开发流程
SQL流程控制
iOS上架流程
源码流程解析
git 流程
SpringMVC执行流程
Spring MVC执行流程
Linux 内核启动流程
Java控制流程
从架构到流程
程序的流程

zl程序教程

当前栏目

Hadoop HDFS 读写流程

Hadoop HDFS 读写流程

HDFS 写流程

网络拓扑

机架感知

源码说明

HDFS 读流程

相关文章