您现在的位置是：首页 > 大数据

当前栏目

Hadoop: Why Not Use RAID?

hadoop not use why Raid

2023-09-14 08:59:49 时间

一、针对hadoop集群的磁盘配置建议

针对datanode,建议采用一组单独的磁盘，针对namenode节点，建议采用raid5或raid1来实现针对metadata的冗灾。

二、针对此问题讨论的资料

针对此问题，两篇文章从不同角度论证为什么Hadoop更青睐JBOD而不是RAID-0。分别是：

Raid0的资料：

将多个磁盘合并成一个大的磁盘，不具有冗余，并行I/O，速度最快。RAID 0亦称为带区集。它是将多个磁盘并列起来，成为一个大磁盘。在存放数据时，其将数据按磁盘的个数来进行分段，然后同时将这些数据写进这些盘中，所以在所有的级别中，RAID 0的速度是最快的。但是RAID 0没有冗余功能，如果一个磁盘（物理）损坏，则所有的数据都会丢失，危险程度与JBOD相当。

理论上越多的磁盘性能就等于“单一磁盘性能”×“磁盘数”，但实际上受限于总线I/O瓶颈及其它因素的影响,详见：http://zh.wikipedia.org/wiki/RAID#RAID_0

RAID 0

Steve Loughran认为，其并不适合Hadoop。
与RAID-0阵列的同组管理相比，Hadoop更喜欢一组单独磁盘。在Hadoop集群中，读取速度是最能体现性能的重要指标。在Steve Loughran文章中，尤其强调了这一点，他还指出，由于驱动器速度显著不同，RAID-0读取速度往往取决于阵列中最慢的一块磁盘。很多时候，RAID-0配置读取速度甚至会比non-RAID更慢。更大的问题是可靠性。如果一组磁盘被配置为RAID-0阵列，一旦一个磁盘出现故障，将使得整组都宕机。如果所有磁盘都在一个节点中，那么势必会影响整个节点的数据都出现问题。所以，如果配置多个RAID-0阵列，那么单故障发生时，整体系统出问题的概率得到了无限放大

三、Hadoop：定义指导给出的建议

在Hadoop集群中，有一个建议：在配置时，将每个磁盘都分开。有人形象地将之称为“JBOD（Just a Box of Disks）

《Hadoop：The.Definitive.Guide》Chapter 9: Setting Up a Hadoop Cluster中，阐述了hadoop为什么不用raid, 及namenode,datanode应该使用的磁盘配置方式。原文如下：

猜你喜欢

Linux: TCP: socket: option: TCP_REPAIR_OPTIONS,TCP_REPAIR,TCP_REPAIR_QUEUE
仿IOS圆形下载进度条
poj 2528 Mayor's posters
SSH远程连接时环境变量问题
EasyDarwin+ffmpeg进行PC(摄像头+麦克风)流媒体直播服务
Java Lambda表达式初探
github pages帮助如何创建个人博客
视频出炉：4月15日《阿里云RDS MySQL分支深度定制实战分享》
Vmware克隆Centos6.5虚拟机网卡无法启动问题
h5转pb的两个坑
HTTP编译安装报错: AH00526: Syntax error on line 167 of /etc/httpd/httpd.conf:
Lazy Evaluation(延迟执行)
linux服务篇-Selinux服务
ListView 完全优化 + 多种listitem布局处理
ZooKeeper常用命令
UVA 10831 - Gerg's Cake(数论)
Dart基础第8篇：函数、箭头函数匿名函数闭包等
[React] Implement a Higher Order Component

相关主题

hadoop-2.10.0部署
一、hadoop部署
[Hadoop] MapReduce
hadoop集群安装
Hadoop面试
Hadoop入门
[Hadoop] HBase
Hadoop环境搭建
hadoop的概念
hadoop 参数
Hadoop 2.x简介
Hadoop 2.5.1编译
hadoop安装计
Hadoop分布式安装
Hadoop学习：
Hadoop——概述
hadoop下载
Hadoop详解

zl程序教程

当前栏目

Hadoop: Why Not Use RAID?

相关文章