您现在的位置是：首页 > 大数据

当前栏目

Hadoop 2.x简介

hadoop 简介

2023-09-11 14:14:34 时间

Hadoop 2.0产生背景

Hadoop1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题
HDFS存在的问题
- NameNode单点故障，难以应用于在线场景
- NameNode压力过大，且内存受限，影响系统扩展性
MapReduce存在的问题
- JobTracker访问压力大，影响系统扩展性
- 难以支持除MapReduce之外的计算框架，比如Spark 、Storm等

　MapReduce是离线计算框架，计算时间会比较长
　Spark是内存计算框架，更快
　Storm是流计算框架，可实时获取计算结果

Hadoop 1.x 与Hadoop 2.x

Hadoop 2.x由HDFS、MapReduce和YARN三个分支构成
- HDFS : NN Federation、HA;
- MapReduce : 运行在YARN上的MR
- YARN : 资源管理系统（内存、CPU资源）

Federation把元数据分成两个独立的NameNode去工作。
YARN知道任何一台机器的使用情况，在执行任务的时候，首先去YARN上申请，YARN 分配到某台机器上去执行，可做到资源不浪费

HDFS存储的数据可由MapReduce进行计算，也可以由其它的计算框架计算

HDFS 2.x优点

解决HDFS 1.0中单点故障和内存受限问题
解决单点故障
- HDFS HA : 通过主备NameNode解决（只有一个NameNode正常工作，其它都是备用）
- 如果主NameNode发生故障，则切换到备NameNode上
解决内存受限问题
- HDFS Federation(联邦)
- 水平扩展，支持多个NameNode
- 每个NameNode分管一部分目录（相互独立）
- 所有NameNode共享所有DataNode存储资源
2.x仅是架构上发生了变化，使用方式不变
对HDFS使用者透明
HDFS 1.X中的命令和API仍可以使用

猜你喜欢

使用JUnit高效完成功能测试
2017年中国物联网行业市场现状分析及应用领域市场需求分析
2022国产GIS软件排名
JavaScript学习12.1
基于Java+MySQL实现（Web）半自动标注系统【100010422】
源代码解说ActionBar的各种使用方法
测试人生 | 00后0经验应届毕业生拿下2线城市15W offer，好励志~
92Echarts - 地理坐标/地图（A Hiking Trail in Hangzhou - Baidu Map）
博客园博客修改模板的CSS
JSON Web令牌(JWT)详解
/system/bin/sh: disable-verity: not found
zabbix_监控_邮件预警
php调用c/c++的一种方式
Java_正确理解ThreadLocal
《云数据管理：挑战与机遇》一第二章
使用 nice、cpulimit 和 cgroups 限制 cpu 占用率
正则表达式-贪婪与非贪婪模式
$.ajax()引发的对Deferred的总结

相关主题

Hadoop面试题
Hadoop 简介
Hadoop 概述
Hadoop伪分布式的安装

zl程序教程

当前栏目

Hadoop 2.x简介

Hadoop 2.0产生背景

Hadoop 1.x 与Hadoop 2.x

HDFS 2.x优点

相关文章