zl程序教程

您现在的位置是:首页 >  其他

当前栏目

Hadoop2.3完全分布式安装与配置

2023-09-14 08:59:44 时间

1.高可靠性:Hadoop按位存储和处理数据

2.高扩展性:Hadoop是在计算机集群中完成计算任务,这个集群可以方便的扩展到几千台

3.高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度快

4.高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配

5.低成本:Hadoop是开源的,集群是由廉价的PC机组成

Hadoop架构和组件

Hadoop是一个分布式系统基础架构,底层是HDFS(Hadoop Distributed File System)分布式文件系统,它存储Hadoop集群中所有存储节点上的文件(64MB块),HDFS上一层是MapReduce引擎(分布式计算框架),对分布式文件系统中的数据进行分布式计算。

1.HDFS架构

NameNode:Hadoop集群中只有一个NameNode,它负责管理HDFS的目录树和相关文件的元数据信息

Sencondary NameNode:有两个作用,一是镜像备份,二是日志与镜像定期合并,并传输给NameNode

DataNode:负责实际的数据存储,并将信息定期传输给NameNode

2.MapReduce架构(Hadoop0.23以后采用MapReduce v2.0或Yarn)

Yarn主要是把jobtracker的任务分为两个基本功能:资源管理和任务调度与监控,ResourceManager和每个节点(NodeManager)组成了新处理数据的框架。

ResourceManager:负责集群中的所有资源的统一管理和分配,接受来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各种应用程序(ApplicationMaster)。

NodeManager:与ApplicationMaster承担了MR1框架中的tasktracker角色,负责将本节点上的资源使用情况和任务运行进度汇报给ResourceManager。


wKioL1MS0-vDQ_JSAABrjdkYbj0500.jpg

           MapReduce v1.0框架(图1)


wKioL1MS0_aRv39tAAELEZ6oI_U104.jpg

            MapReduce v2.0框架(图2)


环境介绍:

master-hadoop 192.168.0.201

slave1-hadoop 192.168.0.202

slave2-hadoop 192.168.0.203

最新稳定版:http://www.apache.org/dist/hadoop/core/hadoop-2.3.0/

JDK下载:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

参考官方文档:http://hadoop.apache.org/docs/r2.3.0/hadoop-project-dist/hadoop-common/ClusterSetup.html

Hadoop三种运行方式:单节点方式(单台)、单机伪分布方式(一个节点的集群)与完全分布式(多台组成集群)

二、准备环境

1.Hadoop是用Java开发的,必须要安装JDK1.6或更高版本

2.Hadoop是通过SSH来启动slave主机中的守护进程,必须安装OpenSSH

3.Hadoop更新比较快,我们采用最新版hadoop2.3来安装

4.配置对应Hosts记录,关闭iptables和selinux(过程略)

5.创建相同用户及配置无密码认证

三、安装环境(注:三台配置基本相同)

1.安装JDK1.7


Java(TM) SE RuntimeEnvironment (build 1.7.0_17-b02) Java HotSpot(TM) 64-BitServer VM (build 23.7-b01, mixed mode)

五、格式化文件系统并启动

1.格式化新的分布式文件系统(hdfs namenode -format)

wKiom1MS1DSiAgo4AAXvONDFnvs364.jpg

2.启动HDFS文件系统并使用jps检查守护进程是否启动

wKiom1MS1D7CRuM-AAL910T_7Zo320.jpg

wKioL1MS1ETy_saEAAA_Z9hlJyI709.jpg

可以看到master-hadoop已经启动NameNode和SecondaryNameNode进程,slave-hadoop已经启动DataNode进程说明正常。

3.启动新mapreduce架构(YARN)

wKiom1MS1JSTJYZuAAGsL2ftiq4313.jpg

wKioL1MS1HiSqDLnAABLaZvuy0c392.jpg

可以看到master-hadoop已经启动ResourceManger进程,slave-hadoop已经启动NodeManager进程说明正常。

4.查看集群状态

wKiom1MS1KfSbrq-AAFu2a1fmHQ432.jpg

5.通过web查看资源(http://192.168.0.201:8088)

wKiom1MS1NHwFfDFAAOdMhjRyTw847.jpg

6、查看HDFS状态(http://192.168.0.201:50070)

wKiom1MS1N2wI6cEAALawzAGv98814.jpg


Hadoop单机模式部署 支持Linux和Windows,但是个人觉得既然大部分生产环境都是Linux集群,索性就只关注Linux的部署即可,需要时再查就行,有兴趣可以看在Windows上安装Hadoop。
Hadoop 3.1.1伪分布式模式安装 - 学会安装Hadoop3.1.1版本的伪分布式模式 - 可以进行Hadoop技术开发(包括HDFS,MapReduce等) - HDFS启动停止命令,yarn启动停止命令 - 官网自带WorldCount示例运行 - 进行管理界面管理NamenNode管理和ResourceManager管...
李振良 6年互联网运维经验,擅长Linux,Python,Docker,MySQL,运维自动化等技术领域。