您现在的位置是：首页 > 其他

当前栏目

Hadoop2.3完全分布式安装与配置

安装配置分布式分布式完全

2023-09-14 08:59:44 时间

1.高可靠性：Hadoop按位存储和处理数据

2.高扩展性：Hadoop是在计算机集群中完成计算任务，这个集群可以方便的扩展到几千台

3.高效性：Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度快

4.高容错性：Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配

5.低成本：Hadoop是开源的，集群是由廉价的PC机组成

Hadoop架构和组件

Hadoop是一个分布式系统基础架构，底层是HDFS（Hadoop Distributed File System）分布式文件系统，它存储Hadoop集群中所有存储节点上的文件（64MB块），HDFS上一层是MapReduce引擎（分布式计算框架），对分布式文件系统中的数据进行分布式计算。

1.HDFS架构

NameNode：Hadoop集群中只有一个NameNode，它负责管理HDFS的目录树和相关文件的元数据信息

Sencondary NameNode：有两个作用，一是镜像备份，二是日志与镜像定期合并，并传输给NameNode

DataNode：负责实际的数据存储，并将信息定期传输给NameNode

2.MapReduce架构（Hadoop0.23以后采用MapReduce v2.0或Yarn）

Yarn主要是把jobtracker的任务分为两个基本功能：资源管理和任务调度与监控，ResourceManager和每个节点（NodeManager）组成了新处理数据的框架。

ResourceManager：负责集群中的所有资源的统一管理和分配，接受来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各种应用程序（ApplicationMaster）。

NodeManager：与ApplicationMaster承担了MR1框架中的tasktracker角色，负责将本节点上的资源使用情况和任务运行进度汇报给ResourceManager。

MapReduce v1.0框架（图1）

MapReduce v2.0框架（图2）

环境介绍：

master-hadoop 192.168.0.201

slave1-hadoop 192.168.0.202

slave2-hadoop 192.168.0.203

JDK下载：http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

参考官方文档：http://hadoop.apache.org/docs/r2.3.0/hadoop-project-dist/hadoop-common/ClusterSetup.html

Hadoop三种运行方式：单节点方式（单台）、单机伪分布方式（一个节点的集群）与完全分布式（多台组成集群）

二、准备环境

1．Hadoop是用Java开发的，必须要安装JDK1.6或更高版本

2．Hadoop是通过SSH来启动slave主机中的守护进程，必须安装OpenSSH

3．Hadoop更新比较快，我们采用最新版hadoop2.3来安装

4．配置对应Hosts记录，关闭iptables和selinux（过程略）

5．创建相同用户及配置无密码认证

三、安装环境（注：三台配置基本相同）

1．安装JDK1.7

Java(TM) SE RuntimeEnvironment (build 1.7.0_17-b02) Java HotSpot(TM) 64-BitServer VM (build 23.7-b01, mixed mode)

五、格式化文件系统并启动

1.格式化新的分布式文件系统（hdfs namenode -format）

2.启动HDFS文件系统并使用jps检查守护进程是否启动

可以看到master-hadoop已经启动NameNode和SecondaryNameNode进程，slave-hadoop已经启动DataNode进程说明正常。

3.启动新mapreduce架构（YARN）

可以看到master-hadoop已经启动ResourceManger进程，slave-hadoop已经启动NodeManager进程说明正常。

4.查看集群状态

5.通过web查看资源（http://192.168.0.201:8088）

6、查看HDFS状态（http://192.168.0.201:50070）

Hadoop单机模式部署支持Linux和Windows，但是个人觉得既然大部分生产环境都是Linux集群，索性就只关注Linux的部署即可，需要时再查就行，有兴趣可以看在Windows上安装Hadoop。
Hadoop 3.1.1伪分布式模式安装 - 学会安装Hadoop3.1.1版本的伪分布式模式 - 可以进行Hadoop技术开发(包括HDFS,MapReduce等) - HDFS启动停止命令，yarn启动停止命令 - 官网自带WorldCount示例运行 - 进行管理界面管理NamenNode管理和ResourceManager管...
李振良 6年互联网运维经验，擅长Linux，Python，Docker，MySQL，运维自动化等技术领域。

猜你喜欢

实现高可用的Oracle数据库方案（高可用oracle）
PostgreSQL存储过程：解放开发效率（postgresql存储过程）
Raft算法在Redis中的实现（raftredis）
Oracle中实现换行的简单技巧（oracle 中回车换行）
CVPR2022论文速递（2022.6.22）！共16篇！
字段MySQL中处理长文本字段的方法（mysql长文本）
2022年的我
时间操作使用Java实现Redis过期时间操作（redisjava过期）
公开「处刑」！波士顿动力的搬砖机器人，私下竟「翻车」不断
eeOracle技术推动IEEE认证的创新性突破（oracleie）
Oracle中聚合函数实现数据分析的魔力（oracle 中聚合函数）
SQLServer2000安全配置详解
如何做好一款管理后台框架
安卓环境下Redis连接工具使用指南（redis连接工具安卓版）

相关主题

docker安装配置
samba安装配置
安装keepalived
Zookeeper的安装配置
Python安装配置

zl程序教程

当前栏目

Hadoop2.3完全分布式安装与配置

相关文章