Hadoop2.3完全分布式安装与配置
1.高可靠性:Hadoop按位存储和处理数据
2.高扩展性:Hadoop是在计算机集群中完成计算任务,这个集群可以方便的扩展到几千台
3.高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度快
4.高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配
5.低成本:Hadoop是开源的,集群是由廉价的PC机组成
Hadoop架构和组件
Hadoop是一个分布式系统基础架构,底层是HDFS(Hadoop Distributed File System)分布式文件系统,它存储Hadoop集群中所有存储节点上的文件(64MB块),HDFS上一层是MapReduce引擎(分布式计算框架),对分布式文件系统中的数据进行分布式计算。
1.HDFS架构
NameNode:Hadoop集群中只有一个NameNode,它负责管理HDFS的目录树和相关文件的元数据信息
Sencondary NameNode:有两个作用,一是镜像备份,二是日志与镜像定期合并,并传输给NameNode
DataNode:负责实际的数据存储,并将信息定期传输给NameNode
2.MapReduce架构(Hadoop0.23以后采用MapReduce v2.0或Yarn)
Yarn主要是把jobtracker的任务分为两个基本功能:资源管理和任务调度与监控,ResourceManager和每个节点(NodeManager)组成了新处理数据的框架。
ResourceManager:负责集群中的所有资源的统一管理和分配,接受来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各种应用程序(ApplicationMaster)。
NodeManager:与ApplicationMaster承担了MR1框架中的tasktracker角色,负责将本节点上的资源使用情况和任务运行进度汇报给ResourceManager。
MapReduce v1.0框架(图1)
MapReduce v2.0框架(图2)
环境介绍:
master-hadoop 192.168.0.201
slave1-hadoop 192.168.0.202
slave2-hadoop 192.168.0.203
最新稳定版:http://www.apache.org/dist/hadoop/core/hadoop-2.3.0/
JDK下载:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
参考官方文档:http://hadoop.apache.org/docs/r2.3.0/hadoop-project-dist/hadoop-common/ClusterSetup.html
Hadoop三种运行方式:单节点方式(单台)、单机伪分布方式(一个节点的集群)与完全分布式(多台组成集群)
二、准备环境
1.Hadoop是用Java开发的,必须要安装JDK1.6或更高版本
2.Hadoop是通过SSH来启动slave主机中的守护进程,必须安装OpenSSH
3.Hadoop更新比较快,我们采用最新版hadoop2.3来安装
4.配置对应Hosts记录,关闭iptables和selinux(过程略)
5.创建相同用户及配置无密码认证
三、安装环境(注:三台配置基本相同)
1.安装JDK1.7
Java(TM) SE RuntimeEnvironment (build 1.7.0_17-b02) Java HotSpot(TM) 64-BitServer VM (build 23.7-b01, mixed mode)
五、格式化文件系统并启动
1.格式化新的分布式文件系统(hdfs namenode -format)
2.启动HDFS文件系统并使用jps检查守护进程是否启动
可以看到master-hadoop已经启动NameNode和SecondaryNameNode进程,slave-hadoop已经启动DataNode进程说明正常。
3.启动新mapreduce架构(YARN)
可以看到master-hadoop已经启动ResourceManger进程,slave-hadoop已经启动NodeManager进程说明正常。
4.查看集群状态
5.通过web查看资源(http://192.168.0.201:8088)
6、查看HDFS状态(http://192.168.0.201:50070)
Hadoop单机模式部署 支持Linux和Windows,但是个人觉得既然大部分生产环境都是Linux集群,索性就只关注Linux的部署即可,需要时再查就行,有兴趣可以看在Windows上安装Hadoop。
Hadoop 3.1.1伪分布式模式安装 - 学会安装Hadoop3.1.1版本的伪分布式模式 - 可以进行Hadoop技术开发(包括HDFS,MapReduce等) - HDFS启动停止命令,yarn启动停止命令 - 官网自带WorldCount示例运行 - 进行管理界面管理NamenNode管理和ResourceManager管...
李振良 6年互联网运维经验,擅长Linux,Python,Docker,MySQL,运维自动化等技术领域。
相关文章
- zookeeper安装配置
- Windows下PostgreSQL数据库的安装和配置
- JDK安装与环境变量配置
- linux(centos8):编译安装php8.0正式版并启用jit及php8安装时的报错处理(centos8.2 / php8.0.0 )
- Supervisor安装与配置(Linux/Unix进程管理工具)
- 分布式存储系统GlusterFS安装配置
- Oracle-单实例静默安装
- 【网址收藏】OpenShift简介、安装及DNS服务配置(dnsmasq)
- 【教程下载】QGIS的安装及中文配置教程.pdf
- linux部署安装nexus私服
- android q(10.0)app应用安装白名单
- linux定时任务cron 安装配置
- CentOS下yum安装PHP,配置php-fpm服务
- zabbix分布式 zabbix_proxy的安装,节点配置
- ubuntu系统无法ssh登录--安装openssh
- Xubuntu安装所有基本解码器(一百一十)
- Git安装以及配置SSH Key——Windows
- CentOS6安装大数据软件(二):Hadoop分布式集群配置
- linux go 安装