Hadoop社区版搭建详解大数据
Hadoop-2.x 下载地址
JDK1.7 下载地址
至此搭建Hadoop集群的条件准备OK了。
2.创建Hadoop用户在管理Hadoop集群时,不推荐使用root用户去操作,我们可以通知运维,叫他创建一个hadoop用户去专门用于维护和管理集群。
useradd hadoop passwd hadoop
同时通知运维给hadoop用户开通sudo权限。
hadoop ALL=(ALL:ALL) ALL
这样创建完用户后,我们接下来是在该用户下安装ssh,然各个服务器之间能够实现免密码登录。
3.SSH安装a.首先在hadoop用户下安装ssh,保证服务器之间能够免密码登录
b.关闭各个服务器的内网防火墙,在外网由运维统一配置防火墙。
注:若不关闭防火墙,后面启动集群会由于权限不足导致启动失败
安装命令:
ssh-keygen -t dsa -P -f ~/.ssh/id_dsa cat ~/.ssh/id_dsa.pub ~/.ssh/authorized_keys
注:在hadoop用户下,需要给authorized_keys赋予600的权限,不然免密码登陆无效
chmod 600 authorized_keys
这样免密码登录就算完成了。
注:每天服务器安装完ssh后,需登录一次ssh,不然know_hosts木有记录,其他集群启动会出现can t be established
关闭防火墙:
chkconfig iptables off
这样第三步就ok了。接下来是安装JDK
4.安装JDK将下载的jdk包解压到指定位置,然后配置环境变量即可:
sudo vi /etc/profile
[[email protected] portal]$ java -version java version "1.7.0_71" Java(TM) SE Runtime Environment (build 1.7.0_71-b14) Java HotSpot(TM) 64-Bit Server VM (build 24.71-b01, mixed mode)5. 配置hadoop
将下载的hadoop-2.5.1安装包解压到指定的位置,然后配置etc目下的文件和环境变量,首先我们先配置环境变量:
sudo vi /etc/profile
HADOOP_DEV_HOME=/home/hadoop/source/hadoop-2.5.1 HADOOP_MAPARED_HOME=${HADOOP_DEV_HOME} HADOOP_COMMON_HOME=${HADOOP_DEV_HOME} HADOOP_HDFS_HOME=${HADOOP_DEV_HOME} YARN_HOME=${HADOOP_DEV_HOME} HADOOP_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop HDFS_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop YARN_CONF_DIR=${HADOOP_DEV_HOME}/etc/hadoop CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tool.jar PATH=$JAVA_HOME/bin:$PATH:$HADOOP_DEV_HOME/bin:$HADOOP_DEV_HOME/sbin:$HIVE_HOME/bin:$HBASE_HOME/bin export JAVA_HOME CLASSPATH PATH HADOOP_DEV_HOME HADOOP_MAPARED_HOME HADOOP_COMMON_HOME HADOOP_HDFS_HOME YARN_HOME HADOOP_CONF_DIR HDFS_CONF_DIR YARN_CONF_DIR
(1)修改hadoop-env.sh的JAVA_HOME
export JAVA_HOME=/usr/jdk1.7
(2)配置hdfs-site.xml
configuration property name dfs.replication /name value 3 /value /property property name dfs.namenode.name.dir /name value file:///home/hadoop/hdfs/name /value final true /final /property property name dfs.dataname.data.dir /name value file:///home/hadoop/hdfs/data /value final true /final /property property name dfs.namenode.secondary.http-address /name value 10.211.55.12:9001 /value /property property name dfs.webhdfs.enabled /name value true /value /property property name dfs.permissions /name value false /value /property /configuration
(3)配置core-site.xml
configuration property name hadoop.tmp.dir /name value /home/hadoop/tmp /value /property property name fs.default.name /name value hdfs://10.211.55.12:9000 /value /property /configuration
(4)配置mapred-site.xml
configuration property name mapreduce.framework.name /name value yarn /value /property property name mapreduce.jobhistory.address /name value 10.211.55.12:10020 /value /property property name mapreduce.jobhistory.webapp.address /name value 10.211.55.12:19888 /value /property property name mapreduce.jobtracker.http.address /name value 10.211.55.12:50030 /value /property property name mapreduce.jobtracker.address /name value 10.211.55.12:9001 /value /property /configuration
(5)配置yarn-env.sh
configuration !-- Site specific YARN configuration properties -- property name yarn.resourcemanager.address /name value 10.211.55.12:18040 /value /property property name yarn.resourcemanager.scheduler.address /name value 10.211.55.12:18030 /value /property property name yarn.resourcemanager.webapp.address /name value 10.211.55.12:18088 /value /property property name yarn.resourcemanager.resource-tracker.address /name value 10.211.55.12:18025 /value /property property name yarn.resourcemanager.admin.address /name value 10.211.55.12:18141 /value /property property name yarn.nodemanager.aux-services /name value mapreduce_shuffle /value /property property name yarn.nodemanager.aux-services.mapreduce.shuffle.class /name value org.apache.hadoop.mapred.ShuffleHandler /value /property /configuration
(6)复制mapred-queues.xml文件
cp mapred-queues.xml.template mapred-queues.xml
(7)设置master和slaver
master文件:cloud001
slaver文件:cloud002,cloud003,cloud004,cloud005,cloud006
(8)配置hosts
10.211.55.12 cloud001
10.211.55.15 cloud002
10.211.55.16 cloud003
10.211.55.19 cloud004
10.211.55.34 cloud005
10.211.55.22 cloud006
接着我们将配置好的资源打包分发到其他服务器。
6.分发资源使用scp命令将配置好的资源分发的其他服务器上。
7.启动集群到这里所有的准备工作已完成了,我们可以启动集群了,这里需要注意的是,hadoop2.x和hadoop1.x不一样的地方是,启动不着是start-all.sh,当然这个命令也是可以用的,但是这里不推荐使用,在hadoop2.x中,官方对启动命令做了优化,推荐使用start-dfs.sh和start-yarn.sh。下面我给出一个完整的启动过程:
格式化节点(首次启动):
hadoop namenode –format
启动所有节点:
start-dfs.sh
启动资源管理:
start-yarn.sh
注:在hadoop2.x中,由于hadoop的设计变了,相对hadoop1.x在HDFS上添加了一层yarn来管理,所以启动之后所有的资源交由yarn来管理。
添加代理(负载均衡):
yarn-daemons.sh start proxyserver
查看启动集群的简要概括:
hadoop dfsadmin –report
最后我们可以输入JPS命令来查看:
[[email protected] portal]$ jps 7844 ResourceManager 7501 NameNode 7687 SecondaryNameNode 15251 Jps
到这里我们的社区版hadoop2.x集群就搭建完成了。
原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/9966.html
分布式文件系统,分布式数据库区块链并行处理(MPP)数据库,数据挖掘开源大数据平台数据中台数据分析数据开发数据治理数据湖数据采集相关文章
- 大数据Hadoop生态圈介绍
- 开源项目丨一文详解一站式大数据平台运维管家 ChengYing 如何部署 Hadoop 集群
- 大数据面试题(五):Hadoop优化核心高频面试题
- Hadoop作业调度器详解大数据
- Hadoop(四)HDFS集群详解大数据
- Hadoop综合练习第五节–在Eclipse中安装Hadoop插件及测试(Linux操作系统)详解大数据
- Hadoop入门进阶课程5–MapReduce原理及操作详解大数据
- Hadoop入门进阶课程13–Chukwa介绍与安装部署详解大数据
- Eclipse搭建Hadoop开发环境二三事详解大数据
- 搭建maven开发环境测试Hadoop组件HDFS文件系统的一些命令详解大数据
- Spark HA模式访问Hadoop HA下的数据详解大数据
- CentOS7.4下编译Hadoop-2.7.6详解大数据
- Hadoop 项目及结构详解大数据
- centos7+hadoop完全分布式集群搭建详解大数据
- Hadoop 2.7 伪分布式环境搭建详解大数据
- Hadoop、Hbase、Hive、Spark分布式系统架构详解大数据
- hadoop入门小知识点详解大数据
- hadoop join之map side join详解大数据
- Hadoop:相关概念详解大数据
- Hadoop 3.x 新特性剖析系列1详解大数据
- 基于Hadoop和Linux的大数据存储及分析系统(hadooplinux)
- 十八款Hadoop工具帮你驯服大数据【转】