您现在的位置是：首页 > 其他

当前栏目

大数据技术基础实验三：HDFS实验——部署HDFS

技术基础部署数据 HDFS 实验

2023-09-11 14:22:09 时间

大数据技术基础实验三：HDFS实验——部署HDFS

文章目录

大数据技术基础实验三：HDFS实验——部署HDFS

一、前言

前面通过大数据技术基础实验的学习，我们学会了如何使用Xshell连接学校虚拟机并且学会如何配置各虚拟机之间的SSH免密登录，然后还练习了有关Linux的一些基础命令。

本期内容，我们将学习大数据组件其中一个组件——HDFS的环境搭建，这是后面进行各种实验操作的基础。

然后本期实验我们将使用MobaXterm软件进行终端远程连接操作，大部分的都使用的是Xshell操作，这次我们试一下新软件进行操作，你可以直接点击上方软件名称跳转到它的官网下载，在这里我就不对它进行介绍了，顺便说一句，官网下载的是英文版，如果有需要中文版的朋友留下你们的邮箱，我可以发给你们。

在这里插入图片描述

这里我已经连接好了学校的三台虚拟机，接下来我们开始实验吧！

二、实验要求

实验结束时，已构建出以下HDFS集群：

master上部署主服务NameNode
Slave1、2上部署从服务DataNode
master上部署HDFS客户端

待集群搭建好后，还需在master上进行下述操作：

在HDFS里新建目录
将master上某文件上传至HDFS里刚才新建的目录

三、实验原理

1、什么是HDFS？

HDFS（Hadoop Distributed File System）为大数据平台其它所有组件提供了基本的存储功能。它具有高容错、高可靠、可扩展、高吞吐率等特征，为大数据存储和处理提供了强大的底层存储架构。

HDFS是一个主/从（master/slave）体系结构，从最终用户的角度来看，它就像传统的文件系统，可通过目录路径对文件执行CRUD操作。由于其分布式存储的性质，HDFS集群拥有一个NameNode和一些DataNodes，NameNode管理文件系统的元数据，DataNode存储实际的数据。

2、HDFS的体系结构

在这里插入图片描述

HDFS采用了典型的Master/Slave系统架构一个HDFS集群通常包含一个NameNode节点和若干个DataNodes节点，一个文件被分成了一个或多个数据块，并存储在一组DataNode上，DataNode节点可分布在不同的机架。NameNode执行文件系统的名字空间打开、关闭、重命名文件或目录等操作，同时负责管理数据块到具体DataNode节点的映射。在NameNode的统一调度下，DataNode复制处理文件系统客户端的读写请求，完成数据库的创建、删除和复制。

3、HDFS基本命令

HDFS基本命令格式：hadoop fs -cmd args，其中，cmd为具体的操作，args为参数。

部分HDFS命令示例如下：

hadoop fs -mkdir /user/trunk          #建立目录/user/trunk
hadoop fs -ls /user                  #查看/user目录下的目录和文件
hadoop fs -lsr /user                 #递归查看/user目录下的目录和文件
hadoop fs -put test.txt /user/trunk      #上传test.txt文件至/user/trunk
hadoop fs -get /user/trunk/test.txt      #获取/user/trunk/test.txt文件
hadoop fs -cat /user/trunk/test.txt      #查看/user/trunk/test.txt文件内容
hadoop fs -tail /user/trunk/test.txt      #查看/user/trunk/test.txt文件的最后1000行
hadoop fs -rm /user/trunk/test.txt       #删除/user/trunk/test.txt文件
hadoop fs -help ls                   #查看ls命令的帮助文档

四、实验步骤

1、完成集群各服务器之间的ssh免密登录配置

第一个步骤我就不再演示了，不会的朋友可以移步到我之前的博客，里面有详细的配置步骤，链接我就放在下面了：

大数据技术基础实验一：配置SSH免密登录

我放一下截图：

在这里插入图片描述

2、在master服务器上确定存在hadoop安装目录

在master服务器终端输入命令：

ls /usr/cstor/hadoop

在这里插入图片描述

3、修改HDFS配置文件

（1）设置JDK安装目录

输入命令：

vim /usr/cstor/hadoop/etc/hadoop/hadoop-env.sh

打开hadoop-env.sh文件并进行编辑修改，添加JDK的安装路径。

在这里插入图片描述

（2）指定HDFS主节点

输入命令：

vim /usr/cstor/hadoop/etc/hadoop/core-site.xml

打开core-site.xml文件并进行编辑，将如下内容嵌入此文件里最后两行的标签之间：

<property>
  <name>hadoop.tmp.dir</name>
  <value>/usr/cstor/hadoop/cloud</value>
</property>
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://master:8020</value>
</property

在这里插入图片描述

（3）拷贝集群配置至其它服务器

在master机上执行下列命令，将配置好的hadoop拷贝到其他服务器上。

[2020122145 root@master ~]# cat ~/data/2/machines
slave1
slave2
slave3
client

[2020122145 root@master ~]# for  x  in  `cat  ~/data/2/machines` ; do  echo  $x ; scp  -r  /usr/cstor/hadoop/etc  $x:/usr/cstor/hadoop  ; done;
slave1
Warning: Permanently added 'slave1' (ECDSA) to the list of known hosts.
capacity-scheduler.xml                               100% 4436     4.6MB/s   00:00
configuration.xsl                                    100% 1335   277.1KB/s   00:00
container-executor.cfg                               100%  318   500.2KB/s   00:00
hadoop-env.cmd                                       100% 3670     4.6MB/s   00:00
hadoop-metrics.properties                            100% 2490     1.1MB/s   00:00
hadoop-metrics2.properties                           100% 2598     4.7MB/s   00:00
hadoop-policy.xml                                    100% 9683    10.6MB/s   00:00
hdfs-site.xml                                        100%  775     1.7MB/s   00:00
httpfs-env.sh                                        100% 1449     2.6MB/s   00:00
httpfs-log4j.properties                              100% 1657     3.2MB/s   00:00
httpfs-signature.secret                              100%   21    47.0KB/s   00:00
httpfs-site.xml                                      100%  620     1.4MB/s   00:00
kms-acls.xml                                         100% 3518     5.8MB/s   00:00
kms-env.sh                                           100% 1527     3.0MB/s   00:00
kms-log4j.properties                                 100% 1631     3.2MB/s   00:00
kms-site.xml                                         100% 5511     7.7MB/s   00:00
log4j.properties                                     100%   11KB  13.9MB/s   00:00
mapred-env.cmd                                       100%  951     1.8MB/s   00:00
mapred-env.sh                                        100% 1383     2.8MB/s   00:00
mapred-queues.xml.template                           100% 4113     6.9MB/s   00:00
mapred-site.xml.template                             100%  758     1.4MB/s   00:00
slaves                                               100%   10    23.1KB/s   00:00
ssl-client.xml.example                               100% 2316     4.5MB/s   00:00
ssl-server.xml.example                               100% 2268     4.4MB/s   00:00
yarn-env.cmd                                         100% 2250     3.9MB/s   00:00
yarn-env.sh                                          100% 4567     7.6MB/s   00:00
yarn-site.xml                                        100%  690     1.5MB/s   00:00
hadoop-env.sh                                        100% 4235     7.2MB/s   00:00
core-site.xml                                        100%  955     1.6MB/s   00:00
slave2
Warning: Permanently added 'slave2' (ECDSA) to the list of known hosts.
capacity-scheduler.xml                               100% 4436     5.9MB/s   00:00
configuration.xsl                                    100% 1335   408.2KB/s   00:00
container-executor.cfg                               100%  318   872.8KB/s   00:00
hadoop-env.cmd                                       100% 3670     6.1MB/s   00:00
hadoop-metrics.properties                            100% 2490     1.0MB/s   00:00
hadoop-metrics2.properties                           100% 2598     6.1MB/s   00:00
hadoop-policy.xml                                    100% 9683    13.8MB/s   00:00
hdfs-site.xml                                        100%  775     2.0MB/s   00:00
httpfs-env.sh                                        100% 1449     3.6MB/s   00:00
httpfs-log4j.properties                              100% 1657     4.2MB/s   00:00
httpfs-signature.secret                              100%   21    58.4KB/s   00:00
httpfs-site.xml                                      100%  620     1.7MB/s   00:00
kms-acls.xml                                         100% 3518     7.8MB/s   00:00
kms-env.sh                                           100% 1527     3.8MB/s   00:00
kms-log4j.properties                                 100% 1631     4.2MB/s   00:00
kms-site.xml                                         100% 5511    10.8MB/s   00:00
log4j.properties                                     100%   11KB  16.5MB/s   00:00
mapred-env.cmd                                       100%  951     2.5MB/s   00:00
mapred-env.sh                                        100% 1383     3.6MB/s   00:00
mapred-queues.xml.template                           100% 4113     8.6MB/s   00:00
mapred-site.xml.template                             100%  758     2.1MB/s   00:00
slaves                                               100%   10    29.7KB/s   00:00
ssl-client.xml.example                               100% 2316     5.6MB/s   00:00
ssl-server.xml.example                               100% 2268     5.6MB/s   00:00
yarn-env.cmd                                         100% 2250     5.5MB/s   00:00
yarn-env.sh                                          100% 4567     9.1MB/s   00:00
yarn-site.xml                                        100%  690     1.9MB/s   00:00
hadoop-env.sh                                        100% 4235     7.1MB/s   00:00
core-site.xml                                        100%  955     1.7MB/s   00:00
slave3
ssh: Could not resolve hostname slave3: Name or service not known
lost connection
client
ssh: Could not resolve hostname client: Name or service not known
lost connection
[2020122145 root@master ~]#

在这里插入图片描述

4、启动HDFS

（1）首先在master服务器上格式化主节点，输入命令：

hdfs namenode -format

在这里插入图片描述

（2）然后配置slaves文件，将localhost修改为slave1和slave2。

输入命令：

vi /usr/cstor/hadoop/etc/hadoop/slaves

进入slavers文件修改成如下：

在这里插入图片描述

（3）统一启动HDFS

输入命令：

cd /usr/cstor/hadoop

进去hadoop文件然后执行如下命令启动HDFS:

sbin/start-dfs.sh

在这里插入图片描述

5、通过查看进程的方式验证HDFS启动成功

分别在master、slave1~2三台机器上执行如下命令，查看HDFS服务是否已启动。

jps

jps是查看java进程的命令。

在这里插入图片描述

如果三台虚拟机分别出现上面结果就说明HDFS服务启动成功了。

6、使用master上传文件

从master服务器向HDFS上传文件。

输入如下命令：

hadoop fs -put ~/data/2/machines /

然后我们执行命令查看文件是否上传成功：

hadoop fs -ls /

在这里插入图片描述

可以看出，我们上传成功了。

五、最后我想说

到这里，我们已经完成了本次实验了，希望大家都能顺利地成功完成本次实验目标并从中学到很多知识。

学校提供的大数据实验平台上面有很多实验，我们的课程肯定不会全部都做完只会做其中的一部分，我后续也会尽可能抽出时间把所有有关大数据的实验都做一遍。

谢谢阅读，期待得到你们的支持！

猜你喜欢

mj使用
SAP Hybris Accelerator和SAP Spartacus的比较
数据湖之Hudi（11）：使用Spark更新Hudi中的数据
利用LabVIEW开发应变量测试
Java之字符串String，StringBuffer，StringBuilder
在Apache设置虚拟机
[Typescript] 79. Medium - MapTypes
深入浅出Flask(48)：flask_sqlalchemy的创建表
2015.7.15(八仙专题)
转：模板类中重载＜＜和＞＞操作符
如何处理My lead fiori应用的buffer问题
MIPS广告牌发布节目后显示未下载，节目发布不成功
【Spring Boot】Spring Boot之使用Alibaba Cloud Toolkit(Idea插件)本地一键部署Spring Boot项目到远程服务器
Java实现蓝桥杯算法训练 p1103
打印user webclient ui浏览历史的工具
回文树（模板）
OAuth2.0 授权的工作原理
a8.ansible 生产实战案例 -- docker基于镜像仓库 playbook

相关主题

Java基础技术
测试技术体系
web前端技术
跨平台技术
后端技术演进
无线通信技术
大型网站技术
hadoop技术
技术总结
搜索技术(1)
Javascript技术
中断技术
高级技术
预渲染技术
web的攻击技术
从技术到管理
2.JDBC技术

zl程序教程

当前栏目

大数据技术基础实验三：HDFS实验——部署HDFS

大数据技术基础实验三：HDFS实验——部署HDFS

文章目录

一、前言

二、实验要求

三、实验原理

1、什么是HDFS？

2、HDFS的体系结构

3、HDFS基本命令

四、实验步骤

1、完成集群各服务器之间的ssh免密登录配置

2、在master服务器上确定存在hadoop安装目录

3、修改HDFS配置文件

4、启动HDFS

5、通过查看进程的方式验证HDFS启动成功

6、使用master上传文件

五、最后我想说

相关文章

当前栏目

大数据技术基础实验三：HDFS实验——部署HDFS

大数据技术基础实验三：HDFS实验——部署HDFS

文章目录

一、前言

二、实验要求

三、实验原理

1、什么是HDFS？

2、HDFS的体系结构

3、HDFS基本命令

四、实验步骤

1、完成集群各服务器之间的ssh免密登录配置

2、在master服务器上确定存在hadoop安装目录

3、修改HDFS配置文件

4、启动HDFS

5、通过查看进程的方式验证HDFS启动成功

6、 使用master上传文件

五、最后我想说

相关文章

6、使用master上传文件