Docker是dotCloud公司的一个开源项目，诞生于 2013 年初，基于 Go 语言实现，并遵从Apache 2.0协议，基于容器技术的轻量级虚拟化解决方案。
Docker是容器引擎，把Linux的cgroup、namespace等容器底层技术进行封装抽象，为用户提供了创建和管理容器的便捷界面（包括命令行和API）。
Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的 Linux或Windows操作系统的机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。

技术支柱：Namespaces、Control Groups、UnionFS

三个基本概念：

容器：类似于从模板中创建虚拟机；容器是从镜像创建的运行实例。它可以被启动、开始、停止、删除。每个容器都是相互隔离的；可以把容器看做是一个简易版的 Linux 环境（包括root用户权限、进程空间、用户空间和网络空间等）和运行在其中的应用程序。

镜像：Docker 的镜像类似虚拟机的模板，但是更轻量；一个镜像可以包含一个完整的 Linux 操作系统环境，里面仅安装了 Tomcat；镜像可以用来创建容器

仓库：仓库是集中存放镜像文件的场所；仓库注册服务器上往往存放着多个仓库，每个仓库中又包含了多个镜像，每个镜像有不同的标签；仓库分为公开仓库（Public）和私有仓库（Private）两种形式；push镜像到仓库,从仓库pull镜像

📑四、Hadoop

1、Hadoop是什么

概念：Hadoop是一种处理大数据的分布式软件框架，具有可靠、高效、扩展、低成本、兼容性等特点。Hadoop擅长于在廉价机器搭建的集群上进行海量数据(结构化与非结构化)的存储与离线处理。

2、Hadoop的核心组件有什么

三大核心组件：

HDFS（Hadoop Distribute File System）：hadoop的数据存储工具。

YARN（Yet Another Resource Negotiator,另一种资源协调者）：Hadoop 的资源管理器。

Hadoop MapReduce：分布式计算框架

3、Hadoop和Google三驾马车的关系

相当于衍生出来的HDFS、Hadoop MapReduce、HBase都是Google三驾马车的山寨版

4、Hadoop的优点

①高可靠性 ②高扩展性 ③高效性 ④高容错性 ⑤低成本

5、知道Hadoop生态系统中主要的项目名称及作用

6、Hadoop2.0中加入Yarn的原因

为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性。

7、Hadoop的三种安装模式

单机模式：只在一台机器上运行，存储采用本地文件系统，没有采用分布式文件系统HDFS；

伪分布式模式：存储采用分布式文件系统HDFS，但是，HDFS的名称节点和数据节点都在同一台机器上；

分布式模式：存储采用分布式文件系统HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。

8、Hadoop集群配置的步骤

1、选定一台机器作为 Master；

2、在Master节点上创建hadoop用户、安装SSH服务端、安装Java环境；

3、在Master节点上安装Hadoop，并完成配置；

4、在其他Slave节点上创建hadoop用户、安装SSH服务端、安装Java环境；

5、将Master节点上的“/usr/local/hadoop”目录复制到其他Slave节点；

6、在Master节点上开启Hadoop；

10、Linux中最基本的shell命令：如cd、cat、rm、cp、mv、source、vim….

cd：打开目录

cat：查看文件内容

rm：删除

cp：复制文件

mv：移动文件，相当于剪切

source：读取并执行文件中的命令

vim：编辑文本

📚五、HDFS

1、GFS是什么、HDFS是什么

GFS：Google文件系统（GFS）Google文件系统是一个可扩展的分布式文件系统，用于对大量数据进行访问的大型、分布式应用。GFS是一种面向不可信服务器节点而设计的文件系统。

HDFS：Hadoop的文件系统称为HDFS（Hadoop Distributed File System）。

2、HDFS的体系结构

NameNode：Master节点，在hadoop1.X中只有一个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。

DataNode：Slave节点，存储实际的数据，汇报存储信息给NameNode。

Secondary NameNode：辅助NameNode，分担其工作量；定期合并fsimage和fsedits，推送给NameNode；紧急情况下，可辅助恢复NameNode，但Secondary NameNode并非NameNode的热备。

工作过程：

①用户请求创建文件的指令由Namenode进行接收。

②Namenode将存储数据的Datanode的IP返回给用户，并通知其他接收副本的Datanode，由用户直接与Datanode进行数据传送。

3、HDFS的存储原理：分块策略和副本策略

分块策略：一个文件被分成多个块，以块作为存储单位。数据块会被分别存储在不同的Datanode节点上

副本策略：HDFS对数据块典型的副本策略为3个副本，第一个副本存放在本地节点，第二个副本存放在同一个机架的另一个节点，第三个本副本存放在不同机架上的另一个节点。

4、名称节点、数据节点出错时怎么处理

HDFS设置了备份机制，把这些核心文件备份到SecondaryNameNode上。当名称节点出错时，就可以根据SecondaryNameNode中的FsImage和Editlog数据进行恢复。

名称节点会定期检查这种情况，一旦发现某个数据块的副本数量小于冗余因子，就会启动数据冗余复制，为它生成新的副本。

5、支持三种shell 命令格式：hadoop fs、Hadoop dfs、hdfs dfs

hadoop fs：适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统

hadoop dfs：只能适用于HDFS文件系统

hdfs dfs：跟hadoop dfs的命令作用一样，也只能适用于HDFS文件系统

⏳六、MapReduce

1、MapReduce是什么

分布式计算框架MapReduce是Google系统和Hadoop系统中的一项核心技术。

2、MapReduce的核心思想：

分而治之

3、MapReduce的体系结构，主从式，了解每个组件的功能

1）Client：

用户编写的MapReduce程序通过Client提交到JobTracker端。

用户可通过Client提供的一些接口查看作业运行状态。

2）JobTracker：

JobTracker负责资源监控和作业调度。

JobTracker 监控所有TaskTracker与Job的健康状况，一旦发现失败，就将相应的任务转移到其他节点。

JobTracker 会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器（TaskScheduler），而调度器会在资源出现空闲时，选择合适的任务去使用这些资源。

3）TaskTracker：

TaskTracker 会周期性地通过“心跳”将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收JobTracker 发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）。TaskTracker 使用“slot”等量划分本节点上的资源量（CPU、内存等）。一个Task 获取到一个slot 后才有机会运行，而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给Task使用。slot 分为Map slot 和Reduce slot 两种，分别供MapTask 和Reduce Task 使用。

4）Task：

Task 分为Map Task 和Reduce Task 两种，均由TaskTracker 启动。

4、Map函数和Reduce函数分别做什么以及MapReduce的工作过程

（切分、map、shuffle、reduce，四步大致）

Map:

InputFormat根据输入文件产生键值对，并传送到map函数中；

map输出键值对到一个没有排序的缓冲内存中；

当缓冲内存达到给定值或者map任务完成，在缓冲内存中的键值对就会被排序，然后输出到磁盘中的溢出文件；

如果有多个溢出文件，那么就会整合这些文件到一个文件中，且是排序的；

这些排序过的、在溢出文件中的键值对会等待Reducer的获取。

Reduce:

Reducer获取Mapper的记录；

shuffle相同的key被传送到同一个的Reducer中；

当有一个Mapper完成后，Reducer就开始获取相关数据，所有的溢出文件; 会被排序到一个内存缓冲区中；

当内存缓冲区满了后，就会产生溢出文件到本地磁盘；

当Reducer所有相关的数据都传输完成后，所有溢出文件就会被整合和排序；

Reducer中的reduce方法针对每个key调用一次；

Reducer的输出到HDFS。

5、MapReduce适合做哪类任务，它的优缺点

特点：

1）需要在集群条件下使用。

2）需要有相应的分布式文件系统的支持。

3）不需要特别的硬件支持。

4）假设节点的失效为正常情况。

5）适合对大数据进行处理。

6）计算向存储迁移。

7）MapReduce的计算效率会受最慢的Map任务影响

优点：

MapReduce易于编程

良好的扩展性

廉价、容错性高

适合海量数据的离线处理

缺点：

不擅长实时计算

不擅长流式计算

不擅长图计算

⏲️七、HBase

1、HBase是什么，和Bigtable底层技术的对应关系

HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，是谷歌BigTable的开源实现，主要用来存储非结构化和半结构化的松散数据。

2、Hbase与Hadoop其他组件的关系

HBase位于结构化存储层，HDFS为HBase提供了高可靠性的底层存储支持，MapReduce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和failover机制。Pig和Hive还为HBase提供了高层语言支持。Sqoop则为HBase提供了方便的关系数据库管理系统数据导入功能。

3、Hbase的数据模型，数据模型中各概念的含义，能够举出例子（参考ppt中）

表：HBase采用表来组织数据，表由行和列组成，列划分为若干个列族

行：每个HBase表都由若干行组成，每个行由行键（row key）来标识。

列族：一个HBase表被分组成许多“列族”（Column Family），它是基本的访问控制单元

列限定符（列）：一个列族可以有多个列，列族里的数据通过列限定符来定位

单元格：在HBase表中，通过行、列族和列限定符确定一个“单元格”（cell），单元格中存储的数据没有数据类型，总被视为字节数组byte[]

时间戳：每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳进行索引

4、Hbase和传统关系数据库的区别

5、region是什么

元数据表，又名.META.表，存储了Region和Region服务器的映射关系

Region是分布式存储的最小单元

6、HBase Shell常用命令

create：创建表

put：向表、行、列指定的单元格添加数据

list：列出HBase中所有的表信息

put：向表、行、列指定的单元格添加数据

drop：删除表

🧧八、NoSQL数据库、云数据库

1、NoSQL的含义

2、了解NoSQL数据库兴起的原因

关系数据库已经无法满足Web2.0的需求

（1）无法满足海量数据的管理需求

（2）无法满足数据高并发的需求

（3）无法满足高可扩展性和高可用性的需求

3、NoSQL数据库的四大类型

4、CAP理论

C（Consistency）：一致性，是指任何一个读操作总是能够读到之前完成的写操作的结果，也就是在分布式环境中，多点的数据是一致的，或者说，所有节点在同一时间具有相同的数据。

A:（Availability）：可用性，是指快速获取数据，可以在确定的时间内返回操作结果，保证每个请求不管成功或者失败都有响应。

P（Tolerance of Network Partition）：分区容忍性，是指当出现网络分区的情况时（即系统中的一部分节点无法和其他节点进行通信），分离的系统也能够正常运行，也就是说，系统中任意信息的丢失或失败不会影响系统的继续运作。

CAP指出，一个分布式系统不可能同时能满足一致性（Consistency）、可用性（Availability）和分区容错性（Partion Tolerance）这3个要求，最多同时满足其中2个。

5、BASE

BASE的基本含义是基本可用（Basically Availble）、软状态（Soft-state）和最终一致性（Eventual consistency）

6、强一致性、弱一致性，最终一致性是什么意思

强一致性：强一致性系统会在所有副本都完全相同后才返回，系统在未达到一致时是不能访问的，强一致性能保证所有的访问结果是一致的。

弱一致性：弱一致性系统中的数据更新后，后续对数据的读取操作得到的不一定是更新后的值。

最终一致性：最终一致性允许系统在实现一致性前有一个不一致的窗口期，窗口期完成后系统最终能保证一致性。

7、知道云数据库是什么，和传统数据库、NoSQL、NewSQL的关系

概念：云数据库是部署和虚拟化在云计算环境中的数据库。它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配置，让软、硬件升级变得更加容易。云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。

关系：

🎛️九、Hive

1、什么是Hive？

Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），是一个可以提供有效、合理、直观组织和使用数据的模型。

2、了解Hive的工作原理：转换为MapReduce

当用户向Hive输入一段命令或查询时，Hive需要与Hadoop交互工作来完成该操作。首先，驱动模块接收该命令或查询。接着，对该命令或查询进行解析编译。然后，由优化器对该命令或查询进行优化计算。最后该命令或查询通过执行器进行执行。执行器通常的任务是启动一个或多个MapReduce任务，有时也不需要启动MapReduce任务，像执行包含*的操作（如select * from 表）时。

3、Hive定义的类SQL语言，是什么，可以做什么

Hive定义了简单的类SQL查询语言，称为QL，它允许熟悉SQL的用户查询数据。用户可以通过编写的HiveQL语句运行MapReduce任务。

4、Hive不需要搭建在Hbase上，Hadoop中其他组件的关系

🎧十、流计算及Storm

1、流计算的概念

实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息

知道流计算的基本处理流程，流计算的处理流程一般包含三个阶段：

数据实时采集

数据实时计算

实时查询服务

2、了解流计算的典型应用场景

流计算是针对流数据的实时计算，可以应用在多种场景中，如Web服务、机器翻译、广告投放、自然语言处理、气候模拟预测等。流计算适合于需要处理持续到达的流数据、对数据处理有较高实时性要求的场景。

应用场景1: 实时分析

应用场景2: 实时交通

3、Storm是典型的流计算系统

Twitter Storm是一个免费、开源的分布式实时计算系统，Storm对于实时计算的意义类似于Hadoop对于批处理的意义，Storm可以简单、高效、可靠地处理流数据，并支持多种编程语言。

Storm框架可以方便地与数据库系统进行整合，从而开发出强大的实时计算系统

Twitter是全球访问量最大的社交网站之一，Twitter开发Storm流处理框架是为了应对其不断增长的流数据实时处理需求。

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

当前栏目

一文带你快速初步了解云计算与大数据

🔍一、云计算基础

1、云计算的概念、特点、关键技术

2、云计算的分类

3、云计算的部署模式

4、云计算的服务模式：IaaS、PaaS、SaaS分别是什么，具体含义要清楚

5、物联网的概念

6、物联网和云计算、大数据的关系

7、了解云计算的数据中心是什么，有什么特点

8、主流云计算平台的主要云产品名称及作用

🔦二、大数据基础

1、常用的数据计量单位及其换算

2、大数据的概念，了解大数据的来源及其多样性

3、大数据的5V特征

4、科学研究的4个范式

5、大数据对思维方式的影响

6、大数据的处理流程

7、大数据的关键技术

8、主要的大数据处理系统及代表产品

9、云计算之父、大数据之父

🔑三、虚拟化与容器技术

1、虚拟化的概念、特征

2、虚拟化的好处

3、虚拟化的分类：从计算体系结构层次上分为哪几类

4、系统虚拟化是什么

5、服务器虚拟化的关键技术哪三个

6、知道常用的虚拟化软件有哪些

7、虚拟化和容器的区别

8、Docker是什么，技术支柱是什么，容器、镜像、仓库三个基本概念