您现在的位置是：首页 > 数据库

当前栏目

【分布式搜索引擎】Elasticsearch分布式架构原理

elasticsearch 架构分布式分布式原理搜索引擎

2023-09-14 08:57:35 时间

一、相关概念介绍

1）集群(cluster)

　　一个集群(cluster)由一个或多个节点组成。

　　这些节点具有相同的cluster.name，它们协同工作，分享数据和负载。当加入新的节点或者删除一个节点时，集群就会感知到并平衡数据。

2）节点(node)

　　一个节点(node)就是一个Elasticsearch实例。

　　集群中一个节点会被选举为主节点(master),它将临时管理集群级别的一些变更，例如新建或删除索引、增加或移除节点等。主节点不参与文档级别的变更或搜索，这意味着在流量增长的时候，该主节点不会成为集群的瓶颈。任何节点都可以成为主节点。我们例子中的集群只有一个节点，所以它会充当主节点的角色。

　　做为用户，我们能够与集群中的任何节点通信，包括主节点。每一个节点都知道文档存在于哪个节点上，它们可以转发请求到相应的节点上。我们访问的节点负责收集各节点返回的数据，最后一起返回给客户端。这一切都由Elasticsearch处理。

3）分片(shards)

　　一个分片(shard)是一个最小级别“工作单元(worker unit)”,它只是保存了索引中所有数据的一部分。

　　分片就是一个Lucene实例，并且它本身就是一个完整的搜索引擎。我们的文档存储在分片中，并且在分片中被索引，但是我们的应用程序不会直接与它们通信，取而代之的是，直接与索引通信。

　　分片是Elasticsearch在集群中分发数据的关键。把分片想象成数据的容器。文档存储在分片中，然后分片分配到你集群中的节点上。当你的集群扩容或缩小，Elasticsearch将会自动在你的节点间迁移分片，以使集群保持平衡。

　　分片可以是主分片(primary shard)或者是复制分片(replica shard)。当索引创建完成的时候，主分片的数量就固定了，但是复制分片的数量可以随时调整。

1.主要分片(primary shard)：

　　你索引中的每个文档属于一个单独的主分片，所以主分片的数量决定了索引最多能存储多少数据。

2.复制分片(replica shard)：

　　复制分片只是主分片的一个副本，它可以防止硬件故障导致的数据丢失，同时可以提供读请求，比如搜索或者从别的shard取回文档。

4）集群健康(cluster health)

　　在Elasticsearch集群中可以监控统计很多信息，但是只有一个是最重要的：集群健康(cluster health)。集群健康有三种状态：green、yellow或red。

在一个没有索引的空集群中运行如下查询：

GET /_cluster/health

将返回这些信息：　　

{
   "cluster_name":          "elasticsearch",
   "status":                "green", <1>
   "timed_out":             false,
   "number_of_nodes":       1,
   "number_of_data_nodes":  1,
   "active_primary_shards": 0,
   "active_shards":         0,
   "relocating_shards":     0,
   "initializing_shards":   0,
   "unassigned_shards":     0
}

<1> status 是我们最感兴趣的字段

status字段提供一个综合的指标来表示集群的的服务状况。三种颜色各自的含义：

颜色	意义
green	所有主要分片和复制分片都可用
yellow	所有主要分片可用，但不是所有复制分片都可用
red	不是所有的主要分片都可用

二、Elasticsearch分布式架构原理

　　Elasticsearch设计的理念就是分布式搜索引擎，底层其实还是基于lucene的。

　　核心思想就是在多台机器上启动多个es进程实例，组成了一个es集群。

es中存储数据的基本单位是Types.

Relational DB -> Databases -> Tables -> Rows -> Columns
Elasticsearch -> Indices   -> Types  -> Documents -> Fields

　　好比说，有一个Types，是订单Types，里面专门是放订单数据的。就好比说你在mysql中建表，有些订单是实物商品的订单，就好比说一件衣服，一双鞋子；有些订单是虚拟商品的订单，就好比说游戏点卡，话费充值。就两种订单大部分字段是一样的，但是少部分字段可能有略微的一些差别。

　　所以就会在index里，建两个type，一个是实物商品订单type，一个是虚拟商品订单type，这两个type大部分字段是一样的，少部分字段是不一样的。

　　具体的每个type代表了具体的一个mysql中的表,每个type有一个mapping，mapping就是这个type的表结构定义，你在mysql中创建一个表，肯定是要定义表结构的，里面有哪些字段，每个字段是什么类型。。。

　　mapping就代表了这个type的表结构的定义，定义了这个type中每个字段名称，字段是什么类型的，然后还有这个字段的各种配置

　　实际上你往index里的一个type里面写的一条数据，叫做一条document，一条document就代表了mysql中某个表里的一行，每个document有多个field，每个field就代表了这个document中的一个字段的值

　　接着你搞一个索引，这个索引可以拆分成多个shard，每个shard存储部分数据。

　　接着就是这个shard的数据实际是有多个备份，就是说每个shard都有一个primary shard，负责写入数据，但是还有几个replica shard。primary shard写入数据之后，会将数据同步到其他几个replica shard上去。

　　通过这个replica的方案，每个shard的数据都有多个备份，如果某个机器宕机了，没关系啊，还有别的数据副本在别的机器上呢。高可用了吧。

　　es集群多个节点，会自动选举一个节点为master节点，这个master节点其实就是干一些管理的工作的，比如维护索引元数据拉，负责切换primary shard和replica shard身份拉，之类的。

　　要是master节点宕机了，那么会重新选举一个节点为master节点。

　　如果是非master节点宕机了，那么会由master节点，让那个宕机节点上的primary shard的身份转移到其他机器上的replica shard。急着你要是修复了那个宕机机器，重启了之后，master节点会控制将缺失的replica shard分配过去，同步后续修改的数据之类的，让集群恢复正常。

其实上述就是elasticsearch作为一个分布式搜索引擎最基本的一个架构设计.

猜你喜欢

基于非线性收敛因子和局部扰动的鲸鱼算法-附代码
MongoDB实现Multi tenant的方法
Leetcode0002. 两数相加(medium)
游戏制作之路（46）地形高度工具
互联网协议入门（一）
SpringBoot 解决id使用字符串类型可以解决精度问题
Appium自动化测试基础 — ADB常用命令（一）
盘点数据分析师笔试题你会做几道？
spring4整合hibernate5.1
C#设计模式——职责链模式(Chain Of Responsibility Pattern)
【IOS-COCOS2D游戏开发之十八】解决滚屏背景/拼接地图有黑边(缝隙)/图片缩放后模糊透明/图片不清晰【2013年12月13日补充】/动画播放出现毛边以及禁止游戏中自动锁屏问题！
关于activitygroup过时，用frament替换操作
高级火山图突出显示自定义的基因volcanic volcano plot duqiang 差异基因火山图
华为OD机试 - 寻找相同子串
Kubenetes里pod和service绑定的实现方式
用例与需求
tensorflow提示：No module named ''tensorflow.python.eager".
[Unit Testing] Directive testing, require parent controller
GitLab - GitLab的备份与还原
【华为云技术分享】《跟唐老师学习云网络》—router路咋走啊

相关主题

Elasticsearch架构
Elasticsearch 5
elasticsearch 配置详解
elasticsearch 插入数据

zl程序教程

当前栏目

【分布式搜索引擎】Elasticsearch分布式架构原理

相关文章