您现在的位置是：首页 > 数据库

当前栏目

elasticsearch高亮之highlight原理

计算原理

2023-03-15 22:47:00 时间

一、highlight简介

highlight是提升用户体验的重要手段，搜索引擎通过高亮突出命中关键字等方式，方便用户通过关键字周围的信息快速的确认是否是自己希望的结果；

highlight功能通常包含以下三个主要的处理过程
1.将字段文本拆分为小的片段；
2.找出最相关的片段；
3.高亮查询关键字；

二、elasticsearch的highlight功能

elasticsearch提供了专门的高亮请求参数highlight，返回的记过中也会包含对应的高亮信息；

在查询语句中，我们要求对text字段进行高亮处理；

GET /twitter/_search
{
  "query": {
    "match": {
      "text": "Another"
    }
  },
  "highlight": {
    "fields": {
      "text": {}
    }
  }
}

elasticsearch默认使用em对命中关键字进行包裹处理；

{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 1,
    "max_score" : 0.6931472,
    "hits" : [
      {
        "_index" : "twitter",
        "_type" : "_doc",
        "_id" : "2",
        "_score" : 0.6931472,
        "_source" : {
          "fullname" : "Jane Doe",
          "text" : "Another twitter test ..."
        },
        "highlight" : {
          "text" : [
            "<em>Another</em> twitter test ..."
          ]
        }
      }
    ]
  }
}

高亮处理需要使用原始的字段值文本，所以elasticsearch需要保存字段的值，我们可以在字段的mapping中设置store为true，否则只能从_source字段中load对应字段值；

三、elasticsearch提供的三种highlighter

elasticsearch提供了以下三种highlighter

Unified highlighter

这个unified highlighter是elasticsearch的默认highlighter，其使用的是Lucene Unified Highlighter，它会将文本分割为句子片段，然后使用BM25算法计算每个句子片段的相似性得分；改highlighter支持phrase、fuzzy、prefix等查询的高亮处理；

Plain highlighter

这个plain Highlighter使用的是标准的lucene Highlighter，其通过关键字的重要性及关键字的位置信息，尝试尽量的体现查询的匹配逻辑；

为了更加准确的体现查询的逻辑，Plain Highlighter需要针对具体的查询和命中文档的每个字段进行实时的计算，其会在内存中创建一个小型的index，然后通过查询计划重新执行一遍查询，从而获得高亮需要使用底层的匹配信息，所以其比较适合小型的字段；

Fast vector highlighter

这个fvh Highlighter使用的是Lucene Fast Vector Highlighter，其基于term_vector的数据结构，需要在mapping中将相应的字段设置为with_positions_offsets;其比较适合对大文本字段进行高亮处理；

四、Highlighter的高亮处理过程

Highlighter的主要工作就是通过传入的查询和命中的文档，找到能够最好反应匹配相关性的高亮片段；其主要需要完成以下三个工作；

1.将文本查分为小的高亮片段
本阶段主要将字段值文本拆分为小的高亮片段，三种Highlighter的处理过程如下

Plain Highlighter首先使用字段对应的analyzer对文本进行分词处理，然后通过得到的每个分词的起止字符位置，依次截取fragment_size的文本段；由于根据固定的片段长度拆分，得到的片段效果往往很不理想；

Unified和fvh Highlighter都通过Java的BreakIterator进行拆分高亮片段，配合fragment_size可以得到比较完整的句子；

2.找到最相关的高亮片段；

本阶段主要通过实际命中记录的查询关键字，对得到的高亮片段进行打分，从而找到跟查询最相关的高亮片段；

要计算高亮片段的匹配情况，有两种主要的方式

高亮处理的时候实时计算匹配情况，这样就需要针对每个高亮片段创建临时索引，并执行查询语句来获取匹配信息；
index的时候进行相关分词起止字符的统计信息处理和保存；

postings list，在字段mapping的时候，可以通过index_options来控制记录到倒排索引中的分词统计信息，通过设置offsets可以保存记录分词的起止信息；
term vector，elasticsearch提供的term_vector也记录了分词过程中产生的分词的起止信息，也是在字段mapping的时候进行设置，需要设置为with_positions_offsets；

三种Highlighter的处理过程如下

Plain Highlighter首先会利用高亮片段生成的分词在内存中创建一个index，并通过lucene查询计划执行原始的查询，然后通过命中信息获得匹配的分词，通过计算高亮片段的包含的不同查询分词的数量计算相关性得分；这里直接使用查询分词的boost(默认值)进行计算；

fvh Highlighter直接利用index的时候创建的term vector来得到高亮片段匹配的查询分词，其对高亮片段的评分算法跟Plain Highlighter类似，只不过这里会将命中的所有查询分词(包括重复的查询分词)计算在内；

unified Highlighter会尝试优先使用term vectors，index中的postings list，否则只能跟plain Highlighter相同的方式进行实时计算；其使用BM25算法计算高亮片段的相似度；

3.Highlight高亮片段；

本阶段主要进行输出前的编码和格式化，最后使用pre-tags、post-tags来包裹高亮片段中的查询关键字；

猜你喜欢

Python中的函数与方法以及Bound Method和Unbound Method
从本体论开始说起——运营商关系图谱的构建及应用
一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解
一篇运维老司机的大数据平台监控宝典（1）-联通大数据集群平台监控体系进程详解
Flask中的请求上下文和应用上下文
深入探讨Java中的异常与错误处理
研究学习Kotlin的一些方法
如何成为一名数据科学家？
金融服务领域的大数据：即时分析
影响大数据、机器学习和人工智能未来发展的8个因素
从未见过的堂兄杀了人，你的DNA是关键证据
一文贯通python文件读取
数据显示Java热度持续下落，日子屈指可数？
从0开始构建一个属于你自己的PHP框架
如何将Hadoop集成到工作流程中？这6个优秀实践必看
2017年5月编程语言排行榜：Java与C语言优势正开始缩小
SEO公司使用大数据优化其模型的5种方法
Java多线程之内置锁与显示锁
关于Web Workers你需要了解的七件事
20个安全可靠的免费数据源，各领域数据任你挑

zl程序教程

当前栏目

elasticsearch高亮之highlight原理

相关文章