您现在的位置是：首页 > 其他

当前栏目

理解Lucene索引与搜索过程中的核心类

搜索索引理解过程核心 Lucene

2023-09-14 08:58:00 时间

1、IndexWriter IndexWriter写索引是索引过程的核心组件这个类负责创建新的索引或者打开已有的索引以及向索引中添加、删除或
理解索引过程中的核心类

欢迎访问我的个人网站http://wuyudong.com/

执行简单索引的时候需要用的类有

IndexWriter、Directory、Analyzer、Document、Field

1、IndexWriter

IndexWriter写索引是索引过程的核心组件这个类负责创建新的索引或者打开已有的索引以及向索引中添加、删除或更新被索引文档的信息但不能读取或搜索索引。IndexWriter需要开辟一定的空间来存储索引该功能由Directory完成

2、Directory

/** A Directory is a flat list of files. Files may be written once, when they
* are created. Once a file is created it may only be opened for read, or
* deleted. Random access is permitted both when reading and writing.
*
* p Javas i/o APIs not used directly, but rather all i/o is
* through this API. This permits things such as: ul
* li implementation of RAM-based indices;
* li implementation indices stored in a database, via JDBC;
* li implementation of an index as a single file;
* /ul
*
* Directory locking is implemented by an instance of {@link
* LockFactory}, and can be changed for each Directory
* instance using {@link #setLockFactory}.
*
*/

Directory描述了索引的存放位置是一个抽象类其子类负责具体指定索引的存放路径

3、Analyzer

Analyzer由IndexWriter构造方法指定负责从被索引的文本文件中提取词汇Analyzer是一个抽象类由其子类完成相关的功能

4、Document

代表一些域Field的集合Lucene只能从二进制文档中提取以Field实例形式的文本

5、Field

一篇文档包含不同类型的信息可以分开索引比如标题时间正文作者等都可以保存在不同的域里。

理解索引与搜索过程中的核心类

Lucene提供的搜素接口一样很简单易懂

IndexSearcher、Term、Query、TermQuery、TopDocs

1、IndexSearcher

IndexSearcher用于搜索由IndexWriter类创建的索引它需要Directory实例来掌控前期创建的索引然后才能提供大量的搜索方法。最简单的搜索方法是将单个的Query对象和int topN计数作为该方法的参数并返回一个TopDocs对象该方法的一个典型应用如下

Directory dir = FSDirectory.open(new File("/tmp/index"));

IndexSearcher searcher = new IndexSearcher(dir);

Query q = new TermQuery(new Term("contents", "lucene"));

TopDocs hits = searcher.search(q, 10);

searcher.close();

2、Term

Term对象是搜索功能的基本单元。在搜索过程中可以创建Term对象和TermQuery对象一起使用

Query q = new TermQuery(new Term("contents", "lucene"));

TopDocs hits = searcher.search(q, 10);

上面代码的含义是寻找content域中包含lucene的前10个文档并按照降序排列

3、Query

lucene中包含很多具体的Query查询子类。TermQuery、BooleanQuery、PhraseQuery、 PrefixQuery、 PhrasePrefixQuery、TermRangeQuery、NumericRangeQuery、 FilteredQuery、SpanQuery
4、TermQuery

TermQuery是lucene中最基本的查询类型用来匹配指定域中包含特定项的文档

5、TopDocs

TopDocs类是一个简单的指针容器指针一般指向前N个排名的搜索结果搜索结果即匹配查询条件的文档

这就是搜索引擎读书笔记-day3-5.检索模型与搜索排序搜索结果排序融合了上百种排序因子，而重要两因素是：用户查询和网页内容相关性及网页链接情况。本节介绍内容相关性介绍网页排序
如何使用Marketing Cloud的扩展字段作为搜索条件进行搜索需求：我在Marketing Cloud的contact模型上用custom field这个应用创建了一个Extension field，名称为微信ID。现在客户的需求是使用这个字段作为过滤条件进行搜索。
EPZS搜索过程 EPZS(Enhance Predictive Zonal Search) 增强预测区域搜索，是一种整像素运动估计的搜索算法。 EPZS采用的是相关性较高的预测方法。这里的相关性较高是指，更多地根据已有的条件，来进行运动向量的预测（如采用相邻块的mv作为当前搜索块的mv进行预测）。

猜你喜欢

LabVIEW编程LabVIEW开发Keithley 2420测试电池IV曲线例程与相关资料
zuul路由前缀配置
【学习总结】《大话数据结构》- 第6章-树
《转》禅意设计：网络简洁设计的缘起和未来
平庸者的伟岸
Unity运行时刻资源管理
Centos常规文件作用
数据结构(哈夫曼树)
Python Django框架学习06：Django 模型
Universal-image-loader Mason 修复版（ImageLoader Image can't be decoded）
JS中箭头函数写法及5种简写规则
左手Cookie“小甜饼”，右手Web Storage
【云原生】K8s pod 动态弹性扩缩容 HAP（metrics-server）
git 提交团队项目代码的流程
activity之Activity启动流程
SQL VQ17 查询2022年以来刷题用户的用user_id和毕业院校
PDO连接mysql和pgsql数据库
Python IDLE快捷键一览
【云栖大会】看看云栖大会的这些“黑科技” 未来生活真让人期待

相关主题

搜索技术(2)
17_过滤和搜索
论记忆化搜索
超参数搜索
solr的搜索
深度优先搜索
广度优先搜索
搜索功能
搜索问题
ElasticSearch索引与搜索
github 搜索
mysql 模糊搜索
企业搜索
ElasticSearch搜索

zl程序教程

当前栏目

理解Lucene索引与搜索过程中的核心类

相关文章