您现在的位置是：首页 > 数据库

当前栏目

全文搜索引擎，索引库

索引搜索引擎全文

2023-09-11 14:14:06 时间

全文搜索引擎的工作原理理论上很简单，关键技术就是“分词”，

“索引库”：使用分词技术把“文档数据”按分词拆分，也就是一个文档拆分为多个分词(一条普通数据拆分为多个词的索引数据)。这个结构就形成了“索引库”,索引库存储的数据就叫索引(索引数据)(所以当普通数据发生变化的时候，与之所对应的索引也要变化，这里就涉及到自动实时更新索引，自动定时更新索引，还是手动更新索引，还有是增量更新索引，还是完全重建索引)。
用户输入搜索关键字后，首先需要处理的是这个关键字，需要把这个关键字拆分，拆分的技术还是使用分词拆分，把搜索关键字拆分成一个或者多个有意义的字词。
然后用这些字词去“索引库”中查询，此时的like其实是变成等于操作，然后返回结果。说白了全文搜索就是通过对内容分词把like变成等,当然数据的存储结构一般为非结构型数据文档结构。

文本数据：Lucene.Net只能对文本信息进行检索，所以非文本信息要么转换成为文本信息,要么你就死了这条心吧！

　　分词算法：将一句完整的话分解成若干词汇的算法常见的一元分词(Lucene.Net内置就是一元分词,效率高,契合度低),二元分词,基于词库的分词算法(契合度高,效率低)...

　　切词:将一句完整的话,按分词算法切成若干词语

　　比如："不是所有痞子都叫一毛" 这句话，如果根据一元分词算法则被切成: 不是所有痞子都叫一毛

如果二元分词算法则切成: 不是是所所有有痞痞子子都都叫叫一一毛

如果基于词库的算法有可能:不是所有痞子都叫一毛具体看词库

　　索引库:就是存储索引数据的库，简单的理解成一个提供了全文检索功能的数据库(把需要全文检索的数据存入索引库)，见下图所示：

猜你喜欢

在SAP WebIDE里开发一个React component
root与alias主要区别
python os.path.join()
【JAVA】HashMap和HashSet的区别
简学LINGO（三）——实例篇
uniapp、uview——图片上传（单图上传、多图上传、多组照片上传、图片回显）
Web前端 | JavaScript（DOM编程）
redux原理是什么
固定优先级仲裁器设计
SQL中DateTime转换成Varchar样式
浅谈程序员的英语学习
Quartz 多个触发器
C++ string顺序查找和逆序查找
linux下oracle自动备份脚本
ViewPager滑动引导页
远程桌面连接：让远程机器访问本机资源（初级版）
win10 caffe python Faster-RCNN训练自己数据集(转)
成功解决numpy.linalg.LinAlgError: SVD did not converge in Linear Least Squares
Cat入门学习笔记整理
大数据工具篇之Hive与HBase整合完整教程
paip.java gui swt/jface 最佳实践
Java中transient关键字
（二十六）c#Winform自定义控件-有确定取消的窗体（二）-HZHControls
图解SQL的inner join、left join、right join、full outer join、union、union all的区别

相关主题

Mysql中的索引
mysql的索引
mysql -- 索引
mysql聚集索引
索引
索引的使用
Oracle 视图索引
MongoDB索引(7)
B+树索引
mysql索引问题

zl程序教程

当前栏目

全文搜索引擎，索引库

相关文章