分词技术
技术 分词
2023-09-11 14:14:06 时间
分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。
- 中文名
- 分词技术
- 应用领域
- 搜索引擎
- 基本释义
- 关键词串用的一种技术
- 技术数目
- 3种技术
基本介绍
编辑概述
数据处理
1.首先是到数据库里面索引相关的信息,这就是查询处理。
举个例子。“什么是百度分词技术” 我们就会把这个词分割成“ 什么是,百度,分词技术。”这种分词方法叫做反向匹配法。
2.然后再看用户提供的这个词有没有重复词汇
如果有的话,会丢弃掉,默认为一个词汇。接下来检查用户提交的字符串,有没有字母和数字。如果有的话,就把字母和数字认为一个词。
这就是搜索引擎的查询处理。
分词的原理
编辑百度是如何来分词的呢?分词技术现今非常成熟了。分为3种技术。
字符串匹配的分词方法
这是种常用的分词法,百度就是用此类分词。字符串匹配的分词方法,又分为3种分词方法。
(1).正向最大匹配法
就是把一个词从左至右来分词。
举个例子:”不知道你在说什么”
这句话采用正向最大匹配法是如何分的呢?“不知道,你,在,说什么”。
(2).反向最大匹配法
"不知道你在说什么"反向最大匹配法来分上面这段是如何分的。“不,知道,你在,说,什么”,这个就分的比较多了,反向最大匹配法就是从右至左。
(3).就是最短路径分词法。
就是说一段话里面要求切出的词数是最少的。
“不知道你在说什么”最短路径分词法就是指,把上面那句话分成的词要是最少的。“不知道,你在,说什么”,这就是最短路径分词法,分出来就只有3个词了。
(4).双向最大匹配法。
而有一种特殊的情况,就是关键词前后组合内容被认为粘性相差不大,而搜索结果中也同时包含这两组词的话,百度会进行正反向同时进行分词匹配。
词义分词法
就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这种分词方法,还不成熟,处在测试阶段。
统计分词法
根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。
比如,“我的,你的,许多的,这里,这一,那里”等等,这些词出现的比较多,就从这些词里面分开来。
相关文章
- 中间件技术及双十一实践·服务框架篇
- 阿里云容器服务 ACK 产品技术动态(202208)
- 面向高校 | “云原生技术应用与实践”示范课程项目开放申报
- 开放报名 | Serverless 技术进阶研读班,碎片时间提升技术新方式
- 我看技术人的成长路径
- H3CSE学习---Vxlan网络技术
- Android版OpenCV图像处理技术亲自验证[五]之Canny边缘检测
- 服务端技术进阶(三)从架构到监控报警,支付系统的设计如何步步为营
- Atitit 人工智能体系树培训列表应用较为广泛的技术.docx Atitit 人工智能体系培训列表 目录 1. 1.NLP自然语言处理文本处理2 1.1. 语言理解 分词2 1.2. 抽取
- Atitit.log日志技术的最佳实践attilax总结
- ML与Regularization:正则化理论即bias-variance tradeoff(权值衰减/提前终止/数据扩增/Dropout/融合技术)在机器学习中的简介、常用方法、案例应用之详细攻略
- High&NewTech:基于人工智能的自动驾驶技术的前世今生之Why、What、How最强分析与总结(包括自动驾驶L5个分级详细标准,非常建议收藏)
- 技术分享丨数据仓库的建模与ETL实践技巧
- 【华为云技术分享】MongoDB经典故障系列二:如何限制最大连接数?
- 【华为云技术分享】Python 中的异常和错误
- 技术专家或技术领导人所需具备的综合素质 / By 禅与计算机程序设计艺术&GPT-4
- 擎创技术流 | 基于日志的交换机故障预测