您现在的位置是：首页 > 云平台

当前栏目

基于词典的实体识别

识别基于实体词典

2023-09-11 14:17:14 时间

ner(命名实体识别)一般是词典和模型方式结合，词典负责已有词识别，模型负责未知词识别。

在不需发现未知词的情况下基于词典的实体识别已足够

基于字典的ner也有两种做法：字符串多模匹配和切词(词典加入自定义词库)

字符串多模匹配
多模匹配有两种基本算法：trie树和记录长度集合的最长匹配

trie树匹配效率更高，但占用内存更多
而记录长度集合的最长匹配，计算时间效率相比trie稍低(但比切词高很多)，内存空间比较省，这里重点介绍一下

记录长度集合的最长匹配方式不依赖分词，会存储以字典中每个词开头两个字的长度集合，并对字典中每个字做hashmap。
举个例子，刘德华的歌曲，先查刘德开头的词的长度有 5 3 两个长度，然后再取5个长度的“刘德华的歌”，字典里没有，则再取3个长度“刘德华”，字典里有，则命中

采用该种方式相比切词更容易出现错误匹配，比如 “研究生命科学“ ，假如“研究生“在字典里，就会错误识别为“{实体}命科学“，因为该方式不考虑上下文，而切词会考虑

实验：采用该最长匹配方式测试700万数据,实体字典占600M
4000问句平均每个耗时16微秒，而切词方式平均每个耗时300微秒；
最长匹配相比之下效率有20倍提升：

一方面是因为切词规则复杂
一方面是最长匹配实际用到字符串匹配的次数很少，我统计了一下4000问句平均每句只用了2.3次字符串匹配
切词匹配
将字典加入切词工具的自定义词库，便可正常识别,这也是业界通用做法
但经测试，700万数据，python版内存占用7G，c++版内存占用11G
切词内部的词库使用trie树实现，会占用较多内存

总结：最长匹配方式，时间空间相比切词都更好，但是准确率低不少；切词准确率高，但时空效率低，召回率低(一些特殊词加入自定词典无效，比如“新疆天业(集团)有限公司“,"ST德棉”)

优化：两种方式结合
两种方式各有千秋，这里考虑将两种方式结合使用：先最长匹配，然后将取出的实体放回切词结果看是否“完整”，注意不用再将词典放入切词工具的自定义词库。

怎么判断“完整”：如果最长匹配得到的词开始位置的字在切词结果中不与前一个字组成词且结束位置的字在切词结果中不与后一个字组成词，则认为“完整”
举例：最长匹配得到“国航”，切词上下文“中国航展“，说明”国航“不“完整”；最长匹配得到“南国置业”，切词上下文“昨天南国置业发布”，说明“南国置业” “完整”

该算法实验结果表明：ner准确率提升到近100%(评测的500项数据里没有发现提取错误的)，而且没有占用更多内存，很适合拥有大规模词典的ner

另外，当最长匹配提取的词较长时，无匹配的情况极少了，对这种长词可以不用放回切词结果验证。

注：实验用的切词工具主要是jieba python版，
pyltp最初也有使用，但发现有两个问题：

加入自定义词库的词有时不起作用，如果存在包含关系的两个词同时加入自定词词典，很可能切词结果是短词而非长词
切词准确率偏低，比如切词结果“黑化股份公布”，“飞乐股份公告”，“中小板个股世荣兆业”，“南国置业证代回应称”，“金螳螂，002081”，“* ST 天发股”，“* ST 嘉瑞变身为 ”

原文链接：https://blog.csdn.net/oanqoanq/article/details/80255272

猜你喜欢

sql 语句中count()有条件的时候为什么要加上or null
HDU-1053-Entropy(Huffman编码)
linux nc命令用法举例
MySQL 使用自增ID主键和UUID 作为主键的优劣比较详细过程（从百万到千万表记录测试）
分享11个web前端开发实战项目案例+源码
kubectl 常用命令
SAP 电商云 Spartacus UI Configurable Product 的页面设置
Java实现蓝桥杯VIP 算法训练星际交流
常用 Git 命令清单
第六届蓝桥杯JavaA组国(决)赛真题
常见机器学习算法比较
node.js 设置脚本命令
胖子哥的大数据之路（10）- 基于Hive构建数据仓库实例
LMAX Disruptor——一个高性能、低延迟且简单的框架
IntelliJ IDEA中自动生成MyBatis代码
SpringCloud 应用在 Kubernetes 上的最佳实践 — 诊断（线上联调）
sql语句实现行转列的3种方法实例
掌握4个有效的数据分析要点，切实解决用户痛点
KVO的使用
我帮某人擦屁股的故事
机器学习笔记 - SVD奇异值分解(3) 在图像上应用 SVD
操作系统的概述并发和共享的关系任务管理器系统资源向上层提供服务 GUI 封装思想联机命令脱机命令操作系统的特征并行并发共享虚拟异步总结新手上车言简意赅通俗易懂

相关主题

安全帽识别
类型识别
手写数字识别
基于matlab的车牌识别
python 识别验证码

zl程序教程

当前栏目

基于词典的实体识别

相关文章