您现在的位置是：首页 > 其他

当前栏目

知识图谱入门学习笔记（五）-知识抽取之数据采集&命名实体识别

amp 识别笔记学习数据入门知识命名

2023-09-11 14:20:00 时间

1 数据采集原理和技术

爬虫原理
请求和响应
多线程并行爬取
反扒机制进队

这些参考一下自己之前学的爬虫知识，详细见Python 这个专栏

2 知识抽取：命名实体识别

一、实体识别基本概念
二、基于规则和词典的方法
三、基于机器学习的方法
四、基于深度学习的方法
五、基于半监督学习的方法
六、基于迁移学习的方法
七、基于预训练的方法

2.1实体识别

实体识别的任务是识别文中的三大类命名实体（实体类、时间类、数字类），具体如下

2.2 基于规则和词典的命名实体识别流程

预处理
➢划分句子
➢分词+词性标注
➢构建词典
识别实体边界
➢初始化边界:词典匹配、拼写规则、特殊字符、特征词和标点符号等
命名实体分类
➢使用分类规则
➢基于词典的分类

词典主要在三个地方使用：

在分词时辅助分词
实体抽取时根据词典匹配实体
基于词典对实体分类

2.3 基于机器学习的方法主要包括：

隐马尔科夫模型(Hidden Markov Model, HMM)
条件随机场(Conditional Random Fields, CRF)
支持向量机(Support Vector Machine, SVM)
最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM )

这部分的学习强烈推荐看一下参考文献里的几篇文章

2.4 基于深度学习的实体识别

2.5 基于半监督学习的实体识别

TagLM模型结构

2.6 基于迁移学习的实体识别

机器学习与迁移学习

迁移学习的三种模式：

跨域、跨应用、跨语言

迁移学习的模型表现

2.7 基于预训练的实体识别

BETR模型

BERT模型重新设计了语言模型预训练阶段的目标任务，提出了遮挡语言模型(MaskedLM)和下一个句子预测(NSP)。
Masked LM是在输入的词序列中，随机选15%的词进行[MASK] ,然后在这15%的词中，有80% 的词被真正打.上[MASK]标签，有10%的词被随机替换成任意词汇，10% 的词不做任何处理。模型的任务是去正确预测带有[MASK]标签的
词。相比于传统的语言模型，Masked LM可以从前后两个方向预测这些带有[MASK]标签的词。
NSP实质上是一个二分类任务，以50% 的概率输入一-个句子和下一个句子的拼接，标签属于正例;另外50%的概率输
入一个句子和非下一个随机句子的拼接，对应标签为负例。
BERT模型的表现

参考文献：

MCMC(二)马尔科夫链：https://www.cnblogs.com/pinard/p/6632399.html
马尔科夫维基：https://zh.wikipedia.org/wiki/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E9%93%BE
隐马尔可夫模型：https://zh.wikipedia.org/wiki/%E9%9A%90%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%A8%A1%E5%9E%8B
隐马尔科夫模型结合统计学习方法CSDN:https://blog.csdn.net/mingzai624/article/details/52399235

猜你喜欢

每个程序员都应该知道的5个计算机硬件概念
jsp JDBC连接MySQL数据库操作标准流程参考
利用Layer组件弹出多个对话框（非嵌套）与关闭及刷新
挑战杯科展上的智能车作品
Word处理控件Aspose.Words功能演示：如何使用 Java 从模板动态生成 Word 文档
ORA-19809: 超出了恢复文件数的限制
微信小程序 swichtab 不能传递变量解决法
一个隐蔽的C语言问题反思
21行python代码实现拼写检查器
PHP编写表格页面
《数据整理实践指南》一导读
Docker NFS volume 创建与使用
使用 Amazon Amplify快速创建简单的 Android 应用程序
maven如何引入servlet-api和jsp-api
Facebook计划在旧金山设立首个办公室
软件测试面试必备—基础知识整理（必备技能）
鸿蒙操作系统普及的最大挑战是生态吗？

相关主题

shell &&
&&与&
笔记笔记笔记
2＞&1解释
js || &&
&amp与&
void*&
/dev/null &
JS_&&||
++i && i++
&和&&

zl程序教程

当前栏目

知识图谱入门学习笔记（五）-知识抽取之数据采集&命名实体识别

1 数据采集原理和技术

2 知识抽取：命名实体识别

2.1实体识别

2.2 基于规则和词典的命名实体识别流程

2.3 基于机器学习的方法主要包括：

2.4 基于深度学习的实体识别

2.5 基于半监督学习的实体识别

2.6 基于迁移学习的实体识别

机器学习与迁移学习

2.7 基于预训练的实体识别

参考文献：

相关文章