知识图谱入门学习笔记(五)-知识抽取之数据采集&命名实体识别
2023-09-11 14:20:00 时间
目录
1 数据采集原理和技术
- 爬虫原理
- 请求和响应
- 多线程并行爬取
- 反扒机制进队
这些参考一下自己之前学的爬虫知识,详细见Python 这个专栏
2 知识抽取:命名实体识别
一、实体识别基本概念
二、基于规则和词典的方法
三、基于机器学习的方法
四、基于深度学习的方法
五、基于半监督学习的方法
六、基于迁移学习的方法
七、基于预训练的方法
2.1实体识别
实体识别的任务是识别文中的三大类命名实体(实体类、时间类、数字类),具体如下
2.2 基于规则和词典的命名实体识别流程
预处理
➢划分句子
➢分词+词性标注
➢构建词典
识别实体边界
➢初始化边界:词典匹配、拼写规则、特殊字符、特征词和标点符号等
命名实体分类
➢使用分类规则
➢基于词典的分类
词典主要在三个地方使用:
- 在分词时辅助分词
- 实体抽取时根据词典匹配实体
- 基于词典对实体分类
2.3 基于机器学习的方法主要包括:
- 隐马尔科夫模型(Hidden Markov Model, HMM)
- 条件随机场(Conditional Random Fields, CRF)
- 支持向量机(Support Vector Machine, SVM)
- 最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM )
这部分的学习强烈推荐看一下参考文献里的几篇文章
2.4 基于深度学习的实体识别
2.5 基于半监督学习的实体识别
TagLM模型结构
2.6 基于迁移学习的实体识别
机器学习与迁移学习
迁移学习的三种模式:
跨域、跨应用、跨语言
迁移学习的模型表现
2.7 基于预训练的实体识别
BETR模型
BERT模型重新设计了语言模型预训练阶段的目标任务,提出了遮挡语言模型(MaskedLM)和下一个句子预测(NSP)。
Masked LM是在输入的词序列中,随机选15%的词进行[MASK] ,然后在这15%的词中,有80% 的词被真正打.上[MASK]标签,有10%的词被随机替换成任意词汇,10% 的词不做任何处理。模型的任务是去正确预测带有[MASK]标签的
词。相比于传统的语言模型,Masked LM可以从前后两个方向预测这些带有[MASK]标签的词。
NSP实质上是一个二分类任务,以50% 的概率输入一-个句子和下一个句子的拼接,标签属于正例;另外50%的概率输
入一个句子和非下一个随机句子的拼接,对应标签为负例。
BERT模型的表现
参考文献:
- MCMC(二)马尔科夫链:https://www.cnblogs.com/pinard/p/6632399.html
- 马尔科夫维基:https://zh.wikipedia.org/wiki/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E9%93%BE
- 隐马尔可夫模型:https://zh.wikipedia.org/wiki/%E9%9A%90%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%A8%A1%E5%9E%8B
- 隐马尔科夫模型结合统计学习方法CSDN:https://blog.csdn.net/mingzai624/article/details/52399235
相关文章
- <<Python基础教程>>学习笔记 | 第10章 | 充电时刻
- shell 管道命令 &、&&、||、>、>>(精)
- 【微信小程序】-- 其它常用组件介绍 -- button & image(八)
- 【微信小程序】-- 常用的基础内容组件介绍 -- text & rich-text & progress & icon(七)
- T&C;用数据提升女性购买文胸体验
- 【动态内存管理】malloc&calloc和realloc和笔试题和柔性数组
- 用华为HMS ML kit人体骨骼识别技术,Android快速实现人体姿势动作抓拍
- 入行数据分析要知道什么是统计量&抽样分布
- 【JAVA】Lambda接口&函数级接口
- 百度BML&飞桨训练营(十三)花样滑冰选手骨骼点识别--AGCN&STGCN
- AT&T推新联网车上网计划 畅享无限WiFi
- GAMES101作业5-从头到尾理解代码&Whitted光线追踪
- Java NIO —— TCP套接字(ServerSocketChannel & SocketChannel)