zl程序教程

您现在的位置是:首页 >  云平台

当前栏目

NLP-信息抽取-NER-2015-BiLSTM+CRF(三):命名实体识别【实战】

识别 实战 信息 命名 2015 NLP 实体 抽取
2023-09-27 14:20:38 时间

一、项目步骤

1、读取数据集

数据集共三个文件,训练集,交叉测试集和测试集,文件中每一行包含两个元素,字和标识,每一句话间由一个空格隔开。

2、处理数据集

更新数据集中的标签【BIO转为BIOSE体系】

  • 单独的: B-LOCS-LOC;
  • 两个的:B-LOC,I-LOCB-LOC,E-LOC;
  • 三个的:B-LOC,I-LOC,I-LOCB-LOC, I-LOC, E-LOC;

给每个char和tag分配一个id,得到一个包含所有字的字典dict,以及char_to_id, id_to_char, tag_to_id, id_to_tag, 将其存在map.pkl中。

3、准备训练数据

  • 将训练集中的每句话变成4个list;
  • 第一个list是字,如[今,天,去,北,京];
  • 第二个list是char_to_id [3,5,6,8,9];
  • 第三个list是通过jieba分词得到的分词信息特征,如[1,3,0,1,3] (1,词的开 始,2,词的中间&#