您现在的位置是：首页 > 其他

当前栏目

预训练句子表征——【EMNLP 2019】Sentence-BERT

输出

2023-04-18 13:04:13 时间

1. 介绍

在许多NLP任务（特别是在文本语义匹、文本向量检索等）需要训练优质的句子表示向量，模型通过计算两个句子编码后的Embedding在表示空间的相似度来衡量这两个句子语义上的相关程度，从而决定其匹配分数。尽管基于BERT在诸多NLP任务上取得了不错的性能，但其自身导出的句向量（【CLS】输出的向量、对所有输出字词token向量求平均）质量较低。由于BERT输出token向量预训练中，后面接的的分类的任务。所以其实输出token向量并不适合作为生成句子表示。美团一篇论文中提到，发现以这种方式编码，句子都倾向于编码到一个较小的空间区域内，这使得大多数的句子对都具有较高的相似度分数，即使是那些语义上完全无关的句子对，并将此称为BERT句子表示的“坍缩（Collapse）”现象：

如何更好的利用BERT来做文本语义匹等任务呢？Sentence-BERT作者提出了以下方案：

简单来说，就利用孪生网络，输出句子A和B，再将输出的token向量Pooling成两个向量（Pooling 方式可以是mean、max或者取【CLS】，实验mean的效果最好），进行有监督的向量相似度训练。相似度训练目标函数一共有三种：

分类目标函数：

回归目标函数如图2的方式计算向量cos相似度，使用平均差损失训练模型。
三重目标函数

2. 实验效果

3.实现

sentence_transformers已经把Sentence-BERT已经封装成pip包，可以轻松进行Sentence-BERT训练：

from sentence_transformers import SentenceTransformer, models
#这里可以加载 Hugging Face 预训练模型，或者本地预训练模型
word_embedding_model = models.Transformer('bert-base-uncased', max_seq_length=256)
pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())
model = SentenceTransformer(modules=[word_embedding_model, pooling_model])

#训练样本
train_examples = [InputExample(texts=['My first sentence', 'My second sentence'], label=0.8),
    InputExample(texts=['Another pair', 'Unrelated sentence'], label=0.3)]
train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=16)

#定义损失函数
train_loss = losses.CosineSimilarityLoss(model)

#验证集
sentences1 = ['This list contains the first column', 'With your sentences', 'You want your model to evaluate on']
sentences2 = ['Sentences contains the other column', 'The evaluator matches sentences1[i] with sentences2[i]', 'Compute the cosine similarity and compares it to scores[i]']
scores = [0.3, 0.6, 0.2]
evaluator = evaluation.EmbeddingSimilarityEvaluator(sentences1, sentences2, scores)

#调整模型
model.fit(train_objectives=[(train_dataloader, train_loss)], epochs=1, warmup_steps=100, evaluator=evaluator, evaluation_steps=500)

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

预训练句子表征——【EMNLP 2019】Sentence-BERT

1. 介绍

2. 实验效果

3.实现

相关文章