您现在的位置是：首页 > 其他

当前栏目

预训练句子表征——【EMNLP 2021】SimCSE

2023-04-18 13:02:43 时间

1. 介绍

SimCSE（Simple Contrastive Learning of Sentence Embeddings）是一种简单在没有监督训练数据的情况下训练句子向量的对比学习方法。

这个方法是对同一个句子进行两次编码。由于在 Transformer 模型中使用了 dropout，两个句子表征的位置将略有不同。这两个表征之间的距离将被最小化，而同一批中其他句子的其他表征的距离将被最大化（它们作为反例）：

目标函数：

其中，z和z’ 是两个不同的dropout随机掩码。 h_i^{z_i},h_i^{z'_i} 是相同句子 x_i 输入相同编码器，但使用两个不同的dropout随机掩码而得到的向量。

2. 实验效果

发现效果会比我之前介绍的CT要好

3. 实现

sentence_transformers已经把SimCSE已经封装成pip包，完整的训练流程例子可以参考《Sentence-BERT》。我们在此基础上只用修改loss就能轻松的训练SimCSE了：

from sentence_transformers import SentenceTransformer, InputExample
from sentence_transformers import models, losses
from torch.utils.data import DataLoader

# ……

train_loss = losses.MultipleNegativesRankingLoss(model)

# 训练模型
model.fit(
    train_objectives=[(train_dataloader, train_loss)],
    epochs=1,
    show_progress_bar=True
)

4. 有监督的训练

SimCSE也可以用于有监督的数据上训练。我们构造的有监督数据形式为(x_i,x_i^+,x_i^-) 。简单来说，就是在训练时不只是把x_i^- 视为负例，且把同batch其他句子的正负例都视为句子i的负例：

目标函数为：

实验效果：

猜你喜欢

聊聊技术选型 - Angular2 vs Vue2
TensorFlow推出新接口，简化 ML移动端开发流程
移动前端开发和Web前端开发的区别是什么？
蚂蚁集团CEO胡晓明：上市后最重要的事是投技术
疫情下生意难做怎么办？外滩大会联合国副秘书长给解药：“数字金融”
原来Java是这样打败PHP的，这张开源图太狠了
谷歌Flutter开发框架现已支持Windows平台应用程序的开发
一步到位，服务器监控就是这么简单
GET和POST两种基本请求方法的区别
Webhooks与API的区别在哪里？
ServiceMesh的关键：边车模式（sidecar）；又要开车了
开发者现可在Windows平台上构建和运行Swift代码
Edge for Linux开发者预览将至 WSL子系统可运行带GUI的Linux应用程序
分布式高并发下Actor模型如此优秀
微软获GPT-3独家授权，可访问底层代码，API用户继续使用
JavaScript 中的函数式编程：函数，组合和柯里化
20行代码实现，使用Tarjan算法求解强连通分量
谷歌内部孵化Tables工具：提高追踪项目工作的效率
搞 Java 的年薪 40W 是什么水平？
C++超级大神欢迎微软当爸爸：请缨重操旧业写游戏代码

zl程序教程