论文解读《Research on the application of contrastive learning in multi-label text classification》
论文信息
论文标题:Research on the application of contrastive learning in multi-label text classification
论文作者:Nankai Lin, Guanqiu Qin, Jigang Wang, Aimin Yang, Dong Zhou
论文来源:aRxiv 2022
论文地址:download
论文代码:download
1 Introduction
本文介绍了对比学习在多标签文本分类中的应用。
2 Method
任务:给定包含 $K$ 个样本的样本集 $D=\left\{\left(X_{1}, Y_{1}\right),\left(X_{2}, Y_{2}\right), \ldots,\left(X_{K}, Y_{K}\right)\right\}$,下标 $I=\{1, \ldots, K\}$。将文本 $X_{i}$ 放入分类模型 $M$ 得到对应的句子表示 $E_{i}^{t}$,情绪表示 $E_{i}^{e}$,目标是通过句子表示准确得到文本 $X_{i}$ 的标签 $Y_{i}=\left\{y_{1}, y_{2}, \ldots, y_{l}\right\}$ 。
2.1 Strictly Contrastive Loss
${\large L_{S C L}=-\sum_{s \in S} \log \frac{\exp \left(\operatorname{sim}\left(E_{i}^{t}, E_{s}^{t}\right) / \tau\right)}{\sum_{k \in I /\{i\}} \exp \left(\operatorname{sim}\left(E_{i}^{t}, E_{k}^{t}\right) / \tau\right)}} $
2.2 Jaccard Similarity Contrastive Loss
SCL是一种严格的对比学习方法,它只关闭具有完全相同标签的样本,而 JSCL 根据样本标签的相似性对样本进行不同程度的操作。对于一个给定的样本,JSCL将尽可能地放大到具有完全相同标签的样本,而只略微放大具有一些相同标签的样本。在 JSCL 中,对于给定的样本 $i$,我们可以定义 JSCL 函数为
$L_{J S C L}=-\sum\limits _{s \in I} \log \frac{\frac{\left|Y_{i} \cap Y_{s}\right|}{\left|Y_{i} \cup Y_{s}\right|} \cdot \exp \left(\operatorname{sim}\left(E_{i}^{t}, E_{s}^{t}\right) / \tau\right)}{\sum_{k \in I /\{i\}} \exp \left(\operatorname{sim}\left(E_{i}^{t}, E_{k}^{t}\right) / \tau\right)}$
2.3 Jaccard Similarity Probability Contrastive Loss
Li 等人提出,概率对比学习比特征对比学习可以产生更紧凑的特征,同时迫使输出概率分布在类权值周围。基于JSCL,我们尝试使用概率来进行对比学习。在JSPCL中,对于给定的样本 $i$,我们可以定义 JSPCL 函数为
${\large L_{J S P C L}=-\sum_{s \in I} \log \frac{\frac{\left|Y_{i} \cap Y_{s}\right|}{\left|Y_{i} \cup Y_{s}\right|} \cdot \exp \left(\operatorname{sim}\left(E_{i}^{e}, E_{s}^{e}\right) / \tau\right)}{\sum_{k \in I /\{i\}} \exp \left(\operatorname{sim}\left(E_{i}^{e}, E_{k}^{e}\right) / \tau\right)}} $
2.4 Stepwise Label Contrastive Loss
SLCL是另一种考虑在标签不完全相同的样本之间进行对比学习的方法。前三种对比学习方法主要考虑同时考虑多个情绪的情况,而SLCL分别考虑不同的情绪,分别计算对比损失,然后结合了每一种情感的损失。在 JSPCL 中,对于一个给定的样本 $i$ ,在批中与它共享相同标签 $y_j$ 的所有其他样本形成正样本集 $S_j$。每个情绪标签下的正样本集为 $S=S_{1}, S_{2}, . . S_{q}$,$q$ 是情绪的样本 $i$ 的数量。然后我们可以为每个样本 $i$ 定义 SLCL 函数
$L_{S L C L}=-\frac{1}{q} \sum_{S_{j} \in S} \sum_{s \in S_{j}} \log \frac{\exp \left(\operatorname{sim}\left(E_{i}^{t}, E_{s}^{t}\right) / \tau\right)}{\sum_{k \in I /\{i\}} \exp \left(\operatorname{sim}\left(E_{i}^{t}, E_{k}^{t}\right) / \tau\right)}$
2.5 Intra-label Contrastive Loss
不同于其他几个对比损失缩小样本的语义表示与相同的标签,ICL旨在使多个情感表示存在于同一样本更近,也就是说,ICL缩小情感表示之间的距离,而不是样本表示之间的距离。在ICL中,对于一个给定的样本 $i$ 和 $i$ 的情绪指数 $I_{Y}=\{1, \ldots, I\}$,我们可以定义每个样本 $i$ 的第 $j$ 个情绪的 ICL 函数
$L_{I C L_{j}}=-\sum_{s \in I_{Y}} \log \frac{\exp \left(\operatorname{sim}\left(E_{j}^{e}, E_{s}^{e}\right) / \tau\right)}{\sum_{k \in I_{Y} /\{j\}} \exp \left(\operatorname{sim}\left(E_{j}^{e}, E_{k}^{e}\right) / \tau\right)}$
$L_{I C L}=\frac{1}{\left|Y_{i}\right|} \sum_{Y_{i}} L_{I C L_{j}}$
3 Training Objective
目标函数:
$L=\alpha \cdot L_{C L}+(1-\alpha) \cdot L_{B C E}$
相关文章
- JetBrains Rider for mac(跨平台.NET IDE集成开发) v2022.3.1激活版
- 交互周期表:网络中心度(Network Centrality)
- ECCV2022 | PCLossNet:不进行匹配的点云重建网络
- Redis
- SQLSERVER 的复合索引和包含索引到底有啥区别?
- SQLSERVER 的主键索引真的是物理有序吗?
- SQLSERVER 居然也能调 C# 代码 ?
- 再聊一下那 SQLSERVER 行不能跨页的事
- 聊一聊 SQLSERVER 的行不能跨页
- 一次SQL调优 聊一聊 SQLSERVER 数据页
- 记一次 .NET 某安全生产信息系统 CPU爆高分析
- 记一次 .NET 某工控MES程序 崩溃分析
- 玩好.NET高级调试,你也要会写点汇编
- 记一次 .NET 某工控软件 内存泄露分析
- 记一次 .NET 某电子厂OA系统 非托管内存泄露分析
- 聊一聊如何截获 C# 程序产生的日志
- .NET 7 的 AOT 到底能不能扛反编译?
- 记一次 .NET 某自动化采集软件 崩溃分析
- 从 WinDbg 角度理解 .NET7 的AOT玩法
- 记一次.NET某工控图片上传CPU爆高分析