您现在的位置是：首页 > IT要闻

当前栏目

跨语言对比学习

网络学习语言

2023-03-14 22:53:59 时间

猿辅导在EMNLP2021上的一篇论文Aligning Cross-lingual Sentence Representations with Dual Momentum Contrast提出基于双Momentum网络的对比学习方法。对比学习最近非常火，尤其是以SimCES为首所提出的利用Dropout作为正样本的无监督学习方法。猿辅导的这篇论文和SimCES却不一样，它主要是从网络整体架构入手，基于Momentum网络提出了一种有监督的跨语言句子相似度计算方法

Dual Momentum Contrast

Momentum本意是动量，但是直接翻译过来感觉有些别扭，因此这里就直接用英文表述了。这里简要概述一下Momentum网络结构，如下图所示，它由两个Encoder组成，这两个Encoder网络的结构相同，参数不同

对于图像任务来说，x^{q}代表一张图片，x^{k}代表多张图片集合（包括图片x^q），其中x^k中除了x^q以外的图片，对于x^q来说都是负样本。q为x^q经过encoder网络后的向量，k为经过Momentum encoder网络后的多个向量

回到原论文，给定一个跨语言平行句子集{x_i,y_i}_{i=1}^n，对于每种语言的句子，分别用特定语言的BERT模型去编码，提取最后一行所有token输出均值的L_2正则化作为句向量h_{x_i},h_{y_i}in mathbb{R}^{768}

这里有一个很巧妙的点在于，两个经过L_2正则化后的向量h_{x_i},h_{x_j}进行点积的结果，就是这两个向量的余弦相似度，因为L_2正则化帮我们对每个向量除以了分母的平方和

论文设计的网络结构图如下所示，其中sg表示"stop gradient"，即不反向传播；x和y是来自两个不同语言的句子

每一种语言的BERT都有一个参数为oldsymbol{ heta}的Momentum encoder，可以理解为原BERT的复制，只不过复制的是结构而不是参数，这些Momentum encoder不通过反向传播更新参数，他们的参数更新公式为

oldsymbol{ heta} = moldsymbol{ heta} + (1-m)oldsymbol{ heta}_{ ext{base}} ag{1}

每种语言都有两个存储队列（Memory queues），用于存储最近几批中由相应Momentum encoder编码的K个向量。在每个优化步骤中，最老的那批向量会被替换为当前batch的向量。Momentum系数min [0,1]，通常大家设置的值非常接近1（例如0.999）。K一般设置的非常大（> 10^5

mathcal{L}(x,y) = -log frac{exp(mathbf{h}_xcdot mathbf{h}_{y}/ au)}{sum_{i=0}^K exp(mathbf{h}_xcdot mathbf{h}_{y_i}/ au)} ag{2}

au是一个超参数，至于它的作用可以看我的这篇文章：Contrastive Loss中参数τ的理解。实际上式(2)是一个K+1的Softmax分类，其中，x的平行语料即正样本为y=y_0，所有的负样本{y_i}_{i=1}^K都在存储队列中

对称地，我们可以定义mathcal{L}(y,x)，因此最终我们的目标是

min mathcal{L}(x,y)+mathcal{L}(y,x) ag{3}

训练结束后，我们直接丢弃Momentum encoders，只保留两个BERT分别提取两种语言句子的向量

虽然作者提出的方法以及后续实验都是基于跨语言的，但实际上针对同语言也是适用的，例如给定一个同语言的句子对(x_i,x_j)，设句子y_j是由句子x_j翻译得到的，如果模型训练得比较好，那么对于句子x_j和y_j的向量表示应该有

mathbf{h}_{x_j}approx mathbf{h}_{y_j}

两边同时点乘mathbf{h}_{x_i}得

mathbf{h}_{x_i}cdot mathbf{h}_{x_j}approx mathbf{h}_{x_i}cdot mathbf{h}_{y_j}

后者是跨语言的句子相似度，这正是我们模型所明确优化的

个人总结

实验效果非常好，大幅超越了BERT-Whitening以及BERT-flow，不过这里我就懒得放结果图了，因为我没有在论文中看到他们的源码地址

猜你喜欢

鲜为人知但很有用的 HTML 属性
在 Go 里用 CGO？这 7 个问题你要关注！
数据孤岛是业务效率的无声杀手
9款优秀的去中心化通讯软件 Matrix 的客户端
翻转再翻转！有意思的水平横向溢出滚动
发现 Linux SpaceFM 文件管理器的威力
图像处理工具Python扩展库，你了解吗？
求职数据分析，项目经验该怎么写
自定义计数器小技巧！CSS 实现长按点赞累加动画
在OKR中，我看到了数据驱动业务的未来
2023展望：新的一年将给大数据分析领域带来什么？
过五关！React高频面试题指南
阿里云ADB基于Hudi构建Lakehouse的实践
火山引擎云原生大数据在金融行业的实践
OpenHarmony富设备移植指南（二）—从postmarketOS获取移植资源
《数据成熟度指数》报告：64%的企业领袖认为大多数员工“不懂数据”
OpenHarmony 小型系统兼容性测试指南
肯睿中国（Cloudera）：2023年企业数字战略三大趋势预测
适用于 Linux 的十大命令行游戏
软件开发中的十个认知偏差

zl程序教程

当前栏目

跨语言对比学习

Dual Momentum Contrast

个人总结

相关文章