您现在的位置是：首页 > 其他

当前栏目

NLP-预训练模型-2019：XLM【基于BERT的跨语言模型】【将不同语言放在一起采用新的训练目标进行训练，从而让模型能够掌握更多的跨语言信息】

训练语言基于进行模型信息掌握不同

2023-09-27 14:20:38 时间

近一年来，NLP领域发展势头强劲，从ELMO到LSTM再到去年最牛叉的Google Bert，在今年年初，Facebook又推出了XLM模型，在跨语言预训练领域表现抢眼。实验结果显示XLM在XNLI任务上比原来的state-of-the-art直接高了4.9个百分点；在无监督机器翻译WMT’16 German-English中，比原来的state-of-the-art高了9个BLEU；在有监督的机器翻译WMT’16 Romanian-English中，比原来的state-of-the-art高了4个BLEU。

最近的研究已经证明了生成预训练对于英语自然语言理解的有效性。在这项工作中，我们将这种方法扩展到多种语言并展示跨语言预训练的有效性。我们提出了两种学习跨语言语言模型（XLM）的方法：

一种是无监督方式，只依赖于单语言数据，
另一种是监督，利用新的跨语言语言模型目标来利用并行数据。

我们获得了关于跨语言分类，非监督和监督机器翻译的最新结果。

尽管原有的BERT模型可以在上百种语言上进行预训练，语言之间的信息并不是互通的，不同的语言模型之间没有共享知识。Facebook的XLM模型克服了信息不互通的难题，将不同语言放在一起采用新的训练目标进行训练，从而让模型能够掌握更多的跨语言信息。这种跨语言模型的一个显著优点是，对于预训练后的后续任务（比如文本分类或者翻译等任务），训练语料较为稀少的语言可以利用在其他语料上学习到的信息。

参考资料：
XLM，基于BERT的跨语言模型
 Facebook AI Research的XLM模型：将BERT扩展成跨语言模型
 XLM论文原理解析

猜你喜欢

第141章触发器关键字 - UpdateColumnList
根据ip反查公司信息和域名方法(python实现)
Oracle ASM 翻译系列第十四弹：ASM Internal Rebalancing act
理解 ASP.NET Core：处理管道
为什么要两次调用encodeURI来解决乱码问题
springcloud报错集合
AOL正考虑弃用标志性的旧品牌名
如何解决ubuntu报的错误:You must put some 'source' URIs in your sources.list
JS输出26个英文大小写字母
postgresql insert语句中用select
Ajax跨域、Json跨域、Socket跨域和Canvas跨域等同源策略限制的解决方法
字符串匹配算法之KMP&Boyer-Moore
CentOS7下搭建Redis主从复制
51EasyUI 树形菜单- 创建异步树形菜单
Android studio2 中的 SDK Manager的使用-------Android SDK 的安装与更新（Install missing platform(s) and sync project 编译错误解决）
性能测试中如何确定并发用户数
几个简单步骤可以提高网站浏览体验
js 去重
分布式光伏储能需求海外已显现

相关主题

2023春训练7
训练词向量
蓝桥杯训练6
深度学习模型训练
NLP-预训练模型-2020
混合精度训练
7.31训练总结

zl程序教程

当前栏目

NLP-预训练模型-2019：XLM【基于BERT的跨语言模型】【将不同语言放在一起采用新的训练目标进行训练，从而让模型能够掌握更多的跨语言信息】

相关文章