zl程序教程

您现在的位置是:首页 >  其他

当前栏目

NLP-预训练模型-2019:XLM【基于BERT的跨语言模型】【将不同语言放在一起采用新的训练目标进行训练,从而让模型能够掌握更多的跨语言信息】

训练语言 基于 进行 模型 信息 掌握 不同
2023-09-27 14:20:38 时间

近一年来,NLP领域发展势头强劲,从ELMO到LSTM再到去年最牛叉的Google Bert,在今年年初,Facebook又推出了XLM模型,在跨语言预训练领域表现抢眼。实验结果显示XLM在XNLI任务上比原来的state-of-the-art直接高了4.9个百分点;在无监督机器翻译WMT’16 German-English中,比原来的state-of-the-art高了9个BLEU;在有监督的机器翻译WMT’16 Romanian-English中,比原来的state-of-the-art高了4个BLEU。

最近的研究已经证明了生成预训练对于英语自然语言理解的有效性。在这项工作中,我们将这种方法扩展到多种语言并展示跨语言预训练的有效性。我们提出了两种学习跨语言语言模型(XLM)的方法:

  • 一种是无监督方式,只依赖于单语言数据,
  • 另一种是监督,利用新的跨语言语言模型目标来利用并行数据。

我们获得了关于跨语言分类,非监督和监督机器翻译的最新结果。

尽管原有的BERT模型可以在上百种语言上进行预训练,语言之间的信息并不是互通的,不同的语言模型之间没有共享知识。Facebook的XLM模型克服了信息不互通的难题,将不同语言放在一起采用新的训练目标进行训练,从而让模型能够掌握更多的跨语言信息。这种跨语言模型的一个显著优点是,对于预训练后的后续任务(比如文本分类或者翻译等任务),训练语料较为稀少的语言可以利用在其他语料上学习到的信息。




参考资料:
XLM,基于BERT的跨语言模型
Facebook AI Research的XLM模型:将BERT扩展成跨语言模型
XLM论文原理解析