您现在的位置是：首页 > 其他

当前栏目

【NLP论文速递&&源码】Bert模型优化、自回归预训练、键值记忆网络、大规模问答系统训练

网络语言

2023-04-18 14:45:47 时间

引言

本次论文分享内容主要包括以下内容：鲁棒优化Bert模型（RoBERTa）、自回归预训练模型（XLNet）、无监督多任务学习语言模型、生成预训练语言理解、深层上下文单词表示、键值记忆网络、大规模问答系统训练等。

论文及源码下载链接在文章后面

正文开始

1.Bert预训练模型优化

论文简述： 语言模型的预训练使得相关任务在性能表现上有了大幅提升，但仔细对比不同方法你会发现在某些地方还是比较有挑战性的。比如训练的时候需要昂贵的计算资源、通常在不同大小的私有数据集上进行的，超参数的选择影响最终的结果。本文提出对BERT预训练进行重复研究，该研究仔细衡量了许多关键超参数和训练数据数量的影响，发现之前的BERT训练不足，它本可以匹配或超过它发布的每个模型的性能。基于对之前Bet模型的讨论研究，本文模型在GLUE，RACE和SQuAD上获得了最先进的结果。

2.自回归预训练方法

论文简述： 依据双向上下文的建模功能，基于预训练的去噪自动编码（比如bert）相比于基于自回归语言建模具有更好的性能。但是，BERT依赖于使用mask破坏输入，因此忽略了mask位置之间的依赖关系，以及预训练微调的差异。鉴于这些优点和缺点，本文提出XLNet，这是一种广义的自回归预训练方法，该方法（1）通过最大化因子分解的所有排列组合的期望似然性来实现双向上下文的学习，并且（2）由于其自回归性能而克服了BERT的局限性。此外，XLNet将来自最先进的自动回归模型Transformer-XL的思想整合到预训练中。实验表明，XLNet在20个任务上的表现要优于BERT，通常包括问答，自然语言推断，情感分析和文档排名等。

3.无监督多任务学习

论文简述： 自然语言处理任务通常在特定任务的数据集上通过监督学习来做训练，例如问题解答，机器翻译，阅读理解和摘要。当在一个名为WebText的数百万的网页数据集上训练时，本文发现语言模型在没有任何明确监督的情况下开始学习这些任务。在文档加问题的条件下，语言模型在CoQA数据集上生成的答案F1分数达到55 ，在不使用127,000多个训练示例的情况下，其性能或超过3/4个基线系统。语言模型的容量对于零任务迁移至关重要，增加其容量可以以对数线性的方式提高跨任务性能。GPT-2是一个具有1.5B个参数的Transformer，它可以在zero lens设置的情况下，8个语言模型数据集最终获得了7个最新的结果，但是这并不适用于WebText。模型的样本反映了这些改进，并包含连贯文本段落。这些发现为构建语言处理系统提供了一种很有前景的方法，可以从自然发生的演示中学习执行任务。

4.生成预训练

论文简述： 自然语言理解包含各种各样的任务，例如：文本范围、问答、语义相似度评估、文档分类。尽管大型的未标记文本语料库很丰富，但是用于学习这些特定任务的标记数据却很少，这使得经过严格训练的模型难以充分发挥作用。本文验证发现，通过在各种未标记文本的语料库上对语言模型进行生成式预训练，然后对每个特定任务进行区分性微调，可以实现这些任务的巨大增益。与以前的方法相比，本文在微调过程中利用了任务感知的输入转换来实现有效的传输，同时对模型体系结构的更改要求最小。我们在广泛的自然语言理解基准测试中证明了我们的方法的有效性。

5.机器学习基准构建

论文简述： 最先进的机器学习方法表现出有限的成分概括性。同时，缺乏实际的基准来全面衡量其能力，这使得改进评估变得颇具挑战性。本文引入了一种新方法来系统地构建此类基准，即通过最大化复合散度，同时保证训练集和测试集之间的较小的原子散度，并定量地将此方法与其他创建成分泛化基准的方法进行比较。我们提出了一个基于该方法构造的大型真实自然语言问答数据集，并用它分析了三种机器学习体系结构的合成泛化能力。我们发现它们在成分上无法概括，并且复合散度和准确度之间存在惊人的强负相关。我们还演示了如何使用我们的方法在现有扫描数据集的基础上创建新的组合基准，证明了本文方法的有效性。

6.深层次上下文表示

论文简述： 我们引入了一种新型的深层上下文词表示形式，该模型既可以建模单词的复杂特征（例如语法和语义），又可以建模这些单词在不同的语言语境中变化（即用于建模多义性）。本文的词向量是深度双向语言模型(biLM)内部状态的学习函数，其中biLM模型是在大型文本语料库上预先训练的。实验表明，这些表示可以很容易地添加到现有的模型中，并在六个具有挑战性的NLP问题(包括问题回答、文本蕴涵和情绪分析)中表现显著提高。经过分析表明，暴露出预先训练过的网络的深层内在是至关重要的，这将可以允许下游模型混合不同类型的半监督信号。

7.键值存储网络

论文简述： 阅读文档并能够直接回答文档中的问题是一项的挑战。为解决该问题，当前很多人将问题回答（QA）定向为使用知识库（KB），并且事实证明这是有效的。但是因为架构无法支持某些类型的答案并且过于稀疏，KB会受到很多限制。在这项工作中，本文介绍了一种新的方法，即键值存储网络，该方法在内存读取操作寻址和输出阶段利用不同的编码，来使文档阅读更为可行。为了在单个框架中直接使用KBs、信息提取或Wikipedia文档进行比较，我们构造了一个分析工具WikiMovies，这是一个QA数据集，在电影领域中包含原始文本和预处理知识库。实验证明本文的方法缩小了所有三种设置之间的差距。它还在现有的WikiQA基准测试中获得了最先进的结果。

8.大规模问答系统训练

论文简述： 训练大规模问答系统非常复杂，因为训练资源通常只覆盖一小部分可能的问题。本文研究了多任务和迁移学习对简单问题回答的影响：只要可以在给定问题的情况下检索正确的证据，就可以轻松地回答所需的推理，但是这在大规模条件下可能是困难的。为此，我们引入与现有基准共用且包含10万个问题的新数据集，我们在内存网络的框架内进行研究，实验结果表明可以成功地训练内存网络以实现出色的性能。

9.论文下载&源码

1、Code: https://github.com/brightmart/roberta_zh

2、Code: https://github.com/listenviolet/XLNet

3、Code: https://github.com/akanyaani/gpt-2-tensorflow2.0

4、Code:https://github.com/openai/finetune-transformer-lm

5、Code: https://github.com/google-research/google-research/tree/master/cfq

6、Code: https://github.com/flairNLP/flair

7、Code: https://github.com/jojonki/key-value-memory-networks

8、Code: https://github.com/aukhanee/FactQA

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

【NLP论文速递&&源码】Bert模型优化、自回归预训练、键值记忆网络、大规模问答系统训练

相关文章