您现在的位置是：首页 > 数据库

当前栏目

【PolyAI】【EMNLP 2020 Findings】ConveRT

计算

2023-04-18 12:57:02 时间

介绍

论文《ConveRT: Efficient and Accurate Conversational Representations from Transformers》地址：https://arxiv.org/abs/1911.03688

作者在pretrain（Reddit 数据）+fine-tune 的方式的基础上提出了一个更轻量级的预训练回复选择模型 ConveRT，并且模型还可以引入了更多的对话历史信息。另外，模型学习的句子编码可以 transfer 到其他对话任务（eg.意图识别）。

这篇文章是基于目前预训练模型参数量过大，训练和运行都消耗巨大的计算资源，导致其实际应用受阻的问题提出的。在现实应用场景中，我们需要一个“更小”的模型。ConveRT 是一个轻量级的双编码器预训练结构，它综合利用了多种方式来降低模型的复杂度，包括：子词表示（subword representation）、单头注意力机制（single-headed attention）、量化感知训练（quantization-aware training）等，该模型与其他模型相比，参数更少、训练时间更短、且具有更好的性能，如下表所示：

模型架构

单轮对话结构

其中Transformer Layers网络是共享的。
双塔的结构，response可以预先计算好表示。在推测时，只用进行一次input部分，得出表示h_x 。然后和候选的各个h_y 进行点积，大大加快推测速度。
input部分的输出可以接意图识别、实体识别，进行多任务。
目标函数为最大化正样本对分数，最小化负样本对分数：

多轮对话结构

同样的，response可以预先计算好表示。而且。历史计算过的input表示可以保存下来，用于后续对话。

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

【PolyAI】【EMNLP 2020 Findings】ConveRT

介绍

模型架构

单轮对话结构

多轮对话结构

相关文章