您现在的位置是：首页 > IT要闻

当前栏目

GPT-1论文阅读

论文

2023-04-18 14:25:17 时间

简介

题目：Improving Language Understanding by Generative Pre-Training
翻译：改善语言理解通过生成式预训练
点击下载pdf
概要：
自然语言理解包含很多问题：文本蕴含、问答、语义相似度评估、文献分类。大量的无标签文本语料库是丰富的，打标签语料库是匮乏的，分别去训练模型很难有良好效果。该论文证明了：先使用无标签语料库进行生成式预训练，再针对不同任务做微调，这样效果很好。

介绍

从无标记文本中学习文本表征是有意义的，就像之前的词嵌入预训练一样。现有的预训练方法存在的问题是：模型需要根据任务调整、复杂的学习方法、需辅助目标函数。总结：麻烦。
本文探索一种半监督方法用于语言理解任务：无监督预训练+有监督微调。
目标是学习一种普遍的表征，只需要很少的改变就可用于宽泛范围的任务。
模型是Transformer，对比RNN，Transformer优点是可建立文本的长依赖关系，对不同任务更加鲁棒。
验证实验使用四种任务：自然语言推断、问答、语义相似、文本分类

无监督预训练

训练数据是无标签的语料token：
在这里插入图片描述

训练目标函数是最大化下面的式子

这里的目标可以理解为：根据前k个语料token，预测下一个token。
例如，给定U=“今天天气真好”，模型需要有如下预测能力：
给定句子“今”，下一个预测“天”
给定句子“今天”，下一个预测“天”
给定句子“今天天”，下一个预测“气”
给定句子“今天天气”，下一个预测“真“
给定句子“今天天气真”，下一个预测“好”

目标函数中的 $θ$ 是模型的参数，所以这个式子就是找到最合适的 $θ$ ，让 $L_{1}(U)$ 最大。训练方法是随机梯度下降。
模型选择的是多层Transformer解码器，
模型整体计算流程如下：
在这里插入图片描述
$W_{e}$ 是token embedding，把词映射为向量的矩阵。
$W_{p}$ 是position embedding，把位置映射为向量的矩阵。

有监督微调

使用有标签的数据集C，其中每个实例有序列输入tokens： $x^{1},...,x^{m}$ ，对应的标签y。 $h_{l}^{m}$ 是transformer_block最后一层的输出，额外增加一个新的线性层 $W_{y}$ ，然后使用softmax分类得到最终结果。
在这里插入图片描述
微调阶段的目标是最大化：

实际中发现使用混合类型的目标函数效果更好：（1）让模型进一步学习无监督预测的能力（2）帮助收敛

在这里插入图片描述
token设计如下图所示：

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

GPT-1论文阅读

简介

介绍

无监督预训练

有监督微调

相关文章