您现在的位置是：首页 > 后端

当前栏目

超越所有微调方法，参数量大幅减少，康奈尔大学等提出视觉prompt新方法

方法所有视觉数量减少超越提出大幅

2023-09-27 14:25:56 时间

识别问题往往是通过预训练大型基础模型处理大量精选或原始数据的方式解决的。这似乎是一种可行的模式：只需利用最新最好的基础模型，就可以在多个识别问题上取得极大的进展。然而，在实践中，将这些大型模型用于下游任务就存在一些挑战。最直接（通常也是最有效）的适应策略是针对任务对预训练模型进行端到端的全面微调（full fine-tuning）。但这种策略需要为每个任务存储和部署一个单独的主干网络参数副本。因此这种方法通常成本很高且不可行，特别是基于 Transformer 架构的模型会比卷积神经网络大得多。

近日来自康奈尔大学、Meta AI 和哥本哈根大学的研究者试图找到让大型预训练 Transformer 模型适应下游任务的最佳方法。

微信图片11.png

首先解决这个问题的一种简单策略是参考卷积网络适应新任务的方法如下图 1 (a) 所示。一种较为普遍的方法是只微调参数的一个子集如分类器头或偏置项 bias term 还有研究考虑在主干网络中添加额外的残差块或适配器。这些策略也可以用于 Transformer 模型。然而这些策略在准确性上往往不如微调参数。

微信图片12.png

本研究的研究者探索了一条完全不同的路线。他们不修改或微调预训练 Transformer 本身而是修改 Transformer 的输入。受 prompt 方法最新进展的启发研究者提出了一种简单有效的新方法将 transformer 模型用于下游视觉任务 (图 1 (b)) 即视觉 prompt 调优 (visual prompt tuning VPT)。

VPT 方法只在输入空间中引入少量特定于任务的可学习参数同时在下游训练过程中固定整个预训练 transformer 主干网络。在实践中这些附加参数简单地被添加到 transformer 中每个层的输入序列中并在微调过程中与 linear head 一起更新。

该研究使用预训练 ViT 主干网络完成 24 个不同领域的下游识别任务 VPT 击败了所有其他迁移学习 baseline 甚至在 20 种情况下超过了全面微调方法而只用到极少量的参数少于主干网络参数的 1% 。

实验结果表明 VPT 具有独特的优势。在 NLP 中 prompt 方法只能在一些特定情况下与全面微调方法性能相当。而 VPT 在小数据环境中也特别有效在各种数据规模上均保持着优势。此外 VPT 在 Transformer 的扩展和设计方面也具有竞争力。综上所述 VPT 是适应不断增长的视觉主干网络的最有效方法之一。

方法

VPT 将少量可学习参数引入 Transformer 的输入空间并在下游训练阶段固定主干网络。总体框架如图所示。

微信图片13.png

符号表示

对于 N 层的 Vision Transformer (ViT) 输入图像分为 m 个固定大小的 patch {I_j ∈ R^{ 3×h×w} | j ∈ N, 1 ≤ j ≤ m}. 。h, w 是图像 patch 的高度和宽度。接下来每个 patch 先是嵌入到具有位置编码的 d 维潜在空间中

微信图片14.png

其中 E_i {e^j_i ∈ R^d | j ∈ N, 1 ≤ j ≤ m} 表示图像 patch 嵌入的集合并且也作为第 (i 1) 个 Transformer 层 L_(i 1) 的输入。连同一个额外的可学习分类 token [CLS] 整个 ViT 被表述为

微信图片15.png

x_i ∈ R^d 表示 [CLS] 在 L_(i 1) 的输入空间的嵌入。[・,・] 表示在序列长度维度上的融合 stacking 和级联 concatenation 即 [x_i , E_i ] ∈ R^{(1 m)×d} 。每层 L_i 由多头自注意力 (MSA) 和前馈网络 (FFN) 以及 LayerNorm 和残差连接组成。神经分类头用来将最后一层的 [CLS] 嵌入 x_N 映射到预测的类概率分布 y 中。

VPT

给定一个预训练的 Transformer 模型该研究在嵌入层之后的输入空间中引入 p 个维度为 d 的连续嵌入即 prompt。在微调期间仅更新特定于任务的 prompt 而 Transformer 主干保持不变。根据所涉及 Transformer 层的数量研究者提出两种变体 VPT-shallow 和 VPT-deep 如图 2 所示。

VPT-Shallow *prompt 仅插入到第一个 Transformer 层 L_1 中。每个 prompt 都是一个可学习的 d 维向量。p 个 prompt 的集合表示为 P {p_k ∈ R^d | k ∈ N, 1 ≤ k ≤ p} shallow-prompted ViT 为

微信图片16.png

其中 Z_i ∈ R^{p×d} 表示第 i 个 Transformer 层计算得到的特征 [x_i , Z_i , E_i ] ∈ R^{(1 p m)×d} 。

如图 2 所示橙色和蓝色标记的变量分别表示可学习和固定的参数。值得注意的是对于 ViT x_N 相对于 prompt 的位置是不变的因为它们是在位置编码之后插入的例如 [x_0, P, E_0] 和 [x_0, E_0, P] 在数学上是等价的。这也适用于 VPT-Deep。

VPT-Deep 在每个 Transformer 层的输入空间都引入了 prompt。对于第 (i 1) 层 L_(i 1) 输入的可学习 prompt 集合表示为 P_i {p ^k_i ∈ R^d | k ∈ N, 1 ≤ k ≤ m}。VPT-Deep 的 ViT 为

微信图片17.png

视觉 prompt 的存储 VPT 在存在多个下游任务时具有显著优势只需要为每个任务存储学习到的 prompt 和分类头并重新使用预训练 Transformer 模型的原始副本这显著降低了存储成本。例如给定一个具有 8600 万参数的 ViT-Base d 768 50 个 VPT-Shallow 和 VPT-Deep 产生额外的 p × d 50 × 768 0.038M 和 N × p × d 0.46M 参数分别仅占所有 ViT-Base 参数的 0.04% 和 0.53%。

实验

下表 1 展示了在 4 个不同的下游任务组上微调预训练 ViT-B/16 的结果并将 VPT 与其他 7 种调优方法进行了比较。我们可以看到

VPT-Deep 在 4 个问题类别中的 3 个 24 个任务中的 20 个上优于其他全部方法表 1 (a) 同时使用的模型参数总量显著减少 1.18× VS 24.02× 。可见 VPT 是一种很有前途的方法可以在视觉任务中适应更大的 Transformer。VPT-Deep 在所有任务组中都优于所有其他的参数调优方法表 1 (b,c) 表明 VPT-deep 是存储受限环境中最好的微调策略。
虽然比 VPT-deep 略差一点但 VPT-shallow 仍然比表 1 (b) 中的 head-oriented 方法性能更好。如果存储限制很严重 VPT-shallow 是部署多任务微调模型的合适选择。

微信图片18.png

图 3 显示了每种方法在不同训练数据规模上的平均任务结果。VPT-deep 在各种数据规模上都优于其他 baseline。

微信图片19.png

图 4 显示了 3 种不同主干规模下 VTAB-1k 的性能 ViT-Base/Large/Huge VPT-deep 显著优于 Linear 和 VPT-shallow。

微信图片20.png

此外研究者还将 VPT 扩展到 Swin 上在局部移位窗口中使用 MSA 并在更深层合并 patch 嵌入。为简单且不失一般性起见研究者以最直接的方式实现 VPT prompt 被用于局部窗口而在 patch 合并阶段被忽略。

如下表 2 所示该研究在 ImageNet-21k 监督的预训练 Swin-Base 上进行实验。尽管在这种情况下 Full 总体上能产生最高的准确率总参数成本也很高但对于 VTAB 的三个子组 VPT 仍然优于其他微调方法。

微信图片21.png

苏黎世华人博士提出模型SwinIR，只用33%的参数量就碾压图像修复领域sota 参数量和模型的性能有绝对关系吗？苏黎世华人博士提出SwinIR模型，实验结果告诉你，越小的模型还可能更强！SwinIR使用Transformer力压CNN，又在图像修复领域屠榜，模型参数量降低67%，再也不要唯参数量论英雄了！
480万标记样本：Facebook提出「预微调」，持续提高语言模型性能近日，Facebook的研究人员提出了一种能够改善训练语言模型性能的方法——预微调，在大约50个分类、摘要、问答和常识推理数据集上进行了480万个标记样本。
当随机采样遇见插值，微软亚研提出节省推理计算量的新范式同一张图像的不同区域空间冗余度是不一样的，背景部分的冗余度往往低于人物区域。如何利用这种特性来节省模型推理的计算量呢？在一篇 ECCV 2020 Oral 论文中，来自微软亚洲研究院等机构的研究者提出了一种随机采样与插值相结合的新方法，可以有效降低节省推理的计算量。
参数量仅为原来1%，北邮等利用超分算法提出高性能视频传输方法来自北京邮电大学和英特尔中国研究院的研究团队创新性地利用超分辩率算法定义了网络视频传输任务，减小了网络视频传输的带宽压力。
优势特征蒸馏(Privileged Features Distillation)在手淘信息流推荐中的应用立即下载

猜你喜欢

闭包会造成内存泄漏吗？
GROUP BY和 HAVING 及统计函数执行顺序等
springboot优雅的关闭应用
mysql查询表注释操作
手把手教你用dlv和gdb调试GoLang
这个知识点不错，，学习一下先。。。无状态服务（stateless service）（转）
win10 uwp 使用 AppCenter 自动构建
ios 排序汇总
记一篇IT培训日记041-逛逛
在VC资源文件中加入声音资源
PL/SQL编程—变量
Shiro入门这篇就够了【Shiro的基础知识、回顾URL拦截】
window下的各种宽高度小结
Unity 垂直翻转位图颜色数据
哭了，21k Star 的 Yapi 被黑客入侵了

相关主题

Java Equals方法
Java main方法
JVM-方法区
map遍历方法
vue实例的方法
递归方法
Git 使用方法
Swift方法
8.非参数方法
软件开发的方法
P4 HTTP 方法
数组的方法2
Java方法泛型
py魔法方法

zl程序教程

当前栏目

超越所有微调方法，参数量大幅减少，康奈尔大学等提出视觉prompt新方法

相关文章