您现在的位置是：首页 > 其他

当前栏目

MAGMA——通过基于适配器的微调对生成模型进行多模态增强

语言

2023-04-18 14:52:31 时间

大规模的预训练正在迅速成为视觉-语言（VL）建模的规范。然而，普遍的VL方法受到对标记数据的要求和使用复杂的多步骤预训练目标的限制。我们提出了MAGMA--一种利用基于适配器的微调来增强生成性语言模型的简单方法。在Frozen的基础上，我们训练了一系列的VL模型，从视觉和文本输入的任意组合中自动生成文本。预训练完全是使用单一的语言建模目标进行的端到端训练，与以前的方法相比简化了优化。重要的是，语言模型的权重在训练期间保持不变，允许从语言预训练中转移百科全书式的知识和语境学习能力。MAGMA在开放式生成任务上的表现优于Frozen，在OKVQA基准上取得了最先进的结果，并在一系列其他流行的VL基准上取得了有竞争力的结果，而预训练的样本数仅为训练SimVLM的0.2%。

原文题目：MAGMA -- Multimodal Augmentation of Generative Models through Adapter-based Finetuning

原文：Large-scale pretraining is fast becoming the norm in Vision-Language (VL) modeling. However, prevailing VL approaches are limited by the requirement for labeled data and the use of complex multi-step pretraining objectives. We present MAGMA - a simple method for augmenting generative language models with additional modalities using adapter-based finetuning. Building on Frozen, we train a series of VL models that autoregressively generate text from arbitrary combinations of visual and textual input. The pretraining is entirely end-to-end using a single language modeling objective, simplifying optimization compared to previous approaches. Importantly, the language model weights remain unchanged during training, allowing for transfer of encyclopedic knowledge and in-context learning abilities from language pretraining. MAGMA outperforms Frozen on open-ended generative tasks, achieving state of the art results on the OKVQA benchmark and competitive results on a range of other popular VL benchmarks, while pretraining on 0.2% of the number of samples used to train SimVLM.

MAGMA——通过基于适配器的微调对生成模型进行多模态增强.pdf

猜你喜欢

AI能成科学家的工具人？Nature采访五位顶尖学者：学会写代码，降低期望
Facebook在ICCV 2021 发布两个3D模型，自监督才是终极答案？
13篇顶会！25岁成985高校博导，入职半年发ICML，网友：万点暴击
为什么微服务要有独立数据库
Node.js 易受新型 HTTP 请求夹带技术攻击
一场技术与思想的浪潮！1024程序员嘉年华重磅来袭
AI大牛周明打造轻量“孟子模型”开源！靠10亿参数冲上CLUE榜第三
中科院院士郭光灿：“要把中国量子计算机卖到国外”
J语言之父许国华因癌症去世，享年68岁，图灵奖得主Ken Iverson与他亦师亦友
魔法一样隔空在屏幕写字，捏起手指就能实现！
步枪机器狗引恐惧发明者回应：编程控制不足为惧
Visual Studio 2022启用新图标优化深色主题
美国反诈：FCC新规定强迫运营商过滤垃圾信息
网络流量的自动化分析新方向
刚盈利的DeepMind收购MuJoCo：转手开源，所有人免费用
科学家正开发像人类一样会“思考”的人工智能
推荐 14 款常用的测试开发工具
博士论文写不好？Barrett博士发超强攻略，手把手教你写论文
ResNet假说被推翻？Reddit小哥：这么多年都没人搞懂Ta的原理
假3D场景逼真到火爆外网！超1亿像素无死角，被赞AI渲染新高度

zl程序教程

当前栏目

MAGMA——通过基于适配器的微调对生成模型进行多模态增强

相关文章