您现在的位置是：首页 > 其它

当前栏目

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

视频通过文本提示适应模态 CLIP

2023-06-13 09:18:42 时间

来源：专知本文为论文介绍，建议阅读5分钟本文提出一种多模态提示学习方案，在单一统一训练下平衡有监督和零样本的性能。

将CLIP等对比图像-文本预训练模型用于视频分类，因其成本效益和具有竞争力的性能而受到关注。然而，最近在这一领域的工作面临一个权衡。对预训练模型进行微调以实现强监督性能，会导致低零样本泛化。类似地，冻结主干以保留零样本能力会导致监督精度的显著下降。因此，最近的文献工作通常为监督和零样本行为识别训练单独的模型。本文提出一种多模态提示学习方案，在单一统一训练下平衡有监督和零样本的性能。视觉方面的提示方法满足了三个方面的需求:1)全局视频级提示对数据分布进行建模;2)局部帧级提示，为每帧提供判别式条件;以及3)用于提取浓缩视频表示的摘要提示。此外，在文本端定义了一个提示方案，以增强文本上下文。通过这种激励方案，可以在Kinetics-600、HMDB51和UCF101上实现最先进的零样本性能，同时在有监督的环境中保持竞争力。通过保持预训练主干冻结，优化了更少的参数数量，并保留了现有的通用表示，这有助于实现强大的零样本性能。我们的代码/模型发布在https://github.com/TalalWasim/Vita-CLIP.

猜你喜欢

Linux大全：完全攻略你的Linux系统（linux大全）
和Pidgin IM客户端类似GNOME下一块流行的IM软件。
跟着Nature Metabolism学作图：R语言ggplot2散点图
Redis 的安装使用
Seurat软件学习11-细胞周期内容的分析
在Oracle中，如何定时删除归档日志文件？
SSM框架中引入Redis的优秀应用（ssm中引入redis）
Linux安装包：一步步轻松安装（linux装包）
如何评价微软在其数据中心大量部署FPGA？
k8s集群部署初体验
Oracle午夜12点，全面脱颖而出（oracle 12点整）
MySQL Error number: MY-012961; Symbol: ER_IB_MSG_1136; SQLSTATE: HY000 报错故障修复远程处理
MySQL 使用 XML 注释的用法（mysql xml 注释）

zl程序教程

当前栏目

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

相关文章