【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP
视频 通过 文本 提示 适应 模态 CLIP
2023-06-13 09:18:42 时间
来源:专知本文为论文介绍,建议阅读5分钟本文提出一种多模态提示学习方案,在单一统一训练下平衡有监督和零样本的性能。
将CLIP等对比图像-文本预训练模型用于视频分类,因其成本效益和具有竞争力的性能而受到关注。然而,最近在这一领域的工作面临一个权衡。对预训练模型进行微调以实现强监督性能,会导致低零样本泛化。类似地,冻结主干以保留零样本能力会导致监督精度的显著下降。因此,最近的文献工作通常为监督和零样本行为识别训练单独的模型。本文提出一种多模态提示学习方案,在单一统一训练下平衡有监督和零样本的性能。视觉方面的提示方法满足了三个方面的需求:1)全局视频级提示对数据分布进行建模;2)局部帧级提示,为每帧提供判别式条件;以及3)用于提取浓缩视频表示的摘要提示。此外,在文本端定义了一个提示方案,以增强文本上下文。通过这种激励方案,可以在Kinetics-600、HMDB51和UCF101上实现最先进的零样本性能,同时在有监督的环境中保持竞争力。通过保持预训练主干冻结,优化了更少的参数数量,并保留了现有的通用表示,这有助于实现强大的零样本性能。我们的代码/模型发布在https://github.com/TalalWasim/Vita-CLIP.
相关文章
- Java项目毕业设计:基于springboot+vue的电影视频网站系统「建议收藏」
- 汉语拼音发音教学视频_钢琴手把手教学视频
- 【kafka实战】分区重分配可能出现的问题和排查问题思路(生产环境实战,附视频)
- 如何保护会员或付费视频?优酷是怎么做的? - HLS 流媒体加密
- 监狱AI视频分析监控系统解决方案
- 视频融合平台EasyCVR如何通过接口配置通道转码?
- 视频融合平台EasyCVR如何快速更改快照文件的raw后缀?
- 视频是主动学习吗?
- ICCV2021 | 参数量仅为原来1%,北邮等利用超分算法提出高性能视频传输方法
- AI智能安防监控EasyCVR视频融合平台播放鉴权功能的介绍及配置
- 用java实现给图片增加图片水印或者文字水印(也支持视频图像帧添加水印)详解编程语言
- Oracle视频:品质可靠、学习简单(oracle视频哪个好)
- Amazon Go 又添新伙伴,松下电器推出自动收银台(附视频)
- 轻松搭建自己的视频服务器——Linux教程(linux搭建视频服务器)
- 通过百度云分享视频资源,进行Redis缓存(百度云视频资源redis)
- Redis配置指南通过视频学习一步步搭建服务(redis配置视频)
- 红色小兔Redis语言泡泡糖视频教学(redis语言教学视频)
- 千亿级市场赛道,阿里云视频云拿下 “三连冠”
- 技术研发闭关半年,思图场景欲借视频结构化植根金融
- [视频]T-Mobile通过eSIM为iPhone用户提供免费1个月5G网络服务