[CVPR 2022 | 论文简读] 用于动作检测的多尺度时间ConvTransformer
2023-02-18 16:48:04 时间
作者 | 汪逢生 编辑 | 赵晏浠
论文题目
MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection
摘要
动作检测是一项重要且具有挑战性的任务,尤其是在标记密集的未剪辑视频数据集中。这些数据由复杂的时间关系组成,包括复合或共同发生的动作。要在这些复杂的环境中检测动作,有效地捕获短期和长期时间信息至关重要。为此,作者提出了一种用于动作检测的新型“ConvTransformer”网络:MS-TCT。该网络由三个主要组件组成:时间编码器模块,它以多个时间分辨率探索全局和局部时间关系;时间尺度混合器模块,它有效地融合多尺度特征,创建统一的特征表示;分类模块,它在时间上学习每个动作实例的中心相对位置,并预测帧级分类分数。作者在多个具有挑战性的数据集(如Charades、TSU和MultiTHUMOS)上的实验结果验证了所提方法的有效性,该方法在所有三个数据集上都优于最先进的方法。
论文链接
https://arxiv.org/abs/2112.03902
相关文章
- 第十四届蓝桥杯集训——if——配套用法示例
- 第十四届蓝桥杯集训——if——配套基础示例
- RobotPerf基准测试-译
- 过两年 JVM 可能就要被 GraalVM 替代了
- ChatGPT的博弈:一场猫捉老鼠的游戏画上句号
- 数组比较函数 ArrayDiff
- 表格,列表末尾数据删除后分页回退的处理
- 【愚公系列】2022年12月 使用NSSM工具部署ELK三件套为Windows服务
- Vue3项目-生成Cron表达式组件
- 程序员进阶之算法练习(七十)
- 【JAVA】抽象类和接口
- Postman API测试工具 - 初认知 基本使用(一)
- 调用c4ws可被这个companySpecified害惨了
- 微软Windows 11虚拟机免激活截止2023年3月5日
- 图解设计模式:动动手玩转适配器模式
- 图解设计模式:Teamplate Method 模板方法模式 由子类实现具体内容的模式
- Elasticsearch地理位置查询
- srpingboot接口数据加密(参数和返回结果)
- 数据结构—最小生成树
- Spring - 事件监听机制 源码解析