您现在的位置是：首页 > 其他

当前栏目

【视频目标检测论文阅读笔记】Optimizing Video Object Detection via a Scale-Time Lattice

论文笔记视频检测 object 目标阅读 Time

2023-09-11 14:19:28 时间

1.1 论文信息

标题	Optimizing Video Object Detection via a Scale-Time Lattice
会议	CVPR 2018
原文链接	Optimizing Video Object Detection via a Scale-Time Lattice (thecvf.com)
领域	视频目标检测(提升速度)
性能	79.6 mAP（20fps）以及 79.0 mAP（62 fps）

1.2 创新点

本篇论文的基本思路是：

由于检测的计算开销比较大，因此只在一段视频选取比较少的关键帧去执行检测，并通过视频帧之间丰富的上下文联系，以比较轻量的网络在规模和时间上去传播关键帧的检测结果。

该论文提出了一个统一的框架叫 Scale-Time Lattice，此框架整合了基于图像的检测、时间上下文信息传播和跨尺度精细化**。如下图所示：

具体的创新点是：

创新点1：

本论文虽然没有提出新的模型，但是创新性地把目标检测各个步骤中的技术有机结合，构成了一个尺度/规模可调控的统一框架。从不同尺度，时间维度辅助非关键帧的检测，进行位置修正。可以轻松看到每一个步骤的贡献度和计算量的分布。

创新点2：

基于此框架，可以根据需求，自由设计不同尺度/规模的模型、重新分配计算资源，拥有极大的设计空间和灵活性。

创新点3：

与以往追求精度/速度的平衡不同，如空间金字塔或特征流，Scale-Time Lattice框架在时间上和空间上都是由粗到细的精细化操作。

1.3 实现步骤

1.3.1 框架整体流程

框架运行流程：

–> 视频
–> 基于稀疏自适应关键帧的目标检测 (红点)
–> 获得质量好的边界框 (红框) 传播给后面的非关键帧 (第1行蓝框)
–> 跨尺度精细化 (绿框)
–> 更高尺度上，传播给非关键帧 (第2行蓝框)
–> 重新调节尺度精细化 (虚线箭头后的绿框)
–> 更高尺度上，传播给非关键帧 (第3行蓝框)

1.3.2 提升检测速度的原因

原因1：

只在稀疏的关键帧调用计算开销大的目标检测器，而不是逐帧检测。极大地降低了计算量。并且通过计算量小的传播网络保持了不错的检测精度。

原因2：

提出了2个新组件：更高效的时间上下文信息传播网络、自适应关键帧选择方案。

1.3.3 Scale-Time Lattice

Scale-Time Lattice框架流程图：每一行与上一幅图的一行对应。

从横向来看，从左到右是时间轴。从纵向来看，从上到下是尺度规模逐渐增大。这个过程主要包括两个主要操作：时间上下文信息传播和空间精细化。上图的水平箭头代表时间上下文信息传播；而竖直箭头代表空间精细化。检测结果在最底部的一行获得，最底部的一行的检查结果是最精细的，并覆盖了每一个非关键帧。

1.4 实验结果

1.4.1 实验条件

目标检测模型	Faster R-CNN
主干网络	ResNet-101
迭代次数	200,000
显卡数量(张)	8
数据集	ImageNet VID 和 ImageNet DET

1.4.2 精度-帧率图

该方法达到了 $79.6$ mAP（ $20$ fps）以及 $79.0$ mAP（ $62$ fps）。检测速度提高3倍的情况下，精度只下降了 $0.6$ ，可以说是非常具有竞争力了。

1.4.3 实际检测Demo

可以把下图实际检测与框架流程图对比着看：每行视频帧都对应框架流程图中的一行。

虽然第一行只有2帧调用了目标检测器，但从纵向来看，经过多次的 传播 --> 精细化 循环，就可以把关键帧的检测结果传送到两个关键帧中间的每一个非关键帧。这样即提升了检测速度，又维持了较好的检测精度。

1.4.4 计算量分布

可见目标检测消耗的计算量比传播高2个数量级、比精细化高1个数量级。因此，应该尽可能选择检测的关键帧稀疏一点。

猜你喜欢

Filebeat+Kafka+Logstash+ElasticSearch+Kibana搭建完整版
HAZU校赛 Problem K: Deadline
kivy PageLayout 布局
C语言笔记
LabVIEW编程LabVIEW控制Agilent 5313X例程与相关资料
从 FastAdmin 项目上学了什么？
基于精英混沌搜索策略的交替正余弦算法-附代码
vue中计算属性和侦听属性
Lucene4.2源码解析之fdt和fdx文件的读写——fdx文件存储一个个的Block，每个Block管理着一批Chunk，通过docID读取到document需要完成Segment、Block、Chunk、document四级查询，引入了LZ4算法对fdt的chunk docs进行了实时压缩/解压
简搭(jabdp)之问题集锦
Java模式(适配器模式)
接触Matlab10年后的一个总结，随时使用Matlab要掌握的一些要点
中国人的数据库分支：ApsaraDB AliSQL 开源思路
开放下载 | 飞天技术峰会-云原生加速应用构建分论坛资料开放下载
JS中字符串的true转化为boolean类型的true
Java基础知识点汇总二类和对象
分布式EventBus的Socket实现 - 发布订阅
【BZOJ 1014】 [JSOI2008]火星人prefix

相关主题

论文查重
写论文的笔记
论文阅读笔记
论文速递
笔记笔记笔记
论文笔记
笔记笔记
论文即思路
U-Net论文笔记

zl程序教程