zl程序教程

您现在的位置是:首页 >  其他

当前栏目

单目标跟踪算法调研(2020)

2023-04-18 16:52:23 时间
Deformable Siamese Attention Networks for Visual Object Tracking(SiamAttn,2020)
背景:基于孪生结构的跟踪器在视觉目标跟踪方面取得了优异的性能。然而,目标模板不是在线更新的,目标模板和搜索图像的特征在孪生结构中都是独立计算的。
工作:通过引入一种新的孪生注意力网络来计算可变形的自注意力和交叉注意力,从而提出了可变形孪生注意力网络。自注意力通过空间注意力学习较强的上下文信息,并与通道注意力选择性强调相互依赖的通道特征。交叉注意力能够聚集目标模板和搜索图像之间丰富的上下文相关性,从而提供自适应地更新目标模板的隐式方式。此外,还设计了一个区域细化模块,用于计算注意力特征之间的深度交叉相关性,以便更准确地跟踪。
结果:在OTB100数据集上,SR为0.712,PR为0.926;在VOT2018数据集上,EAO为0.470,Accuracy为0.630,Robustness为0.160。
应用:性能提升。
GlobalTrack: A Simple and Strong Baseline for Long-term Tracking(2020)
背景:长时跟踪器的一个关键能力是在非常大的区域(通常是整个图像)搜索目标,以应对可能的目标缺失或跟踪失败。然而,目前还缺乏一个强大的全局实例搜索基线。
工作:提出了GlobalTrack,一种基于纯全局实例搜索的跟踪器,该跟踪器不假设目标位置和尺度的时间一致性。GlobalTrack是基于两阶段目标检测器开发的,它能够以单个查询为向导,对任意实例进行全图和多尺度搜索。进一步提出了交叉查询损失,以提高跟踪器对干扰的鲁棒性。与通常需要复杂后处理的最先进方法相比,所提跟踪器没有在线学习,没有位置或尺度变化惩罚,没有尺度平滑和轨迹细化。更重要的是,该跟踪器运行时没有累积误差,即任何类型的临时跟踪故障都不会影响其在未来帧上的性能,使其成为长期跟踪的理想选择。
结果:在LaSOT数据集上,SR为0.521,PR为0.527;在TrackingNet数据集上,PRE为0.656,NPRE为0.754,SUC为0.704。
应用:希望这项工作将成为长时跟踪的强有力的基线,并将刺激这一领域的未来工作。
Ocean: Object-aware Anchor-free Tracking(2020)
背景:基于锚框的孪生跟踪器在精度上取得了显著的进步,但其滞后的跟踪鲁棒性限制了进一步的提高。本文发现其根本原因是基于锚框方法中的回归网络仅在正锚框(即IoU≥0.6)上训练。这种机制使得提炼与目标重叠较小的锚框变得困难。
工作:提出了一种新的目标感知无锚网络来解决这个问题。首先,不细化参考锚框,而是以一种无锚方式直接预测目标的位置和尺度。由于目标真实框的每个像素都得到了很好的训练,因此跟踪器能够在推理过程中纠正对目标的不准确预测。其次,引入了特征对齐模块,以实现从预测框中学习到目标感知特征。目标感知特征还可以有助于目标和背景的分类。此外,还提出了一种基于无锚模型的跟踪框架。
结果:在VOT2018数据集上,EAO为0.489,Accuracy为0.592,Robustness为0.117;在OTB100数据集上,SR为0.684,PR为0.920;在LaSOT数据集上,SR为0.560,PR为0.566。
应用:无锚框跟踪。
Probabilistic Regression for Visual Tracking(PrDiMP,2020)
背景:视觉跟踪本质上是使每个视频帧中目标的状态回归的问题。虽然已经取得了重大进展,但跟踪器仍然容易出现故障和不准确。因此,表示目标估计中的不确定性是至关重要的。尽管目前的主要范式依赖于估计一个置信度分数,但这个值缺乏明确的概率解释,使其使用变得复杂。
工作:提出了一个概率回归公式,并将其应用于跟踪。所提网络预测给定输入图像的目标状态的条件概率密度。重要的是,公式能够对任务中不准确的注释和歧义产生的标签噪声进行建模。通过最小化Kullback-Leibler(KL)散度来训练回归网络。当应用于跟踪时,公式不仅允许用概率表示输出,而且显著地提高了性能。
结果:在OTB100数据集上,AUC为69.6;在TrackingNet数据集上,PRE为0.704,NPRE为0.816,SUC为0.758。
Robust Tracking against Adversarial Attacks(RTAA,2020)
背景:深度卷积神经网络容易受到对抗攻击,但在构建强大的深度跟踪算法以抵抗对抗攻击方面,人们付出的努力相当少。目前,关于对抗攻击和防御的研究主要停留在单一图像上。
工作:首先尝试在视频序列上生成对抗例子,以提高对抗攻击的跟踪鲁棒性。为此,在逐帧生成估计跟踪结果的轻量级扰动时,将时间运动纳入了考虑范围。一方面,将时间扰动作为对抗例子加入到原始视频序列中,从而大大降低了跟踪性能;另一方面,依次从输入序列中估计扰动,并学习消除其影响以恢复性能。所提出的对抗攻击和防御应用于最新的深度跟踪算法。
结果:该防御方法不仅消除了由对抗攻击造成的巨大性能下降,而且在深度跟踪器没有受到对抗攻击时,还能获得额外的性能提升。
应用:对抗攻击。
Siam R-CNN: Visual Tracking by Re-Detection(2020)
背景:为了充分发挥了两阶段目标检测方法用于视觉目标跟踪的能力。
工作:提出了一个基于孪生的重检测架构Siam R-CNN,将其与一种新的基于tracklet的动态规划算法相结合。该算法利用对第一帧模板和前一帧预测的重检测,对跟踪目标和潜在干扰物的全部历史进行建模。这使得该方法能够做出更好的跟踪决策,并在长时间遮挡后重新检测跟踪目标。最后,提出了一种新的难例挖掘策略,以提高Siam R-CNN对相似物体的鲁棒性。
结果:在长时跟踪方面取得了很好的效果。在VOT2018数据集上,EAO为0.140,Accuracy为0.624,Robustness为0.139;在GOT10k数据集上,SR为0.649;在TrackingNet数据集上,PRE为0.800,NPRE为0.854,SUC为0.812。
应用:长时间遮挡;长时跟踪;性能提升。
SiamBAN: Target-Aware Tracking With Siamese Box Adaptive Network(2020)
背景:尺度或长宽比的变化一直是跟踪的主要挑战之一。为了克服这一挑战,大多数现有的方法都采用多尺度搜索或基于锚框的搜索方案,这些方案以手工方式使用预先定义的搜索空间,从而限制了它们在复杂场景中的性能。为了解决这个问题,最近提出了基于无锚框的跟踪器,而不使用先验尺度或锚框信息。然而,分类和回归之间的不一致问题降低了跟踪性能。
工作:为了解决上述问题,提出了一种简单而有效的跟踪器(SiamBAN),以数据驱动的方式学习一个目标感知的尺度处理模式。其基本思想是通过一个全卷积网络以每像素的方式预测目标框,该网络是无锚的。具体地说,SiamBAN将跟踪问题分为分类任务和回归任务,分别直接预测目标物体和回归边界框。为了避免调整与候选框相关的超参数,提出了一种无先验框设计,使得SiamBAN更加灵活。SiamBAN进一步使用目标感知分支来解决不一致问题。
结果:运行速度为35FPS。在VOT2018数据集上,EAO为0.473,Accuracy为0.598,Robustness为0.155;在OTB100数据集上,SR为0.702,PR为0.923。
应用:无锚框跟踪;解决分类和回归之间的不一致问题。
SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking(2020)
背景:提出新的跟踪框架。
工作:通过将视觉跟踪任务分解为像素类别的分类和该像素的目标边界框回归两个子问题,提出了一种新的全卷积孪生网络来解决端到端的视觉跟踪问题。该框架由两个简单的子网络组成,一个是用于特征提取的孪生子网络,一个是用于边界框预测的分类-回归子网络。与SiamRPN、SiamRPN++和SPM等基于区域建议的跟踪器不同,该框架既是基于建议的,又是无锚框的。因此,能够避免棘手的锚框超参数调整,以减少人为干预。所提出的框架简单、整洁、有效。在不加trick的情况下,SiamCAR以相当快的实时速度实现了领先的性能。
结果:在LaSOT数据集上,SR为0.507,PR为0.510。
应用:无锚框跟踪。
SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines(2020)
背景:视觉跟踪问题要求同时对给定目标进行有效的分类和精确的目标状态估计。以往的方法提出了各种目标状态估计的方案,但很少考虑到视觉跟踪问题本身的特殊性。
工作:在仔细分析的基础上,提出了一套实用的目标状态估计准则,用于高性能通用目标跟踪器的设计。根据这些准则,通过引入分类和目标状态估计分支(G1)、无歧义的分类得分(G2)、无先验知识的跟踪(G3)和质量评估得分(G4)来设计提出的全卷积孪生跟踪器(SiamFC++)。
结果:在TrackingNet数据集上,SiamFC++以超过90FPS的速度运行,且获得了前所未有的0.754的AUC分数,远远高于实时要求。
SPARK: Spatial-aware Online Incremental Attack Against Visual Tracking(2020)
背景:深度神经网络的对抗攻击已经在图像、音频和自然语言分类任务上得到了广泛的研究。然而,作为一种典型而又重要的现实应用,在线视频跟踪的目标运动轨迹的对抗攻击很少被研究。
工作:为视觉跟踪的对抗攻击提出了一个新的任务:在线产生能误导跟踪器的难以察觉的扰动,以及产生不正确的(非目标攻击)或指定的轨迹(目标攻击)。为此,首先通过调整现有的攻击方法,即FGSM、BIM和C&W,提出了一种空间感知的基本攻击方法,并对攻击性能进行了综合分析。发现在线目标跟踪带来了两个新的挑战,(1)很难产生可以跨帧传输的不可察觉的扰动(2)实时跟踪器要求攻击满足一定的效率水平。为了应对这些挑战,进一步提出了空间感知的在线增量攻击(Spark),它可以在线执行时空稀疏增量扰动,使对抗攻击不易被察觉。此外,作为一种基于优化的方法,Spark通过考虑历史增量扰动,在几次迭代内快速收敛到非常小的损失,使其比基本攻击更有效。
应用:对抗攻击。
Tracking by Instance Detection: A Meta-Learning Approach(MAML,2020)
背景:本文把跟踪问题看作是目标检测问题的一种特殊类型,称之为实例检测。通过适当的初始化,检测器可以通过从单一图像中学习新的实例来快速转换为跟踪器。
工作:本文发现,模型不可知元学习(MAML)提供了一种初始化检测器的策略,以满足本文的需求。提出了一个原则性的三步法来构建一个高性能的跟踪器。第一,挑选任何经过梯度下降训练的现代目标探测器;第二,使用MAML进行离线训练(或初始化);第三,使用初始帧进行域适应。本文按照这个过程,基于两个现代检测器RetinaNet和FCOS构建了两个跟踪器,名为Retina-MAML和FCOS-MAML。
结果:在OTB-100上,Retina-MAML达到了有史以来最高的AUC值0.712。在TrackingNet上,FCOS-MAML以0.757的AUC值和0.822的NPRE位居榜首。这两个跟踪器都以40FPS的速度实时运行。