MOT中的Data Association(三):基于深度学习的端到端数据关联
链接:https://zhuanlan.zhihu.com/p/111397247
来源:知乎
近几年由于深度学习框架的兴起,端到端的训练和推理框架展现出一定的数据利用优势,而传统的数据关联算法基本都不满足可导可微的特性,因此出现了很多近似的端到端数据关联框架。这里由于篇幅有限,如果专栏和github的反响还可以,后续我会考虑单独开一个基于深度学习的数据关联算法专题,现在我只简要介绍几类出现的框架。
我将近期出现的端到端数据关联框架大致可分为:
- 多特征输入,输出关联矩阵
这类框架只完成了数据关联的任务,即完成对多个目标的匹配,如PAMI2019中的DAN网络结构:
![](https://pic2.zhimg.com/80/v2-3e8e04a81f5e5348b459c4ec4bacf919_720w.jpg)
这种框架就是典型的输入历史帧多条跟踪轨迹的特征和当前帧多个特征序列,输出多对多的关联矩阵,这种方式是通过形式的拟合来近似数据关联。又比如ICCV2019的FAMNet:
![](https://picb.zhimg.com/80/v2-49c370dfa9800cf2b649657ecbe3da7b_720w.jpg)
这个框架将SOT和数据关联相集成。综上,这些方法虽然从形式上近似了数据关联算法,但是都要解决两个问题,一个是所有跟踪轨迹和观测的匹配交互,一个是如何过滤虚警和误检。
- 可微数据关联模块
这类框架就是讲传统不可微的数据关联模块改造成可微的模块,比如DeepMOT:
![](https://pic1.zhimg.com/80/v2-a56c894d9226a6209f49318276eae079_720w.png)
这种方式基于匈牙利算法求解过程中的row-wise和colunm-wise操作,利用Bi-RNN完成全局的关联记忆,最后将关联矩阵通过连续的0~1的数据代替0-1匹配关系,从而实现可微。
- 基于RNN的数据关联预测
这种方式的特点在于,利用过去时间的跟踪记忆,基于不同行人的空间分布进行位置关系预测,比如ICCV2017的AMIR算法:
![](https://pic2.zhimg.com/80/v2-83832c654f9d831479d74c28e1d43e50_720w.jpg)
![](https://pic4.zhimg.com/80/v2-18b7e094eebeae5bfee3516f94c98902_720w.jpg)
不过这类算法严格来说不能划分为数据关联类算法,这里我提出来肯定是有争议的~
- 基于图卷积的数据关联
近几年图卷积网络在视觉领域开始热门起来,也有个别团队采用了这种方式,即利用图卷积网络的消息传递机制,模拟离线数据关联的网络图,这种方式的优点在于可以在线学习:
![](https://picb.zhimg.com/80/v2-3292ff290bd3cd1548bc57d3e7065c33_720w.jpg)
参考资料
[1] SUN S, AKHTAR N, SONG H, et al. Deep affinity network for multiple object tracking[J]. IEEE transactions on pattern analysis and machine intelligence, 2019.
[2] CHU P, LING H. Famnet: Joint learning of feature, affinity and multi-dimensional assignment for online multiple object tracking[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 6172-6181.
[3] XU Y, BAN Y, ALAMEDA-PINEDA X, et al. DeepMOT: A Differentiable Framework for Training Multiple Object Trackers[J]. arXiv preprint arXiv:1906.06618, 2019.
[4] BRASó G, LEAL-TAIXé L. Learning a Neural Solver for Multiple Object Tracking[J]. arXiv preprint arXiv:1912.07515, 2019.
[5] SADEGHIAN A, ALAHI A, SAVARESE S. Tracking the untrackable: Learning to track multiple cues with long-term dependencies[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2017. 300-311.
相关文章
- 《ASP.NET MVC4 WEB编程》学习笔记------.net mvc实现原理ActionResult/View
- Knockout.Js官网学习(加载或保存JSON数据)
- 深入云原生 AI:基于 Alluxio 数据缓存的大规模深度学习训练性能优化
- spring cloud 学习笔记 服务注册与发现(二)
- Redis 学习笔记四 Mysql 与Redis的同步实践
- 大话机器学习之数据预处理与数据筛选
- Android开发学习---android下的数据持久化,保存数据到rom文件,android_data目录下文件访问的权限控制
- 如何学习一个新的PHP框架
- 【BSP视频教程】STM32H7视频教程第9期:STM32H7的GPIO专题,通过驱动源码,参考手册,数据手册应用笔记系统学习GPIO知识点(2022-03-06)
- ML:数据科学/机器学习领域经验总结—对于特征个数大于样本量的高维数据集,用什么算法进行预测,效果会更好?
- ML之回归预测:利用13种机器学习算法对Boston(波士顿房价)数据集【13+1,506】进行回归预测(房价预测)来比较各模型性能
- Python语言学习:Python语言学习之容器(列表&元组&字典&集合)简介、特点/意义/经验总结及容器魔法方法(定义可变&不可变容器的协议)的简介、案例应用之详细攻略
- m基于多核学习支持向量机MKLSVM的数据预测分类算法matlab仿真
- 使用matlab深度学习工具箱实现CNN卷积神经网络训练仿真
- 【Pytorch深度学习实战】(10)生成对抗网络(GAN)
- 【机器学习】医学图像处理:ABIDE数据集下载
- 学习Spring Boot:(二十一)使用 EhCache 实现数据缓存
- Go语言学习——channel的死锁其实没那么复杂
- 一篇入门深度学习OCR:数据集和算法合集
- 数据不够怎么训练深度学习模型?不妨试试迁移学习 ——重用神经网络的结构2
- 基于深度学习和迁移学习的识花实践——利用 VGG16 的深度网络结构中的五轮卷积网络层和池化层,对每张图片得到一个 4096 维的特征向量,然后我们直接用这个特征向量替代原来的图片,再加若干层全连接的神经网络,对花朵数据集进行训练(属于模型迁移)
- 动手学习数据分析(五)——数据建模及模型评估
- 学习大数据的方式
- labelme的安装以及如何用labelme标注的json文件转换成coco和pascal voc数据集的格式进行深度学习的训练
- 【redis源码学习】redis 中的“消息队列” Stream
- Tcl学习笔记4-控制语句