MOT中的Data Association(三):基于深度学习的端到端数据关联
链接:https://zhuanlan.zhihu.com/p/111397247
来源:知乎
近几年由于深度学习框架的兴起,端到端的训练和推理框架展现出一定的数据利用优势,而传统的数据关联算法基本都不满足可导可微的特性,因此出现了很多近似的端到端数据关联框架。这里由于篇幅有限,如果专栏和github的反响还可以,后续我会考虑单独开一个基于深度学习的数据关联算法专题,现在我只简要介绍几类出现的框架。
我将近期出现的端到端数据关联框架大致可分为:
- 多特征输入,输出关联矩阵
这类框架只完成了数据关联的任务,即完成对多个目标的匹配,如PAMI2019中的DAN网络结构:
![](https://pic2.zhimg.com/80/v2-3e8e04a81f5e5348b459c4ec4bacf919_720w.jpg)
这种框架就是典型的输入历史帧多条跟踪轨迹的特征和当前帧多个特征序列,输出多对多的关联矩阵,这种方式是通过形式的拟合来近似数据关联。又比如ICCV2019的FAMNet:
![](https://picb.zhimg.com/80/v2-49c370dfa9800cf2b649657ecbe3da7b_720w.jpg)
这个框架将SOT和数据关联相集成。综上,这些方法虽然从形式上近似了数据关联算法,但是都要解决两个问题,一个是所有跟踪轨迹和观测的匹配交互,一个是如何过滤虚警和误检。
- 可微数据关联模块
这类框架就是讲传统不可微的数据关联模块改造成可微的模块,比如DeepMOT:
![](https://pic1.zhimg.com/80/v2-a56c894d9226a6209f49318276eae079_720w.png)
这种方式基于匈牙利算法求解过程中的row-wise和colunm-wise操作,利用Bi-RNN完成全局的关联记忆,最后将关联矩阵通过连续的0~1的数据代替0-1匹配关系,从而实现可微。
- 基于RNN的数据关联预测
这种方式的特点在于,利用过去时间的跟踪记忆,基于不同行人的空间分布进行位置关系预测,比如ICCV2017的AMIR算法:
![](https://pic2.zhimg.com/80/v2-83832c654f9d831479d74c28e1d43e50_720w.jpg)
![](https://pic4.zhimg.com/80/v2-18b7e094eebeae5bfee3516f94c98902_720w.jpg)
不过这类算法严格来说不能划分为数据关联类算法,这里我提出来肯定是有争议的~
- 基于图卷积的数据关联
近几年图卷积网络在视觉领域开始热门起来,也有个别团队采用了这种方式,即利用图卷积网络的消息传递机制,模拟离线数据关联的网络图,这种方式的优点在于可以在线学习:
![](https://picb.zhimg.com/80/v2-3292ff290bd3cd1548bc57d3e7065c33_720w.jpg)
参考资料
[1] SUN S, AKHTAR N, SONG H, et al. Deep affinity network for multiple object tracking[J]. IEEE transactions on pattern analysis and machine intelligence, 2019.
[2] CHU P, LING H. Famnet: Joint learning of feature, affinity and multi-dimensional assignment for online multiple object tracking[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 6172-6181.
[3] XU Y, BAN Y, ALAMEDA-PINEDA X, et al. DeepMOT: A Differentiable Framework for Training Multiple Object Trackers[J]. arXiv preprint arXiv:1906.06618, 2019.
[4] BRASó G, LEAL-TAIXé L. Learning a Neural Solver for Multiple Object Tracking[J]. arXiv preprint arXiv:1912.07515, 2019.
[5] SADEGHIAN A, ALAHI A, SAVARESE S. Tracking the untrackable: Learning to track multiple cues with long-term dependencies[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2017. 300-311.
相关文章
- Spring的学习笔记(十五)——SSM 解决接口跨域问题
- 在表格数据上,为什么基于树的模型仍然优于深度学习?
- 为什么基于树的模型在表格数据上仍然优于深度学习
- PyTorch学习系列教程:三大神经网络在股票数据集上的实战
- Okhttp学习及封装
- 博弈论学习笔记(六)纳什均衡之约会游戏与古诺模型
- 机器学习入门 3-11 Matplotlib数据可视化基础
- arXiv | FedPer:带个性化层的联邦学习
- 为什么基于树的模型在表格数据上仍然优于深度学习
- elasticsearch学习四:elasticsearch集群
- 数据挖掘机器学习[二]---汽车交易价格预测详细版本{EDA-数据探索性分析}
- 什么是对数据的表征学习
- 数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第九章文件和内容管理篇
- A.机器学习入门算法(五):基于企鹅数据集的决策树分类预测
- 【干货书】基于模型的强化学习:使用python工具箱从数据到连续动作
- 谷歌开源安全的机器学习操作系统 KataOS
- 机器学习中的有标注数据集和无标注数据集
- MongoDB学习之(二)java连接详解大数据
- Java学习笔记之三十三详解Java中try,catch,finally的用法及分析编程语言
- 程MySQL视频教程:特级学习之旅(mysql视频教程特级课)
- Java数据持久层框架 MyBatis之API学习二(入门)详解编程语言
- 学习Linux——走向编程之路(关于linux的书)
- 数据操作视频教程SQL Server本月数据操作视频教程:一步一步轻松学习!(sqlserver 本月)
- 数据一步一步学习如何用C API导出MySQL数据(c api导出mysql)
- jQuery学习笔记之Ajax操作篇(一)-数据加载