目标检测新范式!扩散模型用于目标检测,代码即将开源
大家好,今天和大家分享一篇最新的论文 DiffusionDet: Diffusion Model for Object Detection 论文和代码地址已公布
https://arxiv.org/abs/2211.09788
https://github.com/ShoufaChen/DiffusionDet
是的,这个算法和今年最火的 AI 绘画类似,都是基于扩散模型去实现。最近我身边也有一些人在研究这个,可能明年大家又开始沿着这个方向开一堆坑!
所以我们一起来了解一下这篇论文
论文细节
摘要:
本文提出了DiffusionDet,这是一个新的框架,它将目标检测表述为从噪声框到目标框的去噪扩散过程。在训练阶段,目标框从ground-truth boxes扩散到随机分布,模型学习如何逆转这种噪声过程。在推理中,模型以渐进的方式将一组随机生成的框细化为输出结果。对标准基准(包括MS-COCO和LVIS)的广泛评估表明,与之前成熟的检测器相比,DiffusionDet具有良好的性能。我们的工作带来了目标检测方面的两个重要发现。首先,随机框虽然与预定义的锚点或学习查询有很大不同,但也是有效的对象候选。第二,目标检测是代表性的感知任务之一,可以通过生成的方式来解决。
(a)扩散模型:有扩散和逆扩散组成
(b)扩散模型用于图像生成任务
(c)提出将目标检测构造成去噪扩散过程,从噪声框到目标框
在这项工作中,它解决检测任务的方案是通过将图像中边界框的位置(中心坐标)和大小(宽度和高度)转换为空间上的生成任务,利用扩散模型处理对象检测任务。在训练阶段,由方差策略控制的高斯噪声被添加到ground truth框以获得噪声框。然后,使用这些噪声盒从backbone编码器的输出特征图(例如ResNet[34]、Swin Transformer[54])中裁剪感兴趣区域(RoI)的[33,66]特征。最后,这些RoI特征被发送到检测解码器,该解码器被训练来预测没有噪声的ground truth框。有了这个训练目标,DiffusionDet能够从随机盒子中预测 ground truth boxes。在推断阶段,DiffusionDet通过反转学习的扩散过程来生成边界框,该过程将噪声先验分布调整为边界框上的学习分布。
与之前的目标检测范式相比:
整体框架:
建议将整个模型分成两个部分,图像编码器和检测解码器,其中前者仅运行一次以从原始输入图像x中提取深度特征表示,而后者将此深度特征作为条件,而不是原始图像,以从有噪盒zt中逐步细化盒预测。
伪代码:
实验结果:
总结
在这项工作中,我们提出了一种新的检测范式,即DiffusionDet,通过将对象检测视为从噪声盒到对象盒的去噪扩散过程。我们的噪声到盒管道具有几个吸引人的特性,包括动态盒和渐进式细化,使我们能够使用相同的网络参数来获得所需的速度-精度权衡,而无需重新训练模型。在标准检测基准上的实验表明,与成熟的检测器相比,DiffusionDet实现了良好的性能。
为了进一步探索扩散模型解决对象级识别任务的潜力,未来的几项工作是有益的。一种尝试是将DiffusionDet应用于视频级任务,例如,对象跟踪和动作识别。另一种是将DiffusionDet从封闭世界扩展到开放世界或开放词汇对象检测。
更多细节参考论文原文和代码
最后也希望大家能够多多分享,分享感谢!
相关文章
- 开源|深度学习雷达回波短临外推完整代码
- 【BSP视频教程】BSP视频教程第19期:单片机BootLoader的AES加密实战,含上位机和下位机代码全开源(2022-06-26)
- 开源Fast R-CNN代码实现物体识别[通俗易懂]
- 秀到起飞!LeetCode官方推出算法面试指导手册(代码版)限时开源
- JeecgBoot 3.4.3-GA 版本发布,开源免费的企业级低代码平台
- 中文「大大大大大」模型开源开放!从吟诗作画写代码到蛋白质预测全都有,源代码可编程API均奉上
- Yolo v7夜间(微光)车流量计数!代码开源!论文速递2022.10.10!
- 5小时复刻《羊了个羊》,Java代码已开源,还有108套皮肤
- Copilot逐字复制代码,恐抹去整个开源社区?程序员拿出律师证发起集体诉讼
- 用 iPad 来写代码,GitHub 又一代码编辑器,开源了!
- GitHub 2019 年度报告解读:开源生态和技术趋势
- 使用低代码可视化平台来开发开源的商城后台 mall-admin-web 到底能快多少
- 毫无争议的 GitHub 有用的顶级开源项目排行榜
- 是最受欢迎的开源操作系统Ubuntu Linux:最受欢迎的开源操作系统(ubantulinux)
- 一年365天向开源贡献代码所发生的事情
- 开源新闻速递:openSUSE Tumbleweed 已经全部基于 GCC 6 构建
- 每日安全资讯:60% 的企业代码库包含开源漏洞
- 开源开发者提交不安全代码,遭 Linus 炮轰
- 为什么初创公司应该将代码开源
- 南京玩家Bob: APM开源飞控最强大
- 下载Linux代码:学习开源操作系统编程的必备步骤(linux代码下载)
- 每周开源点评:Kubernetes 傻瓜指南、低代码开发人员和其他行业趋势
- 微软良心之作——Visual Studio Code 开源免费跨平台代码编辑器