您现在的位置是：首页 > 其他

当前栏目

即将开源基于动态不变性感知的多模态视觉位置识别

开源

2023-04-18 13:06:18 时间

原文链接：即将开源！基于动态不变性感知的多模态视觉位置识别 论文题目：Multi-modal Visual Place Recognition in Dynamics-Invariant Perception Space

**来自：**东南大学自动化学院

**作者：**Lin Wu, Teng Wang and Changyin Sun

链接： https://doi.org/10.1109/LSP.2021.3123907

代码地址（即将开源）：https://github.com/fiftywu/Multimodal-VPR

论文摘要

视觉位置识别是机器人领域中必不可少且具有挑战性的问题之一。在这篇快报中，我们首次探索了在动态不变空间中使用语义和视觉的多模态融合来改善动态环境中的位置识别。首先，我们设计了一种新颖的深度学习架构来生成静态语义分割，并直接从相应的动态图像中恢复静态图像。然后，我们利用空间金字塔匹配模型（SPM）将静态语义分割编码为特征向量，而对于静态图像，则使用流行的词袋模型（BoW）进行编码。在上述多模态特征的基础上，我们通过语义和视觉编码的联合相似度来衡量查询图像与目标地标之间的相似度。大量实验证明了所提出的方法在动态环境中的位置识别的有效性和鲁棒性。

视觉位置识别

视觉位置识别（VPR）作为 SLAM 系统的关键组成部分，是一项可以帮助机器人确定其是否位于先前访问过的地方的任务。当前的工作通常将其视为将当前观察与一组参考地标相匹配的图像检索任务，并设计各种特征描述符来测量地标相似性。这些方法通常假定系统在静态环境中运行，然而，现实世界是复杂而动态的。动态物体的存在使得不同时刻的场景外观不一致，从而增加了特征匹配的误差。

动态不变性感知

动态不变性感知是指在动态场景下，将其中动态的内容（如行人、车辆）消除并转换成与之相对应的静态内容。典型的工作有《Empty Cities: a Dynamic-Object-Invariant Space for Visual SLAM》(IEEE Transactions on Robotics,2020)，我们在此基础上做了一点改进，提出了一种粗糙到精细的两阶段动静转换模型《A Coarse-to-fine Approach for Dynamic-to-static Image Translation》(Pattern Recognition, 2021)。而在IEEE-SPL这篇快报中，我们设计一种新颖的深度神经网络架构从输入的静态场景图像直接推理出静态语义（即静态语义分割图）和的静态图像。特别地，我们还将静态语义作为先验用来提高静态图像的生成质量。静态语义分割结果与静态图像转换效果如图2、图3所示（实验数据集由无人驾驶模拟器CARLA创建）。

视觉位置识别实验

为了与当前主流的图像转换方法的VPR召回率进行比较，我们使用 Pix2Pix、MGAN、SRMGAN 和 SSGGNet 来恢复的静态图像，继而从中提取 BoW 特征来测量图像相似性。表中给出了不同模型的召回准确率，相比之下，我们的方法同时利用了 BoW 和 SPM 编码，表现最好，并且大大提高了第二名SSGGNet-BoW的召回率，这充分体现了基于 SPM 的语义特征的重要性。此外，SSGGNet-BoW 优于 Pix2Pix-BoW、MGAN-BoW 和 SRMGAN-BoW，这进一步验证了利用静态语义指导静态图像生成的有效性。

相关论文

T. Wang, L. Wu and C. Sun, "A coarse-to-fine approach for dynamic-to-static image translation,” in Pattern Recognition, 2022, doi: 10.1016/j.patcog.2021.108373.

L. Wu, T. Wang and C. Sun, “Multi-Modal Visual Place Recognition in Dynamics-Invariant Perception Space,” in IEEE Signal Processing Letters, 2021, doi: 10.1109/LSP.2021.3123907.

B. Bescos, C. Cadena and J. Neira, "Empty Cities: A Dynamic-Object-Invariant Space for Visual SLAM," in IEEE Transactions on Robotics, 2021, doi: 10.1109/TRO.2020.3031267.

P. Isola, J. Zhu, T. Zhou and A. Efros, “Image-to-Image Translation with Conditional Adversarial Networks”, CVPR, 2017, https://arxiv.org/pdf/1611.07004.pdf. — 版权声明 — 本公众号原创内容版权属计算机视觉life所有；从公开渠道收集、整理及授权转载的非原创文字、图片和音视频资料，版权属原作者。如果侵权，请联系我们，会及时删除。

猜你喜欢

Kubernetes 已“跨越鸿沟”，未来将快速逆袭！
人工智能在移动应用开发中的主要作用
割接时路由配置错误，导致全网瘫痪
什么是云到云备份？
5G to B发展要有战略耐心
企业需要了解的十个云安全优秀实践
深入了解零信任网络访问 (ZTNA)
元宇宙忽悠完了，Web 3.0 再来忽悠一波？
从一次线上问题说起，详解 TCP 半连接队列、全连接队列
如何选择容器注册表，这里给出九个选项
5G 对环境的影响是什么？它如何影响世界？
【分布式】资源与事务：可观测性的基本二重性
三季度数据出炉，三大运营商原地踏步还是跑出“加速度”？
容器中的 Shim 到底是个什么鬼？
三强争霸只是表象？国内公有云市场背后是百花齐放
万物智联迈向下一站，实时互动或将为元宇宙的水和空气
聊一聊边缘计算的优秀实践
一文了解Fdma、Tdma、Cdma、Ofdma、Sdma等无线接入技术
为什么企业计算生活在边缘
面试官：说说微信小程序的发布流程？

zl程序教程

当前栏目

即将开源基于动态不变性感知的多模态视觉位置识别

相关文章

当前栏目

即将开源 基于动态不变性感知的多模态视觉位置识别

相关文章

即将开源基于动态不变性感知的多模态视觉位置识别