zl程序教程

您现在的位置是:首页 >  云平台

当前栏目

【第44篇】DBNet:具有可微分二值化的实时场景文本检测

实时 检测 场景 文本 具有 44 二值化 微分
2023-09-14 09:05:41 时间

摘要

最近,基于分割的方法在场景文本检测中非常流行,因为分割结果可以更准确地描述曲线文本等各种形状的场景文本。然而,二值化的后处理对于基于分割的检测至关重要,它将分割方法产生的概率图转换为文本的边界框/区域。在本文中,我们提出了一个名为Differential Binarization (DB) 的模块,它可以在分割网络中执行二值化过程。与 DB 模块一起优化后,分割网络可以自适应地设置二值化阈值,这不仅简化了后处理,但也提高了文本检测的性能。基于一个简单的分割网络,我们在五个基准数据集上验证了 DB 的性能改进,在检测精度和速度方面始终达到最先进的结果。特别是,对于轻量级主干,DB 的性能改进是显着的,因此我们可以在检测精度之间寻找理想的权衡和效率。具体来说,借助 ResNet-18 的主干,我们的检测器在 MSRA-TD500 数据集上实现了 82.8 的 F-measure,以 62 FPS 的速度运行。代码位于:https://github.com/MhLiao/DB。

一、介绍

近年来,场景图像中的文本阅读因其在图像/视频理解、视觉搜索、自动驾驶、盲人辅助等方面的广泛实际应用而成为一个活跃的研究领域。
在这里插入图片描述

作为场景文本阅读的关键组成部分,旨在定位每个文本实例的边界框或区域的场景文本检测仍然是一项具有挑战性的任务,因为场景文本通常具有各种比例和形状,包括水平、多向和弯曲文本。基于分割的场景文本检测最近引起了很多关注,因为它可以描述各种形状的文本,这得益于其在像素级的预测结果。然而,大多