云从科技 OCR任务 pixel-anchor 方法
方法 任务 科技 OCR pixel Anchor
2023-09-14 08:58:38 时间
云从科技提出了一种端到端的深度学习文本检测框架Pixel-Anchor,通过特征共享的方式高效的把像素级别的图像语义分割和锚检测回归放入一个网络之中,
把像素分割结果转换为锚检测回归过程中的一种注意力机制,使得锚检测回归的方法在获得高检出率的同时,也获得高精确度。此外,对于如中文这样文本长
度跨度很大的语言,在Pixel-Anchor中,提出了一个自适应的预测层,针对不同层级的特征所对应的感受野范围,设计不同的锚以及锚的空间位置分布,以更
高的效率更好的适应变化的文本长度。如前所述,在两个具有挑战性的自然场景文本检测测试集ICDAR2015以及ICDAR2017 MLT,Pixel-Anchor在检测准确率
和检测效率两个综合维度上,获得了至今为止最好的结果(具体结果见下面Table 1,Table 2和Table 3)。该框架在满足生产环境实时性要求的基础上获得了很
高的检测准确率,目前该框架已在云从科技的证件票据识别系统和图片广告过滤系统中上线。
文章导读
Pixel-Anchor这套文本检测框架,和目前主流的文本检测框架相比,提出了两个大的改进点:
第一点是提出了把像素级别的图像语义分割以及基于锚的检测回归方法高效融合在一起,可端到端训练的检测网络。在该网络中,像素级别的图像语义分割以及基于锚的检测回归方法共享基础特征,而像素级别的图像语义分割结果作为一种注意力机制,用以监督锚检测回归的执行过程,在有效保证文本检出率的同时,提升了文本检测的精度。
![](https://pic3.zhimg.com/v2-623f90f943a06477ad924ad69fc124f2_b.jpg)
总体框架见上图,Pixel-Anchor采用学术界通用的ResNet-50作为特征提取主干网络,提取出1/4,1/8,1/16的特征图作为像素级别语义分割模块(Figure 5)以及锚检测回归模块(Figure 6)的基础特征,同时语义分割模块的输出结果以热力图的形式注入到锚检测回归模块中。整个网络简单轻巧,可通过ADAM优化方法进行端到端的训练。
![](https://pic3.zhimg.com/v2-61206bb3e189ddc675877ff21f03f28a_b.jpg)
第二点是在锚检测回归这个模块中引入了自适应预测层“Adaptive Predictor Layer”,该预测层连接在不同层级的特征图之后,根据各特征图感受野的不同,调整锚的长宽比,卷积核的形状以及锚的空间密度(anchor density,见Figure 7),用以高效的获得各特征图上的文本检测结果,进而对文本长度的变化获得更好的适应性。自适应预测层在检测水平长文本上的性能非常出色,和经典的CTPN方法相比,我们的方法不需要复杂的后处理,更鲁棒的同时效率更高。
![](https://pic2.zhimg.com/v2-4a239ce3ea363435e61420bb82954d51_b.jpg)
链接:https://zhuanlan.zhihu.com/p/50401761
相关文章
- ThinkPHP实现定时执行任务的两种方法「建议收藏」
- Semantic Drone Dataset(语义无人机数据集)使用方法「建议收藏」
- linux系统日志文件查看方法_linux系统日志保存期限
- Linux操作系统异常报错问题与实践解决方法
- 让癌细胞自己饿死自己,科学家找到肿瘤新方法|Science
- linux系统报xfs_vm_releasepage警告问题的处理方法
- GCD的常用方法总结详解手机开发
- 信息MySQL存储并读取图片信息的方法(mysql读取图片)
- 任务掌握Linux计划任务的方法(查看linux计划)
- 新方法助免疫系统寻找并摧毁癌细胞
- Linux Vim 中显示行数的方法.(linuxvim行数)
- 查看Linux下任务状态的查看方法(linux任务状态)
- 深入浅出:Redis使用技巧全攻略(redis使用方法)
- MySQL导出中文乱码解决方法(mysql导出中文乱码)
- 使用Oracle创建定时任务——简单易用的方法(oracle创建jobs)
- Linux 下新建用户名的方法(linux 新建用户名)
- LinuxVPS计划任务crond命令的使用方法分享
- CFile与CStdioFile的文件读写使用方法详解
- android在异步任务中关闭Cursor的代码方法
- 支持windows与linux的php计划任务的实现方法