带你读AI论文丨针对文字识别的多模态半监督方法
摘要:本文提出了一种针对文字识别的多模态半监督方法,具体来说,作者首先使用teacher-student网络进行半监督学习,然后在视觉、语义以及视觉和语义的融合特征上,都进行了一致性约束。
本文分享自华为云社区《一种针对文字识别的多模态半监督方法》,作者: Hint 。
摘要
直到最近,公开的真实场景文本图像的数量仍然不足以训练场景文本识别器。因此,当前大多数的训练方法都依赖于合成数据并以全监督的方式运行。然而,最近公开的真实场景文本图像的数量显着增加,包括大量未标记的数据。利用这些资源需要半监督方法;然而,这些方法不能直接适配文字识别这类视觉语言的多模态结构。因此,本文提出了半监督多模态文本识别器(SemiMTR),它在训练阶段中,利用每个模态的未标记数据。此外,本文的方法并不需要额外的训练阶段,保持了当前的三阶段多模态训练策略。
首先,在视觉模型方面,本文提出了一个将自监督预训练和强监督训练结合的单阶段训练模型。然后,语言模型是在一个大型文本语料库上进行自监督预训练。得到两个模态的预训练模型之后,对文字识别进行半监督训练。本文采用的是teacher-student的结构,具体来说,对一张文本图像分别进行弱数据扩增和强数据扩增,然后对两个网络不同模态的输出进行一致性约束。大量实验证实本文的方法优于当前的训练方案,并在多个场景文本识别基准上取得了最先进的结果。
方法
1. 识别模型框架:
首先,本文的文字识别框架采用的是ABINet。大致流程如下:首先,视觉模型首先提取图像的特征序列并将其解码成字符序列;接着,将字符序列输入给语言模型,得到文本的语义特征;最后,使用一个融合模块,将视觉和语义特征进行融合,得到最终的识别结果。为了进一步提高识别性能,可以采用迭代的方式,多次对识别结果进行微调。
2. 视觉模型预训练
本文将自监督预训练与强监督预训练融合到了一个统一的框架下。自监督预训练采用的是基于对比学习的方法,在自监督的同时,也会对这些数据进行有标注的强监督预训练。
3. 基于一致性约束的半监督训练
首先,本文采用的是一个常见的teacher-student网络,进行半监督训练。具体来说,将前面得到的预训练模型作为teacher和student网络的初始化模型,然后对同一张输入图像进行弱数据扩增和强数据扩增,并分别输入到teacher和student网络中;将teacher网络的预测结果作为伪标签对student的输出进行监督。区别于一般的半监督学习,本文的方法对识别模型的各个模态都进行不同程度的一致性约束,比如视觉模型,语言模型和融合模型的输出。
实验
可以看到,本文的结果在多个数据集上取得了一致性的提升。
可以看到,在视觉预训练阶段,统一自监督预训练和强监督预训练比分阶段的训练效果要好。
可以看到,使用交叉熵loss作为一致性约束loss效果最好。
由于本文采用的识别模型,具有视觉、语言和融合的模态,所以在进行一致性约束的时候,teacher网络和student网络可以采用不同的特征分别进行对齐。从上表可以看到,当teacher和student网络中的vision,language和fusion模块分别进行对齐的时候,效果最好。
论文链接:[2205.03873] Multimodal Semi-Supervised Learning for Text Recognition (arxiv.org)
相关文章
- 如何使用Python检测和识别车牌
- 带你认识传统语音识别技术
- 文字识别:关键信息提取的3种探索方法
- 赛门铁克推生物特征识别科技 告别密码
- 【VS开发】【智能语音处理】DTW算法(语音识别)
- 对话系统:意图识别模块【基于规则和关键词的方法(可读性强,但难易扩展,不利于在其他领域迁移使用)、基于分类模型(可扩展能力强)】【随意图领域的增加,要保证识别的准确率不下降】
- 从引擎声预测车辆故障!深度学习应用于通用声音识别
- 格式锂电池过放后无法充电,无法识别|救活方法
- 虹科高速卷材检测系统——基于机器视觉检测和识别缺陷
- ABBYY15Mac最新版OCR文字识别软件
- 线上分享干货 | Deep-ReID: 关于行人重识别的深度学习方法
- 转:车牌的自动截取与识别方案
- 线上分享干货 | Deep-ReID: 关于行人重识别的深度学习方法
- 你了解行为生物识别吗?
- C++ MFC QT OpenCV车牌识别
- Mediapipe – 将Mediapipe handtracking封装成动态链接库dll/so,实现在桌面应用中嵌入手势识别功能
- 百度语音识别REST API用法(含JAVA代码)——不须要集成SDK的方法
- 解决linux 不能识别ntfs分区问题(linux系统挂载移动硬盘)
- 【华为OD机试真题 Java】垃圾短信识别
- qt在window实现二维码识别
- JSP不识别EL表达式的作用域数据