带你看论文丨全局信息对于图网络文档解析的影响
摘要:文档理解着重于从非结构化文档中识别并提取键值对信息,并将其输出为结构化数据。在过往的信息提取中,大多数工作仅仅只关注于提取文本的实体关系,因此并不适用于直接用于文档理解上。
本文分享自华为云社区《论文解读系列十三:全局信息对于图网络文档解析的影响》,作者:一笑倾城 。
1 背景介绍
文档理解着重于从非结构化文档中识别并提取键值对信息,并将其输出为结构化数据。在过往的信息提取中,大多数工作仅仅只关注于提取文本的实体关系,并不适用于直接用于文档理解上。
在ICDAR2019的比赛上,参赛者被要求从发票收据等文档中提取键值对信息。因此本文提出了一种包含了全局信息,并且结合了视觉信息的图网络结构,来完成从非结构化文档中提取关键信息的任务。
2 网络结构
本文将文档理解任务转化为图节点分类任务。对于文本的全局和局部信息获取:
使用CLS抓取全局文本序列的分类信息,生成w0,并将其与每个单独文本(w1,w2…,wn)放在同一输入向量中。经过BERT模型,独立地对每个元素进行编码,这样模型拥有了局部和全局信息,同时也能对全局和局部文本进行embedding
对于图片的全局和局部信息获取:使用的是相似的方法,不过是基于CNN网络来捕捉全局和局部的图像特征
文本和图像特征拼接:将图像特征和文本特征进行特征融合(concat)
网络构建:
给定文档内的一组文本段,构建一个虚拟的全局节点作为信息沟通枢纽,这样每两个非相邻节点之间也是two-hop neighbors, 减少信息沟通损失的同时全局信息也能很直接输出到局部节点上。
聚合邻居使得每一个节点与two-hop neighbors两两之间通过激活函数(leaky-relu)进行模型参数更新,并且使用了K-attention来提高模型的能力(通过多个attention然后合并所有attention的机制)
信息提取:
3 实验结果
在阿里巴巴天池竞赛的数据及上效果。
相关消融实验:移除视觉特征后,在天池数据以及SROIE上,能明显看出视觉特征可以在提取结构化信息的问题上发挥重要的作用。同理,删除全局节点也降低了模型精度,也验证了全局连接在图结构中的重要性。
相关文章
- [javascript] elementui下login登录页界面和js验证逻辑
- [javascript] vuejs的elementui配合iframe实现页面跳转
- [Go] 使用字面值方式初始化map
- [javascript] 基于elementui的后台界面开发
- [PHP] 算法-数组归并排序并计算逆序对的个数的PHP实现
- [PHP] 算法-原址排序数组使奇数位于偶数前面的PHP实现
- [MySQL] 索引优化不只是用于面试
- 带你全面的了解二叉树
- VEGA:诺亚AutoML高性能开源算法集简介
- CANN 5.0硬核技术抢先看
- M-SQL:超强的多任务表示学习方法
- 带你掌握Vue过滤器filters及时间戳转换
- 基于Tensorflow + Opencv 实现CNN自定义图像分类
- Shell:Lite OS在线调试工具知多少
- 大力出奇迹,揭秘昇腾CANN的AI超能力
- 带你学会区分Scheduled Thread Pool Executor 与Timer
- CANN AICPU算子耗时分析及优化探索
- 解析鸿蒙内核消息队列QueueMail接口的哼哈二将
- 3年才能驾驭新技术,不如试试这个低代码魔方
- 计划会议要开始了,产品负责人却没来…