您现在的位置是：首页 > IT要闻

当前栏目

论文阅读和分析：Mathematical formula recognition using graph grammar

论文

2023-04-18 16:50:57 时间

Mathematical formula recognition using graph grammar

主要工作：

1、第一次实现Ofr(Optical Formula Recognition)系统，提取和识别数学表达式；

2、三个部分：OCR、构建图、解析图到语法树；

3、使用压缩子图成为一个节点的方法，自底向上解析图；

架构：

在这里插入图片描述

在ocr识别公式的字符后，得到字符的特征；

特征包括：符号、bounding box、baseline、size：

例如 $x^2+y^2$ ：

在这里插入图片描述

对图的定义

顶点vertex： $V (t, v, i)$ 三元组：

- $t$ ：lexical type 符号类型：例如"Operator" , "Variable’ , ‘Digit’,etc.

- $v$ ：值，代表数学表达式例如 $x, Pl u s (x, (M u lt (2, y))), e t c$ .

- $i$ ：标识，区分同一个表达式中的相同符号但是出现在不同地方；

边edge： $E(t,v_1,v_2)$ :

- $v_1、v_2$ ：顶点

- $t$ ：边的类型。二元组 $L (d, w)$ ： $d$ ：图的方向：例如’Left". ‘Right’, ‘Top’, etc。 $w$ ：权重，使用在平面上的相关关系进行编码；

图graph：一些列边的集合
${E(t_1,v_{11},v_{2,1}),ldots,E(t_n,v_{1n},v_{2,n})}.$

使用符号规则（Lexer rules）构建图；

定义符号的方向：left(l)、right®、top(t)、bottom(b)、top-left(tl)、bottom-left(bl)、top-right(tr)、bottom-right(br)、in(i)

规则1：符号的类型规则，对每种类型指定可以连接的类型；例如：

在这里插入图片描述

规则2：顺序规则，基于left->right的顺序，比如像top-left 或者 bottom-right是比较接近的，使用引力等势场来描述，如下图所示：（相当于计算节点的weight），可以看到横向的关系可能会很长。

a grid like structure to be able to have a good algorithm complexity

在这里插入图片描述

使用语法规则（grammar rules）解析图到语法树；

核心思路：自底向上将图进行压缩，不断把子图压缩到一个节点，最后得到公式的符号表示。

给一个公式的图表示（边、顶点），规则尝试通过使用顶点（顶点的值是被识别的子公式）重写它的子图（不断坍缩子图到节点）。过程使用匹配和替换方式。

图转换到节点的规则：

- $V$ ：节点，叫做规则的production；

- $G$ ：图，叫做规则的pattern；

- $C$ ：graphs的有限集合；叫做规则的context；

grammer：一个规则rules的有限集合；

匹配和替换过程：

替换是 $T (F, V)$ 的自同态（endomorphism），即 $f(t_{1},ldots,t_{n})=f(sigma t_{1},ldotssigma t_{n})$ 对于所有的 $f$ 和所有的terms： $t_1,dots,t_n$ ，一个 $σ$ 是唯一被确定的。
一个 $t$ 匹配 $t^{prime}$ ,注意是 $t \leq t^{'}$ ，当且仅当替换 $σ$ 满足 $t=t^{prime}$ .

匹配有限集被定义成：
${t_1,dots,t_n}leq{t_1',dots,t_m'}Leftrightarrowexistssigma{sigma t_1,dots,sigma t_n}={t_1',dotsc,t_m'}quad$
一个规则 $r = V \leftarrow G,$ ， $C$ 重写一个图 $G_1$ 到一个图 $G_2$ ,记作 $G_1 ightarrow_r G_2$ ，当且仅当存在替换 $σ$ ，一个 $G$ 的子图 $G^{prime}$ ，得：

$G=G^{prime}.$ ；
对于contex $C$ 的所有图 $H$ ，没有替换 $τ$ such that $au_{|Var(G)}=sigma_{|Var(G)} ext{and} au Hsubset G_1.$
$G_2$ 是由 $G^{prime}$ 坍缩得到的 $σV$ ，即是移除 $G_1$ 属于 $G^{prime}$ 所有的边和使用 $σV$ 替换属于 $G^{prime}$ 顶点

注：消除歧义的情况，对于一个导致歧义的图语法，在其规则中添加上下文，尽可能自动地消除这些歧义。

猜你喜欢

Jease 2.6发布 Java开源内容框架
EasyCVR对接华为iVS订阅摄像机和用户变更请求接口介绍
JVM调优总结：反思
【技术种草】cdn+轻量服务器+hugo=让博客“云原生”一下
JVM调优总结：调优方法
前端面试【JavaScript】— typeof 是否能正确判断类型？
JVM调优总结：新一代的垃圾回收算法
前端面试【JavaScript】— instanceof 能否判断基本数据类型？
JVM调优总结：典型配置举例
前端面试【JavaScript】— 能不能手动实现一下 instanceof 的功能？
前端面试【JavaScript】— Object.is和=== 有什么区别？
JVM调优总结：分代垃圾回收详述
前端面试【JavaScript】— JS中类型转换有哪几种？
WPF开发入门尝试
前端面试【JavaScript】— == 和 ===有什么区别？
一个Java程序员对2011年的回顾
前端面试【JavaScript】— 对象转原始类型是根据什么流程运行的？
JVM调优总结：垃圾回收面临的问题
直接在代码里面对list集合进行分页
JVM调优总结：基本垃圾回收算法

zl程序教程

当前栏目

论文阅读和分析：Mathematical formula recognition using graph grammar

Mathematical formula recognition using graph grammar

主要工作：

架构：

相关文章