您现在的位置是：首页 > 后端

当前栏目

Python被动收入教程之从非结构化文档中提取信息的结构化方法

Python 文档方法教程信息提取收入结构化

2023-09-11 14:18:32 时间

在结构化数据集（例如表格数据、发票等）领域已经进行了很多探索和征服，我们已经预先定义了要遵循的步骤以获得良好的结果，而在从保险文件、合同、医疗报告等非结构化文件中提取信息时等，没有这样的指南。

在本文中，我将介绍一些从非结构化文档中获得所需结果的一般步骤，并提供示例代码以开始使用。我还将为想要进一步探索该主题的人们提供一些参考资料。

总之，该方法可分为 4 个主要步骤。首先，文档页面将被拆分为单独的图像。其次，每张图像将通过黑盒视觉模型发送，该模型将从文档中识别出不同的对象，例如表格、标题、段落、图形/图表、徽标、签名、二维码等。第三，一旦检测到这些对象，它们将根据用例进行过滤。例如，人们可能希望从文档中的特定部分提取信息，或者只想识别特定类型的徽标。最后，一旦识别出相关部分，它将通过另一个黑盒模型（文本相关算法）根据用例和业务需求提取信息，最后可以将结果保存为 CSV、JSON 或其他要求的格式。

内容：

商业机会
方法论
— 将文档拆分为页面
— 对象检测
— 对象分类
— 基于文本的信息提取方法
结论

商业机会

如果您清楚业务需求并且只想检查方法，请跳过此部分

在深入研究方法部分之前，让我们了解为什么需要这些方法以及它们可以给企业带来什么影响。

猜你喜欢

【车间调度】基于遗传算法和随机重启爬坡的高柔性作业车间调度研究（Matlab代码实现）
Codeforces Round #313 (Div. 2) ABC
Android SQLite用sql语句进行增删改查
java - Boolean 型不可直接判断
星辰大海：华为用“鲲鹏+昇腾”计算双擎再出发
全局优化的蝴蝶优化算法-附代码
Readprocessmemory使用方法
一招洪荒之力,让你的图表逼格飞
yarn cluster和yarn client模式区别——yarn-cluster适用于生产环境，结果存HDFS；而yarn-client适用于交互和调试，也就是希望快速地看到application的输出
操作系统权限维持（三）之Windows系统-启动项维持后门
Acwing——第80场周赛

相关主题

Python群发邮件
Python 序列化
python __new__
零基础学Python
python 文档

zl程序教程

当前栏目

Python被动收入教程之从非结构化文档中提取信息的结构化方法

内容：

商业机会

相关文章