Python提取pdf中的表格数据(附实战案例)
2023-09-14 09:14:03 时间
今天给大家介绍一个Python使用工具,那就是从pdf文件中读取表格数据,主要用到第三方库 pdfplumber。
pdfplumber简介
pdfplumber是一款基于pdfminer,完全由python开发的pdf文档解析库,不仅可以获取每个字符、矩形框、线等对象的具体信息,而且还可以抽取文本和表格。目前pdfplumber仅支持可编辑的pdf文档。
虽然pdfminer也可以对可编辑的pdf文档进行解析,但是比较而言,pdfplumber有以下优势:
- 二者都可以获取到每个字符、矩形框、线等对象的具体信息,但是pdfplumber在pdfminer的基础上进行了封装和处理,使得到的对象更易于使用,对用户更友好。
- 二者都能对文本解析,但是pdfminer输出的文本在布局上可能与原文差别比较大,但是pdfplumber抽取出的文本与原文可以有更高的一致性。
- pdfplumber实现了表格抽取逻辑,基于最基本的字符、线框等对象的位置信息,定位、识别pdf文档中的表格。
首先安装
pip install pdfplumber
实战案例
本次实战,我们需要将pdf中的获奖队伍信息提取出来,然后保存到excel表格中。
原始pdf文件中大多数都是如上图所示的表格,这里为了不泄露个人隐私,我就先打上码了哈。
接着开始敲代码提取表格数据!
import pandas as pd
import pdfplumber
pdf = pdfplumber.open("第十届“正大杯”国奖名单.pdf")
df = pd.DataFrame()
for i in range(3,53): # 这里3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3),53是结束位置
page = pdf.pages[i] # 读取pdf中的每一页
table = page.extract_table() # 从页数据中提取表格数据
df = df.append(table) # 将提取的数据转换为DataFrame二维表格形式
df.drop_duplicates(inplace=True) # 删除重复值
df.to_excel("第十届“正大杯”国奖名单.xlsx", header=False, index=False) # 将提取的数据保存为excel
这里,我先是用了循环来提取多页,3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3),53是结束位置 。
运行之后的结果如下:
很简单就将pdf中的表格提取出来了。
做到这里,我只是将一个pdf中的数据提取出来了,可是还有几个类似的pdf需要提取,于是我将上述代码功能进行了简单的封装(功能还比较简陋,各位可根据自己的需要进行扩展)。
def pdf_to_excel(file_path,start:int,end:int,excel_name=None):
'''
params:
file_path:需要提取表格的pdf文件的绝对路径
start:出现表格的起始页码
end:表格结束页码
excel_name:最后保存excel文件的文件名(默认为原始pdf文件名)
'''
pdf = pdfplumber.open(file_path)
if not excel_name:
excel_name = file_path.split('\\')[-1].split('.')[0]
df_result = pd.DataFrame()
for i in range(start-1,end):
page = pdf.pages[i]
table = page.extract_table()
df_result = df_result.append(table)
df_result = df_result.drop_duplicates(inplace=True)
df_result.to_excel(excel_name+'.xlsx',index=False)
pdf_to_excel(file_path=r'C:xxx.pdf',start=4,end=53)
以上就是本次分享的python小工具,希望对有同样需求的你有所帮助!
相关文章
- Python虚拟环境的安装和配置-virtualenv与windows下多个python版本共存
- 【Python成长之路】python 基础篇 -- global/nonlocal关键字使用
- 第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求
- chrome_python
- Windows环境下配置Python虚拟环境
- 【Machine Learning】决策树案例:基于python的商品购买能力预测系统
- 【Python五篇慢慢弹】快速上手学python
- MVC模式:python案例
- [Python] Indexing An Array With Another Array with numpy
- Python-GUI编程PyQT5案例:注册界面扇形菜单动画及相关事件处理
- Python-GUI PyQT5案例:注册界面窗体设计(含扇形菜单)
- Python编程语言学习:os模块/sys模块用法之获取当前系统环境的所有变量及其对应值、添加新的系统环境变量地址等案例之详细攻略
- Python的IDE之PyCharm:PyCharm的使用技巧图文教程(修改Pycharm默认风格颜色、编辑器内代码注释区域的颜色、编辑器内的Python Interpreter等)之详细攻略
- NLP之ASR:基于pyaudio利用python进行语音生成、语音识别总结及其案例详细攻略
- Python编程语言学习:python中浅复制/深复制(或浅拷贝/深拷贝)的简介、案例应用注意事项之详细攻略
- 零基础学Python-爬虫-2、scrapy框架(测试案例篇·技术点在后面文章内讲解)【测试将一篇小说的所有访问路径与标题存储到一个文件下】
- 已解决Python调用免费申请的百度图形识别接口案例
- 〖Python接口自动化测试实战篇⑧〗- 小案例 - 使用python实现接口请求 [查询天行数据]
- 〖Python 数据库开发实战 - Python与MySQL交互篇⑥〗- MySQL Connector模块的综合案例1
- python读取图片属性信息
- 跟我学Python图像处理丨图像分类原理与案例
- 【数据分析项目实战】Python爬取BOSS直聘岗位和数据分析
- Python编程:利用ImageMagick转换PDF为图片并识别提取图表
- Python:设计模式之单例模式
- 关于python读取测试数据的多种方式
- 【异常】前端ERR! stack Error: Can‘t find Python executable “python“, you can set the PYTHON env variable.
- 原创最新|SCI写作必备(一)绘制YOLOv7论文同款性能对比图-Python:包含多种不同功能风格图表|包括mAP、Params、FPS等对比图表(YOLOv6/YOLOv7同款)
- Python基础之变量学习