您现在的位置是：首页 > 后端

当前栏目

Python 操作PDF库介绍之PDFMiner

Python PDF 操作介绍

2023-09-11 14:18:32 时间

介绍

PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同，它完全专注于获取和分析文本数据。
PDFMiner允许人们获取页面中文本的确切位置，以及字体或线条等其他信息。
它包括一个PDF转换器，可以将PDF文件转换为其他文本格式（如HTML）。它具有可扩展的PDF解析器，可用于除文本分析之外的其他目的。

特点

完全用Python编写。（适用于2.4或更高版本）
解析，分析和转换PDF文档。
PDF-1.7规范支持。（好吧，差不多）
CJK语言和垂直编写脚本支持。
各种字体类型（Type1，TrueType，Type3和CID）支持。
基本加密（RC4）支持。
PDF到HTML转换（使用示例转换器Web应用程序）。
大纲（TOC）提取。
标记内容提取。
通过对文本块进行分组来重建原始布局

安装

github:
https://github.com/euske/pdfminer/

使用

pdf2txt.py samples/simple1.pdf

pyd2txt

猜你喜欢

ES业界优秀实践案例汇总
编译的依赖不能vs的release工程
九月的诗11首 - AI 创作诗文绘画
232. 用栈实现队列
【Oracle】Oracle常用EVENT之一
Ios 调用Appstore 下载界面 [[UIApplication sharedApplication] openURL
单独KafkaConsumer实例and多worker线程。
【我的物联网成长记12】当物联网遇上边缘计算
阿里云数据库Greenplum版发布啦
第十三届蓝桥杯Java、C++、Python组国赛真题——环境治理（三语言AC）
CUDA编程（五）关注内存的存取模式
ffmpeg 提取mp4里的h264流和pcm流
linq to sql中的自动缓存(对象跟踪)
线程的同步与死锁
webrtc Native C++ 音视频实时开关，码率/帧率实时调控，分辨率调整，音量大小调节
梦琪小生【转】【WPF】WPF MVVM 简单实例
MATLAB | 一行代码实现多子图同步调整视角
一线程序员赚够100万回老家生活，明明很美却为何被嘲笑？
什么才是程序员的核心竞争力？zz
[Web Security] Create a hash salt password which can stored in DB
基于 abapGit 和 abaplint 的 ABAP 持续集成的一个例子
js日期格式化函数示例：将日期时间格式化成yyyy-mm-dd hh:ii:ss格式

相关主题

Python内建函数
python时间处理
Python之数组
python协程,asyncIO
python学习02

zl程序教程

当前栏目

Python 操作PDF库介绍之PDFMiner

介绍

特点

安装

使用

相关文章