无涯教程网

用于将 PDF 转换为文本的 Python 模块

发布于08月25日

有没有Python模块可以把PDF文件转换成文本？我try 在使用pypdf的ActiveState中找到one piece of code个，但是生成的文本之间没有空格，没有任何用处.

推荐答案

试试PDFMiner.它可以从PDF文件中提取HTML、SGML或"标记PDF"格式的文本.

带标签的PDF格式似乎是最干净的，go 掉XML标签只留下纯文本.

Python 3版本可在以下位置获得:

https://github.com/pdfminer/pdfminer.six

Python相关问答推荐

使用子字符串动态更新Python DataFrame中的列

螺旋桨图上意外颠倒的次y轴

如何最好地处理严重级联的json

强制venv在bin而不是收件箱文件夹中创建虚拟环境

Select 用a和i标签包裹的复选框？

点到面的Y距离

当多个值具有相同模式时返回空

根据在同一数据框中的查找向数据框添加值

如何使用matplotlib在Python中使用规范化数据和原始t测试值创建组合热图？

图像 pyramid .难以创建所需的合成图像

如何在Python脚本中附加一个Google tab(已经打开)

avxspan与pandas period_range

我想一列Panadas的Rashrame，这是一个URL，我保存为CSV，可以直接点击

从嵌套的yaml创建一个嵌套字符串，后面跟着点

实现神经网络代码时的TypeError

如何在FastAPI中为我上传的json文件提供索引ID？

在matplotlib中删除子图之间的间隙_mosaic

使用BeautifulSoup抓取所有链接

如何排除prefecture_related中查询集为空的实例？

如何杀死一个进程，我的Python可执行文件以sudo启动？

实用课程推荐

相关教程推荐