有没有Python模块可以把PDF文件转换成文本?我try 在使用pypdf的ActiveState中找到one piece of code个,但是生成的文本之间没有空格,没有任何用处.

推荐答案

试试PDFMiner.它可以从PDF文件中提取HTML、SGML或"标记PDF"格式的文本.

带标签的PDF格式似乎是最干净的,go 掉XML标签只留下纯文本.

Python 3版本可在以下位置获得:

Python相关问答推荐

使用子字符串动态更新Python DataFrame中的列

螺旋桨图上意外颠倒的次y轴

如何最好地处理严重级联的json

强制venv在bin而不是收件箱文件夹中创建虚拟环境

Select 用a和i标签包裹的复选框?

点到面的Y距离

当多个值具有相同模式时返回空

根据在同一数据框中的查找向数据框添加值

如何使用matplotlib在Python中使用规范化数据和原始t测试值创建组合热图?

图像 pyramid .难以创建所需的合成图像

如何在Python脚本中附加一个Google tab(已经打开)

avxspan与pandas period_range

我想一列Panadas的Rashrame,这是一个URL,我保存为CSV,可以直接点击

从嵌套的yaml创建一个嵌套字符串,后面跟着点

实现神经网络代码时的TypeError

如何在FastAPI中为我上传的json文件提供索引ID?

在matplotlib中删除子图之间的间隙_mosaic

使用BeautifulSoup抓取所有链接

如何排除prefecture_related中查询集为空的实例?

如何杀死一个进程,我的Python可执行文件以sudo启动?