有没有Python模块可以把PDF文件转换成文本?我try 在使用pypdf的ActiveState中找到one piece of code个,但是生成的文本之间没有空格,没有任何用处.
有没有Python模块可以把PDF文件转换成文本?我try 在使用pypdf的ActiveState中找到one piece of code个,但是生成的文本之间没有空格,没有任何用处.
试试PDFMiner.它可以从PDF文件中提取HTML、SGML或"标记PDF"格式的文本.
带标签的PDF格式似乎是最干净的,go 掉XML标签只留下纯文本.
Python 3版本可在以下位置获得: