我正在寻找关于如何使用PDFMiner和Python从PDF文件中提取文本的or个示例文档.
看起来PDFMiner更新了他们的API,我发现的所有相关示例都包含过时的代码(类和方法已经更改).我发现,使从PDF文件中提取文本的任务更容易的库使用了旧的PDFMiner语法,所以我不确定如何做到这一点.
事实上,我只是在看源代码,看看是否能找到答案.
我正在寻找关于如何使用PDFMiner和Python从PDF文件中提取文本的or个示例文档.
看起来PDFMiner更新了他们的API,我发现的所有相关示例都包含过时的代码(类和方法已经更改).我发现,使从PDF文件中提取文本的任务更容易的库使用了旧的PDFMiner语法,所以我不确定如何做到这一点.
事实上,我只是在看源代码,看看是否能找到答案.
下面是一个使用当前版本的PDFMiner(2016年9月)从PDF文件中提取文本的工作示例
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text
PDFMiner的 struct 最近发生了变化,所以这应该可以用于从PDF文件中提取文本.
Edit:截至2018年6月7日仍在工作.已在Python版本3中验证.十、
编辑:该解决方案将于2019年10月3日与Python 3.7一起使用.我使用了2018年11月发布的Python library pdfminer.six
.