Python3.x 在python中使用PDFMiner从PDF文件中提取文本

发布于10月22日

我正在寻找关于如何使用PDFMiner和Python从PDF文件中提取文本的or个示例文档.

看起来PDFMiner更新了他们的API，我发现的所有相关示例都包含过时的代码(类和方法已经更改).我发现，使从PDF文件中提取文本的任务更容易的库使用了旧的PDFMiner语法，所以我不确定如何做到这一点.

事实上，我只是在看源代码，看看是否能找到答案.

推荐答案

下面是一个使用当前版本的PDFMiner(2016年9月)从PDF文件中提取文本的工作示例

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

PDFMiner的 struct 最近发生了变化，所以这应该可以用于从PDF文件中提取文本.

Edit:截至2018年6月7日仍在工作.已在Python版本3中验证.十、

编辑:该解决方案将于2019年10月3日与Python 3.7一起使用.我使用了2018年11月发布的Python library pdfminer.six.