我正在寻找关于如何使用PDFMiner和Python从PDF文件中提取文本的or个示例文档.

看起来PDFMiner更新了他们的API,我发现的所有相关示例都包含过时的代码(类和方法已经更改).我发现,使从PDF文件中提取文本的任务更容易的库使用了旧的PDFMiner语法,所以我不确定如何做到这一点.

事实上,我只是在看源代码,看看是否能找到答案.

推荐答案

下面是一个使用当前版本的PDFMiner(2016年9月)从PDF文件中提取文本的工作示例

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text

PDFMiner的 struct 最近发生了变化,所以这应该可以用于从PDF文件中提取文本.

Edit:截至2018年6月7日仍在工作.已在Python版本3中验证.十、

编辑:该解决方案将于2019年10月3日与Python 3.7一起使用.我使用了2018年11月发布的Python library pdfminer.six.

Python-3.x相关问答推荐

在多个测试中维护和报告变量

无法使用Python slack 螺栓SDK读取在 slack 通道中收到的消息

被多个\n拆分并保留

visual studio代码窗口中未激活虚拟环境11

替换 .txt 文件中的项目列表

需要找到完全匹配并使用正则表达式替换

如何确保 GCP Document AI 模型输出与输入文件同名的 JSON?

以不规则频率识别数据框日期时间列上缺失的日期,并用关联值填充它们

如何使用 regex sub 根据列表中的变量替换字符

spaCy 中的匹配模式返回空结果

在 Django 中执行 JSONRenderer.render(serialized_student_data.data) 时遇到问题

使用 pandas 进行多类分类的总体准确度

如何使用 Selenium by class_name 从大学橄榄球数据中抓取图像 url 列表

在初始化之前禁用`__setattr__`的干净方法

Tkinter AttributeError:对象没有属性'tk'

pysftp vs. Paramiko

在 WSL (Ubuntu) 中为 python3 安装 venv

无 Python 错误/错误?

从 IPython 重新加载 Python 扩展模块

print(... sep='', '\t' ) 是什么意思?