我有大量文件,其中一些是扫描成PDF格式的图像,一些是全文/部分文本PDF.

我们用哪种方式来判断这些文件是完整的还是PDF文件?

环境:PYTHON 3.6

推荐答案

下面的代码可以从可搜索和不可搜索的PDF中提取数据文本数据.

import fitz

text = ""
path = "Your_scanned_or_partial_scanned.pdf"

doc = fitz.open(path)
for page in doc:
    text += page.getText()

如果您没有fitz个模块,则需要执行以下操作:

pip install --upgrade pymupdf

Python-3.x相关问答推荐

如何创建一个polars gramme,给出列表中的列名,

Numpy argmin()以查找最近的元组

如何检索与美汤相似的标签中的文本?

使用递归将int转换为字符串

将列表转换为 pandas 数据框,其中列表包含字典

类变量的Python子类被视为类方法

单击图形时 plotly graph_objects 持久性数据

如果网站加载时间过长,如何强制 Selenium 刷新

python用户输入5个偶数并打印最大的

Pandas 的 EMA 与股票的 EMA 不匹配?

Selenium (Python) - 使用 Chrome 网络驱动程序等待下载过程完成

python 3的蓝牙库

在 Ubuntu 上为 Python3 安装 mod_wsgi

try 在 Windows 10 高 DPI 显示器上解决模糊的 tkinter 文本 + zoom ,但担心我的方法不是 Pythonic 或不安全

无论如何我可以在 Google colaboratory 中下载文件吗?

如何使用已打开并使用登录凭据登录的浏览器

导入父目录进行简要测试

为什么在 Python 3 中实例的 __dict__ 的大小要小得多?

pdfminer python 3.5

哪个更有效:Python 文档字符串还是类型提示?