我有大量文件,其中一些是扫描成PDF格式的图像,一些是全文/部分文本PDF.
我们用哪种方式来判断这些文件是完整的还是PDF文件?
环境:PYTHON 3.6
我有大量文件,其中一些是扫描成PDF格式的图像,一些是全文/部分文本PDF.
我们用哪种方式来判断这些文件是完整的还是PDF文件?
环境:PYTHON 3.6
下面的代码可以从可搜索和不可搜索的PDF中提取数据文本数据.
import fitz
text = ""
path = "Your_scanned_or_partial_scanned.pdf"
doc = fitz.open(path)
for page in doc:
text += page.getText()
如果您没有fitz
个模块,则需要执行以下操作:
pip install --upgrade pymupdf