Python 从pdf中提取已知bbox中的文本，PDFQuery太慢

发布于06月08日

我在lxml文件中找到了bbox坐标，并使用PDFQuery提取了想要的数据.然后我将数据写入csv文件.

def pdf_scrape(pdf):
    """
    Extract each relevant information individually
    input: pdf to be scraped
    returns: dataframe of scraped data
    """
    # Define coordinates of text to be extracted
    CUSTOMER             = pdf.pq('LTTextLineHorizontal:overlaps_bbox("356.684, 563.285, 624.656, 580.888")').text() 
    CUSTOMER_REF         = pdf.pq('LTTextLineHorizontal:overlaps_bbox("356.684, 534.939, 443.186, 552.542")').text()
    SALES_ORDER          = pdf.pq('LTTextLineHorizontal:overlaps_bbox("356.684, 504.692, 414.352, 522.295")').text()
    ITEM_NUMBER          = pdf.pq('LTTextLineHorizontal:overlaps_bbox("356.684, 478.246, 395.129, 495.849")').text()
    KEY                  = '0000'+ SALES_ORDER + '-' + '00' + ITEM_NUMBER
    # Combine all relevant information into a single pandas dataframe
    page = pd.DataFrame({
        'KEY'          : KEY,
        'CUSTOMER'     : CUSTOMER,
        'CUSTOMER REF.': CUSTOMER_REF,
        'SALES ORDER'  : SALES_ORDER,
        'ITEM NUMBER'  : ITEM_NUMBER
                       }, index=[0])
    return(page)

pdf_search = Path("files/").glob("*.pdf")

pdf_files = [str(file.absolute()) for file in pdf_search]

master = list()
for pdf_file in pdf_files: 
    pdf = pdfquery.PDFQuery(pdf_file)
    pdf.load(0)

# Iterate over all pages in document and add scraped data to df
    page = pdf_scrape(pdf) 
    master.append(page)

master = pd.concat(master, ignore_index=True)
master.to_csv('scraped_PDF_as_csv\scraped_PDF_DataFrame.csv', index = False)

问题是我每天需要阅读数百个PDF，而这个脚本需要大约13-14秒才能从10个PDF的第一页中挖掘出四个元素.

有没有办法加速我的代码？

我try 过使用PyMuPDF，因为它应该更快，但在实现它时遇到了问题，无法提供与PDFQuery相同的输出.有人知道怎么做吗？

重申一下，我知道所需文本在文档中的位置，但我不一定知道它说了什么.

import pdfquery query1 = (176.4, 629.28, 176.4, 629.28) # "Text 1" in simple.pdf pdf = pdfquery.pdf格式("simple.pdf") # query1 = (130, 407, 130, 407) # Looking for "Gaussian" in more_complicated.pdf # pdf = pdfquery.pdf格式("more_complicated.pdf") pdf.load(0) text1 = pdf.pq('LTTextLineHorizontal:overlaps_bbox("%d, %d, %d, %d")' % query1).text() print(text1)

from fitz import open as fitz_open, Document, Page, Rect query1 = Rect(165.6, 165.6, 165.6, 165.6) # "Text 1" in simple.pdf doc: Document = fitz_open("simple.pdf") # query1 = Rect(130, 381, 130, 381) # Looking for "Gaussian" in more_complicated.pdf # doc: Document = fitz_open("more_complicated.pdf") page: Page = doc.load_page(0) page_dict: dict = page.get_text("dict") bbox: Rect # a variable we'll reuse as we work down to our query text1 = "" # the text we're looking for with query1 block: dict for block in page_dict["blocks"]: if block["type"] == 1: # skip, it's an image continue bbox = Rect(block["bbox"]) if not bbox.contains(query1): continue line: dict for line in block["lines"]: bbox = Rect(line["bbox"]) if not bbox.contains(query1): continue span: dict for span in line["spans"]: bbox = Rect(span["bbox"]) if not bbox.contains(query1): continue text1 = span["text"] print(text1)

	simple.pdf	more_complicated.pdf
file
pdf格式 timing (s)	0.123	0.258
PyMuPDF timing (s)	0.069	0.070

simple.pdf

more_complicated.pdf

file

pdf格式 timing (s)

0.123

0.258

PyMuPDF timing (s)

0.069

0.070

Python 从pdf中提取已知bbox中的文本，PDFQuery太慢

推荐答案

pdf格式

PyMuPDF

分析

Python相关问答推荐

如何确保Flask应用程序管理面板中的项目具有单击删除功能？

无法获得指数曲线_fit来处理日期

如何从不同长度的HTML表格中抓取准确的字段？

不允许AMBIMA API请求方法

如何销毁框架并使其在tkinter中看起来像以前的样子？

Python -Polars库中的滚动索引？

将HTML输出转换为表格中的问题

如何在msgraph.GraphServiceClient上进行身份验证？

Pandas 在最近的日期合并，考虑到破产

仿制药的类型铸造

Python json.转储包含一些UTF-8字符的二元组，要么失败，要么转换它们.我希望编码字符按原样保留

Pandas 都是()，但有一个门槛

如何在虚拟Python环境中运行Python程序？

切片包括面具的第一个实例在内的眼镜的最佳方法是什么？

如何在UserSerializer中添加显式字段？

如何在turtle中不使用write()来绘制填充字母(例如OEG)

如何在Pyplot表中舍入值

numpy.unique如何消除重复列？

具有相同图例 colored颜色和标签的堆叠子图

基于多个数组的多个条件将值添加到numpy数组