我使用的是Python3.4,需要从PDF中提取所有文本,然后将其用于文本处理.
我看到的所有答案都建议使用Python 2.7.
我需要Python 3.4中的一些东西.
邦森
我使用的是Python3.4,需要从PDF中提取所有文本,然后将其用于文本处理.
我看到的所有答案都建议使用Python 2.7.
我需要Python 3.4中的一些东西.
邦森
您需要安装PyPDF2模块,才能在Python 3.4中使用PDF.PyPDF2无法提取图像、图表或其他媒体,但它可以提取文本并将其作为Python字符串返回.要安装它,请从命令行运行pip install PyPDF2
.此模块名称区分大小写,因此请确保以小写形式键入"y",并以大写形式键入所有其他字符.
>>> import PyPDF2
>>> pdfFileObj = open('my_file.pdf','rb') #'rb' for read binary mode
>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
>>> pdfReader.numPages
56
>>> pageObj = pdfReader.getPage(9) #'9' is the page number
>>> pageObj.extractText()
last语句返回"my_文件"第9页中可用的所有文本.pdf文档.