我使用的是Python3.4,需要从PDF中提取所有文本,然后将其用于文本处理.

我看到的所有答案都建议使用Python 2.7.

我需要Python 3.4中的一些东西.

邦森

推荐答案

您需要安装PyPDF2模块,才能在Python 3.4中使用PDF.PyPDF2无法提取图像、图表或其他媒体,但它可以提取文本并将其作为Python字符串返回.要安装它,请从命令行运行pip install PyPDF2.此模块名称区分大小写,因此请确保以小写形式键入"y",并以大写形式键入所有其他字符.

>>> import PyPDF2
>>> pdfFileObj = open('my_file.pdf','rb')     #'rb' for read binary mode
>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
>>> pdfReader.numPages
56
>>> pageObj = pdfReader.getPage(9)          #'9' is the page number
>>> pageObj.extractText()

last语句返回"my_文件"第9页中可用的所有文本.pdf文档.

Python-3.x相关问答推荐

背包问题-如何减少内存使用

如何转换Pandas中的数据,以使我 Select 的列名变为行值并增加行?

丢弃重复的索引,并在多索引数据帧中保留一个

我可以设置树视图层次 struct 按钮吗?

为什么 get_form 方法中小部件的更改没有反映 Django 管理站点中的更改

如何获取实例化 `types.GenericAlias` 的下标类?

将自动文本转换为 DataFrame

Python3:是否可以将变量用作函数调用的一部分

使用 multiprocessing 处理图像

Python 3 - 给定未知数量的类别动态地将字典嵌套到列表中

合并问卷中多列中的稀疏问题 - Pandas

获取以特定字母开头的姓氏

在 Python 3.5 中使用 aiohttp 获取多个 url

将字符串表示与使用整数值的枚举相关联?

python total_ordering:为什么使用 __lt__ 和 __eq__ 而不是 __le__?

如何在 Python 中计算 cohen 的 d?

为什么中断比引发异常更快?

如何将二进制(字符串)转换为浮点值?

如何为 Python 3.x 安装 psycopg2?

如何在 Pandas 中的超 Big Data 框上创建数据透视表