Python3.x Python 3.4 中从 PDF 中提取文本的最佳工具

发布于09月19日

我使用的是Python3.4，需要从PDF中提取所有文本，然后将其用于文本处理.

我看到的所有答案都建议使用Python 2.7.

我需要Python 3.4中的一些东西.

邦森

>>> import PyPDF2 >>> pdfFileObj = open('my_file.pdf','rb') #'rb' for read binary mode >>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj) >>> pdfReader.numPages 56 >>> pageObj = pdfReader.getPage(9) #'9' is the page number >>> pageObj.extractText()

Python3.x Python 3.4 中从 PDF 中提取文本的最佳工具

推荐答案

Python-3.x相关问答推荐

背包问题-如何减少内存使用

如何转换Pandas中的数据，以使我 Select 的列名变为行值并增加行？

丢弃重复的索引，并在多索引数据帧中保留一个

我可以设置树视图层次 struct 按钮吗？

为什么 get_form 方法中小部件的更改没有反映 Django 管理站点中的更改

如何获取实例化 `types.GenericAlias` 的下标类？

将自动文本转换为 DataFrame

Python3：是否可以将变量用作函数调用的一部分

使用 multiprocessing 处理图像

Python 3 - 给定未知数量的类别动态地将字典嵌套到列表中

合并问卷中多列中的稀疏问题 - Pandas

获取以特定字母开头的姓氏

在 Python 3.5 中使用 aiohttp 获取多个 url

将字符串表示与使用整数值的枚举相关联？

python total_ordering：为什么使用 lt 和 eq 而不是 le？

如何在 Python 中计算 cohen 的 d？

为什么中断比引发异常更快？

如何将二进制(字符串)转换为浮点值？

如何为 Python 3.x 安装 psycopg2？

如何在 Pandas 中的超 Big Data 框上创建数据透视表