这可能吗!?!
我有一大堆遗留报告需要导入数据库.然而,它们都是pdf格式的.有R
个可以阅读pdf的软件包吗?还是应该把它留给命令行工具?
这些报告是用excel制作的,然后是pdfed,所以它们有规则的 struct ,但有许多空白的"单元格".
这可能吗!?!
我有一大堆遗留报告需要导入数据库.然而,它们都是pdf格式的.有R
个可以阅读pdf的软件包吗?还是应该把它留给命令行工具?
这些报告是用excel制作的,然后是pdfed,所以它们有规则的 struct ,但有许多空白的"单元格".
这只是对其他可能希望提取数据的人的一个警告:PDF是一个容器,而不是一种格式.如果原始文档不包含实际的文本,而不是文本的位图图像,或者可能比我想象的更丑陋的东西,那么除了OCR之外,没有什么可以帮助您.
除此之外,在我的悲惨经历中,无法保证创建PDF文档的应用程序的行为都是相同的,因此表中的数据可能会或可能不会以所需的顺序读取(由于文档的构建方式).小心点.
也许最好让几个研究生帮你转录数据.它们很便宜:-)