这可能吗!?!

我有一大堆遗留报告需要导入数据库.然而,它们都是pdf格式的.有R个可以阅读pdf的软件包吗?还是应该把它留给命令行工具?

这些报告是用excel制作的,然后是pdfed,所以它们有规则的 struct ,但有许多空白的"单元格".

推荐答案

这只是对其他可能希望提取数据的人的一个警告:PDF是一个容器,而不是一种格式.如果原始文档不包含实际的文本,而不是文本的位图图像,或者可能比我想象的更丑陋的东西,那么除了OCR之外,没有什么可以帮助您.

除此之外,在我的悲惨经历中,无法保证创建PDF文档的应用程序的行为都是相同的,因此表中的数据可能会或可能不会以所需的顺序读取(由于文档的构建方式).小心点.

也许最好让几个研究生帮你转录数据.它们很便宜:-)

R相关问答推荐

如何使下一个按钮只出现在Rshiny 的一段时间后?""

如何对2个列表元素的所有组合进行操作?

计算数据帧中指定值之前的行数,仅基于每行之后的future 行,单位为r

如何在PackageStatus()中列出&q;不可用的包&q;?

R-按最接近午夜的时间进行筛选

仅在R中的数据集开始和结束时删除所有 Select 列的具有NA的行

在R中,如何将误差条放置在堆叠的每个条上?

R -基线图-图形周围的阴影区域

多元正态分布的计算

将CSV转换为R中的自定义JSON格式

将R中对象的CSV数组转换为JSON数组

从字符串01JAN2021创建日期

如何准确地指出Read_delim所面临的问题?

使用dplyr删除具有条件的行

列中的所有值都是真的吗?忽略NA

匹配名字相似的人:r

使用可变样本大小从数据帧中随机采样

如何增加S的剧情大小?

如何根据R中ggplot2中的离散y轴标签更改面板的背景 colored颜色 ?

R中按组划分的总计数百分比