我没有在R中处理文件的经验!所以,请保持非犹太人.

我有一个pdf,看起来像这样:

enter image description here

我只想从这个文本中提取红色矩形中的数据,并将其保存到数据框中(我有数千种这种pdf).

到目前为止,我设法读入了数据并得到了这个->

我的代码:

library(tidyverse)
library(pdftools)
library(here)

PDF_x <- pdf_text(here("pdf_project/example_for_pdf.pdf")) %>% 
  str_split("\n")

其中给出:

[[1]]
 [1] "                                              BlaBla heaeder"                                                                                               
 [2] "                                           Mr. Bombastic XXXXXXXXXXXXX"                                                                                     
 [3] "                                                                                                                 Text1"                                     
 [4] "                                                                                                                 Text2"                                     
 [5] "                                                                                                                 Text3,"                                    
 [6] "                                                                                                                 Text4"                                     
 [7] "                                                                                                                 Text5"                                     
 [8] "                                                                                                                 Text6"                                     
 [9] "                                                                                                                 Text7"                                     
[10] "                                                                                                                                                 Text8"     
[11] "                                                                                                                                       Blabla, 12.01.2021"  
[12] "                                                                                                                                                     bobo /"
[13] "                                                                                                                                        blabla: 111111111"  
[14] "       Micheal Jackson, justo duo dolores et ea rebu"                                                                                                       
[15] "       accusam:           justo duo dolores et ea rebu"                                                                                                     
[16] "       dolores:           Bla Bla Bla"                                                                                                                      
[17] "                                                                              BLABLA_1"                                                                     
[18] "     X-Date: 17.07.2021"                                                                                                                                    
[19] "      1. Master1                        Tim"                                                                                                                
[20] "      1. Master2                        Jack"                                                                                                               
[21] "      1. Master3                        Monika"                                                                                                             
[22] "      1. Master4                        Jill"                                                                                                               
[23] "     Header1"                                                                                                                                               
[24] "     Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore"                                   
[25] "      magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd"                                     
[26] "      gubergren, no sea takimata"                                                                                                                           
[27] "     Header2"                                                                                                                                               
[28] "      Lorem ipsum dolor sit amet, consetetur sadipscing elitr."                                                                                             
[29] "     Header3"                                                                                                                                               
[30] "     Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore"                                   
[31] "      magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum."                                                     
[32] "     Header4"                                                                                                                                               
[33] "      Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna"                            
[34] "      aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea"                         
[35] "      takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy"                            
[36] "      eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo"                               
[37] "      dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet."                                              
[38] "ipsum dolor sit a                            sed diam nonumy eirmod tempor invidunt ut labore et dolore magna         Master of Disaster Tim"               
[39] "ipsum dolor sit a                                                             invidunt ut labore et dolore magna                Chief master"               
[40] "            ipsum dolor sit a            invidunt ut labore et dolore magnainvidunt ut labore et dolore magna 2s"                                           
[41] ""                                                                                                                                                           

[[2]]
[1] "                  blablablablablablab"  "   invidunt ut labore et dolore magna" 
[3] "invidunt ut labore et dolore magna..at" ""  

I really appreciate any guiding help!

推荐答案

str_split/strsplit返回list时,提取第一个list元素([[1]]),找到行以(^)"X-Date:"开头的位置索引,在删除前导/后导空格(trimws)以及"Header4"的位置(并减go 1以获得前一行位置)后,获得序列(:)以子集向量元素

v1 <- trimws(PDF_x[[1]])
v1[grep("^X-Date:", v1):(grep("Header4", v1)-1)]

R相关问答推荐

如何从使用lapply()的r中的拆分数据帧中删除多个部分?

根据R中另一个数据集的顺序重新排序数据集的列

修改dDeliverr中列表列的最后一个元素

过滤Expand.Grid的结果

在ComplexHeatmap中,如何更改anno_barplot()标题的Angular ?

gt()从gt为相同内容的单元格 colored颜色 不同?

在另一个函数中调用ggplot2美学

如果第一个列表中的元素等于第二个列表的元素,则替换为第三个列表的元素

如何在所有绘图中保持条件值的 colored颜色 相同?

如何从R ggplot图片中获取SVG字符串?

使用R中的正则表达式将一列分割为多列

用两种 colored颜色 填充方框图

R中Gamma回归模型均方误差的两种计算方法不一致

有没有办法一次粘贴所有列

将摘要图添加到facet_WRAP gglot的末尾

在不对R中的变量分组的情况下取两行的平均值

如何移动点以使它们的打印不重叠

如何使用循环从R中的聚合函数创建列,而不会在名称中给出&q;$&q;?

我已经运行了几个月的代码的`Palette()`中出现了新的gglot错误

如何在shiny 的应用程序 map 视图宣传单中可视化单点