如何从第一个方括号和最后一个圆括号中拆分 R 中的字符串

发布于06月09日

我正在处理法律引用.我想把引文分成四部分.引文的一般格式如下:

"Lubrizol Corporation, USA v. Asstt. DIT (International Taxation) [2013] 33 taxmann.com 424/60 SOT 118 (URO) (Mum. Trib.)"

第一部分是"Lubrizol Corporation, USA v. Asstt. DIT (International Taxation)"，第二部分是"2013"，第三部分是"33 taxmann.com 424/60 SOT 118 (URO)"，最后一部分是"Mum. Trib."

推荐答案

使用extract:

library(tidyr)
data.frame(txt) %>%
  extract(txt,
          into = c("First", "Sec", "Thrd", "Frth"),
          regex = "(.+)\\[(\\d+)\\](.*)\\((.*)\\)")
                                                              First  Sec                                  Thrd       Frth
1 Lubrizol Corporation, USA v. Asstt. DIT (International Taxation)  2013  33 taxmann.com 424/60 SOT 118 (URO)  Mum. Trib.

regex部分看起来比实际情况更可怕:您只需完整描述字符串，将希望提取的部分括在括号中(用于捕获组的语法)

数据:

txt <- "Lubrizol Corporation, USA v. Asstt. DIT (International Taxation) [2013] 33 taxmann.com 424/60 SOT 118 (URO) (Mum. Trib.)"

R相关问答推荐

从具有随机模式的字符串中提取值

在ggplot的注释表格中突出显示最大值

在数据表中呈现数学符号

无法运行通过R中的Auto.arima获得的ARIMA模型

R创建一个数据透视表，计算多个组的百分比

R箱形图gplot 2 4组但6个参数

使用gcuminc，如何使用逗号格式化风险表？

如何在geom_col中反转条

如何在ggplot图中找到第二轴的比例

如何在所有绘图中保持条件值的 colored颜色相同？

无法定义沿边轨迹的 colored颜色渐变(与值无关)

使用Scale_*_MANUAL时在图例中保留未使用的系数级别

从多面条形图中删除可变部分

R -使用矩阵reshape 列表

在R中使用列表(作为tibble列)进行向量化？

将列表中的字符串粘贴到R中for循环内的dplyr筛选器中

带RStatix的Wilcoxon环内检验

有没有办法将基于每个值中出现的两个关键字或短语的字符串向量重新编码为具有这两个值的新向量？

隐藏基于 case 总数的值

网络抓取NBA.com

实用课程推荐