R 使用未知字符数(不受限制的最大长度)的Lookback有什么好的替代方案

发布于02月21日

我有一个值的矢量，格式如下:

c("T12_50;是13_50;是3_33", "是15_100")

我需要提取以下三个元素之后的值

是
位数未知的数字
下划线

在这种情况下，第一个元素("T12_50；是13_50；是3_33")应为c(50，33)，第二个元素("是15_100")应为c(100).

str_extract_all ("T12_50;是13_50;是3_33", "(?<=是\\d+_)\\d+")

但它会产生一个错误

回溯模式匹配必须具有限定的最大长度.

在try 之后，我明白了问题是我不能在正则表达式的后备部分中使用"d+".这里会有什么替代方案？

推荐答案

我推荐100 with a regex modification，其中正向回溯转换为消费模式，您需要返回的部分包含在捕获括号中(例如101->；102):

x <- c("T12_50;Y13_50;Y3_33", "Y15_100")
library(stringr)
res <- lapply(str_match_all(x, "Y\\d+_(\\d+)"), function(m) m[,-1])

或者base R solution，其中使用了PCRE正则表达式，在\K运算符的帮助下，可以"截断"不需要的部分

res <- regmatches(x, gregexpr("Y\\d+_\\K\\d+", x, perl=TRUE))

res个就够了

[[1]]
[1] "50" "33"

[[2]]
[1] "100"

请看R demo.

是的，由于stringr包使用了支持限制宽度外观的ICU regex library，如果您确定Y和_之间的数字不能超过ICU regex library且不少于1位，您就可以真正使用stringr::str_extract_all(x, "(?<=Y\\d{1,100}_)\\d+").你不能在ICU的正则表达式中使用*和+: