创建一个新变量，仅当 R 中满足条件时才打印一系列列中的第一个值

发布于03月27日

我试图创建一个新变量，仅当满足特定条件时，才打印一系列列的第一个值.

为了澄清，我的数据库如下所示:

var1	var2	var3	var4
C7931	C3490	R0781	I10
R079	R0600	I10	C3490
S270XXA	S225XXA	C3490	C7931

我想创建一个变量(main)，仅当值不以C00到C99开头时，才打印第一个var列中的值.如果该值确实以该条件开始，那么我想在下一列测试该条件，直到满足该条件，并打印该值.

因此，对于上表，新创建的变量(main)应该是这样的:

var1	var2	var3	var4	main
C7931	C3490	R0781	I10	R0781
R079	R0600	I10	C3490	R079
C0258	S225XXA	C3490	C7931	S225XXA

我不太确定从哪里开始，但我怀疑这可能涉及mutate()和ifelse()

推荐答案

我们可以使用grepl通过在每一行上循环来创建一个用于子集设置的逻辑向量.匹配的模式是C后跟一个或多个数字(\\d+)并对逻辑向量求反(!)以将元素子集，然后返回第一个([1])

df1$main <- apply(df1[startsWith(names(df1), "var")], 1, 
       function(x) x[!grepl("^C\\d+", x)][1])

对于tidyverse，可以使用rowwise和str_subset

library(dplyr)
library(stringr)
df1 %>% 
 rowwise %>% 
 mutate(main = first(str_subset(c_across(starts_with("var")), 
       regex("^C\\d+"), negate = TRUE))) %>%
 ungroup
# A tibble: 3 × 5
  var1    var2    var3  var4  main   
  <chr>   <chr>   <chr> <chr> <chr>  
1 C7931   C3490   R0781 I10   R0781  
2 R079    R0600   I10   C3490 R079   
3 S270XXA S225XXA C3490 C7931 S270XXA

数据

df1 <- structure(list(var1 = c("C7931", "R079", "S270XXA"), var2 = c("C3490", 
"R0600", "S225XXA"), var3 = c("R0781", "I10", "C3490"), var4 = c("I10", 
"C3490", "C7931")), class = "数据.frame", row.names = c(NA, -3L
))