R 根据部分名称匹配获取多组列的行求和

发布于01月12日

以下是我的示例输入数据集:

 df <- data.frame(qw1_A_B_ = c(2, 4, 6, 8, 10),   
                  qw2_A_B_ = c(3, 6, 9, 12, 15),   
                  qw1_C_D_ = c(5, 10, 15, 20, 25),   
                  qw2_C_D_ = c(7, 14, 21, 28, 35))

我想详细说明通用正则表达式，以求和共享QW1和QW1且列名的变量部分相互匹配的每一对行.我应该得到的最终结果是:

data.frame(qw1qw2_A_B_ = c(5, 10, 15, 20, 25),   
           qw1qw2_A_B_ = c(12, 24, 36, 4, 60))

通过使用该向量，我刚刚得出了以下通用正则表达式:

vector <- c("qw1_A_B_", "qw2_A_B_", "qw1_C_D_", "qw2_C_D_")
vector <- gsub("^qw[12]_(.*)_$", "qw1qw2_\\1", vector)

但这远远不是想要的输出.

推荐答案

您可以try 下面的代码

do.call(
    cbind,
    lapply(
        split.default(df, sub(".*?_", "", names(df))),
        \(x)
        setNames(
            data.frame(rowSums(x)),
            paste0(
                paste0(sub("_.*", "", names(x)), collapse = ""),
                sub(".*?_", "_", names(x))[1]
            )
        )
    )
)

这给了我们

  qw1qw2_A_B_ qw1qw2_C_D_
1           5          12
2          10          24
3          15          36
4          20          48
5          25          60