是否有一种优雅的方法可以用 R 中对应列的值替换 NAs，用于多列

发布于03月21日

我正在使用试验参与者血液测试结果的数据框架，其中有一些零星的缺失值(分析物失败).幸运的是，我们有两个非常接近的时间点，所以对于时间点1的缺失值，我希望从时间点2估算相应的值.

以下是一些示例数据:

           timepoint = c(1,1,1,1,1,2,2,2,2,2),
           fst_test = c(NA,sample(1:40,9, replace =F)),
           scd_test = c(sample(1:20,8, replace = F),NA,NA))

到目前为止，我一直在更广泛地旋转，然后手动合并相应的测试结果，如下所示:

test %>% 
  pivot_wider(names_from = timepoint, 
              values_from = fst_test:scd_test) %>%
  mutate(fst_test_imputed = coalesce(fst_test_1, fst_test_2),
         scd_test_imputed = coalesce(scd_test_1, scd_test_2)) %>% 
  select(ID, fst_test_imputed, scd_test_imputed)

然而，对于15个测试来说，这是很麻烦的...

非常感谢您的帮助！！

推荐答案

在"timepoint"上创建一个rowid的分组列后，我们可以使用fill(正如OP提到的，用"timepoint"列中相应的数据点替换).然后，我们只需要fill，并将.direction指定为"updown"，以先用后面的非NA填充前面的值中的NA(如果只需要处理'timepoint'1中的'NA'，则更改.direction = "up")

library(dplyr)
library(tidyr)
library(数据.table)
test %>%
    group_by(grp = rowid(timepoint)) %>%
    fill(fst_test, scd_test, .direction = "updown") %>%
    ungroup %>% 
    select(-grp)

数据

test <- structure(list(timepoint = c(1, 1, 1, 1, 1, 2, 2, 2, 2, 2), 
fst_test = c(NA, 
16L, 30L, 29L, 14L, 32L, 21L, 20L, 3L, 23L), scd_test = c(18L, 
17L, 8L, 20L, 1L, 10L, 14L, 19L, NA, NA)),
 class = "数据.frame", row.names = c(NA, 
-10L))