给定R中另一行中的值，如何插补缺失值

发布于04月27日

我需要将每个人的年份直接置于空值(具有年份值的最早文件日期)之上，然后用该年份填充缺失的值.我有一个使用子集设置和分配值的方法，但它需要循环数据，并且对于数十亿行来说，这是不可行的.下面是一个模拟数据集，显示了数据的 struct .每个ID都有多个文件日期，并且可能有几年与之关联.对于3/1/14之前的文件日期，年份列缺失.

df <- data.frame(
   ID = c(1,1,1,1,1,1,2,2,2,2),
   file_date = c("12/1/14", "9/1/14", "6/1/14", "3/1/14", "12/1/13", "9/1/13", "9/1/14", "6/1/14", "3/1/14", "12/1/13"),
   year = c(1979, 1965, 1965, 1965, NA, NA, 1982, 1982, 1982, NA)
)

在此数据中，前两个空值将用1965填充，最后一个空值将用1982填充.

推荐答案

由于无法使用tidyr::fill()，因此可以使用avetry 以下方法.

如果您可以访问zoo套餐，这很简单:

# zoo::na.locf
df$Filled_Year_zoo <- ave(df$year, df$ID, FUN = zoo::na.locf0) # thanks to @G. Grothendieck

如果不是，完全基于R的方法可能是:

### Full base R
df$Filled_Year_base <- ave(df$year, df$ID,
                           FUN = \(x) {
                             x[which(is.na(x))] <- tail(x[which(!is.na(x))], 1)
                             x})

结果:

#    ID file_date year Filled_Year_zoo Filled_Year_base
# 1   1   12/1/14 1979            1979             1979
# 2   1    9/1/14 1965            1965             1965
# 3   1    6/1/14 1965            1965             1965
# 4   1    3/1/14 1965            1965             1965
# 5   1   12/1/13   NA            1965             1965
# 6   1    9/1/13   NA            1965             1965
# 7   2    9/1/14 1982            1982             1982
# 8   2    6/1/14 1982            1982             1982
# 9   2    3/1/14 1982            1982             1982
# 10  2   12/1/13   NA            1982             1982

(您当然可以覆盖year列，我只是定义新列以供演示)