R 聚合方法以不同方式处理缺失值 (NA)

发布于05月31日

下面是一个缺少值的简单数据框:

M = data.frame( Name = c('name', 'name'), Col1 = c(NA, 1) , Col2 = c(1, 1))
#   Name Col1 Col2
# 1 name   NA    1
# 2 name    1    1

当我使用formula方法按组("名称")使用aggregate到sum个变量时:

aggregate(. ~ Name, M, FUN = sum, na.rm = TRUE)

结果是:

# RowName Col1 Col2
#    name    1    1

因此，整个第一行，有一个NA，被忽略.但如果使用"非formula"规范:

aggregate(M[, 2:3], by = list(M$Name), FUN = sum, na.rm = TRUE)

结果是:

# Group.1 Col1 Col2
#    name    1    2

这里只忽略(1,1)项.

这在我的一个代码中引起了很大的调试问题，因为我认为这两个调用是等效的.formula分制被区别对待有什么好的理由吗？

谢谢

推荐答案

好问题，但在我看来，这不应该引起major调试的头痛，因为它在手册页面的多个地方都有很清楚的记录.

首先，在用法部分:

## S3 method for class 'formula'
aggregate(formula, data, FUN, ...,
          subset, na.action = na.omit)

稍后，在描述中:

na.action:一个函数，指示当数据包含NA值时应该发生什么.默认设置是忽略给定变量中缺少的值.

我无法回答why公式模式的编写方式不同——这是函数作者必须回答的问题——但使用上述信息，您可能可以使用以下内容:

aggregate(.~Name, M, FUN=sum, na.rm=TRUE, na.action=NULL)
#   Name Col1 Col2
# 1 name    1    2

实用课程推荐