使用 dplyr 删除所有变量为 NA 的行

发布于05月02日

我在一个看似简单的任务中遇到了一些问题:使用dplyr删除all个变量为NA的所有行.我知道可以使用base R(Remove rows in R matrix where all data is NA和Removing empty rows of a data file in R)完成，但我很好奇，是否有一种使用dplyr的简单方法.

例子:

library(tidyverse)
dat <- tibble(a = c(1, 2, NA), b = c(1, NA, NA), c = c(2, NA, NA))
filter(dat, !is.na(a) | !is.na(b) | !is.na(c))

上面的filter次调用符合我的要求，但在我面临的情况下是不可行的(因为有大量变量).我想可以使用filter_，首先用(长)逻辑语句创建一个字符串，但似乎应该有一种更简单的方法.

另一种方法是使用rowwise()和do():

na <- dat %>% 
  rowwise() %>% 
  do(tibble(na = !all(is.na(.)))) %>% 
  .$na
filter(dat, na)

但这看起来不太好，尽管它完成了任务.还有其他 idea 吗？

推荐答案

由于dplyr 0.7.0是新的，所以存在范围过滤谓词.使用filter_any，您可以轻松筛选至少有一个非缺失列的行:

# dplyr 0.7.0
dat %>% filter_all(any_vars(!is.na(.)))

使用@hejseb基准测试算法，该解决方案似乎与f4一样高效.

UPDATE:

自dplyr 1.0.0以来，上述范围动词被取代.相反，引入了跨函数族，它允许在多个(或所有)列上执行一个函数.筛选至少有一列不为NA的行现在看起来如下所示:

# dplyr 1.0.0
dat %>% filter(if_any(everything(), ~ !is.na(.)))

实用课程推荐