R 判断行中某些列的所有值是否相等，同时忽略 NA

发布于08月25日

我有一个数据框是这样的:

df <- data.frame(c1 = c("l", "m", "n", "o"),
                 c2 = c("a", "a", "a", "a"),
                 c3 = c("b", NA, "a", "b"),
                 c4 = c("a", "a", "a", "NA"))
> print(df)
  c1 c2   c3 c4
1  l  a    b  a
2  m  a <NA>  a
3  n  a    a  a
4  o  a    b NA

我想判断每一行的第c2、c3和c4列的值是否相等，但忽略NA值.也就是说，所需的结果是FALSE, TRUE, TRUE, FALSE的新列.如果可能的话，我想用dplyr个函数来做这件事.

推荐答案

使用dplyr:

df %>% 
  rowwise() %>% 
  mutate(check = c_across(c2:c4) %>% n_distinct(na.rm = TRUE) == 1) %>%
  ungroup()

这使用了

rowwise进行每行判断
c_across表示使用tidyselect Select 列
n_distinct以查找唯一值的数量
和==比1.

提供:

# A tibble: 4 × 5
# Rowwise: 
  c1    c2    c3    c4    check
  <chr> <chr> <chr> <chr> <lgl>
1 l     a     b     a     FALSE
2 m     a     NA    a     TRUE 
3 n     a     a     a     TRUE 
4 o     a     b     NA    FALSE

我认为这个答案非常可读性，但一旦你有数千行，它也真的很慢.在这种情况下，您可能想在这里考虑其他答案.