R 如何根据组大小应用条件过滤

发布于04月05日

我希望根据组大小进行条件过滤.

假设我有一个双框，它看起来像:

data1 <- data.frame(
  ID = c(1, 1, 1, 3, 3, 5, 6),
  town = c("Town A", "Town A", "Town B", "Town A", "Town C", "Town B", "Town A"),
  place = c("A", "B", "A", "B", "C", "A", "B"),
  place1 = c("A", "c", "A", "B", "C", "A", "D"),
  test = c("G", "B", "A", "B", "C", "A", "B"),
  test1 = c("G", "B", "A", "B", "d", "A", "B")

我希望每个ID保留一个城镇，基于条件过滤place == place1，如果组大小仍然大于我想要过滤test == test1.

我试过这样的方法:

data1 %>%group_by(ID) %>% 
  filter(if (n() >= 2) place == place1 else test == test1) %>% 
  filter(n() == 1) %>% 
  ungroup()

但如果没有，因为第1组和第3组都不见了.

推荐答案

根据条件排序数据(降序，TRUE在RESET之前)，然后每组切片1行:

data1 |>
  arrange(ID, desc(place == place1), desc(test == test1)) |>
  slice(1, .by = ID)
#   ID   town place place1 test test1
# 1  1 Town A     A      A    G     G
# 2  3 Town A     B      B    B     B
# 3  5 Town B     A      A    A     A
# 4  6 Town A     B      D    B     B

请注意，如果有平局(如原始数据中的第1行和第3行)，这将probably保留第一个，但我不会指望它.