我有一个包含多列的数据集,其中包含来自不同学校的信息.我正在标准化所有信息,因此所有学校都显示相同的信息.为此,我试图识别所有列中是否显示了相同的信息,并识别哪些列和行不显示相同的信息.
假设我有以下数据集:
df <- data.frame(col1 = c("A", "B", "C", "D", "E", "F"),
col2 = c("B", "A", "C", "F", "E", NA),
col3 = c("C", "B", "A", "F", "G", "D"))
这给了我以下框架:
col1 col2 col3
1 A B C
2 B A B
3 C C A
4 D F F
5 E E G
6 F <NA> D
在我创建的这个假设的 pyramid 中,我故意在col 2中添加了一个缺失的值,并在col 3中添加了一个唯一的值G.
使用列col 1作为基准,是否有一种智能且优雅的方法可以识别col 2、col 3中缺少的值,以及如何将G识别为列col 3中的唯一值?
快速澄清.如果我们以col 1作为比较基准,则col 2中缺少字母D,col 3中缺少字母E.有什么简单的方法可以得到这个吗?
此外,在col 3中存在一个唯一的值G,该值不包含在col 1中.我也想找到一种方法来指出这一点.
希望这不会令人困惑.如果您需要更多澄清,请告诉我.