这是我第一次在这里发帖,请原谅我!在R中,我基于以下条件try 识别部分重复的行:
- 对于一行,COL1必须为非NA.它的复制品一定是NA
- COL2可以不同,但所有其他COLS必须相同
示例df:
df = read.table(text = "
col1 col2 col3 col4 col5
a 928 0 TRUE 1
b 1028 0 FALSE 1
c 394 1 TRUE 1
NA 239 4 TRUE 0
NA 102 0 TRUE 1", h = T)
您可以看到,第1行和第5行符合我正在寻找的条件:COL1中的NON-NA和NA,COL2中的NON-NA和NA不相同,但所有其他COL都相同.所以我会称这些行为部分复制.
我希望得到的输出df只有重复的行(例如,行1和行5).所需输出将如下所示:
df = read.table(text = "
col1 col2 col3 col4 col5
a 928 0 TRUE 1
NA 102 0 TRUE 1", h = T)
请注意,这只是一个示例df,实际df要大得多.
谢谢!