I am working in R个
sample data:
我有一些人的ID是从他们的社会保险/国家保险号码(Actual_Id)分配的.假定Actual_id是正确的.
这一栏可能不需要,但我已经计算出每个人在数据(数字)中出现的次数.例如,我们可以看到Actual_id=1的人在数据中出现了两次,所以这个人的数字=2.
我创造了一种新的身份识别方法,它与社保/国民保险号码无关.新方法生成了一个id,该id位于proposed_id列中.
df <- data.frame(actual_id = c(1, 1, 2, 2, 2, 3, 3),
proposed_id = c("a", "a", "b", "b", "c", "d", "b"),
number = c(2, 2, 3, 3, 3, 2, 2))
print(df)
actual_id | number | proposed_id |
---|---|---|
1 | 2 | a |
1 | 2 | a |
2 | 3 | b |
2 | 3 | b |
2 | 3 | c |
3 | 2 | d |
3 | 2 | b |
Desired outcome个
我想要一种方法来判断是否建议的_id对于任何实际_id只使用一次:
- 我们可以看到proposed_id=a已经被分配给Actual_id=1,并且不会再次出现在proposed_id列中.因此,这将被分配为"真".
- 我们可以看到proposed_id=b已被分配给Actual_id=2,但随后又被分配到proposed_id=3.这将被分配为"False".
我的实际数据有90,000行.
actual_id | number | proposed_id | assessment |
---|---|---|---|
1 | 2 | a | TRUE |
1 | 2 | a | TRUE |
2 | 3 | b | FALSE |
2 | 3 | b | FALSE |
2 | 3 | c | TRUE |
3 | 2 | d | TRUE |
3 | 2 | b | FALSE |