我有一个包含两列(Person和Item)的数据集,我想基于列1生成一个组列(Group),但该组将扩展到包括与列2具有相同值的行.
样本1—因为1和2都有a和b,所以它们被认为是1组.3是分开的,因为它是唯一一个与项目a.
Person | Item | Group |
---|---|---|
1 | a | 1 |
1 | b | 1 |
2 | a | 1 |
2 | b | 1 |
3 | a | 2 |
样本2—因为1和2有不同的项目,所以它们被认为是单独的组.3也是分开的,即使它有相同的"a"项,因为它是唯一的项.
Person | Item | Group |
---|---|---|
1 | a | 1 |
1 | b | 1 |
2 | c | 2 |
2 | d | 2 |
3 | a | 3 |
样本3—1和2具有相同的项目,因此它们都被视为1组
Person | Item | Group |
---|---|---|
1 | a | 1 |
1 | b | 1 |
1 | c | 1 |
2 | a | 1 |
2 | b | 1 |
2 | c | 1 |
我发现了一个类似的帖子,但这没有相同的分组/判断机制在第二栏: Group identifiers/values that are related with each other between multiple columns
我在想我需要做一个基于Item的自连接并循环通过它,但到目前为止有点卡住了.
提前感谢!