我想判断一个组中是否有不同版本的文档.如果是这样,则应将它们写入新的数据帧中.
我的初始数据框如下所示:
document | version | group |
---|---|---|
abc | 1 | 1 |
abc | 1 | 1 |
abc | 2 | 1 |
testtest | 4 | 1 |
xyz | 3 | 2 |
xyz | 77 | 2 |
abc | 3 | 3 |
qwertz | 10 | 4 |
qwertz | 9 | 4 |
x | 1 | 5 |
x | 1 | 5 |
import pandas as pd
d = {'document': ['abc', 'abc', 'abc', 'testtest', 'xyz', 'xyz', 'abc', 'qwertz', 'qwertz', 'x', 'x'],
'version': [1,1,2,4,3,77,3,10,9,1,1],
'group': [1,1,1,1,2,2,3,4,4,5,5]}
df = pd.DataFrame(data=d)
数据框有相对较多的条目.如何使绩效在技术上合理有效?
输出应如下所示:
group | document | version |
---|---|---|
1 | abc | 1 |
1 | abc | 2 |
2 | xyz | 3 |
2 | xyz | 77 |
4 | qwertz | 10 |
4 | qwertz | 9 |
这意味着组"2"包含两次不同版本的文档"abc".即在版本"1"和"2"中.不应列出在一组中多次出现但版本相同的文档(文档"x").