我在a列中有一个重复值的数据帧.我想删除重复项,将值最高的行保留在B列中.
因此:
A B
1 10
1 20
2 30
2 40
3 10
应该变成这样:
A B
1 20
2 40
3 10
我猜可能有一种简单的方法可以做到这一点,可能就像在删除重复数据之前对数据帧进行排序一样简单,但我不太了解groupby的内部逻辑,无法弄清楚它.有什么建议吗?
我在a列中有一个重复值的数据帧.我想删除重复项,将值最高的行保留在B列中.
因此:
A B
1 10
1 20
2 30
2 40
3 10
应该变成这样:
A B
1 20
2 40
3 10
我猜可能有一种简单的方法可以做到这一点,可能就像在删除重复数据之前对数据帧进行排序一样简单,但我不太了解groupby的内部逻辑,无法弄清楚它.有什么建议吗?
这是最后一个.但不是最大值:
In [10]: df.drop_duplicates(subset='A', keep="last")
Out[10]:
A B
1 1 20
3 2 40
4 3 10
您还可以执行以下操作:
In [12]: df.groupby('A', group_keys=False).apply(lambda x: x.loc[x.B.idxmax()])
Out[12]:
A B
A
1 1 20
2 2 40
3 3 10