Python3.x 在特定条件下从 DataFrame 中提取特定组

发布于06月05日

我有一个如下所示的DataFrame，我想在其中提取包含一行的组(名称:J，年龄:33)

X	Y	Name	Age
1	3	J	33
1	3	A	47
1	4	B	53
1	4	X	22
2	3	J	33
2	3	P	80
2	4	V	90
2	4	V	93

总体而言，它将生成下表，因为1，3X/Y组包含J，33，而2，3X/Y组也包含J，33行.

X	Y	Name	Age
1	3	J	33
1	3	A	47
2	3	J	33
2	3	P	80

我一直通过迭代行来解决这个问题，这太慢了，我想知道在Pandas中是否有更快的方法使用Groupby和Apply/PIPE方法.如有任何帮助，我们不胜感激

示例df如下:

df = pd.DataFrame({
    'X': [1,1,1,1,2,2,2,2],
    'Y': [3,3,4,4,3,3,4,4],
    'Name': ['J', 'A', 'B', 'X', 'V', 'P', 'J', 'V'],
    'Age': [33,47,53,22,33,80,33,93]
})

推荐答案

一种 Select 是使用Groupby:

# Get rows equal to ('J', 33)
check = df.loc(axis=1)[['Name','Age']].eq(('J', 33)).all(axis=1)
# run a groupby and get groups where True exists for any row in that group
check = check.groupby([df.X, df.Y]).transform('any')
#filter original dataframe
df.loc[check]

   X  Y Name  Age
0  1  3    J   33
1  1  3    A   47
4  2  3    J   33
5  2  3    P   80

另一个 Select ，仍然是Groupby:

group = df.groupby(['X','Y'])
cond1 = group.Name.transform(lambda x: any(x == 'J'))
cond2 = group.Age.transform(lambda x: any(x == 33))
df.loc[cond1 & cond2]
   X  Y Name  Age
0  1  3    J   33
1  1  3    A   47
4  2  3    J   33
5  2  3    P   80