Python 对于数组中的所有元素，Pandas SELECT行都具有值

发布于03月12日

首先，这篇文章的标题可能不公平地回答了这个问题，所以我对此表示谦虚的歉意.

这里有一个问题:

Date	Type	Value
2024-03-11	3	3
2024-3-11	4	5
2024-03-12	3	3
2024-3-12	4	5
2024-3-12	5	5
2024-03-13	3	3
2024-3-13	4	5
2024-3-13	5	2
2024-3-14	5	5

类型=[3，4，5]

在Pandas中，有没有一种简单的方法可以从上面的df创建一个新的df，其中只有当日期包含列表中所有元素的值时才会出现数据？这意味着reuslant df应该只包含日期12、13的数据，因为原始df具有Type数组中的元素的值？谢谢

推荐答案

使用set，用groupby.agg+issubset聚合，用isin+boolean indexing过滤:

Type = {3,4,5}

df['Date'] = pd.to_datetime(df['Date'])

keep = df.groupby('Date')['Type'].agg(Type.issubset)

out = df[df['Date'].isin(keep.index[keep])]

groupby.transform的变种:

Type = {3,4,5}

df['Date'] = pd.to_datetime(df['Date'])

out = df[df.groupby('Date')['Type'].transform(Type.issubset)]

输出:

        Date  Type  Value
2 2024-03-12     3      3
3 2024-03-12     4      5
4 2024-03-12     5      5
5 2024-03-13     3      3
6 2024-03-13     4      5
7 2024-03-13     5      2

中间体:

# keep
Date
2024-03-11    False
2024-03-12     True
2024-03-13     True
2024-03-14    False
Name: Type, dtype: bool

# df['Date'].isin(keep.index[keep])
# or
# df.groupby('Date')['Type'].transform(Type.issubset)
0    False
1    False
2     True
3     True
4     True
5     True
6     True
7     True
8    False
Name: Type, dtype: bool