Python 对整个 pyramid 进行分组与对 pyramid 列子集进行分组

发布于04月18日

我在一个代码库中工作，我看到很多像这样的groupby使用，它们对df列的子集进行操作

df[cols].groupby(some_column).nunique()[column2extract]

其中cols包括some_column和column2extract，在大多数情况下是cols = [some_column, column2extract]

从功能上来说，我认为这相当于

df.groupby(some_column).nunique()[column2extract]

前者是否有一些我应该意识到的优势？我在这个代码库中经常看到这种情况，我觉得我可能错过了一些东西.

事实上，我认为2只有在cols = [some_column, column2extract]时才等效，而在cols包含额外列时不一定等效

推荐答案

首先，(...).groupby(some_column).nunique()[column2extract]似乎是浪费资源.您将计算所有列的nunique，然后对感兴趣的列进行索引.

这应该是:

(...).groupby(some_column)[column2extract].nunique()

因此，如果cols是[column2extract, some_column]，df[cols].groupby(some_column).nunique()[column2extract]可能更好，但仍然是一个不必要的复杂语法.

df[cols].groupby(some_column).(...)的唯一优点是some_column是外部Series，而不是df一部分的列名.

因此，在我看来，最好的是:

df.groupby(some_column)[column2extract].nunique()

如果您想要系列作为输出，这也是一个选项:

df[column2extract].groupby(df[some_column]).nunique()

实用课程推荐