dplyr 通过多个函数汇总聚合的 pandas 类似功能是什么

发布于08月14日

我在从R向pandas过渡时遇到了一些问题，在R中，dplyr package可以轻松分组并执行多个摘要.

请帮助改进我现有的多聚合Python代码:

import pandas as pd
data = pd.DataFrame(
    {'col1':[1,1,1,1,1,2,2,2,2,2],
    'col2':[1,2,3,4,5,6,7,8,9,0],
     'col3':[-1,-2,-3,-4,-5,-6,-7,-8,-9,0]
    }
)
result = []
for k,v in data.groupby('col1'):
    result.append([k, max(v['col2']), min(v['col3'])])
print pd.DataFrame(result, columns=['col1', 'col2_agg', 'col3_agg'])

问题:

太冗长了
可能是可以优化和高效的.(我将for-loop groupby实现改写为groupby.agg，性能得到了巨大的提高).

在R中，等效代码为:

data %>% groupby(col1) %>% summarize(col2_agg=max(col2), col3_agg=min(col3))

更新:@ayhan解决了我的问题，以下是我将在这里发布的后续问题，而不是作为 comments :

问题2)如果函数是2+列的复合函数，那么groupby().summarize(newcolumn=max(col2 * col3))(即聚合/汇总)的类似功能是什么？

col2 col3 max min std size std mean max col1 1 5 1 1.581139 5 1.581139 -3 -1 2 9 0 3.535534 5 3.535534 -6 0

agg_df['col2'] # select the second column max min std col1 1 5 1 1.581139 2 9 0 3.535534 agg_df[('col2', 'max')] # select the maximum of the second column Out: col1 1 5 2 9 Name: (col2, max), dtype: int64 agg_df.xs('max', ax是=1, level=1) # select the maximum of all columns Out: col2 col3 col1 1 5 -1 2 9 0

agg_df.columns = ['_'.join(col) for col in agg_df.columns] col2_max col2_min col2_std col3_size col3_std col3_mean col3_max col1 1 5 1 1.581139 5 1.581139 -3 -1 2 9 0 3.535534 5 3.535534 -6 0

dplyr 通过多个函数汇总聚合的 pandas 类似功能是什么

推荐答案

R相关问答推荐

如何删除字符串中重复的字符序列？

使用long()在dØr中过滤后获取元素数量

按自定义数字模式对变量名称排序

使用Shiny组合和显示复制和粘贴的数据

如何创建构成多个独立列条目列表的收件箱框列？

变量计算按R中的行更改

具有多个依赖变量/LHS的逻辑模型

向gggplot 2中的数据和轴标签添加大写和星号

名称输出pmap on tible

在特定Quarto(reveal.js)幻灯片上隐藏徽标

如何在格子中添加双曲曲线

当我们有多个特殊字符时，使用gsub删除名称和代码'

用关联字符串替换列名的元素

您是否可以使用facet_rap设置一个较低的限制来对ggmap上的比例中断进行zoom ？

将多个列值转换为二进制

从多个可选列中选取一个值到一个新列中

如果COLSUM为>；0，则COLNAME为向量

对R中的列表列执行ROW Mean操作

如何在AER：：ivreg中指定仪器？

抽样变换-REXP与RWEIBUR