我有Yelp数据集,我想统计所有超过三星的 comments .我通过这样做获得 comments 数:

reviews.groupby('business_id')['stars'].count()

现在我想得到超过3颗星的 comments 数,所以我从here条中获得灵感:

reviews.groupby('business_id')['stars'].agg({'greater':lambda val: (val > 3).count()})

但这只是给了我以前所有星星的计数.我不确定这样做是否正确?我在这里做错了什么.lambda表达式没有遍历stars列的每个值吗?

编辑:

reviews.groupby('business_id')['stars'].agg({'greater':lambda val: (val > 3).sum()})

推荐答案

你可以试着做:

reviews[reviews['stars'] > 3].groupby('business_id')['stars'].count()

Python-3.x相关问答推荐

我有个问题继承遗产合伙人

从.csv导入将文件夹路径加入到文件名

将列表项的极列水平分解为新列

十进制浮点数到整型的转换错误

文件名中的文件打开和撇号

无法使用Python发送带有参数和标头的POST请求

你能骗PIP 让它相信包已经安装了吗

有没有一种方法可以通过输入从 0 到 255 的 R、G 和 B 值来生成 RGB colored颜色 ,而无需使用 python 中的 matplotlib 模块?

有效地缩短列表,直到第一次和最后一次出现不同于 None 的值

使用正则表达式捕获组解析地址

使用 python-binance 时,heroku [regex._regex_core.error: bad escape \d at position 7] 出错

Django 2 个字段之一不能为空

在两个数据框之间查找相等的列

作为函数对象属性的 __kwdefaults__ 有什么用?

为 True 相交两个布尔数组

定义 True,如果没有定义,会导致语法错误

如何获得 BeautifulSoup 标签的所有直接子代?

使用 python 3.0 的 Numpy

如何在 Pandas 中的超 Big Data 框上创建数据透视表

有没有办法在多个线程中使用 asyncio.Queue ?