我有一个充满医疗保险受益人的数据集.问题是:"在自变量阿尔茨海默病、关节炎、癌症、copd、抑郁症、糖尿病、心脏病中,至少有一种慢性病的患者比例是多少?".失败、ihd、肾脏、骨质疏松和中风?"

我try 创建一个子集并使用isnull()&any(),但我找不到合适的解决方案..还try 了df.但它只允许我命名一列..

为了更好地理解,我附上了数据集!

https://drive.google.com/file/d/1R--YEsBCDHMXjqNzAumT2zzUAYvM1bWA/view?usp=sharing

谢谢

我的try :

claimss.loc[:, ["alzheimers","diabetes","arthritis"] == 1]

(想先用3列试试,一开始就不行.)

try 使用子集:

filtered_df = df.loc[raw_df] == 1]

(创建了一个子集,其中仅显示索引和独立变量(疾病),并try 查找空行)

推荐答案

如果只需要筛选某些列名称,则使用子集作为筛选列名称,按1×DataFrame.eq进行比较,最后测试至少一个True×DataFrame.any:

claimss[claimss[["alzheimers","diabetes","arthritis"]].eq(1).any(axis=1)]

如果需要百分比,请使用mean和布尔掩码:

out = claimss[["alzheimers","diabetes","arthritis"]].eq(1).any(axis=1).mean()

Python相关问答推荐

'discord.ext. commanders.cog没有属性监听器'

如何将双框框列中的成对变成两个新列

Excel图表-使用openpyxl更改水平轴与Y轴相交的位置(Python)

在Pandas DataFrame操作中用链接替换'方法的更有效方法

如何在python polars中停止otherate(),当使用when()表达式时?

pyscript中的压痕问题

如何将一个动态分配的C数组转换为Numpy数组,并在C扩展模块中返回给Python

如何将多进程池声明为变量并将其导入到另一个Python文件

当我try 在django中更新模型时,模型表单数据不可见

在www.example.com中使用`package_data`包含不包含__init__. py的非Python文件

需要帮助重新调整python fill_between与数据点

如何在TensorFlow中分类多个类

try 检索blob名称列表时出现错误填充错误""

具有相同图例 colored颜色 和标签的堆叠子图

判断Python操作:如何从字面上得到所有decorator ?

如何强制向量中的特定元素在Gekko中处于优化解决方案中

numpy数组和数组标量之间的不同行为

每次查询的流通股数量

替换包含Python DataFrame中的值的<;

Numpy`astype(Int)`给出`np.int64`而不是`int`-怎么办?