假设我有一个包含大约100,000行和50列的数据集. 我有关于卖家和他们产品的信息.数据集的部分将以某种方式如下所示:

seller_id product_id seller_is_checked size color
A100 UN76UH 1 uni size red
B200 HJHLI90 0 small blue
C300 UUKB89 0 large green
<...> <...> <...> <...> <...>
A100 BxYJHG NA medium purple
AXYZ215 HHIOTY 1 large unknown

在表格中,你可以看到至少有两个seller_id,因为这些卖家有几种产品.然而,这次在输入seller_is_checked次是否失踪的数据和信息时出现了错误.

在Python/Pandas中有没有一个函数可以帮助查看数据集,并用相同数据集中的实际值替换缺失的值?

推荐答案

一种可能的解决方案,其基于向下填充然后向上填充缺失值的思想,每个seller_id人组(pandas.DataFrame.ffillpandas.DataFrame.bfill人)中的有效观察值:

df.seller_is_checked = df.groupby('seller_id')['seller_is_checked'].ffill().bfill()
print(df)

输出:

  seller_id product_id  seller_is_checked      size    color
0      A100     UN76UH                1.0  uni size      red
1      B200    HJHLI90                0.0     small     blue
2      C300     UUKB89                0.0     large    green
3      A100     BxYJHG                1.0    medium   purple
4   AXYZ215     HHIOTY                1.0     large  unknown

Python相关问答推荐

当一个子指标符合条件时 Select 多指标

如何从. text中进行pip安装跳过无法访问的库

仅使用2种 colored颜色 创建热图

如何在Power Query中按名称和时间总和进行分组

是什么导致对Python脚本的jQuery Ajax调用引发500错误?

Python无法在已导入的目录中看到新模块

Pandas :多索引组

如何从具有多个嵌入选项卡的网页中Web抓取td类元素

使用mySQL的SQlalchemy过滤重叠时间段

将jit与numpy linSpace函数一起使用时出错

为什么带有dropna=False的groupby会阻止后续的MultiIndex.dropna()工作?

将图像拖到另一个图像

如何列举Pandigital Prime Set

如何在给定的条件下使numpy数组的计算速度最快?

有没有一种方法可以从python的pussompy比较结果中提取文本?

ThreadPoolExecutor和单个线程的超时

海上重叠直方图

使用Python从URL下载Excel文件

SQLAlchemy bindparam在mssql上失败(但在mysql上工作)

与命令行相比,相同的Python代码在Companyter Notebook中运行速度慢20倍