Python pandas 函数来判断是否存在相同 id 的非 NA 值

发布于08月16日

假设我有一个包含大约100,000行和50列的数据集. 我有关于卖家和他们产品的信息.数据集的部分将以某种方式如下所示:

seller_id	product_id	seller_is_checked	size	color
A100	UN76UH	1	uni size	red
B200	HJHLI90	0	small	blue
C300	UUKB89	0	large	green
<...>	<...>	<...>	<...>	<...>
A100	BxYJHG	NA	medium	purple
AXYZ215	HHIOTY	1	large	unknown

在表格中，你可以看到至少有两个seller_id，因为这些卖家有几种产品.然而，这次在输入seller_is_checked次是否失踪的数据和信息时出现了错误.

在Python/Pandas中有没有一个函数可以帮助查看数据集，并用相同数据集中的实际值替换缺失的值？

推荐答案

一种可能的解决方案，其基于向下填充然后向上填充缺失值的思想，每个seller_id人组(pandas.DataFrame.ffill和pandas.DataFrame.bfill人)中的有效观察值:

df.seller_is_checked = df.groupby('seller_id')['seller_is_checked'].ffill().bfill()
print(df)

输出:

  seller_id product_id  seller_is_checked      size    color
0      A100     UN76UH                1.0  uni size      red
1      B200    HJHLI90                0.0     small     blue
2      C300     UUKB89                0.0     large    green
3      A100     BxYJHG                1.0    medium   purple
4   AXYZ215     HHIOTY                1.0     large  unknown