如何在 Python 中使用 for 循环将缺失值替换为 NA

发布于04月08日

我用python代码创建了一个包含两个特性的数据框:

data_df = {"Age" : [10, 20, 30, 40, 50, np.NaN, np.NaN, np.NaN, np.NaN],
           "Name" : ["A", "B", "C", "D", "E", "F", "G", "H", "I"]}
data_df = pd.DataFrame(data_df)
data_df.head(7)

	Age	Name
0	10.0	A
1	20.0	B
2	30.0	C
3	40.0	D
4	50.0	E
5	NaN	F
6	NaN	G

现在我想将所有的Name值替换为NA，其中age也是NA，所以我使用for循环，如下所示:

am_decision = []

for (x,y) in zip(data_df['Age'],data_df['Name']):
    if x == np.NaN:
        am_decision.append(np.NaN)
    else:
        am_decision.append(y)
print(len(am_decision))
print(am_decision)

输出==9

正如您所见，上面的for循环代码不起作用.我错过了什么吗？

推荐答案

对于测试缺失值，使用pandas.isna:

am_decision = []

for (x,y) in zip(data_df['Age'],data_df['Name']):
    if pd.isna(x):
        am_decision.append(np.NaN)
    else:
        am_decision.append(y)
print(len(am_decision))
print(am_decision) 
['A', 'B', 'C', 'D', 'E', nan, nan, nan, nan]

非循环解决方案更快更简单-使用Series.mask和Series.isna:

out = data_df['Name'].mask(data_df['Age'].isna())
print (out)
0      A
1      B
2      C
3      D
4      E
5    NaN
6    NaN
7    NaN
8    NaN
Name: Name, dtype: object

out = data_df['Name'].mask(data_df['Age'].isna()).tolist()
print (out)
['A', 'B', 'C', 'D', 'E', nan, nan, nan, nan]