Python 滚动加权平均(或类似)填充失踪大Pandas

发布于02月23日

我有一个pandas数组，它的值是"along path"，有距离，但是有些值丢失了. Dataframe看起来像这样:

    Idx AccumDist   ValT
0   1   3059    112
1   2   4281    194
2   3   4947    NaN
3   4   5460    NaN
4   5   5811    543
5   6   6021    591
6   7   6289    NaN
7   8   7487    909
8   9   8031    954
9   10  8242    1069

AccumDist和ValT是累积的数据，ValT中的一些是"缺失"的. 我想做的是将第ValT列中的NaN替换为该列中最接近的"已知"数据的平均值，并以AccumDist的差异加权.

因为可能一个接一个地缺少ValT个值(可能大于1)，所以我不能使用滚动加权平均值(或者我不知道如何使用它)，而我仍然希望只对"最接近的已知"值进行平均.

我在考虑使用df.shift()，也许在一些嵌套框架子集上，但我真的不知道如何做到这一点.感谢任何帮助或建议.

推荐答案

根据累积距离使用interpolate.将其设置为索引并使用method='index'.然后使用类似大小的NumPy数组将此计算分配回DataFrame.

df['ValT_filled'] = df.set_index('AccumDist')['ValT'].interpolate(method='index').to_numpy()

#   Idx  AccumDist    ValT  ValT_filled
#0    1       3059   112.0   112.000000
#1    2       4281   194.0   194.000000
#2    3       4947     NaN   345.917647
#3    4       5460     NaN   462.935294
#4    5       5811   543.0   543.000000
#5    6       6021   591.0   591.000000
#6    7       6289     NaN   649.133697
#7    8       7487   909.0   909.000000
#8    9       8031   954.0   954.000000
#9   10       8242  1069.0  1069.000000