Python Pandas：在给定非均匀空间索引列表的情况下对数据帧重新采样

发布于12月05日

给定一个数据帧df: pd.Dataframe和来自df.index的索引子集selected_indexes，我如何使用应用于每个间隔selected_indexes[i], selected_indexes[i+1]的max操作符对df进行重采样？

例如，给定一个数据帧:

和 Select 索引"SELECTED_INDEX=[0，5，6，9]"，并在每个间隔之间的col列上应用最大值(假设我们保留终点而不包括起点)，我们应该得到:

例如，第9行由第7, 8, 9 \in (6, 9]行中的max(5, 2, 4)行组成.

推荐答案

new interpretation

selected_indexes = [0, 5, 6, 9]
group = (df.index.to_series().shift() # make groups
           .isin(selected_indexes)    # based on
           .cumsum()                  # previous indices
        )

# get max per group
out = df.groupby(group).max().set_axis(selected_indexes)

# or for many aggregations (see comments):
out = (df.groupby(group).agg({'col1': 'max', 'col2': 'min'})
         .set_axis(selected_indexes)
       )

输出:

previous interpretation of the question

你可能需要rolling.max分，而不是重新抽样:

out = df.loc[selected_indexes].rolling(3, center=True).max()

或者，如果您希望将±1应用于数据before选项:

out = df.rolling(3, center=True).max().loc[selected_indexes]

示例:

np.random.seed(0)
df = pd.DataFrame({'col': np.random.randint(0, 10, 10)})
selected_indexes = [1, 2, 3, 5, 6, 8, 9]

print(df)

   col
0    5
1    0
2    3
3    3
4    7
5    9
6    3
7    5
8    2
9    4


out = df.loc[selected_indexes].rolling(3, center=True).max()
print(out)

   col
1  NaN
2  3.0
3  9.0
5  9.0
6  9.0
8  4.0
9  NaN

out2 = df.rolling(3, center=True).max().loc[selected_indexes]
print(out2)

   col
1  5.0
2  3.0
3  7.0
5  9.0
6  9.0
8  5.0
9  NaN