Python 找出一系列年份中最大的时间差

发布于10月24日

我有一个巨大的数据帧(大约1亿行)，其方式如下:

ID   Years
1    [1990,1991,1995,2000,2001,2006]
2    [1990,1990]
3    [1980,1981,1990,1995]

我希望它以以下数据帧的形式返回第一个出现的the largest gap between two consecutive years(您可以假设年份列表是按顺序排序的):

ID    largest_gap   from_year  to_year
1     5             1995       2000
2     0             1990       1990
3     9             1981       1990

有什么最有效的计算方法吗？

推荐答案

另一种可能的解决方案是基于numpy.roll:

def get_years(x):
    a = np.array(x)
    idx = (a - np.roll(a, 1))[1:].argmax()
    return a[[idx, idx+1]]

df[['from_year', 'to_year']] = pd.DataFrame(df['Years'].map(get_years).tolist())

输出:

   ID                                 Years  from_year  to_year
0   1  [1990, 1991, 1995, 2000, 2001, 2006]       1995     2000
1   2                          [1990, 1990]       1990     1990
2   3              [1980, 1981, 1990, 1995]       1981     1990