我的数据框有点问题.我有下面的DF.我正在try 按分组,一行用"-"分隔,另一行只是简单地\n.我的问题是,我需要在一行中有一定数量的数字(最少4个).

   a      b  c
0  a  Num_1  0
1  a  Num_1  1
2  a  Num_1  2
3  a  Num_2  5
4  a  Num_2  6
5  a  Num_2  7
6  a  Num_2  8
7  a  Num_2  9

我编写了以下代码:

def split_by_threshold(li):
    inds = [0]+[ind for ind,(i,j) in enumerate(zip(li,li[1:]),1) if j-i != 1]+[len(li)+1]
    rez = [li[i:j] for i,j in zip(inds,inds[1:])]
    return rez

def dropst(serie):
    serie = serie.to_numpy().tolist()
    serie = list(dict.fromkeys(serie))
    return '\n'.join(serie)

def joining_(series):
    series = series.to_numpy().tolist()
    if series:
        split_li = split_by_threshold(series)
        a=[]
        for x in split_li:
            if x[-1]-x[0]:
                a.append(str(x[0])+'-'+str(x[-1]))
        return '\n'.join(a)
    else:
        return 'None'

col_1, col_2, col_3 = d.columns
final = d.groupby([col_1], as_index = False).agg(
    {   col_1: 'first',
        col_2: dropst,
        col_3: joining_}
)

print(final)

我得到的答案是:

   a             b         c
0  a  Num_1\nNum_2  0-2\n5-9

我需要:

   a   b      c
0  a   Num_2  5-9

推荐答案

IIUC,你可以用groupby个a,b,最终一个新的组来识别连续的值.然后使用自定义函数:

def join(s, thresh=4):
    MIN = s.min()
    MAX = s.max()
    return f'{MIN}-{MAX}' if MAX-MIN >= thresh else float('nan')

consecutive = df['c'].diff().ne(1).cumsum()
# could also be
# df.groupby(['a','b'])['c'].diff().ne(1).cumsum()
# but not required as we anyway group by those later

(df
 .groupby(['a', 'b', consecutive], as_index=False)
 ['c']
 .agg(join, thresh=4)
 .dropna(subset='c')
 )

输出:

   a      b    c
2  a  Num_2  5-9

Python相关问答推荐

如何修复fpdf中的线路出血

如何将uint 16表示为float 16

FastAPI:使用APIRouter路由子模块功能

当测试字符串100%包含查询字符串时,为什么t fuzzywuzzy s Process.extractBests不给出100%分数?

PyQt5如何将pyuic 5生成的Python类添加到QStackedWidget中?

如何使用bs 4从元素中提取文本

NumPy中的右矩阵划分,还有比NP.linalg.inv()更好的方法吗?

由于瓶颈,Python代码执行太慢-寻求性能优化

使文本输入中的文本与标签中的文本相同

Polars:使用列值引用when / then表达中的其他列

为什么带有dropna=False的groupby会阻止后续的MultiIndex.dropna()工作?

在Python Attrs包中,如何在field_Transformer函数中添加字段?

切片包括面具的第一个实例在内的眼镜的最佳方法是什么?

梯度下降:简化要素集的运行时间比原始要素集长

如何使用scipy的curve_fit与约束,其中拟合的曲线总是在观测值之下?

为一个组的每个子组绘制,

字符串合并语法在哪里记录

用渐近模计算含符号的矩阵乘法

AES—256—CBC加密在Python和PHP中返回不同的结果,HELPPP

在Python中计算连续天数