如何使用panda在dictionary python中合并行

发布于10月18日

我有一个这样的数据帧

MV id   NAME   ADDRESS  DOC  DOCTYPE PHONE
1  100  Mark   Home     299  NI      {123,456}
2  100  John   Work     A123 Pass    {789,101}
3  100         Club

我想要做的是将具有相同id的列合并到字典中的一个单元格中，如下所示，并从另一列中创建字典中值的键

id   NAME              ADDRESS                          DOC                    PHONE
100  {1:Mark,2:John}   {1:'Home',2:'Work',3:'Club'}     {NI:'299',Pass:'A123'} {1:{123,456},2:{789,101}}

如您所见，我使用了2列作为键列mv，在(Name,Address,Phone)中用作键我在DOC中使用了列DOCTYPE作为关键字，我怎么才能做到这一点呢？我试过了

agg={'id':'first','NAME':dict,'ADDRESS':dict,'PHONE':dict}
    df_new=df.groupby(['CUSTOMER_CODE'],as_index=False).aggregate(agg)
    return df_new

但它给了我这个输出

id   Name             Address                 Phone
100  {0:Mark,1:John}  {0:Home,1:Work,2:Club}  {0:{123,456},1:{789,101}}

推荐答案

假设您的空单元格是NaN，您可以使用自定义的groupby.agg:

让我们首先看看如何使用单个引用进行聚合:

df.set_index('MV').groupby('id', as_index=False).agg(lambda s: s.dropna().to_dict())

输出:

    id                    NAME                            ADDRESS                    DOC               DOCTYPE                             PHONE
0  100  {1: 'Mark', 2: 'John'}  {1: 'Home', 2: 'Work', 3: 'Club'}  {1: '299', 2: 'A123'}  {1: 'NI', 2: 'Pass'}  {1: '{123,456}', 2: '{789,101}'}

generic answer for different references

现在，我们可以对其进行调整，以使用不同的引用列:

def f(s):
    return s.dropna().to_dict()

d = {'MV': ['NAME', 'ADDRESS', 'PHONE'],
     'DOCTYPE': ['DOC']
    }

out = (pd.concat([df.set_index(k).groupby('id')[v].agg(f)
                 for k, v in d.items()], axis=1)
         .reset_index()
      )

输出:

    id                    NAME                            ADDRESS                             PHONE                            DOC
0  100  {1: 'Mark', 2: 'John'}  {1: 'Home', 2: 'Work', 3: 'Club'}  {1: '{123,456}', 2: '{789,101}'}  {'NI': '299', 'Pass': 'A123'}