Python 基于另一列创建 DataFrame 列(更快的解决方案)

发布于07月01日

我有一个DataFrame，有1mln行和两列Type和Name，它们的值是一个具有非唯一值的列表.Type和Name列具有相同数量的元素，因为它们形成一对(TypeName).我想添加到我的DataFrame列中，这些列的名称是来自Type列的唯一类型，值是来自Name列的相应值的列表.下面是当前代码的一个简短示例.当行数为1mln时，它工作得很慢，所以我正在寻找一个更快的解决方案.

import pandas as pd
df = pd.DataFrame({"Type": [["1", "1", "2", "3"], ["2","3"]], "Name": [["A", "B", "C", "D"], ["E", "F"]]})

unique = list(set(df["Type"].explode()))
for t in unique:
    df[t] = None
    df[t] = df[t].astype('object')

for idx, row in df.iterrows():
    for t in unique:
        df.at[idx, t] = [row["Name"][i] for i in range(len(row["Name"])) if row["Type"][i] == t]

My desired result is:

推荐答案

您可以分解整个数据帧，然后使用分解后的数据帧并以list作为aggfunc对其进行透视(重置索引以使用索引作为透视的分组)

df.explode(column=['Type','Name']).reset_index().pivot_table(index='index',columns='Type', values='Name',aggfunc=list)

Type    1       2   3
index           
0       [A, B]  [C] [D]
1       NaN     [E] [F]

然后把它粘回到原稿上

pd.concat([df,df.explode(column=['Type','Name']).reset_index().pivot_table(index='index',columns='Type', values='Name',aggfunc=list)],axis=1)

    Type            Name            1       2   3
0   [1, 1, 2, 3]    [A, B, C, D]    [A, B]  [C] [D]
1   [2, 3]          [E, F]          NaN     [E] [F]

根据要求，以下是为调试目的而分步编写的代码

df1=df.explode(column=['Type','Name'])
df1=df1.reset_index()
pvt=df1.pivot_table(index='index',columns='Type', values='Name',aggfunc=list)
pd.concat([df,pvt],axis=1)