Python 如何通过每列中元素的交集来合并两列

发布于01月31日

假设我有这样一个数据帧: 在单个字符串中包含元素列表.

data = {'Col1': ["apple, banana, orange", "dog, cat", "python, java, c++"],
        'Col2': ["banana, lemon, blueberry", "bird, cat", "R, fortran"]
       }
df = pd.DataFrame(data)
df

如何使用Col1和Col2中的元素的交集创建Col3

预期输出:

data = {'Col1': ["apple, banana, orange", "dog, cat", "python, java, c++"],
        'Col2': ["banana, lemon, blueberry", "bird, cat", "R, fortran"],
        'Col3': ["banana", "cat", NA]
       }
df = pd.DataFrame(data)
df

推荐答案

使用列表解析和set交集:

df['Col3'] = [', '.join(set(a.split(', ')) & set(b.split(', ')))
              for a,b in zip(df['Col1'], df['Col2'])]

输出:

                    Col1                      Col2    Col3
0  apple, banana, orange  banana, lemon, blueberry  banana
1               dog, cat                 bird, cat     cat
2      python, java, c++                R, fortran

如果您希望在空交叉点上使用NA:

df['Col3'] = [x if (x:=', '.join(set(a.split(', ')) & set(b.split(', '))))
              else pd.NA
              for a,b in zip(df['Col1'], df['Col2'])]

输出:

                    Col1                      Col2    Col3
0  apple, banana, orange  banana, lemon, blueberry  banana
1               dog, cat                 bird, cat     cat
2      python, java, c++                R, fortran    <NA>