Python 如何使用包含两列的一个条件执行 loc

发布于03月21日

大家好，我需要你们的帮助.

我有两列A和B的df，它们都是带string values的列

例子:

df_1 = pd.DataFrame(data={
    "A":['a','b','c'],
    "B":['a x d','z y w','q m c'] #string values not a list
})
print(df_1)

#output
   A      B
0  a  a x d
1  b  z y w
2  c  q m c

现在我要做的是在df_1中预先设置loc，以获得所有列B包含列A中字符串值的行.

在这个例子中，我想要的输出是第一行和第三行

   A      B
0  a  a x d # 'a x d' contain value 'a'
2  c  q m c # 'q m c' contain value 'c'

我try 了不同的loc条件，但得到了不可 destruct 的类型:"Series"错误:

df_1.loc[df_1["B"].str.contains(df_1["A"])] #TypeError: unhashable type: 'Series'
df_1.loc[df_1["A"] in df_1["B"]] #TypeError: unhashable type: 'Series'

由于df的大小，我真的不想使用for/while循环.

你知道我该怎么做吗？

推荐答案

没有矢量方法，使用两列映射in.你需要在这里循环:

mask = [a in b for a,b in zip(df_1['A'], df_1['B'])]

df_1.loc[mask]

输出:

   A      B
0  a  a x d
2  c  q m c

comparison of speed (3000 rows)

# operator.contains
518 µs ± 4.61 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# list comprehension
554 µs ± 3.84 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

# numpy.apply_along_axis
7.32 ms ± 58.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

# apply
20.7 ms ± 379 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)