我正在寻找一个解决方案,使用regex in BeautifulSoup来查找可能包含文本HO #的元素,其中包含可能的空格,并忽略大小写敏感性.

check_ho_number3 = soup.select_one('td:-soup-contains("HO #")+ td')
print(check_ho_number3)

如何将现有的正则表达式集成到soup.select_one()中?

check_regex = re.compile("HO\s?#",re.IGNORECASE)

推荐答案

CSS SELECTORS只支持CSS syntax,但您可以使用string属性按标签内容进行搜索:

soup.find(string=re.compile(r"HO\s?#",re.IGNORECASE))
soup.find_all(string=re.compile(r"HO\s?#",re.IGNORECASE))

findNextSibling('td')步回到parent你所定位的物体.

Example
from bs4 import BeautifulSoup
import re

soup = BeautifulSoup('<table><tr><td>HO #</td><td>I am the next sibling</td></tr><tr><td>HO #</td></tr><tr><td>ho#</td><td>I am the next sibling</td></tr></table>')

for e in soup.find_all(string=re.compile(r"HO\s?#",re.IGNORECASE)):
    print(e)
    print(e.parent.findNextSibling('td'))

HO #
<td>I am the next sibling</td>
HO #
None
ho#
<td>I am the next sibling</td>

Python相关问答推荐

我从带有langchain的mongoDB中的vector serch获得一个空数组

max_of_three使用First_select、second_select、

如何将双框框列中的成对变成两个新列

删除所有列值,但判断是否存在任何二元组

将两只Pandas rame乘以指数

运行终端命令时出现问题:pip start anonymous"

图像 pyramid .难以创建所需的合成图像

递归访问嵌套字典中的元素值

根据列值添加时区

将pandas导出到CSV数据,但在此之前,将日期按最小到最大排序

如何使regex代码只适用于空的目标单元格

在极中解析带有数字和SI前缀的字符串

Odoo16:模板中使用的docs变量在哪里定义?

在用于Python的Bokeh包中设置按钮的样式

统计numpy. ndarray中的项目列表出现次数的最快方法

获取git修订版中每个文件的最后修改时间的最有效方法是什么?

TypeError:';Locator';对象无法在PlayWriter中使用.first()调用

我如何处理超类和子类的情况

是否需要依赖反转来确保呼叫方和被呼叫方之间的分离?

Sknowled线性回归()不需要迭代和学习率作为参数