我正在抓取一个使用数据属性的网站,将数据的名称与值本身一起放在值中.

<div data-title="Subscribers: 4,471"></div>

我想知道如何根据div应该包含"订阅者"的部分值来获取这div,如下所示(*表示要查找的模式):

test = soup.find_all("div", {"data-title": "Subscribers"*})

推荐答案

您可以使用css selectors并判断属性值:

starts,配上你的图案

soup.select('[data-title^="Subscribers"]')

ends,配上你的图案

soup.select('[data-title$="Subscribers"]')

contains个你喜欢的图案

soup.select('[data-title*="Subscribers"]')

Example

from bs4 import BeautifulSoup

html = '''
<div data-title="Subscribers: 4,471"></div>
<div data-title="Views: 1,000"></div>
'''
soup = BeautifulSoup(html)

soup.select('[data-title^="Subscribers"]')

Python相关问答推荐

从webhook中的短代码(而不是电话号码)接收Twilio消息

由于NEP 50,向uint 8添加-256的代码是否会在numpy 2中失败?

Python 约束无法解决n皇后之谜

如何标记Spacy中不包含特定符号的单词?

为什么sys.exit()不能与subproccess.run()或subprocess.call()一起使用

Pandas—合并数据帧,在公共列上保留非空值,在另一列上保留平均值

从spaCy的句子中提取日期

Pandas DataFrame中行之间的差异

将JSON对象转换为Dataframe

isinstance()在使用dill.dump和dill.load后,对列表中包含的对象失败

什么是合并两个embrame的最佳方法,其中一个有日期范围,另一个有日期没有任何共享列?

在Python中控制列表中的数据步长

根据Pandas中带条件的两个列的值创建新列

如何在一组行中找到循环?

使用Python TCP套接字发送整数并使用C#接收—接收正确数据时出错

如何使用Azure Function将xlsb转换为xlsx?

使用SQLAlchemy从多线程Python应用程序在postgr中插入多行的最佳方法是什么?'

如何获得满足掩码条件的第一行的索引?

是否将Pandas 数据帧标题/标题以纯文本格式转换为字符串输出?

将标签与山脊线图对齐