我想从一个网站上提取包含两个特殊的波斯语单词"توافق"或"توافقی"的广告.我正在用BeautifulSoup和拆分汤中的内容来寻找有我特殊词汇的广告,但我的代码不起作用,你能帮帮我吗? 以下是我的简单代码:

import requests
from bs4 import BeautifulSoup

r = requests.get("https://divar.ir/s/tehran")
soup = BeautifulSoup(r.text, "html.parser")
results = soup.find_all("div", attrs={"class": "kt-post-card__body"})
for content in results:
    words = content.split()
    if words == "توافقی" or words == "توافق":
        print(content)

推荐答案

因为توافقی出现在带有kt-post-card__description个类div标记中,所以我将使用这个.然后,您可以通过使用标记的属性(如.previous_sibling.parent或其他任何属性)来获得添加.

import requests
from bs4 import BeautifulSoup

r = requests.get("https://divar.ir/s/tehran")
soup = BeautifulSoup(r.text, "html.parser")
results = soup.find_all("div", attrs={"class": "kt-post-card__description"})
for content in results:
    text = content.text
    if "توافقی" in text or "توافق" in text:
        print(content.previous_sibling)   # It's the h2 title.

Python相关问答推荐

Python在tuple上操作不会通过整个单词匹配

如何访问所有文件,例如环境变量

无法通过python-jira访问jira工作日志(log)中的 comments

如何使用数组的最小条目拆分数组

通过pandas向每个非空单元格添加子字符串

Python解析整数格式说明符的规则?

如何在Polars中从列表中的所有 struct 中 Select 字段?

创建可序列化数据模型的最佳方法

使用Python查找、替换和调整PDF中的图像'

在极中解析带有数字和SI前缀的字符串

Gekko中基于时间的间隔约束

为什么Python内存中的列表大小与文档不匹配?

Polars Group by描述扩展

如何将相同组的值添加到嵌套的Pandas Maprame的倒数第二个索引级别

如何获取包含`try`外部堆栈的`__traceback__`属性的异常

Python日志(log)库如何有效地获取lineno和funcName?

从列表中分离数据的最佳方式

递归链表反转与打印语句挂起

根据边界点的属性将图划分为子图

搜索结果未显示.我的URL选项卡显示:http://127.0.0.1:8000/search?";,而不是这个:";http://127.0.0.1:8000/search?q=name";