在一个私有项目(学习python脚本)中,我只需要检索废弃页面的rpm包.我发现所有包链接(.msi、.deb、.rpm)在‘a’balise中都有一个名为data-link的属性.
我还使用了自己的正则表达式(https://regexr.com/6rqd2)来匹配我需要的包.
根据文档,这种属性(data-*)似乎是非标准的 属性在HTML5中.
因此,我try 了attrs参数,并将其传递给findall(),但没有成功.
以下代码未成功
#!/usr/bin/env python3
import re
from bs4 import BeautifulSoup
url = "https://www.splunk.com/en_us/download/splunk-enterprise.html"
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
pattern = re.compile("(?<=data-link=\")[^ ]+rpm")
package = soup.find_all(attrs={"data-link": pattern})
print(package)
预先感谢您的帮助