我正在try 从Slideshare演示文稿中提取第一个图像URL,这样我就可以遍历页码并抓取整个幻灯片放映.2048之前的-1是页码,因此我只需拆分字符串即可遍历页面.
事实证明,检索图像URL是有问题的.
以下是我的代码:
import requests
from bs4 import BeautifulSoup
a = requests.get("https://www.slideshare.net/JSYashas/netflix-73262280")
soup = BeautifulSoup(a.content, 'lxml')
soup2 = soup.find_all()
这是我试图提取的图像URL:
https://image.slidesharecdn.com/netflix-170317184749/75/netflix-1-2048.jpg?cb=1665800047个
(这些都是我从互联网上拉的例子,而不是我试图使用的实际文件.
我想不通的是,为了返回这个图像URL,要在find_all()中使用什么.
理想情况下,我想要的解决方案是查找"-1-2048.jpg"的第一个匹配项,然后使用它来提取完整的字符串,但我无法让它工作.
我喜欢这种方法,因为它对不同的文件路径和html struct 很健壮,我怀疑不同的文件路径和html struct 在幻灯片共享中并不是统一的.
如有任何帮助,我们不胜感激.