我使用BeautifulSoup从一个用Python语言编写的HTML struct 中提取图像URL.该HTML struct 包含几个具有src
属性的<img>
个标记.我已经实现了_get_images
函数,它使用BeautifulSoup的find_all("img")
方法来检索图像URL.然而,我面临着一个问题,一些图像URL返回为None
,即使在HTML中存在src
属性.
以下是我的_get_images
个函数:
def _get_images(self, soup):
article_images = []
images = soup.find_all("img")
for img in images:
src = img.get('src')
article_images.append(src)
return article_images
我得到的输出显示,有些URL是None
,而其他URL是正确检索的.我判断了HTML struct ,<img>
个标记确实包含src
属性.这个问题可能是什么原因造成的,我如何解决它才能正确获取所有图像URL?
这个问题可能是什么原因造成的,我如何解决它才能正确获取所有的图像URL和标题?我的目标是有一个URL列表,其中每个URL包含图像的src
个,并确保列表中没有None values
.