我目前正在做一个Web抓取项目,在从https://foundersfund.com/portfolio抓取数据时遇到了一个问题.我成功地检索了每个公司页面的所有链接.然而,在测试其中一些链接时,我注意到输出的HTML与inspect元素工具中显示的不同.因此,我无法检索到任何信息.
import requests
from bs4 import BeautifulSoup
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
}
response = requests.get("https://foundersfund.com/company/figma/", headers=headers)
soup = BeautifulSoup(response.content, "lxml")
soup
输出返回如下:
我希望检索到有关Figma的信息,但相反,我获得了有关SpaceX的信息.有趣的是,当我试图查看其他公司的页面时,例如https://foundersfund.com/company/spotify/或https://foundersfund.com/company/airbnb/,我遇到了同样的问题,SpaceX出现了.我已经对这个问题进行了几天的故障排除,怀疑页面本身可能有问题.似乎当我加载公司的页面时,它会在显示所请求的公司页面之前短暂地显示SpaceX页面.
有人能解释一下这里可能发生的事情吗?