我试图使用Python抓取一个使用Angular构建的网站,但我遇到了检索动态生成的内容的问题.当我发出直接HTTP请求或查看页面源代码时,我只得到初始HTML,其中包含
<app-root>
<!-- empty app root -->
</app-root>
占位符.但是,当我在浏览器中判断呈现的页面时,我可以看到完整的内容. 以下是当我从浏览器中呈现的页面中 Select 判断页面时,判断页面返回的内容:
<app-root _nghost-ynj-c115 ng-version="14.3.0">
<!-- Rendered HTML content from browser inspection -->
...
</app-root>
我试过使用Selenium来等待内容呈现,但我不确定我是否使用了正确的 Select 器,或者是否有更好的方法.下面是我一直在使用的代码:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
service = Service(ChromeDriverManager().install())
options = webdriver.ChromeOptions()
options.headless = True
driver = webdriver.Chrome(service=service, options=options)
try:
driver.get("https://www.fedlex.admin.ch/de/cc/international-law/0.1")
WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.CSS_SELECTOR, "app-root ng-version"))
)
page_source = driver.page_source
finally:
driver.quit()
print(page_source)
这段代码似乎没有像预期的那样检索动态内容.如何以编程方式判断页面并检索Angular渲染的完整内容?是否有一种特定的方法可以使用Selenium与Angular应用程序交互,或者是否有其他的工具或方法我应该考虑执行此任务?