Python 通过Selenium从页面获取所有H2元素

发布于04月17日

遵循我之前的two questions:Selenium是否有像BeautifulSoup的Find All这样的东西？

我需要在类似this one的页面中获取H2标签的所有内容.

JeffC在前面的问题中带来的伟大代码 for each 页面获取一个特定标签的内容.但在这里，我的每个页面有多达20个类似的标签.

此外，我需要获取H2和Href的文本.

当前状态:

driver = webdriver.Chrome(options=options)
driver.maximize_window()
wait = WebDriverWait(driver, 10)

url = 'http://www.biblioteca.presidencia.gov.br/presidencia/ex-presidentes/jose-sarney/discursos/1985?b_start:int=0'
driver.get(url)
h2 = wait.until(EC.visibility_of_element_located((By.CLASS_NAME, "tileHeadline"))).text
print(h2)

到目前为止，该代码仅带来每个页面中的第一个元素.我应该更改EC元素中的规范吗？

推荐答案

我知道您已经接受了一个答案，但它实际上并没有解释问题是什么.主要问题是

single_element = wait.until(EC.visibility_of_element_located())
                                                   ^ singular element

返回单个元素.它有一个复数版本，返回一组元素，

element_collection = wait.until(EC.visibility_of_all_elements_located())
                                                            ^ plural elementS

使用此信息，我们可以更新您当前的代码，

driver = webdriver.Chrome(options=options)
driver.maximize_window()
wait = WebDriverWait(driver, 10)

url = 'http://www.biblioteca.presidencia.gov.br/presidencia/ex-presidentes/jose-sarney/discursos/1985?b_start:int=0'
driver.get(url)
links = wait.until(EC.visibility_of_all_elements_located((By.CSS_SELECTOR, "h2 a")))
for link in links:
    print(link.text)
    print(link.get_attribute("href"))

其输出

15 de março de 1985 - Pronunciamento do Presidente José Sarney, no exercício da Presidência da República, ao empossar o ministério
http://www.biblioteca.presidencia.gov.br/presidencia/ex-presidentes/jose-sarney/discursos/1985/01.pdf/view
17 de março de 1985 - Pronunciamento da Presidente José Sarney, no exercício da Presidência da república, por ocasião da abertura da primeira reunião do ministério da nova República
http://www.biblioteca.presidencia.gov.br/presidencia/ex-presidentes/jose-sarney/discursos/1985/02.pdf/view
...

另外，请不要使用定位器，例如