几天来,我一直在努力搜索这个网站:https://www.spiegel.de/suche/?suchbegriff=letzte%2Bgeneration&erschienenBei=der-spiegel
我一直在try 使用Requests和BeautifulSoup来清理这个网站.我的最终目标是获得所有包含关键字"Letzte一代人"或"Klimaaktivisten"的链接.目前,我一直在使用以下代码来获取HTML.
import requests
from bs4 import BeautifulSoup
import os
import pandas as pd
os.chdir(Path is here)
spiegel_lg_suche = "https://www.spiegel.de/suche/?suchbegriff=letzte%2Bgeneration&seite={}&erschienenBei=der-spiegel"
# Leere Liste "linkliste_spiegel" erstellen
linkliste_spiegel_suche = []
# Schleife über die Seitenzahl von 1-11
for seitenzahl in range (1, 11):
# Einsetzer der Zahl in das base_url-Format
url = spiegel_lg_suche.format(seitenzahl)
# Inhalte werden in BeautifulSoup geladen
page = requests.get(url).content
soup = BeautifulSoup(page, 'html.parser')
(...)
在这段摘录之后,有一些代码用于迭代不同的HTML标记(过go 在使用"Letzte生成"标记时有效),以及将所有值保存为DataFrame和CSV.
虽然代码在搜索"Letzte生成"标签时可以正常工作,但它不适用于搜索页面.我的讲师查看了代码,并向我展示了BeautifulSoup显示的页面没有搜索查询.然而,他却帮不了我.我仍然想解决这个问题,只是为了它.
使用selenium可以帮助解决这个问题吗?