我的问题与这个问题有些相似:How to save out in a new column the url which is reading pandas read_html() function?
我有一组包含表的链接(每个表4个,我只需要前三个).目标是将每个表的链接存储在单独的"地址"列中.
links = ['www.link1.com', 'www.link2.com', ... , 'www.linkx.com']
details = []
for link in tqdm(links):
page = requests.get(link)
sauce = BeautifulSoup(page.content, 'lxml')
table = sauce.find_all('table')
# Only first 3 tables include data
for i in range(3):
details.append(pd.read_html(str(table))[i])
final_df = pd.concat(details, ignore_index=True)
final_df['address'] = link
time.sleep(2)
然而,当我使用这个代码时,只有最后一个链接被分配给"地址"列中的每一行.
我可能错过了一个细节,但在过go 的两个小时里,我一直在想这个问题,根本无法取得任何进展——非常感谢您的帮助.