Python3.x BeautifulSoup 和 pd.read_html 如何将链接保存到最终数据框中的单独列中

发布于03月31日

我的问题与这个问题有些相似:How to save out in a new column the url which is reading pandas read_html() function?

我有一组包含表的链接(每个表4个，我只需要前三个).目标是将每个表的链接存储在单独的"地址"列中.

links = ['www.link1.com', 'www.link2.com', ... , 'www.linkx.com']
details = []

for link in tqdm(links):
    page = requests.get(link)
    sauce = BeautifulSoup(page.content, 'lxml')
    table = sauce.find_all('table')

    # Only first 3 tables include data
    for i in range(3):
        details.append(pd.read_html(str(table))[i])
        final_df = pd.concat(details, ignore_index=True)
        final_df['address'] = link
    time.sleep(2)

然而，当我使用这个代码时，只有最后一个链接被分配给"地址"列中的每一行.

我可能错过了一个细节，但在过go 的两个小时里，我一直在想这个问题，根本无法取得任何进展——非常感谢您的帮助.

import pandas as pd links = ['www.link1.com', 'www.link2.com','www.linkx.com'] details = [] for link in links: # page = requests.get(link) # sauce = BeautifulSoup(page.content, 'lxml') # table = sauce.find_all('table') table = ['<table><tr><td>table 1</td></tr></table>', '<table><tr><td>table 2</td></tr></table>', '<table><tr><td>table 3</td></tr></table>'] # Only first 3 tables include data for i in table[:3]: df = pd.read_html(str(i))[0] df['address'] = link details.append(df) final_df = pd.concat(details, ignore_index=True)

0	address
table 1	www.link1.com
table 2	www.link1.com
table 3	www.link1.com
table 1	www.link2.com
table 2	www.link2.com
table 3	www.link2.com
table 1	www.linkx.com
table 2	www.linkx.com
table 3	www.linkx.com

address

table 1

table 2

table 3

table 1

table 2

table 3