我想从这个页面刮出网球数据:https://www.tennisabstract.com/cgi-bin/leaders.cgi 一个任务
我需要在Python Notebook中使用Python库.
当我试图抓取这个.cgi页面时,我无法从表中获取任何数据.有没有一种方法可以抓取一个.cgi页面?
我try 的代码是:
url = "https://www.tennisabstract.com/cgi-bin/leaders.cgi"
response = requests.get(url, headers={"User-Agent": "XY"})
#response
page = response.content
scraping = BeautifulSoup(page, "lxml")
pd.set_option('display.max_rows', None)
table = BeautifulSoup(response.content, "lxml")
table = table.find_all("table")
df = pd.read_html(str(table))
df = df[1]
df
我得到的结果是(当我使用df[0]
时会改变,并在df[2]
时失败,这适用于网站中HTML页面上的其他表:
0 | 1 | |
---|---|---|
0 |   | Stats: Serve | Return | Breaks | More |
1 | nan | nan |
2 | nan | nan |