Python Scrape只返回表头，这是网站的错吗

发布于09月14日

我正在try 从这个URL中获取数据:https://www2.bmf.com.br/pages/portal/bmfbovespa/lumis/lum-taxas-referenciais-bmf-ptBR.asp

但是，代码的输出只是表头.我找不到另一个URL来放入，当我搜索站点内的表数时，它只返回一个(标题).这是网站的问题，还是我需要做点什么才能拿到位子？

我试着搜索其他URL来填充搜索，但我没有找到任何URL.


import pandas as pd

url = 'https://www2.bmf.com.br/pages/portal/bmfbovespa/lumis/lum-taxas-referenciais-bmf-ptBR.asp'

pd.read_html(url, decimal=',', thousands='.')[0]

推荐答案

页面的Html代码格式确实有误，建议使用beautifulsoup+html5lib解析器获取表格数据:

from io import StringIO

import requests
import pandas as pd
from bs4 import BeautifulSoup

url = "https://www2.bmf.com.br/pages/portal/bmfbovespa/lumis/lum-taxas-referenciais-bmf-ptBR.asp"
table = BeautifulSoup(requests.get(url).content, "html5lib").table

df = pd.read_html(StringIO(str(table)), decimal=",", thousands=".")[0]
print(df.head())

打印:

  Dias Corridos  DI x pré       
  Dias Corridos 252(2)(4) 360(1)
0             1     13.15   0.00
1             3     12.97  19.03
2             7     12.93  13.21
3             9     12.92  14.45
4            14     12.90  13.18