根据正则表达式 attr 从 read_html 过滤表格

发布于11月18日

我知道如何在attrs参数的帮助下根据准确的id进行过滤.

tables = pd.read_html(url, attrs={"id": "box-CHI-game-basic"})

我事先不知道确切的ID，我知道它的 struct .我可以用正则表达式捕获id:

re.search(".+-game-basic", "box-CHI-game-basic")

如果只将正则表达式添加为attr的值，则不起作用.

Read_html的Match参数可以使用regex，但它遍历整个文本，我想将其范围缩小到id.

推荐答案

我不认为你能用pandas_html美元做到这一点.

match参数将匹配:

包含与此正则表达式或字符串匹配的文本的表格集合

至于attrs，你所try 的不会奏效，因为

attrs是一个属性字典，您可以传递它来标识HTML中的表.在传递给lxml或Beautiful Soup之前，不会判断它们的有效性.However, these attributes must be valid HTML table attributes to work correctly

所以，我猜你必须首先求助于bs4，例如:


soup.find_all("table", id=re.compile(".+-game-basic")

然后，将该表传递给pandas以进行进一步解析.

实用课程推荐