我知道如何在attrs参数的帮助下根据准确的id进行过滤.

tables = pd.read_html(url, attrs={"id": "box-CHI-game-basic"})

我事先不知道确切的ID,我知道它的 struct .我可以用正则表达式捕获id:

re.search(".+-game-basic", "box-CHI-game-basic")

如果只将正则表达式添加为attr的值,则不起作用.

Read_html的Match参数可以使用regex,但它遍历整个文本,我想将其范围缩小到id.

推荐答案

我不认为你能用pandas_html美元做到这一点.

match参数将匹配:

包含与此正则表达式或字符串匹配的文本的表格集合

至于attrs,你所try 的不会奏效,因为

attrs是一个属性字典,您可以传递它来标识HTML中的表.在传递给lxml或Beautiful Soup之前,不会判断它们的有效性.However, these attributes must be valid HTML table attributes to work correctly

所以,我猜你必须首先求助于bs4,例如:


soup.find_all("table", id=re.compile(".+-game-basic")

然后,将该表传递给pandas以进行进一步解析.

Html相关问答推荐

如何删除html原生对话框的宽度

如何在angular 17.2中使用routerLink解决此错误

禁用与行分开的边框折叠span

摆动的html标签

如何翻转卡片图像的背面

SCSS动画错误:心脏在页面刷新时启动动画,原因是:Checked和:Not(:Checked) Select 器

防止position:relative的child在出界时收缩

如何在 Bootstrap 5 中将两个导航栏元素放在末尾?

如何在Go模板中传入途中创建的 map

如何从通过 find-each 方法(在 Rails 应用程序中)生成的列表创建下拉菜单?

无法在 CSS 中将 h1 标签居中

如何消除线性渐变线的模糊?

如何使文本区域自动扩展到最大高度?

如何将两个平行 div 的页面内的表格居中?

屏幕缩小时背景图像裁剪高度

W3Schools 幻灯片相同高度

使用 R 中的 rvest 包获取搜索结果的第一个链接

发光效果html动画

在 html 邮箱的左侧和右侧制作多个元素很热门吗?

无法在 css 的 body 标签中正确呈现(内联显示)