我正在寻找一个用于Python的HTML解析器模块,它可以帮助我以Python列表/字典/对象的形式获取标记.
如果我有以下表格的文件:
<html>
<head>Heading</head>
<body attr1='val1'>
<div class='container'>
<div id='class'>Something here</div>
<div>Something else</div>
</div>
</body>
</html>
然后,它应该给我一种通过HTML标记的名称或id访问嵌套标记的方法,这样我基本上可以要求它获取div
标记中的内容/文本,body
标记中包含class='container'
,或者类似的内容.
如果您使用过Firefox的"判断元素"特性(查看HTML),您就会知道它以一种很好的嵌套方式给出了所有标记,就像树一样.
我更喜欢内置模块,但这可能要求太高了.
我浏览了很多关于Stack Overflow的问题和互联网上的一些博客,其中大多数都建议使用BeautifulSoup、lxml或HTMLParser,但很少有详细说明功能的问题,只是以争论哪个更快/更有效而告终.