Python 为什么BeautifulSoup找不到这个与XBRL相关的标签

发布于12月11日

原来，标记名应该是:"ix:NONFRATION"

这不管用.没有找到"xi"标签.

from bs4 import BeautifulSoup

text = """
<td style="BORDER-BOTTOM:0.75pt solid #7f7f7f;white-space:nowrap;vertical-align:bottom;text-align:right;">$ <ix:nonfraction name="ecd:AveragePrice" contextref="P01_01_2022To12_31_2022" unitref="Unit_USD" decimals="2" scale="0" format="ixt:num-dot-decimal">97.88</ix:nonfraction>
</td>
"""

soup = BeautifulSoup(text, 'lxml')
print(soup)
ix_tags = soup.find_all('ix')
print(ix_tags)

但下面的工作.我看不出有什么区别.为什么会这样？多谢了！

html_content = """
<html>
  <body>
    <ix>Tag 1</ix>
    <ix>Tag 2</ix>
    <ix>Tag 3</ix>
    <p>Not an ix tag</p>
  </body>
</html>
"""

soup = BeautifulSoup(html_content, 'lxml')
ix_tags = soup.find_all('ix')
for tag in ix_tags:
    print(tag.text)

推荐答案

这里的问题来自BeautifulSoup如何处理像<ix:nonfraction>这样的命名空间标签.使用lxml解析器，可能无法正确解析或识别命名空间标记.

在您提供的XML中，ix是元素的名称空间，nonfraction是元素的本地名称.在XML中，命名空间是一种通过区分XML文档中的元素或属性来避免名称冲突的方法.ix:nonfraction标记表示nonfraction元素是ix命名空间的一部分.

要在使用lxml解析器时正确地找到像<ix:nonfraction>这样的命名空间标记，您应该在find_all调用中使用准确的标记名:

ix_tags = soup.find_all('ix:nonfraction')

如果您希望在不提供命名空间的情况下查找标记，那么可以使用xml解析器，它可以更优雅地处理命名空间标记.

soup = BeautifulSoup(text, 'xml')
ix_tags = soup.find_all('nonfraction')

样例运行:

from bs4 import BeautifulSoup

text = """
<td style="BORDER-BOTTOM:0.75pt solid #7f7f7f;white-space:nowrap;vertical-align:bottom;text-align:right;">$ <ix:nonfraction name="ecd:AveragePrice" contextref="P01_01_2022To12_31_2022" unitref="Unit_USD" decimals="2" scale="0" format="ixt:num-dot-decimal">97.88</ix:nonfraction>
</td>
"""

soup = BeautifulSoup(text, 'lxml')
ix_tags = soup.find_all('ix:nonfraction')
print(ix_tags)


soup = BeautifulSoup(text, 'xml')
ix_tags = soup.find_all('nonfraction')
print(ix_tags)

输出:

[<ix:nonfraction contextref="P01_01_2022To12_31_2022" decimals="2" format="ixt:num-dot-decimal" name="ecd:AveragePrice" scale="0" unitref="Unit_USD">97.88</ix:nonfraction>]
[<nonfraction contextref="P01_01_2022To12_31_2022" decimals="2" format="ixt:num-dot-decimal" name="ecd:AveragePrice" scale="0" unitref="Unit_USD">97.88</nonfraction>]