无涯教程网

如何删除\xa0从汤在beautifulsoupPython

发布于01月05日

我目前正在使用BeautifulSoup来解析网页的Html代码.

要从元素中获取文本，我使用".text"属性:

soup.find('p', {'class': 'example'}).text

但问题是，有时我的结果是"\xa0"分:

"some text «\xa0text\xa0»"

我试着使用"替换"功能:

soup = BeautifulSoup(driver.page_source.replace('\xa0', ' '), "lxml")

注意:我不想对解析的每个字符串都使用一个函数，我希望从一开始就把这些字符从汤中清除掉.

推荐答案

问题是，HTML源文件可能包含 ，而不是文字\xa0.试着把它换掉，或者也换掉.

soup = BeautifulSoup(
    driver.page_source.replace(
        '&nbsp;', ' ').replace('\xa0', ' '), "lxml")

Python相关问答推荐

acme错误-Veritas错误：模块收件箱没有属性linear_util'

使用索引列表列表对列进行切片并获取行方向的向量长度

不理解Value错误：在Python中使用迭代对象设置时必须具有相等的len键和值

' osmnx.shortest_track '返回有效源 node 和目标 node 的'无'

使用setuptools pyproject.toml和自定义目录树构建PyPi包

无法定位元素错误404

连接一个rabrame和另一个1d rabrame不是问题，但当使用[...]'运算符会产生不同的结果

UNIQUE约束失败：customuser. username

OpenCV轮廓.很难找到给定图像的所需轮廓

在matplotlib中使用不同大小的标记顶部添加批注

Beautifulsoup：遍历一个列表，从a到z，并解析数据，以便将其存储在pdf中.

如何将一组组合框重置回无 Select tkinter？

为什么t sns.barplot图例不显示所有值？'

根据Pandas中带条件的两个列的值创建新列

按条件添加小计列

如何将列表从a迭代到z-以抓取数据并将其转换为DataFrame？

Numpy`astype(Int)`给出`np.int64`而不是`int`-怎么办？

Pandas：使列中的列表大小与另一列中的列表大小相同

有没有一种方法可以根据不同索引集的数组从2D数组的对称子矩阵高效地构造3D数组？

将多行数据循环到嵌套框架中的单行

实用课程推荐

相关教程推荐