我目前正在使用BeautifulSoup来解析网页的Html代码.

要从元素中获取文本,我使用".text"属性:

soup.find('p', {'class': 'example'}).text

但问题是,有时我的结果是"\xa0"分:

"some text «\xa0text\xa0»"

我试着使用"替换"功能:

soup = BeautifulSoup(driver.page_source.replace('\xa0', ' '), "lxml")

注意:我不想对解析的每个字符串都使用一个函数,我希望从一开始就把这些字符从汤中清除掉.

推荐答案

问题是,HTML源文件可能包含 ,而不是文字\xa0.试着把它换掉,或者也换掉.

soup = BeautifulSoup(
    driver.page_source.replace(
        ' ', ' ').replace('\xa0', ' '), "lxml")

Python相关问答推荐

acme错误-Veritas错误:模块收件箱没有属性linear_util'

使用索引列表列表对列进行切片并获取行方向的向量长度

不理解Value错误:在Python中使用迭代对象设置时必须具有相等的len键和值

' osmnx.shortest_track '返回有效源 node 和目标 node 的'无'

使用setuptools pyproject.toml和自定义目录树构建PyPi包

无法定位元素错误404

连接一个rabrame和另一个1d rabrame不是问题,但当使用[...]'运算符会产生不同的结果

UNIQUE约束失败:customuser. username

OpenCV轮廓.很难找到给定图像的所需轮廓

在matplotlib中使用不同大小的标记顶部添加批注

Beautifulsoup:遍历一个列表,从a到z,并解析数据,以便将其存储在pdf中.

如何将一组组合框重置回无 Select tkinter?

为什么t sns.barplot图例不显示所有值?'

根据Pandas中带条件的两个列的值创建新列

按条件添加小计列

如何将列表从a迭代到z-以抓取数据并将其转换为DataFrame?

Numpy`astype(Int)`给出`np.int64`而不是`int`-怎么办?

Pandas:使列中的列表大小与另一列中的列表大小相同

有没有一种方法可以根据不同索引集的数组从2D数组的对称子矩阵高效地构造3D数组?

将多行数据循环到嵌套框架中的单行