我有一个XML页面,我正在努力清理,但我无法获取一些标记的内容.那些下降的是可能的,但其他的不是.

这是我要刮的那一页:https://g1.globo.com/rss/g1/

我试图获取"pubDate"标签,当我try 查找所有内容时,它返回为空,当我try 查找时,它返回为无.这是我的密码.我试过很多方法,但都失败了.

rss_globo = requests.get("https://g1.globo.com/rss/g1/").content
bs_globo = BeautifulSoup(rss_globo, 'lxml')
data = bs_globo.find_all('item')
for i in data:
    date = i.find('pubDate').getText()
    print(date)

推荐答案

为了和xml打交道,你需要feature而不是parser.

以下是方法:

import requests
from bs4 import BeautifulSoup

bs_globo = BeautifulSoup(
    requests.get("https://g1.globo.com/rss/g1/").content,
    features="xml",
)
for i in bs_globo.find_all('item'):
    print(i.find('pubDate').getText())

输出:

Mon, 07 Mar 2022 15:05:42 -0000
Mon, 07 Mar 2022 15:04:53 -0000
Mon, 07 Mar 2022 15:04:41 -0000
Mon, 07 Mar 2022 15:03:38 -0000
Mon, 07 Mar 2022 15:03:15 -0000
Mon, 07 Mar 2022 15:01:14 -0000
Mon, 07 Mar 2022 15:00:37 -0000
Mon, 07 Mar 2022 15:00:26 -0000
Mon, 07 Mar 2022 15:00:09 -0000
Mon, 07 Mar 2022 15:00:04 -0000
Mon, 07 Mar 2022 14:59:32 -0000
Mon, 07 Mar 2022 14:58:46 -0000
Mon, 07 Mar 2022 14:58:04 -0000
Mon, 07 Mar 2022 14:58:02 -0000
Mon, 07 Mar 2022 14:55:24 -0000
Mon, 07 Mar 2022 14:51:20 -0000
Mon, 07 Mar 2022 14:50:45 -0000
Mon, 07 Mar 2022 14:50:22 -0000
Mon, 07 Mar 2022 14:50:07 -0000
Mon, 07 Mar 2022 14:49:01 -0000
Mon, 07 Mar 2022 14:47:23 -0000
Mon, 07 Mar 2022 14:47:21 -0000
Mon, 07 Mar 2022 14:46:34 -0000
Mon, 07 Mar 2022 14:46:31 -0000
Mon, 07 Mar 2022 14:45:45 -0000
Mon, 07 Mar 2022 14:45:02 -0000
Mon, 07 Mar 2022 14:44:37 -0000
Mon, 07 Mar 2022 14:44:16 -0000
Mon, 07 Mar 2022 14:43:37 -0000
Mon, 07 Mar 2022 14:42:56 -0000
Mon, 07 Mar 2022 14:42:39 -0000
Mon, 07 Mar 2022 14:42:16 -0000
Mon, 07 Mar 2022 14:41:51 -0000
Mon, 07 Mar 2022 14:41:41 -0000
Mon, 07 Mar 2022 14:41:35 -0000
Mon, 07 Mar 2022 14:41:09 -0000
Mon, 07 Mar 2022 14:40:38 -0000
Mon, 07 Mar 2022 14:39:27 -0000
Mon, 07 Mar 2022 14:39:15 -0000
Mon, 07 Mar 2022 14:39:13 -0000

Python相关问答推荐

如何将 map 数组组合到pyspark中每列的单个 map 中

保留包含pandas pandras中文本的列

在Docker中运行HAProxy时无法获得503服务

sys.modulesgo 哪儿了?

Polars -转换为PL后无法计算熵.列表

使用Python Cerberus初始化一个循环数据 struct (例如树)(v1.3.5)

将numpy矩阵映射到字符串矩阵

在编写要Excel的数据透视框架时修复标题行

如何计算列表列行之间的公共元素

@Property方法上的inspect.getmembers出现意外行为,引发异常

我从带有langchain的mongoDB中的vector serch获得一个空数组

SQLGory-file包FilField不允许提供自定义文件名,自动将文件保存为未命名

ModuleNotFound错误:没有名为Crypto Windows 11、Python 3.11.6的模块

如何并行化/加速并行numba代码?

索引到 torch 张量,沿轴具有可变长度索引

Python避免mypy在相互引用中从另一个类重定义类时失败

Pandas—堆栈多索引头,但不包括第一列

为什么t sns.barplot图例不显示所有值?'

将CSS链接到HTML文件的问题

什么是一种快速而优雅的方式来转换一个包含一串重复的列,而不对同一个值多次运行转换,