我正在try 迭代URL列表,并使用请求和BeatifulSoup来提取每个URL的标题名称.

但我一直收到这样的错误:

请求.例外.无效架构:找不到"[‘https://reddit.com/?feed=home’,‘https://reddit.com/chunkCSS/CollectionCommentsPage~CommentsPage~CountryPage~Frontpage~GovernanceReleaseNotesModal~ModListing~Mod~e3d63e32.74eb929a3827c754ba25_.css’,‘https://reddit.com/chunkCSS/CountryPage~Frontpage~ModListing~Multireddit~ProfileComments~ProfileOverview~ProfilePosts~Subreddit.e72fce90a7f3165091b9_.css’,‘https://reddit.com/chunkCSS/Frontpage.85a25b7700617eafa94b_.css’,‘https://reddit.com/?feed=home’,‘https://reddit.com/r/popular/’,]的连接适配器"

《守则》:

pages = []
for admin_login_pages in domains:
    with open("urls.txt", "w") as f:
        f.write(admin_login_pages)
    if "admin" in admin_login_pages:
        if "login" in admin_login_pages:
            pages.append(admin_login_pages)
    with open("urls.txt", "r") as fread:
        url_list = [x.strip() for x in fread.readlines()]
        r = requests.get(str(url_list))
        soup = BeautifulSoup(r.content, 'html.parser')
        for title in soup.find_all('title'):
            print(f"{admin_login_pages} - {title.get_text()}")
if not pages:
    print(f"{Fore.RED} No admin or login pages Found")
else:
    for page_list in pages:
        print(f"{Fore.GREEN} {page_list}")

推荐答案

正如我在注释中所述,您将列表的字符串表示作为URL提供给请求.这是行不通的.相反,迭代url_list并分别向每个URL发出请求.

以下是略微重构的代码示例:

pages = []

with open("urls.txt", "r") as fread:
    url_list = [x.strip() for x in fread.readlines()]

with open("urls.txt", "w") as f:
    for admin_login_pages in domains:
        f.write(admin_login_pages)

        if "admin" in admin_login_pages and "login" in admin_login_pages:
            pages.append(admin_login_pages)

        for url in url_list:
            r = requests.get(url)
            soup = BeautifulSoup(r.content, "html.parser")

            title = soup.find("title")
            print(f"{admin_login_pages} - {title.get_text()}")

if not pages:
    print(f"{Fore.RED} No admin or login pages Found")
else:
    for page_list in pages:
        print(f"{Fore.GREEN} {page_list}")

Python-3.x相关问答推荐

如何从Django连接到Neo4J s AuraDB(免费层)?'

使用Python请求从特定URL下载图像时出错

pandas查找另一列中是否存在ID

使用递归将int转换为字符串

检测点坐标 - opencv findContours()

重复数组直到一定长度 groupby pandas

在REPLACE INTO中引用变量会抛出sqlite3.OperationalError

Pandas教程:如何更新行内数值的位置

调用 Clear 时 Airflow 会加载新代码吗

将逗号分隔的字符串类型系列转换为整数列表 pandas

位对的距离

如何使用 django rest 框架在 self forienkey 中删除多达 n 种类型的数据?

python2和python3中的列表生成器

为列表列表中的每个列表插入 str 到 index[0] 中. Python

Python pandas将单元格值移动到同一行中的另一个单元格

无法在 Windows Python 3.5 上安装 Levenshtein 距离包

判断对 python 3 支持的要求

如何在 Python 中计算 cohen 的 d?

如何使用 asyncio 添加连接超时?

matplotlib - 模块sip没有属性setapi