使用Python下载pdf url

发布于02月27日

我正在try 从这个网站下载一个.pdf URL PDFLINK个 https://www.cell.com/heliyon/pdf/S2405-8440(18)33206-7.pdf 我可以从我的浏览器中查看它，但使用带有Python的请求不能让我下载它.

我try 了以下方法，但无法正常下载.它将返回403或表示.pdf已损坏.但我可以查看链接https://www.cell.com/heliyon/pdf/S2405-8440(18)33206-7.pdf 有什么主意吗？

import requests


def download_pdf(url):
    response = requests.get(url)
    with open('sample.pdf', 'wb') as f:
        f.write(response.content)


if __name__ == "__main__":
    url = "https://www.cell.com/heliyon/pdf/S2405-8440(18)33206-7.pdf"
    download_pdf(url)

从这里到哪里go

显然，Heliyon集合中的每一篇论文，也就是您的示例PDF所在的集合，也都是hosted on ScienceDirect:

每一篇发表的文章都将立即在Cell.com/Heliyon和Science Direct上获得，并将被PubMed、Scope us、科学网™和科学引文索引扩展™(SCIE)编入索引，以确保它能接触到尽可能广泛的受众.截至2023年6月，Heliyon的影响系数为4.0.

运行ScienceDirect的Elsevier有一个free-to-use API，你可以很容易地下载文章，包括你想下载的文章，只需要doi和你的API密钥.我在下面整理了一个非常简单的脚本，一旦你已经registered for the Elsevier API并创建了自己的api密钥，你就可以使用它:

api_template = 'https://api.elsevier.com/content/article/doi/{doi}?apiKey={api_key}&httpAccept={http_accept}'

doi = '10.1016/j.heliyon.2018.e00938'
api_key = '<your_api_key>'
http_accept = 'application/pdf'

uri = api_template.format(doi=doi, api_key=api_key, http_accept=http_accept)
res = requests.get(uri)
with open('out.pdf', 'wb') as f:
    f.write(res.content)

我没有包括错误处理之类的东西，甚至没有将其包装在函数中，但这应该可以让您开始使用它.祝你好运！