我使用的是Pythonrequests
模块来下载HTML页面.
对于我执行该语句response = requests.get(URL)
的每个URL,
因此,任何GET请求的结果都会写入Response变量.
我执行这条语句来确定下载的HTML页面的字节数:len(response.text)
.我的 idea 是,只有在我的硬盘上没有同名的页面,或者有同名但大小不同的页面时,才将HTML保存到硬盘上.如果文件存在,我执行Path(filepath).stat().st_size
来找出硬盘上文件的大小.问题就出现在这里.由于某种原因,对于任何下载的页面,文件的大小总是比调用具有response
对象的text
属性的len()
函数的结果大6个字节.如果len()
返回7282,则st_size
为7288;如果len()
返回7216,则st_size
为7222,依此类推.我不明白这种行为的原因.我可以在len()
的结果上加上6个字节来比较大小.我想,这会奏效,但我就不知道真正的原因了.这看起来像是黑客入侵.
我试着用curl
命令下载页面,结果是一样的.增加了神奇的6个字节.我已经判断了10个不同的页面,6个字节的差异保持不变.