首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >在python中,如何检查网页的完整大小,包括图像和其他嵌入元素?

在python中,如何检查网页的完整大小,包括图像和其他嵌入元素?
EN

Stack Overflow用户
提问于 2018-07-24 00:26:57
回答 1查看 199关注 0票数 -1

我试图在我的网络中找到完全下载大小太大的页面,比方说,大于10-20MiB。

我已经知道如何爬行,我需要一些东西,它可以找出浏览器为每个页面下载的所有内容的大小,最好不要真正下载它,但这个条件是次要的。

最好使用python,但如果不是这样,至少可以在bash脚本中使用(例如curl或wget)。我会从python内部调用该bash脚本。

至于更多的上下文,在python中,我现在正在使用请求和漂亮的汤来抓取和检查所有网页的状态响应。

EN

回答 1

Stack Overflow用户

发布于 2018-07-24 01:07:36

您可以尝试这样做:

代码语言:javascript
复制
curl --head https://www.instagram.com

它会得到这样的结果:

代码语言:javascript
复制
HTTP/1.1 200 OK
Content-Type: text/html
X-Frame-Options: SAMEORIGIN
Cache-Control: private, no-cache, no-store, must-revalidate
Pragma: no-cache
Expires: Sat, 01 Jan 2000 00:00:00 GMT
Vary: Cookie, Accept-Language, Accept-Encoding
Content-Language: en
Date: Mon, 23 Jul 2018 17:05:14 GMT
Strict-Transport-Security: max-age=60
Set-Cookie: sessionid=""; Domain=.instagram.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; Max-Age=0; Path=/
Set-Cookie: sessionid=""; Domain=.instagram.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; Max-Age=0; Path=/
Set-Cookie: sessionid=""; Domain=.instagram.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; Max-Age=0; Path=/
Set-Cookie: sessionid=""; Domain=.instagram.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; Max-Age=0; Path=/
Set-Cookie: sessionid=""; Domain=.instagram.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; Max-Age=0; Path=/
Set-Cookie: sessionid=""; Domain=.instagram.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; Max-Age=0; Path=/
Set-Cookie: sessionid=""; Domain=.instagram.com; expires=Thu, 01-Jan-1970 00:00:00 GMT; Max-Age=0; Path=/
Set-Cookie: rur=FTW; Domain=.instagram.com; Path=/
Set-Cookie: csrftoken=Y0WEjvNDGdQXAU7YQoUNsVjSodMT6cOZ; Domain=.instagram.com; expires=Mon, 22-Jul-2019 17:05:14 GMT; Max-Age=31449600; Path=/; Secure
Set-Cookie: mid=W1YKygAEAAGowaTCPQjEP25_NhqF; Domain=.instagram.com; expires=Sun, 18-Jul-2038 17:05:14 GMT; Max-Age=630720000; Path=/
Set-Cookie: mcd=3; Domain=.instagram.com; Path=/
Connection: keep-alive
Content-Length: 21754

最后一行中的内容长度是必填信息。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51483394

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档