前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >网页抓包

网页抓包

作者头像
爱编程的小明
发布2022-09-06 14:25:12
1.9K0
发布2022-09-06 14:25:12
举报
文章被收录于专栏:小明的博客小明的博客

网页抓包主要指的是对网页的跟踪,包括网页的访问时间、访问者的IP地址、访问者的浏览器等信息。在爬虫的过程中,我们看到的网页可能并非是一次就加载出来的,有的网页也可能会分好几步加载,因此跟踪网页的整个加载过程,只有完全掌握了网页抓包的操作,才能得到存放我们需要数据的页面。 网页抓包主要借助的是浏览器的开发者工具,接下来就按照我将使用本博客来对开发者工具进行介绍。 在博客的初始页面打开开发者工具,可以看到如下界面:

网页抓包_20220831000216
网页抓包_20220831000216

默认开发者工具栏出现在右侧,这里为了使用方便放在了下侧,功能一样的。 首先打开的是元素页,这个页面可以用来查看网页的html格式和css的源码,可以通过左上方小箭头样式来跟踪网页的结构,这对于我们快速定位爬取数据在html中的位置有很大的帮助,另外也可以借助右侧的css栏目来查看网页加载的css,每一个样式右上方的蓝色链接存放着css的链接,可以用来提取网页美化的样式。 接着是控制台一栏,这一栏我平时用的很少,可以类比为网页的命令行工具,可以用来调取各种你需要的内容(调试js代码,调取日志等) 再然后是源代码一栏:

网页抓包_20220831001120
网页抓包_20220831001120

这一栏是非常重要的一栏,存放着整个网页所有的源代码,包括整个页面请求所有资源的具体情况,更重要的是可以在这个页面进行js代码的调试,是网页抓包很重要的一个页面,通过这栏可以对网页资源的加载请求有一个全面的认识。 接着是应用程序栏:

网页抓包_20220831001611
网页抓包_20220831001611

这一栏主要是存放网页在本地存储信息,例如网页的cookie信息等。 接下来介绍的是网络抓包中最重要的一栏,就是网络一栏,这一栏记录了网页加载的整个过程,通过这栏我们可以看到网页资源加载的先后顺序,以及资源具体的请求方式之类的信息,这是网页抓包过程中最重要的环节,一般来说可以借助这一栏来识别网页是否存在异步加载和重定向之类的信息,这对于爬虫的构建至关重要。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022-07-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云开发 CLI 工具
云开发 CLI 工具(Cloudbase CLI Devtools,CCLID)是云开发官方指定的 CLI 工具,可以帮助开发者快速构建 Serverless 应用。CLI 工具提供能力包括文件储存的管理、云函数的部署、模板项目的创建、HTTP Service、静态网站托管等,您可以专注于编码,无需在平台中切换各类配置。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档