前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >#PY小贴士# 抓下来的网页为什么没有我要的内容?

#PY小贴士# 抓下来的网页为什么没有我要的内容?

作者头像
Crossin先生
发布2019-12-19 11:39:17
2.1K0
发布2019-12-19 11:39:17
举报

刚刚接触爬虫的同学常会遇到这样的疑问:

为什么网页上面有的信息,我用代码抓下来的里面就没有,也没有报错?

或者有些知道使用浏览器开发者工具查看的同学会疑惑:

打开 元素(Elements)里面有找到相关内容,但是代码里面用 bs 或者正则都取不到。

除开请求本身失败或被反爬的情况外,通常这种问题的原因其实是:

页面上本来就没有你要的内容!

那么网页上的内容是哪里来的?

现在绝大多数网站的内容并非直接通过你访问的 URL 请求直接返回,而是会通过一种叫做 AJAX 的方法,在页面的基本框架加载完毕后,再通过其他的请求向后台服务器再次请求获取的。这被称作“异步加载”,好处是将动态数据和静态的显示框架相分离,既提高了加载速度、提升用户体验,又方便多平台的接口复用。具体细节我不展开了,你可以网上去按我给到的关键字去搜索相关内容,下次我也会专门发下这方面的讲解文章。

那开发者工具里为什么又会在代码里显示出这些内容呢?

这是因为开发者工具的元素(Elements)项显示的并不是网页的原始代码,而是浏览器将页面加载并渲染后的结果,它里面包含了异步请求拿到的数据和前台JS代码执行后对页面内容的修改。

你若需要查看URL对应的原始代码,应右键选择“查看源代码”。而寻找你要的数据请求,则应在开发者工具的网络(Network)里进行检索。(如下图所示)


#PY小贴士# 里,我们会分享一些 python 知识点、开发中的小技巧、容易踩到的坑,以及学员遇到并在群里提到真实问题。篇幅尽量短小,适合碎片时间阅读,欢迎关注!

如果你在编程学习中有疑问,可选择以下方式向我们提问:

1. 加入码上行动答疑群(最及时响应)

2. 加入知识星球 https://t.zsxq.com/IiAiiQj

3. 发微博加上 #编程教室# @Crossin(非私信)

提问时请表述清楚,附上必要代码、输出等截屏。

也可向本栏目投稿,分享你开发中的经验。采纳后将署名发表,并可附上个人博客、公众号、Github等介绍。


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Crossin的编程教室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云开发 CLI 工具
云开发 CLI 工具(Cloudbase CLI Devtools,CCLID)是云开发官方指定的 CLI 工具,可以帮助开发者快速构建 Serverless 应用。CLI 工具提供能力包括文件储存的管理、云函数的部署、模板项目的创建、HTTP Service、静态网站托管等,您可以专注于编码,无需在平台中切换各类配置。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档