首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

想获取JS加载网页的源网页的源码,不想获取JS加载后的数据

昆明池水汉时功,武帝旌旗在眼中。

大家好,我是Python进阶者。

一、前言

前几天在Python钻石交流群【梦】问了一个Python网络爬虫的问题,这个网站不知道使用了什么反爬手段,都获取不到页面数据。原来的那篇文章竟然爆文了,突破了1.5w的阅读量,欢迎大家围观。

不过这里粉丝的需求有点奇怪,他不需要JS加载后的数据页面,而是需要JS的源网页。昨天在群里又讨论起这个问题,这次一起来看看这个问题。

二、实现过程

这里【瑜亮老师】指出异步页面中,标签和数据都是不在页面源码中的。你的这个页面,数据在json,然后js拼装后显示在页面中。如果你想要获取你说的带标签的源码,可以使用自动化模块,例如:selenium(不建议用这个),playwright,drissionpage。

后来【提请问粘给图截报错贴代源码】给出了具体的源码:

打开network,查看这个网页的渲染方式,你就知道这个网页一开始是没有内容的,全靠js在渲染。

你直接访问这个链接就是没有内容。

先渲染再获取就有了,再者说,你的目的肯定是只要这页面上的表格,表格就是json,获取json链接比获取渲染后的网页方便多了。可以不在页面本身的,使用dom插入,现在的数据页面基本都是这种方式,效率高且安全性好。

【猫药师Kelly】也指出使用drissionpage,配合自带的监听或者mitmproxy,能搞定很多活。

顺利地解决了粉丝的问题。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Os5zGN0CumY_Q7XN9vMrgwSQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券