首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

不看后悔!爬取动态网页数据的新方法-selenim案例讲解

动态网页加载数据,我们之前用的方法是用JSON获取网页的原始数据,过程比较繁琐,这节课我们利用selenim自动化抓取网页的数据,接下来为大家一一阐述爬取的过程。

1.爬取网页数据的解题思路

首先我们先回忆一下我们爬取网页的主要步骤:先获取网页完整的源码数据--然后利用xpath数据解析--获取想要的数据

2.获取网页源码数据

这次我们操作的网页为http://scxk.nmpa.gov.cn:81/xk/,该网页为动态加载数据,用之前requests模块获取数据时,不能直接通过get请求获取真正的源码数据,我们当时采用的是Ajax请求间接拿到了该页面的数据,这次我们用不一样的selenim模块获取数据

第一步,导入模块自动读取发起数据请求

我们利用苹果电脑自带的Safari浏览器发起请求,得到实例化的对象driver,然后再发起get请求

第二步,获取源码数据

selenim模块获取网页源码的方法为,通过page_source方法,不同于requests方法是通过text,这样我们就拿到了该网页的源码数据

第三步,解析数据

我们主要是通过源码获取该页面的企业名称,如下图,解析数据与requests请求一样采用了xpath解析

第四步,关闭自动化

3.获取网页源码数据

最终效果图

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20211003A065EU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券