首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python_记一次网站数据定向爬取实现

Python_记一次网站数据定向爬取实现

作者头像
授客
发布2019-09-11 16:50:17
4750
发布2019-09-11 16:50:17
举报
文章被收录于专栏:授客的专栏授客的专栏

测试环境:

Python版本:Python 3.4

Win7

请勿用于商业及非法用途,仅供学习研究用,否则后果自负

数据爬取场景

如下,打开网站查询页面,输入关键字,点击查询

Python_记一次网站数据定向爬取实现
Python_记一次网站数据定向爬取实现

如上图,如果记录数比较多,还会有翻页按钮出现

Python_记一次网站数据定向爬取实现
Python_记一次网站数据定向爬取实现

如上图,右侧还有个最新资助列表,和左侧记录是同一个性质

如下图,点击列表记录,打开以下界面

Python_记一次网站数据定向爬取实现
Python_记一次网站数据定向爬取实现

数据爬取需求:获取上述红色选框部分的数据,因为记录检索可能比较多,可能有几百页,所以还要求可以只获取指定翻页数量

程序实现思路

1、获取关键字查询url

/index.php?m=&c=Search&a=index&keyword=丰巢&hash=dkFMbUhBTkJIPTNCRjc3Z09yczZVOWRONS1xRE89cU9JPThkTnYzeEM5MW1U&__hash__=77b9003885166213582f27c5e6098d21_53f9dce8d49ffef0259a38cb6a6a3c8b&p=1

2、获取记录页面访问url

3、获取数据

4、翻页查询,并重复1-3

由第1点可知,翻页查询仅需要替换 &p=1中的数字

需要注意的地方,就是要过滤右侧的 最新资助 列表中的记录链接,另外,要控制翻页数,所以访问xxx……&p=1的链接时,就要获取总记录数,然后计算总的翻页数量

实现效果

Python_记一次网站数据定向爬取实现
Python_记一次网站数据定向爬取实现

代码下载

https://pan.baidu.com/s/1HJkGUgyZOxkjTNpPBrJKzA

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-09-28 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档