专栏首页授客的专栏Python_记一次网站数据定向爬取实现

Python_记一次网站数据定向爬取实现

测试环境:

Python版本:Python 3.4

Win7

请勿用于商业及非法用途,仅供学习研究用,否则后果自负

数据爬取场景

如下,打开网站查询页面,输入关键字,点击查询

如上图,如果记录数比较多,还会有翻页按钮出现

如上图,右侧还有个最新资助列表,和左侧记录是同一个性质

如下图,点击列表记录,打开以下界面

数据爬取需求:获取上述红色选框部分的数据,因为记录检索可能比较多,可能有几百页,所以还要求可以只获取指定翻页数量

程序实现思路

1、获取关键字查询url

/index.php?m=&c=Search&a=index&keyword=丰巢&hash=dkFMbUhBTkJIPTNCRjc3Z09yczZVOWRONS1xRE89cU9JPThkTnYzeEM5MW1U&__hash__=77b9003885166213582f27c5e6098d21_53f9dce8d49ffef0259a38cb6a6a3c8b&p=1

2、获取记录页面访问url

3、获取数据

4、翻页查询,并重复1-3

由第1点可知,翻页查询仅需要替换 &p=1中的数字

需要注意的地方,就是要过滤右侧的 最新资助 列表中的记录链接,另外,要控制翻页数,所以访问xxx……&p=1的链接时,就要获取总记录数,然后计算总的翻页数量

实现效果

代码下载

https://pan.baidu.com/s/1HJkGUgyZOxkjTNpPBrJKzA

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Linux 目录结构学习与简析 Part2

    processor : 0 #每个逻辑cpu 唯一编号0-N,编号到N则说明有N个逻辑CPU

    授客
  • 测试思想-验收测试 关于验收测试

    个人理解,通常意义上的验收测试,在最终用户组织参与的情况下,确认软件能否按合同要求或软件需求说明书中的确认标准,执行软件既定功能和任务的测试。

    授客
  • loadrunner 脚本开发-参数化之将内容保存为参数、参数数组及参数值获取Part 2

    ----------------接 Part 1---------------

    授客
  • 超实用!这 6 个小程序,你生活中一定用得上

    「倒数记日」这款小程序能帮你记录生命中那些重要的日子,让你不再错过每一个难忘的时间。

    知晓君
  • 这些hash你了解吗?

    hash大家都不陌生,不同的hash又不一样的特征,今天的主要内容就是带大家一起来学习了解一下不同的hash。

    信安之路
  • 如何快速安全的插入千万条数据?

    最近有个需求解析一个订单文件,并且说明文件可达到千万条数据,每条数据大概在20个字段左右,每个字段使用逗号分隔,需要尽量在半小时内入库。

    良月柒
  • 如何快速安全的插入千万条数据?

    最近有个需求解析一个订单文件,并且说明文件可达到千万条数据,每条数据大概在20个字段左右,每个字段使用逗号分隔,需要尽量在半小时内入库。

    编程三分钟
  • 使用 Python-LDAP 操作 LD

    周末看到那些排队血拼的人们,不用走进 shopping mall、不用看到那些五颜六色的打折和视觉冲击就能感受到 “节日要到了!”。一年又快结束了,这周完成备...

    用户2398817
  • InfoPath中repeationg section动态填充数据

    项目后台使用的是基于InfoPath的后台管理系统。后台主要是生成CMS系统需要的XML文件,但是有的内容和其他的内容有关联。为了减少编辑人员的操作难度,所有相...

    八哥
  • Flutter实战 | 从 0 搭建「网易云音乐」APP(二、Splash Page、登录页、发现页)

    本系列可能会伴随大家很长时间,这里我会从0开始搭建一个「网易云音乐」的APP出来。

    Flutter笔记

扫码关注云+社区

领取腾讯云代金券