python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据

coders

发布于 2018-01-04 14:49:04

8440

发布于 2018-01-04 14:49:04

文章被收录于专栏：coder修行路coder修行路

通过前面的文章已经学习了基本的爬虫知识，通过这个例子进行一下练习，毕竟前面文章的知识点只是一个

一个单独的散知识点，需要通过实际的例子进行融合

分析网站

其实爬虫最重要的是前面的分析网站，只有对要爬取的数据页面分析清楚，才能更方便后面爬取数据

目标站和目标数据 目标地址：http://www.hshfy.sh.cn/shfy/gweb/ktgg_search.jsp 目标数据：目标地址页面的中间的案开庭公告数据

对数据页面分析 从打开页面后可以看到默认的数据是一个月的数据，即当天到下个月该天的通过翻页可以返现这个时候页面的url地址是不变的，所以这里我们大致就可以判断出，中间表格的数据是通过js动态加载的，我们可以通过分析抓包，找到真实的请求地址

通过上图我们可以发现其实帧数的数据来源是http://www.hshfy.sh.cn/shfy/gweb/ktgg_search_content.jsp 这个地址。当直接访问这个地址可以看到如下数据：

也正好验证了我们前面所说的，中间表格的数据是通过js动态加载的，所以我们剩下的就是对这个地址进行分析

分析真实地址

通过上图我们可以分析几个对我们有用的数据就是请求地址以及请求参数，请求参数中，最重要的是日期以及页数

通过代码实现数据的爬取

代码的功能还有待完善，只是一个初步的例子代码地址：https://github.com/pythonsite/spider/tree/master/www.hshfy.sh.cn

本文参与腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2017-06-07 ，如有侵权请联系 cloudcommunity@tencent.com 删除

爬虫

python

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

爬虫

python

登录后参与评论

0 条评论

热度

python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据

python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据

分析网站

通过代码实现数据的爬取

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python爬虫从入门到放弃（九）之 实例爬取上海高级人民法院网开庭公告数据

python爬虫从入门到放弃（九）之 实例爬取上海高级人民法院网开庭公告数据

分析网站

通过代码实现数据的爬取

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据

python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据