python爬虫从入门到放弃(九)之 实例爬取上海高级人民法院网开庭公告数据

通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个

一个单独的散知识点,需要通过实际的例子进行融合

分析网站

其实爬虫最重要的是前面的分析网站,只有对要爬取的数据页面分析清楚,才能更方便后面爬取数据

目标站和目标数据 目标地址:http://www.hshfy.sh.cn/shfy/gweb/ktgg_search.jsp 目标数据:目标地址页面的中间的案开庭公告数据

对数据页面分析 从打开页面后可以看到默认的数据是一个月的数据,即当天到下个月该天的 通过翻页可以返现这个时候页面的url地址是不变的,所以这里我们大致就可以判断出,中间表格的数据是通过js动态加载的,我们可以通过分析抓包,找到真实的请求地址

通过上图我们可以发现其实帧数的数据来源是http://www.hshfy.sh.cn/shfy/gweb/ktgg_search_content.jsp 这个地址。 当直接访问这个地址可以看到如下数据:

也正好验证了我们前面所说的,中间表格的数据是通过js动态加载的,所以我们剩下的就是对这个地址进行分析

分析真实地址

通过上图我们可以分析几个对我们有用的数据就是请求地址以及请求参数, 请求参数中,最重要的是日期以及页数

通过代码实现数据的爬取

代码的功能还有待完善,只是一个初步的例子 代码地址:https://github.com/pythonsite/spider/tree/master/www.hshfy.sh.cn

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯移动品质中心TMQ的专栏

腾讯TMQ在线沙龙|Robotium自动化测试介绍

Robotium自动化测试介绍 活动时间:2016年9月29日 QQ群视频交流 活动介绍:TMQ在线沙龙第九期分享 本次分享的主题是Robotium自动化测试介...

2155
来自专栏古时的风筝

用python实现的百度新歌榜、热歌榜下载器

首先声明,本工具仅仅为学习之用,不涉及版权问题,因为百度音乐里面的歌曲本身是可以下载的,而且现在百度也提供了”百度音乐播放器”,可以通过这个工具进行批量下载。 ...

2075
来自专栏抠抠空间

webpack基础

1440
来自专栏WeTest质量开放平台团队的专栏

微信小程序之提高应用速度小技巧

小程序科普类的文章已经很多了,今天这里讲的是针对小程序的优化方法,可以有效提高小程序的响应速度和用户体验。当然,开发体验也提高不少。

2K0
来自专栏知晓程序

小程序如何提交审核,并发布?| 小程序问答 #36

今天,知晓程序(微信号 zxcx0101)就来教你,如何在公众平台提交审核、发布小程序。

1133
来自专栏向治洪

携程React Native实践

React Native(下文简称 RN)开源已经一年多时间,国内各大互联网公司都在使用,携程也在今年 5 月份投入资源开始引入,并推广给多个业务团队使用,本文...

3337
来自专栏北京马哥教育

实战:用 Python 爬虫攻破爱奇艺 VIP 视频防线

一、实战背景 爱奇艺的VIP视频只有会员能看,普通用户只能看前6分钟。比如加勒比海盗5的URL:http://www.iqiyi.com/v_19rr7qhfg...

4038
来自专栏互联网数据官iCDO

Google代码管理工具101 部分5-表单

主编前言: 很多朋友都听说过Tag Management(监测代码管理),但其强大的功能和实现方式,了解的朋友不多。本系列以Google Tag Manager...

3615
来自专栏张善友的专栏

社区网站系统 jsGen

jsGen是用纯JavaScript编写的新一代开源社区网站系统,主要用于搭建SNS类型的专业社区,对客户端AngularJS应用稍作修改也可变成多用户博客系统...

2145
来自专栏沈唁志

在WordPress中优化谷歌(AdSense)广告联盟

很多时候我们需要将某些内容在指定的页面中显示,比如将谷歌自动广告设置为不在首页显示,这些都可以通过修改代码来达到效果

1223

扫码关注云+社区