python爬虫从入门到放弃(九)之 实例爬取上海高级人民法院网开庭公告数据

通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个

一个单独的散知识点,需要通过实际的例子进行融合

分析网站

其实爬虫最重要的是前面的分析网站,只有对要爬取的数据页面分析清楚,才能更方便后面爬取数据

目标站和目标数据 目标地址:http://www.hshfy.sh.cn/shfy/gweb/ktgg_search.jsp 目标数据:目标地址页面的中间的案开庭公告数据

对数据页面分析 从打开页面后可以看到默认的数据是一个月的数据,即当天到下个月该天的 通过翻页可以返现这个时候页面的url地址是不变的,所以这里我们大致就可以判断出,中间表格的数据是通过js动态加载的,我们可以通过分析抓包,找到真实的请求地址

通过上图我们可以发现其实帧数的数据来源是http://www.hshfy.sh.cn/shfy/gweb/ktgg_search_content.jsp 这个地址。 当直接访问这个地址可以看到如下数据:

也正好验证了我们前面所说的,中间表格的数据是通过js动态加载的,所以我们剩下的就是对这个地址进行分析

分析真实地址

通过上图我们可以分析几个对我们有用的数据就是请求地址以及请求参数, 请求参数中,最重要的是日期以及页数

通过代码实现数据的爬取

代码的功能还有待完善,只是一个初步的例子 代码地址:https://github.com/pythonsite/spider/tree/master/www.hshfy.sh.cn

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华仔的技术笔记

IPFS+IPNS+个人博客搭建

5547
来自专栏梦里茶室

刷爆github小绿点

转载请注明出处:工程地址,欢迎star!!! 首先github统计小绿点的逻辑是这样的:戳 然后,某次因为某些原因删工程,发现,对应的小绿点也不见了,并且str...

2735
来自专栏后端技术探索

nginx并发配置之worker_connections,worker_processes与 max clients

原文:http://blog.51cto.com/liuqunying/1420556

1033
来自专栏北京马哥教育

Nginx中location的匹配和rewrite

最近在线上进行nginx规则的调整的时候遇到一个问题,发现在location匹配时候可能会踩到的一个坑。 location在匹配规则的时候匹配的是归一化之后的U...

2825
来自专栏Albert陈凯

2018-11-18 你知道Adoc文档是什么吗?

AsciiDoc 是一种轻量级标记语言,它可以让我们以纯文本的形式来书写笔记、文章、文档、书籍、网页、幻灯片和 man 帮助。 本指南是常用的 AsciiDoc...

130
来自专栏地方网络工作室的专栏

打造前端 Deepin Linux 工作环境——安装最新版本的火狐firefox浏览器

打造前端 Deepin Linux 工作环境——安装最新版本的火狐firefox浏览器 尝试使用 apt-get 命令安装火狐浏览器,但是,居然是 55 的版本...

1808
来自专栏北京马哥教育

4个Linux服务器监控工具

下面是我想呈现给你的4个强大的监控工具。 htop – 交互式进程查看器 你可能知道在机器上查看实时进程的标准工具top。如果不知道,请运行$ top看看,运行...

2639
来自专栏程序生活

Python爬虫系列(五)360图库美女图片下载

这几天终于忙完毕设和学校的事情,终于有时间来写Python了(( ̄▽ ̄)~*)。前些天在群里看到有人讨论这个360美女图库 的爬取。自己今天也尝试下(蛮简单...

4274
来自专栏玄魂工作室

Hacker基础之Linux篇:基础Linux命令十五

sar(System Activity Reporter),翻译过来就是<系统活动情况报告>,是目前Linux上最为全面的系统性能分析工具之一,可以从多方面对系...

1146
来自专栏pangguoming

CentOS7 下 keepalived 的安装和配置

安装前准备: yum -y install gcc gcc-c++ autoconf automake make  yum -y install zlib zl...

1591

扫码关注云+社区