开发工具
Python版本:3.6.4
相关模块:
scrapy模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
资料推荐
scrapy入门教程:
https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html
Scrapy框架入门简介:
https://segmentfault.com/a/1190000013178839
原理简介
首先,我们在cmd窗口输入下图所示的命令,从而新建一个爬虫项目:
我们需要爬的网站是:
https://you.autohome.com.cn/index/searchkeyword#pvareaid=2174276¤tView=best
简单抓包就可以发现这个:
那么我们就爬这个吧~懒得爬其他的数据了。我们可以发现这个ajax请求返回的数据有:
该页所有游记的标题、摘要、日期、浏览量等等。
OK,明确了爬取目标之后,我们就可以开始写代码了。首先,打开爬虫项目里的item.py文件,定义一下我们要爬取的内容:
然后打开setting.py文件,定义一下请求头,并选择不遵守robots协议:
最后,在spiders文件夹内新建一个spider.py文件,并在该文件内编写我们的爬虫代码:
OK,至此,我们已经写完我们的爬虫了,是不是很简单?完整爬虫项目详见相关文件。
使用演示
cmd窗口切换到第一个autohome文件夹路径下,然后执行如下命令即可开始爬取数据并将数据保存在autohome.json文件内了:
scrapy crawl autohome -o autohome.json -t json
使用演示如下:
爬取结果:
更多
代码截止2018-09-17测试无误。
领取专属 10元无门槛券
私享最新 技术干货