Scrapy爬取旅行家游记信息

开发工具

Python版本:3.6.4

相关模块:

scrapy模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

资料推荐

scrapy入门教程:

https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

Scrapy框架入门简介:

https://segmentfault.com/a/1190000013178839

原理简介

首先,我们在cmd窗口输入下图所示的命令,从而新建一个爬虫项目:

我们需要爬的网站是:

https://you.autohome.com.cn/index/searchkeyword#pvareaid=2174276¤tView=best

简单抓包就可以发现这个:

那么我们就爬这个吧~懒得爬其他的数据了。我们可以发现这个ajax请求返回的数据有:

该页所有游记的标题、摘要、日期、浏览量等等。

OK,明确了爬取目标之后,我们就可以开始写代码了。首先,打开爬虫项目里的item.py文件,定义一下我们要爬取的内容:

然后打开setting.py文件,定义一下请求头,并选择不遵守robots协议:

最后,在spiders文件夹内新建一个spider.py文件,并在该文件内编写我们的爬虫代码:

OK,至此,我们已经写完我们的爬虫了,是不是很简单?完整爬虫项目详见相关文件。

使用演示

cmd窗口切换到第一个autohome文件夹路径下,然后执行如下命令即可开始爬取数据并将数据保存在autohome.json文件内了:

scrapy crawl autohome -o autohome.json -t json

使用演示如下:

爬取结果:

更多

代码截止2018-09-17测试无误。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180917B1S57A00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券