centos7下安装Python爬虫框架scrapy

文章来源：企鹅号 - 梦想梦圆

centos7下安装的开发工具包

2.安装pip

首先安装新的yum软件源，centos7自带的软件源没有pip

安装pip

3.安装scrapy

pip会把scrapy用的依赖包都安装好，安装完成后显示如下

pip安装scrapy 时在和下都有安装依赖包

遇到的坑：

一定先把centos7下的开发工具包都安装好，然后pip会把scrapy需要的依赖包全部安装好。如果pip安装后scrapy报错，那可能是centos的开发工具没安装完成。再用yum安装相应的工具包即可。

我第一次装完之后报错缺openssl，根据官网pip安装了pyopenssl，结果openssl装在了下，还缺很多文件，不知道什么原因

4.检查下scrapy是否安装正确

输出如下图

但这并不一定就表明安装成功了，需要再建个爬虫试试。

根据官网上的例子：

会在当前目录下自动创建一个文件夹和一堆文件

然后再spider目录下建立quotes_spider.py文件，填入以下代码：

importscrapyclassQuotesSpider(scrapy.Spider):name="quotes" #爬虫名，crawl命令用到的参数defstart_requests(self):urls=['http://quotes.toscrape.com/page/1/','http://quotes.toscrape.com/page/2/',]forurlinurls:yieldscrapy.Request(url=url,callback=self.parse)defparse(self,response):page=response.url.split("/")[-2]filename='quotes-%s.html'%pagewithopen(filename,'wb')asf:f.write(response.body)self.log('Saved file%s'%filename)

然后再tuto目录下，运行：

如果运行成功会在当前目录下新建2个文件：quotes-1.html，quotes-2.html

这个测试文件非常好，因为它很简单，就是爬到网页，存下来，如果成功就表明scrapy安装成功了。没有解析HTML文件。我自己写爬虫时也经常先把爬到的文件存下来，一是表明爬取成功了，二是看看文件的代码格式，便于解析。

scrapy的官方文档地址：https://docs.scrapy.org/en/latest/

发表于: 2018-06-082018-06-08 04:44:12
原文链接：https://kuaibao.qq.com/s/20180608G04YKS00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

centos7下安装Python爬虫框架scrapy

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐