centos7下安装的开发工具包
2.安装pip
首先安装新的yum软件源,centos7自带的软件源没有pip
安装pip
3.安装scrapy
pip会把scrapy用的依赖包都安装好,安装完成后显示如下
pip安装scrapy 时在和下都有安装依赖包
遇到的坑:
一定先把centos7下的开发工具包都安装好,然后pip会把scrapy需要的依赖包全部安装好。如果pip安装后scrapy报错,那可能是centos的开发工具没安装完成。再用yum安装相应的工具包即可。
我第一次装完之后报错缺openssl,根据官网pip安装了pyopenssl,结果openssl装在了下,还缺很多文件,不知道什么原因
4.检查下scrapy是否安装正确
输出如下图
但这并不一定就表明安装成功了,需要再建个爬虫试试。
根据官网上的例子:
会在当前目录下自动创建一个文件夹和一堆文件
然后再spider目录下建立quotes_spider.py文件,填入以下代码:
importscrapyclassQuotesSpider(scrapy.Spider):name="quotes" #爬虫名,crawl命令用到的参数defstart_requests(self):urls=['http://quotes.toscrape.com/page/1/','http://quotes.toscrape.com/page/2/',]forurlinurls:yieldscrapy.Request(url=url,callback=self.parse)defparse(self,response):page=response.url.split("/")[-2]filename='quotes-%s.html'%pagewithopen(filename,'wb')asf:f.write(response.body)self.log('Saved file%s'%filename)
然后再tuto目录下,运行:
如果运行成功会在当前目录下新建2个文件:quotes-1.html,quotes-2.html
这个测试文件非常好,因为它很简单,就是爬到网页,存下来,如果成功就表明scrapy安装成功了。没有解析HTML文件。我自己写爬虫时也经常先把爬到的文件存下来,一是表明爬取成功了,二是看看文件的代码格式,便于解析。
scrapy的官方文档地址:https://docs.scrapy.org/en/latest/
领取专属 10元无门槛券
私享最新 技术干货