首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

centos7下安装Python爬虫框架scrapy

centos7下安装的开发工具包

2.安装pip

首先安装新的yum软件源,centos7自带的软件源没有pip

安装pip

3.安装scrapy

pip会把scrapy用的依赖包都安装好,安装完成后显示如下

pip安装scrapy 时在和下都有安装依赖包

遇到的坑:

一定先把centos7下的开发工具包都安装好,然后pip会把scrapy需要的依赖包全部安装好。如果pip安装后scrapy报错,那可能是centos的开发工具没安装完成。再用yum安装相应的工具包即可。

我第一次装完之后报错缺openssl,根据官网pip安装了pyopenssl,结果openssl装在了下,还缺很多文件,不知道什么原因

4.检查下scrapy是否安装正确

输出如下图

但这并不一定就表明安装成功了,需要再建个爬虫试试。

根据官网上的例子:

会在当前目录下自动创建一个文件夹和一堆文件

然后再spider目录下建立quotes_spider.py文件,填入以下代码:

importscrapyclassQuotesSpider(scrapy.Spider):name="quotes" #爬虫名,crawl命令用到的参数defstart_requests(self):urls=['http://quotes.toscrape.com/page/1/','http://quotes.toscrape.com/page/2/',]forurlinurls:yieldscrapy.Request(url=url,callback=self.parse)defparse(self,response):page=response.url.split("/")[-2]filename='quotes-%s.html'%pagewithopen(filename,'wb')asf:f.write(response.body)self.log('Saved file%s'%filename)

然后再tuto目录下,运行:

如果运行成功会在当前目录下新建2个文件:quotes-1.html,quotes-2.html

这个测试文件非常好,因为它很简单,就是爬到网页,存下来,如果成功就表明scrapy安装成功了。没有解析HTML文件。我自己写爬虫时也经常先把爬到的文件存下来,一是表明爬取成功了,二是看看文件的代码格式,便于解析。

scrapy的官方文档地址:https://docs.scrapy.org/en/latest/

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180608G04YKS00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券