Scrapy安装及简介

文章来源：企鹅号 - 数据挖掘及分析

精彩文章

文末免费领取2000G干货教程

今日分享：Scrapy安装及简介

在之前所分享的爬虫文章中，小编使用的爬虫技术路线是基于requests库来实现的，但是这远远不能满足实际工作中爬虫业务的需求。当然如果各位所在的部门统一采用requets库技术路线来进行数据采集是最好的，各位完全能招架领导布置的任务；但是，凡事总怕但是，如果各位所在部门领导决定采取结构框架更具稳定性的Scrapy技术路线来进行数据采集，各位大概要凉凉几天。因此，对于各位来说，无论是个人技术的进阶还是业务的需求，掌握这两种技术路线都是非常必要的。

Scrapy框架是一种最为流行的成熟的爬虫框架，适合用于爬取网站级别的数据，比如文章

爬取58同城房源信息并实现MongoDB数据库保存

爬取58同城房源信息时，如果要实现全网的数据采集，较为适合采取Scrapy爬虫框架，当然使用requests来实现爬取并非不行，只是显得较为单薄脆弱，下面，简单了解一下所提到的两个技术路线的差异性（仅做参考）

requests技术路线：

页面级爬虫，功能库，并发性考虑不足，性能较差，重点在于页面下载，定制灵活，上手十分简单

scrapy技术路线：

网站级爬虫，框架，并发性好，性能较高重点在于爬虫结构，一般定制灵活，深度定制困难，入门稍难

相同点：

两者都可以进行页面请求和爬取，Python爬虫的两个重要技术路线

两者可用性都好，文档丰富，入门简单两者都没有处理js、提交表单、应对验证码等功能（可扩展）

Scrapy安装

Win平台: “以管理员身份运行”cmd，执行 pip install scrapy

正常来讲，直接执行以上代码安装会报错，大概就是以下错误：Failed building wheel for Twisted，Microsoft Visual C++ 14.0 is required...

由于scrapy依赖twiste，需要提前安装twisted库，安装此哭时可通过使用whl格式的包进行安装，twisted下载地址：

https://www.lfd.uci.edu/~gohlke/pythonlibs/

点击进入搜索到该文件，下载文件时twisted文件要与Python版本保持一致，比如

Twisted‑18.4.0‑cp35‑cp35m‑win_amd64.whl 这个文件名称中间的cp35是python3.6的意思，amd64是python的位数，下载时一定要注意这一点。然后通过pip命令安装即可：pip install 加上该文件的绝对路径，绝对路径可通过下述方法查找：右键文件点击属性选择安全复制地址：

执行pip命令

操作如图示，由于小编已安装好，所以显示内容有所不同，执行完pip命令后，可自动安装

安装好twisted库后，再次执行pip install scrapy即可自行安装好scrapy库。

安装后测试：执行 scrapy ‐h

出现图示内容则说明scrapy库已安装成功

在下篇文章中会对scrapy进行详解

免费分享干货部分截图

关注公众号即可一键领取

省去找资料的麻烦为您的进阶学习保驾护航

公众号QQ群

扫QQ群二维码进交流学习群

发表于: 2018-06-202018-06-20 07:05:37
原文链接：https://kuaibao.qq.com/s/20180620G085O500?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Scrapy安装及简介

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐