学习
实践
活动
工具
TVP
写文章

Scrapy安装及简介

精彩文章

文末免费领取2000G干货教程

今日分享:Scrapy安装及简介

在之前所分享的爬虫文章中,小编使用的爬虫技术路线是基于requests库来实现的,但是这远远不能满足实际工作中爬虫业务的需求。当然如果各位所在的部门统一采用requets库技术路线来进行数据采集是最好的,各位完全能招架领导布置的任务;但是,凡事总怕但是,如果各位所在部门领导决定采取结构框架更具稳定性的Scrapy技术路线来进行数据采集,各位大概要凉凉几天。因此,对于各位来说,无论是个人技术的进阶还是业务的需求,掌握这两种技术路线都是非常必要的。

Scrapy框架是一种最为流行的成熟的爬虫框架,适合用于爬取网站级别的数据,比如文章

爬取58同城房源信息并实现MongoDB数据库保存

爬取58同城房源信息时,如果要实现全网的数据采集,较为适合采取Scrapy爬虫框架,当然使用requests来实现爬取并非不行,只是显得较为单薄脆弱,下面,简单了解一下所提到的两个技术路线的差异性(仅做参考)

requests技术路线:

页面级爬虫,功能库,并发性考虑不足,性能较差,重点在于页面下载,定制灵活,上手十分简单

scrapy技术路线:

网站级爬虫,框架,并发性好,性能较高重点在于爬虫结构,一般定制灵活,深度定制困难,入门稍难

相同点:

两者都可以进行页面请求和爬取,Python爬虫的两个重要技术路线

两者可用性都好,文档丰富,入门简单两者都没有处理js、提交表单、应对验证码等功能(可扩展)

Scrapy安装

Win平台: “以管理员身份运行”cmd,执行 pip install scrapy

正常来讲,直接执行以上代码安装会报错,大概就是以下错误:Failed building wheel for Twisted,Microsoft Visual C++ 14.0 is required...

由于scrapy依赖twiste,需要提前安装twisted库,安装此哭时可通过使用whl格式的包进行安装,twisted下载地址 :

https://www.lfd.uci.edu/~gohlke/pythonlibs/

点击进入搜索到该文件,下载文件时twisted文件要与Python版本保持一致,比如

Twisted‑18.4.0‑cp35‑cp35m‑win_amd64.whl 这个文件名称中间的cp35是python3.6的意思,amd64是python的位数,下载时一定要注意这一点。然后通过pip命令安装即可:pip install 加上该文件的绝对路径,绝对路径可通过下述方法查找:右键文件点击属性选择安全复制地址:

执行pip命令

操作如图示,由于小编已安装好,所以显示内容有所不同,执行完pip命令后,可自动安装

安装好twisted库后,再次执行pip install scrapy即可自行安装好scrapy库。

安装后测试:执行 scrapy ‐h

出现图示内容则说明scrapy库已安装成功

在下篇文章中会对scrapy进行详解

免费分享干货部分截图

关注公众号即可一键领取

省去找资料的麻烦为您的进阶学习保驾护航

公众号QQ群

扫QQ群二维码进交流学习群

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180620G085O500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券