精彩文章
文末免费领取2000G干货教程
今日分享:Scrapy安装及简介
在之前所分享的爬虫文章中,小编使用的爬虫技术路线是基于requests库来实现的,但是这远远不能满足实际工作中爬虫业务的需求。当然如果各位所在的部门统一采用requets库技术路线来进行数据采集是最好的,各位完全能招架领导布置的任务;但是,凡事总怕但是,如果各位所在部门领导决定采取结构框架更具稳定性的Scrapy技术路线来进行数据采集,各位大概要凉凉几天。因此,对于各位来说,无论是个人技术的进阶还是业务的需求,掌握这两种技术路线都是非常必要的。
Scrapy框架是一种最为流行的成熟的爬虫框架,适合用于爬取网站级别的数据,比如文章
爬取58同城房源信息并实现MongoDB数据库保存
爬取58同城房源信息时,如果要实现全网的数据采集,较为适合采取Scrapy爬虫框架,当然使用requests来实现爬取并非不行,只是显得较为单薄脆弱,下面,简单了解一下所提到的两个技术路线的差异性(仅做参考)
requests技术路线:
页面级爬虫,功能库,并发性考虑不足,性能较差,重点在于页面下载,定制灵活,上手十分简单
scrapy技术路线:
网站级爬虫,框架,并发性好,性能较高重点在于爬虫结构,一般定制灵活,深度定制困难,入门稍难
相同点:
两者都可以进行页面请求和爬取,Python爬虫的两个重要技术路线
两者可用性都好,文档丰富,入门简单两者都没有处理js、提交表单、应对验证码等功能(可扩展)
Scrapy安装
Win平台: “以管理员身份运行”cmd,执行 pip install scrapy
正常来讲,直接执行以上代码安装会报错,大概就是以下错误:Failed building wheel for Twisted,Microsoft Visual C++ 14.0 is required...
由于scrapy依赖twiste,需要提前安装twisted库,安装此哭时可通过使用whl格式的包进行安装,twisted下载地址 :
https://www.lfd.uci.edu/~gohlke/pythonlibs/
点击进入搜索到该文件,下载文件时twisted文件要与Python版本保持一致,比如
Twisted‑18.4.0‑cp35‑cp35m‑win_amd64.whl 这个文件名称中间的cp35是python3.6的意思,amd64是python的位数,下载时一定要注意这一点。然后通过pip命令安装即可:pip install 加上该文件的绝对路径,绝对路径可通过下述方法查找:右键文件点击属性选择安全复制地址:
执行pip命令
操作如图示,由于小编已安装好,所以显示内容有所不同,执行完pip命令后,可自动安装
安装好twisted库后,再次执行pip install scrapy即可自行安装好scrapy库。
安装后测试:执行 scrapy ‐h
出现图示内容则说明scrapy库已安装成功
在下篇文章中会对scrapy进行详解
免费分享干货部分截图
关注公众号即可一键领取
省去找资料的麻烦为您的进阶学习保驾护航
公众号QQ群
扫QQ群二维码进交流学习群
领取专属 10元无门槛券
私享最新 技术干货