Python3网络爬虫(五):Python3安装Scrapy

运行平台:Windows Python版本:Python3.x IDE:Sublime text3

一、Scrapy简介

    Scrapy是一个为了爬取网站数据提取结构性数据而编写的应用框架,可以应用于数据挖掘,信息处理或存储历史数据等一些列的程序中。Scrapy最初就是为了网络爬取而设计的。现在,Scrapy已经推出了曾承诺过的Python3.x版本。

    为什么学习Scrapy呢?它能我们更好的完成爬虫任务,自己写Python爬虫程序好比孤军奋战,而使用了Scrapy就好比手底下有了千军万马。Scrapy可以起到事半功倍(甚至好几倍*.*)的效果。所以,学习Scrapy也就显得很有必要了。

二、Scrapy安装

1.直接使用指令pip3 install scrapy,发现有诸多错误。

  • Failed building wheel for lxml
  • Microsoft Visual C++ 10.0 is required
  • Failed building twisted
  • Unable to find vcvarsall.bat

    遇到的错误,如下图所示:

2.解决办法

    在http://www.lfd.uci.edu/~gohlke/pythonlibs/有很多用于windows的编译好的Python第三方库,我们下载好对应自己Python版本的库即可。

    (1)在cmd中输入指令python,查看python的版本,如下:

    从上图可以看出可以看出我的Python版本为Python3.5.2-64bit。

    (2)登陆http://www.lfd.uci.edu/~gohlke/pythonlibs/,Ctrl+F搜索Lxml、Twisted、Scrapy,下载对应的版本,例如:lxml-3.7.3-cp35-cp35m-win_adm64.whl,表示lxml的版本为3.7.3,对应的python版本为3.5-64bit。我下载的版本如下图所示:

    (3)在cmd中输入DOS指令,进入下载好的whl文件夹下,例如我的三个whl文件放在了Scrapy文件夹下:

    (4)依次执行如下命令:

a.pip3 install wheel

b.pip3 install lxml-3.7.3-cp35-cp35m-win_amd64.whl

c.pip3 install Twisted-17.1.0-cp35-cp35m-win_amd64.whl

d.pip3 install Scrapy-1.3.2-py2.py3-none-any.whl

    这样Scrapy的安装就完成了,请忽略最后两行让我升级pip的信息。*.*

    (5)Srapy已经安装成功,还要下载pywin32,找到对应版本下载,一路下一步安装即可。安装完成后,就可以正常使用Scrapy了。

    URL:https://sourceforge.net/projects/pywin32/files/pywin32/Build%20220/

    至此,大功告成,我们可以愉快的使用Scrapy了。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

OLEOutlook利用:一封邮件绕过所有企业安全防控

在本文中,我会向大家展示如何通过Email将一个可执行文件嵌入到公司网络。伪装成一份Word文档,绕过防火墙,目前该问题还没有任何补丁发布! ? 今天早些时候,...

17410
来自专栏FreeBuf

判断是否支持Heartbeat的NSE脚本

服务端支持heartbeat是存在heartbleed漏洞的必要条件,如果判断出某SSL端口不支持heartbeat,那基本上就可以排除风险了。 在SSL握手...

1747
来自专栏Hadoop实操

Hue中使用Oozie创建Shell工作流在脚本中切换不同用户

前面Fayson讲过《Hue中使用Oozie创建Ssh工作流时sudo命令执行失败问题分析》,如果不在Shell脚本中使用sudo命令该如何切换到其它呢?本篇文...

3265
来自专栏九彩拼盘的叨叨叨

BEM 写法示例

BEM 是一种前端项目开发的方法学, 主要解决样式的冲突的问题,以此帮助你在前端开发中实现可复用的组件和代码共享。更详细的介绍见这里。

633
来自专栏小白安全

渗透一个网站需要做的事情

一,开始信息收集 1,获取域名的whois信息,获取注册者邮箱姓名电话等。 2,查询服务器旁站,因为主站一般比较难,所以先看看旁站有没有通用性的cm...

3189
来自专栏Albert陈凯

MAC上iTerm 2安装与使用

iTerm2是MAC下最好用的终端工具,并且还是免费的。iTerm2 是配置完毕开箱即用的 tmux,有标签变色、智能选中等特色功能。在日常开发中,我们难免会与...

352
来自专栏*坤的Blog

高效搜索

1884
来自专栏腾讯移动品质中心TMQ的专栏

腾讯TMQ在线沙龙|Robotium自动化测试介绍

Robotium自动化测试介绍 活动时间:2016年9月29日 QQ群视频交流 活动介绍:TMQ在线沙龙第九期分享 本次分享的主题是Robotium自动化测试介...

1875
来自专栏梦里茶室

java后台开发- NOTE

2015-1-6: IDEA servlet-api.jar    idea从14升级到15后,发现 import javax.servlet.AsyncCon...

1909
来自专栏大壮

如何安装和使用cocoapods来集成第三方库(实战篇) 配置初始项目 2.cocoapods的使用

1484

扫码关注云+社区