高级爬虫(一):Scrapy爬虫框架的安装

Hi 小伙伴们差不多有半个月没有更新干货了,一直有点忙,而且这中间还有曲折过程,也就没有更新文章. 但今天无论如何也要更新一篇文章,接下来是爬虫高级篇重点讲解的地方!

最近会连载Scrapy由浅入深讲解.欢迎关注,持续连载!

  1. 介绍Scrapy,以及安装Scrapy
  2. Scrapy初级使用
  3. Scrapy 高级使用
  4. Scrapy 爬虫实战

为什么要学习Scrapy

Scrapy是一个爬虫框架,通过这个爬虫框架,我们能很快的构建出一个强大的爬虫工具! 一般大型爬虫服务都会使用Scrapy 进行爬虫,我们甚至在这个框架基础上进行一些修改,来定制自己的爬虫框架!

Scrapy学前准备

  • 前期的基础,Python基础
  • Python抓取数据的三种方式:Re, Xpath,Bs4
  • 保存数据:数据库,本地

安装Scrapy

首先说明一下,这个网站 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 需要的一些资源都已经无效了,这也导致网上大部分安装Scrapy的方法都失效了

接下来说一下我是怎么安装的:

win环境安装,这里我是用 Python 3.6.4 32位版本 这个一定要注意对应版本,防止出错

  1. 安装pywin32 ,安装地址:http://sourceforge.net/projects/pywin32/ 选择File 然后查找你对应的python版本 win32环境. 这里一定要注意你的python版本.安装成功后,在Python命令行下输入 import win32com 如果报错则说明安装成功.
  2. 安装pyOpenSSL :pip install pyOpenSSL
  3. 安装lxml:使用pip install lxml
  4. 安装Scrapy : 使用pip install Scrapy

重来来了

我是在安装第四步的时候出现了Twisted安装失败,提示需要VS C++ 14 ,miscrosoft build tool 打开这个网站下载vs 2017 生成工具.

https://www.visualstudio.com/zh-hans/downloads/?rr=http%3A%2F%2Flandinghub.visualstudio.com%2Fvisual-cpp-build-tools

下载完成后,双击下载的文件,然后会提示勾选

然后就是漫长的下载vs build tools工具了. 我大概花了一个小时时间来安装吧,最后把这个vs 2017 build tools工具安装完毕后,提示重启,我重启完后,再打开cmd 然后输入 pip install Scrapy 运行,最后提示安装成功,终于搞定了!

原文发布于微信公众号 - Python绿色通道(Future_coder)

原文发表时间:2018-04-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏猿人谷

Linux下的Telnet设置方法介绍

linux 下telnet的设置 2007-03-18 21:35 Telnet服务的配置步骤如下: 一、安装telnet软件包(通常要两个) 1、 telne...

3448
来自专栏崔庆才的专栏

分布式爬虫的部署之Scrapyd-Client的使用

2433
来自专栏运维小白

安装nginx出现的问题

问题一 初始化的时候,提示没有这个文件 [root@localhost src]# ./configure --prefix=/usr/local/nginx ...

2136
来自专栏Ryan Miao

Javascript跨域后台设置拦截

子域名之间互相访问需要跨域 结论放在开头: 服务端必须设置允许跨域 客户端带cookie需要设置withCredentials 无论服务端是否允许跨域,该req...

2788
来自专栏云计算教程系列

使用CVM搭建FileRun私人网盘

FileRun是由PHP编写的文件管理器和文件共享程序,可帮助您访问,整理,查看和编辑文件。您可以将其与Office文档,照片,音乐等文件一起使用。在本教程中,...

45411
来自专栏程序员同行者

scrapy 框架入门

官网:https://docs.scrapy.org/en/latest/intro/overview.html

632
来自专栏农夫安全

DiscuzX v3.4 任意文件删除漏洞

漏洞影响 DiscuzX版本 ≤ v3.4 官方于9月29日修复该漏洞: https://gitee.com/ComsenzDiscuz/DiscuzX/com...

3696
来自专栏Java后端技术

[转]阿里巴巴数据库连接池 druid配置详解

  java程序很大一部分要操作数据库,为了提高性能操作数据库的时候,又不得不使用数据库连接池。数据库连接池有很多选择,c3p、dhcp、proxool等,dr...

5673
来自专栏点滴积累

geotrellis使用(三十一)使用geotrellis直接将GeoTiff发布为TMS服务

前言 传统上我们需要先将Tiff中存储的影像等数据先切割成瓦片,而后再对外提供服务。这样的好处是服务器响应快,典型的用空间来换时间的操作。然而这样造成的问题是空...

3069
来自专栏北京马哥教育

Linux进程及作业管理

一、进程查看及其管理工具 ps命令:报告当前进程的快照信息 ps - report a snapshot of the current processes....

3525

扫码关注云+社区

领取腾讯云代金券