文章/答案/技术大牛

发布

Scrapy-基于python的最常见爬虫框架-初体验

文章来源：企鹅号 - 机器学习成长笔记

数据挖掘、机器学习和人工智能的基础皆为数据，数据来源的主要方式之一即是爬虫。

今天准备体验Scrapy爬虫框架，以流水账的形式记录。

一、Scrapy的安装

实验环境：MacOS 10.13.6、Python 2.7.10

所需工具：pip

1、安装pip

mac 自带 python 2.7，所以很方便。

pip是python里的安装包，可以很方便的安装python selenium。

首先打开终端 terminal

然后输入 sudo easy_install pip 安装pip。

输入pip --version显示如下信息

//这水印也忒闹心了- -

2、安装Scrapy

成功安装pip之后可以很便捷地安装Scrapy

输入指令sudopip install Scrapy

若存在错误提示，直接将提示内容google搜索，添加关联函数即可。

安装成功后输入指令scrapy version 显示版本内容

3、坑-集锦

(1)安装p报错 six-1.4.1已存在，uninstall six 操作被拒绝，导致安装Scrapy失败。

解决方法：sudo pip installScrapy--upgrade --ignore-installed six

(2)$scrapy -h

我已经安装成功但是提示 scrapy：command not found

解决办法：

创建软连接ln -s/Users/snowman/Library/Python/2.7/bin/usr/local/bin/scrapy

为某一个文件在另外一个位置建立一个同不的链接，这个命令最常用的参数是-s,具体用法是：ln -s 源文件目标文件

至此Scrapy已成功安装，如使用python3的朋友，需安装pip3，具体方法本文不再赘述。

二、编写第一个爬虫

1、以下为我们的第一个Spider代码，保存在目录下的文件中

importscrapyclassDmozSpider(scrapy.Spider):name="dmoz"allowed_domains=["dmoz.org"]start_urls=["http://www.dmoz.org/Computers/Programming/Languages/Python/Books/","http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"]defparse(self,response):filename=response.url.split("/")[-2]withopen(filename,'wb')asf:f.write(response.body)

注意如果直接粘贴代码，会出现空白符缺少缩进问题，手动修补。

2、爬取

进入项目的根目录，执行下列命令启动spider:

scrapy crawl dmoz

输出信息如下：

注意若出现如下错误：

running Scrapy but it error: No module named _util

说明需要对pyopenssl进行更新

执行代码如下：

sudo pipinstallpyopenssl--user --upgrade

三、结语

至此我们已经完成了对Scrapy的初体验，后续会模拟实际案例，对Scrapy模型进行更加深入的了解。

发表于: 2018-10-172018-10-17 03:05:26
原文链接：https://kuaibao.qq.com/s/20181017G06JR500?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Scrapy-基于python的最常见爬虫框架-初体验

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐