Python Scrapy 爬虫(一):环境搭建

Life is short, I use Python

  三年前的一天,我在灵隐寺求佛时,偶遇一高僧,法号智息。大师见我眉头紧皱,心事重重,于是便主动上前来开导我。大师充满智慧地告诉我了一句真理:“人生苦短,及时行乐。”

  在大师的点化之下,我顿感拨云见日,豁然开朗...于是我潜心修练,终于悟出了人生的终极奥义:“人生苦短,我用 Python”。

  闲言碎语不再谈,今天开始带来 Python Scrapy 爬虫系列分享。

一、准备工作

1.知识储备

本系列需要少量的 Python 基础,少量网络知识,少量数据库知识,少量 git 知识即可。

2.开发环境

Windows 10 x64

Python 3.6.4

MySQL 5.7

PyCharm

3.第三方库

virtualenv

virtualenvwrapper

  virtualenv 是 Python 的虚拟环境工具,你可以这么理解:某位法力高强的大仙为了避免两个猎人在同一个猎场里起冲突(抢资源或误伤),于是他使用强大的法力把那个猎场复制一份,让每个猎人一个猎场,大家相安无事。virtualenv 就类似于这位大仙,当大仙复制的猎场越来越多的时候,他感觉有点乱,有点烦,于是他找了个小助手来帮他管理他创建出来的猎场,这个小助手就好比 virtualenvwrapper。

注:

(1)虽然不用安装 virtualenv 与 virtualenvwrapper 也可以正常使用 python。但还是建议使用,至于原因嘛,请看上面那段话。

(2)用到的其他第三方库等需要用到的时候再安装

二、开始搭建

1.安装 Python

windows 下的软件安装过于简单在此不作详解,只列举几个关键点

软件包下载地址

推荐为所有用户安装

都打勾并点自定义安装

添加环境变量

红框处打勾

验证安装

打开 cmd 窗口,输入如下命令:

如果出现了版本信息而没有提示无此命令,表示 Python 安装成功

安装校验

注:如果没有特殊需要,建议按照图中所示安装。如果你有其他平台如 MacOS/Linux 上的安装需求,请收看番外篇关于各平台 Python 多版本共存的分享。

2.MySQL 安装

Windows 上的 MySQL 安装同样非常简单,同上略过详细过程,列出几点注意。

软件包下载地址

MySQL 下载

点击 "Download" 后,在跳转后的页面点击 "No thanks,just start my download" 即可开始下载

注:这里的版本不一定完全一样,但可以尽量保持一致

安装注意

设置 root 密码并记住它~

3.PyCharm 安装

PyCharm 是 Python 的一款专用 IDE,功能强大,且非常好用,强烈推荐。下载 Community 版可免费使用。

下载地址:

安装过程此处省略,按照导航安装即可。

4安装 virtualenv 和 virtualenvwrapper

4.1 安装 virtualenv

安装 virtualenv

打开一个 CMD 窗口,输入如下命令安装

注:如果执行上面命令安装时报错没有权限,请在打开 CMD 窗口时,右键 "cmd.exe" -> "以管理员身份运行" 即可

验证 virtualenv

执行如下命令验证安装,如果看见 virtualenv 显示,说明安装成功,可以看到已成功安装了 16.0.0 版本

使用 virtualenv

(1) 创建一个 virtualenv

示例,如下命令表示在当前目录下创建一个名叫 scrapy_spider 的目录(虚拟环境),该目录下包含了独立的 Python 运行程序,pip 包管理工具

(2) 切换到虚拟环境

如下示例,切换到创建的虚拟环境的 Scripts 目录下:

执行如下命令切换到虚拟环境:

切换后,前面有个括号,里面标了虚拟环境目录。

查看切换到虚拟环境后的 Python 和 pip

退出虚拟环境

4.2 安装 virtualenvwrapper-win

执行如下命令安装 virtualenvwrapper-win

注:安装需要在非虚拟环境下进行

执行如下命令验证安装

创建虚拟机

安装好 virtualenvwrapper-win 后,可以按如下示例的方法创建一个虚拟环境

注:创建虚拟环境完成后,会自动切换到创建的虚拟环境中

使用 workon 命令

使用 workon 命令可以查看和切换虚拟环境:

(1) 查看虚拟环境,单独执行 workon 命令就是查看当前已经通过 mkvirtualenv 创建的虚拟环境

(2) 切换虚拟环

使用 workon [virtual-name] 即可切换到对应的虚拟环境

(3) 退出虚拟环境

在虚拟环境中,使用 deactivate 即可退出虚拟环境

(4) workon home

安装完 virtualenvwrapper-win 后,创建的虚拟机的默认目录在当前 windows 用户目录下的 Envs 目录中

删除虚拟环境

如下示例:

注:

a.使用 rmvirtualenv 命令进行删除,必须要指定存放在 WORKON_HOME 中的虚拟环境,如果是在其他目录,该命令不能删除

b.也可以直接使用操作系统删除目录命令直接删除目录

总结:到此,一个基本的爬虫所具备的环境就搭建好了。预告,下一篇,我们将开始爬虫的编码之旅。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180524G09C8500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券