Python 爬虫基础 — 介绍 + 环境搭建(不含代码级别资料)

目的

  • 团队有人想学,我以前刚好有记录一些东西,所以整理下,省得多走路。
  • 主要是一个引导。

Python 介绍

开发环境准备

Python 下载和安装

  • 官网下载地址:https://www.python.org/downloads/
  • Python 安装包在 Windows 安装就是下一步下一步,没啥好讲的,因为我们说的是 Python 的爬虫,所以这里有另外一个软件推荐:Anaconda
    • 注意: 这里不推荐安装 Python 包,因为我们有其他发行版本推荐,如下。

Anaconda 介绍、安装

  • 我的个人环境:Windows、Mac
  • Anaconda 官网下载:https://www.anaconda.com/download/
    • Anaconda 内置了 Python,所以安装了 Anaconda 就包括了 Python,所以前面才说不需要先安装 Python。
    • Anaconda 内置的 Python 也有 Python 2 和 Python 3 的差别,这里推荐内置 Python 3 的版本。
    • 安装包有 537M 左右,推荐用百度云离线下载,然后再下载到本地。
    • 如果嫌麻烦,需要下载 Anaconda3-5.1.0-Windows-x86_64.exe 可以使用该链接(密码:ylrq):https://pan.baidu.com/s/1oUe4-Rfu2vxYQEY0Wz2rTw

Anaconda 是一个用于科学计算的 Python 发行版,支持 Linux, Mac, Windows 系统,提供了包管理与环境管理的功能,可以很方便地解决多版本 python 并存、切换以及各种第三方包安装问题。Anaconda 利用工具 / 命令 conda 来进行 package 和 environment 的管理,并且已经包含了 Python 和相关的配套工具。

Windows 用户
  • Windows 安装过程都是下一步下一步,稍微有一个点需要特别注意的是:
    • 关闭安全类软件
    • 不要修改安装存放路径
    • 勾选(即使它不推荐):Add Anaconda to the system PATH environment variable
    • 安装过程时间有点长,需要 5 ~ 10 分钟
  • 安装 Anaconda 后可以用 conda 来管理 python 包了,所以后面安装一些包都会用到 conda 命令。
  • 安装完后打开 cmd,输入:
    • python --version 验证下版本信息
    • conda --v 验证下版本信息
Mac 用户
  • Mac 默认自带了 Python 2,所以安装完 Anaconda 没有同时安装 Python3,需要你自己安装下:brew install python3(后面我再用我的 Mac 再完善下,以前的安装细节忘记了)
  • 需要设置环境,我是 zsh:vim ~/.zshrc
  • 设置完后刷新配置:source ~/.zshrc
# Anaconda
PATH=$PATH:/Users/你的用户名/anaconda/bin
export PATH
如果是 Linux 用户
  • 下载的是 sh 文件:Anaconda3-5.1.0-Linux-x86_64.sh
  • 先安装解压包工具:yum install -y bzip2
  • 接着给安装文件赋权:chmod +x Anaconda3-5.1.0-Linux-x86_64.sh
  • 然后开始安装:sh Anaconda3-5.1.0-Linux-x86_64.sh 会出现一个命令行的安装交互过程。
  • root 用户默认是安装在:/root/anaconda3
  • 安装完后:
    • 需要设置环境,我是 zsh:vim ~/.zshrc
    • 设置完后刷新配置:source ~/.zshrc
# Anaconda
PATH=$PATH:/root/anaconda3/bin
export PATH

Anaconda 国内加速镜像

  • 类似于其他所有常见的包管理,比如:yum,apt-get,pip,npm,mvn 等等,这些都是外国人的事情,我们连上超外网地址速度都很慢,所以以上的包管理都有国内加速方法。
  • Anaconda 的 conda 也有类似的加速,具体可以看:https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/
  • 详细方法如下:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes

Python 现阶段主流的包管理工具 pip(pypi) 介绍

pip 是一个安装和管理 Python 包的工具,python 安装包的工具有 easy_install, setuptools, pip,distribute 等。distribute 是 setuptools 的替代品,是对标准库 disutils 模块的增强,我们知道 disutils 主要是用来更加容易的打包和分发包,特别是对其他的包有依赖的包。distribute 被创建是因为 Setuptools 包不再维护了。而 pip 是 easy_install 的替代品。来源

  • 粗暴地讲类似:yum,apt-get,npm,mvn,这样你应该就好理解点。
  • 清华的镜像加速:https://mirrors.tuna.tsinghua.edu.cn/help/pypi/
  • 找到 pip 配置文件:
    • ~/.config/pip/pip.conf (Linux)
    • %APPDATA%\pip\pip.ini (Windows 10)
    • $HOME/Library/Application Support/pip/pip.conf (macOS) (没有就创建一个)
  • 修改配置文件里面 index-url 参数
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple

安装爬虫需要的一些包

  • 打开 cmd,输入:python 回车,此时会进入交互输入状态。
  • Anaconda 已经自带了 urllib、urllib.request、re 的包,所以这里就不需要安装了。
  • 安装 requests 包:pip install -v requests
    • -v 参数可以查看安装过程
  • 安装 selenium 包:pip install selenium
  • 安装 lxml 包:pip install lxml
  • 安装 beautifulsoup4 包:pip install beautifulsoup4
  • 安装 pyquery 包:pip install pyquery
  • 安装 pymysql 包:pip install pymysql
  • 安装 pymongo 包:pip install pymongo
  • 安装 redis 包:pip install redis
  • 安装 jupyter 包:pip install jupyter
  • 安装 pyspider 包:pip install pyspider
  • 安装 flask 包:pip install flask
  • 安装 scrapy 包(过程会比较久):conda install scrapy
  • 安装 django 包(过程会比较久):pip install django

安装爬虫需要的一些工具

ChromeDriver

  • 下载地址:https://sites.google.com/a/chromium.org/chromedriver/downloads
  • 需要注意: 下载的版本需要和你本机的 Chrome 浏览器版本匹配,注意看它的版本说明,不然在使用的过程可能会报兼容问题
  • 下载完成后放在这个目录下:C:\ProgramData\Anaconda3\Scripts

phantomjs

  • Windows 用户
    • phantomjs 下载地址(17.35M):http://phantomjs.org/download.html
    • 下载下来是一个压缩包,进行解压。
    • 解压出来,里面有一个子目录 bin,该目录下有一个 exe 文件。需要把这个 exe 的所在这个 bin 目录加到系统变量 path 中。
    • 假设你已经加入到 path 中了,打开 cmd 中输入:phantomjs 会进入 phantomjs 的命令行交互界面中。
  • Linux 用户
    • 安装依赖包:yum install -y libXext libXrender fontconfig libfontconfig.so.1
    • 还是那个压缩包,假设我解压到 /usr/local 目录下:tar jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2
    • 我用的是 zsh,所以增加 path 方法:vim ~/.zshrc
    • 修改后,刷新配置:source ~/.zshrc
# phantomjs
PATH=$PATH:/usr/local/phantomjs-2.1.1-linux-x86_64/bin
export PATH

最后

  • 关于 Python 爬虫代码级别的材料我后面在开个 Github 陆续补,也跟同事一起弄弄。
  • 因为工作环境是 Java,所以 Python 的代码只是用用而已,并不精,以后分享出来,还需要业界人士多帮忙成长。
  • 以上。

其他材料

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏拂晓风起

Firefox做默认浏览器,点击QQ面板连接(QQ邮箱,空间),延迟很久很久才打开网页(Firefox 浏览器 延迟 打开 点击没反应)

1154
来自专栏子勰随笔

Android开发调试常用工具

2408
来自专栏WindCoder

Ubuntu 13.10下使用QQ,适用于14.10

最近发现Ubuntu提示wineqq2013版本过旧无法使用,同时wineQQ又没有更新,只好寻找新的解决方案,于是有了如下几个选择,现奉献给大家。

451
来自专栏自由而无用的灵魂的碎碎念

查看服务时提示“一个或多个ActiveX控件无法显示”的解决方法

一个或多个ActiveX控件无法显示,原因可能是下列其中之一: 1)当前安全设置禁止运行此页面中的ActiveX控件,或 2)您已经阻止了其中一个...

953
来自专栏石奈子的Java之路

原 荐 Java9之Jshell入门

1845
来自专栏Python小屋

使用Anaconda3配置多版本Python虚拟开发环境详细步骤

有时候,为了使用比较干净的开发环境,或者为了测试一些版本的扩展库,我们可能需要创建虚拟开发环境,在不同的虚拟开发环境中,只安装需要的扩展库,这样可以最大程度上减...

2995
来自专栏python学习之旅

Python Appium笔记(一):Appium Android环境配置及示例

1235
来自专栏菩提树下的杨过

eclipse: workspace出错导致无法启用的解决

通常我们会在eclipse中创建多个workspace,比如一个用于学习,一个用于工作... ,因为种种原因,时不时会发现eclipse切换workspace后...

2318
来自专栏一个爱瞎折腾的程序猿

windows下react-native环境搭建

到android-studio下载SDK。 运行installer_r24.4.1-windows.exe安装、或zip解压出来的SDK Manager.ex...

1122
来自专栏Laoqi's Linux运维专列

tomcat manager 403问题

1723

扫码关注云+社区