本文章针对于整个【Python爬全网(1000例)】相关的文章进行环境的统一讲解,如果有遗漏的环境未提供请私信或者留言,我看到后会在最短时间将其补充完整,本文章在专栏中置顶,期望可以持续的为大家创造价值。
系统环境:win11 开发工具:PyCharm Community Edition 2022.3.1 Python版本:Python 3.9.6 资源地址:链接:https://pan.baidu.com/s/1UZA8AAbygpP7Dv0dYFTFFA 提取码:7m3e
我们选择使用系统的Python,这样我们后面打包的时候就会方便很多。
注:这里如果没有选系统的位置的话就得在项目中单独下载对应的库,下面我给了示例,如果不在乎的话是无所谓的最多再下载一遍也能用。
我这里用没有使用系统库的菜单显示效果,会在项目中有一个【venv】文件夹。
在上图中我们引入【requests】的时候能看到有一个红色的下划线,代表我们选定的这个库中还没有,我们需要去下载,下载我们会通过其中的【pip】进行下载,在site-packages中我们能看到pip的文件夹。
我们需要在【cmd】中执行
【pip install --upgrade pip】与【pip install -U pip】效果是一样的。
我升级过了,就不点了,大家直接执行就行,如果下载的慢可以参考我下面的代码以及修改镜像的方法。
pip config set global.index-url https://repo.huaweicloud.com/repository/pypi/simple
pip config list
pip install -U pip
pip3 config set global.index-url https://repo.huaweicloud.com/repository/pypi/simple
pip3 config list
pip3 install -U pip
python -m pip config set global.index-url https://repo.huaweicloud.com/repository/pypi/simple
python -m pip config list
python -m pip install -U pip
pip和pip3版本不同,但都位于Scripts\目录下。 系统中只安装了python2,那么就只能使用pip,pip3同理。 若只存在一个python版本,可以认为在用系统中pip和pip3命令都是相同的。
1、requests 用于请求与响应 2、pyinstaller 用于打包exe文件 3、aiohttp 用于异步处理请求与响应 4、parsel 解析数据 5、tqdm 进度条 6、pymysql 数据库操作 其它的库都是系统自带的,我使用的是Python3.9.6的环境。可视化是【tkinter】。
系统自带的【urllib】和【urllib2】都提供了功能强大的HTTP支持,但是API接口确实太难用了。requests作为更高一层的封装,相对【requests】的介绍语中【HTTP for Humans】(为人类准备的HTTP库)。 【requests】是一个基于Apache2协议开源的Python HTTP库,我们后面请求数据的时候都会使用这个,无论是get还是post。
pip3 install requests
查看库列表【pip3 list】,可以看到requests下载成功。我这里已经安装过了,咱们直接执行就行了。
pyinstaller用于我们打包程序,可以在上面的【pip list】列表里面可以看到。
pip install pyinstaller
aiohttp可以理解成是和requests对应Python异步网络请求库,它是基于 asyncio 的异步模块,可用于实现异步爬虫,有点就是更快于 requests 的同步爬虫。
pip install aiohttp
selenium不使用,毕竟还是模拟,我们的操作是获取数据,模拟操作是可以,但是个人学会就行,自己开服务自己跑,我不喜欢用,有那个时间我还是喜欢对接接口。
parsel用于解析requests响应回来字符串数据,通过【re】、【xpath】、【css】的方式进行数据筛选。
pip install parsel
下载过程与pip list列表
tqdm这个是进度条,我们后面用得上。
pip install tqdm
下载成功:
注:下载的包我们都能在项目中找到,因为我们项目用的就是系统的库。
pymysql是用来存储数据的。
pip install pymysql
注:如果不修改镜像为国内,很多的时候下载很慢,但是放心,下载个几十遍也就下来了,中间超时不用太在意,重新下。