本文参考以下文章,并经由部分翻译和内容编辑而成。
原创作者:Gregory Petukhov
本文内容参考Github:https://github.com/lorien/awesome-web-scraping/blob/master/python.md
全文阅读需要2分钟
大家常说Python是爬虫非常好的工具,其实是有原因的。Python拥有非常丰富的库可以使用,各种能想到的工具早已由牛人造出轮子,我们利用这些便利舒服的写着我们的爬虫。可能因为学习和工作的局限性,我们只知道常用的库,其实很多非常优秀的库也非常值得我们深究和学习,那么到底Python的库能丰富到什么程度?
本次与分大家分享关于网络爬虫的相关库以及介绍,希望爬虫的爱好者们在爬虫的路上越走越远,成为爬虫界的大佬。
1
网络
爬虫中通用的网络库
2
网络爬虫框架
爬虫中比较流行的开源框架
3
HTML/XML解析器
爬虫中解析库工具
通用
4
文本处理
用于解析和操作简单文本的库
通用
转换
字符编码
Slug化
通用解析器
人的名字
电话号码
用户代理字符串
5
特定格式处理
解析和处理特定文本格式的库
通用
Office
Markdown
YAML
CSS
ATOM/RSS
SQL
HTTP
微格式
可移植的执行体
PSD
6
自然语言处理
处理人类语言问题的库
7
浏览器自动化仿真
浏览器自动化工具
8
多重处理
多进程多线程的工具库
9
异步
异步网络编程库
10
队列
爬虫中关于队列的库
11
云计算
关于云计算的两个库
12
电子邮件
电子邮件解析库
13
URL和网络地址
解析/修改网址和网络地址库
URL
网络地址
14
网页内容提取
提取网页内容的库
HTML页面的文本和元数据
HTML页面元数据
HTML页面的文本/数据
图像
视频
维基
15
WebSocket库
用于WebSocket的库
16
DNS解析
DNS解析库
17
计算机视觉
计算机视觉(CV)的库
18
其它Python工具
其它分类的一些好用的库
以上就是本次分享的内容,每一个库都有相应的github链接,具体内容请参考本文开头的原文链接。
最后想说的是,工具库非常多,且每个库都有自己的特点,我们不必全部掌握,也没有那个精力和时间,根据需求选择。但是作为爬虫学习,我们可以看看别人具体是如何实现的,以及发现一些好的想法,这对于我们自己的提升是非常有帮助的。