awesome系列真是碉堡了~今天把Python的爬虫工具搬过来~
——————译文分割线——————
本列表包含Python网页抓取和数据处理相关的库。
网络相关
通用
异步
网络爬虫框架
全能型爬虫
其他
HTML/XML解析
通用
清理
文本处理
解析及操作文本的库
通用
转换
字符编码
Slug化
通用解析器
人名
电话号码
用户代理字符串
特殊格式处理
处理特编辑特殊字符格式的库
通用
Office
Markdown
YAML
CSS
ATOM/RSS
SQL
HTTP
Microformats
可移植的执行体
PSD
自然语言处理
自然语言处理库
浏览器自动化与仿真
浏览器
Headless工具
多进程并发
异步
异步网络编程库
队列
云计算
电子邮件
电子邮件处理库
URL和网络地址操作
URL和网络地址操作库
URL
网络地址
网页内容提取
网页内容提取库
HTML页面的文本和元数据
视频
Wiki
WebSocket
用于WebSocket的库
DNS解析
计算机视觉
杂项
其他
作者:地球的外星人君 来源:https://zhuanlan.zhihu.com/p/28407245 备注:所有资源均有相关链接,由于微信公众号不支持插入外链,如有需要请复制原文链接到浏览器查看