Python中文社区
Python爬虫框架资源集合,包括Scrapy、PySpider等
关注作者
前往小程序,Get
更优
阅读体验!
立即前往
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Python中文社区
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
社区首页
>
专栏
>
Python爬虫框架资源集合,包括Scrapy、PySpider等
Python爬虫框架资源集合,包括Scrapy、PySpider等
Python中文社区
关注
发布于 2018-01-31 12:21:52
1.8K
0
发布于 2018-01-31 12:21:52
举报
文章被收录于专栏:
Python中文社区
scrapy
- 最出名的网络爬虫,一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
官方主页
,
Scrapy 轻松定制网络爬虫 - 教程
,
Scrapy 中文指南
。
BeautifulSoup
- Beautifu Soup不完全是一套爬虫工具,需要配合urllib使用,而是一套HTML/XML数据分析,清洗和获取工具。
python-goose
- Python-Goose用Python重写,依赖了Beautiful Soup。给定一个文章的URL, 获取文章的标题和内容很方便。Python-goose的目标是给定任意资讯文章或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片等信息,支持中文网页。
newspaper
- 是用
于
进行新闻提取、文章提取和内容爬取的开源框架。
Portia -
是一个让你可视化爬取网站的工具,不需要任何编程知识,你可以通过注释所需网页来提取数据。
grab
- 是一个网页爬虫抓取框架,grab为异步处理数据提供了多种有效的方法
demiurge
- 是一个基于PyQuery的爬虫微框架,支持Python 2.x and 3.x
pyspider
- PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。
PyQuery
- 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。
Crawley
- 是基于Eventlet的高速爬虫框架。支持关系型和非关系型数据库如mongodb、Postgre, Mysql, Oracle, Sqlite等,支持输出Json, XML 和CSV等各种格式。
本文参与
腾讯云自媒体同步曝光计划
,分享自微信公众号。
原始发表:2016-09-04,如有侵权请联系
cloudcommunity@tencent.com
删除
python
爬虫
scrapy
本文分享自
Python中文社区
微信公众号,
前往查看
如有侵权,请联系
cloudcommunity@tencent.com
删除。
本文参与
腾讯云自媒体同步曝光计划
,欢迎热爱写作的你一起参与!
python
爬虫
scrapy
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
LV.
文章
0
获赞
0
相关产品与服务
关系型数据库
产品介绍
精选特惠 用云无忧
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐