首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >9个用来爬取网络站点的 Python 库

9个用来爬取网络站点的 Python 库

作者头像
一墨编程学习
发布2019-04-18 16:13:05
7190
发布2019-04-18 16:13:05
举报

1️⃣Scrapy

一个开源和协作框架,用于从网站中提取所需的数据。 以快速,简单,可扩展的方式。

2️⃣cola

一个分布式爬虫框架。

3️⃣Demiurge

基于 PyQuery 的爬虫微型框架。

4️⃣feedparser

通用 feed 解析器。

5️⃣Grab

Grab 是一个用于构建 Web scraper 的 python 框架。 使用 Grab,您可以构建各种复杂性的 Web scraper,从简单的5行脚本到处理数百万个 Web 页面的复杂异步网站爬虫。 Grab 提供用于执行网络请求和处理所接收内容的 API。 与 HTML 文档的 DOM 树交互。

有想一起学习python,爬虫小伙伴,可以来一下我们的python学习交流q--u--n【 784758214 】,内有安装包和学习视频资料免费分享,零基础,进阶。好友都会在里面交流,分享一些学习的方法和需要注意的小细节,每天也会准时的讲一些项目实战案例

点击:加入

6️⃣MechanicalSoup

用于自动和网络站点交互的 Python 库。

7️⃣portia

Scrapy 可视化爬取。允许你在不需要任何编程知识的情况下直观地抓取网站。 使用 Portia 可以注释一个网页以识别您想要提取的数据,Portia 将根据这些注释了解如何从类似页面中抓取数据。

8️⃣pyspider

一个强大的爬虫系统。

9️⃣RoboBrowser

一个简单的,Python 风格的库,用来浏览网站,而不需要一个独立安装的浏览器。

Latest release:2019.1.11

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.04.09 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1️⃣Scrapy
  • 2️⃣cola
  • 3️⃣Demiurge
  • 4️⃣feedparser
  • 5️⃣Grab
  • 6️⃣MechanicalSoup
  • 7️⃣portia
  • 8️⃣pyspider
  • 9️⃣RoboBrowser
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档