七款必备的Python爬虫库,你知道几个?

很多你需要的信息数据都是在网站内,虽然有些网站的数据会以整洁、结构化的形式呈现,但大部分网站却无法做到这样。因此,当你想要获得一些数据的时候,你需要一些爬虫工具帮助抓取,然后再对其进行分析。今天,将介绍一些很棒的Python爬虫工具

1、PyRailgun

首先推荐的是PyRailgun,它是一个Web爬虫工具,具有强大的 WebUI 和脚本编辑器、任务监控和项目管理和结果查看。它支持拓展、支持任务优先级、重试、定期抓取,Pyspider同时支持Python 2和Python 3,为了更快地爬行,可以使用分布式格式,同时使用多个爬行器。

PyRailgun 有一个全面的文档记录了它的基本用法,包括示例代码片段,你可以通过在线演示了解它的UI界面,根据Apache 2 许可。(GitHub地址:https://github.com/binux/pyspider)

2、MechanicalSoup

MechanicalSoup是一个爬虫库,它是围绕非常流行、通用的HTML解析库Beautiful Soup构建的。如果你的爬行需求非常简单,只需要选中几个框或输入一些文本,并且你不想构建一个自己的爬行器,那么这是一个很好的选择。

MechanicalSoup获得了麻省理工学院的许可。有关如何使用它的更多信息,可以查看GitHub上的源文件示例,不过,该项目目前没有特别全面的文档。(GitHub地址:https://github.com/hickford/MechanicalSoup)

3、Scrapy

Scrapy 是一个由活跃社区维护的爬虫框架,你可以使用它创建自己的抓取工具,除了抓取和解析,它还可以轻松导出以JSON或CSV等多种格式收集的数据,并将数据存储在你选择的后端。它还提供了许多用于cookie处理、限制爬行深度等任务的内置扩展,以及用于扩展的API。(GitHub地址:https://scrapy.org/)

4、Cola

Cola是一个分布式的爬虫框架,用户只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。如果你正在寻找一个支持Python 2的爬虫框架,那它是个不错的选择,但是,它已经两年多没有更新了。(详情:https://github.com/chineking/cola)

5、Portia

Portia是scrapyhub开源的一款可视化的爬虫规则编写工具。它提供可视化的Web页面,你只需要通过点击标注页面上你需要提取的数据,不需要任何编程知识也可以完成有规则的开发。这些规则可以在#Scrapy#中使用,用于抓取页面。(详情:https://github.com/scrapinghub/portia)

6、Newspaper

Newspaper可以用来提取新闻、文章和内容分析。使用多线程,支持10多种语言并且unicode编码,它还可以提取和检测语言,如果你没有指定语言它还会自动检测。Newspaper 是一个Python 3 爬虫库,已经弃用了Python 2 的分支。(GitHub地址:https://github.com/codelucas/newspaper)

7、Grab

Grab是一个python web抓取框架。Grab提供了许多有用的方法来执行网络请求,抓取网站并处理已删除的内容:

IDN支持

使用Web表单工具

灵活定制的HTTP请求

自动字符集检测

......(GitHub地址:https://github.com/lorien/grab)

●本文编号472,输入编号直达本文

●输入m获取文章目录

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181203B0EP0M00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券