爬虫万金油,一鹅在手,抓遍全球

爬虫抓取数据有两个头疼的点,写过爬虫的小伙伴们一定都深有体会:

  1. 网站的防抓取机制。你要尽可能将自己伪装成“一个人”,骗过对方的服务器反爬验证。
  2. 网站的内容提取。每个网站都需要你做不同的处理,而且网站一旦改版,你的代码也得跟着更新。

第一点没什么捷径可走,套路见得多了,也就有经验了。关于第二点,今天咱们就来介绍一个小工具,在某些需求场景下,或许可以给你省不少事。

Goose

Goose 是一个文章内容提取器,可以从任意资讯文章类的网页中提取文章主体,并提取标题、标签、摘要、图片、视频等信息,且支持中文网页。它最初是由 Gravity.com 用 Java 编写的。python-goose 是用 Python 重写的版本。

有了这个库,你从网上爬下来的网页可以直接获取正文内容,无需再用 bs4 或正则表达式一个个去处理文本。

项目地址: (py2) https://github.com/grangier/python-goose (py3) https://github.com/goose3/goose3

安装

网上大多数教程提到的 python-goose 项目目前只支持到 python 2.7。可以通过 pip 安装:

pip install goose-extractor

或者安装官网上的方法从源代码安装:

mkvirtualenv --no-site-packages goose
git clone https://github.com/grangier/python-goose.git
cd python-goose
pip install -r requirements.txt
python setup.py install

我找到一个 python 3 的版本 goose3

pip install goose3

经过我一些简单的测试,未发现两个版本在结果上有太大的差异。

快速上手

这里使用 goose3,而 python-goose 只要把其中的 goose3 改成 goose 即可,接口都是一样的。以我之前发过的一篇文章 如何用Python抓抖音上的小姐姐 为抓取目标来做个演示。

from goose3 import Goose
from goose3.text import StopWordsChinese
# 初始化,设置中文分词
g = Goose({'stopwords_class': StopWordsChinese})
# 文章地址
url = 'https://mp.weixin.qq.com/s/zflbcF5PS06QC5YJXpiviQ'
# 获取文章内容
article = g.extract(url=url)
# 标题
print('标题:', article.title)
# 显示正文
print(article.cleaned_text)

输出:

除了标题 title 和正文 cleaned_text 外,还可以获取一些额外的信息,比如:

  • meta_description:摘要
  • meta_keywords:关键词
  • tags:标签
  • top_image:主要图片
  • infos:包含所有信息的 dict
  • raw_html:原始 HTML 文本

如有有些网站限制了程序抓取,也可以根据需要添加 user-agent 信息:

g = Goose({'browser_user_agent': 'Version/5.1.2 Safari/534.52.7'})

如果是 goose3,因为使用了 requests 库作为请求模块,因此还可以以相似方式配置 headers、proxies 等属性。

在上述示例中使用到的 StopWordsChinese 为中文分词器,可一定程度上提高中文文章的识别准确率,但更耗时。

其他说明

1. Goose 虽然方便,但并不能保证每个网站都能精确获取,因此适合大规模文章的采集,如热点追踪、舆情分析等。它只能从概率上保证大多数网站可以相对准确地抓取。我经过一些尝试后发现,抓取英文网站优于中文网站,主流网站优于小众网站,文本的提取优于图片的提取。

2. 从项目中的 requirements.txt 文件可以看出,goose 中使用到了 Pillow、lxml、cssselect、jieba、beautifulsoup、nltk,goose3 还用到了 requests,我们之前很多文章和项目中都有所涉及:

这个男人让你的爬虫开发效率提升8倍 【编程课堂】jieba-中文分词利器

3. 如果你是使用基于 python2 的 goose,有可能会遇到编码上的问题(尤其是 windows 上)。这方面可以在公众号对话里回复关键词 编码,我们有过相关的讲解。

4. 除了 goose 外,还有其他的正文提取库可以尝试,比如 python-boilerpipe、python-readability 等。

实例

最后,我们来用 goose3 写小一段代码,自动抓取 爱范儿、雷锋网、DoNews 上的新闻文章:

from goose3 import Goose
from goose3.text import StopWordsChinese
from bs4 import BeautifulSoup

g = Goose({'stopwords_class': StopWordsChinese})
urls = [
    'https://www.ifanr.com/',
    'https://www.leiphone.com/',
    'http://www.donews.com/'
]
url_articles = []
for url in urls:
    page = g.extract(url=url)
    soup = BeautifulSoup(page.raw_html, 'lxml')
    links = soup.find_all('a')
    for l in links:
        link = l.get('href')
        if link and link.startswith('http') and any(c.isdigit() for c in link if c) and link not in url_articles:
            url_articles.append(link)
            print(link)

for url in url_articles:
    try:
        article = g.extract(url=url)
        content = article.cleaned_text
        if len(content) > 200:
            title = article.title
            print(title)
            with open('homework/goose/' + title + '.txt', 'w') as f:
                f.write(content)
    except:
        pass

这段程序所做的事情就是:

  1. 抓取网站首页
  2. 从页面上提取地址中带有数字的链接
  3. 抓取这些链接,提取正文。如果结果超过 200 个字,就保存成文件

效果:

在此基础上,你可以继续改进这个程序,让它不停地去寻找新的地址并抓取文章,并对获取到的文章进行词频统计、生成词云等后续操作。类似我们之前的分析案例 数据分析:当赵雷唱民谣时他唱些什么?。进一步完善,相信你能做出更有意思的项目。

原文发布于微信公众号 - Crossin的编程教室(crossincode)

原文发表时间:2018-10-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏DevOps时代的专栏

微服务的服务网格

6413
来自专栏FreeBuf

旧版Windows打上CPU补丁后会出现性能下降

微软正式确认,“熔毁”和“幽灵”补丁可能导致显著的性能下降,这与之前的想法截然不同。 就在Meltown和Spectre漏洞被爆出之后,许多安全专家认为,相关的...

2296
来自专栏小白课代表

matlab 2014a

MATLAB是matrix&laboratory两个词的组合,意为矩阵工厂(矩阵实验室)。是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式...

1172
来自专栏京东技术

服务治理与监控 | 分布式服务跟踪(SGM)实践

随着业务规模的不断扩大,面临着服务数量不断膨胀、线上环境日益复杂、服务依赖错综复杂等运维痛点,服务依赖自动梳理、拓扑自动生成、调用实时追踪、异常明细分析、调用来...

7414
来自专栏有趣的Python和你

简书非官方大数据新思路专题URL专题管理员URL粉丝和关注URL优点和缺点

1205
来自专栏SDNLAB

ONOS预热篇之开放分布式SDN操作系统(三)

关于构建ONOS(开放式网络操作系统)的项目专题,是通过性能激发创建的实验性分布式SDN控制平台,满足大型运营商网络的可扩展性、可用性需求。提出了2个版本的ON...

3855
来自专栏Material Design组件

Human Interface Guidelines — Requesting Permission

1386
来自专栏IT技术精选文摘

微信后台基于时间序的海量数据冷热分级架构设计实践

3386
来自专栏花叔的专栏

Nodes大更新,邀你不删档公测

花叔很高兴地通知到大家,Nodes进行了一个比较大的版本更新,内容较多不敢冒然提审,所以现进行限号不删档公测体验(怎么这么像游戏运营术语),大家可先看看都更新了...

3416
来自专栏java一日一条

Java应用架构的演化之路

当我们架设一个系统的时候通常需要考虑到如何与其他系统交互,所以我们首先需要知道各种系统之间是如何交互的,使用何种技术实现。

672

扫码关注云+社区

领取腾讯云代金券