专栏首页程序员的知识天地完善我们的新闻爬虫【1】:实现一个更好的网络请求函数,

完善我们的新闻爬虫【1】:实现一个更好的网络请求函数,

实现了一个简单的再也不能简单的新闻爬虫后,这个项目有很多漏洞,以及需要解决的问题。现在我们就来去除这些槽点来完善我们的新闻爬虫。这是第一章,之后会持续来完善好我们的新闻爬虫。

downloader 的实现

import requests
import cchardet
import traceback


def downloader(url, timeout=10, headers=None, debug=False, binary=False):
    _headers = {
        'User-Agent': ('Mozilla/5.0 (compatible; MSIE 9.0; '
                       'Windows NT 6.1; Win64; x64; Trident/5.0)'),
    }
    redirected_url = url
    if headers:
        _headers = headers
    try:
        r = requests.get(url, headers=_headers, timeout=timeout)
        if binary:
            html = r.content
        else:
            encoding = cchardet.detect(r.content)['encoding']
            html = r.content.decode(encoding)
        status = r.status_code
        redirected_url = r.url
    except:
        if debug:
            traceback.print_exc()
        msg = 'failed download: {}'.format(url)
        print(msg)
        if binary:
            html = b''
        else:
            html = ''
        status = 0
    return status, html, redirected_url


if __name__ == '__main__':
    url = 'http://news.baidu.com/'
    s, html = downloader(url)
    print(s, len(html))

这个downloader()函数,内置了默认的User-Agent模拟成一个IE9浏览器,同时接受调用者自定义的headers和timeout。使用cchardet来处理编码问题,返回数据包括:

  • 状态码:如果出现异常,设置为0
  • 内容: 默认返回str内容。但是URL链接的是图片等二进制内容时,注意调用时要设binary=True
  • 重定向URL: 有些URL会被重定向,最终页面的url包含在响应对象里面

新闻URL的清洗

我们先看看这两个新闻网址:

http://xinwen.eastday.com/a/n181106070849091.html?qid=news.baidu.com

http://news.ifeng.com/a/20181106/60146589_0.shtml?_zbs_baidu_news

上面两个带?的网站来自百度新闻的首页,这个问号?的作用就是告诉目标服务器,这个网址是从百度新闻链接过来的,是百度带过来的流量。但是它们的表示方式不完全一样,一个是qid=news.baidu.com, 一个是_zbs_baidu_news。这有可能是目标服务器要求的格式不同导致的,这个在目标服务器的后台的浏览统计程序中可能用得到。

然后去掉问号?及其后面的字符,发现它们和不去掉指向的是相同的新闻网页。

从字符串对比上看,有问号和没问号是两个不同的网址,但是它们又指向完全相同的新闻网页,说明问号后面的参数对响应内容没有任何影响。

正在抓取新闻的大量实践后,我们发现了这样的规律:

新闻类网址都做了大量SEO,它们把新闻网址都静态化了,基本上都是以.html, .htm, .shtml等结尾,后面再加任何请求参数都无济于事。

但是,还是会有些新闻网站以参数id的形式动态获取新闻网页。

那么我们抓取新闻时,就要利用这个规律,防止重复抓取。由此,我们实现一个清洗网址的函数。

g_bin_postfix = set([
    'exe', 'doc', 'docx', 'xls', 'xlsx', 'ppt', 'pptx',
    'pdf',
    'jpg', 'png', 'bmp', 'jpeg', 'gif',
    'zip', 'rar', 'tar', 'bz2', '7z', 'gz',
    'flv', 'mp4', 'avi', 'wmv', 'mkv',
    'apk',
])

g_news_postfix = [
    '.html?', '.htm?', '.shtml?',
    '.shtm?',
]


def clean_url(url):
    # 1. 是否为合法的http url
    if not url.startswith('http'):
        return ''
    # 2. 去掉静态化url后面的参数
    for np in g_news_postfix:
        p = url.find(np)
        if p > -1:
            p = url.find('?')
            url = url[:p]
            return url
    # 3. 不下载二进制类内容的链接
    up = urlparse.urlparse(url)
    path = up.path
    if not path:
        path = '/'
    postfix = path.split('.')[-1].lower()
    if postfix in g_bin_postfix:
        return ''

    # 4. 去掉标识流量来源的参数
    # badquery = ['spm', 'utm_source', 'utm_source', 'utm_medium', 'utm_campaign']
    good_queries = []
    for query in up.query.split('&'):
        qv = query.split('=')
        if qv[0].startswith('spm') or qv[0].startswith('utm_'):
            continue
        if len(qv) == 1:
            continue
        good_queries.append(query)
    query = '&'.join(good_queries)
    url = urlparse.urlunparse((
        up.scheme,
        up.netloc,
        path,
        up.params,
        query,
        ''  #  crawler do not care fragment
    ))
    return url

清洗url的方法都在代码的注释里面了,这里面包含了两类操作:

  • 判断是否合法url,非法的直接返回空字符串
  • 去掉不必要的参数,去掉静态化url的参数

网络爬虫知识点

1. URL清洗

网络请求开始之前,先把url清洗一遍,可以避免重复下载、无效下载(二进制内容),节省服务器和网络开销。

2. cchardet 模块

该模块是chardet的升级版,功能和chardet完全一样,用来检测一个字符串的编码。由于是用C和C++实现的,所以它的速度非常快,非常适合在爬虫中用来判断网页的编码。 切记,不要相信requests返回的encoding,自己判断一下更放心。上一节,我们已经列举了一个例子来证明requests对编码识别的错误,如果忘了的话,可以再去回顾一下。

3. traceback 模块

我们写的爬虫在运行过程中,会出现各种异常,而且有些异常是不可预期的,也不知道它会出现在什么地方,我们就需要用try来捕获异常让程序不中断,但是我们又需要看看捕获的异常是什么内容,由此来改善我们的爬虫。这个时候,就需要traceback模块。 比如在downloader()函数里面我们用try捕获了get()的异常,但是,异常也有可能是cchardet.detect()引起的,用traceback.print_exc()来输出异常,有助于我们发现更多问题。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 转行程序员花几万元学编程,面试几十家无果,程序员:留条活路行吗

    互联网红利时代,激发了越来越多的人投身其中就业与创业,其中程序员这一职业也被推上了高薪职业风口。除了科班毕业的程序员,也有不少传统行业从业者转行进入互联网行业,...

    一墨编程学习
  • 新鲜出炉某"虚拟币"通用程序GetShell,"真香"

    用户1467662
  • 好雨云帮每周更新日志(2017.03.13-2017.03.19)

    Rainbond开源
  • laravel-admin报错 Disk [admin] not configured

    laravel-admin 是我用过的最好用的php后台框架,仅需寥寥几行代码,就能完成一张表的增删改查。极大地解放了程序员的时间,想想以前初学php,整天大部...

    章鱼喵
  • 好雨云帮每周更新日志(2017.02.27-2017.03.12)

    Rainbond开源
  • udp协议-看这篇就够了

    用户数据报协议 UDP 只在 IP 的数据报服务之上增加了很少一点的功能,这就是复用和分用的功能以及查错检测的功能

    ColinLiu
  • 如何选择适合自己的编程语言并高效的学习它?

    编程语言这么多,使许多想入行IT的初学者感到迷茫不已,哪些语言最流行?哪些语言发展好?哪门语言简单易学?... 今天,加米谷大数据就来简单说一下。

    加米谷大数据
  • WordPress 添加网页打印功能

    网页页面打印功能方便我们快速链接打印机,Wordpress方面有很多插件,今天何先生在这里介绍简单代码就能实现的方法。

    空木白博客
  • 云帮解析系列(三):核心组件

    两种构建方式分别走2套构建流程,其中Dockerfile的构建流程与Docker官方构建镜像的步骤一致。这里不再赘述,咱们重点介绍基于源代码的自动构建。

    Rainbond开源
  • 东南亚的招聘骗局,程序员请注意!

    总有些我认为是常识的事情,在别人看来都是第一次接触。很多骗局都是如此,圈内人不上当,圈外人不警惕。毕竟骗子吃的就是信息不对称的生意。关于东南亚的招聘骗局,便是如...

    良月柒

扫码关注云+社区

领取腾讯云代金券