如何提高爬虫效率?Python下简单的进程、线程效率对比

在爬取海量的网络数据时,一方面我们需要确保爬虫不被网站服务器封掉,一方面也要提高爬虫的采集效率。

避免爬虫不被封掉,一般我们通过大量的代理IP构成代理池,通过代理来访问采集的网站,而对于如何提高爬虫的采集效率,就有很多种方法,比如:使用多进程、多线程、分布式、协程等等。

个人在实际的爬虫使用中,出于个人喜好和硬件条件,一般使用多进程和多线程。

下面,我们通过一个简单的例子,来对比一下,在普通情况下、使用多进程、使用多线程的情况下程序的运行效率:

遍历网址URL是爬虫中很常见的一个场景,我们使用一个列表模拟对URL的遍历:

from multiprocessing import Pool
from multiprocessing.dummy import Pool as TheaderPool

首先是使用for循环:

def test1():
    for n in range(10000):
        for i in range(100000):
            n += i
%time test1()

返回结果:

Wall time: 1min 15s

使用两个for循环分别遍历10000次,一共花费了15秒的时间

接着,我们看看一个使用for循环,一个使用多线程的情况,由于熟悉程度的原因,在此使用的是multiprocessing.dummy模块中的Pool方法进行多线程,而非Threading模块:

def test4():
    for n in range(100000):
        def test5(i):
            n += i
    tpool = TheaderPool(processes=1)
    tpool.map_async(test5,range(100000))
    tpool.close()
    tpool.join()

%time test4()

返回结果为:

Wall time: 118 ms

只花费了118毫秒。

下面再看看使用多进程的情况:

def test2():
    for n in range(100000):
        def test3(i):
            n += i
    pool = Pool(processes=1)
    pool.map_async(test3,range(100000))
    pool.close()
    pool.join()
%time test2()

所花费的时间为:199毫秒

Wall time: 199 ms

在这个简单的对比例子中,可以发现,不管是使用多线程还是多进程,多线程直接提高了一百余倍,多进程虽然比多线程慢一点点,但也有近一百倍的提高,都能够大幅地提高循环遍历的效率,当然,在实际的数据采集过程中,还要考虑网速和响应的问题,也需要考虑自身机器的硬件情况,来设置多进程或多线程。

http://zmister.com 同步更新

原文发布于微信公众号 - 州的先生(zmister2016)

原文发表时间:2016-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯IVWEB团队的专栏

React V16 给我们带来了那些东西 ?

在如今越来越复杂的前端环境下,往往可能需要加载且渲染大量的 DOM 节点,那么在渲染的过程中,即使我们使用了 React virtualDom 进行维护,但是,...

4970
来自专栏Coco的专栏

【前端攻略】:玩转图片Base64编码

1433
来自专栏北京马哥教育

编写Linux Shell脚本的最佳实践

来自:Myths的个人博客 作者:myths 链接:https://blog.mythsman.com/2017/07/23/1/(点击尾部阅读原文前往) 前言...

3449
来自专栏遊俠扎彪

Makefile中的Shell脚本简介

1、Makefile中可以嵌入shell脚本,而且能像shell脚本中一样,各种命令、控制结构都可使用。

1918
来自专栏杂烩

程序eclipse下run和debug不一致问题

    公司核心代码,这里不上了,主要将如何发现问题、如何排查问题和如何解决问题。

502
来自专栏十月梦想

php的四种标签风格

注意:第三四种风格标签基本淘汰,主要推荐使用第一种和第二种,第二种在xml种会被默认解析其他的xml的<?开始

594
来自专栏程序人生 阅读快乐

C语言编程魔法书:基于C11标准

主要讲解C11标准的语法内容,并且从整个编译、连接到加载过程都会涉及。同时在后会分别介绍GCC编译器与Clang编译器的C语言语法扩展。通过阅读本书,读者能够完...

412
来自专栏FreeBuf

Paypal的一个Dom型XSS漏洞分析

前言 DOM xss也称为第三种类型的xss或者类型0。现在DOM型的xss越来越多了,除了因为各种JS库比如YUI,Jquery,Jquery mobile...

1925
来自专栏H2Cloud

游戏服务器设计之任务系统

游戏服务器设计之任务系统 介绍 任务系统是游戏中最重要的系统之一,本文旨在设计一个轻量清晰的任务系统。通用易扩展是本系统关注的重点。任务系统中当角色的条件满足时...

4344
来自专栏24K纯开源

Python 3.x自定义迭代器对象

Python 3.x与Python 2.x之间存在着较多的语法细节差异。今天在看Python核心编程的时候,说到了自定义迭代器对象。于是动手将源码打了一遍,原书...

1896

扫码关注云+社区