如何提高爬虫效率?Python下简单的进程、线程效率对比

在爬取海量的网络数据时,一方面我们需要确保爬虫不被网站服务器封掉,一方面也要提高爬虫的采集效率。

避免爬虫不被封掉,一般我们通过大量的代理IP构成代理池,通过代理来访问采集的网站,而对于如何提高爬虫的采集效率,就有很多种方法,比如:使用多进程、多线程、分布式、协程等等。

个人在实际的爬虫使用中,出于个人喜好和硬件条件,一般使用多进程和多线程。

下面,我们通过一个简单的例子,来对比一下,在普通情况下、使用多进程、使用多线程的情况下程序的运行效率:

遍历网址URL是爬虫中很常见的一个场景,我们使用一个列表模拟对URL的遍历:

from multiprocessing import Pool
from multiprocessing.dummy import Pool as TheaderPool

首先是使用for循环:

def test1():
    for n in range(10000):
        for i in range(100000):
            n += i
%time test1()

返回结果:

Wall time: 1min 15s

使用两个for循环分别遍历10000次,一共花费了15秒的时间

接着,我们看看一个使用for循环,一个使用多线程的情况,由于熟悉程度的原因,在此使用的是multiprocessing.dummy模块中的Pool方法进行多线程,而非Threading模块:

def test4():
    for n in range(100000):
        def test5(i):
            n += i
    tpool = TheaderPool(processes=1)
    tpool.map_async(test5,range(100000))
    tpool.close()
    tpool.join()

%time test4()

返回结果为:

Wall time: 118 ms

只花费了118毫秒。

下面再看看使用多进程的情况:

def test2():
    for n in range(100000):
        def test3(i):
            n += i
    pool = Pool(processes=1)
    pool.map_async(test3,range(100000))
    pool.close()
    pool.join()
%time test2()

所花费的时间为:199毫秒

Wall time: 199 ms

在这个简单的对比例子中,可以发现,不管是使用多线程还是多进程,多线程直接提高了一百余倍,多进程虽然比多线程慢一点点,但也有近一百倍的提高,都能够大幅地提高循环遍历的效率,当然,在实际的数据采集过程中,还要考虑网速和响应的问题,也需要考虑自身机器的硬件情况,来设置多进程或多线程。

http://zmister.com 同步更新

原文发布于微信公众号 - 州的先生(zmister2016)

原文发表时间:2016-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏逆向技术

框架原理第一讲,熟悉常用的设计方式.(以MFC框架讲解)

          框架原理第一讲,熟悉常用的设计方式.(以MFC框架讲解) 一丶什么是框架,以及框架的作用 什么是框架?   框架,简而言之就是把东西封装好了...

19811
来自专栏Linux驱动

22.Linux-块设备驱动之框架详细分析(详解)

本节目的:     通过分析块设备驱动的框架,知道如何来写驱动 1.之前我们学的都是字符设备驱动,先来回忆一下 字符设备驱动: 当我们的应用层读写(read()...

3055
来自专栏Python小屋

使用Python读写文本文件内容

本文主要演示如何读写文本文件的内容,以及上下文管理语句with的用法。使用上下文管理语句with时,即使在操作文件内容时引发异常也能保证文件被正确关闭。 #'w...

2425
来自专栏mySoul

微信小程序自定义组件(二)

两个<custom-ul>以及<custom-li>两个组件都为自定义组件,如果进行通信会非常的难以操作,至此通过relations完成子父组件的定义,简化通信...

1393
来自专栏你不就像风一样

Java中用final修饰参数的方法当传入i++时异常

我的项目是这样写项目运行不起来,具体原因我参考的 https://www.cnblogs.com/xiohao/p/4861500.html, 解决方法...

913
来自专栏IMWeb前端团队

Nodejs进阶:基于express+multer的文件上传

概览 图片上传是web开发中经常用到的功能,node社区在这方面也有了相对完善的支持。 常用的开源组件有multer、formidable等,借助这两个开源组件...

3248
来自专栏java思维导图

【读书笔记】1.1-基于TCP协议的RPC

1.1.1RPC名词解释 概念 全称Remote Process Call,即远程过程调用 rpc的实现包括服务的调用方和服务的提供方 过程 服务调用方发送RP...

2513
来自专栏漏斗社区

工具| 诸神之眼nmap定制化之并发处理

当我们使用nmap来进行大规模探测的时候,速度和准确度是摆在我们面前的两个问题,这时需要考虑到nmap的并发处理能力。 0x01 nmap本身的并发执行 相关...

3495
来自专栏王纯的专栏

Valgrind 使用入门

Valgrind 是一套类似于 gprof 的动态检测的工具集,由于使用方便,不需修改目标程序源码,输出清晰图文并茂等优势,常被用作后台(特别是linux后台)...

1.2K0
来自专栏LuckQI

学习Java基础知识,打通面试关~十七了解类的加载过程

在我们Java程序中我们所写的Calss文件最终都会加载到内存当中,再次过程中会进行数据校验,转换解析和初始化的操作。完成后就可以形成我们虚拟机所需要的Java...

1082

扫码关注云+社区