专栏首页Crossin的编程教室【Python 第74课】多线程

【Python 第74课】多线程

很多人使用 python 编写“爬虫”程序,抓取网上的数据。

举个例子,通过豆瓣的 API 抓取 30 部影片的信息:

import urllib, time


time_start = time.time()
data = []
for i in range(30):
    print 'request movie:', i
    id = 1764796 + i
    url = 'https://api.douban.com/v2/movie/subject/%d' % id
    d = urllib.urlopen(url).read()
    data.append(d)
    print i, time.time() - time_start


print 'data:', len(data)

参考输出结果:

> python test.py
request movie: 0
0 0.741228103638
request movie: 1
1 1.96586918831
...
request movie: 28
28 12.0225770473
request movie: 29
29 12.4063940048
data: 30

程序里用了 time.time() 来计算抓取花费的时间。运行一遍,大约需要十几秒(根据网络情况会有差异)。

如果我们想用这套代码抓取几万部电影,就算中间不出什么状况,估计也得花上好几个小时。

然而想一下,我们抓一部电影信息的过程是独立,并不依赖于其他电影的结果。因此没必要排好队一部一部地按顺序来。那么有没有什么办法可以同时抓取好几部电影?

答案就是:多线程

来说一种简单的多线程方法:

python 里有一个 thread 模块,其中提供了一个函数:

start_new_thread(function, args[, kwargs])

function 是开发者定义的线程函数,

args 是传递给线程函数的参数,必须是tuple类型,

kwargs 是可选参数。

调用 start_new_thread 之后,会创建一个新的线程,来执行 function 函数。而代码原本的主线程将继续往下执行,不再等待 function 的返回。通常情况,线程在 function 执行完毕后结束。

改写一下前面的代码,将抓取的部分放在一个函数中:

import urllib, time, thread


def get_content(i):
    id = 1764796 + i
    url = 'https://api.douban.com/v2/movie/subject/%d' % id
    d = urllib.urlopen(url).read()
    data.append(d)
    print i, time.time() - time_start
    print 'data:', len(data)


time_start = time.time()
data = []
for i in range(30):
    print 'request movie:', i
    thread.start_new_thread(get_content, (i,))


raw_input('press ENTER to exit...\n')

参考输出结果:

> python test.py
request movie: 0
request movie: 1
...
request movie: 28
request movie: 29
press ENTER to exit...
1 0.39500784874
data: 1
9 0.428859949112
data: 2
...
data: 28
21 1.03756284714
data: 29
8 2.66121602058
data: 30

因为主线程不在等待函数返回结果,所以在代码最后,增加了 raw_input,避免程序提前退出。

从输出结果可以看出:

  • 在程序刚开始运行时,已经发送所有请求
  • 收到的请求并不是按发送顺序,先收到就先显示
  • 总共用时两秒多
  • data 里同样记录了所有30条结果

所以,对于这种耗时长,但又独立的任务,使用多线程可以大大提高运行效率。但在代码层面,可能额外需要做一些处理,保证结果正确。如上例中,如果需要电影信息按 id 排列,就要另行排序。

多线程通常会用在网络收发数据、文件读写、用户交互等待之类的操作上,以避免程序阻塞,提升用户体验或提高执行效率。

多线程的实现方法不止这一种。另外多线程也会带来一些单线程程序中不会出现的问题。这里只是简单地开个头。

本文分享自微信公众号 - Crossin的编程教室(crossincode),作者:Crossin

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-02-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【Python 第61课】 计时

    Python中有一个time模块,它提供了一些与时间相关的方法。利用time,可以简单地计算出程序运行的时间。对于一些比较复杂、耗时较多的程序,可以通过这种方法...

    Crossin先生
  • Python 实战(5):拿来主义

    有了列表,有了详细信息,有了搜索,这个电影网站已经有了基本的结构。现在要做的是:获取更多的内容。 我们没有必要也不可能自己去生产数量庞大的电影信息,互联网上的资...

    Crossin先生
  • ​Python 3 新特性:类型注解

    我们知道 Python 是一种动态语言,变量以及函数的参数是不区分类型。因此我们定义函数只需要这样写就可以了:

    Crossin先生
  • [记录点滴] 使用工具和命令对redis数据进行备份恢复

    本文记录了如何使用工具对redis数据进行恢复备份,涉及的有Redis-Dump,MySQL,Redis管道命令。

    罗西的思考
  • 手搓一个分布式大气监测系统(二)架构介绍及案例解析

    为了跟踪小区级的微环境质量,腾讯内部发起了一个实验性项目:细粒度的分布式大气监测。

    twowinter
  • 【一天一大 lee】自由之路 (难度:困难) - Day20201111

    视频游戏“辐射4”中,任务“通向自由”要求玩家到达名为“Freedom Trail Ring”的金属表盘,并使用表盘拼写特定关键词才能开门。

    前端小书童
  • KnockTF:转录因子敲除数据库(一)

    KnockTF(http://www.licpathway.net/KnockTF/search.php)数据库就是基于这个目的构建的数据库。这个数据库收录了目...

    医学数据库百科
  • 多写引发的思考

    如果是3个Master,采用2PC保证一致性,单个Master故障,会导致不可写。如果正提交的是一个大数据,会造成较大影响。实际上,这个时候可以允许提交,在故障...

    一见
  • 解决WordPress需要访问您网页服务器的权限

    这个问题并不困难,一开始我总是在尝试各种密码,还以为是自己忘记密码之类的,而最后发觉,本质问题应该是来自于linux下的用户权限。

    十四君
  • 转录因子的靶基因,看这一个数据库就够了

    对于转录因子而言,我们最想知道的信息就是其对应的靶基因。转录因子相关数据库非常的多,有些数据库直接提供了靶基因的信息,比如TRANSFAC, 有些数据库只提供了...

    生信修炼手册

扫码关注云+社区

领取腾讯云代金券