Python多线程（上）

罗罗攀

发布于 2021-12-16 10:53:13

1760

发布于 2021-12-16 10:53:13

文章被收录于专栏：有趣的Python和你有趣的Python和你

前言

说起Python的多线程，很多人都嗤之以鼻，说Python的多线程是假的多线程，没有用，或者说不好用，那本次就和大家一起来分享一下Python的多线程，看看是不是这样的。

多线程语法

在Python中实现多线程编程需要用到的就是threading模块中的Thread类，我们来看看最简单的语法，我们首先来一个简单的函数。

def task(num):
    count = 0
    for i in range(num):
        count += 1
    print(count)


nums = [100, 1000, 10000]
for num in nums:
    task(num)

# 100
#1000
#10000

我们用三个子线程分别计算。

import threading


def task(num):
    count = 0
    for i in range(num):
        count += 1
    print(count)


nums = [100, 1000, 10000]
for num in nums:
    t = threading.Thread(target=task, args=(num,))
    t.start()

利用Thread创建线程，target参数接收函数名，args参数接收函数的参数，start方法启动线程。

这里还需要讲解一下join方法，他的作用是让主线程等待，直到该子线程结束。我们来看看加该方法和不加该方法，最终的结果是怎么样的。

import threading


def task():
    num = 0
    for i in range(10000000):
        num += 1
    print(num)


t = threading.Thread(target=task)
t.start()
print('end')

# end
# 10000000

import threading


def task():
    num = 0
    for i in range(10000000):
        num += 1
    print(num)


t = threading.Thread(target=task)
t.start()
t.join()
print('end')

# 10000000
# end

GIL

在说概念之前，我们还是以上面的代码为例，分别求单线程和多线程代码运行的时间。

单线程

import time


def task(num):
    count = 0
    for i in range(num):
        count += 1
    print(count)


nums = [1000000, 100000000, 1000000000]
start = time.time()
for num in nums:
    task(num)
end = time.time()
print(end - start)

# 50.44705629348755

多线程

import threading
import time


def task(num):
    count = 0
    for i in range(num):
        count += 1
    print(count)


nums = [1000000, 100000000, 1000000000]
ts = []
start = time.time()

for num in nums:
    t = threading.Thread(target=task, args=(num,))
    t.start()
    ts.append(t)

for t in ts:
    t.join()

end = time.time()
print(end - start)

# 55.022353172302246

你会发现多线程比单线程花费的时间还要更多，这是因为GIL的原因。

GIL的全称是Global Interpreter Lock（全局解释器锁），Python最初的设计理念在于，为了解决多线程之间数据完整性和状态同步的问题，设计为在任意时刻只能由一个线程在解释器中运行。因此Python中的多线程是表面上的多线程（同一时刻只有一个线程），不是真正的多线程。

但是如果是因为GIL的原因，就说多线程无用是不对的，对于IO密集的程序，多线程是要比单线程快的。我们举一个简单的爬虫案例。

单线程

import time


def task(url):
    s = url.split('_')[-1]
    time.sleep(int(s)) #这里模拟请求等待


urls = ['url_1', 'url_2', 'url_3']
start = time.time()
for url in urls:
    task(url)
end = time.time()
print(end - start)

# 6.013520002365112

多线程

import threading
import time


def task(url):
    s = url.split('_')[-1]
    time.sleep(int(s))


ts = []
urls = ['url_1', 'url_2', 'url_3']
start = time.time()

for url in urls:
    t = threading.Thread(target=task, args=(url,))
    t.start()
    ts.append(t)

for t in ts:
    t.join()
    
end = time.time()
print(end - start)

# 3.005527973175049

这时候我们就能看到多线程的优势了，虽然多线程只是在各线程来回切换，但是可以让IO堵塞的时间切换到其他线程做其他的任务，很适合爬虫或者文件的操作。

今天的分享就到这了，我们下期再见~

本文参与腾讯云自媒体分享计划，分享自作者个人站点/博客。

原始发表：2021/12/11 ，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法