前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >(经验技巧)Python中与并发的并行

(经验技巧)Python中与并发的并行

作者头像
黄鸿波
发布2020-05-04 21:22:45
1.1K0
发布2020-05-04 21:22:45
举报
文章被收录于专栏:AI的那些事儿

python中的并发是同时发生的事情由线程,任务,进程调用(实际上还是按顺序运行的一系列指令)。宏观上看,线程,任务和进程是相同的,细节上他们代表不同的东西。事实上只有多进程在同一时间运行着多个任务,线程和异步都在单个处理器运行,即一次只能处理一个任务。

先占式多工法(pre-emptive multitasking):操作系统知道每个线程,并且可以随时中断该线程后运行别的线程,即对线程进行切换。线程的切换可以发生在单个python语句里,在任何时候都可能需要进行任务切换。

多核CPU的并行,通过多进程,python创建新的进程(一般来说电脑几核就开几个进程)。每一个进程可以被看做是一个完全不同的程序,每一个进程都在自己的python解释器中运行。

并发在CPU绑定和IO绑定问题上有很大影响,因为需要等待外部资源的输入输出或者程序处理的是比CPU慢得多的东西(通常是文件系统和网络连接)。在程序里添加并发性会增加额外的代码和复杂性,需在确定加速之前评估是否值得这样做。如不好的架构会导致并发或并行无法发挥加速作用,而推倒重来很多时候不允许。

下面是多线程添加实例,以网络访问为例子:

未添加多线程的程序

代码语言:javascript
复制
import requestsimport time
def download_site(url,session):with session.get(url) as response:        print(f"read {len(response.content)} from {url}")
def download_all_sites(sites):with requests.Session() as session:for url in sites:            download_site(url,session)
if __name__ == '__main__':    sites=["http://www.jython.org","http://olympus.realpython.org/dice",]*40    start_time=time.time()    download_all_sites(sites)    duration=time.time()-start_time    print(f"downloaded {len(sites)}in {duration} seconds")

运行结果如下:

添加多线程后的代码

代码语言:javascript
复制
import concurrent.futuresimport threadingimport requestsimport time
thread_local=threading.local()
def get_session():if not getattr(thread_local,"session",None):        thread_local.session=requests.Session()return thread_local.session
def download_site(url,session):    session=get_session()with session.get(url) as response:        print(f"read {len(response.content)} from {url}")
def download_all_sites(sites):with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:        executor.map(download_site,sites)
if __name__ == '__main__':    sites=["http://www.jython.org","http://olympus.realpython.org/dice",]*40    start_time=time.time()    download_all_sites(sites)    duration=time.time()-start_time    print(f"downloaded {len(sites)}in {duration} seconds")

运行结果:

可以看到,速度提升的效果非常大。ThreadPoolExecutor对象创建一个线程池,请求将在线程池进行。每个线程池可以并发运行,执行器控制着每个线程的运行方式和运行时间。标准库将ThreadPoolExecutor实现为上下文管理器,这样就可以使用with语法来管理线程池的创建和回收。并且可以使用其map方法将列表中的每个站点的运行传入函数。如果想进行更细节的线程池的管理和使用,可使用thread对象里的queue,start,join等函数。

然而,因为操作系统可以随时中断一个线程或启动另外一个线程,线程之间共享的数据需要得到保护来保证线程的安全。而requests.session()不是线程安全的,保护数据访问线程安全的策略有几种,一种是使用python队列模块中的queue(一种使用线程安全的数据结构);或线程本地存储,如threading.local()方法。这个方法分离了不同线程对不同数据的访问过程。

在大多数操作系统,5到10个线程是效率较高的。线程可以以巧妙且难以检测的方式进行交互。这些交互可能导致随机的、间歇性的错误,且这些错误很难找到。

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI的那些事儿 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档