专栏首页AI的那些事儿(经验技巧)Python中与并发的并行

(经验技巧)Python中与并发的并行

python中的并发是同时发生的事情由线程,任务,进程调用(实际上还是按顺序运行的一系列指令)。宏观上看,线程,任务和进程是相同的,细节上他们代表不同的东西。事实上只有多进程在同一时间运行着多个任务,线程和异步都在单个处理器运行,即一次只能处理一个任务。

先占式多工法(pre-emptive multitasking):操作系统知道每个线程,并且可以随时中断该线程后运行别的线程,即对线程进行切换。线程的切换可以发生在单个python语句里,在任何时候都可能需要进行任务切换。

多核CPU的并行,通过多进程,python创建新的进程(一般来说电脑几核就开几个进程)。每一个进程可以被看做是一个完全不同的程序,每一个进程都在自己的python解释器中运行。

并发在CPU绑定和IO绑定问题上有很大影响,因为需要等待外部资源的输入输出或者程序处理的是比CPU慢得多的东西(通常是文件系统和网络连接)。在程序里添加并发性会增加额外的代码和复杂性,需在确定加速之前评估是否值得这样做。如不好的架构会导致并发或并行无法发挥加速作用,而推倒重来很多时候不允许。

下面是多线程添加实例,以网络访问为例子:

未添加多线程的程序

import requestsimport time
def download_site(url,session):with session.get(url) as response:        print(f"read {len(response.content)} from {url}")
def download_all_sites(sites):with requests.Session() as session:for url in sites:            download_site(url,session)
if __name__ == '__main__':    sites=["http://www.jython.org","http://olympus.realpython.org/dice",]*40    start_time=time.time()    download_all_sites(sites)    duration=time.time()-start_time    print(f"downloaded {len(sites)}in {duration} seconds")

运行结果如下:

添加多线程后的代码

import concurrent.futuresimport threadingimport requestsimport time
thread_local=threading.local()
def get_session():if not getattr(thread_local,"session",None):        thread_local.session=requests.Session()return thread_local.session
def download_site(url,session):    session=get_session()with session.get(url) as response:        print(f"read {len(response.content)} from {url}")
def download_all_sites(sites):with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:        executor.map(download_site,sites)
if __name__ == '__main__':    sites=["http://www.jython.org","http://olympus.realpython.org/dice",]*40    start_time=time.time()    download_all_sites(sites)    duration=time.time()-start_time    print(f"downloaded {len(sites)}in {duration} seconds")

运行结果:

可以看到,速度提升的效果非常大。ThreadPoolExecutor对象创建一个线程池,请求将在线程池进行。每个线程池可以并发运行,执行器控制着每个线程的运行方式和运行时间。标准库将ThreadPoolExecutor实现为上下文管理器,这样就可以使用with语法来管理线程池的创建和回收。并且可以使用其map方法将列表中的每个站点的运行传入函数。如果想进行更细节的线程池的管理和使用,可使用thread对象里的queue,start,join等函数。

然而,因为操作系统可以随时中断一个线程或启动另外一个线程,线程之间共享的数据需要得到保护来保证线程的安全。而requests.session()不是线程安全的,保护数据访问线程安全的策略有几种,一种是使用python队列模块中的queue(一种使用线程安全的数据结构);或线程本地存储,如threading.local()方法。这个方法分离了不同线程对不同数据的访问过程。

在大多数操作系统,5到10个线程是效率较高的。线程可以以巧妙且难以检测的方式进行交互。这些交互可能导致随机的、间歇性的错误,且这些错误很难找到。

END

本文分享自微信公众号 - AI的那些事儿(clever-ai),作者:陈晓念

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 深度学习中常见的损失函数(摘自我的书)

    在深度学习分类任务中,我们经常会使用到损失函数,今天我们就来总结一下深度学习中常见的损失函数。

    黄鸿波
  • 深度学习中常见的激活函数总结(摘自我写的书)

    Sigmoid函数,也称S曲线函数,是使用范围最广的一类激活函数,具有指数函数形状,在物理意义上最为接近生物神经元,在生物学中也是常见的S型函数,又称为S型生长...

    黄鸿波
  • 在Window10下安装Anaconda3和tensorflow-gpu

    【简述】 关于Window安装TensorFlow- GPU环境的文章网上已经有很多了,但是为什么还要写这篇文章呢,就是被网上的文章给坑了。由于tens...

    黄鸿波
  • JDK1.9- 线程状态

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

    cwl_java
  • 8成以上的java线程状态图都画错了,看看这个-图解java并发第二篇

    在开始想写这篇文章之前,我去网上搜索了很多关于线程状态转换的图,我惊讶的发现:超过80%的图都是不完整的,或者是错的。所以我只好再次去阅读源码,然后画出下面的这...

    字母哥博客
  • Python进阶(三十四)-Python

      线程在执行过程中与进程还是有区别的。每个独立的线程有一个程序运行的入口、顺序执行序列和程序的出口。但是线程不能够独立执行,必须依存在应用程序中,由应用程序提...

    py3study
  • java并发系列第5天-深入理解进程和线程

    进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。程序是指令、数据及其组织形式的描...

    路人甲Java
  • 八、线程和进程 什么是线程(thread)?什么是进程(process)? 线程和进程的区别?Python GIL(Global Interpreter Lock)全局解释器锁

    什么是线程(thread)? 线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一...

    酱紫安
  • 详解 Tomcat 的连接数与线程池

    前言 在使用tomcat时,经常会遇到连接数、线程数之类的配置问题,要真正理解这些概念,必须先了解Tomcat的连接器(Connector)。 在前面的文章 详...

    Java高级架构
  • java 多线程学习

    用户1112962

扫码关注云+社区

领取腾讯云代金券