python中的并发是同时发生的事情由线程,任务,进程调用(实际上还是按顺序运行的一系列指令)。宏观上看,线程,任务和进程是相同的,细节上他们代表不同的东西。事实上只有多进程在同一时间运行着多个任务,线程和异步都在单个处理器运行,即一次只能处理一个任务。
先占式多工法(pre-emptive multitasking):操作系统知道每个线程,并且可以随时中断该线程后运行别的线程,即对线程进行切换。线程的切换可以发生在单个python语句里,在任何时候都可能需要进行任务切换。
多核CPU的并行,通过多进程,python创建新的进程(一般来说电脑几核就开几个进程)。每一个进程可以被看做是一个完全不同的程序,每一个进程都在自己的python解释器中运行。
并发在CPU绑定和IO绑定问题上有很大影响,因为需要等待外部资源的输入输出或者程序处理的是比CPU慢得多的东西(通常是文件系统和网络连接)。在程序里添加并发性会增加额外的代码和复杂性,需在确定加速之前评估是否值得这样做。如不好的架构会导致并发或并行无法发挥加速作用,而推倒重来很多时候不允许。
下面是多线程添加实例,以网络访问为例子:
未添加多线程的程序
import requestsimport time
def download_site(url,session):with session.get(url) as response: print(f"read {len(response.content)} from {url}")
def download_all_sites(sites):with requests.Session() as session:for url in sites: download_site(url,session)
if __name__ == '__main__': sites=["http://www.jython.org","http://olympus.realpython.org/dice",]*40 start_time=time.time() download_all_sites(sites) duration=time.time()-start_time print(f"downloaded {len(sites)}in {duration} seconds")
运行结果如下:
添加多线程后的代码
import concurrent.futuresimport threadingimport requestsimport time
thread_local=threading.local()
def get_session():if not getattr(thread_local,"session",None): thread_local.session=requests.Session()return thread_local.session
def download_site(url,session): session=get_session()with session.get(url) as response: print(f"read {len(response.content)} from {url}")
def download_all_sites(sites):with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor: executor.map(download_site,sites)
if __name__ == '__main__': sites=["http://www.jython.org","http://olympus.realpython.org/dice",]*40 start_time=time.time() download_all_sites(sites) duration=time.time()-start_time print(f"downloaded {len(sites)}in {duration} seconds")
运行结果:
可以看到,速度提升的效果非常大。ThreadPoolExecutor对象创建一个线程池,请求将在线程池进行。每个线程池可以并发运行,执行器控制着每个线程的运行方式和运行时间。标准库将ThreadPoolExecutor实现为上下文管理器,这样就可以使用with语法来管理线程池的创建和回收。并且可以使用其map方法将列表中的每个站点的运行传入函数。如果想进行更细节的线程池的管理和使用,可使用thread对象里的queue,start,join等函数。
然而,因为操作系统可以随时中断一个线程或启动另外一个线程,线程之间共享的数据需要得到保护来保证线程的安全。而requests.session()不是线程安全的,保护数据访问线程安全的策略有几种,一种是使用python队列模块中的queue(一种使用线程安全的数据结构);或线程本地存储,如threading.local()方法。这个方法分离了不同线程对不同数据的访问过程。
在大多数操作系统,5到10个线程是效率较高的。线程可以以巧妙且难以检测的方式进行交互。这些交互可能导致随机的、间歇性的错误,且这些错误很难找到。
END