快来学学Python异步IO,轻松管理10k+并发连接

异步操作在计算机软硬件体系中是一个普遍概念,根源在于参与协作的各实体处理速度上有明显差异。软件开发中遇到的多数情况是CPU与IO的速度不匹配,所以异步IO存在于各种编程框架中,客户端比如浏览器,服务端比如node.js。本文主要分析Python异步IO。

Python 3.4标准库有一个新模块asyncio,用来支持异步IO,不过目前API状态是provisional,意味着不保证向后兼容性,甚至可能从标准库中移除(可能性极低)。如果关注PEP和Python-Dev会发现该模块酝酿了很长时间,可能后续有API和实现上的调整,但毋庸置疑asyncio非常实用且功能强大,值得学习和深究。

示例

asyncio主要应对TCP/UDP socket通信,从容管理大量连接,而无需创建大量线程,提高系统运行效率。此处将官方文档的一个示例做简单改造,实现一个HTTP长连接benchmark工具,用于诊断WEB服务器长连接处理能力。

功能概述:

每隔10毫秒创建10个连接,直到目标连接数(比如10k),同时每个连接都会规律性的向服务器发送HEAD请求,以维持HTTP keepavlie。

代码如下:

测试与分析

硬件:CPU 2.3GHz / 2 cores,RAM 2GB

软件:CentOS 6.5(kernel 2.6.32), Python 3.3 (pip install asyncio), nginx 1.4.7

参数设置:ulimit -n 10240;nginx worker的连接数改为10240

启动WEB服务器,只需一个worker进程:

启动benchmark工具, 发起10k个连接,目标URL是nginx的默认测试页面:

$ python asyncli.py

nginx日志统计平均每秒请求数:

top部分输出:

总结:

1. Python实现简洁明了。不到80行代码,只用到标准库,逻辑直观,想象下C/C++标准库实现这些功能,顿觉“人生苦短,我用Python”。

2. Python运行效率不理想。当连接建立后,客户端和服务端的数据收发逻辑差不多,看上面top输出,Python的CPU和RAM占用基本都是nginx的10倍,意味着效率相差100倍(CPU x RAM),侧面说明了Python与C的效率差距。这个对比虽然有些极端,毕竟nginx不仅用C且为CPU/RAM占用做了深度优化,但相似任务效率相差两个数量级,除非是BUG,说明架构设计的出发点就是不同的,Python优先可读易用而性能次之,nginx就是一个高度优化的WEB服务器,开发一个module都比较麻烦,要复用它的异步框架,简直难上加难。开发效率与运行效率的权衡,永远都存在。

3. 单线程异步IO v.s. 多线程同步IO。上面的例子是单线程异步IO,其实不写demo就知道多线程同步IO效率低得多,每个线程一个连接?10k个线程,仅线程栈就占用600+MB(64KB * 10000)内存,加上线程上下文切换和GIL,基本就是噩梦。

ayncio核心概念

以下是学习asyncio时需要理解的四个核心概念,更多细节请看

1. event loop。单线程实现异步的关键就在于这个高层事件循环,它是同步执行的。

2. future。异步IO有很多异步任务构成,而每个异步任务都由一个future控制。

3. coroutine。每个异步任务具体的执行逻辑由一个coroutine来体现。

4. generator(yield & yield from) 。在asyncio中大量使用,是不可忽视的语法细节。

如您也是万千世界里的“攻城狮”,想学习更多IT知识来增长IT技术,您可留言你喜欢的技术文章或前往51Testing软件测试网 ,了解更多IT类文章~

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180228A0D50Z00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券