文章/答案/技术大牛

发布

爱奇艺网络协程编写高并发应用实践

文章来源：infoq爱奇艺技术产品团队

本文以爱奇艺开源的网络协程库（https://github.com/iqiyi/libfiber ）为例，讲解网络协程的设计原理、编程实践、性能优化等方面内容。

一、概述

早年间，支持多个用户并发访问的服务应用，往往采用多进程方式，即针对每一个 TCP 网络连接创建一个服务进程。在 2000 年左右，比较流行使用 CGI 方式编写 Web 服务，当时人们用的比较多的 Web 服务器是基于多进程模式开发的 Apache1.3.x 系列，因为进程占用系统资源较多，所以人们开始使用多线程方式编写 Web 应用服务，线程占用的资源更少，这使单台服务器支撑的用户并发度提高了，但依然存在资源浪费的问题。因为在多进程或多线程编程方式下，均采用了阻塞通信方式，对于慢连接请求，会使服务端的进程或线程因『等待』客户端的请求数据而不能做别的事情，白白浪费了操作系统的调度时间和系统资源。这种一对一的服务方式在广域网的环境下显示变得不够廉价，于是人们开始采用非阻塞网络编程方式来提升服务端网络并发度，比较著名的 Web 服务器 Nginx 就是非阻塞通信服务的典型代表，另外还有象 Java Netty 这样的非阻塞网络开发库。

非阻塞网络编程一直以高并发和高难度而著称，这种编程方式虽然有效的提升了服务器的利用率和处理能力，但却对广大程序员提出了较大挑战，因为非阻塞 IO 的编程方式往往会把业务逻辑分隔的支离破碎，需要在通信过程中记录大量的中间状态，而且还需要处理各种异常情况，最终带来的后果就是开发周期长、复杂度高，而且难于维护。

阻塞式网络编程实现容易但并发度不高，非阻塞网络编程并发度高但编写难，针对这两种网络编程方式的优缺点，人们提出了使用协程方式编写网络程序的思想。其实协程本身并不是一个新概念，早在2000年前Windows NT 上就出现了『纤程』的 API，号称可以创建成千上万个纤程来处理业务，在 BSD Unix 上可以用来实现协程切换的 API <ucontext.h> 在 2002 年就已经存在了，当然另外用于上下文跳转的 API<setjmp.h> 出现的更早（1993年）。虽然协程的概念出现的较早，但人们终不能发现其广泛的应用场景，象『longjmp』这些 API 多用在一些异常跳转上，如 Postfix（著名的邮件MTA）在处理网络异常时用其实现程序跳转。直到 Russ Cox 在 Go 语言中加入了协程（Goroutine）的功能，使用协程进行高并发网络编程才变得的简单易行。

Russ Cox 早在 2002 年就编写了一个简单的网络协程库 libtask（https://swtch.com/libtask/ ），代码量不多，却可以使我们比较清晰地看到『通过使网络 IO 协程化，使编写高并发网络程序变得如此简单』。

二、网络协程基本原理

网络协程的本质是将应用层的阻塞式 IO 过程在底层转换成非阻塞 IO 过程，并通过程序运行栈的上下文切换使 IO 准备就绪的协程交替运行，从而达到以简单方式编写高并发网络程序的目的。既然网络协程的底层也是非阻塞IO过程，所以在介绍网络协程基本原理前，我们先了解一下非阻塞网络通信的基本过程。

2.1、网络非阻塞编程

下面给出了非阻塞网络编程的常见设计方式：

使用操作系统提供的多路复用事件引擎 API（select/poll/epoll/kqueue etc），将网络套接字的网络读写事件注册到事件引擎中；
当套接字满足可读或可写条件时，事件引擎设置套接字对应的事件状态并返回给调用者；
调用者根据套接字的事件状态分别『回调』对应的处理过程；
对于大部分基于 TCP 的网络应用，数据的读写往往不是一次 IO 就能完成的，因此，一次会话过程就会有多次 IO 读写过程，在每次 IO 过程中都需要缓存读写的数据，直至本次数据会话完成。

下图以非阻塞读为例展示了整个异步非阻塞读及回调处理过程：

相对于阻塞式读的处理过程，非阻塞过程要复杂很多：

一次完整的 IO 会话过程会被分割成多次的 IO 过程；
每次 IO 过程需要缓存部分数据及当前会话的处理状态；
要求解析器（如：Json/Xml/Mime 解析器）最好能支持流式解析方式，否则就需要读到完整数据后才能交给解析器去处理，当遇到业数据较大时就需要分配较大的连续内存块，必然会造成系统的内存分配压力；
当前大部分后台系统（如数据库、存储系统、缓存系统）所提供的客户端驱动都是阻塞式的，无法直接应用在非阻塞通信应用中，从而限制了非阻塞通信方式的应用范围；
多次 IO 过程将应用的业务处理逻辑分割的支离破碎，大大增加了业务编写过程的复杂度，降低了开发效率，同时加大了后期的不易维护性。

2.2、网络协程编程

(一）概念：在了解使用协程编写网络程序之前，需要先了解几个概念：

最小调度单元：当前大部分操作系统的最小调度单元是线程，即在单核或多核 CPU 环境中，操作系统是以线程为基本调度单元的，操作系统负责将多个线程任务唤入唤出；
上下文切换：当操作系统需要将某个线程挂起时，会将该线程在 CPU 寄存器中的栈指针、状态字等保存至该线程的内存栈中；当操作系统需要唤醒某个被挂起的线程时（重新放置在CPU中运行），会将该线程之前被挂起的栈指针重新置入 CPU 寄存器中，并恢复之前保留的状态字等信息，从而使该线程继续运行；通过这样的挂起与唤醒操作，便完成了不同线程间的上下文切换；
并行与网络并发：并行是指同一『时刻』同时运行的任务数，并行任务数量取决于 CPU 核心数量；而网络并发是指在某一『时刻』网络连接的数量；类似于二八定律，在客户端与服务端保持 TCP 长连接时，大部分连接是空闲的，所以服务端只需响应少量活跃的网络连接即可，如果服务端采用多路复用技术，即使使用单核也可以支持 100K 个网络并发连接。

(二）协程的切换过程

既然操作系统进行任务调度的最小单元是线程，所以操作系统无法感知协程的存在，自然也就无法对其进行调度；

因此，存在于线程中的大量协程需要相互协作，合理地占用 CPU 时间片，在合适的运行点（如：网络阻塞点）主动让出 CPU，给其它协程提供运行的机会，这也正是『协程』这一概念的由来。每个协程一般都会经历如下过程：

协程之间的切换一般可分为『星形切换』和『环形切换』，参照下图：

当有大量的协程需要运行时，在『环形切换』模式下，前一个协程运行完毕后直接『唤醒』并切换至下一个协程，而无需象『星形切换』那样先切换至调度原点，再从调度原点来『唤醒』下一个协程；因『环形切换』比『星形切换』节省了一次上下文的切换过程，所以『环形切换』方式的切换效率更高。

(三）网络过程协程化

下图是使用网络过程协程化示意图：

在网络协程库中，内部有一个缺省的IO调度协程，其负责处理与网络IO相关的协程调度过程，故称之为IO调度协程：

每一个网络连接绑定一个套接字句柄，该套接字绑定一个协程；
当对网络套接字进行读或写发生阻塞时，将该套接字添加至 IO 调度协程的事件引擎中并设置读写事件，然后将该协程挂起；这样所有处于读写等待状态的网络协程都被挂起，且与之关联的网络套接字均由 IO 调度协程的事件引擎统一监控管理；
当某些网络套接字满足可读或可写条件时，IO 调度协程的事件引擎返回这些套接字的状态，IO 调度协程找到与这些套接字绑定的协程对象，然后将这些协程追加至协程调度队列中，使其依次运行；
IO 事件协程内部本身是由系统事件引擎（如：Linux 下的 epoll 事件引擎）驱动的，其内部 IO 事件的驱动机制和上面介绍的非阻塞过程相似，当某个套接字句柄『准备就绪』时，IO 调度协程便将其所绑定的协程添加进协程调度队列中，待本次 IO 调度协程返回后，会依次运行协程调度队列里的所有协程。

(四）网络协程示例

下面给出一个使用协程方式编写的网络服务器程序（更多示例参见：https://github.com/iqiyi/libfiber/tree/master/samples ）：

该网络协程服务器程序处理流程为：

创建一个监听协程，使其『堵』在 accept() 调用上，等待客户端连接；
启动协程调度器，启动新创建的监听协程及内部的 IO 调度协程；
监听协程每接收一个网络连接，便创建一个客户端协程去处理，然后监听协程继续等待新的网络连接；
客户端协程以『阻塞』方式读写网络连接数据；网络连接处理完毕，则关闭连接，协程退出。

从该例子可以看出，网络协程的处理过程都是顺序方式，比较符合人的思维习惯；我们很容易将该例子改成线程方式，处理逻辑和协程方式相似，但协程方式更加轻量、占用资源更少，并发能力更强。

简单的表面必定隐藏着复杂的底层设计，因为网络协程过程在底层还是需要转为『非阻塞』处理过程，只是使用者并未感知而已。

三、网络协程核心设计要点

在介绍了网络协程的基本原理后，本章节主要介绍 libfiber 网络协程的核心设计要点，为网络协程应用实践化提供了基本的设计思路。

3.1、协程调度

libfiber 采用了单线程调度方式，主要是为了避免设计上的复杂度及效率上的影响。

如果设计成 多线程调度模式 ，则必须首先需要考虑如下几点：

多核环境下 CPU 缓存的亲和性： CPU 本身配有高效的多级缓存，虽然 CPU 多级缓存容量较内存小的多，但其访问效率却远高于内存，在单线程调度方式下，可以方便编译器有效地进行 CPU 缓存使用优化，使运行指令和共享数据尽可能放置在 CPU 缓存中，而如果采用多线程调度方式，多个线程间共享的数据就可能使 CPU 缓存失效，容易造成调度线程越多，协程的运行效率越低的问题；
多线程分配任务时的同步问题：当多个线程需要从公共协程任务资源中获取协程任务时，需要增加『锁』保护机制，一旦产生大量的『锁』冲突，则势必会造成运行性能的严重损耗；
事件引擎操作优化：在多线程调度则很难进行如此优化，下面会介绍在单线程调度模式下的事件引擎操作优化。

当然，设计成 单线程调度 也需解决如下问题：

（1）、如何有效地使用多核：

在单线程调度方式下，该线程内的多个协程在运行时仅能使用单核，解决方案为：

启动多个进程，每个进程运行一个线程，该线程运行一个协程调度器;
同一进程内启动多个线程，每个线程运行独立的协程调度器；

（2）、多个线程之间的资源共享：

因为协程调度是不跨线程的，在设计协程互斥锁时需要考虑：

协程锁需要支持『同一线程内的协程之间、不同线程的协程之间、协程线程与非协程线程之间』的互斥；
网络连接池的线程隔离机制，需要为每个线程建立各自独立的连接池，防止连接对象在不同线程的协程之间共享，否则便会造成同一网络连接在不同线程的协程之间使用，破坏单线程调度规则；
需要防止线程内的某个协程『疯狂』占用 CPU 资源，导致本线程内的其它协程得不到运行的机会，虽然此类问题在多线程调度时也会造成问题，但显然在单线程调度时造成的后果更为严重。

3.2、协程事件引擎设计

3.2.1、跨平台性

libfiber 的事件引擎支持当今主流的操作系统，从而为 libfiber 的跨平台特性提供了有力的支撑，下面为 libfiber 事件引擎所支持的平台：

Linux：sekect/poll/epoll，epoll 为 Linux 内核级事件引擎，采用事件触发机制，不象 select/poll 的轮循方式，所以 epoll 在处理大并发网络连接时运行效率更高；BSD/MacOS：select/poll/kqueue，其中kqueue 为内核级事件引擎，在处理高并发连接时具有更高的性能；

Windows： select/poll/iocp/Windows 窗口消息，其中 iocp 为 Windows 平台下的内核级高效事件引擎；

libfiber 支持采用界面消息引擎做为底层的事件引擎，这样在编写 Windows 界面程序的网络模块时便可以使用协程方式了，之前人们在 Windows 平台编写界面程序的网络模块时，一般采用如下两种方式：

（1）、采用非阻塞方式，网络模块与界面模块在同一线程中；

（2）、将网络模块放到独立的线程中运行，运行结果通过界面消息『传递』到界面线程中；

现在 libfiber 支持 Windows 界面消息引擎，我们就可以在界面线程中直接创建网络协程，直接进行阻塞式网络编程。

(Windows 界面网络协程示例：https://github.com/iqiyi/libfiber/tree/master/samples/WinEchod)

3.2.2、运行效率

大家在谈论网络协程程序的运行效率时，往往只重视协程的切换效率，却忽视了事件引擎对于性能影响的重要性，虽然现在很网络协程库所采用的事件引擎都是内核级的，但仍需要合理使用才能发挥其最佳性能。

在使用 libfiber 的早期版本编译网络协程服务程序时，虽然在 Linux 平台上也是采用了 epoll 事件引擎，但在对网络协程服务程序进行性能压测（使用用系统命令『# perf top -p pid』观察运行状态）时，却发现 epoll_ctl API 占用了较高的 CPU，分析原因是 epoll_ctl 使用次数过多导致的：因为 epoll_ctl 内部在对套接字句柄进行添加、修改或删除事件操作时，需要先通过红黑树的查找算法找到其对应的内部套接字对象（红黑树的查找效率并不是O (1)的），如果 epoll_ctl 的调用次数过多必然会造成 CPU 的占用较高。

因为 TCP 数据在传输时是流式的，这就意味着数据接收者经常需要多次读操作才能获得完整的数据，反映到网络协程处理流程上，如下图所示：

仔细观察上面处理流程，可以发现在图中的标注4（唤醒协程）和标注5（挂起协程）之间的两个事件操作：标注2取消读事件与标注3注册读事件，再结合标注1注册读事件，完全可以把注2和标注3处的两个事件取消，因为标注1至标注3的目标是注册读事件。最后，通过缓存事件操作的中间状态，合并中间态的事件操作过程，使 libfiber 的 IO 处理性能提升 20% 左右。

下图给出了采用 libfiber 编写的回显服务器与采用其它网络协程库编写的回显服务器的性能对比（对比单核条件下的 IO 处理能力）：

在 libfiber 中之所以可以针对中间的事件操作过程进行合并处理，主要是因为 libfiber 的调度过程是单线程模式的，如果想要在多线程调度器中合并中间态的事件操作则要难很多：在多线程调度过程中，当套接字所绑定的协程因IO 可读被唤醒时，假设不取消该套接字的读事件，则该协程被某个线程『拿走』后，恰巧该套接字又收到新数据，内核会再次触发事件引擎，协程调度器被唤醒，此时协程调度器也许就不知该如何处理了。

3.3、协程同步机制

3.3.1、单一线程内部的协程互斥

对于象 libfiber 这样的采用单线程调度方案的协程库而言，如果互斥加锁过程仅限于同一个调度线程内部，则实现一个协程互斥锁是比较容易的，下图为 libfiber 中单线程内部使用的协程互斥锁的处理流程图（参考源文件：fiber_lock.c）：

同一线程内的协程在等待锁资源时，该协程将被挂起并被加入锁等待队列中，当加锁协程解锁后会唤醒锁等待队列中的头部协程，单线程内部的协程互斥锁正是利用了协程的挂起和唤醒机制。

3.3.2、多线程之间的协程互斥

虽然 libfiber 的协程调度器是单线程模式的，但却可以启动多个线程使每个线程运行独立的协程调度器，如果一些资源需要在多个线程中的协程间共享，则就需要有一把可以跨线程使用的协程互斥锁。将 libfiber 应用在多线程的简单场景时，直接使用系统提供的线程锁就可以解决很多问题，但线程锁当遇到如下场景时就显得无能为力：

上述显示了系统线程互斥锁在 libfiber 多线程使用场景中遇到的死锁问题：

线程A 中的协程A1 成功对线程锁1加锁；
线程B 中的协程B2 对线程锁2成功加锁；

当线程A中的协程A2 要对线程锁2加锁而阻塞时，则会使线程A的协程调度器阻塞，从而导致线程A中的所有协程因宿主线程A被操作系统挂起而停止运行，同样，线程B 也会因协程B1 阻塞在线程锁1上而被阻塞，最终造成了死锁问题。

使用系统线程锁时产生上述死锁的根本原因是单线程调度机制以及操作系统的最小调度单元是线程，系统对于协程是无感知的。因此，在 libfiber 中专门设计了可用于在线程的协程之间使用的事件互斥锁（源码参见 fiber_event.c），其设计原理如下：

该可用于在线程之间的协程进行互斥的事件互斥锁的处理流程为：

协程B（假设其属于线程b）已经对事件锁加锁后；
协程A（假设其属于线程a）想对该事件锁加锁时，对原子数加锁失败后创建IO管道，将IO读管道置入该事件锁的IO读等待队列中，此时协程A被挂起；
当协程B 对事件锁解锁时，会首先获得协程A 的读管道，解锁后再向管道中写入消息，从而唤醒协程A；
协程A 被唤醒后读取管道中的消息，然后再次尝试对事件锁中的原子数加锁，如加锁成功便可以继续运行，否则会再次进入睡眠状态（有可能此事件锁又被其它协程提前抢占）。

在上述事件锁的加/解锁处理过程中，使用原子数和IO管道的好处是：

通过使用原子数可以使协程快速加锁空闲的事件锁，原子数在多线程或协程环境中的行为相同的，可以保证安全性；
当锁被占用时，该协程进入IO管道读等待状态而被挂起，这并不会影响其所属的线程调度器的正常运行；在 Linux 平台上可以使用 eventfd 代替管道，其占用资源更少。

3.3.3、协程条件变量

在使用线程编程时，都知道线程条件变量的价值：在线程之间传递消息时往往需要组合线程条件变量和线程锁。因此，在 libfiber 中也设计了协程条件变量（源码见 fiber_cond.c），通过组合使用 libfiber 中的协程事件锁（fiber_event.c）和协程条件变量，用户便可以编写出用于在线程之间、线程与协程之间、线程内的协程之间、线程间的协程之间进行消息传递的消息队列。下图为使用 libfiber 中协程条件变量时的交互过程：

这是一个典型的生产者-消费者问题，通过组合使用协程条件变量和事件锁可以轻松实现。

3.3.4、协程信号量

使用网络协程库编写的网络服务很容易实现高并发功能，可以接入大量的客户端连接，但是后台系统（如：数据库）却未必能支持高并发，即使是支持高并的缓存系统（如 Redis），当网络连接数比较高时性能也会下降，所以协程服务模块不能将前端的并发压力传递到后端，给后台系统造成很大压力，我们需要提供一种高并发连接卸载机制，以保证后台系统可以平稳地运行，在 libfiber 中提供了协程信号量（源码见：fiber_semc.c）。

下面是使用 libfiber 中的协程信号量对于后台系统的并发连接进行卸载保护的示意图：

当有大量协程需要访问后台系统时，通过协程信号量将大量的协程『挡在外面』，只允许部分协程与后端系统建立连接。

注：目前 libfiber 的协程信号量仅用在同一线程内部，还不能跨线程使用，要想在多线程环境中使用，需在每个线程内部创建独立的协程信号量。

3.4、域名解析

网络协程既然面向网络应用场景，自然离不开域名的协程化支持，现在很多网络协程库的设计者往往忽视了这一点，有些网络协程库在使用系统 API 进行域名解析时为了防止阻塞协程调度器，将域名解析过程（即调用gethostbyname/getaddrinfo 等系统 API）扔给独立的线程去执行，当域名解析并发量较大时必然会造成很多线程资源被占用。

在 libfiber 中集成了第三方 dns 源码，实现了域名解析过程的协程化，占用更低的系统资源，基本满足了大部分服务端应用系统对于域名解析的需求。

3.5、Hook 系统 API

在网络协程广泛使用前，很多网络库很早就存在了，并且大部分这些网络库都是阻塞式的，要改造这些网络库使之协程化的成本是非常巨大的，我们不可能采用协程方式将这些网络库重新实现一遍，目前一个广泛采用的方案是 Hook 与 IO 及网络相关的系统中 API，在 Unix 平台上 Hook 系统 API 相对简单，在初始化时，先加载并保留系统 API 的原始地址，然后编写一个与系统 API 函数名相同且参数也相同的函数，将这段代码与应用代码一起编译，则编译器会优先使用这些 Hooked API，下面的代码给出了在 Unix 平台上 Hook 系统 API 的简单示例：

在 libfiber 中Hook 了大部分与 IO 及网络相关的系统 API，下面列出 libfiber 所 Hook 的系统 API：

IO 相关 API

读 API：read/readv/recv/recvfrom/recvmsg；
写API：write/writev/send/sendto/sendmsg/sendfile64；

网络相关 API

套接字 API：socket/listen/accept/connect；
事件引擎 API：select/poll，epoll（epoll_create, epoll_ctl, epoll_wait）；
域名解析 API：gethostbyname/gethostbyname_r, getaddrinfo/freeaddrinfo。

通过 Hook API 方式，libfiber 已经可以使 Mysql 客户端库、一些 HTTP 通信库及 Redis 客户端库的网络通信协程化，这样在使用网络协程编写服务端应用程序时，大大降低了编程复杂度及改造成本。

四、爱奇艺核心业务的协程实践

4.1、CDN 核心模块使用协程

4.1.1、项目背景

为了使爱奇艺用户可以快速流畅地观看视频内容，就需要 CDN 系统尽量将数据缓存在 CDN 边缘节点，使用户就近访问，但因为边缘节点的存储容量有限、数据淘汰等原因，总会有一些数据在边缘节点不存在，当用户访问这些数据时，便需要回源软件去源站请求数据并下载到本地，在爱奇艺自建 CDN 系统中此回源软件的名字为『奇迅』，相对于一些开源的回源缓存软件（如：Squid，Apache Traffic，Nginx 等），『奇迅』需要解决以下问题：

合并回源：当多个用户访问同一段数据内容时，回源软件应合并相同请求，只向源站发起一个请求，一方面可以降低源站的压力，同时可以降低回源带宽；
断点续传：当数据回源时如果因网络或其它原因造成回源连接中断，则回源软件应能在原来数据断开位置继续下载剩余数据；
随机位置下载：因为很多用户喜欢跳跃式点播视频内容，为了能够在快速响应用户请求的同时节省带宽，要求回源软件能够快速从视频数据的任意位置下载、同时停止下载用户跳过的内容；
数据完整性：为了防止数据在传输过程中因网络、机器或软件重启等原因造成损坏，需要对已经下载的块数据和完整数据做完整性校验；

下面为爱奇艺自研缓存与回源软件『奇迅』的软件架构及特点描述：

4.1.2、软件架构

在爱奇艺的自建 CDN 系统中，作为数据回源及本地缓存的核心软件，奇迅承担了重要角色，该模块采用多线程多协程的软件架构设计，如下所示奇迅回源架构设计的特点总结如下：

特性	说明
高并发	采用网络协程方式，支持高并发接入，同时简化程序设计
高性能	采用线程池 + 协程 + 连接池 + 内存池技术，提高业务处理性能
高吞吐	采用磁盘内存映射及零拷贝技术，提升磁盘及网络 IO 吞吐能力
低回源	合并相同请求，支持部分回源及部分缓存，大大降低回源带宽
开播快	采用流式数据读取方式，提升视频开播速度
可扩展	模块化分层设计，易于扩展新功能
易维护	采用统一服务器编程框架，易管理，好维护

奇迅的前后端通信模块均采用网络协程方式，分为前端连接接入层和后端下载任务层，为了有效地使用多核，前后端模块均启动多个线程（每个线程运行一个独立的协程调度器）；对于前端连接接入模块，由于采用协程方式，所以：

支持更高的客户端并发连接；
允许更多慢连接的存在，而不会消耗更多秕资源；
更有助于客户端与奇迅之间保持长连接，提升响应性能。

对于后端下载模块，由于采用协程方式，在数据回源时允许建立更多的并发连接去多个源站下载数据，从而获得更快的下载速度；同时，为了节省带宽，奇迅采用合并回源策略，即当前端多个客户端请求同一段数据时，下载模块将会合并相同的请求，向源站发起一份数据请求，在合并回源请求过程中，因数据共享原因，必然存在如 “3.3.2、多线程之间的协程互斥”章节所提到的多个线程之间的协程同步互斥的需求，通过使用 libfiber 中的事件锁完美地解决了一这需求（其实，当初事件锁就是为了满足奇迅的这一需求而设计编写）。

4.1.3、项目成果

采用协程方式编写的回源与缓存软件『奇迅』上线后，爱奇艺自建CDN视频卡顿比小于 2%，CDN 视频回源带宽小于 1%。

4.2、高性能 DNS 模块使用协程

4.2.1、项目背景

随着爱奇艺用户规模的迅速壮大，对于像 DNS 服务这样非常重要的基础设施的要求也越来越高，开源软件（如：Bind）已经远远不能满足要求，下面是项目初期对于自研 DNS 系统的基本要求：

高性能：要求单机 QPS 可以达到百万级以上；同时，DNS View 变化不影响 QPS；
高容错：支持集群部署，可以做到单一节点故障而不会影响 DNS 服务质量；
高弹性：DNS服务节点可以按需要进行扩充与删减；网卡 IP 地址发生变化时，软件可以自动绑定新地址及关闭旧地址，保证服务连接性；
数据增量更新：当业务的域名解析地址发生变更时，可以快速地同步至 DNS 服务，使解析生效；

下面是爱奇艺自研 DNS 的软件架构及特点介绍：

4.2.2、软件架构

DNS 做为互联网的基础设施，在整个互联网中发挥着举足轻重的作用，爱奇艺为了满足自身业务的发展需要，自研了高性能 DNS（简称 HPDNS），该 DNS 的软件架构如下图所示：

HPDNS 服务的特点如下：

优点	说明
高性能	启用 Linux 3.0 内核的 REUSEPORT 功能，提升多线程并行收发包的能力采用 Linux 3.0 内核的 recvmmsg/sendmmsg API，提升单次 IO 数据包收发能力采用内存预分配策略，减少内存动态分配/释放时的“锁”冲突针对 TCP 服务模式，采用网络协程框架，最大化 TCP 并发能力
高可用	采用RCU（Read Copy Update）方式更新视图数据及配置项，无需停止服务，且不影响性能网卡 IP 地址变化自动感知（即可自动添加新 IP 或摘除老IP而不必停止服务）采用 Keepalived 保证服务高可用
易管理	由 master 服务管理模块管理 DNS 进程，控制 DNS 进程的启动、停止、重读配置/数据、异常重启及异常报警等

由于 DNS 协议要求 DNS 服务端需要同时支持 UDP 及 TCP 两种通信方式，除了要求 UDP 模块具备高性能外，对 TCP 模块也要求支持高并发及高性能，该模块的网络通信部分使用 libfiber 编写，从而支持更高的并发连接，同时具备更高的性能，又因启用多个线程调度器，从而可以更加方便地使用多核。

4.2.3、项目成果

爱奇艺自研的高性能 DNS 的单机处理能力（非 DPDK 版本）可以达到 200 万次/秒以上；将业务域名变更后的信息同步至全网自建 DNS 节点可以在一分钟内完成。

五、总结

本文讲述了爱奇艺开源项目 libfiber 网络协程库的设计原理及核心设计要点，方便读者了解网络协程的设计原理及运行机制，做到知其然且知其所以然；还从爱奇艺自身的项目实践出发，总结了在应用网络协程编程时遇到的问题及解决方案，使读者能够更加全面地了解编写网络协程类应用的注意事项。

发表于: 2020-06-132020-06-13 10:05:00
本文为 InfoQ 中文站特供稿件
首发地址：https://www.infoq.cn/article/BOu7GVc9kP7CWkYP58jo
如有侵权，请联系 cloudcommunity@tencent.com 删除。