专栏首页深度学习与python快手自研kQUIC:千万级QPS集群是如何实现的?

快手自研kQUIC:千万级QPS集群是如何实现的?

作者 | 小智

近日,快手自研高性能服务器 kQUIC 已全面上线,集群峰值 QPS 突破千万。kQUIC 是快手结合自身业务特点,自研打造的支持 QUIC/HTTP/HTTPS 多协议同层接入的高性能服务器,在短视频场景下针对行业痛点做了系列优化。InfoQ 记者就此专访了 kQUIC 团队多位核心开发者,挖掘了其自研背后的架构设计演进、技术难点攻关以及未来发展规划等问题,以飨读者。

1项目背景

QUIC 协议,全称 Quick UDP Internet Connections,是由 Google 开发的基于 UDP 的新一代互联网传输协议。顾名思义,其代表特点就是“快”,相比 HTTP(s) 等协议,它具备以下几大优势:

  • 首先,QUIC 在应用层实现了基于 UDP 的可靠传输,能够在使用多路复用机制的同时避免 TCP 的队首阻塞问题;
  • 其次,QUIC 改进了握手机制,大部分场景下可以 0-RTT 建立安全链接进行数据加密发送;
  • 再次,QUIC 同时设计了连接迁移的新特性,可以保证在用户的网络地址发生变化时,比如 WIFI 和 4G 切换,业务请求依然能够被继续处理,不需要重新发起请求;
  • 最后,QUIC 传输控制机制在应用层进行处理,相比 TCP 在内核中处理的方式更灵活、方便贴近业务场景做自定义优化,可以应用更先进的算法进行双端加速。

在快手内部,早期曾尝试过业界主流的两种 QUIC 实现方案:gQUIC(Google QUIC)和 iQUIC(IETF QUIC)。二者均作为独立模块使用,架构上采用了多层架构方案,QUIC 和 NGINX 作为接入层的两个环节独立部署。

对用户请求如何由 QUIC 层转发到 NGINX 层,快手也尝试过统一部署与通过内网 LB 转发两种策略,但无论是哪种方案都存在一定短板,无法满足快手内部对“快与稳”的极致追求。多层架构使得接入链路变长,对性能和稳定性都有影响,也大大增加了服务器和日常维护的成本。

在这样的背景下,经过充分的技术调研和深入的对比测试,快手最终决定自研 kQUIC 解决方案,通过在 NGINX 中集成 QUIC 支持并且对 QUIC 协议栈进行大量优化改造,不断挑战更优质的用户体验。

2kQUIC 演进历程

kQUIC 自 2019 年上半年开始研发,年底灰度上线,2020 年 6 月峰值 QPS 突破千万,历时一年有余。kQUIC 针对性地对数据压缩、网络传输拥塞控制等进行了优化,传输耗时平均降低 10% 以上,服务端最大 QPS 提升了 50%。

与此同时,配合客户端网络库的统一和性能优化,实现 QUIC 协议接入,通过 A/B 实验证明连接复用率正向上涨 24.85%,总耗时均值正向下降 42.46%。对于弱网用户的网络体验通过实验长期观测也明确了置信的收益,实验组用户数有稳定的提升。

kQUIC 团队的核心开发者向 InfoQ 记者透露了其从选型、开发到部署上线的演进全历程。

技术选型:开源还是自研?

快手技术团队在决定自研 kQUIC 前,曾调研过国内外的 QUIC 开源实现方案,主要有以下几种:

  • Google:Google 开源了跨平台的 Chromium,其中包含了 QUIC 协议栈,还附带一个简单的 Server Demo,只能用作功能验证,性能、可运营性都无法满足生产环境需要。此外 Google 的原生实现里还阉割了一些实用特性,比如对 ecc 证书的支持等。
  • Microsoft:MsQUIC 今年才正式开源,kQUIC 立项之初 MsQUIC 尚未对外发布,且主要针对 Windows 跨平台,目前功能上并不完善,也不支持 0RTT。
  • NGINX:NGINX 官方对 QUIC 的支持还处于 Preview 阶段,功能上存在短板,尚不能应用在生产环境下。

基于快手已经在使用 NGINX 作为 7 层负载均衡服务的考虑,为了复用当前的运营手段和基础设施,kQUIC 团队选择了在 NGINX 上自研的道路。

接入层服务架构设计与部署方案

为了能够充分利用 QUIC 的优势提升用户体验,快手决定把 NGINX 和 QUIC 结合起来。通过一系列的性能和功能优化手段,实现了在 NGINX 上同时高效支持 HTTP/HTTPS/HTTP2/QUIC 等协议的目的,同时可以根据用户不同的网络条件综合各协议的能力,达到最优的访问质量。

上图为服务端方案整体架构,从 NGINX 内核集成 QUIC 协议栈,实现多协议同层接入,到 Linux 内核优化 UDP 报文管理,实现性能提升。

早期快手的 QUIC 接入层选择采用多层架构,QUIC 层与 HTTP 代理层独立部署,用户请求经过四层 LB 转发后,通过 QUIC 协议层处理,再通过 HTTP 代理层处理传递到服务端。而在 QUIC 协议层与 HTTP 代理层之间,快手也尝试过同机部署与通过内部 LB 转发两种架构。但不论是哪种架构,都会因为多层部署以及层级间的依赖,带来运维成本、资源成本以及稳定性成本的增加。因此,这些架构并不完全适用于生产环境部署。

上图为同机部署架构

上图为内网 LB 转发示意图

为了解决多层架构部署的弊端,快手团队打造了一个适配全站 QUIC 接入的全新方案。新方案部署架构最基本的要求,就是简单与稳定,期望只在一层上就实现 QUIC/HTTP(s) 协议的接入处理。即在现有的接入层代码中,嵌入 QUIC 逻辑,实现 QUIC/HTTP(s) 协议同层接入。

上图为 kQUIC 部署架构

具体而言,和绝大多数公司一样,接入层仍旧采用多集群部署,集群规模由压测出的安全阈值来决定,预留一定的 buffer,放量过程中依据监控情况可以随时进行调整。实际上,用户是否通过 QUIC 协议请求是由服务端与客户端共同协商的,这里 kQUIC 采用的是业界主流方式,由服务端返回 QUIC 相关的 header 告知客户端可以通过 QUIC 协议来进行请求,在接入层配置上无需做太大改动,只要针对相关域名开启 QUIC 支持即可。

接入链路上,kQUIC 也与传统的四 / 七层接入并无太大差异,流量经过四层网关转发到七层 (kQUIC) 上,再由七层 (kQUIC) 转发给后端的 server。为了适配 QUIC 协议,kQUIC 在四 / 七层网关上都做了相应的支持,确保 QUIC 请求能够按照正确的规则转发。

在部署方案上,快手内部有一套成熟的配置发布变更平台体系,接入层的配置变更也早已平台化,依托于平台可以很方便地实现新协议的接入。

自研网络拥塞控制算法

网络拥塞是指网络处于一种持续过载的状态,即用户对网络资源的需求超过了固有的处理能力和容量,一般会出现数据丢失、时延增加、吞吐量下降的现象,严重时甚至会导致“拥塞崩溃”。拥塞控制是避免和解决网络拥塞的重要手段之一,其核心在于依据当前网络状态,动态决定“在什么时候,以多大的速率,发送多少数据”。

快手自研了一套基于 inflight 的拥塞控制算法 IA2C (Inflight Aware Congestion Control),其核心思想在于动态控制网络中的 inflight 数据包的数量,在传输延迟、吞吐量之间取得 tradeoff,从而在避免网络拥塞的前提下,保证传输的时效性与高效性。与传统的拥塞算法相比,IA2C 采用更有效的统计指标、动态粒度的统计信息、更高效的控制逻辑等,从而避免了网络噪音的干扰,能适应更多更复杂的网络环境。

在网络良好的情况下,与 BBR、Cubic 等算法性能相当,都能达到高带宽、低延迟效果,总体差异不大。但在弱网环境下,IA2C 替换默认算法所取得的提升效果十分明显。

0RTT 成功率与加密性能优化

0RTT 是 QUIC 的一个重要特性。一般而言,客户端会缓存服务端下发的 SCFG,并且在后续握手的时候把 SCFG 对应的 ID 发给服务端,服务端根据 ID 查到历史上下发的 SCFG,这样客户端和服务端就可以在共同的 SCFG 基础上来完成握手。但是服务端的 SCFG 是随机生成的,服务器 A 生成的 SCFG 对应的 ID,在服务器 B 上是不能识别的,这样就限制了 0RTT 的成功率。

为了解决这个问题,kQUIC 做了两个解决方案:

  1. 如果对安全性要求不高,可以让每个服务器都生成相同的 SCFG,这样就实现了跨服务器的 SCFG 识别,可以有效提高 0RTT 的成功率。
  2. 对安全性要求高的场景,则搭建一个 SCFG 集群,每个服务器生成的 SCFG 都在集群中向所有服务器共享,这样某个服务器收到自己不能识别的 SCFG 的 ID 后,可以从集群中找到对应的信息,也可以达到提高 0RTT 成功率的目的。

加密性能又分成两个方面,一个是非对称加密,另一个是对称加密。

针对主要消耗 CPU 的非对称加密,kQUIC 做了两个优化:

  1. 使用加速卡集群来 offload 握手时的非对称加密的计算开销;
  2. 优化了 Chromium 中的 QUIC 协议栈握手部分的实现,去掉了不必要的二次签名操作,降低了计算代价。

针对对称加密的部分,优选 AES 加密算法,利用 Intel 的 CPU 指令集来加速计算。在 CDN 等“不需要”加密的场景,自定义一个明文的“加密”算法,直接去掉了对称加密,有效减少了 CPU 的开销。

客户端、网络库统一设计

对 QUIC 协议的支持需要客户端、服务端统一设计,kQUIC 也做了相应的工作。

客户端网络库项目代号是库 Aegon,目标是代替原 OKHTTP/AFNetworking 和进行 API 请求和短视频下载,提供了 QUIC 协议的支持、完善的上报信息,并基于对数据指标的分析和对协议的深入理解,对网络库中持续进行了多项协议相关的优化,包括预建连、SSL Session 复用优化、客户端 BBR、POST 请求 0RTT 优化等等。

一般 APP 使用的开源的网络库包括 OKHTTP 和 AFNetwork,都不支持跨平台,OKHTTP 是 Android 端,AFNetwork 是 iOS 端。快手网络库在设计之初就把跨平台作为一个重要的目标,为快手的双端提供统一的网络优化解决方案。

难点攻关

很多时候,自研并不是一条康庄大道,QUIC 协议发轫于 2013 年,经过 7 年时间却也远未成熟,业界并没有太多开源实现方案可供参考。快手短视频、直播的业务特点也带来了一些新问题需要解决。

  • 一方面,快手接入层的体量大,QPS 超过千万,作为用户使用快手服务的入口,对稳定性和性能有极高的要求。而 QUIC 协议栈的实现非常复杂,在和 NGINX 结合的过程中,很容易遇到问题,给稳定性带来极大挑战。
  • 另一方面,QUIC 的性能仍不够理想,如何优化提升整机的性能是一大关键。
  • 第三,NGINX 的配置热更新机制,做不到 UDP 业务无损更新,运营层面难以接受,如何解决也是一大难题。

kQUIC 结合业务场景,从压缩、对称 / 非对称加密、报文发送等方面进行了优化,取得了不错的性能提升效果。此外,通过在 Linux 内核中构造 QUIC 的 session 表,以此保证 NGINX 在 reload 之后能够做到旧连接的报文继续发往旧进程,新连接的报文可以发往新进程,实现无损配置更新,满足了运营侧的需求。

kQUIC 的现状与未来

在实现了全站全量上线、千万级 QPS 集群、传输耗时平均降低 10% 以上、服务端最大 QPS 提升 50% 的优异成果后,kQUIC 团队也谦虚地表示 kQUIC 目前还有一些不足,功能上也正在迭代,如秒级的细粒度统计监控、适合超大规模后端集群的故障屏蔽与恢复机制等等。

kQUIC 未来会持续迭代功能和性能,同时跟进 HTTP/3 的进展,适时向 HTTP/3 靠拢。此外还将探索 MPQUIC 等机制,尝试在一些业务场景上落地,获得收益。

目前行业内已经有了一些针对 QUIC 的开源项目,这些项目给技术团队带来了很多启发和思考,对于 QUIC 的推广和应用起到了积极的作用。但每个行业、企业对于 QUIC 都有个性化的需求,开源方案现阶段很难直接解决某些具体的问题。

kQUIC 团队表示,kQUIC 目前主要是基于快手现有业务做的技术适配,还有优化和升级的空间,对外开源还不够成熟。kQUIC 当前对行业的价值主要在提供一种可行的技术思路,在哪些方面做优化和改善可能为 QUIC 落地到具体业务中起到积极作用,哪些快手尝试之后感觉收益不明显,这些实践经验在现阶段相比开源可能更具备价值,后续 kQUIC 团队也将安排专门的技术交流活动,希望与业界一起交流。

3写在最后

受国际环境影响,开源与自研两条腿走路的方案已经被广大中国互联网企业所重视,做好技术创新、技术储备已经是国内科技企业的共识。快手成立 9 年以来,一直在耕耘技术,在各种不同的业务场景下,想要为用户提供上佳体验,让用户保持新鲜感,就需要企业不断实现技术创新,这是快手内部的一种共识。

相信随着快手体量的持续扩大,未来还将会有更多来自快手内部的技术实践落地经验成为可供业界参考的解决方案,不论是开源方案还是实现思路都是对中国技术力量的一种有效反馈。InfoQ 也将为业界带来更多中国科技企业的技术实践,一起为中国技术力量的建设添砖加瓦。

受访嘉宾介绍

李隆,快手系统运营部 SRE,负责快手 API 7 层接入服务的架构设计与运维部署方案优化与实施工作。

沈坤,快手系统运营部 CDN 架构师,负责快手 CDN 的架构设计和开发工作,同时做一些新技术、新协议在 CDN和 7 层接入的落地与优化工作。

孙炜,快手平台研发部,负责长连接接入、协议优化及 SSL offload 的架构与研发。

郭君健,快手音视频体验中心负责人,负责客户端网络库接入方案,以及测试和实验方案设计,通过数据分析支持项目上线和迭代优化。

本文分享自微信公众号 - InfoQ(infoqchina),作者:小智

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-07-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 「留量」时代,我们应该如何思考产业的未来?

    数字经济正在成为优化企业利益形态、推动国内经济增长的主要动力之一。数字资产是决定未来企业与商业社会发展的关键要素,掌握这一要素的企业必将持续成长、脱颖而出。

    深度学习与Python
  • GitHub为什么托管不了Linux内核社区?

    前不久,微软在 Linux 基金会董事会的代表 Sarah Novotny 认为,由纯文本电邮讨论推动的 Linux 内核开发需要被更好的或替代协作工具取代,以...

    深度学习与Python
  • Python处理CSV、JSON和XML数据的简便方法

    Python的卓越灵活性和易用性使其成为最受欢迎的编程语言之一,尤其是对于数据处理和机器学习方面来说,其强大的数据处理库和算法库使得python成为入门数据科学...

    深度学习与Python
  • 靶场发展态势⑧美国家网络空间靶场综合设施(NCRC)

    美国陆军计划模拟、培训和仪器执行办公室(PEO STRI)正在寻求市场研究,以协助制定一项为期多年的美国国家网络空间靶场综合设施(NCRC)事件规划和作战支持合...

    时间之外沉浮事
  • 2017央视315晚会曝光的数据泄露、电信诈骗何时休?

    数据猿导读 今年的315晚会和去年相比,简直就是一部无聊的国产家庭伦理剧,既没有激动人心的剧情,也没有“大腕演员“出现,甚至连能够触动见多识广的网民们坚硬神经的...

    数据猿
  • 你在无意中就打破了用户体验设计中最重要的规则!

    以下内容由Mockplus(摹客)团队翻译整理,仅供学习交流,Mockplus是更快更简单的原型设计工具。

    奔跑的小鹿
  • 小白博客 CryKeX:Linux内存加密密钥提取工具

    CryKeX特性 1. 跨平台 2. 简单实用 3. 交互性强 4. 兼容性/可移植性强 5. 应...

    奶糖味的代言
  • 企点3.1 | 电话客服六大功能新鲜解锁!快来体验吧

    ? 本次企点客服-电话客服3.1版本 共计更新/优化了六大功能点 快来看看新功能在哪里/怎么用! 1.满意度调查优化 | 2.路由分配规则新增按坐席技能分分...

    腾讯企点
  • 听说你的表情包不够用了?

    今天研究了会requests库。发现和urllib库功能类似,很好上手,因此写了个Demo爬了爬表情包。我选取了几个知乎里关于表情包问题的高赞回答,一共爬取了三...

    树枝990
  • 一文告诉你 Java RMI 和 RPC 的区别!

    RPC(Remote Procedure Call Protocol)远程过程调用协议,通过网络从远程计算机上请求调用某种服务。一次RPC调用的过程大概有10步...

    Java技术栈

扫码关注云+社区

领取腾讯云代金券