01、研究(论文)简介
在多供应商市场中,CDN供应商在升级双端(即服务器端和客户端)丢包容忍方案方面的权限有限,现在的直播服务还是用基于自动重传请求(ARQ)的方法来恢复丢失的数据包。本研究做了大量测量,在多达5000万次的直播中,发现数据包丢失是有变化的,直播过程中经常出现开关模式切换。因为普遍存在的重传丢失导致的恢复延迟是影响直播客户端体验质量(QoE,如视频卡顿)的关键因素,所以我们提出了一个叫AutoRec的增强丢包恢复机制。AutoRec可以把开关模式切换的劣势变成优势,从而在不需要修改客户端的情况下减少丢包恢复延迟。AutoRec还使用了一种基于在线学习的策略来适应数据包丢失的变化,平衡恢复延迟和引入的开销之间的权衡。这个研究在QUIC协议上实现了AutoRec,并通过测试平台和实际商业服务部署进行了评估。评估结果显示AutoRec可以让客户端直播视频卡顿的平均次数和持续时间分别降低11.4%和5.2%,证明了AutoRec的实用性和盈利性。
02、研究动因
随着互联网技术的飞速发展,各短视频平台的音视频直播服务已经深入人们的日常生活,并极大的丰富了大众的业余生活。因此,提高音视频直播传输性能已成为重要的需求。其中,网络丢包严重影响着用户体验(QoE)。目前,提高丢包容忍度的方案主要依赖于服务端和客户端实施一些特殊控制策略。而在大型直播网络中,直播平台通常采用多供应商策略。这时,CDN供应商只能调整服务端的发送控制策略,而无法修改客户端的接收控制规则。因此,由于需要同时升级服务端和客户端,很多针对丢包容忍度的优化方案难以大规模推广。在现有的商业解决方案中,CDN供应商主要依赖自动重复请求(ARQ)机制来恢复丢失的数据,也就是说,当检测到数据包丢失时,系统会立即重新传输丢失的数据。然而,根据本研究的大规模测量,传统的ARQ丢包恢复机制并不能令人满意。
03、研究面临的技术与挑战
04、核心贡献
本研究制定了一套评估数据包丢失恢复质量的标准,并对5000万个实时流媒体数据进行了广泛测量。结果表明,在音视频直播应用场景中,数据包丢失恢复质量是无法满足现有应用需求。此外,我们发现在此场景下,on-off传输模式普遍存在且分布不均衡,这对于传输控制具有一定的挑战性。
本研究提出了一种名为AutoRec的增强型丢包恢复机制。AutoRec的核心理念在于令发送端将off状态视作重新注入那些被重传但未确认的数据包的关键时机。AutoRec采纳了在线学习的方式,能够依据测得的网络服务质量(QoS)指标自动地对重新注入策略进行更新,且仅需在发送端进行改动。
在本研究中,我们基于运行在用户态的QUIC协议实现了AutoRec原型,并将其部署在测试平台以及实际网络环境中的CDN代理服务器上进行了评估。实验结果显示,AutoRec能够使客户端直播视频卡顿的平均次数和持续时间分别减少11.4%和5.2%。
05、核心方案与解析
AutoRec的架构
1.关键思想
AutoRec 将难以控制的 on-off 模式视为提高直播流恢复延迟以及减轻潜在队首阻塞对播放器卡顿所造成负面影响的关键要素,旨在针对每次丢包发送“少量且足够”的副本。AutoRec仅需在发送端进行改动。一旦检测到丢包,AutoRec利用冗余适应性来计算下一次应重传的丢失数据包副本数量。在确定副本数量后,AutoRec采用注入控制以确定从发送端发送每个副本的特定顺序和时间。
2.冗余适应
本模块旨在解决关于发送多少个副本来加速数据包丢失恢复的问题。冗余级别被定义为应对特定丢失数据包所需注入的副本数量。本研究将注入开销定义为传输过程中发送的副本总数。为了适应数据包丢失的动态变化,本研究引入了冗余适应性,使得冗余级别能够动态调整。为此,本研究引入了冗余适配器,它能够逐步学习数据包丢失动态的特征,并为丢失的数据包精心选择最合适的冗余级别。这确保了 AutoRec 能够适应数据包丢失的动态变化,同时实现冗余成本的最小化。
3.注入控制
此模块阐述了一种方法,用于发送由冗余适配器确定的指定数量的副本。针对每个丢失的数据包,可能有多个副本被注入到网络中。为防止未丢失数据传输的带宽竞争,本研究引入注入控制器,以便在直播流处于关闭状态时能够发送丢失数据包的副本。为了进一步降低丢包恢复延迟,注入控制器还会适时地抓住理想时机,即使在流未处于关闭状态时也能注入副本。此外,注入控制器还能将未丢失数据传输的带宽竞争保持在安全范围内。这确保了AutoRec能够适应on-off传输模式的不均匀分布。
05、实验结果与分析评估
为了更精准的评估AutoRec的效果,本研究定义恢复恶化率这一度量标准。恢复恶化率指定义在数据恢复过程中,需要两个或更多时间单位方可恢复的丢失数据量与全部丢失数据量之比。通过这个比率有助于我们了解丢失数据的恢复情况,尤其是那些恢复延迟较长的数据在整个丢失数据中所占的比例。
1.AutoRec 在实验平台中的丢包容忍度收益
AutoRec在实验平台中的丢包容忍度收益
AutoRec能够在各种网络条件下引入一致的恢复延迟提升。视频比特率或瓶颈链接缓冲区的变动对恢复延迟的改善影响较小。较高的数据包丢失率可能导致恢复质量的降低。具有较大往返时延(RTT)的实时流媒体将面临更长的恢复延迟。
2.AutoRec 在现实网络中的丢包容忍度收益
AutoRec在现实网络中的丢包容忍度收益
AutoRec在现实网络环境中能够显著提升数据传输的恢复延迟和恢复恶化率。尤其对于具有较大SRTT和丢包率的直播流媒体,AutoRec的优化效果更为显著。
3.AutoRec 在现实网络中的开销
AutoRec在现实网络中的开销
在现实网络中,AutoRec 可以实现效用优化,同时避免产生较大的注入开销。根据这里研究数据,平均效用可优化达 6.3%,其中 80% 效用值的优化率为 13.4%。在大部分情况下,AutoRec仅会导致约5.1%的有效吞吐量恶化和3.6%的重传率增加。
4.AutoRec 在现实网络中对直播卡顿的频率和时长的收益
AutoRec在现实网络中对直播卡顿的频率和时长的收益
AutoRec在优化现实网络中视频直播卡顿频率及持续时间方面表现出显著效果。通过使用AutoRec,平均卡顿时间(每100秒)可降低11.4%,第90%和95%分位点上的优化可分别达到24.4%和34.1%。此外,AutoRec还实现了卡顿持续时间(每100秒)的5.2%优化,第95个百分位点上的值减少了约80毫秒(比例为16.0%)。
06、最后
重传其实不会让数据包恢复变慢,反而重传的丢失才是导致丢包恢复缓慢的关键。AutoRec这个技术提出就是通过让发送方智能地添加丢失的重复数据副本来加速恢复。AutoRec的特别之处在于,它把on-off传输模式切换的弱点变成了提高数据包恢复速度的优势。这种方法不仅能让数据包丢失后更快地恢复,还能保证正在传输的数据不受影响。而且测试平台和真实网络的部署都证实了AutoRec实用能力和盈利能力。目前,AutoRec已经在全球最大的CDN供应商之一腾讯CDN及其边缘安全与加速产品EdgeOne上运行,为全球的亿万直播用户提供服务。当前AutoRec在实验和真实网络里表现相当出色,但还需要继续努力研究和优化,以应对更复杂和变化的网络环境。
原文地址:
https://dl.acm.org/doi/10.1145/3664647.3681423
TQUIC开源项目(GitHub - Tencent/tquic: A high-performance, lightweight, and cross-platform QUIC library 地址:https://github.com/Tencent/tquic)
团队介绍
腾讯云架构平台部应用框架TQUIC/QTCP协议栈团队负责腾讯云及边缘云EdgeOne业务的传输优化,聚焦于TCP/QUIC等协议与算法的创新与优化,提升各类业务的传输性能。目前主要的业务为音视频直播、点播以及电商图片类业务,通过研究高度适配业务特征的传输控制机制,面向客户端的业务体验,打造业界一流的高效网络传输性能。团队近年来在音视频等多媒体传输领域取得多项显著的业务收益,完成数十个国家发明专利的布局与授权。
LitongLab(www.litonglab.com)是中国人民大学计算机网络研究小组,隶属于杜小勇教授领导的中国人民大学数据工程与知识工程教育部重点实验室。其研究兴趣主要集中在网络系统和大数据系统。该小组负责人为李彤副教授,现任数据科学与工程教研室副主任,中国人民大学杰出学者。2022 年加入中国人民大学数据工程与知识工程教育部重点实验室(杜小勇教授团队)。主持了国家自然科学基金、多项企业合作项目,在新型互联网体系结构、物联网、分布式系统和大数据的研究领域发表了包括 ACM SIGCOMM、USENIX NSDI、IEEE INFOCOM、IEEE/ACM TON、IEEE TPDS 等在内的高水平国际会议和期刊 50 余篇,并持有 10 余项已授权中国专利和3项美国专利,曾获得过华为十大发明奖和ACM SIGCOMM中国新星奖。
如果您想了解更多腾讯云音视频相关能力,请扫描下方二维码添加音视频小姐姐微信,我们将安排产研同学专门跟进您的需求。